周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム
入力音声信号から周囲信号を抽出する装置は、入力オーディオ信号の時間-周波数分布の所定の周波数バンドの一連の時間変化する周囲信号のゲイン値を前記入力オーディオ信号に従って決定するように構成されたゲイン値決定部と、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号のうちの1つを、時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部とを備える。
ゲイン値決定部は、入力オーディオ信号の1つ以上の特徴を記述する1つ以上の定量的特徴値を取得し、ゲイン値が定量的値に定量的に依存するように、ゲイン値を1つ以上の定量的特徴値の関数として提供するように構成され、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるようにゲイン値を決定するように構成される。
ゲイン値決定部は、入力オーディオ信号の1つ以上の特徴を記述する1つ以上の定量的特徴値を取得し、ゲイン値が定量的値に定量的に依存するように、ゲイン値を1つ以上の定量的特徴値の関数として提供するように構成され、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるようにゲイン値を決定するように構成される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明に係る実施形態は、周囲信号を抽出する装置および周囲信号を抽出するための重み付け係数を取得する装置に関する。
【0002】
本発明に係るいくつかの実施形態は、周囲信号を抽出する方法および重み付け係数を取得する方法に関する。
【0003】
本発明に係るいくつかの実施形態は、アップミックスのためにオーディオ信号から正面信号と周囲信号とを抽出する低い複雑さの抽出法に向けられている。
【背景技術】
【0004】
以下に、イントロダクションを述べる。
1.イントロダクション
マルチチャンネル録音資料は、消費者の家庭環境においても、ますます普及してきている。これは主に、DVDの映画が、5.1マルチチャンネルサウンドを提供し、それ故に、家庭のユーザでさえ、しばしばマルチチャンネルオーディオを再生するオーディオ再生システムを設置するという事実に起因している。
【0005】
この種のセットアップは、例えば、正面の3台のスピーカ(L,C,R)と、後方の2台のスピーカ(Ls,Rs)と、1つの低周波エフェクトチャンネル(LFE)とから構成することができる。便宜上、与えられた説明は、5.1システムに関連する。それらは、マイナーな修正を持ついかなる他のマルチチャンネルシステムにも適用される。
【0006】
例えば、マルチチャンネルシステムは、2チャンネルステレオ再生を超えるいくつかの周知の利点を提供する。
・利点1:最適な(中心の)リスニングポジションを離れた場所でさえも正面像の安定性が改善される。中心チャンネルによって「スイートスポット」は拡大される。用語「スイートスポット」は、最適なサウンドインプレッションが知覚されるリスニングポジションの領域を意味する。
・利点2:「包み込まれた状態」および開放感の増強された体験は、後方チャンネルスピーカによって構築される。
【0007】
それにもかかわらず、例えば古い映画やテレビジョンシリーズでは、2つのオーディオチャンネル(「ステレオ」)あるいは1つのみ(「モノラル」)を有する大量の伝承オーディオコンテンツが存在する。
【0008】
近年では、少ないチャンネルのオーディオ信号からマルチチャンネル信号を生成するさまざまな方法が開発されている(関係する従来のコンセプトの概要については第2章を参照)。少ないチャンネルのオーディオ信号からマルチチャンネル信号を生成する処理は、「アップミックス」呼ばれる。
【0009】
アップミックスの次の2つのコンセプトが広く知られている。
(1)アップミックス処理をガイドする付加情報を持つアップミックス
付加情報は、入力信号のなかに特定の方法で「符号化」するか、または、付加的に記憶させることもできる。このコンセプトは、「ガイドアップミックス」としばしば呼ばれる。
(2)それに対して、マルチチャンネル信号がオーディオ信号からいかなる付加情報もなしに排他的に取得される「ブラインドアップミックス」
【0010】
本発明に係る実施形態は、後者、すなわちブラインドアップミックス処理に関する。
【0011】
文献においては、アップミックス処理の代替分類が報告されている。アップミックス処理は、直接/周囲‐コンセプトまたは「イン・ザ・バンド」‐コンセプトまたは両方の混合のいずれかに従うことができる。これらの2つのコンセプトは、以下において解説される。
【0012】
A.直接/周囲‐コンセプト
「直接音源」は、オリジナルの2チャンネルバージョンと同じ位置で知覚される方法で、3つの正面チャンネルによって再生される。用語「直接音源」は、1つの分離した音源(例えば、楽器)から単独かつ直接にやってくる音を、いかなる付加的な音、例えば壁からの反射によるものをほとんど有さずまたは全く有さずに記述するために用いられる。
【0013】
後方スピーカには、周囲音(周囲らしい音)が供給される。周囲音は、(仮想の)リスニング環境のインプレッションを形成するものであり、部屋の残響、観衆音(例えば拍手)、環境音(例えば雨)、人工的に意図された効果音(例えばビニールクラックリング)および暗騒音を含んでいる。
【0014】
図23は、オリジナルの2チャンネルバージョンの音像を例示したものであり、図24は、直接/周囲‐コンセプトに従うアップミックスの音像を例示したものである。
【0015】
B.「イン・ザ・バンド」‐コンセプト
「イン・ザ・バンド」‐コンセプトに従うと、あらゆる音、または少なくともいくつかの音(周囲音ばかりでなく直接音も)は、リスナーのすべてのまわりに配置することができる。音の位置は、その特性(すなわち、それが直接音か周囲音であるかどうか)からは独立し、アルゴリズムとそのパラメータ設定の特定のデザインにのみ依存する。図25は、「イン・ザ・バンド」‐コンセプトの音像を例示している。
【0016】
本発明に係る装置および方法は、直接/周囲‐コンセプトに関する。次章は、mチャンネルのオーディオ信号をnチャンネルのオーディオ信号にアップミックスする局面(m<n)における従来のコンセプトの概要を示す。
【0017】
2.ブラインドアップミックスにおける従来のコンセプト
2.1 モノラル録音のアップミックス
2.1.1 疑似ステレオ処理
いわゆる「疑似ステレオ」信号を生成する大部分の技術は、信号適応ではない。これは、いかなるモノラル信号も、コンテンツが何であろうとも同様に処理することを意味する。それらのシステムは、出力信号を非相関化するための単純なフィルタ構造および/または時間遅延によって、例えば1つのチャンネルの入力信号の2つのコピーを一対の相補的櫛形フィルタによって処理することによってしばしば機能する[Sch57]。この種のシステムの包括的な概要は、[Fal05]に見いだすことができる。
【0018】
2.1.2 音源形成を用いたモノラルからステレオへの半自動アップミックス
著者は、同じ音源に帰属し、それ故に一緒にパンされるべき信号成分(例えばスペクトルの時間‐周波数ビン)を識別するアルゴリズムを提案する[LMT07]。音源形成アルゴリズムは、ストリーム分離の原理(ゲシュタルト原理から導き出される):時間の連続性と、周波数の高調波関係と、振幅類似性を考慮する。音源は、クラスタリング法(教師なし学習)を用いて識別される。導き出された「時間‐周波数‐クラスタ」は、(a)対象の周波数範囲に関する情報、(b)音色類似性、を用いて、より大きなサウンドストリームに更に分類される。著者は、フロントエンドとして、正弦波モデリングアルゴリズム(すなわち、信号の正弦波成分の識別)の使用を報告している。
【0019】
音源形成の後、ユーザは、音源を選択し、それらにパニング重み付けを適用する。(いくつかの従来のコンセプトによれば)多くの提唱された手法(正弦波モデリング、ストリーム分離)は、平均的な複雑さの現実の信号を処理するときに、信頼できるものを実行しないことに留意すべきである。
【0020】
2.1.3 非負マトリクス因数分解を用いた周囲抽出
入力信号の時間‐周波数分布(TFD)は、例えば、短期間フーリエ変換によって演算される。直接信号成分のTFDの推定は、非負マトリクス因数分解の数値最適化法によって導き出される。周囲信号のTFDの推定は、入力信号のTFDと、直接信号のTFDの推定との差分(すなわち、近似の残差)を演算することによって取得される。周囲信号の時間信号の再合成は、入力信号の位相スペクトログラムを用いて実行される。付加的な後処理は、導き出されたマルチチャンネル信号のリスニング体験を改善するために、オプションとして適用される[UWHH07]。
【0021】
2.1.4 適応スペクトルパノラマ化(ASP)
ステレオサウンドシステムを用いた再生のためのモノラル信号のパノラマ化の方法は、[VZA06]に解説されている。処理は、STFTと、左右のチャンネル信号の再合成に用いられる周波数ビンの重み付けと、逆STFTとを組み込む。時間変化する重み付け係数は、入力信号のスペクトログラムからサブバンドにおいて演算される低レベルの特徴から導き出される。
【0022】
2.2 ステレオ録音のアップミックス
2.2.1 マトリクスデコーダ
パッシブマトリクスデコーダは、入力チャンネル信号の時間不変線形結合を用いてマルチチャンネル信号を演算する。
【0023】
アクティブマトリクスデコーダ(例えば、Dolby Pro Logic II[Dre00]、DTS NEO:6[DTS]またはHrmanKardon/Lexicon Logic 7[Kar])は、入力信号の解析を行い、マトリクス要素の信号依存適応(すなわち、線形結合のための重み付け)を実行する。これらのデコーダは、マルチチャンネル出力信号を生成するために、チャンネル間差分と信号適応ステアリングメカニズムとを用いる。マトリクスステアリング法は、顕著なソース(例えば、会話)を検出することを目指す。その処理は、時間領域において実行される。
【0024】
2.2.2 ステレオをマルチチャンネルサウンドに変換する方法
IrwanとAartsは、信号をステレオからマルチチャンネルに変換する方法を提供する[IA01]。サラウンドチャンネルの信号は、相互相関法(演算負荷を減らすために、相関係数の反復推定が提案されている)を用いて算出される。
【0025】
中心チャンネルのミキシング係数は、主成分分析(PCA)を用いて取得される。PCAは、優位な信号の方向を示すベクトルを計算するために適用される。一度に1つの優位な信号のみを検出することができる。PCAは、反復勾配降下法(これは、観測の共分散マトリクスの固有値分解を用いた標準PCAと比較して、演算負荷に関して要求が多くない)を用いて実行される。演算された方向ベクトルは、すべての非相関化された信号成分が無視される場合に、ゴニオメータの出力と類似している。方向は、次に、3つの正面チャンネルを構築するために、2から3チャンネル表現にマップされる。
【0026】
2.2.3 2から5チャンネルへのアップミックスの教師なし適応フィルタリングアプローチ
著者は、IrwanとAartsによる方法と比較される改良型アルゴリズムを提案する。元々提案された方法は、各サブバンドに適用される[LD05]。著者は、優位な信号のW排反直交性を仮定する。周波数分解は、疑似直角位相ミラーフィルタバンクまたはウェーブレットベースのオクターブフィルタバンクを用いて行われる。IrwanとAartsによる方法に対する更なる拡張は、(最初の)主成分の反復演算のための適応ステップサイズを用いることである。
【0027】
2.2.4 マルチチャンネルオーディオアップミックスのためのステレオ信号からの周囲の抽出および合成
AvendanoとJotは、ステレオオーディオ信号において周囲情報を識別し、抽出する周波数ドメイン法を提案している[AJ02]。
【0028】
その方法は、チャンネル間整合性指標と、大部分が周囲成分を構成する時間‐周波数領域の判定を可能とする非線形マッピング関数との演算に基づいている。周囲信号は、引き続いて合成され、マルチチャンネル再生システムのサラウンドチャンネルに用いられる。
【0029】
2.2.5 記述子ベースの空間化
著者は、信号の自動類別によって制御することができる1からnへのアップミックスの方法を記述する[MPA+05]。この論文は、いくつかの誤りを含んでおり、それ故に著者は、論文に解説されていることと異なる目標を目指したのかもしれない。
【0030】
アップミックス処理は、3つの処理ブロック:「アップミックスツール」、人工リバーブ、イコライズ、を使用する。「アップミックスツール」は、周囲信号の抽出を含むさまざまな処理ブロックから構成される。周囲信号の抽出方法(「空間弁別器」)は、スペクトルドメインにおけるステレオ録音の左右の信号の比較に基づいている。モノラル信号をアップミックスするためには、人工リバーブが用いられる。
【0031】
著者は、3つのアプリケーション:1から2へのアップミックス、2から5へのアップミックス、1から5へのアップミックス、を解説する。
【0032】
オーディオ信号の類別
類別処理は、教師付き学習アプローチ:オーディオ信号から低レベル特徴が抽出され、識別子がオーディオ信号を音楽、音声、またはその他の音の3つのクラスの1つに類別するために適用される、を用いる。
【0033】
類別処理の特殊性は、以下を見いだすために遺伝的プログラミング法を用いることである。
・最適特徴(差分オペレーションの組成物としての)
・取得された低レベル特徴の最適組合せ
・一組の利用可能な識別子からの最良識別子
・選択された識別子のための最良パラメータ設定
【0034】
1から2へのアップミックス
アップミックスは、リバーブとイコライズとを用いてなされる。信号が音声を含む場合は、イコライズは使用可能であり、リバーブは使用不可である。それ以外の場合は、イコライズは使用不可であり、リバーブは使用可能である。後方チャンネルにおける話し言葉の抑制を目指したいかなる専用処理も組み込まれない。
【0035】
2から5へのアップミックス
著者は、マルチチャンネルサウンドトラックを組み立てることを目指しているが、中心チャンネルをミュートすることによって、検出された音声は減衰される。
【0036】
1から5へのアップミックス
マルチチャンネル信号は、リバーブ、イコライズ、「アップミックスツール」(これは、ステレオ信号から5.1信号を生成するものであって、ステレオ信号はリバーブの出力であって「アップミックスツール」への入力である)、を用いて生成される。音楽、音声、他の全ての音には、異なるプリセットが用いられる。リバーブとイコライズを制御することによって、音声を中心チャンネルに保持し、すべてのチャンネルに音楽と他の音を有するマルチチャンネルのサウンドトラックが組み立てられる。
【0037】
信号が音声を含む場合には、リバーブは使用不可である。それ以外の場合は、リバーブは使用可能である。後方チャンネル信号の抽出はステレオ信号に依存するので、リバーブが使用不可のとき(音声のケース)にはいかなる後方チャンネル信号も生成されない。
【0038】
2.2.6 周囲ベースのアップミックス
Soulodreは、ステレオ信号からマルチチャンネル信号を構築するシステムを提供する[Sou04]。信号は、いわゆる「個別ソースストリーム」と「周囲ストリーム」に分解される。これらのストリームに基づき、いわゆる「審美エンジン」がマルチチャンネル出力を合成する。分解と合成のステップの更なる技術詳細は与えられていない。
【0039】
2.3 任意数のチャンネルを有するオーディ信号のアップミックス
2.3.1 マルチチャンネルサラウンドフォーマット変換および一般化アップミックス
著者は、中間モノラルダウンミックスを用いた空間オーディオ符号化に基づく方法を記述し、中間ダウンミックスを有さない改良方法を紹介する。改良方法は、パッシブマトリクスアップミックスと、空間オーディオ符号化により知られた法則を含む。改良は、中間オーディオの増大したデータレートの代償として得られる[GJ07a]。
【0040】
2.3.2 空間オーディオ符号化と強化のための主要周囲信号の分解およびベクトルベースの位置決め
著者は、主成分分析(PCA)を用いた入力信号の主要(直接)信号と周囲信号への分離を提案する[GJ07b]。
【0041】
入力信号は、主要(直接)信号と周囲信号の和としてモデル化される。直接信号は周囲信号より実質的に多くのエネルギーを有し、両方の信号は無相関であると仮定される。
【0042】
処理は、周波数ドメインにおいて行われる。直接信号のSTFT係数は、入力信号のSTFT係数の最初の主成分上への射影から取得される。周囲信号のSTFT係数は、入力信号と直接信号のSTFT係数の差分から演算される。
【0043】
(最初の)主成分(すなわち、最大固有値に対応する共分散マトリクスの固有ベクトル)のみが必要であるので、標準PCAにおいて用いられる固有値分解の演算的に効率的な代替手段(反復近似)が適用される。PCA分解のために必要とされる相互相関も、反復的に推定される。直接信号と周囲信号は、オリジナルに加算される。すなわち分解においていかなる情報も失われない。
【発明の概要】
【0044】
上記にかんがみて、入力オーディオ信号から周囲信号の低い複雑さの抽出法のニーズがある。
【0045】
本発明に係るいくつかの実施形態は、入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出する装置を構築する。装置は、入力オーディオ信号に従って、入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部を備える。装置は、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号の1つを、時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部を備える。ゲイン値決定部は、入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得し、ゲイン値が定量的特徴値に定量的に依存するように、ゲイン値を1つ以上の定量的特徴値の関数として提供するように構成される。ゲイン値決定部は、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるようにゲイン値を提供するように構成される。
【0046】
本発明に係るいくつかの実施形態は、入力オーディオ信号から周囲信号を抽出するための重み付け係数を取得する装置を提供する。装置は、係数決定入力オーディオ信号の複数の特徴を記述する複数の定量的特徴値の、重み付け係数を用いた(または重み付け係数によって定義された)重み付け結合に基づいて取得されたゲイン値が、係数決定入力オーディオ信号に関連づけられた予測ゲイン値を近似するように、重み付け係数を決定するように構成された重み付け係数決定部を備える。
【0047】
本発明に係るいくつかの実施形態は、周囲信号を抽出し、重み付け係数を取得する方法を提供する。
【0048】
本発明に係るいくつかの実施形態は、定量的特徴値、例えば入力オーディオ信号の1つ以上の特徴を記述する一連の定量的特徴値を決定することによって、この種の定量的特徴値が限られた演算労力によって提供でき、効率的かつ柔軟にゲイン値に変換できるような、特に効率的かつ柔軟な方法で、入力オーディオ信号から周囲信号を抽出することができるという発見に基づいている。1つ以上の特徴を1つ以上の一連の定量的特徴値に関して記述することによって、定量的特徴値に定量的に依存するゲイン値を容易に取得することができる。例えば、特徴値からゲイン値を引き出すために、単純な数学的マッピングを用いることができる。加えて、ゲイン値が特徴値に定量的に依存するようにゲイン値を提供することによって、入力オーディオ信号からの微調整された周囲信号の抽出を得ることができる。入力オーディオ信号のどの成分が周囲成分であって、入力オーディオ信号のどの成分が非周囲成分であるかという難しい判定をするよりもむしろ、周囲成分の段階的な抽出を実行することができる。
【0049】
加えて、定量的特徴値の使用は、異なる特徴を記述する特徴値の特に効率的かつ正確な結合を可能にする。定量的特徴値は、例えば、スケーリングする、または、数学的処理ルールによる線形または非線形方法で処理することができる。
【0050】
ゲイン値を取得するために複数の特徴値が結合されるいくつかの実施形態において、結合に関する詳細(例えば異なる特徴値のスケーリングに関する詳細)は、例えばそれぞれの係数を調整することによって、容易に調整することができる。
【0051】
上記を要約すると、定量的特徴値の決定を含み、定量的特徴値に基づくゲイン値の決定をも含む、周囲信号を抽出するコンセプトは、入力オーディオ信号から周囲信号を抽出する効率的かつ低い複雑さのコンセプトを構成することができる。
【0052】
本発明に係るいくつかの実施形態において、入力オーディオ信号の時間‐周波数ドメイン表現のサブバンド信号の1つ以上を重み付けすることが特に効率的であることが示されている。時間‐周波数ドメイン表現のサブバンド信号の1つ以上を重み付けすることによって、入力オーディオ信号から周囲信号成分の周波数選別的なまたは特別な抽出を成し遂げることができる。
【0053】
本発明に係るいくつかの実施形態は、入力オーディオ信号から周囲信号を抽出するための重み付け係数を取得する装置を構築する。
【0054】
これらの実施形態のいくつかは、周囲信号の抽出のための係数は、いくつかの実施形態において「校正信号」または「基準信号」とみなすことができる係数決定入力オーディオ信号に基づいて取得することができるという発見に基づいている。この種の係数決定入力オーディオ信号、例えば既知のまたは適度な労力によって取得できる予測ゲイン値を用いることによって、定量的特徴値の結合が結果として予測ゲイン値を近似するゲイン値になるような定量的特徴値の結合を定義する係数を取得することができる。
【0055】
前記コンセプトによれば、これらの係数によって構成される周囲信号抽出部が、入力オーディオ信号から係数決定入力オーディオ信号に類似する周囲信号(または周囲成分)の十分に良好な抽出を実行できるように、適当な重み付け係数のセットを取得することができる。
【0056】
本発明に係るいくつかの実施形態において、重み付け係数を取得する装置は、異なるタイプの入力オーディオ信号に対して周囲信号を抽出する装置の効率的な適応を可能とする。例えば、「トレーニング信号」、すなわち係数決定入力オーディオ信号として役立ち、周囲信号抽出部のユーザのリスニング嗜好に適応する所定のオーディオ信号に基づいて、適当な重み付け係数のセットを取得することができる。加えて、重み付け係数を提供することによって、異なる特徴を記述する利用可能な定量的特徴値の最適使用をなすことができる。
【0057】
本発明に係る実施形態の更なる詳細、作用および効果は、引き続いて記載される。
【図面の簡単な説明】
【0058】
本発明に係る実施形態は、以下の添付図面を参照して引き続いて記載される。
【図1】本発明に係る実施形態による周囲信号を抽出する装置のブロック構成図を示す。
【図2】本発明に係る実施形態による入力音声信号から周囲信号を抽出する装置の詳細ブロック構成図を示す。
【図3】本発明に係る実施形態による入力音声信号から周囲信号を抽出する装置の詳細ブロック構成図を示す。
【図4】本発明に係る実施形態による入力音声信号から周囲信号を抽出する装置のブロック構成図を示す。
【図5】本発明に係る実施形態によるゲイン値決定部のブロック構成図を示す。
【図6】本発明に係る実施形態による重み付け部のブロック構成図を示す。
【図7】本発明に係る実施形態による後処理部のブロック構成図を示す。
【図8a】本発明に係る実施形態による周囲信号を抽出する装置のブロック構成図からの抜粋を示す。
【図8b】本発明に係る実施形態による周囲信号を抽出する装置のブロック構成図からの抜粋を示す。
【図9】時間-周波数ドメイン表現から特徴値を抽出するコンセプトを図示したものである。
【図10】本発明に係る実施形態による1から5へのアップミックスを実行する装置または方法のブロック図を示す。
【図11】本発明に係る実施形態による周囲信号を抽出する装置または方法のブロック図を示す。
【図12】本発明に係る実施形態によるゲイン演算を実行する装置または方法のブロック図を示す。
【図13】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。
【図14】本発明に係る実施形態による重み付け係数を取得する他の装置のブロック構成図を示す。
【図15a】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。
【図15b】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。
【図16】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。
【図17】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図の抜粋を示す。
【図18a】本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。
【図18b】本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。
【図19】本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。
【図20】本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。
【図21】本発明に係る実施形態による入力音声信号から周囲信号を抽出する方法のフローチャートを示す。
【図22】本発明に係る実施形態による重み付け係数を決定する方法のフローチャートを示す。
【図23】ステレオ再生を例示する図である。
【図24】直接/周囲‐コンセプトを例示する図である。
【図25】イン・ザ・バンド‐コンセプトを例示する図である。
【発明を実施するための形態】
【0059】
周囲信号を抽出する装置 − 第1実施形態
図1は、入力オーディオ信号から周囲信号を抽出する装置のブロック構成図を示す。図1に示される装置は、全体として100で表される。装置100は、入力オーディオ信号110を受信し、入力オーディオ信号に基づいて少なくとも1つの重み付けられたサブバンド信号を提供し、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるように構成される。装置100は、ゲイン値決定部120を備える。ゲイン値決定部120は、入力オーディオ信号110を受信し、入力オーディオ信号110に従って一連の時間変化する周囲信号ゲイン値122(簡単にゲイン値とも表される)を提供するように構成される。ゲイン値決定部120は、重み付け部130を備える。重み付け部130は、入力オーディオ信号の時間‐周波数ドメイン表現またはその少なくとも1つのサブバンド信号を受信するように構成される。サブバンド信号は、入力オーディオ信号の1つの周波数バンドまたは1つの周波数サブバンドを記述することができる。重み付け部130は、サブバンド信号132に従って、かつ、一連の時間変化する周囲信号のゲイン値122にも従って、重み付けられたサブバンド信号112を提供するように更に構成される。
【0060】
上記構成上の記述に基づき、装置100の機能は以下に記載される。ゲイン値決定部120は、入力オーディオ信号110を受信し、入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得するように構成される。言い換えれば、ゲイン値決定部120は、例えば、入力オーディオ信号の1つの特徴または特性を特徴づけている定量的情報を取得するように構成することができる。あるいは、ゲイン値決定部120は、入力オーディオ信号の複数の特徴を記述する複数の定量的特徴値(またはその一連)を取得するように構成することができる。このように、入力オーディオ信号の特徴(または、いくつかの実施形態においては「低レベル特徴」)とも表される、一定の特性を、一連のゲイン値を提供するために評価することができる。ゲイン値決定部120は、一連の時間変化する周囲信号のゲイン値122を、1つ以上の定量的特徴(またはその一連)の関数として提供するように更に構成される。
【0061】
以下において、用語「特徴」は、記述を短縮するために、時には、特徴または特性を表すために用いられる。
【0062】
いくつかの実施形態では、ゲイン値決定部120は、時間変化する周囲信号のゲイン値を、ゲイン値が定量的特徴値に定量的に依存するように、提供するように構成される。言い換えれば、いくつかの実施形態では、特徴値は、複数の値(ある場合は2つ以上の値、ある場合は10以上の値およびある場合は準連続数の値でさえある)をとることができ、対応する周囲信号のゲイン値は、(少なくとも特徴値の一定範囲にわたって)線形または非線形方法で特徴値を追従することができる。このように、いくつかの実施形態では、ゲイン値は、1つ以上の対応する定量的特徴値の1つの増加によって単調に増加することができる。他の実施形態では、ゲイン値は、1つ以上の対応する値の1つの増加によって単調に減少することができる。
【0063】
いくつかの実施形態では、ゲイン値決定部は、第1の特徴の時間進化を記述する一連の定量的特徴値を生成するように構成することができる。したがって、ゲイン値決定部は、例えば、一連のゲイン値の第1の特徴を記述する一連の特徴値をマップするように構成することができる。
【0064】
いくつかの他の実施形態では、ゲイン値決定部は、入力オーディオ信号110の複数の異なる特徴の時間進化を記述する複数の一連の特徴値を提供するかまたは算出するように構成することができる。したがって、複数の一連の定量的特徴値は、一連のゲイン値にマップすることができる。
【0065】
上記を要約すると、ゲイン値決定部は、入力オーディオ信号の1つ以上の特徴を定量的方法で評価することができ、それに基づくゲイン値を提供することができる。
【0066】
重み付け部130は、入力オーディオ信号110の周波数スペクトルの一部を(または完全な周波数スペクトルでさえも)一連の時間変化する周囲信号のゲイン値122に従って重み付けするように構成される。この目的のために、重み付け部は、入力オーディオ信号の時間‐周波数ドメイン表現の少なくとも1つのサブバンド信号132(または複数のサブバンド信号)を受信する。
【0067】
ゲイン値決定部120は、入力オーディオ信号を、時間ドメイン表現または時間‐周波数ドメイン表現のいずれかで受信するように構成することができる。しかしながら、周囲信号を抽出する処理は、入力信号の重み付けが入力オーディオ信号110の時間‐周波数ドメインを用いて重み付け部によって実行される場合に、特に効率的な方法で実行できることが分かっている。重み付け部130は、入力オーディオ信号の少なくとも1つのサブバンド信号132をゲイン値122に従って重み付けするように構成される。重み付け部130は、サブバンド信号をスケーリングするために、一連のゲイン値のうちのゲイン値を1つ以上のサブバンド信号132に適用し、1つ以上の重み付けられたサブバンド信号112を取得するように構成される。
【0068】
いくつかの実施形態では、ゲイン値決定部120は、入力オーディオ信号の特徴が評価され、入力オーディオ信号110またはそのサブバンド(サブバンド信号132によって表される)がオーディオ信号のなかの周囲成分または非周囲成分を表す見込みがあるかどうかを特徴づける(または少なくとも表示を提供する)ように構成される。しかしながら、ゲイン値決定部によって処理される特徴値は、入力オーディオ信号110のなかの周囲成分と非周囲成分の関連性に関する定量的情報を提供するために選択することができる。例えば、特徴値は、入力オーディオ信号110のなかの周囲成分と非周囲成分の関連性に関する情報(または少なくとも表示)、または少なくともその予測を記述する情報をもたらすことができる。
【0069】
したがって、ゲイン値決定部130は、ゲイン値122に従って重み付けされたサブバンド信号112のなかの周囲成分が非周囲成分に対して強調されるように、一連のゲイン値を生成するように構成することができる。
【0070】
上記を要約すると、装置100の機能は、入力オーディオ信号110の特徴を記述する1つ以上の一連の定量的特徴値に基づく一連のゲイン値の決定をベースとしている。一連のゲイン値は、特徴値がそれぞれの時間‐周波数ビンの比較的大きい「周囲らしさ」を示す場合には、入力オーディオ信号110の周波数バンドを表したサブバンド信号132は大きなゲイン値でスケーリングされ、ゲイン値決定部によって考慮された1つ以上の特徴がそれぞれの時間‐周波数ビンの比較的小さい「周囲らしさ」を示す場合には、入力オーディオ信号110の周波数バンドは比較的小さいゲイン値でスケーリングされるように、生成される。
【0071】
周囲信号を抽出する装置 − 第2実施形態
ここで、図2を参照して、図1に示された装置100のオプションの拡張について述べる。図2は、入力オーディオ信号から周囲信号を抽出する装置の詳細なブロック構成図を示す。図2に示される装置は、全体として200で表される。
【0072】
装置200は、入力オーディオ信号210を受信し、複数の出力サブバンド信号212a〜212dを提供し、そのうちの幾つかは重み付けできるように構成される。
【0073】
装置200は、例えば、オプションと考えることができる解析フィルタバンク216を備えることができる。解析フィルタバンク216は、例えば、時間ドメイン表現の入力オーディオ信号コンテンツ210を受信し、入力オーディオ信号の時間‐周波数ドメイン表現を提供するように構成することができる。入力オーディオ信号の時間‐周波数ドメイン表現は、例えば、入力オーディオ信号を複数のサブバンド信号218a〜218dに関して記述することができる。サブバンド信号218a〜218dは、例えば、入力オーディオ信号210の異なるサブバンドまたは周波数バンドに存在するエネルギーの時間進化を表すことができる。例えば、サブバンド信号218a〜218dは、入力オーディオ信号210の引き続く部分(時間的に)の一連の高速フーリエ変換係数を表すことができる。例えば、第1のサブバンド信号218aは、引き続く時間部分における入力オーディオ信号の所定の周波数サブバンドに存在するエネルギーの時間進化を記述することができ、それはオーバーラップしていてもオーバーラップしていなくてもよい。同様に、他のサブバンド信号218b〜218dは、他のサブバンドに存在するエネルギーの時間進化を記述することができる。
【0074】
ゲイン値決定部は、複数の定量的特徴値決定部250、252、254を(オプションとして)備えることができる。定量的特徴値決定部250、252、254は、いくつかの実施形態において、ゲイン値決定部220の一部とすることができる。しかしながら、他の実施形態では、定量的特徴値決定部250、252、254は、ゲイン値決定部220に対して外部にあってもよい。この場合、ゲイン値決定部220は、定量的特徴値を外部の定量的特徴値決定部から受信するように構成することができる。外部で生成された定量的特徴値と内部で生成された定量的特徴値を受信することはいずれも、定量的特徴を「取得する」こととみなされる。
【0075】
定量的特徴値決定部250、252、254は、例えば、入力オーディオ信号についての情報を受信し、入力オーディオ信号の異なる特徴を定量的方法で記述する定量的特徴値250a、252a、254aを提供するように構成することができる。
【0076】
いくつかの実施形態では、定量的特徴値決定部250、252、254は、入力オーディオ信号210の周囲成分コンテンツに関する、または、入力オーディオ信号210の周囲成分コンテンツと非周囲成分コンテンツの関連性に関する指標を提供する入力オーディオ信号210の特徴を、対応する定量的特徴値250a、252a、254aに関して記述するために選択される。
【0077】
ゲイン値決定部220は、重み付け結合部260を更に備える。重み付け結合部260は、定量的特徴値250a、252a、254aを受信し、それに基づいてゲイン値222(または一連のゲイン値)を提供するように構成することができる。ゲイン値222(または一連のゲイン値)は、サブバンド信号218a、218b、218c、218dの1つ以上を重み付けするために重み付けユニットによって用いられる。例えば、重み付けユニット(簡単に「重み付け部」とも表される)は、例えば、複数の個別スケーリング部または個別重み付け部270a、270b、270cを備えることができる。例えば、第1の個別重み付け部270aは、第1のサブバンド信号218aをゲイン値(または一連のゲイン値)222に従って重み付けするように構成することができる。このように、第1の重み付けられたサブバンド信号212aが取得される。いくつかの実施形態では、ゲイン値(または一連のゲイン値)222は、付加的なサブバンド信号を重み付けするために用いられる。実施形態では、オプションの第2の個別重み付け部270bは、第2のサブバンド信号218bを重み付けし、重み付けられた第2のサブバンド信号212bを取得するように構成することができる。更に、第3の個別重み付け部 270cは、第3のサブバンド信号218cを重み付けし、第3の重み付けられたサブバンド信号212cを取得するために用いることができる。上記説明から、ゲイン値(または一連のゲイン値)222は、入力オーディオ信号を時間‐周波数ドメイン表現の形式で表したサブバンド信号218a、218b、218c、218dの1つ以上を重み付けするために使用できることがわかる。
【0078】
定量的特徴値決定部
以下に、定量的特徴値決定部250、252、254に関するさまざまな詳細が記載される。
【0079】
定量的特徴値決定部250、252、254は、異なるタイプの入力情報を使用するように構成することができる。例えば、図2に示されるように、第1の定量的特徴値決定部250は、入力情報として、入力オーディオ信号の時間ドメイン表現を受信するように構成することができる。あるいは、第1の定量的特徴値決定部250は、入力オーディオ信号の全スペクトルを記述する入力情報を受信するように構成することができる。このように、いくつかの実施形態では、少なくとも1つの定量的特徴値250aは、(オプションとして)入力オーディオ信号の時間ドメイン表現に基づいて、または、入力オーディオ信号を全体として(少なくとも所定の期間について)記述する他の表現に基づいて算出することができる。
【0080】
第2の定量的特徴値決定部252は、入力情報として、単一のサブバンド信号、例えば第1のサブバンド信号218aを受信するように構成される。このように、第2の定量的特徴値決定部は、例えば、単一のサブバンド信号に基づいて、対応する定量的特徴値252aを提供するように構成することができる。ゲイン値222(またはその一連)が単一のサブバンドにだけ適用される実施形態においては、ゲイン値222が適用されるサブバンド信号は、第2の定量的特徴値決定部222によって用いられるサブバンド信号と同一とすることができる。
【0081】
第3の定量的特徴値決定部254は、例えば、入力情報として、複数のサブバンド信号を受信するように構成することができる。例えば、第3の定量的特徴値決定部254は、入力情報として、第1のサブバンド信号218aと、第2のサブバンド信号218bと、第3のサブバンド信号218cを受信するように構成される。このように、定量的特徴値決定部254は、複数のサブバンド信号に基づいて定量的特徴値254aを提供するように構成される。ゲイン値222(またはその一連)が複数のサブバンド信号(例えばサブバンド信号218a、218b、218c)を重み付けするために適用される実施形態においては、ゲイン値222が適用されるサブバンド信号は、第3の定量的特徴値決定部254によって評価されるサブバンド信号と同一とすることができる。
【0082】
上記を要約すると、ゲイン値決定部222は、いくつかの実施形態において、複数の異なる特徴値250a、252a、254aを取得するために、異なる入力情報を評価するように構成された複数の異なる定量的特徴値決定部を備えることができる。いくつかの実施形態では、1つ以上の特徴値決定部は、入力オーディオ信号の広帯域表現に基づいて(例えば、入力オーディオ信号の時間ドメイン表現に基づいて)特徴を評価するように構成することができ、その一方で他の特徴値決定部は、入力オーディオ信号210の周波数スペクトルの一部だけ、または、単一の周波数バンドまたは周波数サブバンドのみを評価するようにさえ構成することができる。
【0083】
重み付け
以下に、例えば、重み付け結合部260によって実行される定量的特徴値の重み付けに関するいくつかの詳細が記載される。
【0084】
重み付け結合部260は、ゲイン値222を、定量的特徴値決定部250、252、254によって提供される定量的特徴値250a、252a、254aに基づいて取得するように構成される。重み付け結合部は、例えば、定量的特徴値決定部によって提供される定量的特徴値を線形にスケーリングするように構成することができる。いくつかの実施形態では、重み付け結合部は、定量的特徴値の線形結合を形成するものとみなすことができ、異なる重み(例えば、それぞれの重み付け係数によって記述することができる)は、定量的特徴値に関連づけることができる。いくつかの実施形態では、重み付け結合部は、定量的特徴値決定部によって提供される特徴値を非線形な方法で処理するように構成することもできる。非線形処理は、例えば、結合に先立って、または、結合の整数部分として、実行することができる。
【0085】
いくつかの実施形態では、重み付け結合部260は、調整可能であるように構成することができる。言い換えれば、いくつかの実施形態では、重み付け結合部は、異なる定量的特徴値決定部の定量的特徴値に関連づけられた重みが調整可能であるように構成することができる。例えば、重み付け結合部260は、例えば、定量的特徴値250a、252a、254aの非線形処理、および/または、定量的特徴値250a、252a、254aの線形スケーリングに影響を及ぼす、重み付け係数のセットを受信するように構成することができる。重み付け処理に関する詳細は、引き続いて記載される。
【0086】
いくつかの実施形態では、ゲイン値決定部220は、オプションの重み調整部270を備えることができる。オプションの重み調整部270は、重み付け結合部260によって実行される定量的特徴値250a、252a、254aの重み付けを調整するように構成することができる。定量的特徴の重み付けのための重み付け係数の決定に関する詳細は、例えば、図14〜20を参照して、引き続いて記載される。前記重み付け係数の決定は、例えば、別個の装置、または、重み調整部270によって実行することができる。
【0087】
周囲信号を抽出する装置 − 第3実施形態
以下に、本発明に係る他の実施形態が記載される。図3は、入力オーディオ信号から周囲信号を抽出する装置の詳細なブロック構成図を示す。図3に示される装置は、全体として300で表される。
【0088】
しかしながら、本発明の記述の全体にわたって、同じ参照番号は同一の手段、信号または機能を示すために選択されていることに留意すべきである。
【0089】
装置300は、装置200に非常に類似している。しかしながら、装置300は、特に効率的な特徴値決定部のセットを備える。
【0090】
図3から分かるように、図2に示されたゲイン値決定部220に代わるゲイン値決定部320は、第1の定量的特徴値決定部として、音調特徴値決定部350を備える。音調特徴値決定部350は、例えば、第1の定量的特徴値として定量的音調特徴値350aを提供するように構成することができる。
【0091】
さらに、ゲイン値決定部320は、第2の定量的特徴値決定部として、第2の定量的特徴値としてエネルギー特徴値352aを提供するように構成されるエネルギー特徴値決定部352を備える。
【0092】
さらにまた、ゲイン値決定部320は、第3の定量的特徴値決定部として、スペクトル重心特徴値決定部354を備えることができる。スペクトル重心特徴値決定部は、第3の定量的特徴値として、入力オーディオ信号の周波数スペクトルの、または、入力オーディオ信号210の周波数スペクトルの一部の重心を記述するスペクトル重心特徴値を提供するように構成することができる。
【0093】
したがって、重み付け結合部260は、音調特徴値350a(またはその一連)と、エネルギー特徴値352a(またはその一連)と、スペクトル重心特徴値354a(またはその一連)を、線形および/または非線形に重み付けする方法で結合し、サブバンド信号218a、218b、218c、218d(または、少なくともサブバンドの1つ)を重み付けするためのゲイン値222を取得するように構成することができる。
【0094】
周囲信号を抽出する装置 − 第4実施態様
以下に、図4を参照して、装置300の可能な拡張を述べる。しかしながら、図4を参照して記載されるコンセプトは、図3に示される構成と独立して用いることもできる。
【0095】
図4は、周囲信号を抽出する装置のブロック構成図を示す。図4に示される装置は、全体として400で表される。装置400は、入力信号として、マルチチャンネル入力オーディオ信号410を受信するように構成される。加えて、装置400は、マルチチャンネル入力オーディオ信号410に基づいて、少なくとも1つの重み付けられたサブバンド信号412を提供するように構成される。
【0096】
装置400は、ゲイン値決定部420を備える。ゲイン値決定部420は、マルチチャンネル入力オーディオ信号の第1チャンネル410aと第2チャンネル410bを記述する情報を受信するように構成される。さらに、ゲイン値決定部420は、マルチチャンネル入力オーディオ信号の第1チャンネル410aと第2チャンネル410bを記述する情報に基づいて、一連の時間変化する周囲信号のゲイン値422を提供するように構成される。時間変化する周囲信号のゲイン値422は、例えば、時間変化するゲイン値222と等価とすることができる。
【0097】
さらに、装置400は、マルチチャンネル入力オーディオ信号410を記述する少なくとも1つのサブバンド信号を、時間変化する周囲信号のゲイン値422に従って重み付けするように構成された重み付け部430を備える。
【0098】
重み付け部430は、例えば、重み付け部130、または、個別重み付け部270a、270b、270cの機能を備えることができる。
【0099】
ここでゲイン値決定部420を参照すると、ゲイン値決定部420は、例えば、ゲイン値決定部120、ゲイン値決定部220またはゲイン値決定部320について、1つ以上の定量的チャンネル関連性特徴値を取得するように構成されるという点で拡張することができる。言い換えれば、ゲイン値決定部420は、マルチチャンネル入力信号410の2つ以上のチャンネル間の関連性を記述する1つ以上の定量的特徴値を取得するように構成することができる。
【0100】
例えば、ゲイン値決定部420は、マルチチャンネル入力オーディオ信号410の2つのチャンネル間の相関を記述する情報を取得するように構成することができる。代わりに、または加えて、ゲイン値決定部420は、マルチチャンネル入力オーディオ信号410の第1チャンネルと入力オーディオ信号410の第2チャンネルの信号強度の関連性を記述する定量的特徴値を取得するように構成することができる。
【0101】
いくつかの実施形態では、ゲイン値決定部420は、1つ以上のチャンネル関連性特徴を記述する1つ以上の特徴値(または一連の特徴値)を提供するように構成された1つ以上のチャンネル関連性ゲイン値決定部を備えることができる。いくつかの他の実施形態では、チャンネル関連性特徴値決定部は、ゲイン値決定部420の外部にあってもよい。
【0102】
いくつかの実施形態では、ゲイン値決定部は、例えば、異なるチャンネル関連性特徴を記述する1つ以上の定量的チャンネル関連性特徴値を、重み付け方法において結合することでゲイン値を決定するように構成することができる。いくつかの実施形態では、ゲイン値決定部420は、一連の時間変化する周囲信号のゲイン値422を、1つ以上の定量的チャンネル関連性特徴値のみに基づいて、例えば、定量的な単一チャンネル特徴値を考慮せずに、決定するように構成することができる。しかしながら、いくつかの他の実施形態では、ゲイン値決定部420は、例えば、1つ以上の定量的チャンネル関連性特徴値(1つ以上の異なるチャンネル関連性特徴を記述する)と1つ以上の定量的単一チャンネル特徴値(1つ以上の単一チャンネル特徴を記載する)を、重み付け方法において結合するように構成される。このように、いくつかの実施形態では、マルチチャンネル入力オーディオ信号410の単一チャンネルに基づく単一チャンネル特徴と、マルチチャンネル入力オーディオ信号410の2つ以上のチャンネル間の関連性を記述するチャンネル関連性特徴の両方を、時間変化する周囲信号のゲイン値を決定するために考慮することができる。
【0103】
このように、本発明に係るいくつかの実施形態では、特に意味がある一連の時間変化する周囲信号のゲイン値は、単一チャンネル特徴とチャンネル関連性特徴の両方を考慮に入れることによって取得することができる。したがって、時間変化する周囲信号のゲイン値は、オーディオ信号チャンネルに対して前記ゲイン値によって重み付けするために適応することができ、その一方で、貴重な情報をさらに考慮に入れて、複数のチャンネル間の関連性の評価から取得することができる。
【0104】
ゲイン値決定部の詳細
以下に、図5を参照してゲイン値決定部に関する詳細が記載される。図5は、ゲイン値決定部の詳細なブロック構成図を示す。図5に示されるゲイン値決定部は、全体として500で表される。ゲイン値決定部500は、例えば、本願明細書に記載されたゲイン値決定部120、220、320、420の機能を引き継ぐことができる。
【0105】
非線形前処理部
ゲイン値決定部500は、(オプションの)非線形前処理部510を備える。非線形前処理部510は、1つ以上の入力オーディオ信号の表現を受信するように構成することができる。例えば、非線形前処理部510は、入力オーディオ信号の時間‐周波数ドメイン表現を受信するように構成することができる。しかしながら、いくつかの実施形態では、非線形前処理部510は、代わりにまたは加えて、入力オーディオ信号の時間ドメイン表現を受信するように構成することができる。いくつかの更なる実施形態では、非線形前処理部は、入力オーディオ信号の第1チャンネルの表現(例えば時間ドメイン表現または時間‐周波数ドメイン表現)と、入力オーディオ信号の第2チャンネルの表現とを受信するように構成することができる。非線形前処理部は、入力オーディオ信号の1つ以上のチャンネルの前処理された表現または前処理された表現の一部(例えば、スペクトル部分)を、少なくとも第1の定量的特徴値決定部520に対して提供するように更に構成することができる。さらに、非線形前処理部は、入力オーディオ信号(またはその部分)の他の前処理された表現を、第2の定量的特徴値決定部522に対して提供するように構成することができる。第1の定量的特徴値決定部520に対して提供される入力オーディオ信号の表現は、第2の定量的特徴値決定部522に対して提供される入力オーディオ信号の表現と同一でもよく、異なっていてもよい。
【0106】
しかしながら、第1の定量的特徴値決定部520と第2の定量的特徴値決定部は、2つ以上の特徴値決定部、例えばK個の特徴値決定部を表すものと見なすことができることに留意すべきである(ここで、K>=1またはK>=2)。言い換えれば、図5に示されるゲイン値決定部500は、望ましくは本願明細書に記載されているように、更なる定量的特徴値決定部によって拡張することができる。
【0107】
非線形前処理部の機能に関する詳細は、以下に記載される。しかしながら、前処理は、入力オーディオ信号の振幅値、エネルギー値、対数振幅値、対数エネルギー値、またはそれらのスペクトル表現、または入力オーディオ信号の他の非線形前処理、またはそのスペクトル表現の決定を備えることができることに留意すべきである。
【0108】
特徴値後処理部
ゲイン値決定部500は、第1の定量的特徴値決定部520から第1の特徴値(または一連の第1の特徴値)を受信するように構成された第1の特徴値後処理部530を備える。さらに、第2の特徴値後処理部532は、第2の定量的特徴値決定部522から第2の定量的特徴値(または一連の第2の定量的特徴値)を受信するために、第2の定量的特徴値決定部522に連結することができる。第1の特徴値後処理部530と第2の特徴値後処理部532は、例えば、後処理されたそれぞれの定量的特徴値を提供するように構成することができる。
【0109】
例えば、特徴値後処理部は、後処理された特徴値の値の範囲が制限されるように、後処理されたそれぞれの特徴値を処理するように構成することができる。
【0110】
重み付け結合部
ゲイン値決定部500は、重み付け結合部540を更に備える。重み付け結合部540は、特徴値後処理部530、532から後処理された特徴値を受信し、それに基づいてゲイン値560(または一連のゲイン値)を提供するように構成される。ゲイン値560は、ゲイン値122、ゲイン値222、ゲイン値322、またはゲイン値422と等価でもよい。
【0111】
以下に、重み付け結合部540に関するいくつかの詳細について述べる。いくつかの実施形態では、重み付け結合部540は、例えば、第1の非線形処理部542を備えることができる。第1の非線形処理部542は、例えば、第1の後処理された定量的特徴値を受信し、後処理された第1の特徴値に非線形マッピングを適用し、非線形処理された特徴値542aを提供するように構成することができる。さらに、重み付け結合部540は、第1の非線形処理部542に類似するように構成することができる第2の非線形処理部544を備えることができる。第2の非線形処理部544は、後処理された第2の特徴値を非線形処理された特徴値544aに対して非線形にマップするように構成することができる。いくつかの実施形態では、非線形処理部542、544によって実行される非線形マッピングのパラメータは、それぞれの係数によって調整することができる。例えば、第1の非線形重み付け係数は、第1の非線形処理部542のマッピングを決定するために用いることができ、第2の非線形重み付け係数は、第2の非線形処理部544によって実行されるマッピングを決定するために用いることができる。
【0112】
いくつかの実施形態では、特徴値後処理部530、532の1つ以上を省略することができる。他の実施態様において、非線形処理部542、544の1つまたは全てを省略することができる。加えて、いくつかの実施形態では、対応する特徴値後処理部530、532および非線形処理部542、544の機能は、1つのユニットに融合することができる。
【0113】
重み付け結合部540は、第1の重み付け部またはスケーリング部550を更に備える。第1の重み付け部550は、第1の非線形処理された定量的特徴値(または、非線形処理が省略されるケースでは、第1の定量的特徴値)542aを受信し、第1の非線形に処理された定量的値を第1の線形重み付け係数によってスケーリングして第1の線形にスケーリングされた定量的特徴値550aを取得するように構成される。重み付け結合部540は、第2の重み付け部またはスケーリング部552を更に備える。第2の重み付け部552は、第2の非線形に処理された定量的特徴値544a(または、非線形処理が省略されるケースでは、第2の定量特徴値)を受信し、前記値を第2の線形重み付け係数によってスケーリングして第2の線形にスケーリングされた定量的特徴値552aを取得するように構成される。
【0114】
重み付け結合部540は、結合部556を更に備える。結合部556は、第1の線形にスケーリングされた定量的特徴値550aと第2の線形にスケーリングされた定量的特徴値552aを受信するように構成される。結合部556は、前記値に基づいて、ゲイン値560を提供するように構成される。例えば、結合部556は、第1の線形にスケーリングされた定量的特徴値550aと第2の線形にスケーリングされた定量的特徴値552aの線形結合(例えば、総和または平均化操作)を実行するように構成することができる。
【0115】
上記を要約すると、ゲイン値決定部500は、複数の定量的特徴値決定部520、522によって決定された定量的特徴値の線形結合を提供するように構成することができる。重み付けられた線形結合の前に、例えば値の範囲を制限するため、および/または、小さい値と大きい値の相対的な重み付けを修正するために、定量的特徴値に関して1つ以上の非線形後処理ステップを実行することができる。
【0116】
図5に示されたゲイン値決定部500の構造は、理解を容易にするためにのみ例示されたものとみなすべきであることに留意すべきである。しかしながら、ゲイン値決定部500のブロックの機能のいずれも、異なる回路構成において実現することができる。例えば、機能のいくつかは、単一ユニットに結合することができる。加えて、図5に関して記載された機能は、共用ユニットによって実行することができる。例えば、単一の特徴値後処理部は、例えば時分割方法において、複数の定量的特徴値決定部によって提供される特徴値の後処理を実行するために用いることができる。同様に、非線形処理部542、544の機能は、時分割方法において、単一の非線形処理部によって実行することができる。加えて、単一の重み付け部は、重み付け部550、552の機能を果たすために用いることができる。
【0117】
いくつかの実施形態では、図5に関して記載された機能は、シングルタスクまたはマルチタスクのコンピュータプログラムによって実行することができる。言い換えれば、いくつかの実施形態では、所望の機能が得られる限り、ゲイン値決定部を実現するために完全に異なる回路トポロジーを選ぶことができる。
【0118】
直接信号抽出
以下において、入力オーディオ信号からの周囲信号と正面信号(「直接信号」とも称される)の両方の効率的な抽出に関して、いくつかの詳細が記載される。この目的のため、図6は、本発明に係る実施形態による重み付け部または重み付けユニットのブロック構成図を示す。図6に示される重み付け部または重み付けユニットは、全体として600で表される。
【0119】
重み付け部または重み付けユニット600は、例えば、個別重み付け部270a、270b、270cまたは重み付け部430の位置をとることができる。
【0120】
重み付け部600は、入力オーディオ信号610の表現を受信し、周囲信号620と正面信号または非周囲信号または「直接信号」630の両方の表現を提供するように構成される。いくつかの実施形態では、重み付け部600が入力オーディオ信号610の時間‐周波数ドメイン表現を受信し、周囲信号620と正面信号または非周囲信号630の時間‐周波数ドメイン表現を提供するように構成することができることに留意すべきである。
【0121】
しかしながら、もちろん、重み付け部600は、必要に応じて、時間ドメイン入力オーディオ信号を時間‐周波数ドメイン表現に変換する時間ドメインから時間‐周波数ドメインへの変換部、および/または、時間ドメイン出力信号を提供する1つ以上の時間‐周波数ドメインから時間ドメインへの変換部を備えることもできる。
【0122】
重み付け部600は、例えば、入力オーディオ信号610の表現に基づいて周囲信号620の表現を提供するように構成された周囲信号重み付け部640を備えることができる。加えて、重み付け部600は、入力オーディオ信号610の表現に基づいて正面信号630の表現を提供するように構成された正面信号重み付け部650を備えることができる。
【0123】
重み付け部600は、一連の周囲信号ゲイン値660を受信するように構成される。オプションとして、重み付け部600は、一連の正面信号ゲイン値を受信するように構成することもできる。しかしながら、いくつかの実施形態では、重み付け部600は、以下に述べるように、一連の周囲信号ゲイン値から一連の正面信号ゲイン値を導き出すように構成することができる。
【0124】
周囲信号重み付け部640は、例えば1つ以上の重み付けられたサブバンド信号の形で周囲信号620の表現を取得するために、周囲信号ゲイン値に従って、入力オーディオ信号の1つ以上の周波数バンド(例えば1つ以上のサブバンド信号によって表すことができる)を重み付けするように構成される。同様に、正面信号重み付け部650は、例えば1つ以上の重み付けられたサブバンド信号の形で正面信号630の表現を取得するために、例えば1つ以上のサブバンド信号に関して表すことができる入力オーディオ信号610の1つ以上の周波数バンドまたは周波数サブバンドを重み付けするように構成される。
【0125】
しかしながら、いくつかの実施形態では、周囲信号重み付け部640と正面信号重み付け部650は、周囲信号620の表現および正面信号630の表現を生成するための補完的方法として、所定の周波数バンドまたは周波数サブバンド(例えば、サブバンド信号によって表された)を重み付けするように構成することができる。例えば、特定の周波数バンドの周囲信号ゲイン値が、その特定の周波数バンドが周囲信号に比較的高い重みを与えられるべきことを示している場合に、入力オーディオ信号610の表現から周囲信号620の表現を導き出すときにその特定の周波数バンドは比較的高く重み付けされ、入力オーディオ信号610の表現から正面信号630の表現を導き出すときにその特定の周波数バンドは比較的低く重み付けされる。同様に、周囲信号ゲイン値が、その特定の周波数バンドが周囲信号に比較的低い重みを与えられるべきことを示している場合に、入力オーディオ信号610の表現から周囲信号620の表現を導き出すときにその特定の周波数バンドは低い重みが与えられ、入力オーディオ信号610の表現から正面信号630の表現を導き出すときにその特定の周波数バンドは比較的高い重みが与えられる。
【0126】
いくつかの実施形態では、重み付け部600は、このように、周囲信号ゲイン値660に基づいて、正面信号ゲイン値652が周囲信号ゲイン値660の減少によって増加するように、正面信号重み付け部650のための正面信号ゲイン値652を取得し、かつその逆も同じであるように構成することができる。
【0127】
したがって、いくつかの実施形態では、周囲信号620と正面信号630は、周囲信号620と正面信号630のエネルギーの合計が入力オーディオ信号610のエネルギーに等しい(または比例する)ように、生成することができる。
【0128】
後処理
ここで、図7を参照して、例えば1つ以上の重み付けられたサブバンド信号112、212a〜212b、414に適用することができる後処理が記載される。
【0129】
この目的のため、図7は、本発明に係る実施形態による後処理部のブロック構成図を示す。図7に示される後処理部は、全体として700で表される。
【0130】
後処理部700は、入力信号として、1つ以上の重み付けられたサブバンド信号710またはそれに基づく信号(例えば、1つ以上の重み付けられたサブバンド信号に基づく時間ドメイン信号)を受信するように構成される。後処理部700は、出力信号として後処理された信号720を提供するように更に構成される。ここで、後処理部700はオプションであるとみなすべきことに留意すべきである。
【0131】
いくつかの実施形態では、後処理部は、例えば、カスケード接続することができる、1つ以上の以下のような機能ユニットを備えることができる。
・選択減衰部730
・非線形圧縮部732
・遅延部734
・音色呈色補償部736
・過渡状態低減部738
・信号非相関化部740
【0132】
後処理部700の可能な構成要素の機能に関する詳細は後述される。
【0133】
しかしながら、後処理部の機能の1つ以上は、ソフトウェアによって実現されることがあり得ることに留意すべきである。加えて、後処理部700の機能のいくつかは、結合された方法で実行することができる。
【0134】
ここで、図8aおよび8bの参照をして、異なる後処理コンセプトが記載される。
【0135】
図8は、時間ドメイン後処理を実行する回路部のブロック構成図を示す。図8aに示される回路部は、全体として800で表される。回路部800は、例えば、合成フィルタバンク810の形で、時間‐周波数ドメインから時間ドメインへの変換部を備える。合成フィルタバンク810は、例えば、重み付けられたサブバンド信号112、212a〜212d、412に基づいているまたは同一の、複数の重み付けられたサブバンド信号812を受信するように構成される。合成フィルタバンク810は、周囲信号の表現として、時間ドメイン周囲信号814を提供するように構成される。さらに、回路部800は、合成フィルタバンク810から時間ドメイン周囲信号814を受信するように構成された時間ドメイン後処理部820を備えることができる。加えて、時間ドメイン後処理部820は、例えば図7に示された後処理部700の機能の1つ以上を実行するように構成することができる。従って、後処理部820は、出力信号として、後処理された周囲信号の表現とみなすことができる後処理された時間ドメイン周囲信号822を提供するように構成することができる。
【0136】
上記を要約すると、いくつかの実施形態では、後処理は、適当な場合には、時間ドメインにおいて実行することができる。
【0137】
図8bは、本発明に係る他の実施形態による回路部のブロック構成図を示す。図8bに示される回路部は、全体として850で表される。回路部850は、1つ以上の重み付けられたサブバンド信号862を受信するように構成された周波数ドメイン後処理部860を備える。例えば、周波数ドメイン後処理部860は、重み付けられたサブバンド信号112、212a〜212d、412の1つ以上を受信するように構成することができる。
さらに、周波数ドメイン後処理部816は、後処理部700の機能の1つ以上を実行するように構成することができる。周波数ドメイン後処理部860は、1つ以上の後処理された重み付けられたサブバンド信号864を提供するように構成することができる。周波数ドメイン後処理部860は、重み付けられたサブバンド信号862の1つ以上を個別に処理するように構成することができる。あるいは、周波数ドメイン後処理部860は、複数の重み付けられたサブバンド信号862を一緒に後処理するように構成することができる。回路部850は、複数の後処理された重み付けられたサブバンド信号864を受信し、それに基づいて後処理された時間ドメイン周囲信号872を提供するように構成された合成フィルタバンク870を更に備える。
【0138】
上記を要約すると、後処理は、要求に応じて、図8aに示されたような時間ドメインにおいて、または、図8bに示されたような時間‐周波数ドメインにおいて、実行することができる。
【0139】
特徴値決定
図9は、特徴値を取得するための異なるコンセプトの図解表現を示す。図9の図解表現は、全体として900で表される。
【0140】
図解表現900は、入力オーディオ信号の時間‐周波数ドメイン表現を示す。時間‐周波数ドメイン表現910は、時間指標τと周波数指標ωの上の2次元表現の形で複数の時間‐周波数ビンを示しており、そのうちの2つは、912a、912bで表される。
【0141】
時間‐周波数ドメイン表現910は、いかなる適切な形でも、例えば複数のサブバンド信号(例えば各周波数バンドの1つ)の形で、または、コンピュータシステムの処理のためのデータ構造の形で表すことができる。ここで、この種の時間‐周波数分布を表したいかなるデータ構造も、1つ以上のサブバンド信号の表現であるとみなされることに留意すべきである。言い換えれば、入力オーディオ信号の周波数サブバンドの強度(例えば、振幅またはエネルギー)の時間進化を表したいかなるデータ構造も、サブバンド信号とみなされる。
【0142】
このように、オーディオ信号の周波数サブバンドの強度の時間進化を表したデータ構造を受信することは、サブバンド信号を受信することとみなされる。
【0143】
図9を参照して、異なる時間‐周波数ビンに関連づけられた特徴値を演算できることが分かる。例えば、いくつかの実施形態では、異なる時間‐周波数ビンに関連づけられた異なる特徴値を演算し、結合することができる。例えば、異なる周波数の同時刻の時間‐周波数ビン914a、914b、914cに関連づけられた周波数特徴値を演算することができる。いくつかの実施形態では、異なる周波数バンドの同一の特徴を記述するこれらの(異なる)特徴値は、例えば、結合部930において結合することができる。したがって、重み付け結合部において更に処理する(例えば、他の個別のまたは結合された特徴値と結合する)ことができる結合特徴値932を取得することができる。いくつかの実施形態では、同じ周波数バンド(または周波数サブバンド)の次の時間‐周波数ビン916a、916b、916cに関連づけられた複数の特徴値を演算することができる。次の時間‐周波数ビンの同一の特徴を記述するこれらの特徴値は、例えば、結合部940において結合することができる。したがって、結合された特徴値942を取得することができる。
【0144】
上記を要約すると、いくつかの実施形態では、異なる時間‐周波数ビンに関連づけられた同じ特徴を記述する複数の個別の特徴値を結合することは望ましい。例えば、同時刻の時間‐周波数ビンに関連づけられた個別の特徴値、および/または、次の時間‐周波数ビンに関連づけられた個別の特徴値を結合することができる。
【0145】
周囲信号を抽出する装置 − 第5実施形態
以下に、他の実施形態による周囲抽出部が、図10、11、12を参照して記載される。
【0146】
アップミックスの概要
図10は、アップミックス処理のブロック図を示す。例えば、図10は、周囲信号抽出部のブロック構成図と解釈することができる。あるいは、図10は、入力オーディオ信号から周囲信号を抽出する方法のフローチャートと解釈することができる。
【0147】
図10から分かるように、周囲信号「a」(または複数の周囲信号)と正面信号「d」(または複数の正面信号)は、入力信号「x」から演算され、サラウンドサウンド信号の適当な出力チャンネルに送られる。出力チャンネルは、5.0サラウンドサウンドフォーマットにアップミックスする実施例を例示するために表されている。SLは左側のサラウンドチャンネルを示し、SRは右側のサラウンドチャンネルを示し、FLは左側正面のチャンネルを示し、Cは中心チャンネルを示し、FRは右側正面チャンネルを示す。
【0148】
言い換えれば、図10は、例えば1つまたは2つのチャンネルのみを含む入力信号に基づく、例えば5つのチャンネルを含むサラウンド信号の生成を記載する。周囲抽出1010は、入力信号xに適用される。周囲抽出1010によって提供される信号は、後処理1020(ここで、例えば、入力信号xの周囲らしい成分は、非周囲らしい成分に対して強調することができる)に供給される。後処理1020の結果として、1つ以上の周囲信号が取得される。従って、1つ以上の周囲信号は、左側のサラウンドチャンネル信号SLと右側のサラウンドチャンネル信号SRとして提供することができる。
【0149】
入力信号xは、1つ以上の正面信号dを取得するために、正面信号抽出1030にも供給することができる。1つ以上の正面信号dは、例えば、左側正面チャンネル信号FLと、中心チャンネル信号Cと、右側正面チャンネル信号FRとして提供することができる。
【0150】
しかしながら、周囲抽出と正面信号抽出は、例えば、図6を参照して記載されたコンセプトを用いて、連結することができることに留意すべきである。
【0151】
さらに、異なるアップミックス構成を選択することができることに留意すべきである。例えば、入力信号xは、単一のチャンネル信号でも、または、マルチチャンネル信号でもよい。加えて、可変数の出力信号を提供することができる。例えば、非常に単純な実施形態では、正面信号抽出1030は、1つ以上の周囲信号のみを生成するように、省略することができる。例えば、いくつかの実施形態では、単一の周囲信号を提供すれば十分である。しかしながら、いくつかの実施形態では、例えば、少なくとも部分的に非相関化された、2つまたはさらにそれ以上の周囲信号を提供することができる。
【0152】
加えて、入力信号xから抽出される正面信号の数は、アプリケーションに依存することができる。いくつかの実施形態では正面信号の抽出は省略することさえできるが、いくつかの他の実施形態において複数の正面信号を抽出することができる。例えば、3つの正面信号の抽出を実行することができる。いくつかの他の実施形態では、5つ以上の正面信号さえ抽出することができる。
【0153】
周囲抽出
以下に、周囲抽出に関する詳細が、図11を参照して記載される。図11は、周囲信号の抽出と正面信号の抽出のための処理のブロック図を示す。図11に示されるブロック図は、周囲信号を抽出する装置のブロック構成図、または、周囲信号を抽出する方法のフローチャート表現とみなすことができる。
【0154】
図11のブロック図は、入力信号xの時間‐周波数ドメイン表現の生成1110を示す。例えば、入出力信号xの1番目の周波数バンドまたは周波数サブバンドは、サブバンドデータ構造またはサブバンド信号X1によって表すことができる。入出力信号xのN番目の周波数バンドまたは周波数サブバンドは、サブバンドデータ構造またはサブバンド信号XNによって表すことができる。
【0155】
時間ドメインから時間‐周波数ドメインへの変換1110は、入力オーディオ信号の異なる周波数バンドの強度を記述する複数の信号を提供する。例えば、信号X1は、入力オーディオ信号の1番目の周波数バンドまたは周波数サブバンドの強度(および、オプションとして、付加的位相情報)の時間進化を表すことができる。信号X1は、例えば、アナログ信号として、または、一連の値(それは、例えば、データキャリアに記憶することができる)として表すことができる。同様に、N番目の信号XNは、入力オーディオ信号のN番目の周波数バンドまたは周波数サブバンドの強度を記載する。信号X1は1番目のサブバンド信号としても示すことができ、信号XNはN番目のサブバンドとして示すことができる。
【0156】
図11に示される処理は、第1のゲイン演算1120と第2のゲイン演算1122を更に備える。ゲイン演算1120、1122は、例えば、本願明細書に記載されたような、それぞれのゲイン値決定部を用いて実現することができる。ゲイン演算は、図11に示すように、例えば、周波数サブバンドのために個別に実行することができる。しかしながら、いくつかの他の実施形態では、ゲイン演算は、サブバンド信号のグループのために実行することができる。加えて、ゲイン演算1120、1122は、1つのサブバンドに基づいて、または、サブバンドのグループに基づいて実行することができる。図11から分かるように、1番目のゲイン演算1120は、1番目のサブバンド信号X1を受信し、1番目のゲイン値g1を提供するために構成され、実行される。第2のゲイン演算1122は、N番目のゲイン値gNを提供するために、N番目のサブバンド信号XNに基づいて構成されるかまたは実行される。図11に示される処理は、第1の乗算またはスケーリング1130と、第2の乗算またはスケーリング1132をも備える。第1の乗算1130において、1番目のサブバンド信号X1は第1のゲイン演算1120によって提供される1番目のゲイン値g1によって乗算され、重み付けられた1番目のサブバンド信号をもたらす。さらに、N番目のサブバンド信号XNは、N番目の重み付けられたのサブバンド信号を取得するために、第2の乗算1032においてN番目のゲイン値gNによって乗算される。
【0157】
処理1100は、オプションとして、後処理されたサブバンド信号Y1−YNを取得するために、重み付けられたサブバンド信号の後処理1140を更に備える。さらに、図11に示された処理は、オプションとして、例えば、合成フィルタバンクを用いて遂行することができる、時間‐周波数ドメインから時間ドメインへの変換1150を備える。このように、入力オーディオ信号xの周囲成分の時間ドメイン表現yは、入力オーディオ信号の周囲成分の時間‐周波数ドメイン表現Y1−YNに基づいて取得される。
【0158】
しかしながら、乗算1130、1132によって提供された重み付けられたサブバンド信号は、図11に示される処理の出力信号として役立つことにも留意すべきである。
【0159】
ゲイン値決定
以下に、ゲイン演算処理が、図12の参照をして記載される。図12は、低レベル特徴抽出を用いた周囲信号抽出処理と正面信号抽出処理の、1つのサブバンドのためのゲイン演算処理のブロック図を示す。異なる低レベル特徴(例えば、LLF1からLLFnで表される)は、入力信号xから演算される。ゲイン係数(例えばgで表される)は、低レベル特徴の関数として、(例えば結合部を用いて)演算される。
【0160】
図12を参照して、複数の低レベル特徴演算が示される。例えば、1番目の低レベル特徴演算1210とn番目の低レベル特徴演算1212が、図12に示した実施形態において用いられる。低レベル特徴演算1210、1212は、入力信号xに基づいて実行される。例えば、低レベル特徴の算出または決定は、時間ドメイン入力オーディオ信号に基づいて実行することができる。しかしながら、代わりに、低レベル特徴の演算または決定は、1つ以上のサブバンド信号X1−XNに基づいて実行することができる。さらに、低レベル特徴の演算または決定1210、1210から取得される特徴値(例えば定量的特徴値)は、結合部1220(例えば重み付け結合部でもよい)を用いて結合することができる。このように、ゲイン値gは、低レベル特徴決定または低レベル特徴算出1210、1212の結果の結合に基づいて取得することができる。
【0161】
重み付け係数を決定するコンセプト
以下に、複数の特徴を重み付けする重み付け係数を取得し、特徴値の重み付けられた結合としてゲイン値を取得するコンセプトが、記載されている。
【0162】
重み付け係数を決定する装置 − 第1実施形態
図13は、重み付け係数を取得する装置のブロック構成図を示す。図13に示される装置は、全体として1300で表される。
【0163】
装置1300は、ベース信号1312を受信し、それに基づいて係数決定信号1314を提供するように構成された係数決定信号生成部1310を備える。係数決定信号生成部1310は、周囲成分および/または非周囲成分および/または周囲成分と非周囲成分の関連性に関する係数決定信号1314の特性が知られるように、係数決定信号1314を提供するように構成される。いくつかの実施形態では、周囲成分または非周囲成分に関するこの種の情報の推定が知られている場合は、それで充分である。
【0164】
例えば、係数決定信号生成部1310は、係数決定信号1314に加えて、予測ゲイン値情報1316を提供するように構成することができる。予測ゲイン値情報1316は、例えば、係数決定信号1314の周囲成分と非周囲成分の関連性を直接または間接に記述する。言い換えれば、予測ゲイン値情報1316は、係数決定信号の特性に関係した周囲信号を記述するサイド情報とみなすことができる。例えば、予測ゲイン値情報は、係数決定オーディオ信号のなかの(例えば、係数決定オーディオ信号の複数の時間‐周波数ビンに対する)周囲成分の強度を記述することができる。あるいは、予測ゲイン値情報は、係数決定オーディオ信号のなかの非周囲成分の強度を記述することができる。いくつかの実施形態では、予測ゲイン値情報は、周囲成分と非周囲成分の強度の比率を記述することができる。いくつかの他の実施形態では、予測ゲイン値情報は、周囲成分の強度と総合信号強度(周囲成分および非周囲成分)の関連性、または、非周囲成分の強度と総合信号強度の関連性を記述することができる。しかしながら、上述した情報から導き出される他の情報を予測ゲイン値情報として提供することができる。例えば、以下に定義されるRAD(m,k)の推定、または、G(m,k)の推定は、予測ゲイン値情報として取得することができる。
【0165】
装置1300は、係数決定信号1314の特徴を定量的方法で記述する複数の定量的特徴値1322、1324を提供するように構成された定量的特徴値決定部1320を更に備える。
【0166】
装置1300は、例えば、定量的特徴値決定部1320によって提供された予測ゲイン値情報1316と複数の定量的特徴値1322、1324とを受信するように構成することができる重み付け係数決定部1330を更に備える。
【0167】
重み付け係数決定部1330は、以下において詳細に記載されるように、予測ゲイン値情報1316と定量的特徴値1322、1324に基づいて重み付け係数1332のセットを提供するように構成される。
【0168】
重み付け係数決定部 − 第1実施形態
図14は、本発明に係る実施形態による重み付け係数決定部のブロック構成図を示す。
【0169】
重み付け係数決定部1330は、予測ゲイン値情報1316と複数の定量的特徴1322、1324を受信するように構成される。しかしながら、いくつかの実施形態では、定量的特徴値決定部1320は、重み付け係数決定部1330の一部とすることができる。さらに、重み付け係数決定部1330は、重み付け係数1332を提供するように構成される。
【0170】
重み付け係数決定部1330の機能に関して、重み付け係数決定部1330は、(入力オーディオ信号とみなすことができる係数決定信号1314の複数の特徴を記述する)複数の定量的特徴値1322、1324の、重み付け係数1332を用いて重み付けられた結合に基づいて取得されたゲイン値が、係数決定オーディオ信号に関連づけられたゲイン値を近似するように、重み付け係数1332を決定するように構成されると一般的に言うことができる。予測ゲイン値は、例えば、予測ゲイン値情報1316から導き出すことができる。
【0171】
言い換えれば、重み付け係数決定部は、例えば、どの重み付け係数が定量的特徴値1322、1324を重み付けするために必要であるかを、重み付けの結果が予測ゲイン値情報1316によって記述された予測ゲイン値を近似するように、決定するように構成することができる。
【0172】
言い換えれば、重み付け係数決定部は、例えば、重み付け係数1332によって構成されたゲイン値決定部が予測ゲイン値情報1316によって記述された予測ゲイン値から予め定められた最大許容偏差を超えて逸脱しないゲイン値を提供するように、重み付け係数1332を決定するように構成することができる。
【0173】
重み付け係数決定部 − 第2実施形態
以下に、重み付け係数決定部1330を実現するいくつかの特定の可能性が記載される。
【0174】
図15aは、本発明に係る実施形態による重み付け係数決定部のブロック構成図を示す。図15aに示される重み付け係数決定部は、全体として1500で表される。
【0175】
重み付け係数決定部1500は、例えば、重み付け結合部1510を備える。重み付け結合部1510は、例えば、複数の定量的特徴値1322、1324と重み付け係数1332のセットを受信するように構成することができる。さらに、重み付け結合部1510は、例えば、定量的特徴価値1322、1324を重み付け係数1332に従って結合することによって、ゲイン値1512(またはその一連)を提供するように構成することができる。例えば、重み付け結合部1510は、重み付け結合部260のような、類似のまたは同一の重み付けを実行するように構成することができる。いくつかの実施形態では、重み付け結合部260は、重み付け結合部1510を実現するためにさえ用いることができる。このように、重み付け結合部1510は、ゲイン値1512(またはその一連)を提供するように構成される。
【0176】
重み付け係数決定部1500は、類似性決定部または差異決定部1520を更に備える。類似性決定部または差異決定部1520は、例えば、予測ゲイン値を記述する予測ゲイン値情報1316と、重み付け結合部1510によって提供されたゲイン値1512を受信するように構成することができる。類似性決定部/差異決定部1520は、例えば、情報1316によって記述された予測ゲイン値と重み付け結合部1510によって提供されたゲイン値1512との類似性を、例えば定性的または定量的に記述する類似性尺度1522を決定するように構成することができる。あるいは、類似性決定部/差異決定部1520は、その間の偏差を記述する偏差尺度を提供するように構成することができる。
【0177】
重み付け係数決定部1500は、類似性情報1522を受信し、それに基づいて重み付け係数1332を変更する必要があるかどうか、または、重み付け係数1332が一定に保たれるべきかどうかを決定するように構成された重み付け係数調整部1530を備える。例えば、類似性決定部/差異決定部1520によって提供された類似性情報1522が、ゲイン値1512と予測ゲイン値1316との差分または偏差が予め定められた偏差閾値以下であることを示す場合に、重み付け係数調整部1530は、重み付け係数1332が適切に選択され、維持すべきであることを認識することができる。しかしながら、類似性情報1522が、ゲイン値1512と予測ゲイン値1316との差分または偏差が予め定められた閾値より大きいことを示す場合に、重み付け係数調整部1530は、ゲイン値1512と予測ゲイン値1316との差分の縮小を目的として、重み付け係数1332を変更することができる。
【0178】
ここで、重み付け係数1332の調整のための異なるコンセプトが可能であることに留意すべきである。例えば、この目的のために、勾配降下コンセプトを用いることができる。あるいは、重み付け係数のランダム変更を実行することもできる。いくつかの実施形態では、重み付け係数調整部1530は、最適化機能を実行するように構成することができる。最適化は、例えば、反復アルゴリズムに基づくことができる。
【0179】
上記を要約すると、いくつかの実施形態では、フィードバックループまたはフィードバックコンセプトを、重み付け結合部1510によって取得されたゲイン値1512と予測ゲイン値1316との十分小さな差分という結果となる重み付け係数1332を決定するために用いることができる。
【0180】
重み付け係数決定部 − 第3実施形態
図15bは、重み付け係数決定部の他の実現方法のブロック構成図を示す。図15bに示される重み付け決定部は、全体として1550で表される。
【0181】
重み付け係数決定部1550は、連立方程式解法部1560または最適化問題解法部1560を備える。連立方程式解法部または最適化問題解法部1560は、gexpectedと示すことができる予測ゲイン値を記述する情報1316を受信するように構成される。連立方程式解法部/最適化問題解法部1560は、複数の定量的特徴値1322、1324を受信するように更に構成することができる。連立方程式解法部/最適化問題解法部1560は、重み付け係数1332のセットを提供するように構成することができる。
【0182】
連立方程式解法部1560によって受信された定量的特徴値をmiで表し、更に、重み付け係数を例えばαiとβiで表したとき、連立方程式解法部は、例えば、次の形の非線形連立方程式を解くように構成することができる。
ここで、l=1,…,L
【0183】
gexpected,lは、指標lを有する時間‐周波数ビンの予測ゲイン値を示す。ml,iは、指標lを有する時間‐周波数ビンのi番目の特徴値を示す。複数のL時間‐周波数ビンは、連立方程式を解くために考慮することができる。
【0184】
したがって、線形重み付け係数αiと非線形重み付け係数(または指数重み付け係数)βiは、連立方程式を解くことによって決定することができる。
【0185】
代替実施形態では、最適化を実行することができる。例えば、以下の式で決定される値は、適当な重み付け係数のセットαi、βiを決定することによって最小化することができる。
ここで、( )は、予測ゲイン値と重み付け特徴値ml,iによって取得されたゲイン値との差分ベクトルを示す。差分ベクトルのエントリーは、指標l=1…Lで表される異なる時間‐周波数ビンに関係づけることができる。|| ||は、数学的距離尺度、例えば数学的なベクトルノルムを示す。
【0186】
言い換えれば、重み付け係数は、予測ゲイン値と定量的特徴値1322、1324の重み付け結合から取得されたゲイン値との差分が最小化されるように、決定することができる。しかしながら、用語「最小化される」は、ここで、あまり厳しい方法で考慮されるべきでないことに留意されたい。むしろ、用語「最小化する」は、差分が特定の閾値以下となることを表す。
【0187】
重み付け係数決定部 − 第4実施態様
図16は、本発明に係る実施形態による他の重み付け係数決定部のブロック構成図を示す。図16に示される重み付け係数決定部は、全体として1600で表される。
【0188】
重み付け係数決定部1600は、ニューラルネット1610を備える。ニューラルネット1610は、例えば、複数の定量的特徴値1322、1324だけでなく、予測ゲイン値を記述する情報1316を受信するように構成することができる。さらに、ニューラルネット1610は、例えば、重み付け係数1332を提供するように構成することができる。例えば、ニューラルネット1610は、定量的特徴値1322、1324の重み付けに適用されるときに、予測ゲイン値情報1316によって記述された予測ゲイン値に十分に類似するゲイン値に結果としてなる重み付け係数を学習するように構成することができる。
【0189】
更なる詳細は、引き続いて記載される。
【0190】
重み付け係数を決定する装置 − 第2実施形態
図17は、本発明に係る実施形態による重み付け係数を決定する装置のブロック構成図を示す。図17に示される装置は、図13に示された装置と類似する。したがって、同一の手段および信号は、同一の参照番号で表される。
【0191】
図17に示される装置1700は、ベース信号1312を受信するように構成することができる係数決定信号生成部1310を備える。実施形態では、係数決定信号生成部1310は、係数決定信号1314を取得するために、ベース信号1312に周囲信号を加算するように構成することができる。係数決定信号1314は、例えば、時間ドメイン表現で、または、時間‐周波数ドメイン表現で提供することができる。
【0192】
係数決定信号生成部は、予測ゲイン値を記述する予測ゲイン値情報1316を提供するように更に構成することができる。例えば、係数決定信号生成部1310は、ベース信号への周囲信号の加算に関する内部知識に基づいて予測ゲイン値情報を提供するように構成することができる。
【0193】
オプションとして、装置1700は、時間‐周波数ドメイン表現の係数決定信号1318を提供するように構成することができる、時間ドメインから時間‐周波数ドメインへの変換部1316を更に備えることができる。さらに、装置1700は、例えば、第1の定量的特徴値決定部1320aと第2の定量的特徴値決定部1320bを備えることができる定量的特徴値決定部1320を備える。このように、定量的特徴値決定部1320は、複数の定量的特徴値1322、1324を提供するように構成される。
【0194】
係数決定信号発生器 − 第1実施形態
以下に、係数決定信号1314を提供する異なるコンセプトが記載される。図18a、18b、19、20を参照して記載されるコンセプトは、信号の時間ドメイン表現と時間‐周波数ドメイン表現の両方に適用可能である。
【0195】
図18aは、係数決定信号生成部のブロック構成図を示す。図18aに示される係数決定信号生成部は、全体として1800で表される。係数決定信号生成部1800は、入力信号1810として、無視できる周囲信号成分を有するオーディオ信号を受信するように構成される。
【0196】
さらに、係数決定信号生成部1800は、オーディオ信号1810に基づいて人工の周囲信号を提供するように構成された人工周囲信号生成部1820を備えることができる。係数決定信号生成部1800は、オーディオ信号1810と人工の周囲信号1822を受信し、係数決定信号1832を取得するために人工の周囲信号1822をオーディオ信号1810に加算するように構成された周囲信号加算部1830も備える。
【0197】
さらに、係数決定信号生成部1800は、例えば、人工の周囲信号1822を生成するために用いられた、または、オーディオ信号1810を人工の周囲信号1822と結合するために用いられたパラメータに基づいて、予測ゲイン値に関する情報を提供するように構成することができる。言い換えれば、人工の周囲信号の生成の様式に関する知識、および/または、人工の周囲信号とオーディオ信号1810との結合についての知識は、予測ゲイン値情報1834を取得するために用いられる。
【0198】
人工周囲信号発生部1820は、例えば、人工の周囲信号1822として、オーディオ信号1810に基づくリバーブ信号を提供するように構成することができる。
【0199】
係数決定信号生成部 − 第2実施形態
図18bは、本発明に係る他の実施形態による係数決定信号生成部のブロック構成図を示す。図18bに示される係数決定信号生成部は、全体として1850で表される。
【0200】
係数決定信号生成部1850は、無視できる周囲信号成分を有するオーディオ信号1860と、加えて、周囲信号1862を受信するように構成される。係数決定信号生成器1850は、オーディオ信号1860(無視できる周囲信号成分を有する)を周囲信号1862と結合するように構成された周囲信号加算器1870も備える。周囲信号加算部1870は、係数決定信号1872を提供するように構成される。
【0201】
さらに、無視できる周囲信号成分を有するオーディオ信号と周囲信号とは、係数決定信号生成部1850において絶縁された形式で利用可能であるので、予測ゲイン値情報1874をそこから導き出すことができる。
【0202】
例えば、予測ゲイン値情報1874は、予測ゲイン値情報がオーディオ信号と周囲信号の振幅の比率を記述しているように導き出すことができる。例えば、予測ゲイン値情報は、係数決定信号1872(またはオーディオ信号1860)の時間‐周波数ドメイン表現の複数の時間‐周波数ビンの強度のこの種の比率を記述することができる。あるいは、予測ゲイン値情報1874は、複数の時間‐周波数ビンの周囲信号1862の強度についての情報を備えることができる。
【0203】
係数決定信号生成部 − 第3実施形態
ここで、図19、20を参照して、予測ゲイン値情報を決定する他のアプローチについて述べる。図19は、本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。図19に示される係数決定信号生成部は、全体として1900で表される。
【0204】
係数決定信号生成部1900は、マルチチャンネルオーディオ信号を受信するように構成される。例えば、係数決定信号生成部1900は、マルチチャンネルオーディオ信号の第1チャンネル1910と第2チャンネル1912を受信するように構成することができる。さらに、係数決定信号生成部1900は、チャンネル関連性ベースの特徴値決定部、例えば相関ベースの特徴値決定部1920を備えることができる。チャンネル関連性ベースの特徴値決定部1920は、マルチチャンネルオーディオ信号の2つ以上のチャンネルの関連性に基づく特徴値を提供するように構成することができる。
【0205】
いくつかの実施形態では、この種のチャンネル関連性ベースの特徴値は、マルチチャンネルオーディオ信号の周囲成分コンテンツに関する十分に信頼性の高い情報を付加的な前知識を必要とすることなく提供することができる。このように、チャンネル関連性ベースの特徴値決定部1920によって取得されるマルチチャンネルオーディオ信号の2つ以上のチャンネルの関連性を記述する情報は、予測ゲイン値情報1922として役立つことができる。さらに、いくつか実施形態では、マルチチャンネルオーディオ信号の単一のオーディオチャンネルは、係数決定信号1924として用いることができる。
【0206】
係数決定信号生成部 − 第4実施態様
類似のコンセプトは、図20を参照して引き続いて記載される。図20は、本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。図20に示される係数決定信号生成部は、全体として2000で表される。
【0207】
係数決定信号生成部2000は、同一の信号が同一の参照番号に表されるように、係数決定信号生成部1900と類似する。
【0208】
しかしながら、係数決定信号生成部2000は、係数決定信号1924を取得するために、第1チャンネル1910と第2チャンネル1912(チャンネル関連性ベースの特徴値決定部1920によってチャンネル関連性ベースの特徴値を決定するために用いられる)を結合するように構成された、マルチチャンネルから単一チャンネルへの結合部2010を備える。言い換えれば、係数決定信号1924を取得するために、マルチチャンネルオーディオ信号のうちの単一チャンネル信号を用いるよりもむしろ、チャンネル信号の結合が用いられる。
【0209】
図19、20に関して記載されたコンセプトを参照して、係数決定信号を取得するために、マルチチャンネルオーディオ信号を用いることができることに留意すべきである。典型的なマルチチャンネルオーディオ信号において、個別のチャンネル間の関連性は、マルチチャンネルオーディオ信号の周囲成分コンテンツに関する情報を提供する。したがって、マルチチャンネルオーディオ信号は、係数決定信号を取得するためと、係数決定信号を特徴づけている予測ゲイン値情報を提供するためとに用いることができる。それ故に、オーディオ信号の単一チャンネルに基づいて作動するゲイン値決定部は、ステレオ信号またはマルチチャンネルオーディオ信号の異なるタイプを用いて(例えばそれぞれの係数を決定することによって)較正することができる。このように、ステレオ信号またはマルチチャンネルオーディオ信号の異なるタイプを用いることによって、単一チャンネルオーディオ信号の処理に適用する(例えば係数を取得した後に)ことができる周囲抽出部のための係数を取得することができる。
【0210】
周囲信号を抽出する方法
図21は、入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて、周囲信号を抽出する方法のフローチャートを示す。図21に示される方法は、全体として2100で表される。
【0211】
方法2100は、入力オーディオ信号の1つ以上の特徴を記述する1つ以上の定量的特徴値を取得するステップ2110を備える。
【0212】
方法2100は、入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を、ゲイン値が定量的特徴値に定量的に依存するように、1つ以上の定量的特徴値の関数として決定するステップ2120を更に備える。
【0213】
方法2100は、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号を、時間変化するゲイン値によって重み付けするステップ2130を更に備える。
【0214】
いくつかの実施形態では、方法2100は、本願明細書に記載されている装置の機能を実行するために作動可能とすることができる。
【0215】
重み付け係数を取得する方法
図22は、入力オーディオ信号から周囲信号を抽出するゲイン値決定部をパラメータ化するための重み付け係数を取得する方法のフローチャートを示す。図22に示される方法は、全体として2200で表される。
【0216】
方法2200は、入力オーディオ信号に存在する周囲成分についての情報または周囲成分と非周囲成分の関連性を記述する情報が知れるように、係数決定入力オーディオ信号を取得するステップ2210を備える。
【0217】
方法2200は、係数決定入力オーディオ信号の複数の特徴を記述する複数の定量的特徴値の、重み付け係数によって重み付けられた結合に基づいて取得されたゲイン値が、係数決定入力信号に関連づけられた予測ゲイン値を近似するように、重み付け係数を決定するステップ2220を更に備える。
【0218】
本願明細書に記載された方法は、発明の装置に関しても記載された特徴および機能のいずれかによって補充することができる。
【0219】
コンピュータプログラム
発明の方法は、発明の方法の特定の実現方法の要求に応じて、ハードウェアまたはソフトウェアで実現することができる。実現方法は、電気的に読み取り可能な制御信号を有し、発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働するデジタル記憶媒体、例えばフレキシブルディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリーを用いて実行することができる。一般に、本発明は、それ故に、機械読み取り可能なキャリアに記憶されたプログラムコードであって、コンピュータプログラム製品がコンピュータ上で動作するときに発明の方法を実行するために作動可能であるプログラムコードを有するコンピュータプログラム製品である。言い換えれば、発明の方法は、それ故に、コンピュータプログラムがコンピュータ上で動作するときに発明の方法を実行するためのプログラムコードを有するコンピュータプログラムである。
【0220】
3.他の実施形態による方法の記載
3.1 問題の記載
実施形態による方法は、オーディオ信号のブラインドアップミックスに適した正面信号と周囲信号の抽出を目的とする。マルチチャンネルサラウンドサウンド信号は、正面チャンネルに正面信号を供給し、後方チャンネルに周囲信号を供給することによって、得ることができる。
【0221】
周囲信号抽出のさまざまな方法が既に存在する。
(1)NMFを用いる方法(2.1.3を参照)
(2)左右の入力信号の相関に依存する時間‐周波数マスクを用いる方法(2.2.4を参照)
(3)PCAとマルチチャンネル入力信号を用いる方法(2.3.2を参照)
【0222】
方法(1)は、反復数値最適化法に依存するが、数秒の長さ(例えば2〜4秒)のセグメントは一度に処理される。従って、この方法は、高い演算の複雑さであり、少なくとも上述したセグメント長のアルゴリズム遅延がある。対照的に、発明の方法は、低い演算の複雑さであり、方法(1)と比較して低いアルゴリズム遅延である。
【0223】
方法(2)と(3)は、入力チャンネル信号間の明瞭な差分に依存する。すなわち、これらは、すべての入力チャンネル信号が同一またはほとんど同一である場合に、適当な周囲信号を作り出さない。対照的に、発明の方法は、モノラル信号、または、同一またはほとんど同一であるマルチチャンネル信号を処理することが可能である。
【0224】
要約すると、提案された方法の効果は、以下の通りである。
・低い複雑さ
・低い遅延
・ステレオ入力信号と同様に、モノラルおよびほとんどモノラルの入力信号に対して動作する
【0225】
3.2 方法の記載
マルチチャンネルサラウンド信号(例えば、5.1または7.1フォーマット)は、入力信号から周囲信号と正面信号を抽出することによって取得される。周囲信号は、後方チャンネルに供給される。中心チャンネルは、スイートスポットを拡大するために用いられ、正面信号またはオリジナルの入力信号を再生する。他の正面チャンネルは、正面信号またはオリジナルの入力信号を再生する(すなわち、左側正面チャンネルは、オリジナルの左側正面信号またはオリジナルの左側正面信号の処理されたバージョンを再生する)。図10は、アップミックス処理のブロック図を示す。
【0226】
周囲信号抽出は、時間‐周波数ドメインにおいて行われる。発明の方法は、各サブバンド信号の「周囲らしさ」を測定する低レベル特徴(定量的特徴値とも称される)を用いて、各サブバンド信号の時間変化する重み(ゲイン値とも称される)を演算する。これらの重みは、周囲信号を演算するために、再合成に先立って適用される。補完的な重みは、正面信号のために演算される。
【0227】
周囲の典型的な特性の例は、以下の通りである。
・周囲音は直接音と比較してむしろ静かな音である
・周囲音は直接音より音色が少ない
【0228】
この種の特性の検出のための適当な低レベル特徴は、3.3章に記載されている。
・エネルギー特徴は信号成分の静かさを測定する
・音調特徴は信号成分のやかましさを測定する
【0229】
サブバンド指標ωと時間指標τの時間変化するゲイン係数g(ω,τ)は、演算された特徴mi(ω,τ)から、例えば式(1)を用いて導き出される。
ここで、Kは、特徴と、異なる特徴の重み付けに用いられたパラメータαi,βiの数である。
【0230】
図11は、低レベル特徴抽出を用いた周囲抽出処理のブロック図を示す。入力信号xは、1チャンネルのオーディオ信号である。より多くのチャンネルを有する信号の処理のために、処理は各チャンネルに対して別々に適用することができる。解析フィルタバンクは、例えばSTFT(短期間フーリエ変換)またはディジタルフィルタを用いて、入力信号をN周波数バンド(N>1)に分離する。解析フィルタバンクの出力は、N個のサブバンド信号Xi(1≦i≦N)である。ゲイン係数gi(1≦i≦N)は、図11に示したように、サブバンド信号Xiから1つ以上の低レベル特徴を演算し、特徴値を結合することによって取得することができる。各サブバンド信号Xiは、次にゲイン係数giを用いて重み付けられる。
【0231】
記載された処理に対する好ましい拡張は、単一のサブバンド信号の代わりに、サブバンド信号のグループを使用することである。サブバンド信号は、サブバンド信号のグループを形成するために分類することができる。ここで記載されている処理は、サブバンド信号のグループを用いて行うことができる、すなわち、低レベル特徴は、(各グループが1つ以上のサブバンド信号を含むのに対して)サブバンド信号の1つ以上のグループから演算され、導き出された重み付け係数は、対応するサブバンド信号に(すなわち、特定のグループに属するすべてのサブバンドに対して)適用される。
【0232】
周囲信号のスペクトル表現の推定は、サブバンドの1つ以上を対応する重みgiによって重み付けすることによって取得される。マルチチャンネルサラウンド信号の正面チャンネルに供給される信号は、周囲信号に用いられたような補完的な重みと同様の方法で処理される。
【0233】
周囲信号の付加的な再生は、(オリジナルの入力信号と比較して)より多い周囲信号成分に結果としてなる。正面信号の演算のための重みは、周囲信号の演算のための重みに対して反比例するとして演算される。従って、結果として生じる各正面信号は、対応するオリジナルの入力信号と比較して、より少ない周囲信号成分と、より多い直接信号成分とを含む。
【0234】
周囲信号は、図11に示すように、(オプションとして)スペクトルドメインでの付加的な後処理を用いて更に強化され(結果として生じるサラウンドサウンド信号の認知された品質に関して)、解析フィルタバンクの逆処理(すなわち合成フィルタバンク)を用いて再合成される。
【0235】
後処理は、7章において詳述される。いくつかの後処理アルゴリズムは、スペクトルドメインまたは時間ドメインのいずれかにおいて行うことができることに留意すべきである。
【0236】
図12は、低レベル特徴の抽出に基づく、1つのサブバンド(またはサブバンド信号の1つのグループ)のゲイン演算処理のブロック図を示す。さまざまな低レベル特徴が演算され、結合され、ゲイン係数をもたらす。
【0237】
結果として生じるゲインは、動的圧縮と低域フィルタリング(時間と周波数の両方の)を用いて、更に後処理することができる。
【0238】
3.3 特徴
以下の章は、周囲らしい信号の品質を特徴づけることに適した特徴について記載する。一般に、特徴は、オーディオ信号(広帯域)または特定の周波数部分(すなわち、サブバンド)またはオーディオ信号のサブバンドのグループを特徴づける。サブバンドの特徴の演算は、フィルタバンクまたは時間‐周波数変換の使用を必要とする。
【0239】
演算は、ここでオーディオ信号x[k]のスペクトル表現X(ω,τ)(ωはサブバンド指標、τは時間指標)を用いて説明される。スペクトル(またはスペクトルの1つの範囲)は、Sk(kは周波数指標)によって表される。
【0240】
信号スペクトルを用いた特徴演算は、スペクトルの異なる表現、すなわち、振幅、エネルギー、対数の振幅またはエネルギーまたは他の非線形処理されたスペクトル(例えばX0.23)を処理することができる。別に注釈されない場合は、スペクトル表示は実数値であると仮定される。
【0241】
隣接するサブバンドにおいて演算された特徴は、例えば、サブバンドの特徴値を平均することによって、サブバンドのグループを特徴づけるために包含することができる。従って、スペクトルに対する音調は、スペクトルの各スペクトル係数に対する音調値から、例えばそれらの平均値を演算することによって演算することができる。
【0242】
演算された特徴の値の範囲は、[0、1]または異なる所定の間隔であることが望ましい。後述するいくつの特徴演算は、その範囲内の値に結果としてならない。これらのケースでは、例えば特徴を記述する値を所定の間隔にマップするために、適当なマッピング関数が適用される。マッピング関数の簡単な例が、式(2)に与えられる。
【0243】
マッピングは、例えば後処理部530、532を用いて実行することができる。
【0244】
3.3.1 音調特徴
ここで使用された用語の「音調」は、「ノイズ対サウンドの音質を識別する特徴」を記述する。
【0245】
音の信号は平坦でない信号スペクトルによって特徴づけられるが、ノイズが多い信号は平坦なスペクトルを有する。従って、音の信号はノイズが多い信号より周期的であるが、ノイズが多い信号は音の信号よりもランダムである。従って、音の信号は以前の信号値から小さい予測誤差で予測可能であるが、ノイズが多い信号はうまく予測できない。
【0246】
以下に、音調を定量的に記述するために用いることができる複数の特徴が記載される。言い換えれば、ここで記述された特徴は、定量的特徴値を決定するために用いることができるかまたは定量的特徴値として役立つことができる。
【0247】
スペクトル平坦性尺度:
スペクトル平坦性尺度(SFM)は、スペクトルSの幾何平均値と算術平均値の比率として演算される。
特徴値は、SFM(S)から導き出すことができる。
【0248】
スペクトル波高係数:
スペクトル波高係数は、スペクトルX(またはS)の最大値と平均値の比率として演算される。
定量的特徴値は、SCF(S)から導き出すことができる。
【0249】
ピーク検出を用いた音調演算:
【0250】
最大が音か否かを記述する特徴値を導き出すことができる。また、例えばどれくらいの音の時間‐周波数ビンが所定の近傍内に存在するかについて記述する特徴値を導き出すことができる。
【0251】
非線形処理されたコピーの比率を用いた音調演算:
ベクトルの非平面性は、式(6)(α>β)に示されるように、スペクトルSの2つの非線形処理されたコピーの比率として測定される。
【0252】
2つの特定の実現方法が式(7)と式(8)に示される。
定量的特徴値は、F(S)から導き出すことができる。
【0253】
異なってフィルタ処理されたスペクトルの比率を用いた音調演算:
以下の音調測定は、米国特許5,918,203[HEG+99]に記載されている。
【0254】
周波数ラインkのスペクトル係数Skの音調は、スペクトルSの2つのフィルタ処理されたコピーの比率Θから演算されるが、第1のフィルタ関数Hは微分特性を有し、第2のフィルタ関数Gは積分特性または第1のフィルタより強く微分されない特性を有し、cとdは、フィルタパラメータに依存して、フィルタの遅延がいずれのケースにおいても補償されるように選択される整定数である。
【0255】
特定の実現方法が式(10)で示される。ここでHは微分フィルタの伝達関数である。
【0256】
【0257】
周期関数を用いた音調演算:
上述した音調尺度は、入力信号のスペクトルを使用し、スペクトルの非平面性から音調の尺度を導き出す。音調尺度(それから、特徴値を導き出すことができる)は、そのスペクトルの代わりに入力時間信号の周期関数を用いて演算することもできる。周期関数は、信号とその遅延されたコピーの比較から導き出される。
【0258】
両者の類似性または差異は、遅延の関数(すなわち、両信号間の時間遅延)として与えられる。信号とその(遅延τによる)遅延コピーの間の高度な類似性(または低い差異)は、期間τを有する信号の強い周期性を示す。
【0259】
周期関数の例としては、自己相関関数と平均振幅差分関数がある[dCK03]。信号xの自己相関関数rxx(τ)は、統合窓サイズWを有する式(11)で示される。
【0260】
スペクトル係数の予測を用いた音調演算:
以前の係数ビンXi-1とXi-2からの複素スペクトル係数Xiの予測を用いた音調推定は、ISO/IEC11172‐3 MPEG‐1音響心理学モデル2(レイヤー3が推奨される)に記載されている。
【0261】
複素スペクトル係数X(ω,τ)=X0(ω,τ)e-jφ(ω,τ)の振幅X0(ω,τ)と位相φ(ω、τ)の現在値は、式(12)と式(13)によって、以前の値から推定することができる。
【0262】
推定され、現実に測定された値の間の正規化されたユークリッド距離(式(14)に示される)は、音調の尺度であって、定量的特徴値を導き出すために用いることができる。
【0263】
1つのスペクトル係数の音調は、大きい予測誤差が結果として小さい音調値になるような予測誤差P(ω)(式(15)を参照、ここで、X(ω,τ)は複素数値)から演算することもできる。
P(ω,τ)=X(ω,τ)−2X(ω,τ−1)+X(ω、τ―2) (15)
【0264】
時間ドメインでの予測を用いた音調演算:
信号x[k](時間指標k)は、以前のサンプルから線形予測を用いて予測することができるが、予測誤差は、周期信号に対して小さく、ランダム信号に対して大きい。その結果として、予測誤差は信号の音調に反比例する。
【0265】
したがって、定量的特徴値は、予測誤差から導き出すことができる。
【0266】
3.3.2 エネルギー特徴
エネルギー特徴は、サブバンド内の瞬時エネルギーを測る。特定の周波数バンドの周囲抽出のための重み付け係数は、周波数バンドのエネルギーコンテンツが高い、すなわち、特定の時間‐周波数タイルが直接信号成分に非常に近くなりそうなときに、低くなる。
【0267】
加えて、エネルギー特徴は、同じサブバンドの隣接する(時間に関して)サブバンドサンプルから演算することもできる。サブバンド信号が近い過去または将来において高いエネルギーを特徴として持っている場合に、類似の重み付けが適用される。実施例は、式(16)に示される。特徴M(ω,τ)は、τ−k<τ<τ+k(τは観測窓サイズを決定する)の範囲内で隣接するサブバンドサンプルの最大値から演算される。
M(ω,τ)=max([X(ω,τ−k) X(ω,τ+k)]) (16)
【0268】
近い過去または将来において測定される瞬時サブバンドエネルギーと最大サブバンドエネルギーは、いずれも別々の特徴として取り扱われる(すなわち、式(1)に記載された結合のための異なるパラメータが用いられる)。
【0269】
以下に、アップミックスのためのオーディオ信号からの正面信号と周囲信号の低い複雑さの抽出に対するいくつかの拡張が記載される。
【0270】
拡張は、特徴抽出と、特徴の後処理と、特徴からのスペクトル重みの導出方法とに関する。
【0271】
3.3.3 特徴セットに対する拡張
以下に、上述した特徴セットのオプションの拡張が記載される。
【0272】
上記記述は、音調特徴の使用法とエネルギー特徴を記載する。特徴は、(例えば)短期間フーリエ変換(STFT)ドメインにおいて演算され、時間指標mと周波数指標kの関数である。信号x[n]の時間‐周波数ドメインの表現(例えばSTFTによって取得されたような)は、X(m,k)と記述される。ステレオ信号を処理するケースでは、左チャンネル信号はx1[k]、右チャンネル信号はx2[k]と称される。上付きの「*」は、複素共役を表す。
【0273】
以下の特徴の1つ以上は、オプションとして用いることができる。
【0274】
3.3.3.1 チャンネル間の整合性または相関性を評価する特徴
【0275】
整合性の定義:
2つの信号は、それらができる限り異なるスケーリングと遅延によって等しい、すなわち位相差が一定である場合に、整合している。
【0276】
相関性の定義:
2つの信号は、それらができる限り異なるスケーリングによって等しい場合に、相関している。
【0277】
それぞれ長さNの2つの信号間の相関性は、正規化された相互相関係数rによってしばしば測定される。
ここで、λは「忘却係数」である。この演算は、以下において「移動平均推定(MAE)」、fmae(z)と称される。
【0278】
ステレオ録音の左右のチャンネルの周囲信号成分は、一般に弱く相関している。音源を残響室においてステレオマイクロホン技術で録音するとき、両方のマイクロホン信号は、音源からマイクロホンへのパスが異なるので(主に反射パターンの相違のため)異なる。人工録音において、非相関化は人工ステレオリバーブによって導入される。その結果として、周囲抽出のための適当な特徴は、左右のチャンネル信号間の相関性または整合性を測定する。
【0279】
[AJ02]に記載されているチャンネル間の短時間コヒーレンス(ICSTC)関数は、適切な特徴である。ICSTC Φは、左右のチャンネル信号間の相互相関Φ12のMAEと、左側信号のエネルギーΦ11と右側信号のエネルギーΦ22のMAEから演算される。
【0280】
事実、[AJ02]に記載されているICSTCの公式は、正規化された相互相関係数とほとんど同一であり、唯一の相違は、データのセンタリングが適用されないことである
【0281】
[AJ02]では、周囲指標(これは「周囲らしさ」の度数の特徴表示である)は、ICSTCから非線形マッピングによって、例えば双曲線正接を用いて演算される。
【0282】
3.3.3.2 チャンネル間のレベル差
チャンネル間のレベル差(ICLD)に基づく特徴は、ステレオ画像(パノラマ)内の顕著な音源の位置を決定するために用いられる。ソースs[k]は、s[k]の振幅を以下のx1[k]とx2[k]において重み付けするために、パニング係数αを適用することによって特定の方向に振幅パンされる。
X1[k]=(1−α)s[k] (24)
X2[k]=αs[k] (25)
【0283】
時間‐周波数ビンに対して演算されるとき、ICLDベースの特徴は、特定の時間‐周波数ビンを支配する音源の位置(およびパニング係数α)を決定するためにキューを交付する。
【0284】
【0285】
上述したパニング指標に対する演算的により効率的な変形例は、次式を用いて演算される。
【0286】
【0287】
3.3.3.3 スペクトル重心
【0288】
スペクトル重心は、(スペクトルの全周波数範囲にわたって演算されたときに)知覚された音の明るさに相関する低レベル特徴である。スペクトル重心は、Hzでまたは周波数範囲の最大に正規化されたときは無次元で測定される。
【0289】
4.特徴グループ化
特徴グループ化は、特徴の更なる処理の演算負荷を低減し、および/または、特徴の時間経過を評価するという要求によって動機づけされる。
【0290】
記述された特徴は、各データブロック(それから離散フーリエ変換が演算される)について、および、各周波数ビンまたは隣接する周波数ビンのセットについて演算される。隣接するブロックから演算される特徴値(それは通常重複する)は、一緒にグループ化され、以下の関数f(x)の1つ以上によって表される可能性があるが、隣接するフレームのグループ(「スーパーフレーム」)にわたって演算される特徴値は引数xとして取り出される:
・分散または標準偏差
・フィルタリング(例えば、一次または高次の差分、重み付けられた平均値、または他の低域フィルタリング)
・フーリエ変換係数
【0291】
特徴グループ化は、例えば、結合部930、940のうちの1つによって実行することができる。
【0292】
5.教師付き回帰または類別を用いたスペクトル重み演算
以下において、オーディオ信号x[n]は、直接信号成分d[n]と周囲信号成分a[n]が加算的に含まれたたものと仮定する。
x[n]=d[n]+a[n] (29)
【0293】
本願では、スペクトル重み演算を、特徴値のパラメータによる結合として記述するものであって、パラメータは、例えば発見的に決定されたパラメータ(例えば、3.2章を与える)とすることができる。
【0294】
あるいは、スペクトル重みは、周囲信号成分の振幅の直接信号成分の振幅に対する比率の推定から決定することができる。我々は、周囲信号の直接信号に対する振幅比をRAD(m,k)と定義する。
【0295】
【0296】
このアプローチは、音声信号のノイズ低減のためのスペクトル重み付け(または短期間スペクトル減衰)に類似しているが、スペクトル重みは、サブバンドにおける時間変化するSNRの推定から演算される(例えば、[Sch04]参照)。
【0297】
(1)教師付き回帰と、(2)教師付き類別
【0298】
これらのアプローチは、周波数ビンおよびサブバンド(すなわち、周波数ビンのグループ)から演算された特徴を一緒に処理することが可能であることに留意すべきである。
【0299】
例えば:周囲指標とパニング指標は、周波数ビン毎に演算される。スペクトル重心と、スペクトル平坦性と、エネルギーは、バークバンドについて演算される。これらの特徴は異なる周波数分解能を用いて演算されるにもかかわらず、同じ分類/回帰方法を用いて一緒に処理される。
【0300】
5.1 回帰
【0301】
【0302】
5.2 類別
【0303】
6.トレーニング
トレーニングの主要な論点は、レファレンス値RAD(m,k)の適切な選択である。我々は、次の2つのオプション(最初のオプションが好ましいが)を提案する。
(1)直射信号と周囲信号が別々に利用可能である信号から測定されたレファレンス値を用いる方法
(2)モノラル信号の処理からの基準値として、ステレオ信号から演算された相関ベースの特徴を用いる方法
【0304】
6.1 オプション1
このオプションは、支配的な直接信号成分と無視できる周囲信号成分(x[n]≒d[n])、例えば乾燥した環境で録音された信号、を有するオーディオ信号を必要とする。
【0305】
例えば、オーディオ信号1810、1860は、支配的な直接成分を有するこの種の信号とみなすことができる。
【0306】
人工リバーブ信号a[n]は、リバーブ処理部によって、または、実際の部屋で採取することができる室内音響インパルス応答(RIR)による畳み込みよって、生成される。あるいは、他の周囲信号、例えば拍手、風、雨または他の環境ノイズの録音を用いることができる。
【0307】
トレーニングに用いられる基準値は、次に、式(30)を用いてd[n]とa[n]のSTFT表現から取得される。
【0308】
いくつかの実施形態では、直接信号と周囲信号成分の知識に基づいて、振幅比は、式(30)によって決定することができる。続いて、予測ゲイン値は、例えば式(31)を用いて、振幅比に基づいて取得することができる。この予測ゲイン値は、予測ゲイン値情報1316、1834として用いることができる。
【0309】
6.2 オプション2
ステレオ録音の左右のチャンネル間の相関に基づく特徴は、周囲抽出処理のための強力なキューを交付する。しかしながら、モノラル信号を処理するとき、これらのキューは利用可能でない。提案されたアプローチは、モノラル信号を処理することができる。
【0310】
トレーニングのための基準値を選択する有効なオプションは、相関ベースの特徴が演算され、基準値(例えば、予測ゲイン値を取得するための)として用いられるステレオ信号を使用することである。
【0311】
基準値は、例えば予測ゲイン値情報1920によって記述することができ、または、予測ゲイン値情報1920は、基準値から導き出すことができる。
【0312】
ステレオ録音は、次に、他の低レベル特徴の抽出のためにモノラルにダウンミックスすることができ、または、低レベル特徴は、左右のチャンネル信号から別々に演算することができる。
【0313】
この章に記載されたコンセプトを適用するいくつかの実施形態は、図19と20に示される。
【0314】
【0315】
7.周囲信号の後処理
以下の章は、周囲信号の知覚品質の強化のための適当な後処理方法を記載する。
【0316】
いくつかの実施形態では、後処理は、後処理部700によって実行することができる。
【0317】
7.1 サブバンド信号の非線形処理
導き出された周囲信号(例えば、重み付けされたサブバンド信号によって表された)は、周囲成分のみならず、信号成分をも含む(すなわち、周囲信号と直接信号の分離は完全でない)。周囲信号は、その周囲と直接の比率、すなわち、周囲成分の量の直接成分に対する比率を強化するために後処理される。適用される後処理は、周囲音は直接音と比較してむしろ静かであるという知見によって動機づけされる。静かな音を保存しながら大きい音を減衰する簡単な方法は、非線形圧縮曲線をスペクトログラムの係数(例えば、重み付けられたサブバンド信号)に適用することである。
【0318】
適当な圧縮曲線の実施例は、式(17)で与えられる。ここで、cは閾値であり、パラメータp(0<p<1)は圧縮率を決定する。
【0319】
非線形修正の他の実施例は、y=xp(0<p<1)であるが、小さい値は大きな値よりもより増加する。この関数の一実施例は、y=√xであり、ここで、xは例えば重み付けられたサブバンド信号の表現値とすることができ、yは例えば後処理された重み付けられたサブバンド信号の表現値とすることができる。
【0320】
いくつかの実施形態では、この章で記載されたサブバンド信号の非線形処理は、非線形圧縮部732によって実行することができる。
【0321】
7.2 時間遅延の導入
正面画像の安定性を改善するために、周囲信号に対して(例えば、正面信号または直接信号と比較して)、数ミリ秒(例えば14ms)の遅延が導入される。これは、2つの同一の音が、1つの音Aの開始が他の音Bの開始に関連して遅延され、両方が(リスナーに対して)異なる方向において提供されるように、提供された場合に発生する先行効果の結果である。遅延が適当な範囲内にある限り、音は、音Bが提供される方向からやってくると知覚される[LCYG99]。
【0322】
周囲信号に対して遅延を導入することによって、直接音源は、周囲信号のなかにいくつかの直接信号成分が含まれる場合であっても、リスナーの正面に対してよりよく位置づけられる。
【0323】
いくつかの実施形態では、この章で記載される時間遅延の導入は、遅延部734によって実行することができる。
【0324】
7.3 信号適応イコライズ
サラウンドサウンド信号の音色呈色を最小化するために、周囲信号(例えば、重み付けられたサブバンド信号に関して表された)は、その長期間パワースペクトル密度(PSD)を入力信号に適応させるために、イコライズされる。これは、2段階の処理で実行される。
【0325】
【0326】
信号適応イコライズは、抽出された周囲信号が入力信号より小さいスペクトルチルトを特徴づける傾向がある、すなわち周囲信号が入力信号より明るく鳴り響くという知見によって動機づけられる。多くの録音において、周囲音は、主に部屋の残響によって生じる。録音に用いられる多くの部屋は、低い周波数に対してよりも高い周波数に対して小さい残響時間を有するので、したがって、周囲信号をイコライズすることは合理的である。しかしながら、非公式のリスニングテストは、入力信号の長期間PSDに対するイコライズが有効なアプローチになると判明することを示している。
【0327】
いくつかの実施形態では、この章で記載された信号適応イコライズは、音色呈色補償器736によって実行することができる。
【0328】
7.4 過渡状態抑制
後方チャンネル信号への遅延の導入(7.2章を参照)は、過渡信号成分が存在する場合[WNR73]と、時間遅延が信号依存値(エコー閾値[LCYG99])を超える場合に、2つの分離した信号の知覚を呼び起こす。このエコーは、サラウンドサウンド信号または周囲信号の過渡信号成分を抑制することによって減衰することができる。付加的な正面画像の安定化は、後方チャンネルに位置決め可能な点源の出現が著しく低減されるので、過渡状態の抑制によって達成される。
【0329】
理想的な包囲する周囲音が時間とともにスムーズに変化することを考慮すれば、適切な過渡状態抑制方法は、周囲信号の連続的な性質に影響を及ぼすことなく過渡成分を低減する。この要求を満たす1つの方法は、[WUD07]に提案されたものであり、ここに記載されている。
【0330】
最初に、(例えば、重み付けられたサブバンド信号に関して表された周囲信号において)過渡状態が発生する時間インスタンスが検出される。引き続いて、検出された過渡領域に属する振幅スペクトルが、過渡状態の開始前の信号部分の外挿によって置き換えられる。
【0331】
従って、移動平均μ(ω)を定義された最大偏差を超えるすべての値|X(ω,τt)|は、定義された偏差インターバル内のμ(ω)のランダム偏差によって置き換えられる。ここで、添字tは、過渡領域に属するフレームを示す。
【0332】
修正部分と非修正部分の間のスムーズな遷移を保証するために、外挿値はオリジナル値によってクロスフェードされる。
【0333】
他の過渡状態抑制方法は、[WUD07]に記載されている。
【0334】
いくつかの実施形態では、この章に記載された過渡状態抑制は、過渡状態低減部738によって実行することができる。
【0335】
7.5 非相関化
左右の耳に到達する2つの信号間の相関は、音源と周囲の印象の知覚幅に影響を及ぼす。印象の開放感を改善するために、正面チャンネル信号間および/または後方チャンネル信号間(例えば、抽出された周囲信号に基づく2つの後方チャンネル信号間)のチャンネル間相関は減少される。
【0336】
2つの信号の非相関化のためのさまざまな方法が適切であり、以下に記載されている。
【0337】
櫛フィルタリング:
2つの非相関信号は、1つのチャンネルの入力信号の2つのコピーを一対の相補的櫛フィルタにより処理することによって取得される[Sch57]。
【0338】
オールパスフィルタリング:
2つの非相関信号は、1つのチャンネルの入力信号の2つのコピーを一対の異なるオールパスフィルタにより処理することによって取得される。
【0339】
平坦な伝達関数によるフィルタリング:
2つの非相関信号は、1つのチャンネルの入力信号の2つのコピーを平坦な伝達関数を有する(すなわち、インパルス応答が白色スペクトルを有する)2つの異なるフィルタによってフィルタリングすることによって取得される。
【0340】
平坦な伝達関数は、出力信号の音色呈色が小さいことを保証する。適切なFIRフィルタは、白色乱数発生器を用いて構成することができ、衰退するゲイン係数を各フィルタ係数に適用することができる。
【0341】
実施例は、式(19)に示される。ここで、hk(k<N)はフィルタ係数であり、rkは白色ランダム処理の出力であり、aとbは、b≧aNであるhkのエンベロープを決定する定数パラメータである。
hk=rk(b−ak) (19)
【0342】
適応スペクトルパノラマ化:
2つの非相関信号は、1つの入力チャンネル信号の2つのコピーをASPにより処理することによって取得される[VZA06](2.1.4章を参照)。後方チャンネル信号と正面チャンネル信号の非相関化のためのASPのアプリケーションは、[UWI07]に記載されている。
【0343】
サブバンド信号の遅延:
2つの非相関信号は、1つの入力チャンネル信号の2つのコピーをサブバンドに分解し(例えば、STFTのフィルタバンクを用いて)、サブバンド信号に対する異なる時間遅延を導入し、そして処理されたサブバンド信号から時間信号を再合成することによって取得される。
【0344】
いくつかの実施形態では、この章に記載された非相関化は、信号非相関化部740によって実行することができる。
【0345】
以下に、本発明に係る実施形態のいくつかの側面が簡潔に要約される。
【0346】
本発明に係る実施形態は、オーディオ信号をブラインドアップミックスするのに適した正面信号と周囲信号の抽出の新しい方法を構築する。本発明に係る方法のいくつかの実施形態の利点は、多面的である。
1からnへのアップミックスのための前の方法と比較して、本発明に係るいくつかの方法は、低い演算の複雑さである。
2からnへのアップミックスのための前の方法と比較して、本発明に係るいくつかの方法は、両方の入力チャンネル信号が同一(モノラル)であるかまたはほとんど同一であっても、うまく実行する。
発明に係るいくつかの方法は、入力チャンネルの数に依存せず、それ故に、入力チャンネルのいかなる構成にもよく適合する。本発明に係るいくつかの方法は、リスニングテストにおいて結果として生じるサラウンドサウンド信号を聞くときに、多くのリスナーにとって好ましい。
【0347】
要約すると、いくつかの実施形態は、アップミックスのためのオーディオ信号からの正面信号と周囲信号の低い複雑さの抽出に関する。
【0348】
8.用語解説
ASP: 適応スペクトルパノラマ化
NMF: 非負マトリクス因数分解
PCA: 主成分分析
PSD: パワースペクトル密度
STFT:短期間フーリエ変換
TFD: 時間‐周波数分布
【0349】
参考文献
[AJ02]Carlos Avendano,Jean-Marc Jot、マルチチャンネルオーディオアップミックスのためのステレオ信号からの周囲信号の抽出と合成、ICASSP議事録、2002
[AJ04]Carlos Avendano,Jean-Marc Jot、マルチチャンネルアップミックスの周波数ドメインアプローチ、英国オーディオ学会誌、52、2004
[dCK03]Alain de Cheveigne,Hideki Kawahara、 陰、話し言葉および音楽の基本周波数推定器、アメリカ音響学会誌、111(4)、1917‐1930、2003
[Dre00]R. Dressler、ドルビーサラウンドプロ・ロジック2デコーダ:解説書、ドルビー研究所報告、2000
[DT]DTS、DTS NEo:6マルチチャンネル、http://www.dts.com/media/uploads/pdfs/DTS%20Neo6%20Overview.pdf
[Fal05]C. Faller、再訪された疑似立体音響、第118回AES大会議事録、2005
[GJ07a]M. Goodwin,Jean-Marc Jot、マルチチャンネルサラウンドフォーマット変換および一般化されたアップミックス、第30回AES会議議事録、2007
[GJ07b]M. Goodwin,Jean-Marc Jot、空間オーディオf符号化と強調のための主要周囲信号の分解とベクトルベースの位置決め、ICASSP会報、2007
[HEG+99]J. Herre,E. Eberlein,B. Grill,K. Brandenburg,H. Gerhauser、米国特許5918203、1999
[IA01]R. Irwan,R. M. Aarts、ステレオからマルチチャンネルサウンドに変換する方法、第19回AES会議議事録、2001
[ISO93]ISO/MPEG,ISO/IEC11172‐3MPEG‐1、国際規格、1993
[Kar]Harman Kardon、ロジック7の解説、技術報告
[LCYG99]R. Y. Litovsky,H. S. Colburn,W. A. Yost,S. J. Guzman、先行音効果、JAES、1999
[LD05]Y. Li,P.F. Driessen、2から5チャンネルへのアップミックスの教師なし適応フィルタリングアプローチ、第119回AES大会議事録、2005
[LMT07]M. Lagrange,L.G. Martins,G. Tzanetakis、音源フォーメーションを用いたモノラルからステレオへの半自動アップミックス、第122回AES大会議事録、2007
[MPA+05]J. Monceaux,F. Pachet,F. Armadu,P. Roy,A. Zils、記述子ベースの空間化、第118回AES大会議事録、2005
[Sch04]G. Schmidt、液圧機関スペクトル重み付けに基づくrocessing スペクトル重み付けによる単一チャンネルノイズの抑圧、Eurasip会報、2004
[Sch57]M. Schroeder、単一信号を用いて得られた人工立体音響の効果、JAES、1957
[Sou04]G. Soulodre、周囲ベースのアップミックス、第117回AES大会のワークショップ、2004
[UWHH07]C. Uhle,A. Walther,O. Hellmuth,J. Herre、非負マトリクス因数分解を用いたモノラル録音からの周囲分離、第30回AES会議議事録、2007
[UWI07]C. Uhle,A. Walther,M. Ivertowski、1からnへのブラインドアップミックス、Audio Mostly、2007
[VZA06]V. Verfaille,U. Zolzer,D. Arfib、適応ディジタルオーディオ効果(A‐DAFx):サウンド変換の新分類、IEEEオーディオ・スピーチ・言語処理の会報、2006
[WNR73]H. Wallach,E.B. Newman,M.R. Rosenzweig、音響位置決めにおける優先効果、英国オーディオ学会誌、21、817‐826、1973
[WUD07]A. Walther,C. Uhle,S. Disch、マルチチャンネルアップミックスアルゴリズムにおける一時的抑制の使用、第122回AES大会議事録、2007
【技術分野】
【0001】
本発明に係る実施形態は、周囲信号を抽出する装置および周囲信号を抽出するための重み付け係数を取得する装置に関する。
【0002】
本発明に係るいくつかの実施形態は、周囲信号を抽出する方法および重み付け係数を取得する方法に関する。
【0003】
本発明に係るいくつかの実施形態は、アップミックスのためにオーディオ信号から正面信号と周囲信号とを抽出する低い複雑さの抽出法に向けられている。
【背景技術】
【0004】
以下に、イントロダクションを述べる。
1.イントロダクション
マルチチャンネル録音資料は、消費者の家庭環境においても、ますます普及してきている。これは主に、DVDの映画が、5.1マルチチャンネルサウンドを提供し、それ故に、家庭のユーザでさえ、しばしばマルチチャンネルオーディオを再生するオーディオ再生システムを設置するという事実に起因している。
【0005】
この種のセットアップは、例えば、正面の3台のスピーカ(L,C,R)と、後方の2台のスピーカ(Ls,Rs)と、1つの低周波エフェクトチャンネル(LFE)とから構成することができる。便宜上、与えられた説明は、5.1システムに関連する。それらは、マイナーな修正を持ついかなる他のマルチチャンネルシステムにも適用される。
【0006】
例えば、マルチチャンネルシステムは、2チャンネルステレオ再生を超えるいくつかの周知の利点を提供する。
・利点1:最適な(中心の)リスニングポジションを離れた場所でさえも正面像の安定性が改善される。中心チャンネルによって「スイートスポット」は拡大される。用語「スイートスポット」は、最適なサウンドインプレッションが知覚されるリスニングポジションの領域を意味する。
・利点2:「包み込まれた状態」および開放感の増強された体験は、後方チャンネルスピーカによって構築される。
【0007】
それにもかかわらず、例えば古い映画やテレビジョンシリーズでは、2つのオーディオチャンネル(「ステレオ」)あるいは1つのみ(「モノラル」)を有する大量の伝承オーディオコンテンツが存在する。
【0008】
近年では、少ないチャンネルのオーディオ信号からマルチチャンネル信号を生成するさまざまな方法が開発されている(関係する従来のコンセプトの概要については第2章を参照)。少ないチャンネルのオーディオ信号からマルチチャンネル信号を生成する処理は、「アップミックス」呼ばれる。
【0009】
アップミックスの次の2つのコンセプトが広く知られている。
(1)アップミックス処理をガイドする付加情報を持つアップミックス
付加情報は、入力信号のなかに特定の方法で「符号化」するか、または、付加的に記憶させることもできる。このコンセプトは、「ガイドアップミックス」としばしば呼ばれる。
(2)それに対して、マルチチャンネル信号がオーディオ信号からいかなる付加情報もなしに排他的に取得される「ブラインドアップミックス」
【0010】
本発明に係る実施形態は、後者、すなわちブラインドアップミックス処理に関する。
【0011】
文献においては、アップミックス処理の代替分類が報告されている。アップミックス処理は、直接/周囲‐コンセプトまたは「イン・ザ・バンド」‐コンセプトまたは両方の混合のいずれかに従うことができる。これらの2つのコンセプトは、以下において解説される。
【0012】
A.直接/周囲‐コンセプト
「直接音源」は、オリジナルの2チャンネルバージョンと同じ位置で知覚される方法で、3つの正面チャンネルによって再生される。用語「直接音源」は、1つの分離した音源(例えば、楽器)から単独かつ直接にやってくる音を、いかなる付加的な音、例えば壁からの反射によるものをほとんど有さずまたは全く有さずに記述するために用いられる。
【0013】
後方スピーカには、周囲音(周囲らしい音)が供給される。周囲音は、(仮想の)リスニング環境のインプレッションを形成するものであり、部屋の残響、観衆音(例えば拍手)、環境音(例えば雨)、人工的に意図された効果音(例えばビニールクラックリング)および暗騒音を含んでいる。
【0014】
図23は、オリジナルの2チャンネルバージョンの音像を例示したものであり、図24は、直接/周囲‐コンセプトに従うアップミックスの音像を例示したものである。
【0015】
B.「イン・ザ・バンド」‐コンセプト
「イン・ザ・バンド」‐コンセプトに従うと、あらゆる音、または少なくともいくつかの音(周囲音ばかりでなく直接音も)は、リスナーのすべてのまわりに配置することができる。音の位置は、その特性(すなわち、それが直接音か周囲音であるかどうか)からは独立し、アルゴリズムとそのパラメータ設定の特定のデザインにのみ依存する。図25は、「イン・ザ・バンド」‐コンセプトの音像を例示している。
【0016】
本発明に係る装置および方法は、直接/周囲‐コンセプトに関する。次章は、mチャンネルのオーディオ信号をnチャンネルのオーディオ信号にアップミックスする局面(m<n)における従来のコンセプトの概要を示す。
【0017】
2.ブラインドアップミックスにおける従来のコンセプト
2.1 モノラル録音のアップミックス
2.1.1 疑似ステレオ処理
いわゆる「疑似ステレオ」信号を生成する大部分の技術は、信号適応ではない。これは、いかなるモノラル信号も、コンテンツが何であろうとも同様に処理することを意味する。それらのシステムは、出力信号を非相関化するための単純なフィルタ構造および/または時間遅延によって、例えば1つのチャンネルの入力信号の2つのコピーを一対の相補的櫛形フィルタによって処理することによってしばしば機能する[Sch57]。この種のシステムの包括的な概要は、[Fal05]に見いだすことができる。
【0018】
2.1.2 音源形成を用いたモノラルからステレオへの半自動アップミックス
著者は、同じ音源に帰属し、それ故に一緒にパンされるべき信号成分(例えばスペクトルの時間‐周波数ビン)を識別するアルゴリズムを提案する[LMT07]。音源形成アルゴリズムは、ストリーム分離の原理(ゲシュタルト原理から導き出される):時間の連続性と、周波数の高調波関係と、振幅類似性を考慮する。音源は、クラスタリング法(教師なし学習)を用いて識別される。導き出された「時間‐周波数‐クラスタ」は、(a)対象の周波数範囲に関する情報、(b)音色類似性、を用いて、より大きなサウンドストリームに更に分類される。著者は、フロントエンドとして、正弦波モデリングアルゴリズム(すなわち、信号の正弦波成分の識別)の使用を報告している。
【0019】
音源形成の後、ユーザは、音源を選択し、それらにパニング重み付けを適用する。(いくつかの従来のコンセプトによれば)多くの提唱された手法(正弦波モデリング、ストリーム分離)は、平均的な複雑さの現実の信号を処理するときに、信頼できるものを実行しないことに留意すべきである。
【0020】
2.1.3 非負マトリクス因数分解を用いた周囲抽出
入力信号の時間‐周波数分布(TFD)は、例えば、短期間フーリエ変換によって演算される。直接信号成分のTFDの推定は、非負マトリクス因数分解の数値最適化法によって導き出される。周囲信号のTFDの推定は、入力信号のTFDと、直接信号のTFDの推定との差分(すなわち、近似の残差)を演算することによって取得される。周囲信号の時間信号の再合成は、入力信号の位相スペクトログラムを用いて実行される。付加的な後処理は、導き出されたマルチチャンネル信号のリスニング体験を改善するために、オプションとして適用される[UWHH07]。
【0021】
2.1.4 適応スペクトルパノラマ化(ASP)
ステレオサウンドシステムを用いた再生のためのモノラル信号のパノラマ化の方法は、[VZA06]に解説されている。処理は、STFTと、左右のチャンネル信号の再合成に用いられる周波数ビンの重み付けと、逆STFTとを組み込む。時間変化する重み付け係数は、入力信号のスペクトログラムからサブバンドにおいて演算される低レベルの特徴から導き出される。
【0022】
2.2 ステレオ録音のアップミックス
2.2.1 マトリクスデコーダ
パッシブマトリクスデコーダは、入力チャンネル信号の時間不変線形結合を用いてマルチチャンネル信号を演算する。
【0023】
アクティブマトリクスデコーダ(例えば、Dolby Pro Logic II[Dre00]、DTS NEO:6[DTS]またはHrmanKardon/Lexicon Logic 7[Kar])は、入力信号の解析を行い、マトリクス要素の信号依存適応(すなわち、線形結合のための重み付け)を実行する。これらのデコーダは、マルチチャンネル出力信号を生成するために、チャンネル間差分と信号適応ステアリングメカニズムとを用いる。マトリクスステアリング法は、顕著なソース(例えば、会話)を検出することを目指す。その処理は、時間領域において実行される。
【0024】
2.2.2 ステレオをマルチチャンネルサウンドに変換する方法
IrwanとAartsは、信号をステレオからマルチチャンネルに変換する方法を提供する[IA01]。サラウンドチャンネルの信号は、相互相関法(演算負荷を減らすために、相関係数の反復推定が提案されている)を用いて算出される。
【0025】
中心チャンネルのミキシング係数は、主成分分析(PCA)を用いて取得される。PCAは、優位な信号の方向を示すベクトルを計算するために適用される。一度に1つの優位な信号のみを検出することができる。PCAは、反復勾配降下法(これは、観測の共分散マトリクスの固有値分解を用いた標準PCAと比較して、演算負荷に関して要求が多くない)を用いて実行される。演算された方向ベクトルは、すべての非相関化された信号成分が無視される場合に、ゴニオメータの出力と類似している。方向は、次に、3つの正面チャンネルを構築するために、2から3チャンネル表現にマップされる。
【0026】
2.2.3 2から5チャンネルへのアップミックスの教師なし適応フィルタリングアプローチ
著者は、IrwanとAartsによる方法と比較される改良型アルゴリズムを提案する。元々提案された方法は、各サブバンドに適用される[LD05]。著者は、優位な信号のW排反直交性を仮定する。周波数分解は、疑似直角位相ミラーフィルタバンクまたはウェーブレットベースのオクターブフィルタバンクを用いて行われる。IrwanとAartsによる方法に対する更なる拡張は、(最初の)主成分の反復演算のための適応ステップサイズを用いることである。
【0027】
2.2.4 マルチチャンネルオーディオアップミックスのためのステレオ信号からの周囲の抽出および合成
AvendanoとJotは、ステレオオーディオ信号において周囲情報を識別し、抽出する周波数ドメイン法を提案している[AJ02]。
【0028】
その方法は、チャンネル間整合性指標と、大部分が周囲成分を構成する時間‐周波数領域の判定を可能とする非線形マッピング関数との演算に基づいている。周囲信号は、引き続いて合成され、マルチチャンネル再生システムのサラウンドチャンネルに用いられる。
【0029】
2.2.5 記述子ベースの空間化
著者は、信号の自動類別によって制御することができる1からnへのアップミックスの方法を記述する[MPA+05]。この論文は、いくつかの誤りを含んでおり、それ故に著者は、論文に解説されていることと異なる目標を目指したのかもしれない。
【0030】
アップミックス処理は、3つの処理ブロック:「アップミックスツール」、人工リバーブ、イコライズ、を使用する。「アップミックスツール」は、周囲信号の抽出を含むさまざまな処理ブロックから構成される。周囲信号の抽出方法(「空間弁別器」)は、スペクトルドメインにおけるステレオ録音の左右の信号の比較に基づいている。モノラル信号をアップミックスするためには、人工リバーブが用いられる。
【0031】
著者は、3つのアプリケーション:1から2へのアップミックス、2から5へのアップミックス、1から5へのアップミックス、を解説する。
【0032】
オーディオ信号の類別
類別処理は、教師付き学習アプローチ:オーディオ信号から低レベル特徴が抽出され、識別子がオーディオ信号を音楽、音声、またはその他の音の3つのクラスの1つに類別するために適用される、を用いる。
【0033】
類別処理の特殊性は、以下を見いだすために遺伝的プログラミング法を用いることである。
・最適特徴(差分オペレーションの組成物としての)
・取得された低レベル特徴の最適組合せ
・一組の利用可能な識別子からの最良識別子
・選択された識別子のための最良パラメータ設定
【0034】
1から2へのアップミックス
アップミックスは、リバーブとイコライズとを用いてなされる。信号が音声を含む場合は、イコライズは使用可能であり、リバーブは使用不可である。それ以外の場合は、イコライズは使用不可であり、リバーブは使用可能である。後方チャンネルにおける話し言葉の抑制を目指したいかなる専用処理も組み込まれない。
【0035】
2から5へのアップミックス
著者は、マルチチャンネルサウンドトラックを組み立てることを目指しているが、中心チャンネルをミュートすることによって、検出された音声は減衰される。
【0036】
1から5へのアップミックス
マルチチャンネル信号は、リバーブ、イコライズ、「アップミックスツール」(これは、ステレオ信号から5.1信号を生成するものであって、ステレオ信号はリバーブの出力であって「アップミックスツール」への入力である)、を用いて生成される。音楽、音声、他の全ての音には、異なるプリセットが用いられる。リバーブとイコライズを制御することによって、音声を中心チャンネルに保持し、すべてのチャンネルに音楽と他の音を有するマルチチャンネルのサウンドトラックが組み立てられる。
【0037】
信号が音声を含む場合には、リバーブは使用不可である。それ以外の場合は、リバーブは使用可能である。後方チャンネル信号の抽出はステレオ信号に依存するので、リバーブが使用不可のとき(音声のケース)にはいかなる後方チャンネル信号も生成されない。
【0038】
2.2.6 周囲ベースのアップミックス
Soulodreは、ステレオ信号からマルチチャンネル信号を構築するシステムを提供する[Sou04]。信号は、いわゆる「個別ソースストリーム」と「周囲ストリーム」に分解される。これらのストリームに基づき、いわゆる「審美エンジン」がマルチチャンネル出力を合成する。分解と合成のステップの更なる技術詳細は与えられていない。
【0039】
2.3 任意数のチャンネルを有するオーディ信号のアップミックス
2.3.1 マルチチャンネルサラウンドフォーマット変換および一般化アップミックス
著者は、中間モノラルダウンミックスを用いた空間オーディオ符号化に基づく方法を記述し、中間ダウンミックスを有さない改良方法を紹介する。改良方法は、パッシブマトリクスアップミックスと、空間オーディオ符号化により知られた法則を含む。改良は、中間オーディオの増大したデータレートの代償として得られる[GJ07a]。
【0040】
2.3.2 空間オーディオ符号化と強化のための主要周囲信号の分解およびベクトルベースの位置決め
著者は、主成分分析(PCA)を用いた入力信号の主要(直接)信号と周囲信号への分離を提案する[GJ07b]。
【0041】
入力信号は、主要(直接)信号と周囲信号の和としてモデル化される。直接信号は周囲信号より実質的に多くのエネルギーを有し、両方の信号は無相関であると仮定される。
【0042】
処理は、周波数ドメインにおいて行われる。直接信号のSTFT係数は、入力信号のSTFT係数の最初の主成分上への射影から取得される。周囲信号のSTFT係数は、入力信号と直接信号のSTFT係数の差分から演算される。
【0043】
(最初の)主成分(すなわち、最大固有値に対応する共分散マトリクスの固有ベクトル)のみが必要であるので、標準PCAにおいて用いられる固有値分解の演算的に効率的な代替手段(反復近似)が適用される。PCA分解のために必要とされる相互相関も、反復的に推定される。直接信号と周囲信号は、オリジナルに加算される。すなわち分解においていかなる情報も失われない。
【発明の概要】
【0044】
上記にかんがみて、入力オーディオ信号から周囲信号の低い複雑さの抽出法のニーズがある。
【0045】
本発明に係るいくつかの実施形態は、入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出する装置を構築する。装置は、入力オーディオ信号に従って、入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部を備える。装置は、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号の1つを、時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部を備える。ゲイン値決定部は、入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得し、ゲイン値が定量的特徴値に定量的に依存するように、ゲイン値を1つ以上の定量的特徴値の関数として提供するように構成される。ゲイン値決定部は、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるようにゲイン値を提供するように構成される。
【0046】
本発明に係るいくつかの実施形態は、入力オーディオ信号から周囲信号を抽出するための重み付け係数を取得する装置を提供する。装置は、係数決定入力オーディオ信号の複数の特徴を記述する複数の定量的特徴値の、重み付け係数を用いた(または重み付け係数によって定義された)重み付け結合に基づいて取得されたゲイン値が、係数決定入力オーディオ信号に関連づけられた予測ゲイン値を近似するように、重み付け係数を決定するように構成された重み付け係数決定部を備える。
【0047】
本発明に係るいくつかの実施形態は、周囲信号を抽出し、重み付け係数を取得する方法を提供する。
【0048】
本発明に係るいくつかの実施形態は、定量的特徴値、例えば入力オーディオ信号の1つ以上の特徴を記述する一連の定量的特徴値を決定することによって、この種の定量的特徴値が限られた演算労力によって提供でき、効率的かつ柔軟にゲイン値に変換できるような、特に効率的かつ柔軟な方法で、入力オーディオ信号から周囲信号を抽出することができるという発見に基づいている。1つ以上の特徴を1つ以上の一連の定量的特徴値に関して記述することによって、定量的特徴値に定量的に依存するゲイン値を容易に取得することができる。例えば、特徴値からゲイン値を引き出すために、単純な数学的マッピングを用いることができる。加えて、ゲイン値が特徴値に定量的に依存するようにゲイン値を提供することによって、入力オーディオ信号からの微調整された周囲信号の抽出を得ることができる。入力オーディオ信号のどの成分が周囲成分であって、入力オーディオ信号のどの成分が非周囲成分であるかという難しい判定をするよりもむしろ、周囲成分の段階的な抽出を実行することができる。
【0049】
加えて、定量的特徴値の使用は、異なる特徴を記述する特徴値の特に効率的かつ正確な結合を可能にする。定量的特徴値は、例えば、スケーリングする、または、数学的処理ルールによる線形または非線形方法で処理することができる。
【0050】
ゲイン値を取得するために複数の特徴値が結合されるいくつかの実施形態において、結合に関する詳細(例えば異なる特徴値のスケーリングに関する詳細)は、例えばそれぞれの係数を調整することによって、容易に調整することができる。
【0051】
上記を要約すると、定量的特徴値の決定を含み、定量的特徴値に基づくゲイン値の決定をも含む、周囲信号を抽出するコンセプトは、入力オーディオ信号から周囲信号を抽出する効率的かつ低い複雑さのコンセプトを構成することができる。
【0052】
本発明に係るいくつかの実施形態において、入力オーディオ信号の時間‐周波数ドメイン表現のサブバンド信号の1つ以上を重み付けすることが特に効率的であることが示されている。時間‐周波数ドメイン表現のサブバンド信号の1つ以上を重み付けすることによって、入力オーディオ信号から周囲信号成分の周波数選別的なまたは特別な抽出を成し遂げることができる。
【0053】
本発明に係るいくつかの実施形態は、入力オーディオ信号から周囲信号を抽出するための重み付け係数を取得する装置を構築する。
【0054】
これらの実施形態のいくつかは、周囲信号の抽出のための係数は、いくつかの実施形態において「校正信号」または「基準信号」とみなすことができる係数決定入力オーディオ信号に基づいて取得することができるという発見に基づいている。この種の係数決定入力オーディオ信号、例えば既知のまたは適度な労力によって取得できる予測ゲイン値を用いることによって、定量的特徴値の結合が結果として予測ゲイン値を近似するゲイン値になるような定量的特徴値の結合を定義する係数を取得することができる。
【0055】
前記コンセプトによれば、これらの係数によって構成される周囲信号抽出部が、入力オーディオ信号から係数決定入力オーディオ信号に類似する周囲信号(または周囲成分)の十分に良好な抽出を実行できるように、適当な重み付け係数のセットを取得することができる。
【0056】
本発明に係るいくつかの実施形態において、重み付け係数を取得する装置は、異なるタイプの入力オーディオ信号に対して周囲信号を抽出する装置の効率的な適応を可能とする。例えば、「トレーニング信号」、すなわち係数決定入力オーディオ信号として役立ち、周囲信号抽出部のユーザのリスニング嗜好に適応する所定のオーディオ信号に基づいて、適当な重み付け係数のセットを取得することができる。加えて、重み付け係数を提供することによって、異なる特徴を記述する利用可能な定量的特徴値の最適使用をなすことができる。
【0057】
本発明に係る実施形態の更なる詳細、作用および効果は、引き続いて記載される。
【図面の簡単な説明】
【0058】
本発明に係る実施形態は、以下の添付図面を参照して引き続いて記載される。
【図1】本発明に係る実施形態による周囲信号を抽出する装置のブロック構成図を示す。
【図2】本発明に係る実施形態による入力音声信号から周囲信号を抽出する装置の詳細ブロック構成図を示す。
【図3】本発明に係る実施形態による入力音声信号から周囲信号を抽出する装置の詳細ブロック構成図を示す。
【図4】本発明に係る実施形態による入力音声信号から周囲信号を抽出する装置のブロック構成図を示す。
【図5】本発明に係る実施形態によるゲイン値決定部のブロック構成図を示す。
【図6】本発明に係る実施形態による重み付け部のブロック構成図を示す。
【図7】本発明に係る実施形態による後処理部のブロック構成図を示す。
【図8a】本発明に係る実施形態による周囲信号を抽出する装置のブロック構成図からの抜粋を示す。
【図8b】本発明に係る実施形態による周囲信号を抽出する装置のブロック構成図からの抜粋を示す。
【図9】時間-周波数ドメイン表現から特徴値を抽出するコンセプトを図示したものである。
【図10】本発明に係る実施形態による1から5へのアップミックスを実行する装置または方法のブロック図を示す。
【図11】本発明に係る実施形態による周囲信号を抽出する装置または方法のブロック図を示す。
【図12】本発明に係る実施形態によるゲイン演算を実行する装置または方法のブロック図を示す。
【図13】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。
【図14】本発明に係る実施形態による重み付け係数を取得する他の装置のブロック構成図を示す。
【図15a】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。
【図15b】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。
【図16】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図を示す。
【図17】本発明に係る実施形態による重み付け係数を取得する装置のブロック構成図の抜粋を示す。
【図18a】本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。
【図18b】本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。
【図19】本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。
【図20】本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。
【図21】本発明に係る実施形態による入力音声信号から周囲信号を抽出する方法のフローチャートを示す。
【図22】本発明に係る実施形態による重み付け係数を決定する方法のフローチャートを示す。
【図23】ステレオ再生を例示する図である。
【図24】直接/周囲‐コンセプトを例示する図である。
【図25】イン・ザ・バンド‐コンセプトを例示する図である。
【発明を実施するための形態】
【0059】
周囲信号を抽出する装置 − 第1実施形態
図1は、入力オーディオ信号から周囲信号を抽出する装置のブロック構成図を示す。図1に示される装置は、全体として100で表される。装置100は、入力オーディオ信号110を受信し、入力オーディオ信号に基づいて少なくとも1つの重み付けられたサブバンド信号を提供し、重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるように構成される。装置100は、ゲイン値決定部120を備える。ゲイン値決定部120は、入力オーディオ信号110を受信し、入力オーディオ信号110に従って一連の時間変化する周囲信号ゲイン値122(簡単にゲイン値とも表される)を提供するように構成される。ゲイン値決定部120は、重み付け部130を備える。重み付け部130は、入力オーディオ信号の時間‐周波数ドメイン表現またはその少なくとも1つのサブバンド信号を受信するように構成される。サブバンド信号は、入力オーディオ信号の1つの周波数バンドまたは1つの周波数サブバンドを記述することができる。重み付け部130は、サブバンド信号132に従って、かつ、一連の時間変化する周囲信号のゲイン値122にも従って、重み付けられたサブバンド信号112を提供するように更に構成される。
【0060】
上記構成上の記述に基づき、装置100の機能は以下に記載される。ゲイン値決定部120は、入力オーディオ信号110を受信し、入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得するように構成される。言い換えれば、ゲイン値決定部120は、例えば、入力オーディオ信号の1つの特徴または特性を特徴づけている定量的情報を取得するように構成することができる。あるいは、ゲイン値決定部120は、入力オーディオ信号の複数の特徴を記述する複数の定量的特徴値(またはその一連)を取得するように構成することができる。このように、入力オーディオ信号の特徴(または、いくつかの実施形態においては「低レベル特徴」)とも表される、一定の特性を、一連のゲイン値を提供するために評価することができる。ゲイン値決定部120は、一連の時間変化する周囲信号のゲイン値122を、1つ以上の定量的特徴(またはその一連)の関数として提供するように更に構成される。
【0061】
以下において、用語「特徴」は、記述を短縮するために、時には、特徴または特性を表すために用いられる。
【0062】
いくつかの実施形態では、ゲイン値決定部120は、時間変化する周囲信号のゲイン値を、ゲイン値が定量的特徴値に定量的に依存するように、提供するように構成される。言い換えれば、いくつかの実施形態では、特徴値は、複数の値(ある場合は2つ以上の値、ある場合は10以上の値およびある場合は準連続数の値でさえある)をとることができ、対応する周囲信号のゲイン値は、(少なくとも特徴値の一定範囲にわたって)線形または非線形方法で特徴値を追従することができる。このように、いくつかの実施形態では、ゲイン値は、1つ以上の対応する定量的特徴値の1つの増加によって単調に増加することができる。他の実施形態では、ゲイン値は、1つ以上の対応する値の1つの増加によって単調に減少することができる。
【0063】
いくつかの実施形態では、ゲイン値決定部は、第1の特徴の時間進化を記述する一連の定量的特徴値を生成するように構成することができる。したがって、ゲイン値決定部は、例えば、一連のゲイン値の第1の特徴を記述する一連の特徴値をマップするように構成することができる。
【0064】
いくつかの他の実施形態では、ゲイン値決定部は、入力オーディオ信号110の複数の異なる特徴の時間進化を記述する複数の一連の特徴値を提供するかまたは算出するように構成することができる。したがって、複数の一連の定量的特徴値は、一連のゲイン値にマップすることができる。
【0065】
上記を要約すると、ゲイン値決定部は、入力オーディオ信号の1つ以上の特徴を定量的方法で評価することができ、それに基づくゲイン値を提供することができる。
【0066】
重み付け部130は、入力オーディオ信号110の周波数スペクトルの一部を(または完全な周波数スペクトルでさえも)一連の時間変化する周囲信号のゲイン値122に従って重み付けするように構成される。この目的のために、重み付け部は、入力オーディオ信号の時間‐周波数ドメイン表現の少なくとも1つのサブバンド信号132(または複数のサブバンド信号)を受信する。
【0067】
ゲイン値決定部120は、入力オーディオ信号を、時間ドメイン表現または時間‐周波数ドメイン表現のいずれかで受信するように構成することができる。しかしながら、周囲信号を抽出する処理は、入力信号の重み付けが入力オーディオ信号110の時間‐周波数ドメインを用いて重み付け部によって実行される場合に、特に効率的な方法で実行できることが分かっている。重み付け部130は、入力オーディオ信号の少なくとも1つのサブバンド信号132をゲイン値122に従って重み付けするように構成される。重み付け部130は、サブバンド信号をスケーリングするために、一連のゲイン値のうちのゲイン値を1つ以上のサブバンド信号132に適用し、1つ以上の重み付けられたサブバンド信号112を取得するように構成される。
【0068】
いくつかの実施形態では、ゲイン値決定部120は、入力オーディオ信号の特徴が評価され、入力オーディオ信号110またはそのサブバンド(サブバンド信号132によって表される)がオーディオ信号のなかの周囲成分または非周囲成分を表す見込みがあるかどうかを特徴づける(または少なくとも表示を提供する)ように構成される。しかしながら、ゲイン値決定部によって処理される特徴値は、入力オーディオ信号110のなかの周囲成分と非周囲成分の関連性に関する定量的情報を提供するために選択することができる。例えば、特徴値は、入力オーディオ信号110のなかの周囲成分と非周囲成分の関連性に関する情報(または少なくとも表示)、または少なくともその予測を記述する情報をもたらすことができる。
【0069】
したがって、ゲイン値決定部130は、ゲイン値122に従って重み付けされたサブバンド信号112のなかの周囲成分が非周囲成分に対して強調されるように、一連のゲイン値を生成するように構成することができる。
【0070】
上記を要約すると、装置100の機能は、入力オーディオ信号110の特徴を記述する1つ以上の一連の定量的特徴値に基づく一連のゲイン値の決定をベースとしている。一連のゲイン値は、特徴値がそれぞれの時間‐周波数ビンの比較的大きい「周囲らしさ」を示す場合には、入力オーディオ信号110の周波数バンドを表したサブバンド信号132は大きなゲイン値でスケーリングされ、ゲイン値決定部によって考慮された1つ以上の特徴がそれぞれの時間‐周波数ビンの比較的小さい「周囲らしさ」を示す場合には、入力オーディオ信号110の周波数バンドは比較的小さいゲイン値でスケーリングされるように、生成される。
【0071】
周囲信号を抽出する装置 − 第2実施形態
ここで、図2を参照して、図1に示された装置100のオプションの拡張について述べる。図2は、入力オーディオ信号から周囲信号を抽出する装置の詳細なブロック構成図を示す。図2に示される装置は、全体として200で表される。
【0072】
装置200は、入力オーディオ信号210を受信し、複数の出力サブバンド信号212a〜212dを提供し、そのうちの幾つかは重み付けできるように構成される。
【0073】
装置200は、例えば、オプションと考えることができる解析フィルタバンク216を備えることができる。解析フィルタバンク216は、例えば、時間ドメイン表現の入力オーディオ信号コンテンツ210を受信し、入力オーディオ信号の時間‐周波数ドメイン表現を提供するように構成することができる。入力オーディオ信号の時間‐周波数ドメイン表現は、例えば、入力オーディオ信号を複数のサブバンド信号218a〜218dに関して記述することができる。サブバンド信号218a〜218dは、例えば、入力オーディオ信号210の異なるサブバンドまたは周波数バンドに存在するエネルギーの時間進化を表すことができる。例えば、サブバンド信号218a〜218dは、入力オーディオ信号210の引き続く部分(時間的に)の一連の高速フーリエ変換係数を表すことができる。例えば、第1のサブバンド信号218aは、引き続く時間部分における入力オーディオ信号の所定の周波数サブバンドに存在するエネルギーの時間進化を記述することができ、それはオーバーラップしていてもオーバーラップしていなくてもよい。同様に、他のサブバンド信号218b〜218dは、他のサブバンドに存在するエネルギーの時間進化を記述することができる。
【0074】
ゲイン値決定部は、複数の定量的特徴値決定部250、252、254を(オプションとして)備えることができる。定量的特徴値決定部250、252、254は、いくつかの実施形態において、ゲイン値決定部220の一部とすることができる。しかしながら、他の実施形態では、定量的特徴値決定部250、252、254は、ゲイン値決定部220に対して外部にあってもよい。この場合、ゲイン値決定部220は、定量的特徴値を外部の定量的特徴値決定部から受信するように構成することができる。外部で生成された定量的特徴値と内部で生成された定量的特徴値を受信することはいずれも、定量的特徴を「取得する」こととみなされる。
【0075】
定量的特徴値決定部250、252、254は、例えば、入力オーディオ信号についての情報を受信し、入力オーディオ信号の異なる特徴を定量的方法で記述する定量的特徴値250a、252a、254aを提供するように構成することができる。
【0076】
いくつかの実施形態では、定量的特徴値決定部250、252、254は、入力オーディオ信号210の周囲成分コンテンツに関する、または、入力オーディオ信号210の周囲成分コンテンツと非周囲成分コンテンツの関連性に関する指標を提供する入力オーディオ信号210の特徴を、対応する定量的特徴値250a、252a、254aに関して記述するために選択される。
【0077】
ゲイン値決定部220は、重み付け結合部260を更に備える。重み付け結合部260は、定量的特徴値250a、252a、254aを受信し、それに基づいてゲイン値222(または一連のゲイン値)を提供するように構成することができる。ゲイン値222(または一連のゲイン値)は、サブバンド信号218a、218b、218c、218dの1つ以上を重み付けするために重み付けユニットによって用いられる。例えば、重み付けユニット(簡単に「重み付け部」とも表される)は、例えば、複数の個別スケーリング部または個別重み付け部270a、270b、270cを備えることができる。例えば、第1の個別重み付け部270aは、第1のサブバンド信号218aをゲイン値(または一連のゲイン値)222に従って重み付けするように構成することができる。このように、第1の重み付けられたサブバンド信号212aが取得される。いくつかの実施形態では、ゲイン値(または一連のゲイン値)222は、付加的なサブバンド信号を重み付けするために用いられる。実施形態では、オプションの第2の個別重み付け部270bは、第2のサブバンド信号218bを重み付けし、重み付けられた第2のサブバンド信号212bを取得するように構成することができる。更に、第3の個別重み付け部 270cは、第3のサブバンド信号218cを重み付けし、第3の重み付けられたサブバンド信号212cを取得するために用いることができる。上記説明から、ゲイン値(または一連のゲイン値)222は、入力オーディオ信号を時間‐周波数ドメイン表現の形式で表したサブバンド信号218a、218b、218c、218dの1つ以上を重み付けするために使用できることがわかる。
【0078】
定量的特徴値決定部
以下に、定量的特徴値決定部250、252、254に関するさまざまな詳細が記載される。
【0079】
定量的特徴値決定部250、252、254は、異なるタイプの入力情報を使用するように構成することができる。例えば、図2に示されるように、第1の定量的特徴値決定部250は、入力情報として、入力オーディオ信号の時間ドメイン表現を受信するように構成することができる。あるいは、第1の定量的特徴値決定部250は、入力オーディオ信号の全スペクトルを記述する入力情報を受信するように構成することができる。このように、いくつかの実施形態では、少なくとも1つの定量的特徴値250aは、(オプションとして)入力オーディオ信号の時間ドメイン表現に基づいて、または、入力オーディオ信号を全体として(少なくとも所定の期間について)記述する他の表現に基づいて算出することができる。
【0080】
第2の定量的特徴値決定部252は、入力情報として、単一のサブバンド信号、例えば第1のサブバンド信号218aを受信するように構成される。このように、第2の定量的特徴値決定部は、例えば、単一のサブバンド信号に基づいて、対応する定量的特徴値252aを提供するように構成することができる。ゲイン値222(またはその一連)が単一のサブバンドにだけ適用される実施形態においては、ゲイン値222が適用されるサブバンド信号は、第2の定量的特徴値決定部222によって用いられるサブバンド信号と同一とすることができる。
【0081】
第3の定量的特徴値決定部254は、例えば、入力情報として、複数のサブバンド信号を受信するように構成することができる。例えば、第3の定量的特徴値決定部254は、入力情報として、第1のサブバンド信号218aと、第2のサブバンド信号218bと、第3のサブバンド信号218cを受信するように構成される。このように、定量的特徴値決定部254は、複数のサブバンド信号に基づいて定量的特徴値254aを提供するように構成される。ゲイン値222(またはその一連)が複数のサブバンド信号(例えばサブバンド信号218a、218b、218c)を重み付けするために適用される実施形態においては、ゲイン値222が適用されるサブバンド信号は、第3の定量的特徴値決定部254によって評価されるサブバンド信号と同一とすることができる。
【0082】
上記を要約すると、ゲイン値決定部222は、いくつかの実施形態において、複数の異なる特徴値250a、252a、254aを取得するために、異なる入力情報を評価するように構成された複数の異なる定量的特徴値決定部を備えることができる。いくつかの実施形態では、1つ以上の特徴値決定部は、入力オーディオ信号の広帯域表現に基づいて(例えば、入力オーディオ信号の時間ドメイン表現に基づいて)特徴を評価するように構成することができ、その一方で他の特徴値決定部は、入力オーディオ信号210の周波数スペクトルの一部だけ、または、単一の周波数バンドまたは周波数サブバンドのみを評価するようにさえ構成することができる。
【0083】
重み付け
以下に、例えば、重み付け結合部260によって実行される定量的特徴値の重み付けに関するいくつかの詳細が記載される。
【0084】
重み付け結合部260は、ゲイン値222を、定量的特徴値決定部250、252、254によって提供される定量的特徴値250a、252a、254aに基づいて取得するように構成される。重み付け結合部は、例えば、定量的特徴値決定部によって提供される定量的特徴値を線形にスケーリングするように構成することができる。いくつかの実施形態では、重み付け結合部は、定量的特徴値の線形結合を形成するものとみなすことができ、異なる重み(例えば、それぞれの重み付け係数によって記述することができる)は、定量的特徴値に関連づけることができる。いくつかの実施形態では、重み付け結合部は、定量的特徴値決定部によって提供される特徴値を非線形な方法で処理するように構成することもできる。非線形処理は、例えば、結合に先立って、または、結合の整数部分として、実行することができる。
【0085】
いくつかの実施形態では、重み付け結合部260は、調整可能であるように構成することができる。言い換えれば、いくつかの実施形態では、重み付け結合部は、異なる定量的特徴値決定部の定量的特徴値に関連づけられた重みが調整可能であるように構成することができる。例えば、重み付け結合部260は、例えば、定量的特徴値250a、252a、254aの非線形処理、および/または、定量的特徴値250a、252a、254aの線形スケーリングに影響を及ぼす、重み付け係数のセットを受信するように構成することができる。重み付け処理に関する詳細は、引き続いて記載される。
【0086】
いくつかの実施形態では、ゲイン値決定部220は、オプションの重み調整部270を備えることができる。オプションの重み調整部270は、重み付け結合部260によって実行される定量的特徴値250a、252a、254aの重み付けを調整するように構成することができる。定量的特徴の重み付けのための重み付け係数の決定に関する詳細は、例えば、図14〜20を参照して、引き続いて記載される。前記重み付け係数の決定は、例えば、別個の装置、または、重み調整部270によって実行することができる。
【0087】
周囲信号を抽出する装置 − 第3実施形態
以下に、本発明に係る他の実施形態が記載される。図3は、入力オーディオ信号から周囲信号を抽出する装置の詳細なブロック構成図を示す。図3に示される装置は、全体として300で表される。
【0088】
しかしながら、本発明の記述の全体にわたって、同じ参照番号は同一の手段、信号または機能を示すために選択されていることに留意すべきである。
【0089】
装置300は、装置200に非常に類似している。しかしながら、装置300は、特に効率的な特徴値決定部のセットを備える。
【0090】
図3から分かるように、図2に示されたゲイン値決定部220に代わるゲイン値決定部320は、第1の定量的特徴値決定部として、音調特徴値決定部350を備える。音調特徴値決定部350は、例えば、第1の定量的特徴値として定量的音調特徴値350aを提供するように構成することができる。
【0091】
さらに、ゲイン値決定部320は、第2の定量的特徴値決定部として、第2の定量的特徴値としてエネルギー特徴値352aを提供するように構成されるエネルギー特徴値決定部352を備える。
【0092】
さらにまた、ゲイン値決定部320は、第3の定量的特徴値決定部として、スペクトル重心特徴値決定部354を備えることができる。スペクトル重心特徴値決定部は、第3の定量的特徴値として、入力オーディオ信号の周波数スペクトルの、または、入力オーディオ信号210の周波数スペクトルの一部の重心を記述するスペクトル重心特徴値を提供するように構成することができる。
【0093】
したがって、重み付け結合部260は、音調特徴値350a(またはその一連)と、エネルギー特徴値352a(またはその一連)と、スペクトル重心特徴値354a(またはその一連)を、線形および/または非線形に重み付けする方法で結合し、サブバンド信号218a、218b、218c、218d(または、少なくともサブバンドの1つ)を重み付けするためのゲイン値222を取得するように構成することができる。
【0094】
周囲信号を抽出する装置 − 第4実施態様
以下に、図4を参照して、装置300の可能な拡張を述べる。しかしながら、図4を参照して記載されるコンセプトは、図3に示される構成と独立して用いることもできる。
【0095】
図4は、周囲信号を抽出する装置のブロック構成図を示す。図4に示される装置は、全体として400で表される。装置400は、入力信号として、マルチチャンネル入力オーディオ信号410を受信するように構成される。加えて、装置400は、マルチチャンネル入力オーディオ信号410に基づいて、少なくとも1つの重み付けられたサブバンド信号412を提供するように構成される。
【0096】
装置400は、ゲイン値決定部420を備える。ゲイン値決定部420は、マルチチャンネル入力オーディオ信号の第1チャンネル410aと第2チャンネル410bを記述する情報を受信するように構成される。さらに、ゲイン値決定部420は、マルチチャンネル入力オーディオ信号の第1チャンネル410aと第2チャンネル410bを記述する情報に基づいて、一連の時間変化する周囲信号のゲイン値422を提供するように構成される。時間変化する周囲信号のゲイン値422は、例えば、時間変化するゲイン値222と等価とすることができる。
【0097】
さらに、装置400は、マルチチャンネル入力オーディオ信号410を記述する少なくとも1つのサブバンド信号を、時間変化する周囲信号のゲイン値422に従って重み付けするように構成された重み付け部430を備える。
【0098】
重み付け部430は、例えば、重み付け部130、または、個別重み付け部270a、270b、270cの機能を備えることができる。
【0099】
ここでゲイン値決定部420を参照すると、ゲイン値決定部420は、例えば、ゲイン値決定部120、ゲイン値決定部220またはゲイン値決定部320について、1つ以上の定量的チャンネル関連性特徴値を取得するように構成されるという点で拡張することができる。言い換えれば、ゲイン値決定部420は、マルチチャンネル入力信号410の2つ以上のチャンネル間の関連性を記述する1つ以上の定量的特徴値を取得するように構成することができる。
【0100】
例えば、ゲイン値決定部420は、マルチチャンネル入力オーディオ信号410の2つのチャンネル間の相関を記述する情報を取得するように構成することができる。代わりに、または加えて、ゲイン値決定部420は、マルチチャンネル入力オーディオ信号410の第1チャンネルと入力オーディオ信号410の第2チャンネルの信号強度の関連性を記述する定量的特徴値を取得するように構成することができる。
【0101】
いくつかの実施形態では、ゲイン値決定部420は、1つ以上のチャンネル関連性特徴を記述する1つ以上の特徴値(または一連の特徴値)を提供するように構成された1つ以上のチャンネル関連性ゲイン値決定部を備えることができる。いくつかの他の実施形態では、チャンネル関連性特徴値決定部は、ゲイン値決定部420の外部にあってもよい。
【0102】
いくつかの実施形態では、ゲイン値決定部は、例えば、異なるチャンネル関連性特徴を記述する1つ以上の定量的チャンネル関連性特徴値を、重み付け方法において結合することでゲイン値を決定するように構成することができる。いくつかの実施形態では、ゲイン値決定部420は、一連の時間変化する周囲信号のゲイン値422を、1つ以上の定量的チャンネル関連性特徴値のみに基づいて、例えば、定量的な単一チャンネル特徴値を考慮せずに、決定するように構成することができる。しかしながら、いくつかの他の実施形態では、ゲイン値決定部420は、例えば、1つ以上の定量的チャンネル関連性特徴値(1つ以上の異なるチャンネル関連性特徴を記述する)と1つ以上の定量的単一チャンネル特徴値(1つ以上の単一チャンネル特徴を記載する)を、重み付け方法において結合するように構成される。このように、いくつかの実施形態では、マルチチャンネル入力オーディオ信号410の単一チャンネルに基づく単一チャンネル特徴と、マルチチャンネル入力オーディオ信号410の2つ以上のチャンネル間の関連性を記述するチャンネル関連性特徴の両方を、時間変化する周囲信号のゲイン値を決定するために考慮することができる。
【0103】
このように、本発明に係るいくつかの実施形態では、特に意味がある一連の時間変化する周囲信号のゲイン値は、単一チャンネル特徴とチャンネル関連性特徴の両方を考慮に入れることによって取得することができる。したがって、時間変化する周囲信号のゲイン値は、オーディオ信号チャンネルに対して前記ゲイン値によって重み付けするために適応することができ、その一方で、貴重な情報をさらに考慮に入れて、複数のチャンネル間の関連性の評価から取得することができる。
【0104】
ゲイン値決定部の詳細
以下に、図5を参照してゲイン値決定部に関する詳細が記載される。図5は、ゲイン値決定部の詳細なブロック構成図を示す。図5に示されるゲイン値決定部は、全体として500で表される。ゲイン値決定部500は、例えば、本願明細書に記載されたゲイン値決定部120、220、320、420の機能を引き継ぐことができる。
【0105】
非線形前処理部
ゲイン値決定部500は、(オプションの)非線形前処理部510を備える。非線形前処理部510は、1つ以上の入力オーディオ信号の表現を受信するように構成することができる。例えば、非線形前処理部510は、入力オーディオ信号の時間‐周波数ドメイン表現を受信するように構成することができる。しかしながら、いくつかの実施形態では、非線形前処理部510は、代わりにまたは加えて、入力オーディオ信号の時間ドメイン表現を受信するように構成することができる。いくつかの更なる実施形態では、非線形前処理部は、入力オーディオ信号の第1チャンネルの表現(例えば時間ドメイン表現または時間‐周波数ドメイン表現)と、入力オーディオ信号の第2チャンネルの表現とを受信するように構成することができる。非線形前処理部は、入力オーディオ信号の1つ以上のチャンネルの前処理された表現または前処理された表現の一部(例えば、スペクトル部分)を、少なくとも第1の定量的特徴値決定部520に対して提供するように更に構成することができる。さらに、非線形前処理部は、入力オーディオ信号(またはその部分)の他の前処理された表現を、第2の定量的特徴値決定部522に対して提供するように構成することができる。第1の定量的特徴値決定部520に対して提供される入力オーディオ信号の表現は、第2の定量的特徴値決定部522に対して提供される入力オーディオ信号の表現と同一でもよく、異なっていてもよい。
【0106】
しかしながら、第1の定量的特徴値決定部520と第2の定量的特徴値決定部は、2つ以上の特徴値決定部、例えばK個の特徴値決定部を表すものと見なすことができることに留意すべきである(ここで、K>=1またはK>=2)。言い換えれば、図5に示されるゲイン値決定部500は、望ましくは本願明細書に記載されているように、更なる定量的特徴値決定部によって拡張することができる。
【0107】
非線形前処理部の機能に関する詳細は、以下に記載される。しかしながら、前処理は、入力オーディオ信号の振幅値、エネルギー値、対数振幅値、対数エネルギー値、またはそれらのスペクトル表現、または入力オーディオ信号の他の非線形前処理、またはそのスペクトル表現の決定を備えることができることに留意すべきである。
【0108】
特徴値後処理部
ゲイン値決定部500は、第1の定量的特徴値決定部520から第1の特徴値(または一連の第1の特徴値)を受信するように構成された第1の特徴値後処理部530を備える。さらに、第2の特徴値後処理部532は、第2の定量的特徴値決定部522から第2の定量的特徴値(または一連の第2の定量的特徴値)を受信するために、第2の定量的特徴値決定部522に連結することができる。第1の特徴値後処理部530と第2の特徴値後処理部532は、例えば、後処理されたそれぞれの定量的特徴値を提供するように構成することができる。
【0109】
例えば、特徴値後処理部は、後処理された特徴値の値の範囲が制限されるように、後処理されたそれぞれの特徴値を処理するように構成することができる。
【0110】
重み付け結合部
ゲイン値決定部500は、重み付け結合部540を更に備える。重み付け結合部540は、特徴値後処理部530、532から後処理された特徴値を受信し、それに基づいてゲイン値560(または一連のゲイン値)を提供するように構成される。ゲイン値560は、ゲイン値122、ゲイン値222、ゲイン値322、またはゲイン値422と等価でもよい。
【0111】
以下に、重み付け結合部540に関するいくつかの詳細について述べる。いくつかの実施形態では、重み付け結合部540は、例えば、第1の非線形処理部542を備えることができる。第1の非線形処理部542は、例えば、第1の後処理された定量的特徴値を受信し、後処理された第1の特徴値に非線形マッピングを適用し、非線形処理された特徴値542aを提供するように構成することができる。さらに、重み付け結合部540は、第1の非線形処理部542に類似するように構成することができる第2の非線形処理部544を備えることができる。第2の非線形処理部544は、後処理された第2の特徴値を非線形処理された特徴値544aに対して非線形にマップするように構成することができる。いくつかの実施形態では、非線形処理部542、544によって実行される非線形マッピングのパラメータは、それぞれの係数によって調整することができる。例えば、第1の非線形重み付け係数は、第1の非線形処理部542のマッピングを決定するために用いることができ、第2の非線形重み付け係数は、第2の非線形処理部544によって実行されるマッピングを決定するために用いることができる。
【0112】
いくつかの実施形態では、特徴値後処理部530、532の1つ以上を省略することができる。他の実施態様において、非線形処理部542、544の1つまたは全てを省略することができる。加えて、いくつかの実施形態では、対応する特徴値後処理部530、532および非線形処理部542、544の機能は、1つのユニットに融合することができる。
【0113】
重み付け結合部540は、第1の重み付け部またはスケーリング部550を更に備える。第1の重み付け部550は、第1の非線形処理された定量的特徴値(または、非線形処理が省略されるケースでは、第1の定量的特徴値)542aを受信し、第1の非線形に処理された定量的値を第1の線形重み付け係数によってスケーリングして第1の線形にスケーリングされた定量的特徴値550aを取得するように構成される。重み付け結合部540は、第2の重み付け部またはスケーリング部552を更に備える。第2の重み付け部552は、第2の非線形に処理された定量的特徴値544a(または、非線形処理が省略されるケースでは、第2の定量特徴値)を受信し、前記値を第2の線形重み付け係数によってスケーリングして第2の線形にスケーリングされた定量的特徴値552aを取得するように構成される。
【0114】
重み付け結合部540は、結合部556を更に備える。結合部556は、第1の線形にスケーリングされた定量的特徴値550aと第2の線形にスケーリングされた定量的特徴値552aを受信するように構成される。結合部556は、前記値に基づいて、ゲイン値560を提供するように構成される。例えば、結合部556は、第1の線形にスケーリングされた定量的特徴値550aと第2の線形にスケーリングされた定量的特徴値552aの線形結合(例えば、総和または平均化操作)を実行するように構成することができる。
【0115】
上記を要約すると、ゲイン値決定部500は、複数の定量的特徴値決定部520、522によって決定された定量的特徴値の線形結合を提供するように構成することができる。重み付けられた線形結合の前に、例えば値の範囲を制限するため、および/または、小さい値と大きい値の相対的な重み付けを修正するために、定量的特徴値に関して1つ以上の非線形後処理ステップを実行することができる。
【0116】
図5に示されたゲイン値決定部500の構造は、理解を容易にするためにのみ例示されたものとみなすべきであることに留意すべきである。しかしながら、ゲイン値決定部500のブロックの機能のいずれも、異なる回路構成において実現することができる。例えば、機能のいくつかは、単一ユニットに結合することができる。加えて、図5に関して記載された機能は、共用ユニットによって実行することができる。例えば、単一の特徴値後処理部は、例えば時分割方法において、複数の定量的特徴値決定部によって提供される特徴値の後処理を実行するために用いることができる。同様に、非線形処理部542、544の機能は、時分割方法において、単一の非線形処理部によって実行することができる。加えて、単一の重み付け部は、重み付け部550、552の機能を果たすために用いることができる。
【0117】
いくつかの実施形態では、図5に関して記載された機能は、シングルタスクまたはマルチタスクのコンピュータプログラムによって実行することができる。言い換えれば、いくつかの実施形態では、所望の機能が得られる限り、ゲイン値決定部を実現するために完全に異なる回路トポロジーを選ぶことができる。
【0118】
直接信号抽出
以下において、入力オーディオ信号からの周囲信号と正面信号(「直接信号」とも称される)の両方の効率的な抽出に関して、いくつかの詳細が記載される。この目的のため、図6は、本発明に係る実施形態による重み付け部または重み付けユニットのブロック構成図を示す。図6に示される重み付け部または重み付けユニットは、全体として600で表される。
【0119】
重み付け部または重み付けユニット600は、例えば、個別重み付け部270a、270b、270cまたは重み付け部430の位置をとることができる。
【0120】
重み付け部600は、入力オーディオ信号610の表現を受信し、周囲信号620と正面信号または非周囲信号または「直接信号」630の両方の表現を提供するように構成される。いくつかの実施形態では、重み付け部600が入力オーディオ信号610の時間‐周波数ドメイン表現を受信し、周囲信号620と正面信号または非周囲信号630の時間‐周波数ドメイン表現を提供するように構成することができることに留意すべきである。
【0121】
しかしながら、もちろん、重み付け部600は、必要に応じて、時間ドメイン入力オーディオ信号を時間‐周波数ドメイン表現に変換する時間ドメインから時間‐周波数ドメインへの変換部、および/または、時間ドメイン出力信号を提供する1つ以上の時間‐周波数ドメインから時間ドメインへの変換部を備えることもできる。
【0122】
重み付け部600は、例えば、入力オーディオ信号610の表現に基づいて周囲信号620の表現を提供するように構成された周囲信号重み付け部640を備えることができる。加えて、重み付け部600は、入力オーディオ信号610の表現に基づいて正面信号630の表現を提供するように構成された正面信号重み付け部650を備えることができる。
【0123】
重み付け部600は、一連の周囲信号ゲイン値660を受信するように構成される。オプションとして、重み付け部600は、一連の正面信号ゲイン値を受信するように構成することもできる。しかしながら、いくつかの実施形態では、重み付け部600は、以下に述べるように、一連の周囲信号ゲイン値から一連の正面信号ゲイン値を導き出すように構成することができる。
【0124】
周囲信号重み付け部640は、例えば1つ以上の重み付けられたサブバンド信号の形で周囲信号620の表現を取得するために、周囲信号ゲイン値に従って、入力オーディオ信号の1つ以上の周波数バンド(例えば1つ以上のサブバンド信号によって表すことができる)を重み付けするように構成される。同様に、正面信号重み付け部650は、例えば1つ以上の重み付けられたサブバンド信号の形で正面信号630の表現を取得するために、例えば1つ以上のサブバンド信号に関して表すことができる入力オーディオ信号610の1つ以上の周波数バンドまたは周波数サブバンドを重み付けするように構成される。
【0125】
しかしながら、いくつかの実施形態では、周囲信号重み付け部640と正面信号重み付け部650は、周囲信号620の表現および正面信号630の表現を生成するための補完的方法として、所定の周波数バンドまたは周波数サブバンド(例えば、サブバンド信号によって表された)を重み付けするように構成することができる。例えば、特定の周波数バンドの周囲信号ゲイン値が、その特定の周波数バンドが周囲信号に比較的高い重みを与えられるべきことを示している場合に、入力オーディオ信号610の表現から周囲信号620の表現を導き出すときにその特定の周波数バンドは比較的高く重み付けされ、入力オーディオ信号610の表現から正面信号630の表現を導き出すときにその特定の周波数バンドは比較的低く重み付けされる。同様に、周囲信号ゲイン値が、その特定の周波数バンドが周囲信号に比較的低い重みを与えられるべきことを示している場合に、入力オーディオ信号610の表現から周囲信号620の表現を導き出すときにその特定の周波数バンドは低い重みが与えられ、入力オーディオ信号610の表現から正面信号630の表現を導き出すときにその特定の周波数バンドは比較的高い重みが与えられる。
【0126】
いくつかの実施形態では、重み付け部600は、このように、周囲信号ゲイン値660に基づいて、正面信号ゲイン値652が周囲信号ゲイン値660の減少によって増加するように、正面信号重み付け部650のための正面信号ゲイン値652を取得し、かつその逆も同じであるように構成することができる。
【0127】
したがって、いくつかの実施形態では、周囲信号620と正面信号630は、周囲信号620と正面信号630のエネルギーの合計が入力オーディオ信号610のエネルギーに等しい(または比例する)ように、生成することができる。
【0128】
後処理
ここで、図7を参照して、例えば1つ以上の重み付けられたサブバンド信号112、212a〜212b、414に適用することができる後処理が記載される。
【0129】
この目的のため、図7は、本発明に係る実施形態による後処理部のブロック構成図を示す。図7に示される後処理部は、全体として700で表される。
【0130】
後処理部700は、入力信号として、1つ以上の重み付けられたサブバンド信号710またはそれに基づく信号(例えば、1つ以上の重み付けられたサブバンド信号に基づく時間ドメイン信号)を受信するように構成される。後処理部700は、出力信号として後処理された信号720を提供するように更に構成される。ここで、後処理部700はオプションであるとみなすべきことに留意すべきである。
【0131】
いくつかの実施形態では、後処理部は、例えば、カスケード接続することができる、1つ以上の以下のような機能ユニットを備えることができる。
・選択減衰部730
・非線形圧縮部732
・遅延部734
・音色呈色補償部736
・過渡状態低減部738
・信号非相関化部740
【0132】
後処理部700の可能な構成要素の機能に関する詳細は後述される。
【0133】
しかしながら、後処理部の機能の1つ以上は、ソフトウェアによって実現されることがあり得ることに留意すべきである。加えて、後処理部700の機能のいくつかは、結合された方法で実行することができる。
【0134】
ここで、図8aおよび8bの参照をして、異なる後処理コンセプトが記載される。
【0135】
図8は、時間ドメイン後処理を実行する回路部のブロック構成図を示す。図8aに示される回路部は、全体として800で表される。回路部800は、例えば、合成フィルタバンク810の形で、時間‐周波数ドメインから時間ドメインへの変換部を備える。合成フィルタバンク810は、例えば、重み付けられたサブバンド信号112、212a〜212d、412に基づいているまたは同一の、複数の重み付けられたサブバンド信号812を受信するように構成される。合成フィルタバンク810は、周囲信号の表現として、時間ドメイン周囲信号814を提供するように構成される。さらに、回路部800は、合成フィルタバンク810から時間ドメイン周囲信号814を受信するように構成された時間ドメイン後処理部820を備えることができる。加えて、時間ドメイン後処理部820は、例えば図7に示された後処理部700の機能の1つ以上を実行するように構成することができる。従って、後処理部820は、出力信号として、後処理された周囲信号の表現とみなすことができる後処理された時間ドメイン周囲信号822を提供するように構成することができる。
【0136】
上記を要約すると、いくつかの実施形態では、後処理は、適当な場合には、時間ドメインにおいて実行することができる。
【0137】
図8bは、本発明に係る他の実施形態による回路部のブロック構成図を示す。図8bに示される回路部は、全体として850で表される。回路部850は、1つ以上の重み付けられたサブバンド信号862を受信するように構成された周波数ドメイン後処理部860を備える。例えば、周波数ドメイン後処理部860は、重み付けられたサブバンド信号112、212a〜212d、412の1つ以上を受信するように構成することができる。
さらに、周波数ドメイン後処理部816は、後処理部700の機能の1つ以上を実行するように構成することができる。周波数ドメイン後処理部860は、1つ以上の後処理された重み付けられたサブバンド信号864を提供するように構成することができる。周波数ドメイン後処理部860は、重み付けられたサブバンド信号862の1つ以上を個別に処理するように構成することができる。あるいは、周波数ドメイン後処理部860は、複数の重み付けられたサブバンド信号862を一緒に後処理するように構成することができる。回路部850は、複数の後処理された重み付けられたサブバンド信号864を受信し、それに基づいて後処理された時間ドメイン周囲信号872を提供するように構成された合成フィルタバンク870を更に備える。
【0138】
上記を要約すると、後処理は、要求に応じて、図8aに示されたような時間ドメインにおいて、または、図8bに示されたような時間‐周波数ドメインにおいて、実行することができる。
【0139】
特徴値決定
図9は、特徴値を取得するための異なるコンセプトの図解表現を示す。図9の図解表現は、全体として900で表される。
【0140】
図解表現900は、入力オーディオ信号の時間‐周波数ドメイン表現を示す。時間‐周波数ドメイン表現910は、時間指標τと周波数指標ωの上の2次元表現の形で複数の時間‐周波数ビンを示しており、そのうちの2つは、912a、912bで表される。
【0141】
時間‐周波数ドメイン表現910は、いかなる適切な形でも、例えば複数のサブバンド信号(例えば各周波数バンドの1つ)の形で、または、コンピュータシステムの処理のためのデータ構造の形で表すことができる。ここで、この種の時間‐周波数分布を表したいかなるデータ構造も、1つ以上のサブバンド信号の表現であるとみなされることに留意すべきである。言い換えれば、入力オーディオ信号の周波数サブバンドの強度(例えば、振幅またはエネルギー)の時間進化を表したいかなるデータ構造も、サブバンド信号とみなされる。
【0142】
このように、オーディオ信号の周波数サブバンドの強度の時間進化を表したデータ構造を受信することは、サブバンド信号を受信することとみなされる。
【0143】
図9を参照して、異なる時間‐周波数ビンに関連づけられた特徴値を演算できることが分かる。例えば、いくつかの実施形態では、異なる時間‐周波数ビンに関連づけられた異なる特徴値を演算し、結合することができる。例えば、異なる周波数の同時刻の時間‐周波数ビン914a、914b、914cに関連づけられた周波数特徴値を演算することができる。いくつかの実施形態では、異なる周波数バンドの同一の特徴を記述するこれらの(異なる)特徴値は、例えば、結合部930において結合することができる。したがって、重み付け結合部において更に処理する(例えば、他の個別のまたは結合された特徴値と結合する)ことができる結合特徴値932を取得することができる。いくつかの実施形態では、同じ周波数バンド(または周波数サブバンド)の次の時間‐周波数ビン916a、916b、916cに関連づけられた複数の特徴値を演算することができる。次の時間‐周波数ビンの同一の特徴を記述するこれらの特徴値は、例えば、結合部940において結合することができる。したがって、結合された特徴値942を取得することができる。
【0144】
上記を要約すると、いくつかの実施形態では、異なる時間‐周波数ビンに関連づけられた同じ特徴を記述する複数の個別の特徴値を結合することは望ましい。例えば、同時刻の時間‐周波数ビンに関連づけられた個別の特徴値、および/または、次の時間‐周波数ビンに関連づけられた個別の特徴値を結合することができる。
【0145】
周囲信号を抽出する装置 − 第5実施形態
以下に、他の実施形態による周囲抽出部が、図10、11、12を参照して記載される。
【0146】
アップミックスの概要
図10は、アップミックス処理のブロック図を示す。例えば、図10は、周囲信号抽出部のブロック構成図と解釈することができる。あるいは、図10は、入力オーディオ信号から周囲信号を抽出する方法のフローチャートと解釈することができる。
【0147】
図10から分かるように、周囲信号「a」(または複数の周囲信号)と正面信号「d」(または複数の正面信号)は、入力信号「x」から演算され、サラウンドサウンド信号の適当な出力チャンネルに送られる。出力チャンネルは、5.0サラウンドサウンドフォーマットにアップミックスする実施例を例示するために表されている。SLは左側のサラウンドチャンネルを示し、SRは右側のサラウンドチャンネルを示し、FLは左側正面のチャンネルを示し、Cは中心チャンネルを示し、FRは右側正面チャンネルを示す。
【0148】
言い換えれば、図10は、例えば1つまたは2つのチャンネルのみを含む入力信号に基づく、例えば5つのチャンネルを含むサラウンド信号の生成を記載する。周囲抽出1010は、入力信号xに適用される。周囲抽出1010によって提供される信号は、後処理1020(ここで、例えば、入力信号xの周囲らしい成分は、非周囲らしい成分に対して強調することができる)に供給される。後処理1020の結果として、1つ以上の周囲信号が取得される。従って、1つ以上の周囲信号は、左側のサラウンドチャンネル信号SLと右側のサラウンドチャンネル信号SRとして提供することができる。
【0149】
入力信号xは、1つ以上の正面信号dを取得するために、正面信号抽出1030にも供給することができる。1つ以上の正面信号dは、例えば、左側正面チャンネル信号FLと、中心チャンネル信号Cと、右側正面チャンネル信号FRとして提供することができる。
【0150】
しかしながら、周囲抽出と正面信号抽出は、例えば、図6を参照して記載されたコンセプトを用いて、連結することができることに留意すべきである。
【0151】
さらに、異なるアップミックス構成を選択することができることに留意すべきである。例えば、入力信号xは、単一のチャンネル信号でも、または、マルチチャンネル信号でもよい。加えて、可変数の出力信号を提供することができる。例えば、非常に単純な実施形態では、正面信号抽出1030は、1つ以上の周囲信号のみを生成するように、省略することができる。例えば、いくつかの実施形態では、単一の周囲信号を提供すれば十分である。しかしながら、いくつかの実施形態では、例えば、少なくとも部分的に非相関化された、2つまたはさらにそれ以上の周囲信号を提供することができる。
【0152】
加えて、入力信号xから抽出される正面信号の数は、アプリケーションに依存することができる。いくつかの実施形態では正面信号の抽出は省略することさえできるが、いくつかの他の実施形態において複数の正面信号を抽出することができる。例えば、3つの正面信号の抽出を実行することができる。いくつかの他の実施形態では、5つ以上の正面信号さえ抽出することができる。
【0153】
周囲抽出
以下に、周囲抽出に関する詳細が、図11を参照して記載される。図11は、周囲信号の抽出と正面信号の抽出のための処理のブロック図を示す。図11に示されるブロック図は、周囲信号を抽出する装置のブロック構成図、または、周囲信号を抽出する方法のフローチャート表現とみなすことができる。
【0154】
図11のブロック図は、入力信号xの時間‐周波数ドメイン表現の生成1110を示す。例えば、入出力信号xの1番目の周波数バンドまたは周波数サブバンドは、サブバンドデータ構造またはサブバンド信号X1によって表すことができる。入出力信号xのN番目の周波数バンドまたは周波数サブバンドは、サブバンドデータ構造またはサブバンド信号XNによって表すことができる。
【0155】
時間ドメインから時間‐周波数ドメインへの変換1110は、入力オーディオ信号の異なる周波数バンドの強度を記述する複数の信号を提供する。例えば、信号X1は、入力オーディオ信号の1番目の周波数バンドまたは周波数サブバンドの強度(および、オプションとして、付加的位相情報)の時間進化を表すことができる。信号X1は、例えば、アナログ信号として、または、一連の値(それは、例えば、データキャリアに記憶することができる)として表すことができる。同様に、N番目の信号XNは、入力オーディオ信号のN番目の周波数バンドまたは周波数サブバンドの強度を記載する。信号X1は1番目のサブバンド信号としても示すことができ、信号XNはN番目のサブバンドとして示すことができる。
【0156】
図11に示される処理は、第1のゲイン演算1120と第2のゲイン演算1122を更に備える。ゲイン演算1120、1122は、例えば、本願明細書に記載されたような、それぞれのゲイン値決定部を用いて実現することができる。ゲイン演算は、図11に示すように、例えば、周波数サブバンドのために個別に実行することができる。しかしながら、いくつかの他の実施形態では、ゲイン演算は、サブバンド信号のグループのために実行することができる。加えて、ゲイン演算1120、1122は、1つのサブバンドに基づいて、または、サブバンドのグループに基づいて実行することができる。図11から分かるように、1番目のゲイン演算1120は、1番目のサブバンド信号X1を受信し、1番目のゲイン値g1を提供するために構成され、実行される。第2のゲイン演算1122は、N番目のゲイン値gNを提供するために、N番目のサブバンド信号XNに基づいて構成されるかまたは実行される。図11に示される処理は、第1の乗算またはスケーリング1130と、第2の乗算またはスケーリング1132をも備える。第1の乗算1130において、1番目のサブバンド信号X1は第1のゲイン演算1120によって提供される1番目のゲイン値g1によって乗算され、重み付けられた1番目のサブバンド信号をもたらす。さらに、N番目のサブバンド信号XNは、N番目の重み付けられたのサブバンド信号を取得するために、第2の乗算1032においてN番目のゲイン値gNによって乗算される。
【0157】
処理1100は、オプションとして、後処理されたサブバンド信号Y1−YNを取得するために、重み付けられたサブバンド信号の後処理1140を更に備える。さらに、図11に示された処理は、オプションとして、例えば、合成フィルタバンクを用いて遂行することができる、時間‐周波数ドメインから時間ドメインへの変換1150を備える。このように、入力オーディオ信号xの周囲成分の時間ドメイン表現yは、入力オーディオ信号の周囲成分の時間‐周波数ドメイン表現Y1−YNに基づいて取得される。
【0158】
しかしながら、乗算1130、1132によって提供された重み付けられたサブバンド信号は、図11に示される処理の出力信号として役立つことにも留意すべきである。
【0159】
ゲイン値決定
以下に、ゲイン演算処理が、図12の参照をして記載される。図12は、低レベル特徴抽出を用いた周囲信号抽出処理と正面信号抽出処理の、1つのサブバンドのためのゲイン演算処理のブロック図を示す。異なる低レベル特徴(例えば、LLF1からLLFnで表される)は、入力信号xから演算される。ゲイン係数(例えばgで表される)は、低レベル特徴の関数として、(例えば結合部を用いて)演算される。
【0160】
図12を参照して、複数の低レベル特徴演算が示される。例えば、1番目の低レベル特徴演算1210とn番目の低レベル特徴演算1212が、図12に示した実施形態において用いられる。低レベル特徴演算1210、1212は、入力信号xに基づいて実行される。例えば、低レベル特徴の算出または決定は、時間ドメイン入力オーディオ信号に基づいて実行することができる。しかしながら、代わりに、低レベル特徴の演算または決定は、1つ以上のサブバンド信号X1−XNに基づいて実行することができる。さらに、低レベル特徴の演算または決定1210、1210から取得される特徴値(例えば定量的特徴値)は、結合部1220(例えば重み付け結合部でもよい)を用いて結合することができる。このように、ゲイン値gは、低レベル特徴決定または低レベル特徴算出1210、1212の結果の結合に基づいて取得することができる。
【0161】
重み付け係数を決定するコンセプト
以下に、複数の特徴を重み付けする重み付け係数を取得し、特徴値の重み付けられた結合としてゲイン値を取得するコンセプトが、記載されている。
【0162】
重み付け係数を決定する装置 − 第1実施形態
図13は、重み付け係数を取得する装置のブロック構成図を示す。図13に示される装置は、全体として1300で表される。
【0163】
装置1300は、ベース信号1312を受信し、それに基づいて係数決定信号1314を提供するように構成された係数決定信号生成部1310を備える。係数決定信号生成部1310は、周囲成分および/または非周囲成分および/または周囲成分と非周囲成分の関連性に関する係数決定信号1314の特性が知られるように、係数決定信号1314を提供するように構成される。いくつかの実施形態では、周囲成分または非周囲成分に関するこの種の情報の推定が知られている場合は、それで充分である。
【0164】
例えば、係数決定信号生成部1310は、係数決定信号1314に加えて、予測ゲイン値情報1316を提供するように構成することができる。予測ゲイン値情報1316は、例えば、係数決定信号1314の周囲成分と非周囲成分の関連性を直接または間接に記述する。言い換えれば、予測ゲイン値情報1316は、係数決定信号の特性に関係した周囲信号を記述するサイド情報とみなすことができる。例えば、予測ゲイン値情報は、係数決定オーディオ信号のなかの(例えば、係数決定オーディオ信号の複数の時間‐周波数ビンに対する)周囲成分の強度を記述することができる。あるいは、予測ゲイン値情報は、係数決定オーディオ信号のなかの非周囲成分の強度を記述することができる。いくつかの実施形態では、予測ゲイン値情報は、周囲成分と非周囲成分の強度の比率を記述することができる。いくつかの他の実施形態では、予測ゲイン値情報は、周囲成分の強度と総合信号強度(周囲成分および非周囲成分)の関連性、または、非周囲成分の強度と総合信号強度の関連性を記述することができる。しかしながら、上述した情報から導き出される他の情報を予測ゲイン値情報として提供することができる。例えば、以下に定義されるRAD(m,k)の推定、または、G(m,k)の推定は、予測ゲイン値情報として取得することができる。
【0165】
装置1300は、係数決定信号1314の特徴を定量的方法で記述する複数の定量的特徴値1322、1324を提供するように構成された定量的特徴値決定部1320を更に備える。
【0166】
装置1300は、例えば、定量的特徴値決定部1320によって提供された予測ゲイン値情報1316と複数の定量的特徴値1322、1324とを受信するように構成することができる重み付け係数決定部1330を更に備える。
【0167】
重み付け係数決定部1330は、以下において詳細に記載されるように、予測ゲイン値情報1316と定量的特徴値1322、1324に基づいて重み付け係数1332のセットを提供するように構成される。
【0168】
重み付け係数決定部 − 第1実施形態
図14は、本発明に係る実施形態による重み付け係数決定部のブロック構成図を示す。
【0169】
重み付け係数決定部1330は、予測ゲイン値情報1316と複数の定量的特徴1322、1324を受信するように構成される。しかしながら、いくつかの実施形態では、定量的特徴値決定部1320は、重み付け係数決定部1330の一部とすることができる。さらに、重み付け係数決定部1330は、重み付け係数1332を提供するように構成される。
【0170】
重み付け係数決定部1330の機能に関して、重み付け係数決定部1330は、(入力オーディオ信号とみなすことができる係数決定信号1314の複数の特徴を記述する)複数の定量的特徴値1322、1324の、重み付け係数1332を用いて重み付けられた結合に基づいて取得されたゲイン値が、係数決定オーディオ信号に関連づけられたゲイン値を近似するように、重み付け係数1332を決定するように構成されると一般的に言うことができる。予測ゲイン値は、例えば、予測ゲイン値情報1316から導き出すことができる。
【0171】
言い換えれば、重み付け係数決定部は、例えば、どの重み付け係数が定量的特徴値1322、1324を重み付けするために必要であるかを、重み付けの結果が予測ゲイン値情報1316によって記述された予測ゲイン値を近似するように、決定するように構成することができる。
【0172】
言い換えれば、重み付け係数決定部は、例えば、重み付け係数1332によって構成されたゲイン値決定部が予測ゲイン値情報1316によって記述された予測ゲイン値から予め定められた最大許容偏差を超えて逸脱しないゲイン値を提供するように、重み付け係数1332を決定するように構成することができる。
【0173】
重み付け係数決定部 − 第2実施形態
以下に、重み付け係数決定部1330を実現するいくつかの特定の可能性が記載される。
【0174】
図15aは、本発明に係る実施形態による重み付け係数決定部のブロック構成図を示す。図15aに示される重み付け係数決定部は、全体として1500で表される。
【0175】
重み付け係数決定部1500は、例えば、重み付け結合部1510を備える。重み付け結合部1510は、例えば、複数の定量的特徴値1322、1324と重み付け係数1332のセットを受信するように構成することができる。さらに、重み付け結合部1510は、例えば、定量的特徴価値1322、1324を重み付け係数1332に従って結合することによって、ゲイン値1512(またはその一連)を提供するように構成することができる。例えば、重み付け結合部1510は、重み付け結合部260のような、類似のまたは同一の重み付けを実行するように構成することができる。いくつかの実施形態では、重み付け結合部260は、重み付け結合部1510を実現するためにさえ用いることができる。このように、重み付け結合部1510は、ゲイン値1512(またはその一連)を提供するように構成される。
【0176】
重み付け係数決定部1500は、類似性決定部または差異決定部1520を更に備える。類似性決定部または差異決定部1520は、例えば、予測ゲイン値を記述する予測ゲイン値情報1316と、重み付け結合部1510によって提供されたゲイン値1512を受信するように構成することができる。類似性決定部/差異決定部1520は、例えば、情報1316によって記述された予測ゲイン値と重み付け結合部1510によって提供されたゲイン値1512との類似性を、例えば定性的または定量的に記述する類似性尺度1522を決定するように構成することができる。あるいは、類似性決定部/差異決定部1520は、その間の偏差を記述する偏差尺度を提供するように構成することができる。
【0177】
重み付け係数決定部1500は、類似性情報1522を受信し、それに基づいて重み付け係数1332を変更する必要があるかどうか、または、重み付け係数1332が一定に保たれるべきかどうかを決定するように構成された重み付け係数調整部1530を備える。例えば、類似性決定部/差異決定部1520によって提供された類似性情報1522が、ゲイン値1512と予測ゲイン値1316との差分または偏差が予め定められた偏差閾値以下であることを示す場合に、重み付け係数調整部1530は、重み付け係数1332が適切に選択され、維持すべきであることを認識することができる。しかしながら、類似性情報1522が、ゲイン値1512と予測ゲイン値1316との差分または偏差が予め定められた閾値より大きいことを示す場合に、重み付け係数調整部1530は、ゲイン値1512と予測ゲイン値1316との差分の縮小を目的として、重み付け係数1332を変更することができる。
【0178】
ここで、重み付け係数1332の調整のための異なるコンセプトが可能であることに留意すべきである。例えば、この目的のために、勾配降下コンセプトを用いることができる。あるいは、重み付け係数のランダム変更を実行することもできる。いくつかの実施形態では、重み付け係数調整部1530は、最適化機能を実行するように構成することができる。最適化は、例えば、反復アルゴリズムに基づくことができる。
【0179】
上記を要約すると、いくつかの実施形態では、フィードバックループまたはフィードバックコンセプトを、重み付け結合部1510によって取得されたゲイン値1512と予測ゲイン値1316との十分小さな差分という結果となる重み付け係数1332を決定するために用いることができる。
【0180】
重み付け係数決定部 − 第3実施形態
図15bは、重み付け係数決定部の他の実現方法のブロック構成図を示す。図15bに示される重み付け決定部は、全体として1550で表される。
【0181】
重み付け係数決定部1550は、連立方程式解法部1560または最適化問題解法部1560を備える。連立方程式解法部または最適化問題解法部1560は、gexpectedと示すことができる予測ゲイン値を記述する情報1316を受信するように構成される。連立方程式解法部/最適化問題解法部1560は、複数の定量的特徴値1322、1324を受信するように更に構成することができる。連立方程式解法部/最適化問題解法部1560は、重み付け係数1332のセットを提供するように構成することができる。
【0182】
連立方程式解法部1560によって受信された定量的特徴値をmiで表し、更に、重み付け係数を例えばαiとβiで表したとき、連立方程式解法部は、例えば、次の形の非線形連立方程式を解くように構成することができる。
ここで、l=1,…,L
【0183】
gexpected,lは、指標lを有する時間‐周波数ビンの予測ゲイン値を示す。ml,iは、指標lを有する時間‐周波数ビンのi番目の特徴値を示す。複数のL時間‐周波数ビンは、連立方程式を解くために考慮することができる。
【0184】
したがって、線形重み付け係数αiと非線形重み付け係数(または指数重み付け係数)βiは、連立方程式を解くことによって決定することができる。
【0185】
代替実施形態では、最適化を実行することができる。例えば、以下の式で決定される値は、適当な重み付け係数のセットαi、βiを決定することによって最小化することができる。
ここで、( )は、予測ゲイン値と重み付け特徴値ml,iによって取得されたゲイン値との差分ベクトルを示す。差分ベクトルのエントリーは、指標l=1…Lで表される異なる時間‐周波数ビンに関係づけることができる。|| ||は、数学的距離尺度、例えば数学的なベクトルノルムを示す。
【0186】
言い換えれば、重み付け係数は、予測ゲイン値と定量的特徴値1322、1324の重み付け結合から取得されたゲイン値との差分が最小化されるように、決定することができる。しかしながら、用語「最小化される」は、ここで、あまり厳しい方法で考慮されるべきでないことに留意されたい。むしろ、用語「最小化する」は、差分が特定の閾値以下となることを表す。
【0187】
重み付け係数決定部 − 第4実施態様
図16は、本発明に係る実施形態による他の重み付け係数決定部のブロック構成図を示す。図16に示される重み付け係数決定部は、全体として1600で表される。
【0188】
重み付け係数決定部1600は、ニューラルネット1610を備える。ニューラルネット1610は、例えば、複数の定量的特徴値1322、1324だけでなく、予測ゲイン値を記述する情報1316を受信するように構成することができる。さらに、ニューラルネット1610は、例えば、重み付け係数1332を提供するように構成することができる。例えば、ニューラルネット1610は、定量的特徴値1322、1324の重み付けに適用されるときに、予測ゲイン値情報1316によって記述された予測ゲイン値に十分に類似するゲイン値に結果としてなる重み付け係数を学習するように構成することができる。
【0189】
更なる詳細は、引き続いて記載される。
【0190】
重み付け係数を決定する装置 − 第2実施形態
図17は、本発明に係る実施形態による重み付け係数を決定する装置のブロック構成図を示す。図17に示される装置は、図13に示された装置と類似する。したがって、同一の手段および信号は、同一の参照番号で表される。
【0191】
図17に示される装置1700は、ベース信号1312を受信するように構成することができる係数決定信号生成部1310を備える。実施形態では、係数決定信号生成部1310は、係数決定信号1314を取得するために、ベース信号1312に周囲信号を加算するように構成することができる。係数決定信号1314は、例えば、時間ドメイン表現で、または、時間‐周波数ドメイン表現で提供することができる。
【0192】
係数決定信号生成部は、予測ゲイン値を記述する予測ゲイン値情報1316を提供するように更に構成することができる。例えば、係数決定信号生成部1310は、ベース信号への周囲信号の加算に関する内部知識に基づいて予測ゲイン値情報を提供するように構成することができる。
【0193】
オプションとして、装置1700は、時間‐周波数ドメイン表現の係数決定信号1318を提供するように構成することができる、時間ドメインから時間‐周波数ドメインへの変換部1316を更に備えることができる。さらに、装置1700は、例えば、第1の定量的特徴値決定部1320aと第2の定量的特徴値決定部1320bを備えることができる定量的特徴値決定部1320を備える。このように、定量的特徴値決定部1320は、複数の定量的特徴値1322、1324を提供するように構成される。
【0194】
係数決定信号発生器 − 第1実施形態
以下に、係数決定信号1314を提供する異なるコンセプトが記載される。図18a、18b、19、20を参照して記載されるコンセプトは、信号の時間ドメイン表現と時間‐周波数ドメイン表現の両方に適用可能である。
【0195】
図18aは、係数決定信号生成部のブロック構成図を示す。図18aに示される係数決定信号生成部は、全体として1800で表される。係数決定信号生成部1800は、入力信号1810として、無視できる周囲信号成分を有するオーディオ信号を受信するように構成される。
【0196】
さらに、係数決定信号生成部1800は、オーディオ信号1810に基づいて人工の周囲信号を提供するように構成された人工周囲信号生成部1820を備えることができる。係数決定信号生成部1800は、オーディオ信号1810と人工の周囲信号1822を受信し、係数決定信号1832を取得するために人工の周囲信号1822をオーディオ信号1810に加算するように構成された周囲信号加算部1830も備える。
【0197】
さらに、係数決定信号生成部1800は、例えば、人工の周囲信号1822を生成するために用いられた、または、オーディオ信号1810を人工の周囲信号1822と結合するために用いられたパラメータに基づいて、予測ゲイン値に関する情報を提供するように構成することができる。言い換えれば、人工の周囲信号の生成の様式に関する知識、および/または、人工の周囲信号とオーディオ信号1810との結合についての知識は、予測ゲイン値情報1834を取得するために用いられる。
【0198】
人工周囲信号発生部1820は、例えば、人工の周囲信号1822として、オーディオ信号1810に基づくリバーブ信号を提供するように構成することができる。
【0199】
係数決定信号生成部 − 第2実施形態
図18bは、本発明に係る他の実施形態による係数決定信号生成部のブロック構成図を示す。図18bに示される係数決定信号生成部は、全体として1850で表される。
【0200】
係数決定信号生成部1850は、無視できる周囲信号成分を有するオーディオ信号1860と、加えて、周囲信号1862を受信するように構成される。係数決定信号生成器1850は、オーディオ信号1860(無視できる周囲信号成分を有する)を周囲信号1862と結合するように構成された周囲信号加算器1870も備える。周囲信号加算部1870は、係数決定信号1872を提供するように構成される。
【0201】
さらに、無視できる周囲信号成分を有するオーディオ信号と周囲信号とは、係数決定信号生成部1850において絶縁された形式で利用可能であるので、予測ゲイン値情報1874をそこから導き出すことができる。
【0202】
例えば、予測ゲイン値情報1874は、予測ゲイン値情報がオーディオ信号と周囲信号の振幅の比率を記述しているように導き出すことができる。例えば、予測ゲイン値情報は、係数決定信号1872(またはオーディオ信号1860)の時間‐周波数ドメイン表現の複数の時間‐周波数ビンの強度のこの種の比率を記述することができる。あるいは、予測ゲイン値情報1874は、複数の時間‐周波数ビンの周囲信号1862の強度についての情報を備えることができる。
【0203】
係数決定信号生成部 − 第3実施形態
ここで、図19、20を参照して、予測ゲイン値情報を決定する他のアプローチについて述べる。図19は、本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。図19に示される係数決定信号生成部は、全体として1900で表される。
【0204】
係数決定信号生成部1900は、マルチチャンネルオーディオ信号を受信するように構成される。例えば、係数決定信号生成部1900は、マルチチャンネルオーディオ信号の第1チャンネル1910と第2チャンネル1912を受信するように構成することができる。さらに、係数決定信号生成部1900は、チャンネル関連性ベースの特徴値決定部、例えば相関ベースの特徴値決定部1920を備えることができる。チャンネル関連性ベースの特徴値決定部1920は、マルチチャンネルオーディオ信号の2つ以上のチャンネルの関連性に基づく特徴値を提供するように構成することができる。
【0205】
いくつかの実施形態では、この種のチャンネル関連性ベースの特徴値は、マルチチャンネルオーディオ信号の周囲成分コンテンツに関する十分に信頼性の高い情報を付加的な前知識を必要とすることなく提供することができる。このように、チャンネル関連性ベースの特徴値決定部1920によって取得されるマルチチャンネルオーディオ信号の2つ以上のチャンネルの関連性を記述する情報は、予測ゲイン値情報1922として役立つことができる。さらに、いくつか実施形態では、マルチチャンネルオーディオ信号の単一のオーディオチャンネルは、係数決定信号1924として用いることができる。
【0206】
係数決定信号生成部 − 第4実施態様
類似のコンセプトは、図20を参照して引き続いて記載される。図20は、本発明に係る実施形態による係数決定信号生成部のブロック構成図を示す。図20に示される係数決定信号生成部は、全体として2000で表される。
【0207】
係数決定信号生成部2000は、同一の信号が同一の参照番号に表されるように、係数決定信号生成部1900と類似する。
【0208】
しかしながら、係数決定信号生成部2000は、係数決定信号1924を取得するために、第1チャンネル1910と第2チャンネル1912(チャンネル関連性ベースの特徴値決定部1920によってチャンネル関連性ベースの特徴値を決定するために用いられる)を結合するように構成された、マルチチャンネルから単一チャンネルへの結合部2010を備える。言い換えれば、係数決定信号1924を取得するために、マルチチャンネルオーディオ信号のうちの単一チャンネル信号を用いるよりもむしろ、チャンネル信号の結合が用いられる。
【0209】
図19、20に関して記載されたコンセプトを参照して、係数決定信号を取得するために、マルチチャンネルオーディオ信号を用いることができることに留意すべきである。典型的なマルチチャンネルオーディオ信号において、個別のチャンネル間の関連性は、マルチチャンネルオーディオ信号の周囲成分コンテンツに関する情報を提供する。したがって、マルチチャンネルオーディオ信号は、係数決定信号を取得するためと、係数決定信号を特徴づけている予測ゲイン値情報を提供するためとに用いることができる。それ故に、オーディオ信号の単一チャンネルに基づいて作動するゲイン値決定部は、ステレオ信号またはマルチチャンネルオーディオ信号の異なるタイプを用いて(例えばそれぞれの係数を決定することによって)較正することができる。このように、ステレオ信号またはマルチチャンネルオーディオ信号の異なるタイプを用いることによって、単一チャンネルオーディオ信号の処理に適用する(例えば係数を取得した後に)ことができる周囲抽出部のための係数を取得することができる。
【0210】
周囲信号を抽出する方法
図21は、入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて、周囲信号を抽出する方法のフローチャートを示す。図21に示される方法は、全体として2100で表される。
【0211】
方法2100は、入力オーディオ信号の1つ以上の特徴を記述する1つ以上の定量的特徴値を取得するステップ2110を備える。
【0212】
方法2100は、入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を、ゲイン値が定量的特徴値に定量的に依存するように、1つ以上の定量的特徴値の関数として決定するステップ2120を更に備える。
【0213】
方法2100は、時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号を、時間変化するゲイン値によって重み付けするステップ2130を更に備える。
【0214】
いくつかの実施形態では、方法2100は、本願明細書に記載されている装置の機能を実行するために作動可能とすることができる。
【0215】
重み付け係数を取得する方法
図22は、入力オーディオ信号から周囲信号を抽出するゲイン値決定部をパラメータ化するための重み付け係数を取得する方法のフローチャートを示す。図22に示される方法は、全体として2200で表される。
【0216】
方法2200は、入力オーディオ信号に存在する周囲成分についての情報または周囲成分と非周囲成分の関連性を記述する情報が知れるように、係数決定入力オーディオ信号を取得するステップ2210を備える。
【0217】
方法2200は、係数決定入力オーディオ信号の複数の特徴を記述する複数の定量的特徴値の、重み付け係数によって重み付けられた結合に基づいて取得されたゲイン値が、係数決定入力信号に関連づけられた予測ゲイン値を近似するように、重み付け係数を決定するステップ2220を更に備える。
【0218】
本願明細書に記載された方法は、発明の装置に関しても記載された特徴および機能のいずれかによって補充することができる。
【0219】
コンピュータプログラム
発明の方法は、発明の方法の特定の実現方法の要求に応じて、ハードウェアまたはソフトウェアで実現することができる。実現方法は、電気的に読み取り可能な制御信号を有し、発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働するデジタル記憶媒体、例えばフレキシブルディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリーを用いて実行することができる。一般に、本発明は、それ故に、機械読み取り可能なキャリアに記憶されたプログラムコードであって、コンピュータプログラム製品がコンピュータ上で動作するときに発明の方法を実行するために作動可能であるプログラムコードを有するコンピュータプログラム製品である。言い換えれば、発明の方法は、それ故に、コンピュータプログラムがコンピュータ上で動作するときに発明の方法を実行するためのプログラムコードを有するコンピュータプログラムである。
【0220】
3.他の実施形態による方法の記載
3.1 問題の記載
実施形態による方法は、オーディオ信号のブラインドアップミックスに適した正面信号と周囲信号の抽出を目的とする。マルチチャンネルサラウンドサウンド信号は、正面チャンネルに正面信号を供給し、後方チャンネルに周囲信号を供給することによって、得ることができる。
【0221】
周囲信号抽出のさまざまな方法が既に存在する。
(1)NMFを用いる方法(2.1.3を参照)
(2)左右の入力信号の相関に依存する時間‐周波数マスクを用いる方法(2.2.4を参照)
(3)PCAとマルチチャンネル入力信号を用いる方法(2.3.2を参照)
【0222】
方法(1)は、反復数値最適化法に依存するが、数秒の長さ(例えば2〜4秒)のセグメントは一度に処理される。従って、この方法は、高い演算の複雑さであり、少なくとも上述したセグメント長のアルゴリズム遅延がある。対照的に、発明の方法は、低い演算の複雑さであり、方法(1)と比較して低いアルゴリズム遅延である。
【0223】
方法(2)と(3)は、入力チャンネル信号間の明瞭な差分に依存する。すなわち、これらは、すべての入力チャンネル信号が同一またはほとんど同一である場合に、適当な周囲信号を作り出さない。対照的に、発明の方法は、モノラル信号、または、同一またはほとんど同一であるマルチチャンネル信号を処理することが可能である。
【0224】
要約すると、提案された方法の効果は、以下の通りである。
・低い複雑さ
・低い遅延
・ステレオ入力信号と同様に、モノラルおよびほとんどモノラルの入力信号に対して動作する
【0225】
3.2 方法の記載
マルチチャンネルサラウンド信号(例えば、5.1または7.1フォーマット)は、入力信号から周囲信号と正面信号を抽出することによって取得される。周囲信号は、後方チャンネルに供給される。中心チャンネルは、スイートスポットを拡大するために用いられ、正面信号またはオリジナルの入力信号を再生する。他の正面チャンネルは、正面信号またはオリジナルの入力信号を再生する(すなわち、左側正面チャンネルは、オリジナルの左側正面信号またはオリジナルの左側正面信号の処理されたバージョンを再生する)。図10は、アップミックス処理のブロック図を示す。
【0226】
周囲信号抽出は、時間‐周波数ドメインにおいて行われる。発明の方法は、各サブバンド信号の「周囲らしさ」を測定する低レベル特徴(定量的特徴値とも称される)を用いて、各サブバンド信号の時間変化する重み(ゲイン値とも称される)を演算する。これらの重みは、周囲信号を演算するために、再合成に先立って適用される。補完的な重みは、正面信号のために演算される。
【0227】
周囲の典型的な特性の例は、以下の通りである。
・周囲音は直接音と比較してむしろ静かな音である
・周囲音は直接音より音色が少ない
【0228】
この種の特性の検出のための適当な低レベル特徴は、3.3章に記載されている。
・エネルギー特徴は信号成分の静かさを測定する
・音調特徴は信号成分のやかましさを測定する
【0229】
サブバンド指標ωと時間指標τの時間変化するゲイン係数g(ω,τ)は、演算された特徴mi(ω,τ)から、例えば式(1)を用いて導き出される。
ここで、Kは、特徴と、異なる特徴の重み付けに用いられたパラメータαi,βiの数である。
【0230】
図11は、低レベル特徴抽出を用いた周囲抽出処理のブロック図を示す。入力信号xは、1チャンネルのオーディオ信号である。より多くのチャンネルを有する信号の処理のために、処理は各チャンネルに対して別々に適用することができる。解析フィルタバンクは、例えばSTFT(短期間フーリエ変換)またはディジタルフィルタを用いて、入力信号をN周波数バンド(N>1)に分離する。解析フィルタバンクの出力は、N個のサブバンド信号Xi(1≦i≦N)である。ゲイン係数gi(1≦i≦N)は、図11に示したように、サブバンド信号Xiから1つ以上の低レベル特徴を演算し、特徴値を結合することによって取得することができる。各サブバンド信号Xiは、次にゲイン係数giを用いて重み付けられる。
【0231】
記載された処理に対する好ましい拡張は、単一のサブバンド信号の代わりに、サブバンド信号のグループを使用することである。サブバンド信号は、サブバンド信号のグループを形成するために分類することができる。ここで記載されている処理は、サブバンド信号のグループを用いて行うことができる、すなわち、低レベル特徴は、(各グループが1つ以上のサブバンド信号を含むのに対して)サブバンド信号の1つ以上のグループから演算され、導き出された重み付け係数は、対応するサブバンド信号に(すなわち、特定のグループに属するすべてのサブバンドに対して)適用される。
【0232】
周囲信号のスペクトル表現の推定は、サブバンドの1つ以上を対応する重みgiによって重み付けすることによって取得される。マルチチャンネルサラウンド信号の正面チャンネルに供給される信号は、周囲信号に用いられたような補完的な重みと同様の方法で処理される。
【0233】
周囲信号の付加的な再生は、(オリジナルの入力信号と比較して)より多い周囲信号成分に結果としてなる。正面信号の演算のための重みは、周囲信号の演算のための重みに対して反比例するとして演算される。従って、結果として生じる各正面信号は、対応するオリジナルの入力信号と比較して、より少ない周囲信号成分と、より多い直接信号成分とを含む。
【0234】
周囲信号は、図11に示すように、(オプションとして)スペクトルドメインでの付加的な後処理を用いて更に強化され(結果として生じるサラウンドサウンド信号の認知された品質に関して)、解析フィルタバンクの逆処理(すなわち合成フィルタバンク)を用いて再合成される。
【0235】
後処理は、7章において詳述される。いくつかの後処理アルゴリズムは、スペクトルドメインまたは時間ドメインのいずれかにおいて行うことができることに留意すべきである。
【0236】
図12は、低レベル特徴の抽出に基づく、1つのサブバンド(またはサブバンド信号の1つのグループ)のゲイン演算処理のブロック図を示す。さまざまな低レベル特徴が演算され、結合され、ゲイン係数をもたらす。
【0237】
結果として生じるゲインは、動的圧縮と低域フィルタリング(時間と周波数の両方の)を用いて、更に後処理することができる。
【0238】
3.3 特徴
以下の章は、周囲らしい信号の品質を特徴づけることに適した特徴について記載する。一般に、特徴は、オーディオ信号(広帯域)または特定の周波数部分(すなわち、サブバンド)またはオーディオ信号のサブバンドのグループを特徴づける。サブバンドの特徴の演算は、フィルタバンクまたは時間‐周波数変換の使用を必要とする。
【0239】
演算は、ここでオーディオ信号x[k]のスペクトル表現X(ω,τ)(ωはサブバンド指標、τは時間指標)を用いて説明される。スペクトル(またはスペクトルの1つの範囲)は、Sk(kは周波数指標)によって表される。
【0240】
信号スペクトルを用いた特徴演算は、スペクトルの異なる表現、すなわち、振幅、エネルギー、対数の振幅またはエネルギーまたは他の非線形処理されたスペクトル(例えばX0.23)を処理することができる。別に注釈されない場合は、スペクトル表示は実数値であると仮定される。
【0241】
隣接するサブバンドにおいて演算された特徴は、例えば、サブバンドの特徴値を平均することによって、サブバンドのグループを特徴づけるために包含することができる。従って、スペクトルに対する音調は、スペクトルの各スペクトル係数に対する音調値から、例えばそれらの平均値を演算することによって演算することができる。
【0242】
演算された特徴の値の範囲は、[0、1]または異なる所定の間隔であることが望ましい。後述するいくつの特徴演算は、その範囲内の値に結果としてならない。これらのケースでは、例えば特徴を記述する値を所定の間隔にマップするために、適当なマッピング関数が適用される。マッピング関数の簡単な例が、式(2)に与えられる。
【0243】
マッピングは、例えば後処理部530、532を用いて実行することができる。
【0244】
3.3.1 音調特徴
ここで使用された用語の「音調」は、「ノイズ対サウンドの音質を識別する特徴」を記述する。
【0245】
音の信号は平坦でない信号スペクトルによって特徴づけられるが、ノイズが多い信号は平坦なスペクトルを有する。従って、音の信号はノイズが多い信号より周期的であるが、ノイズが多い信号は音の信号よりもランダムである。従って、音の信号は以前の信号値から小さい予測誤差で予測可能であるが、ノイズが多い信号はうまく予測できない。
【0246】
以下に、音調を定量的に記述するために用いることができる複数の特徴が記載される。言い換えれば、ここで記述された特徴は、定量的特徴値を決定するために用いることができるかまたは定量的特徴値として役立つことができる。
【0247】
スペクトル平坦性尺度:
スペクトル平坦性尺度(SFM)は、スペクトルSの幾何平均値と算術平均値の比率として演算される。
特徴値は、SFM(S)から導き出すことができる。
【0248】
スペクトル波高係数:
スペクトル波高係数は、スペクトルX(またはS)の最大値と平均値の比率として演算される。
定量的特徴値は、SCF(S)から導き出すことができる。
【0249】
ピーク検出を用いた音調演算:
【0250】
最大が音か否かを記述する特徴値を導き出すことができる。また、例えばどれくらいの音の時間‐周波数ビンが所定の近傍内に存在するかについて記述する特徴値を導き出すことができる。
【0251】
非線形処理されたコピーの比率を用いた音調演算:
ベクトルの非平面性は、式(6)(α>β)に示されるように、スペクトルSの2つの非線形処理されたコピーの比率として測定される。
【0252】
2つの特定の実現方法が式(7)と式(8)に示される。
定量的特徴値は、F(S)から導き出すことができる。
【0253】
異なってフィルタ処理されたスペクトルの比率を用いた音調演算:
以下の音調測定は、米国特許5,918,203[HEG+99]に記載されている。
【0254】
周波数ラインkのスペクトル係数Skの音調は、スペクトルSの2つのフィルタ処理されたコピーの比率Θから演算されるが、第1のフィルタ関数Hは微分特性を有し、第2のフィルタ関数Gは積分特性または第1のフィルタより強く微分されない特性を有し、cとdは、フィルタパラメータに依存して、フィルタの遅延がいずれのケースにおいても補償されるように選択される整定数である。
【0255】
特定の実現方法が式(10)で示される。ここでHは微分フィルタの伝達関数である。
【0256】
【0257】
周期関数を用いた音調演算:
上述した音調尺度は、入力信号のスペクトルを使用し、スペクトルの非平面性から音調の尺度を導き出す。音調尺度(それから、特徴値を導き出すことができる)は、そのスペクトルの代わりに入力時間信号の周期関数を用いて演算することもできる。周期関数は、信号とその遅延されたコピーの比較から導き出される。
【0258】
両者の類似性または差異は、遅延の関数(すなわち、両信号間の時間遅延)として与えられる。信号とその(遅延τによる)遅延コピーの間の高度な類似性(または低い差異)は、期間τを有する信号の強い周期性を示す。
【0259】
周期関数の例としては、自己相関関数と平均振幅差分関数がある[dCK03]。信号xの自己相関関数rxx(τ)は、統合窓サイズWを有する式(11)で示される。
【0260】
スペクトル係数の予測を用いた音調演算:
以前の係数ビンXi-1とXi-2からの複素スペクトル係数Xiの予測を用いた音調推定は、ISO/IEC11172‐3 MPEG‐1音響心理学モデル2(レイヤー3が推奨される)に記載されている。
【0261】
複素スペクトル係数X(ω,τ)=X0(ω,τ)e-jφ(ω,τ)の振幅X0(ω,τ)と位相φ(ω、τ)の現在値は、式(12)と式(13)によって、以前の値から推定することができる。
【0262】
推定され、現実に測定された値の間の正規化されたユークリッド距離(式(14)に示される)は、音調の尺度であって、定量的特徴値を導き出すために用いることができる。
【0263】
1つのスペクトル係数の音調は、大きい予測誤差が結果として小さい音調値になるような予測誤差P(ω)(式(15)を参照、ここで、X(ω,τ)は複素数値)から演算することもできる。
P(ω,τ)=X(ω,τ)−2X(ω,τ−1)+X(ω、τ―2) (15)
【0264】
時間ドメインでの予測を用いた音調演算:
信号x[k](時間指標k)は、以前のサンプルから線形予測を用いて予測することができるが、予測誤差は、周期信号に対して小さく、ランダム信号に対して大きい。その結果として、予測誤差は信号の音調に反比例する。
【0265】
したがって、定量的特徴値は、予測誤差から導き出すことができる。
【0266】
3.3.2 エネルギー特徴
エネルギー特徴は、サブバンド内の瞬時エネルギーを測る。特定の周波数バンドの周囲抽出のための重み付け係数は、周波数バンドのエネルギーコンテンツが高い、すなわち、特定の時間‐周波数タイルが直接信号成分に非常に近くなりそうなときに、低くなる。
【0267】
加えて、エネルギー特徴は、同じサブバンドの隣接する(時間に関して)サブバンドサンプルから演算することもできる。サブバンド信号が近い過去または将来において高いエネルギーを特徴として持っている場合に、類似の重み付けが適用される。実施例は、式(16)に示される。特徴M(ω,τ)は、τ−k<τ<τ+k(τは観測窓サイズを決定する)の範囲内で隣接するサブバンドサンプルの最大値から演算される。
M(ω,τ)=max([X(ω,τ−k) X(ω,τ+k)]) (16)
【0268】
近い過去または将来において測定される瞬時サブバンドエネルギーと最大サブバンドエネルギーは、いずれも別々の特徴として取り扱われる(すなわち、式(1)に記載された結合のための異なるパラメータが用いられる)。
【0269】
以下に、アップミックスのためのオーディオ信号からの正面信号と周囲信号の低い複雑さの抽出に対するいくつかの拡張が記載される。
【0270】
拡張は、特徴抽出と、特徴の後処理と、特徴からのスペクトル重みの導出方法とに関する。
【0271】
3.3.3 特徴セットに対する拡張
以下に、上述した特徴セットのオプションの拡張が記載される。
【0272】
上記記述は、音調特徴の使用法とエネルギー特徴を記載する。特徴は、(例えば)短期間フーリエ変換(STFT)ドメインにおいて演算され、時間指標mと周波数指標kの関数である。信号x[n]の時間‐周波数ドメインの表現(例えばSTFTによって取得されたような)は、X(m,k)と記述される。ステレオ信号を処理するケースでは、左チャンネル信号はx1[k]、右チャンネル信号はx2[k]と称される。上付きの「*」は、複素共役を表す。
【0273】
以下の特徴の1つ以上は、オプションとして用いることができる。
【0274】
3.3.3.1 チャンネル間の整合性または相関性を評価する特徴
【0275】
整合性の定義:
2つの信号は、それらができる限り異なるスケーリングと遅延によって等しい、すなわち位相差が一定である場合に、整合している。
【0276】
相関性の定義:
2つの信号は、それらができる限り異なるスケーリングによって等しい場合に、相関している。
【0277】
それぞれ長さNの2つの信号間の相関性は、正規化された相互相関係数rによってしばしば測定される。
ここで、λは「忘却係数」である。この演算は、以下において「移動平均推定(MAE)」、fmae(z)と称される。
【0278】
ステレオ録音の左右のチャンネルの周囲信号成分は、一般に弱く相関している。音源を残響室においてステレオマイクロホン技術で録音するとき、両方のマイクロホン信号は、音源からマイクロホンへのパスが異なるので(主に反射パターンの相違のため)異なる。人工録音において、非相関化は人工ステレオリバーブによって導入される。その結果として、周囲抽出のための適当な特徴は、左右のチャンネル信号間の相関性または整合性を測定する。
【0279】
[AJ02]に記載されているチャンネル間の短時間コヒーレンス(ICSTC)関数は、適切な特徴である。ICSTC Φは、左右のチャンネル信号間の相互相関Φ12のMAEと、左側信号のエネルギーΦ11と右側信号のエネルギーΦ22のMAEから演算される。
【0280】
事実、[AJ02]に記載されているICSTCの公式は、正規化された相互相関係数とほとんど同一であり、唯一の相違は、データのセンタリングが適用されないことである
【0281】
[AJ02]では、周囲指標(これは「周囲らしさ」の度数の特徴表示である)は、ICSTCから非線形マッピングによって、例えば双曲線正接を用いて演算される。
【0282】
3.3.3.2 チャンネル間のレベル差
チャンネル間のレベル差(ICLD)に基づく特徴は、ステレオ画像(パノラマ)内の顕著な音源の位置を決定するために用いられる。ソースs[k]は、s[k]の振幅を以下のx1[k]とx2[k]において重み付けするために、パニング係数αを適用することによって特定の方向に振幅パンされる。
X1[k]=(1−α)s[k] (24)
X2[k]=αs[k] (25)
【0283】
時間‐周波数ビンに対して演算されるとき、ICLDベースの特徴は、特定の時間‐周波数ビンを支配する音源の位置(およびパニング係数α)を決定するためにキューを交付する。
【0284】
【0285】
上述したパニング指標に対する演算的により効率的な変形例は、次式を用いて演算される。
【0286】
【0287】
3.3.3.3 スペクトル重心
【0288】
スペクトル重心は、(スペクトルの全周波数範囲にわたって演算されたときに)知覚された音の明るさに相関する低レベル特徴である。スペクトル重心は、Hzでまたは周波数範囲の最大に正規化されたときは無次元で測定される。
【0289】
4.特徴グループ化
特徴グループ化は、特徴の更なる処理の演算負荷を低減し、および/または、特徴の時間経過を評価するという要求によって動機づけされる。
【0290】
記述された特徴は、各データブロック(それから離散フーリエ変換が演算される)について、および、各周波数ビンまたは隣接する周波数ビンのセットについて演算される。隣接するブロックから演算される特徴値(それは通常重複する)は、一緒にグループ化され、以下の関数f(x)の1つ以上によって表される可能性があるが、隣接するフレームのグループ(「スーパーフレーム」)にわたって演算される特徴値は引数xとして取り出される:
・分散または標準偏差
・フィルタリング(例えば、一次または高次の差分、重み付けられた平均値、または他の低域フィルタリング)
・フーリエ変換係数
【0291】
特徴グループ化は、例えば、結合部930、940のうちの1つによって実行することができる。
【0292】
5.教師付き回帰または類別を用いたスペクトル重み演算
以下において、オーディオ信号x[n]は、直接信号成分d[n]と周囲信号成分a[n]が加算的に含まれたたものと仮定する。
x[n]=d[n]+a[n] (29)
【0293】
本願では、スペクトル重み演算を、特徴値のパラメータによる結合として記述するものであって、パラメータは、例えば発見的に決定されたパラメータ(例えば、3.2章を与える)とすることができる。
【0294】
あるいは、スペクトル重みは、周囲信号成分の振幅の直接信号成分の振幅に対する比率の推定から決定することができる。我々は、周囲信号の直接信号に対する振幅比をRAD(m,k)と定義する。
【0295】
【0296】
このアプローチは、音声信号のノイズ低減のためのスペクトル重み付け(または短期間スペクトル減衰)に類似しているが、スペクトル重みは、サブバンドにおける時間変化するSNRの推定から演算される(例えば、[Sch04]参照)。
【0297】
(1)教師付き回帰と、(2)教師付き類別
【0298】
これらのアプローチは、周波数ビンおよびサブバンド(すなわち、周波数ビンのグループ)から演算された特徴を一緒に処理することが可能であることに留意すべきである。
【0299】
例えば:周囲指標とパニング指標は、周波数ビン毎に演算される。スペクトル重心と、スペクトル平坦性と、エネルギーは、バークバンドについて演算される。これらの特徴は異なる周波数分解能を用いて演算されるにもかかわらず、同じ分類/回帰方法を用いて一緒に処理される。
【0300】
5.1 回帰
【0301】
【0302】
5.2 類別
【0303】
6.トレーニング
トレーニングの主要な論点は、レファレンス値RAD(m,k)の適切な選択である。我々は、次の2つのオプション(最初のオプションが好ましいが)を提案する。
(1)直射信号と周囲信号が別々に利用可能である信号から測定されたレファレンス値を用いる方法
(2)モノラル信号の処理からの基準値として、ステレオ信号から演算された相関ベースの特徴を用いる方法
【0304】
6.1 オプション1
このオプションは、支配的な直接信号成分と無視できる周囲信号成分(x[n]≒d[n])、例えば乾燥した環境で録音された信号、を有するオーディオ信号を必要とする。
【0305】
例えば、オーディオ信号1810、1860は、支配的な直接成分を有するこの種の信号とみなすことができる。
【0306】
人工リバーブ信号a[n]は、リバーブ処理部によって、または、実際の部屋で採取することができる室内音響インパルス応答(RIR)による畳み込みよって、生成される。あるいは、他の周囲信号、例えば拍手、風、雨または他の環境ノイズの録音を用いることができる。
【0307】
トレーニングに用いられる基準値は、次に、式(30)を用いてd[n]とa[n]のSTFT表現から取得される。
【0308】
いくつかの実施形態では、直接信号と周囲信号成分の知識に基づいて、振幅比は、式(30)によって決定することができる。続いて、予測ゲイン値は、例えば式(31)を用いて、振幅比に基づいて取得することができる。この予測ゲイン値は、予測ゲイン値情報1316、1834として用いることができる。
【0309】
6.2 オプション2
ステレオ録音の左右のチャンネル間の相関に基づく特徴は、周囲抽出処理のための強力なキューを交付する。しかしながら、モノラル信号を処理するとき、これらのキューは利用可能でない。提案されたアプローチは、モノラル信号を処理することができる。
【0310】
トレーニングのための基準値を選択する有効なオプションは、相関ベースの特徴が演算され、基準値(例えば、予測ゲイン値を取得するための)として用いられるステレオ信号を使用することである。
【0311】
基準値は、例えば予測ゲイン値情報1920によって記述することができ、または、予測ゲイン値情報1920は、基準値から導き出すことができる。
【0312】
ステレオ録音は、次に、他の低レベル特徴の抽出のためにモノラルにダウンミックスすることができ、または、低レベル特徴は、左右のチャンネル信号から別々に演算することができる。
【0313】
この章に記載されたコンセプトを適用するいくつかの実施形態は、図19と20に示される。
【0314】
【0315】
7.周囲信号の後処理
以下の章は、周囲信号の知覚品質の強化のための適当な後処理方法を記載する。
【0316】
いくつかの実施形態では、後処理は、後処理部700によって実行することができる。
【0317】
7.1 サブバンド信号の非線形処理
導き出された周囲信号(例えば、重み付けされたサブバンド信号によって表された)は、周囲成分のみならず、信号成分をも含む(すなわち、周囲信号と直接信号の分離は完全でない)。周囲信号は、その周囲と直接の比率、すなわち、周囲成分の量の直接成分に対する比率を強化するために後処理される。適用される後処理は、周囲音は直接音と比較してむしろ静かであるという知見によって動機づけされる。静かな音を保存しながら大きい音を減衰する簡単な方法は、非線形圧縮曲線をスペクトログラムの係数(例えば、重み付けられたサブバンド信号)に適用することである。
【0318】
適当な圧縮曲線の実施例は、式(17)で与えられる。ここで、cは閾値であり、パラメータp(0<p<1)は圧縮率を決定する。
【0319】
非線形修正の他の実施例は、y=xp(0<p<1)であるが、小さい値は大きな値よりもより増加する。この関数の一実施例は、y=√xであり、ここで、xは例えば重み付けられたサブバンド信号の表現値とすることができ、yは例えば後処理された重み付けられたサブバンド信号の表現値とすることができる。
【0320】
いくつかの実施形態では、この章で記載されたサブバンド信号の非線形処理は、非線形圧縮部732によって実行することができる。
【0321】
7.2 時間遅延の導入
正面画像の安定性を改善するために、周囲信号に対して(例えば、正面信号または直接信号と比較して)、数ミリ秒(例えば14ms)の遅延が導入される。これは、2つの同一の音が、1つの音Aの開始が他の音Bの開始に関連して遅延され、両方が(リスナーに対して)異なる方向において提供されるように、提供された場合に発生する先行効果の結果である。遅延が適当な範囲内にある限り、音は、音Bが提供される方向からやってくると知覚される[LCYG99]。
【0322】
周囲信号に対して遅延を導入することによって、直接音源は、周囲信号のなかにいくつかの直接信号成分が含まれる場合であっても、リスナーの正面に対してよりよく位置づけられる。
【0323】
いくつかの実施形態では、この章で記載される時間遅延の導入は、遅延部734によって実行することができる。
【0324】
7.3 信号適応イコライズ
サラウンドサウンド信号の音色呈色を最小化するために、周囲信号(例えば、重み付けられたサブバンド信号に関して表された)は、その長期間パワースペクトル密度(PSD)を入力信号に適応させるために、イコライズされる。これは、2段階の処理で実行される。
【0325】
【0326】
信号適応イコライズは、抽出された周囲信号が入力信号より小さいスペクトルチルトを特徴づける傾向がある、すなわち周囲信号が入力信号より明るく鳴り響くという知見によって動機づけられる。多くの録音において、周囲音は、主に部屋の残響によって生じる。録音に用いられる多くの部屋は、低い周波数に対してよりも高い周波数に対して小さい残響時間を有するので、したがって、周囲信号をイコライズすることは合理的である。しかしながら、非公式のリスニングテストは、入力信号の長期間PSDに対するイコライズが有効なアプローチになると判明することを示している。
【0327】
いくつかの実施形態では、この章で記載された信号適応イコライズは、音色呈色補償器736によって実行することができる。
【0328】
7.4 過渡状態抑制
後方チャンネル信号への遅延の導入(7.2章を参照)は、過渡信号成分が存在する場合[WNR73]と、時間遅延が信号依存値(エコー閾値[LCYG99])を超える場合に、2つの分離した信号の知覚を呼び起こす。このエコーは、サラウンドサウンド信号または周囲信号の過渡信号成分を抑制することによって減衰することができる。付加的な正面画像の安定化は、後方チャンネルに位置決め可能な点源の出現が著しく低減されるので、過渡状態の抑制によって達成される。
【0329】
理想的な包囲する周囲音が時間とともにスムーズに変化することを考慮すれば、適切な過渡状態抑制方法は、周囲信号の連続的な性質に影響を及ぼすことなく過渡成分を低減する。この要求を満たす1つの方法は、[WUD07]に提案されたものであり、ここに記載されている。
【0330】
最初に、(例えば、重み付けられたサブバンド信号に関して表された周囲信号において)過渡状態が発生する時間インスタンスが検出される。引き続いて、検出された過渡領域に属する振幅スペクトルが、過渡状態の開始前の信号部分の外挿によって置き換えられる。
【0331】
従って、移動平均μ(ω)を定義された最大偏差を超えるすべての値|X(ω,τt)|は、定義された偏差インターバル内のμ(ω)のランダム偏差によって置き換えられる。ここで、添字tは、過渡領域に属するフレームを示す。
【0332】
修正部分と非修正部分の間のスムーズな遷移を保証するために、外挿値はオリジナル値によってクロスフェードされる。
【0333】
他の過渡状態抑制方法は、[WUD07]に記載されている。
【0334】
いくつかの実施形態では、この章に記載された過渡状態抑制は、過渡状態低減部738によって実行することができる。
【0335】
7.5 非相関化
左右の耳に到達する2つの信号間の相関は、音源と周囲の印象の知覚幅に影響を及ぼす。印象の開放感を改善するために、正面チャンネル信号間および/または後方チャンネル信号間(例えば、抽出された周囲信号に基づく2つの後方チャンネル信号間)のチャンネル間相関は減少される。
【0336】
2つの信号の非相関化のためのさまざまな方法が適切であり、以下に記載されている。
【0337】
櫛フィルタリング:
2つの非相関信号は、1つのチャンネルの入力信号の2つのコピーを一対の相補的櫛フィルタにより処理することによって取得される[Sch57]。
【0338】
オールパスフィルタリング:
2つの非相関信号は、1つのチャンネルの入力信号の2つのコピーを一対の異なるオールパスフィルタにより処理することによって取得される。
【0339】
平坦な伝達関数によるフィルタリング:
2つの非相関信号は、1つのチャンネルの入力信号の2つのコピーを平坦な伝達関数を有する(すなわち、インパルス応答が白色スペクトルを有する)2つの異なるフィルタによってフィルタリングすることによって取得される。
【0340】
平坦な伝達関数は、出力信号の音色呈色が小さいことを保証する。適切なFIRフィルタは、白色乱数発生器を用いて構成することができ、衰退するゲイン係数を各フィルタ係数に適用することができる。
【0341】
実施例は、式(19)に示される。ここで、hk(k<N)はフィルタ係数であり、rkは白色ランダム処理の出力であり、aとbは、b≧aNであるhkのエンベロープを決定する定数パラメータである。
hk=rk(b−ak) (19)
【0342】
適応スペクトルパノラマ化:
2つの非相関信号は、1つの入力チャンネル信号の2つのコピーをASPにより処理することによって取得される[VZA06](2.1.4章を参照)。後方チャンネル信号と正面チャンネル信号の非相関化のためのASPのアプリケーションは、[UWI07]に記載されている。
【0343】
サブバンド信号の遅延:
2つの非相関信号は、1つの入力チャンネル信号の2つのコピーをサブバンドに分解し(例えば、STFTのフィルタバンクを用いて)、サブバンド信号に対する異なる時間遅延を導入し、そして処理されたサブバンド信号から時間信号を再合成することによって取得される。
【0344】
いくつかの実施形態では、この章に記載された非相関化は、信号非相関化部740によって実行することができる。
【0345】
以下に、本発明に係る実施形態のいくつかの側面が簡潔に要約される。
【0346】
本発明に係る実施形態は、オーディオ信号をブラインドアップミックスするのに適した正面信号と周囲信号の抽出の新しい方法を構築する。本発明に係る方法のいくつかの実施形態の利点は、多面的である。
1からnへのアップミックスのための前の方法と比較して、本発明に係るいくつかの方法は、低い演算の複雑さである。
2からnへのアップミックスのための前の方法と比較して、本発明に係るいくつかの方法は、両方の入力チャンネル信号が同一(モノラル)であるかまたはほとんど同一であっても、うまく実行する。
発明に係るいくつかの方法は、入力チャンネルの数に依存せず、それ故に、入力チャンネルのいかなる構成にもよく適合する。本発明に係るいくつかの方法は、リスニングテストにおいて結果として生じるサラウンドサウンド信号を聞くときに、多くのリスナーにとって好ましい。
【0347】
要約すると、いくつかの実施形態は、アップミックスのためのオーディオ信号からの正面信号と周囲信号の低い複雑さの抽出に関する。
【0348】
8.用語解説
ASP: 適応スペクトルパノラマ化
NMF: 非負マトリクス因数分解
PCA: 主成分分析
PSD: パワースペクトル密度
STFT:短期間フーリエ変換
TFD: 時間‐周波数分布
【0349】
参考文献
[AJ02]Carlos Avendano,Jean-Marc Jot、マルチチャンネルオーディオアップミックスのためのステレオ信号からの周囲信号の抽出と合成、ICASSP議事録、2002
[AJ04]Carlos Avendano,Jean-Marc Jot、マルチチャンネルアップミックスの周波数ドメインアプローチ、英国オーディオ学会誌、52、2004
[dCK03]Alain de Cheveigne,Hideki Kawahara、 陰、話し言葉および音楽の基本周波数推定器、アメリカ音響学会誌、111(4)、1917‐1930、2003
[Dre00]R. Dressler、ドルビーサラウンドプロ・ロジック2デコーダ:解説書、ドルビー研究所報告、2000
[DT]DTS、DTS NEo:6マルチチャンネル、http://www.dts.com/media/uploads/pdfs/DTS%20Neo6%20Overview.pdf
[Fal05]C. Faller、再訪された疑似立体音響、第118回AES大会議事録、2005
[GJ07a]M. Goodwin,Jean-Marc Jot、マルチチャンネルサラウンドフォーマット変換および一般化されたアップミックス、第30回AES会議議事録、2007
[GJ07b]M. Goodwin,Jean-Marc Jot、空間オーディオf符号化と強調のための主要周囲信号の分解とベクトルベースの位置決め、ICASSP会報、2007
[HEG+99]J. Herre,E. Eberlein,B. Grill,K. Brandenburg,H. Gerhauser、米国特許5918203、1999
[IA01]R. Irwan,R. M. Aarts、ステレオからマルチチャンネルサウンドに変換する方法、第19回AES会議議事録、2001
[ISO93]ISO/MPEG,ISO/IEC11172‐3MPEG‐1、国際規格、1993
[Kar]Harman Kardon、ロジック7の解説、技術報告
[LCYG99]R. Y. Litovsky,H. S. Colburn,W. A. Yost,S. J. Guzman、先行音効果、JAES、1999
[LD05]Y. Li,P.F. Driessen、2から5チャンネルへのアップミックスの教師なし適応フィルタリングアプローチ、第119回AES大会議事録、2005
[LMT07]M. Lagrange,L.G. Martins,G. Tzanetakis、音源フォーメーションを用いたモノラルからステレオへの半自動アップミックス、第122回AES大会議事録、2007
[MPA+05]J. Monceaux,F. Pachet,F. Armadu,P. Roy,A. Zils、記述子ベースの空間化、第118回AES大会議事録、2005
[Sch04]G. Schmidt、液圧機関スペクトル重み付けに基づくrocessing スペクトル重み付けによる単一チャンネルノイズの抑圧、Eurasip会報、2004
[Sch57]M. Schroeder、単一信号を用いて得られた人工立体音響の効果、JAES、1957
[Sou04]G. Soulodre、周囲ベースのアップミックス、第117回AES大会のワークショップ、2004
[UWHH07]C. Uhle,A. Walther,O. Hellmuth,J. Herre、非負マトリクス因数分解を用いたモノラル録音からの周囲分離、第30回AES会議議事録、2007
[UWI07]C. Uhle,A. Walther,M. Ivertowski、1からnへのブラインドアップミックス、Audio Mostly、2007
[VZA06]V. Verfaille,U. Zolzer,D. Arfib、適応ディジタルオーディオ効果(A‐DAFx):サウンド変換の新分類、IEEEオーディオ・スピーチ・言語処理の会報、2006
[WNR73]H. Wallach,E.B. Newman,M.R. Rosenzweig、音響位置決めにおける優先効果、英国オーディオ学会誌、21、817‐826、1973
[WUD07]A. Walther,C. Uhle,S. Disch、マルチチャンネルアップミックスアルゴリズムにおける一時的抑制の使用、第122回AES大会議事録、2007
【特許請求の範囲】
【請求項1】
入力音声信号を、複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力音声信号の時間-周波数ドメイン表現に基づいて周囲信号を抽出する装置であって、
前記入力オーディオ信号に従って、前記入力オーディオ信号の時間-周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部と、
前記時間‐周波数ドメイン表現の前記所定の周波数バンドを表した前記サブバンド信号の1つを前記時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部と、
を備え、
前記ゲイン値決定部は、前記入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得し、前記ゲイン値が定量的特徴値に定量的に依存するように、前記ゲイン値を1つ以上の定量的特徴値の関数として提供するように構成され、
前記ゲイン値決定部は、前記重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるように前記ゲイン値を提供するように構成された、
周囲信号を抽出する装置。
【請求項2】
前記ゲイン値決定部は、前記入力オーディオ信号の時間‐周波数ドメイン表現に基づいて、前記時間変化するゲイン値を決定するように構成された、請求項1に記載の周囲信号を抽出する装置。
【請求項3】
前記ゲイン値決定部は、前記所定の周波数バンドを表したサブバンド信号の周囲らしさを記述する少なくとも1つの定量的特徴値を取得するように構成された、請求項1または2に記載の周囲信号を抽出する装置。
【請求項4】
前記ゲイン値決定部は、前記入力オーディオ信号の複数の異なる特徴または特性を記述する複数の異なる定量的特徴値を取得し、前記異なる定量的特徴値を結合し、前記一連の時間変化するゲイン値を取得するように構成された、請求項1〜3のいずれかに記載の周囲信号を抽出する装置。
【請求項5】
前記ゲイン値決定部は、前記異なる定量的特徴値を、重み付け係数によって異なって重み付けするように構成された、請求項4に記載の周囲信号を抽出する装置。
【請求項6】
前記ゲイン値決定部は、前記異なる定量的特徴値を非線形方法でスケーリングするように構成された、請求項4または5に記載の周囲信号を抽出する装置。
【請求項7】
前記ゲイン値決定部は、前記異なる特徴値を次の関係を用いて結合し、前記ゲイン値を取得するように構成された、請求項4〜6のいずれかに記載の周囲信号を抽出する装置。
ここで、ωは、サブバンド指標を示し、τは、時間指標を示し、iは、実行変数を示し、Kは、結合される特徴値の数を表し、mi(ω,τ)は、周波数指標ωと時間指標τを有するサブバンドのi番目の特徴値を示し、αiは、i番目の特徴値の線形重み付け係数を示し、βiは、i番目の特徴値の指数重み付け係数を示し、g(ω,τ)は、周波数指標ωと時間指標τを有するサブバンドのゲイン値を示す。
【請求項8】
前記ゲイン値決定部は、結合される異なる特徴の重みを調整するように構成された重み調整部を備える、請求項4〜7のいずれかに記載の周囲信号を抽出する装置。
【請求項9】
前記ゲイン値決定部は、少なくとも、前記入力オーディオ信号の音調を記述する音調特徴値と、前記入力オーディオ信号のサブバンド内のエネルギーを記述するエネルギー特徴値とを結合し、前記ゲイン値を取得するように構成された、請求項4〜8のいずれかに記載の周囲信号を抽出する装置。
【請求項10】
前記ゲイン値決定部は、少なくとも、前記音調特徴値と、前記エネルギー特徴値と、前記入力オーディオ信号のスペクトルまたは前記入力オーディオ信号のスペクトルの一部のスペクトル重心を記述するスペクトル重心特徴値とを結合し、前記ゲイン値を取得するように構成された、請求項9に記載の周囲信号を抽出する装置。
【請求項11】
前記ゲイン値決定部は、単一のオーディオ信号チャンネルの特徴を記述する少なくとも1つの定量的単一チャンネル特徴値を取得し、前記単一チャンネル特徴値を用いて前記ゲイン値を提供するように構成された、請求項1〜10のいずれかに記載の周囲信号を抽出する装置。
【請求項12】
前記ゲイン値決定部は、単一のオーディオチャンネルに基づいて前記ゲイン値を提供するように構成された、請求項1〜11のいずれかに記載の周囲信号を抽出する装置。
【請求項13】
前記ゲイン値決定部は、前記入力オーディオ信号を複数の周波数バンドを含む周波数範囲にわたって記述するマルチバンド特徴値を取得するように構成された、請求項1〜12のいずれかに記載の周囲信号を抽出する装置。
【請求項14】
前記ゲイン値決定部は、前記入力オーディオ信号を単一の周波数バンドを含む周波数範囲にわたって記述する狭帯域特徴値を取得するように構成された、請求項1〜13のいずれかに記載の周囲信号を抽出する装置。
【請求項15】
前記ゲイン値決定部は、前記入力オーディオ信号を前記時間‐周波数ドメイン表現の周波数バンドの全部を含む周波数範囲にわたって記述する広帯域特徴値を取得するように構成された、請求項1〜14のいずれかに記載の周囲信号を抽出する装置。
【請求項16】
前記ゲイン値決定部は、異なるバンド幅を有する前記入力オーディオ信号の部分を記述する異なる特徴値を結合し、前記ゲイン値を取得するように構成された、請求項1〜15のいずれかに記載の周囲信号を抽出する装置。
【請求項17】
前記ゲイン値決定部は、前記入力オーディオ信号の時間‐周波数ドメイン表現を非線形方法で前処理し、前記前処理された時間‐周波数ドメイン表現に基づいて定量的特徴値を取得するように構成された、請求項1〜16のいずれかに記載の周囲信号を抽出する装置。
【請求項18】
前記ゲイン値決定部は、前記取得された特徴値を非線形方法で後処理し、前記特徴値の値の範囲を制限し、後処理された特徴値を取得するように構成された、請求項1〜17のいずれかに記載の周囲信号を抽出する装置。
【請求項19】
前記ゲイン値決定部は、前記時間‐周波数ドメイン表現の異なる時間‐周波数ビンに関連づけられた同一の特徴または特性を記述する複数の特徴値を結合し、結合された特徴値を取得するように構成された、請求項1〜18のいずれかに記載の周囲信号を抽出する装置。
【請求項20】
前記ゲイン値決定部は、前記入力オーディオ信号の音調を記述する定量的特徴値を取得し、前記ゲイン値を決定するように構成された、請求項1〜19のいずれかに記載の周囲信号を抽出する装置。
【請求項21】
前記ゲイン値決定部は、音調を記述する定量的特徴値として、
スペクトル平坦性尺度、
スペクトル波高係数、
前記入力オーディオ信号のスペクトルのコピーの異なる非線形処理を用いて取得された少なくとも2つのスペクトル値の比率、
前記入力信号のスペクトルのコピーの異なる非線形フィルタを用いて取得された少なくとも2つのスペクトル値の比率、
スペクトルピークの存在を示す値、
前記入力オーディオ信号と前記入力オーディオ信号の時間シフトされたバージョンの間の類似性を記述する類似性値、
前記時間‐周波数ドメイン表現の予測スペクトル係数と前記時間‐周波数ドメイン表現の実際のスペクトル係数の差分を記述する予測誤差値、
のいずれかを取得するように構成された、請求項20に記載の周囲信号を抽出する装置。
【請求項22】
前記ゲイン値決定部は、前記入力オーディオ信号のサブバンド内のエネルギーを記述する少なくとも1つの定量的特徴値を取得し、前記ゲイン値を決定するように構成された、請求項1〜21のいずれかに記載の周囲信号を抽出する装置。
【請求項23】
前記ゲイン値決定部は、前記時間‐周波数ドメイン表現の所定の時間‐周波数ビンの前記ゲイン値が前記所定の時間‐周波数ビンのエネルギーの増加、または、前記所定の時間‐周波数ビンの近傍内の時間‐周波数ビンのエネルギーの増加と共に減少するように、前記ゲイン値を決定するように構成された、請求項22に記載の周囲信号を抽出する装置。
【請求項24】
前記ゲイン値決定部は、所定の時間‐周波数ビンのエネルギーと、前記所定の時間‐周波数ビンの予め定められた近傍の最大エネルギーまたは平均エネルギーを、分離した特徴として取り扱うように構成された、請求項22または23に記載の周囲信号を抽出する装置。
【請求項25】
前記ゲイン値決定部は、前記所定の時間‐周波数ビンのエネルギーを記述する第1の定量的特徴値と、前記所定の時間‐周波数ビンの予め定められた近傍の最大エネルギーまたは平均エネルギーを記述する第2の定量的特徴値とを取得し、前記第1の定量的特徴値と前記第2の定量的特徴値を結合し、前記ゲイン値を取得するように構成された、請求項24に記載の周囲信号を抽出する装置。
【請求項26】
前記ゲイン値決定部は、前記入力オーディオ信号の2つ以上のチャンネル間の関連性を記述する1つ以上の定量的チャンネル関連値を取得するように構成された、請求項1〜25のいずれかに記載の周囲信号を抽出する装置。
【請求項27】
前記1つ以上の定量的チャンネル関連値のうちの1つは、前記入力オーディオ信号の2つのチャンネル間の相関性または整合性を記述する、請求項26に記載の周囲信号を抽出する装置。
【請求項28】
前記1つ以上の定量的チャンネル関連値のうちの1つは、チャンネル間の短時間整合性を記述する、請求項26または27に記載の周囲信号を抽出する装置。
【請求項29】
前記1つ以上の定量的チャンネル関連値のうちの1つは、前記入力オーディオ信号の2つ以上のチャンネルに基づいて音源の位置を記述する、請求項26〜28のいずれかに記載の周囲信号を抽出する装置。
【請求項30】
前記1つ以上の定量的チャンネル関連値のうちの1つは、前記入力オーディオ信号の2つ以上のチャンネルの間のチャンネル間レベル差を記述する、請求項29に記載の周囲信号を抽出する装置。
【請求項31】
前記ゲイン値決定部は、前記1つ以上の定量的チャンネル関連値のうちの1つとして、パニング指標を取得するように構成された、請求項26〜30のいずれかに記載の周囲信号を抽出する装置。
【請求項32】
前記ゲイン値決定部は、所定の時間‐周波数ビンのスペクトル値差分とスペクトル値総計の間の比率を決定し、前記所定の時間‐周波数ビンのパニング指標を取得するように構成された、請求項31に記載の周囲信号を抽出する装置。
【請求項33】
前記ゲイン値決定部は、前記入力オーディオ信号のスペクトルまたは前記入力オーディオ信号のスペクトルの一部のスペクトル重心を記述するスペクトル重心特徴値を取得するように構成された、請求項1〜32のいずれかに記載の周囲信号を抽出する装置。
【請求項34】
前記ゲイン値決定部は、前記時間‐周波数ドメイン表現によって表された複数のサブバンド信号に従って、前記サブバンド信号の所定の1つを重み付けするためのゲイン値を提供するように構成された、請求項1〜33のいずれかに記載の周囲信号を抽出する装置。
【請求項35】
前記重み付け部は、サブバンドのグループを共通の一連の時間変化するゲイン値によって重み付けするように構成された、請求項1〜34のいずれかに記載の周囲信号を抽出する装置。
【請求項36】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、周囲‐直接比率を強化し、周囲‐直接比率が強化された後処理された信号を取得するように構成された信号後処理部を更に備える、請求項1〜35のいずれかに記載の周囲信号を抽出する装置。
【請求項37】
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号のなかの大きな音を静かな音を保存しながら減衰させ、前記後処理された信号を取得するように構成された、請求項36に記載の周囲信号を抽出する装置。
【請求項38】
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号に対して非線形圧縮を適用するように構成された、請求項36または37に記載の周囲信号を抽出する装置。
【請求項39】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号を2ミリ秒から70ミリ秒の範囲で遅延させ、前記重み付けられたサブバンド信号に基づいて正面信号と周囲信号の間の遅延を取得するように構成された、
請求項1〜38のいずれかに記載の周囲信号を抽出する装置。
【請求項40】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記後処理部は、前記重み付けられたサブバンド信号に基づく周囲信号表現に関して周波数依存イコライズを実行し、前記周囲信号表現の音色呈色に反対に作用するように構成された、
請求項1〜39のいずれかに記載の周囲信号を抽出する装置。
【請求項41】
前記後処理部は、前記重み付けられたサブバンド信号に基づく周囲信号表現に関して周波数依存イコライズを実行し、前記後処理された周囲信号表現としてイコライズされた周囲信号を取得するように構成され、
前記後処理部は、前記イコライズされた周囲信号表現の長期間パワースペクトル密度を前記入力オーディオ信号に適応させるために周波数依存イコライズを実行するように構成された、
請求項40に記載の周囲信号を抽出する装置。
【請求項42】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号の過渡状態を低減するように構成された、
請求項1〜41のいずれかに記載の周囲信号を抽出する装置。
【請求項43】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号に基づいて、左側周囲信号と右側周囲信号を、前記左側周囲信号と前記右側周囲信号が少なくとも部分的に非相関化されるように取得するように構成された、
請求項1〜42のいずれかに記載の周囲信号を抽出する装置。
【請求項44】
前記入力オーディオ信号に基づいて正面信号をも提供するように構成され、
前記重み付け部は、前記時間‐周波数ドメイン表現の前記所定の周波数バンドを表したサブバンド信号のうちの1つを時間変化する正面信号のゲイン値によって重み付けし、重み付けられた正面信号のサブバンド信号を取得するように構成され、
前記重み付け部は、前記時間変化する正面信号のゲイン値が周囲信号のゲイン値の増加と共に減少するように構成された、
請求項1〜43のいずれかに記載の周囲信号を抽出する装置。
【請求項45】
前記重み付け部は、前記正面信号のゲイン値が前記周囲信号のゲイン値に対して相補的であるように前記時間変化する正面信号のゲイン値を提供するように構成された、請求項44に記載の周囲信号を抽出する装置。
【請求項46】
周囲信号の時間ドメイン表現を、前記1つ以上の重み付けられたサブバンド信号に従って提供するように構成された時間‐周波数ドメインから時間ドメインへの変換部を備える、請求項1〜45のいずれかに記載の周囲信号を抽出する装置。
【請求項47】
前記周囲信号を、モノラル入力オーディオ信号に基づいて抽出するように構成された、請求項1〜46のいずれかに記載の周囲信号を抽出する装置。
【請求項48】
1つ以上の入力オーディオ信号に基づいて、少なくとも1つの周囲信号を含むマルチチャンネルオーディオ信号を提供するマルチチャンネルオーディオ信号発生装置であって、
前記入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出するように構成された周囲信号抽出部と、
重み付けられたサブバンド信号に基づいて1つ以上の周囲信号を提供するように構成された周囲信号提供部と、
を備え、
前記周囲信号抽出部は、
前記入力オーディオ信号に従って、前記入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部と、
前記時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号の1つを前記時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部と、を備え、
前記ゲイン値決定部は、前記入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得し、前記ゲイン値が前記定量的特徴値に定量的に依存するように、前記ゲイン値を1つ以上の定量的特徴値の関数として提供するように構成され、
前記ゲイン値決定部は、前記重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるように前記ゲイン値を提供するように構成された、
マルチチャンネルオーディオ信号発生装置。
【請求項49】
1つ以上の周囲信号を1つ以上の後方チャンネルオーディオ信号として提供するように構成された、請求項48に記載のマルチチャンネルオーディオ信号発生装置。
【請求項50】
1つ以上の入力オーディオ信号に基づいて1つ以上の正面チャンネルオーディオ信号を提供するように構成された、請求項48または49に記載のマルチチャンネルオーディオ信号発生装置。
【請求項51】
入力オーディオ信号から周囲信号を抽出するゲイン値決定部をパラメータ化するための重み付け係数を取得する装置であって、
係数決定入力オーディオ信号の複数の特徴または特性を記述する複数の定量的特徴値の、前記重み付け係数を用いた重み付け結合に基づいて取得されたゲイン値が、前記係数決定オーディオ信号に関連づけられた予測ゲイン値を近似するように、前記重み付け係数を決定するように構成された重み付け係数決定部を備える、
重み付け係数を取得する装置。
【請求項52】
無視できる周囲信号成分のみを含む基準オーディオ信号に基づいて前記係数決定信号を提供するように構成された係数決定信号生成部を備え、
前記係数決定信号生成部は、前記基準オーディオ信号を周囲信号成分と結合し、前記係数決定信号を取得し、かつ、
前記周囲信号成分、または、前記周囲信号成分と前記基準オーディオ信号の直接信号成分との関連性を記述する情報を前記重み付け係数決定部に提供し、前記予測ゲイン値を記述するように構成された、請求項51に記載の重み付け係数を取得する装置。
【請求項53】
前記係数決定信号生成生部は、前記周囲信号成分を前記基準オーディオ信号に基づいて提供するように構成された周囲信号生成部を備える、請求項52に記載の重み付け係数を取得する装置。
【請求項54】
マルチチャンネル基準オーディオ信号に基づいて前記係数決定信号と前記予測ゲイン値を記述する情報を提供するように構成された係数決定信号生成部を備え、
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の2つ以上のチャンネル間の関連性を記述する情報を決定し、前記予測ゲイン値を記述する情報を提供するように構成された、請求項51〜53のいずれかに記載の重み付け係数を取得する装置。
【請求項55】
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の2つ以上のチャンネル間の相関を記述する相関ベースの定量的特徴値を決定し、前記予測ゲイン値を記述する情報を提供するように構成された、請求項54に記載の重み付け係数を取得する装置。
【請求項56】
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の1つのチャンネルを、前記係数決定信号として提供するように構成された、請求項54または55に記載の重み付け係数を取得する装置。
【請求項57】
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の2つ以上のチャンネルを結合し、前記係数決定信号を取得するように構成された、請求項54〜56のいずれかに記載の重み付け係数を取得する装置。
【請求項58】
前記重み付け係数決定部は、前記重み付け係数を、回帰法、類別法、またはニューラルネットを用いて決定するように構成され、前記係数決定信号はトレーニング信号として用いられ、前記予測ゲイン値は基準値として役立ち、前記係数が決定される、請求項51〜57のいずれかに記載の重み付け係数を取得する装置。
【請求項59】
入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出する方法であって、
前記入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得するステップと、
前記入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を、前記ゲイン値が定量的特徴値に定量的に依存するように、1つ以上の定量的特徴値の関数として決定するステップと、
前記時間‐周波数ドメイン表現の前記所定の周波数バンドを表したサブバンド信号を、前記時間変化するゲイン値によって重み付けするステップと、
を備える、周囲信号を抽出する方法。
【請求項60】
入力オーディオ信号から周囲信号を抽出するためのゲイン値の決定をパラメータ化するための重み付け係数を取得する方法であって、
前記係数決定信号のなかに存在する周囲成分についての情報、または、周囲成分と非周囲成分の関連性を記述する情報がわかるように、係数決定信号を取得するステップと、
前記係数決定信号の複数の特徴または特性を記述する複数の定量的特徴値の、前記重み付け係数による重み付け結合に基づいて取得されたゲイン値が、前記係数決定信号に関連づけられた予測ゲイン値を近似するように、前記重み付け係数を決定するステップと、
を備える、重み付け係数を取得する方法。
【請求項61】
コンピュータプログラムがコンピュータ上で動作するときに、請求項59または60に記載された方法を実行する、コンピュータプログラム。
【請求項1】
入力音声信号を、複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力音声信号の時間-周波数ドメイン表現に基づいて周囲信号を抽出する装置であって、
前記入力オーディオ信号に従って、前記入力オーディオ信号の時間-周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部と、
前記時間‐周波数ドメイン表現の前記所定の周波数バンドを表した前記サブバンド信号の1つを前記時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部と、
を備え、
前記ゲイン値決定部は、前記入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得し、前記ゲイン値が定量的特徴値に定量的に依存するように、前記ゲイン値を1つ以上の定量的特徴値の関数として提供するように構成され、
前記ゲイン値決定部は、前記重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるように前記ゲイン値を提供するように構成された、
周囲信号を抽出する装置。
【請求項2】
前記ゲイン値決定部は、前記入力オーディオ信号の時間‐周波数ドメイン表現に基づいて、前記時間変化するゲイン値を決定するように構成された、請求項1に記載の周囲信号を抽出する装置。
【請求項3】
前記ゲイン値決定部は、前記所定の周波数バンドを表したサブバンド信号の周囲らしさを記述する少なくとも1つの定量的特徴値を取得するように構成された、請求項1または2に記載の周囲信号を抽出する装置。
【請求項4】
前記ゲイン値決定部は、前記入力オーディオ信号の複数の異なる特徴または特性を記述する複数の異なる定量的特徴値を取得し、前記異なる定量的特徴値を結合し、前記一連の時間変化するゲイン値を取得するように構成された、請求項1〜3のいずれかに記載の周囲信号を抽出する装置。
【請求項5】
前記ゲイン値決定部は、前記異なる定量的特徴値を、重み付け係数によって異なって重み付けするように構成された、請求項4に記載の周囲信号を抽出する装置。
【請求項6】
前記ゲイン値決定部は、前記異なる定量的特徴値を非線形方法でスケーリングするように構成された、請求項4または5に記載の周囲信号を抽出する装置。
【請求項7】
前記ゲイン値決定部は、前記異なる特徴値を次の関係を用いて結合し、前記ゲイン値を取得するように構成された、請求項4〜6のいずれかに記載の周囲信号を抽出する装置。
ここで、ωは、サブバンド指標を示し、τは、時間指標を示し、iは、実行変数を示し、Kは、結合される特徴値の数を表し、mi(ω,τ)は、周波数指標ωと時間指標τを有するサブバンドのi番目の特徴値を示し、αiは、i番目の特徴値の線形重み付け係数を示し、βiは、i番目の特徴値の指数重み付け係数を示し、g(ω,τ)は、周波数指標ωと時間指標τを有するサブバンドのゲイン値を示す。
【請求項8】
前記ゲイン値決定部は、結合される異なる特徴の重みを調整するように構成された重み調整部を備える、請求項4〜7のいずれかに記載の周囲信号を抽出する装置。
【請求項9】
前記ゲイン値決定部は、少なくとも、前記入力オーディオ信号の音調を記述する音調特徴値と、前記入力オーディオ信号のサブバンド内のエネルギーを記述するエネルギー特徴値とを結合し、前記ゲイン値を取得するように構成された、請求項4〜8のいずれかに記載の周囲信号を抽出する装置。
【請求項10】
前記ゲイン値決定部は、少なくとも、前記音調特徴値と、前記エネルギー特徴値と、前記入力オーディオ信号のスペクトルまたは前記入力オーディオ信号のスペクトルの一部のスペクトル重心を記述するスペクトル重心特徴値とを結合し、前記ゲイン値を取得するように構成された、請求項9に記載の周囲信号を抽出する装置。
【請求項11】
前記ゲイン値決定部は、単一のオーディオ信号チャンネルの特徴を記述する少なくとも1つの定量的単一チャンネル特徴値を取得し、前記単一チャンネル特徴値を用いて前記ゲイン値を提供するように構成された、請求項1〜10のいずれかに記載の周囲信号を抽出する装置。
【請求項12】
前記ゲイン値決定部は、単一のオーディオチャンネルに基づいて前記ゲイン値を提供するように構成された、請求項1〜11のいずれかに記載の周囲信号を抽出する装置。
【請求項13】
前記ゲイン値決定部は、前記入力オーディオ信号を複数の周波数バンドを含む周波数範囲にわたって記述するマルチバンド特徴値を取得するように構成された、請求項1〜12のいずれかに記載の周囲信号を抽出する装置。
【請求項14】
前記ゲイン値決定部は、前記入力オーディオ信号を単一の周波数バンドを含む周波数範囲にわたって記述する狭帯域特徴値を取得するように構成された、請求項1〜13のいずれかに記載の周囲信号を抽出する装置。
【請求項15】
前記ゲイン値決定部は、前記入力オーディオ信号を前記時間‐周波数ドメイン表現の周波数バンドの全部を含む周波数範囲にわたって記述する広帯域特徴値を取得するように構成された、請求項1〜14のいずれかに記載の周囲信号を抽出する装置。
【請求項16】
前記ゲイン値決定部は、異なるバンド幅を有する前記入力オーディオ信号の部分を記述する異なる特徴値を結合し、前記ゲイン値を取得するように構成された、請求項1〜15のいずれかに記載の周囲信号を抽出する装置。
【請求項17】
前記ゲイン値決定部は、前記入力オーディオ信号の時間‐周波数ドメイン表現を非線形方法で前処理し、前記前処理された時間‐周波数ドメイン表現に基づいて定量的特徴値を取得するように構成された、請求項1〜16のいずれかに記載の周囲信号を抽出する装置。
【請求項18】
前記ゲイン値決定部は、前記取得された特徴値を非線形方法で後処理し、前記特徴値の値の範囲を制限し、後処理された特徴値を取得するように構成された、請求項1〜17のいずれかに記載の周囲信号を抽出する装置。
【請求項19】
前記ゲイン値決定部は、前記時間‐周波数ドメイン表現の異なる時間‐周波数ビンに関連づけられた同一の特徴または特性を記述する複数の特徴値を結合し、結合された特徴値を取得するように構成された、請求項1〜18のいずれかに記載の周囲信号を抽出する装置。
【請求項20】
前記ゲイン値決定部は、前記入力オーディオ信号の音調を記述する定量的特徴値を取得し、前記ゲイン値を決定するように構成された、請求項1〜19のいずれかに記載の周囲信号を抽出する装置。
【請求項21】
前記ゲイン値決定部は、音調を記述する定量的特徴値として、
スペクトル平坦性尺度、
スペクトル波高係数、
前記入力オーディオ信号のスペクトルのコピーの異なる非線形処理を用いて取得された少なくとも2つのスペクトル値の比率、
前記入力信号のスペクトルのコピーの異なる非線形フィルタを用いて取得された少なくとも2つのスペクトル値の比率、
スペクトルピークの存在を示す値、
前記入力オーディオ信号と前記入力オーディオ信号の時間シフトされたバージョンの間の類似性を記述する類似性値、
前記時間‐周波数ドメイン表現の予測スペクトル係数と前記時間‐周波数ドメイン表現の実際のスペクトル係数の差分を記述する予測誤差値、
のいずれかを取得するように構成された、請求項20に記載の周囲信号を抽出する装置。
【請求項22】
前記ゲイン値決定部は、前記入力オーディオ信号のサブバンド内のエネルギーを記述する少なくとも1つの定量的特徴値を取得し、前記ゲイン値を決定するように構成された、請求項1〜21のいずれかに記載の周囲信号を抽出する装置。
【請求項23】
前記ゲイン値決定部は、前記時間‐周波数ドメイン表現の所定の時間‐周波数ビンの前記ゲイン値が前記所定の時間‐周波数ビンのエネルギーの増加、または、前記所定の時間‐周波数ビンの近傍内の時間‐周波数ビンのエネルギーの増加と共に減少するように、前記ゲイン値を決定するように構成された、請求項22に記載の周囲信号を抽出する装置。
【請求項24】
前記ゲイン値決定部は、所定の時間‐周波数ビンのエネルギーと、前記所定の時間‐周波数ビンの予め定められた近傍の最大エネルギーまたは平均エネルギーを、分離した特徴として取り扱うように構成された、請求項22または23に記載の周囲信号を抽出する装置。
【請求項25】
前記ゲイン値決定部は、前記所定の時間‐周波数ビンのエネルギーを記述する第1の定量的特徴値と、前記所定の時間‐周波数ビンの予め定められた近傍の最大エネルギーまたは平均エネルギーを記述する第2の定量的特徴値とを取得し、前記第1の定量的特徴値と前記第2の定量的特徴値を結合し、前記ゲイン値を取得するように構成された、請求項24に記載の周囲信号を抽出する装置。
【請求項26】
前記ゲイン値決定部は、前記入力オーディオ信号の2つ以上のチャンネル間の関連性を記述する1つ以上の定量的チャンネル関連値を取得するように構成された、請求項1〜25のいずれかに記載の周囲信号を抽出する装置。
【請求項27】
前記1つ以上の定量的チャンネル関連値のうちの1つは、前記入力オーディオ信号の2つのチャンネル間の相関性または整合性を記述する、請求項26に記載の周囲信号を抽出する装置。
【請求項28】
前記1つ以上の定量的チャンネル関連値のうちの1つは、チャンネル間の短時間整合性を記述する、請求項26または27に記載の周囲信号を抽出する装置。
【請求項29】
前記1つ以上の定量的チャンネル関連値のうちの1つは、前記入力オーディオ信号の2つ以上のチャンネルに基づいて音源の位置を記述する、請求項26〜28のいずれかに記載の周囲信号を抽出する装置。
【請求項30】
前記1つ以上の定量的チャンネル関連値のうちの1つは、前記入力オーディオ信号の2つ以上のチャンネルの間のチャンネル間レベル差を記述する、請求項29に記載の周囲信号を抽出する装置。
【請求項31】
前記ゲイン値決定部は、前記1つ以上の定量的チャンネル関連値のうちの1つとして、パニング指標を取得するように構成された、請求項26〜30のいずれかに記載の周囲信号を抽出する装置。
【請求項32】
前記ゲイン値決定部は、所定の時間‐周波数ビンのスペクトル値差分とスペクトル値総計の間の比率を決定し、前記所定の時間‐周波数ビンのパニング指標を取得するように構成された、請求項31に記載の周囲信号を抽出する装置。
【請求項33】
前記ゲイン値決定部は、前記入力オーディオ信号のスペクトルまたは前記入力オーディオ信号のスペクトルの一部のスペクトル重心を記述するスペクトル重心特徴値を取得するように構成された、請求項1〜32のいずれかに記載の周囲信号を抽出する装置。
【請求項34】
前記ゲイン値決定部は、前記時間‐周波数ドメイン表現によって表された複数のサブバンド信号に従って、前記サブバンド信号の所定の1つを重み付けするためのゲイン値を提供するように構成された、請求項1〜33のいずれかに記載の周囲信号を抽出する装置。
【請求項35】
前記重み付け部は、サブバンドのグループを共通の一連の時間変化するゲイン値によって重み付けするように構成された、請求項1〜34のいずれかに記載の周囲信号を抽出する装置。
【請求項36】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、周囲‐直接比率を強化し、周囲‐直接比率が強化された後処理された信号を取得するように構成された信号後処理部を更に備える、請求項1〜35のいずれかに記載の周囲信号を抽出する装置。
【請求項37】
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号のなかの大きな音を静かな音を保存しながら減衰させ、前記後処理された信号を取得するように構成された、請求項36に記載の周囲信号を抽出する装置。
【請求項38】
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号に対して非線形圧縮を適用するように構成された、請求項36または37に記載の周囲信号を抽出する装置。
【請求項39】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号を2ミリ秒から70ミリ秒の範囲で遅延させ、前記重み付けられたサブバンド信号に基づいて正面信号と周囲信号の間の遅延を取得するように構成された、
請求項1〜38のいずれかに記載の周囲信号を抽出する装置。
【請求項40】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記後処理部は、前記重み付けられたサブバンド信号に基づく周囲信号表現に関して周波数依存イコライズを実行し、前記周囲信号表現の音色呈色に反対に作用するように構成された、
請求項1〜39のいずれかに記載の周囲信号を抽出する装置。
【請求項41】
前記後処理部は、前記重み付けられたサブバンド信号に基づく周囲信号表現に関して周波数依存イコライズを実行し、前記後処理された周囲信号表現としてイコライズされた周囲信号を取得するように構成され、
前記後処理部は、前記イコライズされた周囲信号表現の長期間パワースペクトル密度を前記入力オーディオ信号に適応させるために周波数依存イコライズを実行するように構成された、
請求項40に記載の周囲信号を抽出する装置。
【請求項42】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記信号後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号の過渡状態を低減するように構成された、
請求項1〜41のいずれかに記載の周囲信号を抽出する装置。
【請求項43】
前記重み付けられたサブバンド信号またはそれに基づく信号を後処理し、後処理された信号を取得するように構成された信号後処理部を更に備え、
前記後処理部は、前記重み付けられたサブバンド信号またはそれに基づく信号に基づいて、左側周囲信号と右側周囲信号を、前記左側周囲信号と前記右側周囲信号が少なくとも部分的に非相関化されるように取得するように構成された、
請求項1〜42のいずれかに記載の周囲信号を抽出する装置。
【請求項44】
前記入力オーディオ信号に基づいて正面信号をも提供するように構成され、
前記重み付け部は、前記時間‐周波数ドメイン表現の前記所定の周波数バンドを表したサブバンド信号のうちの1つを時間変化する正面信号のゲイン値によって重み付けし、重み付けられた正面信号のサブバンド信号を取得するように構成され、
前記重み付け部は、前記時間変化する正面信号のゲイン値が周囲信号のゲイン値の増加と共に減少するように構成された、
請求項1〜43のいずれかに記載の周囲信号を抽出する装置。
【請求項45】
前記重み付け部は、前記正面信号のゲイン値が前記周囲信号のゲイン値に対して相補的であるように前記時間変化する正面信号のゲイン値を提供するように構成された、請求項44に記載の周囲信号を抽出する装置。
【請求項46】
周囲信号の時間ドメイン表現を、前記1つ以上の重み付けられたサブバンド信号に従って提供するように構成された時間‐周波数ドメインから時間ドメインへの変換部を備える、請求項1〜45のいずれかに記載の周囲信号を抽出する装置。
【請求項47】
前記周囲信号を、モノラル入力オーディオ信号に基づいて抽出するように構成された、請求項1〜46のいずれかに記載の周囲信号を抽出する装置。
【請求項48】
1つ以上の入力オーディオ信号に基づいて、少なくとも1つの周囲信号を含むマルチチャンネルオーディオ信号を提供するマルチチャンネルオーディオ信号発生装置であって、
前記入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出するように構成された周囲信号抽出部と、
重み付けられたサブバンド信号に基づいて1つ以上の周囲信号を提供するように構成された周囲信号提供部と、
を備え、
前記周囲信号抽出部は、
前記入力オーディオ信号に従って、前記入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を決定するように構成されたゲイン値決定部と、
前記時間‐周波数ドメイン表現の所定の周波数バンドを表したサブバンド信号の1つを前記時間変化するゲイン値によって重み付けし、重み付けられたサブバンド信号を取得するように構成された重み付け部と、を備え、
前記ゲイン値決定部は、前記入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得し、前記ゲイン値が前記定量的特徴値に定量的に依存するように、前記ゲイン値を1つ以上の定量的特徴値の関数として提供するように構成され、
前記ゲイン値決定部は、前記重み付けられたサブバンド信号のなかの周囲成分が非周囲成分を超えて強調されるように前記ゲイン値を提供するように構成された、
マルチチャンネルオーディオ信号発生装置。
【請求項49】
1つ以上の周囲信号を1つ以上の後方チャンネルオーディオ信号として提供するように構成された、請求項48に記載のマルチチャンネルオーディオ信号発生装置。
【請求項50】
1つ以上の入力オーディオ信号に基づいて1つ以上の正面チャンネルオーディオ信号を提供するように構成された、請求項48または49に記載のマルチチャンネルオーディオ信号発生装置。
【請求項51】
入力オーディオ信号から周囲信号を抽出するゲイン値決定部をパラメータ化するための重み付け係数を取得する装置であって、
係数決定入力オーディオ信号の複数の特徴または特性を記述する複数の定量的特徴値の、前記重み付け係数を用いた重み付け結合に基づいて取得されたゲイン値が、前記係数決定オーディオ信号に関連づけられた予測ゲイン値を近似するように、前記重み付け係数を決定するように構成された重み付け係数決定部を備える、
重み付け係数を取得する装置。
【請求項52】
無視できる周囲信号成分のみを含む基準オーディオ信号に基づいて前記係数決定信号を提供するように構成された係数決定信号生成部を備え、
前記係数決定信号生成部は、前記基準オーディオ信号を周囲信号成分と結合し、前記係数決定信号を取得し、かつ、
前記周囲信号成分、または、前記周囲信号成分と前記基準オーディオ信号の直接信号成分との関連性を記述する情報を前記重み付け係数決定部に提供し、前記予測ゲイン値を記述するように構成された、請求項51に記載の重み付け係数を取得する装置。
【請求項53】
前記係数決定信号生成生部は、前記周囲信号成分を前記基準オーディオ信号に基づいて提供するように構成された周囲信号生成部を備える、請求項52に記載の重み付け係数を取得する装置。
【請求項54】
マルチチャンネル基準オーディオ信号に基づいて前記係数決定信号と前記予測ゲイン値を記述する情報を提供するように構成された係数決定信号生成部を備え、
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の2つ以上のチャンネル間の関連性を記述する情報を決定し、前記予測ゲイン値を記述する情報を提供するように構成された、請求項51〜53のいずれかに記載の重み付け係数を取得する装置。
【請求項55】
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の2つ以上のチャンネル間の相関を記述する相関ベースの定量的特徴値を決定し、前記予測ゲイン値を記述する情報を提供するように構成された、請求項54に記載の重み付け係数を取得する装置。
【請求項56】
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の1つのチャンネルを、前記係数決定信号として提供するように構成された、請求項54または55に記載の重み付け係数を取得する装置。
【請求項57】
前記係数決定信号生成部は、前記マルチチャンネル基準オーディオ信号の2つ以上のチャンネルを結合し、前記係数決定信号を取得するように構成された、請求項54〜56のいずれかに記載の重み付け係数を取得する装置。
【請求項58】
前記重み付け係数決定部は、前記重み付け係数を、回帰法、類別法、またはニューラルネットを用いて決定するように構成され、前記係数決定信号はトレーニング信号として用いられ、前記予測ゲイン値は基準値として役立ち、前記係数が決定される、請求項51〜57のいずれかに記載の重み付け係数を取得する装置。
【請求項59】
入力オーディオ信号を複数の周波数バンドを記述する複数のサブバンド信号に関して表した入力オーディオ信号の時間‐周波数ドメイン表現に基づいて周囲信号を抽出する方法であって、
前記入力オーディオ信号の1つ以上の特徴または特性を記述する1つ以上の定量的特徴値を取得するステップと、
前記入力オーディオ信号の時間‐周波数ドメイン表現の所定の周波数バンドに対する一連の時間変化する周囲信号のゲイン値を、前記ゲイン値が定量的特徴値に定量的に依存するように、1つ以上の定量的特徴値の関数として決定するステップと、
前記時間‐周波数ドメイン表現の前記所定の周波数バンドを表したサブバンド信号を、前記時間変化するゲイン値によって重み付けするステップと、
を備える、周囲信号を抽出する方法。
【請求項60】
入力オーディオ信号から周囲信号を抽出するためのゲイン値の決定をパラメータ化するための重み付け係数を取得する方法であって、
前記係数決定信号のなかに存在する周囲成分についての情報、または、周囲成分と非周囲成分の関連性を記述する情報がわかるように、係数決定信号を取得するステップと、
前記係数決定信号の複数の特徴または特性を記述する複数の定量的特徴値の、前記重み付け係数による重み付け結合に基づいて取得されたゲイン値が、前記係数決定信号に関連づけられた予測ゲイン値を近似するように、前記重み付け係数を決定するステップと、
を備える、重み付け係数を取得する方法。
【請求項61】
コンピュータプログラムがコンピュータ上で動作するときに、請求項59または60に記載された方法を実行する、コンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8a】
【図8b】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15a】
【図15b】
【図16】
【図17】
【図18a】
【図18b】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8a】
【図8b】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15a】
【図15b】
【図16】
【図17】
【図18a】
【図18b】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【公表番号】特表2010−541350(P2010−541350A)
【公表日】平成22年12月24日(2010.12.24)
【国際特許分類】
【出願番号】特願2010−526171(P2010−526171)
【出願日】平成20年3月26日(2008.3.26)
【国際出願番号】PCT/EP2008/002385
【国際公開番号】WO2009/039897
【国際公開日】平成21年4月2日(2009.4.2)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】
【公表日】平成22年12月24日(2010.12.24)
【国際特許分類】
【出願日】平成20年3月26日(2008.3.26)
【国際出願番号】PCT/EP2008/002385
【国際公開番号】WO2009/039897
【国際公開日】平成21年4月2日(2009.4.2)
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】
[ Back to top ]