説明

マルチチャネル脱相関を使った改善されたマルチチャネル上方混合

線形の式の系を使って、N個のオーディオ信号を上方混合して、互いに音響心理学的に脱相関された、拡散音場の表現を改善するために使用できる、より多数のM個のオーディオ信号を生成する。線形の式は、M次元空間における、互いに実質的に直交するベクトルの集合を指定する行列によって定義される。線形の式の系を導出する方法が開示される。

【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願はここに参照によってその全体において組み込まれる、2010年1月22日に出願された米国仮特許出願第61/297,699号の優先権を主張する。
【0002】
技術分野
本発明は概括的にはオーディオ信号の信号処理に関し、より詳細には拡散音場(diffuse sound field)を表すオーディオ信号を生成するために使用されうる信号処理技法に関する。これらの信号処理技法は、上方混合のようなオーディオ用途において使用されうる。上方混合(upmixing)は、ある数の出力チャネル信号を、より少数の入力チャネル信号から導出するものである。
【背景技術】
【0003】
本発明は、上方混合から得られるオーディオ信号の品質を改善するために使用されうる。しかしながら、本発明は、拡散音場を表す一つまたは複数のオーディオ信号を必要とする本質的にいかなる用途と一緒にも有利に使用されうる。以下の記述では、上方混合の用途が特に言及される。
【0004】
上方混合として知られるプロセスは、ある数Mのオーディオ信号チャネルを、より少数Nのオーディオ信号チャネルから導出する。たとえば、左(L)、右(R)、中央(C)、左サラウンド(LS)および右サラウンド(RS)として示される五つのチャネルについてのオーディオ信号が、ここで左入力(Li)および右入力(Ri)として示される二つの入力チャネルについてのオーディオ信号を上方混合することによって得られる。上方混合装置の一例は、非特許文献1に記載されるドルビー(登録商標)プロロジック(登録商標)IIデコーダである。この特定の技術を使う上方混合器は、二つの入力信号チャネルの位相および振幅を解析して、それらの入力信号が表す音場がどのように聴取者に方向性の印象を伝達するよう意図されているかを判別する。入力オーディオ信号の所望される芸術的効果に依存して、上方混合器は、見かけの方向をもたない取り巻く拡散音場の中における、見かけの方向をもつ一つまたは複数の聴覚成分の感覚を聴取者に与えるよう、五つのチャネル用の出力信号を生成することができるべきである。本発明は、一つまたは複数の音響トランスデューサを通じてより高い品質をもつ拡散音場を生成できる、一つまたは複数のチャネルのための出力オーディオ信号を生成することに向けられる。
【0005】
拡散音場を表すよう意図されたオーディオ信号は、聴取者において、音が聴取者のまわりの、全方向ではないまでも多くの方向から発しているという印象を創り出すべきである。この効果は、二つのラウドスピーカーのそれぞれを通じて同じオーディオ信号を再生することによって二つのラウドスピーカーの間にファントム像、すなわち音の見かけの方向を生成するよく知られた現象とは反対である。高品質の拡散音場は典型的には、聴取者のまわりに位置する複数のラウドスピーカーを通じて同じオーディオ信号を再生することによって生成することはできない。結果として得られる音場は、種々の聴取位置において大きく変化する振幅をもち、該振幅はしばしば位置がごくわずかに変化しても大きく変化する。聴取エリア内のある種の位置が、一方の耳には音がないように思えるが、他方の耳にはそうではないということもめずらしくない。結果として得られる音場は人工的に思われる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Gundry, "A New Active Matrix Decoder for Surround Sound", 19th AES Conference, May 2001
【発明の概要】
【発明が解決しようとする課題】
【0007】
ラウドスピーカーのような音響トランスデューサを通じてより高品質の拡散音場を生成するために使用できる、二つ以上のチャネルのオーディオ信号を導出するためのオーディオ信号処理技法を提供することが本発明の一つの目的である。
【課題を解決するための手段】
【0008】
本発明のある側面によれば、拡散音場の呈示のために、N個の入力オーディオ信号からM個の出力信号が導出される。ここでMはNより大きく、2より大きい。これは、N個の入力オーディオ信号からK個の中間オーディオ信号を、各中間信号が音響心理学的にN個の入力オーディオ信号と脱相関され、Kが1より大きい場合には音響心理学的に他のすべての中間信号と脱相関されるよう導出することによって行われる。N個の入力オーディオ信号およびK個の中間信号は混合されて、M次元空間においてN+K個のベクトルの集合を指定する行列の係数をもつ線形の式の系(system of linear equations)に従ってM個の出力オーディオ信号を導出する。N+K個のベクトルの少なくともK個は前記集合中の他のすべてのベクトルと実質的に直交である。量Kは1以上、M−N以下である。
【0009】
本発明のもう一つの側面によれば、N個の入力オーディオ信号を混合して拡散音場の呈示のためのM個の出力オーディオ信号を導出することにおいて使うための線形の式の系のための係数の行列が得られる。これは、M次元空間においてN個の第一のベクトルの集合を指定する係数をもつ第一の行列を得;前記M次元空間におけるK個の第二のベクトルの集合を導出し、各第二のベクトルは各第一のベクトルと、そしてKが1より大きい場合には他のすべての第二のベクトルと実質的に直交であり;K個の第二のベクトルの集合を指定する係数をもつ第二の行列を得;第一の行列を第二の行列と連結して、N個の第一のベクトルの前記集合およびK個の第二のベクトルの前記集合の和集合を指定する係数をもつ中間行列を得;好ましくは、中間行列の係数をスケーリングして、第一の行列のフロベニウス・ノルムの10%以内のフロベニウス・ノルムをもつ信号処理行列を得ることによって行われる。ここで、信号処理行列の係数が前記線形の式の系の係数である。
【0010】
本発明のさまざまな特徴およびその好ましい実施形態は、以下の議論および付属の図面を参照することによってよりよく理解されうる。いくつかの図面において、同様の参照符号は同様の要素を指す。以下の議論および図面の内容は、単に例として記載されるのであって、本発明の範囲に対する限定を表すものと理解すべきではない。
【図面の簡単な説明】
【0011】
【図1】本発明の諸側面を組み込みうるオーディオ信号処理装置のブロック概略図である。
【図2】基礎上方混合行列の概略図である。
【図3】増強上方混合行列と連結された基礎上方混合行列の概略図である。
【図4】遅延要素を使う信号脱相関器の概略図である。
【図5】同相の双峰(bimodal)周波数依存変化をもつサブバンド・フィルタおよび周波数依存遅延をもつサブバンド・フィルタを使う信号脱相関器の概略図である。
【図6】本発明のさまざまな側面を実装するために使用されうる装置のブロック概略図である。
【発明を実施するための形態】
【0012】
〈A.序〉
図1は、本発明の諸側面を組み込みうる装置10のブロック概略図である。装置10は、信号経路19から一つまたは複数の入力チャネルについてのオーディオ信号を受け取り、複数の出力チャネルのために、信号経路59に沿ってオーディオ信号を生成する。信号経路19に交わる短い線および他の信号経路に交わる短い線は、これらの信号経路が一つまたは複数のチャネルのための信号を伝達することを示す。短い交わる線のすぐ下の記号NおよびMは、それぞれN個およびM個のチャネルのための信号を担うことを示している。短い交わる線のいくつかのすぐ下の記号xおよびyは、それぞれの信号経路が担う信号の数が指定されておらず、本発明の理解のために重要でないことを示す。
【0013】
装置10では、入力信号解析器20は信号経路19から一つまたは複数の入力チャネルについてのオーディオ信号を受け取り、それらを解析して入力信号のどの部分が拡散でない音場を表すかを判別する。拡散音場は、音が聴取者のまわりの全方向ではないまでも多くの方向から発しているという印象を聴取者において創り出す。非拡散音場は、音が特定の方向からまたは比較的狭い範囲の方向から発しているという印象を創り出す。拡散音場と非拡散音場の区別は主観的であり、必ずしも確定的でないことがある。これは、本発明の諸側面を用いる実際上の実装のパフォーマンスに影響することがあるが、本発明の根底にある原理は影響しない。
【0014】
非拡散音場を表すと見なされる入力オーディオ信号の部分は、信号経路28に沿って、非拡散信号プロセッサ30に渡される。非拡散信号プロセッサ30は信号経路39に沿って、ラウドスピーカーのような複数の音響トランスデューサを通じて非拡散音場を再生するよう意図されたM個の信号の組を生成する。この型の処理を実行する上方混合装置の一例は上述したドルビー・プロロジックIIデコーダである。
【0015】
拡散音場を表すと見なされる入力オーディオ信号の部分は、信号経路29に沿って、拡散信号プロセッサ50に渡される。拡散信号プロセッサ40は信号経路49に沿って、ラウドスピーカーのような複数の音響トランスデューサを通じて拡散音場を再生するよう意図されたM個の信号の組を生成する。本発明は、拡散信号プロセッサ40において実行される処理に向けられる。
【0016】
加算コンポーネント50は、非拡散信号プロセッサ30からのM個の信号のそれぞれを、拡散信号プロセッサ40からのM個の信号のそれぞれと組み合わせて、M個の出力チャネルのうちのそれぞれについてのオーディオ信号を生成する。各出力チャネルについてのオーディオ信号は、ラウドスピーカーのような音響トランスデューサを駆動することが意図される。
【0017】
本発明は、線形の混合の式の系を開発し、使って、拡散音場を表すことのできるオーディオ信号の組を生成することに向けられる。上記の混合方程式は、たとえば拡散信号プロセッサ40において使用されてもよい。本開示の残りは、数Nが1以上であり、数Mは3以上であり、数Mは数Nより大きいことを想定する。
【0018】
装置10は単に、本発明がどのように使用されうるかの一例である。本発明は、図1に示されるものとは機能または構造において異なる他の装置に組み込まれてもよい。たとえば、音場の拡散部分および非拡散部分の両方を表す信号が単一のコンポーネントによって処理されてもよい。行列によって定義される線形の式の系に従って信号を混合する、特徴的な拡散信号プロセッサ40についての若干の実装が以下に記載される。拡散信号プロセッサ40および非拡散信号プロセッサ30の両方についてのプロセスのさまざまな部分は、単一の行列によって定義される線形の式の系によって実装されることができる。さらに、本発明の諸側面は、入力信号解析器20、非拡散信号プロセッサ30または加算コンポーネント50をも組み込むことはなく、ある装置中に組み込まれてもよい。
【0019】
〈B.第一の導出方法〉
拡散信号プロセッサ40は、経路49に沿って、線形の式の系に従って経路29から受け取られたNチャネルのオーディオ信号を混合することによって、M個の信号の組を経路49に沿って生成する。以下の議論の記述の簡単のため、経路29から受け取られたNチャネルのオーディオ信号の部分は中間入力信号と称され、経路49に沿って生成される中間信号のM個のチャネルは中間出力信号と称される。この混合動作は、式(1)に示されるような行列乗算によって表現されうる線形の式の系の使用を含む。
【0020】
【数1】

ここで、X(→付き)=N個の中間入力信号から得られるN+K個の信号を表す列ベクトル;
C=混合係数のM×(N+K)の行列または配列;
Y(→付き)=M個の中間出力信号を表す列ベクトル、である。
混合処理は、時間領域または周波数領域で表される信号に対して実行されうる。以下の議論は、時間領域での実装に特に言及する。
【0021】
望むなら、同じ線形の混合する式の系が、上記のベクトルと行列を次のように転置することによって表現できる。
【0022】
【数2】

ここで、X(→付き)T=N個の中間入力信号から得られるN+K個の信号を表す行ベクトル;
C=行列Cの(N+K)×Mの転置;
Y(→付き)T=M個の中間出力信号を表す行ベクトル、である。
【0023】
以下の記述は、式(1)と整合する行および列のような記法および用語を使うが、本発明の原理は式(2)または明示的な線形変換式系のような他の形または表現を使って導出および適用されてもよい。
【0024】
式(1)に示されるように、Kは1以上であり、差(M−N)以下である。結果として、信号Xiの数および行列Cにおける列数はN+1からMまでの間である。
【0025】
行列Cの係数は、M次元空間における、互いに「実質的に直交な」N+K個の大きさが1のベクトルの集合から得られてもよい。二つのベクトルが互いに実質的に直交であると考えられるのは、両者のドット積が両者の大きさの積の35%より小さい場合である。これは、ベクトル間の角度が約70°から約110°であることに対応する。行列Cにおける各列は、前記集合中のベクトルのうちの一つのベクトルの要素に対応するM個の係数を有していてもよい。たとえば、行列Cの第一列にある係数は、要素が(V1,…,VM)と表される前記集合のベクトルVの一つに対応し、C1,1=pV1、……、CM,1=pVMとなる。ここで、pは所望に応じて行列係数をスケーリングするために使用されるスケール因子である。あるいはまた、行列Cの各列jの係数は異なるスケール因子pjによってスケーリングされてもよい。多くの応用では、係数は、行列のフロベニウス・ノルムが√Nの10%以内となるようスケーリングされる。スケーリングのさらなる側面はのちに論じる。
【0026】
N+K個のベクトルの集合は、所望されうるいかなる方法で導出されてもよい。一つの方法は、ガウス分布をもつ擬似乱数をもつ係数のM×M行列Gを生成し、この行列の特異値分解を計算して、ここでU、SおよびVと記される三つのM×M行列を得る。U行列およびV行列はいずれもユニタリー行列である。C行列は、U行列またはV行列のいずれかからN+K個の列を選択し、これらの列の係数を√Nの10%以内のフロベニウス・ノルムを達成するようスケーリングすることによって得ることができる。
【0027】
N+K個の入力信号は、N個の中間入力信号を互いに関して脱相関することによって得られる。所望される脱相関の型は本稿では「音響心理学的脱相関(psychoacoustic decorrelation)」と称される。音響心理学的脱相関は、二つの信号が互いにある程度の数値的な相関をもっていても音響心理学的に脱相関していると考えてもよいという意味で、数値的な脱相関ほど厳格ではない。
【0028】
二つの信号の数値的な相関は、多様な既知の数値的なアルゴリズムを使って計算できる。これらのアルゴリズムは、マイナス1からプラス1の間で変化する相関係数と呼ばれる数値的な相関の指標を与える。1に等しいまたは1に近い絶対値をもつ相関係数は、二つの信号が密接に関係していることを示す。0に等しいまたは0に近い絶対値をもつ相関係数は二つの信号が互いにほぼ独立であることを示す。
【0029】
音響心理学的相関(psychoacoustical correlation)は、いわゆる臨界帯域幅(critical bandwidth)をもつ諸周波数サブバンドを横断して存在するオーディオ信号の相関属性をいう。人間の聴覚系の周波数分解能は、可聴スペクトルを通じて周波数とともに変化する。人間の耳は、約500Hzより低い低周波数では周波数において密集したスペクトル成分を聞き分けることができるが、周波数が可聴限界に向けて高くなるにつれそれほど密接したスペクトル成分を聞き分けることはできなくなる。この周波数分解能の幅が臨界帯域幅と称され、たった今説明したように、周波数とともに変化する。
【0030】
二つの信号は、音響心理学的な諸臨界帯域幅を横断する平均数値相関係数が0に等しいまたは0に近い場合に、互いに対して音響心理学的に脱相関していると言われる。音響心理学的脱相関は、二つの信号の間の数値的な相関係数がすべての周波数において0に等しいか0に近い場合に、達成される。音響心理学的脱相関はまた、二つの信号の間の数値的な相関係数がすべての周波数において0に等しいか0に近いのでない場合でも、数値的な相関が、各音響心理学的な臨界帯域を横断してのその平均がその臨界帯域内の任意の周波数についての最大相関係数の半分未満であれば、達成される。
【0031】
音響心理学的な脱相関は、遅延または特殊な型のフィルタを使って達成できる。それについて下記で述べる。多くの実装において、N+K個の信号XiのうちN個は、音響心理学的脱相関を達成するための遅延やフィルタを全く使うことなく、N個の中間入力信号から直接取ることができる。これらのN個の信号は、拡散音場を表し、すでに音響心理学的に脱相関されている可能性が高いからである。
【0032】
〈C.改善された導出方法〉
拡散信号プロセッサ40によって生成される信号が、たとえば図1に示されるような非拡散音場を表す信号と組み合わされる場合、行列Cが上記の方法を使って設計されると、結果として得られる信号の組み合わせは、望ましくないアーチファクトを生成することがある。これらのアーチファクトは、行列Cの設計が、音場の拡散部分と非拡散部分との間の可能な相互作用を考慮しなかったために生じる可能性がある。上述したように、拡散と非拡散の区別は必ずしも確定的ではなく、入力信号解析器20は、ある程度拡散音場を表す信号を経路28に沿って生成してもよく、ある程度非拡散音場を表す信号を経路29に沿って生成してもよい。拡散信号生成器40が経路29上の信号によって表される音場の非拡散的な性質を破壊または修正するならば、経路59に沿って生成される出力信号から生成される音場において、望ましくないアーチファクトまたは耳に聞こえる歪みが生じることがある。たとえば、経路49上のM個の拡散処理済み信号の、経路39上のM個の非拡散処理済み信号との和が、いくつかの非拡散信号成分の打ち消しを引き起こすなら、これは、本発明の使用によって達成されたはずの主観的な印象を劣化させることがありうる。
【0033】
改善は、非拡散信号プロセッサ30によって処理される音場の非拡散性を取り入れるよう行列Cを設計することによって達成されうる。これは、オーディオ信号のM個のチャネルを処理して経路19から受け取られる入力オーディオ信号のN個のチャネルを生成するエンコード処理を表すまたは表すと想定される行列Eを同定し、次いでこの行列の逆を導出することによってできる。これについてはのちに論じる。
【0034】
行列Eの一つの例は、五つのチャネルL、C、R、LS、RSを、左合計(LT)および右合計(RT)と表される二つのチャネルに下方混合するために使われる5×2行列である。LTおよびRTチャネルは、経路19から受け取られる二つの(N=2)チャネルのための入力オーディオ信号の一例である。この例において、装置10は、もとの五つのオーディオ信号から創り出されたはずの音場と同一でないまでも知覚的に類似した音場を創り出すことができる五つの(M=5)チャネルの出力オーディオ信号を合成するために使用されうる。
【0035】
L、C、R、LSおよびRSチャネル信号からLTおよびRTチャネル信号をエンコードするために使用されうる一つの例示的な5×2行列Eは次式で示される。
【0036】
【数3】

M×Nの擬似逆行列Bは通例、既知の数値的技法を使ってN×M行列Eから導出できる。既知の数値的技法は、米国マサチューセッツ州ネーティックのMathWorks(商標)から市販されているMatlab(登録商標)における「pinv」関数または米国イリノイ州シャンペーンのWolfram Researchから市販されているMathematica(登録商標)の「PseudoInverse」関数のような数値ソフトウェアで実装されているものを含む。行列Bは、その係数が、チャネルのいずれかの間の望ましくない漏話を生成する場合、あるいはいずれかの係数が虚数もしくは複素数になる場合、最適でないことがある。行列Bは、これらの望ましくない特性を取り除くよう修正されることができる。行列Bはまた、選択されたラウドスピーカーのための信号を強調するよう係数を変更することによって任意の所望される芸術的効果を達成するよう修正されることもできる。たとえば、左および右チャネルのためのラウドスピーカーを通じた再生を目的とする信号におけるエネルギーを増大させ、中央チャネルのためのラウドスピーカーを通じた再生を目的とする信号におけるエネルギーを減少させるよう変更されることができる。行列Bの係数は、該行列の各列がM次元空間における大きさが1のベクトルを表すようスケーリングされる。行列Bの列によって表されるベクトルは、互いに実質的に直交である必要はない。
【0037】
一つの例示的な5×2行列Bは次式で示される。
【0038】
【数4】

この行列は、次の演算によってN個の中間入力信号からM個の中間出力信号の組を生成するために使用されうる。
【0039】
【数5】

この演算は、図2に概略的に示されている。混合器41は信号経路29−1および29−2からN個の中間入力信号を受け取り、これらの信号を線形の式の系に従って混合し、信号経路49−1ないし49−5に沿ったM個の中間出力信号の組を生成する。混合器41内の四角は、上記線形の式の系に基づく行列Bの係数による信号乗算または増幅を表す。
【0040】
行列Bは単独で使用されることができるが、追加的なM×K増強(augmentation)行列Aを使うことによってパフォーマンスが改善される。ここで、1≦K≦(M−N)である。行列Aの各列は、B行列のN個の列によって表されるベクトルに実質的に直交する、M次元空間内の大きさが1のベクトルを表す。Kが1より大きい場合、各列は、行列A内の他のすべての列によって表されるベクトルにも実質的に直交するベクトルを表す。
【0041】
行列Aの列についてのベクトルは、本質的には、所望されうるいかなる方法で導出されてもよい。上述した技法が使用されてもよい。ある好ましい方法を以下に述べる。
【0042】
増強行列Aおよび行列Bの係数は、以下に説明されるようにスケーリングされ、連結されて行列Cを生成してもよい。スケーリングおよび連結は、代数的に
C=[β・B|α・A] (6)
と表現されてもよい。ここで、|は行列Bと行列Aの諸列の水平方向の連結を表し;
α=行列Aの係数についてのスケール因子;
β=行列Bの係数についてのスケール因子、である。
【0043】
多くの用途について、スケール因子αおよびβは、複合行列Cのフロベニウス・ノルムが行列Bのフロベニウス・ノルムの10%以内になるよう選ばれる。行列Cのフロベニウス・ノルムは次のように表されてもよい。
【0044】
【数6】

ここで、ci,j=行iおよび列jの行列係数である。
【0045】
行列BのN個の列のそれぞれおよび行列AのK個の列のそれぞれが単位大きさのベクトルを表すならば、行列Bのフロベニウス・ノルムは√Nに等しく、行列Aのフロベニウス・ノルムは√Kに等しい。この場合、行列Cのフロベニウス・ノルムが√Nに等しく設定されると、スケール因子αおよびβについての値は次式に示されるように互いに関係付けられることを示せる。
【0046】
【数7】

スケール因子βの値を設定したのち、スケール因子αの値は式(7)から計算できる。好ましくは、スケール因子βは、行列Bの諸列の係数によって混合された信号が、増強行列Aの諸列の係数によって混合された信号より、少なくとも5dB大きな重みを与えられるよう選択される。少なくとも6dBの重みの差は、両スケール因子を、α<(1/2)βとなるよう制約ことによって達成できる。オーディオ・チャネル間の所望される音響バランスを達成するために、行列Bおよび行列Aの列についてのスケーリング重みのより大きな差またはより小さな差が使用されてもよい。
【0047】
あるいはまた、増強行列Aの各列の係数は、次式に示されるように個々にスケーリングされてもよい:
C=[β・B|α1・A1 α2・A2 … αK・AK] (8)
ここで、Aj=増強行列Aの列j;
αj=列jについてのそれぞれのスケール因子、である。
この代替のためには、各スケール因子が制約条件αj<(1/2)βを満たす限り、各スケール因子αjについて任意の値を選びうる。好ましくは、αjおよびβ係数の値は、Cのフロベニウス・ノルムが行列Bのフロベニウス・ノルムに近似的に等しいことを保証するように選ばれる。
【0048】
増強行列Aに基づいて混合される信号のそれぞれは、N個の中間入力信号から、および増強行列Aに従って混合される他のすべての信号から音響心理学的に脱相関されるよう、処理される。このことは、図3に概略的に示されている。図3は、例として、二つの(N=2)中間入力信号、五つの(M=5)中間出力信号および増強行列Aに従って混合される三つの(K=3)脱相関された信号を示している。この例において、二つの中間入力信号は、四角41によって表される基本逆行列Bに従って混合されるとともに、脱相関器43によって脱相関されて、四角42によって表される増強行列Aに従って混合される三つの脱相関された信号を与える。
【0049】
脱相関器43は多様な方法で実装されうる。図4に示される一つの実装は、音響心理学的脱相関を、諸入力信号を異なる量だけ遅延させることによって達成する。1ないし20ミリ秒の範囲の遅延が多くの用途について好適である。
【0050】
脱相関器43のもう一つの実装の一部分が図5に示されている。この部分は、中間入力信号の一つを処理する。中間入力信号は、二つの重なり合う周波数サブバンドにおいてそれぞれの信号にフィルタを適用する二つの異なる信号処理経路に沿って渡される。低周波数側の経路は、第一のインパルス応答に従って第一の周波数サブバンド内の入力信号をフィルタ処理する位相反転フィルタ61と、前記第一の周波数サブバンドを定義する低域通過フィルタ62とを含む。高周波数側の経路は、第一のインパルス応答とは等しくない第二のインパルス応答に従って第二の周波数サブバンド内の入力信号をフィルタ処理するフィルタによって実装される周波数依存遅延63と、前記第二の周波数サブバンドを定義する高域通過フィルタ64と、遅延コンポーネント65とを含む。遅延65および低域通過フィルタ62の出力は加算ノード66で組み合わされる。加算ノード66の出力は、前記中間入力信号に関して音響心理学的に脱相関された信号である。
【0051】
位相反転フィルタ61の位相応答は周波数依存であり、正および負の90°に実質的に等しいピークのある、周波数における双峰分布をもつ。位相反転フィルタ61の理想的な実装は、絶対値応答1をもち、フィルタの通過帯域内の二つ以上の周波数帯域のエッジにおいてプラス90°とマイナス90°の間で交替または反転する位相応答をもつ。位相反転は、次式で示されるインパルス応答をもつ疎ヒルベルト変換によって実装されうる。
【0052】
【数8】

疎ヒルベルト変換のインパルス応答は、過渡パフォーマンスと周波数応答のなめらかさの間のトレードオフをバランスすることによって脱相関器パフォーマンスを最適化するよう選択された長さまでで打ち切られるべきである。
【0053】
位相反転の数はSパラメータの値によって制御される。このパラメータは、脱相関の度合いとインパルス応答の長さの間のトレードオフをバランスするよう選ばれるべきである。Sパラメータが大きくなるにつれ、より長いインパルス応答が必要とされる。Sパラメータの値が小さすぎると、フィルタは不十分な脱相関を与える。Sパラメータが大きすぎると、フィルタは、脱相関された信号において不快なアーチファクトを生成するのに十分長い時間の区間にわたって過渡音をぼかしてしまう。
【0054】
これらの特性のバランスを取る能力は、位相反転フィルタ21を、隣り合う位相反転の間で周波数における非一様な間隔を持つよう実装することによって改善できる。より低い周波数ではより狭い間隔、より高い周波数ではより広い間隔とするのである。好ましくは、隣り合う位相反転の間の間隔は、周波数の対数関数である。
【0055】
周波数依存遅延63は、有限長正弦波シーケンスh[n]に等しいインパルス応答をもつフィルタであって、該シーケンスの間に該シーケンスの瞬時周波数がπから0に単調に減少するフィルタによって実装されてもよい。このシーケンスは次のように表現されうる。
【0056】
【数9】

ここで、ω(n)=瞬時周波数;
ω′(n)=瞬時周波数の一階微分;
G=規格化因子;
【数10】

L=遅延フィルタの長さ、である。
規格化因子Gは
【数11】

となるような値に設定される。
【0057】
このインパルス応答をもつフィルタは、過渡成分をもつオーディオ信号に適用されると、時に「チャープ」アーチファクトを生成することがある。この効果は、次式に示されるように、瞬時位相にノイズ様の項を加えることによって軽減できる。
【0058】
【数12】

このノイズ様の項が、πの小さな割合である分散をもつ白色ガウス雑音シーケンスであれば、過渡成分をフィルタ処理することによって生成されるアーチファクトは、チャープというよりは雑音のように聞こえ、それでいて遅延と周波数の間の所望される関係は達成できる。
【0059】
低域通過フィルタ62と高域通過フィルタ64のカットオフ周波数は約2.5kHzに選ばれるべきである。それにより、両フィルタの通過帯域の間にギャップがなくなり、それらの通過帯域が重なり合うクロスオーバー周波数付近の領域におけるそれらの組み合わされた出力のスペクトル・エネルギーがこの領域における中間入力信号のスペクトル・エネルギーに実質的に等しくなる。遅延65によって課される遅延の量は、高いほうの周波数および低いほうの周波数の信号の処理経路における伝搬遅延がクロスオーバー周波数において近似的に等しくなるよう設定されるべきである。
【0060】
脱相関器は種々の仕方で実装されうる。たとえば、低域通過フィルタ62および高域通過フィルタ64の一方または両方がそれぞれ位相反転フィルタ61および周波数依存遅延63より先行してもよい。遅延65は、所望に応じて信号処理経路に配置される一つまたは複数の遅延コンポーネントによって実装されてもよい。
【0061】
実装のさらなる詳細は2009年9月28日に出願されたMcGrathらによる「Decorrelator for Upmixing Systems」と題する国際特許出願第PCT/US2009/058590号から得ることができる。
【0062】
〈D.好ましい導出方法〉
増強行列Aを導出するためのある好ましい方法は、「シード行列」Pを生成することによって始まる。シード行列Pは、増強行列Aの係数についての初期推定値を含む。シード行列Pから諸列が選択され、暫定行列Qを形成する。暫定行列Qは、第二の暫定行列Rを形成するために使われる。係数の諸列が暫定行列Rから抽出されて、増強行列Aが得られる。シード行列Pを生成するために使用できる方法について、以下で、暫定行列Q、暫定行列Rおよび増強行列Aを形成する手順を記載したのちに、述べる。
【0063】
1.増強行列Aの導出
上記の基本逆行列BはM行N列をもつ。M行K列をもつシード行列Pが生成される。ここで、1≦K≦(M−N)である。行列Bおよびシード行列Pは横方向に連結されてM行およびN+K列をもつ暫定行列Qを形成する。この連結は
Q=[B|P] (13)
と表してもよい。
【0064】
暫定行列Qの各列jの係数は、M次元空間において大きさが1のベクトルQ(j)を表すようスケーリングされる。これは、各列の係数を、それらの係数が表すベクトルの大きさで割ることによってできる。各ベクトルの大きさは、列内の係数の二乗の和の平方根から計算できる。
【0065】
次いで、暫定行列Qから、M行N+K列に配列された係数をもつ暫定行列Rが得られる。暫定行列Rの各列jの係数はM次元空間においてベクトルR(j)を表す。これらの列ベクトルは、次の擬似コード断片によって表されるプロセスによって計算される。
(1) R(1)=Q(1);
(2) for j=2 to K {
(3) T(j)=(1−RR(j−1) *TRANSP[RR(j−1)])*Q(j);
(4) if MAG[T(j)]>0.001{
(5) R(j)=T(j)/MAG[T(j)];
(6) } else {
(7) R(j)=ZERO;
(8) }
(9) }
(10) for j=l to K {
(11) A(j)=R(j+N);
(12) }
この擬似コード断片における文はCプログラミング言語と同様のシンタックス特徴をもつ。このコード断片は実際的な実装であることを意図したものではなく、増強行列Aを計算できるプロセスを説明する助けとなることのみを意図したものである。
【0066】
記法R(j)、Q(j)、T(j)およびA(j)はそれぞれ暫定(interim)行列R、暫定行列Q、一時的(temporary)行列Tおよび増強行列Aの列jを表す。
【0067】
記法RR(j−1)は行列RのM行j−1列の部分行列を表す。この部分行列は暫定行列Rの列1ないしj−1を含む。
【0068】
記法TRANSP[RR(j−1)]は、行列RR(j−1)の転置を返す関数を表す。記法MAG[T(j)]は、列ベクトルT(j)の大きさを返す関数を表す。これは一時的行列Tの列j内の係数のユークリッド・ノルムである。
【0069】
擬似コード断片を参照するに、文(1)は行列Rの第一列を、行列Qの第一列から初期化する。文(2)ないし(9)は、行列Rの列2ないしKを計算するループを実装する。
【0070】
文(3)は、一時的行列Tの列jを部分行列RRおよび暫定行列Qから計算する。上記で説明したように、部分行列RR(j−1)は暫定行列Rの最初のj−1個の列を含む。文(4)は、列ベクトルT(j)の大きさが0.001より大きいかどうかを判定する。もしそうであれば、文(5)はベクトルR(j)を、単位大きさをもつようスケーリングされたのちのベクトルT(j)に等しく設定する。列ベクトルT(j)の大きさが0.001より大きくない場合には、ベクトルR(j)はすべての要素が0に等しいベクトルZEROに等しく設定される。
【0071】
文(10)ないし(12)は、暫定行列Rの、列N+1ないしN+Kである最後のK個の列からM×Kの増強行列Aを得るループを実装する。増強行列Aにおける列ベクトルは互いに、また基本行列Bの列ベクトルに実質的に直交である。
【0072】
文(4)がいずれかの列ベクトルT(j)の大きさが0.001より大きくないと判定する場合、これは、ベクトルT(j)が十分列ベクトルQ(1)ないしQ(j−1)と線形独立でないことを示し、対応する列ベクトルR(j)はZEROベクトルに等しく設定される。N<j≦N+Kについての列ベクトルR(j)のいずれかがZEROベクトルに等しい場合、シード行列の対応する列P(j)はその先行する諸列と線形独立でない。この状況は、シード行列Pについて新たな列P(j)を得て、再び上記プロセスを実行して別の増強行列Aを導出することによって正される。
【0073】
a)シード行列Pの選択
M×Kのシード行列Pは多様な仕方で生成できる。以下の段落では二つの方法を述べておく。
【0074】
第一の方法は、擬似乱数値をもつ係数のM×Kの配列を生成することによってシード行列を生成する。
【0075】
第二の方法は、中間出力信号によって表現される音場を再生するために使われる音響トランスデューサの予期される位置の対称性を考慮する係数をもつシード行列を生成する。これは、シード行列の列を、その生成中に一時的に並べ替えることによって行ってもよい。
【0076】
たとえば、上記の五チャネル行列は、L、C、R、LS、RSとして順に挙げられた諸チャネルについての信号を生成する。この特定のチャネルの組についてのラウドスピーカー配置の予期される対称性は、それぞれの音響トランスデューサの方位角位置に従ってそれらのチャネルの順序を再配列することによってより利用しやすくできる。一つの好適な順序はLS、L、C、R、RSである。これは中央チャネルCをこの組の中央に配置する。
【0077】
この順序を使うと、適切な対称性をもつ候補ベクトルの集合を構築できる。一つの例が表Iに示されている。この表では、各ベクトルは表の各行に示されている。これらのベクトルの転置が、シード行列Pの列を定義するために使われる。
【0078】
【表1】

表中の各行は、中央チャネルの列に関して偶または奇の対称性をもつ。この表から全部でK個のベクトルが選ばれ、転置され、初期行列P'を形成するために使われる。たとえば、K=3であり、関数FE1、FE2およびFO1についてのベクトルが選ばれるなら、初期行列P'は次のようになる。
【0079】
【数13】

次いで、所望されるシード行列Pのチャネル順序に合うよう、ベクトルの要素の順序が変えられる。これは次の行列を生じる。
【0080】
【数14】

このシード行列Pが式(4)に示した基本行列Bとともに使われる場合、上記のプロセスによって得られる暫定行列Qは次のようになる。
【0081】
【数15】

この行列Qから形成される第二の暫定行列Rは次のようになる。
【0082】
【数16】

この暫定行列Rから得られる増強された行列Aは次のようになる。
【0083】
【数17】

〈E.実装〉
本発明のさまざまな側面を組み込む装置は、コンピュータまたは汎用コンピュータに見出されるものと類似のコンポーネントに結合されたデジタル信号プロセッサ(DSP: digital signal processor)回路のようなより特化されたコンポーネントを含む他の何らかの装置による実行のためのソフトウェアを含む多様な仕方で実装されうる。図6は、本発明の諸側面を実装するために使用されうる装置70のブロック概略図である。プロセッサ72はコンピューティング資源を提供する。RAM 73は、処理のためにプロセッサ72によって使用されるシステム・ランダム・アクセス・メモリ(RAM)である。ROM 74は、装置70を動作させるため、そして可能性としては本発明のさまざまな側面を実行するために必要とされるプログラムを記憶するための読み出し専用メモリ(ROM)のような持続性記憶の何らかの形を表す。I/Oコントロール75は、通信信号経路19、59によって信号を受信および送信するインターフェース回路を表す。図示した実施形態では、すべての主要なシステム・コンポーネントはバス71に接続する。バス71は二つ以上の物理的または論理的バスを表していてもよい。ただし、バス・アーキテクチャは本発明を実装するために必須ではない。
【0084】
汎用コンピュータ・システムによって実装される実施形態では、キーボードまたはマウスおよびディスプレイのような装置とインターフェースをもち、磁気テープもしくはディスクまたは光学式媒体といった記憶媒体を有する記憶装置を制御するために、追加的なコンポーネントが含められてもよい。記憶媒体はオペレーティング・システム、ユーティリティー、アプリケーションのための命令のプログラムを記録するために使用されてもよく、本発明のさまざまな側面を実装するプログラムを含んでいてもよい。
【0085】
本発明のさまざまな側面を実装するために必要とされる機能は、離散的な論理コンポーネント、集積回路、一つまたは複数のASICおよび/またはプログラム制御されたプロセッサを含む幅広い多様な仕方で実装されるコンポーネントによって実行されることができる。これらのコンポーネントが実装される仕方は本発明にとって重要ではない。
【0086】
本発明のソフトウェア実装は、超音波ないし紫外周波数を含むスペクトルを通じたベースバンドのまたは変調された通信経路、あるいは磁気テープ、カードもしくはディスク、光学式カードもしくはディスクおよび紙を含む媒体上の検出可能なマークを含む本質的に任意の記録技術を使って情報を担持する記憶媒体のような多様な機械可読媒体によって伝達されてもよい。

【特許請求の範囲】
【請求項1】
拡散音場の呈示のために、N個の入力オーディオ信号からM個の出力オーディオ信号を導出する方法であって、MはNより大きく、かつ2より大きく、当該方法は:
N個の入力オーディオ信号を受け取る段階と;
前記N個の入力オーディオ信号からK個の中間オーディオ信号を、各中間信号が音響心理学的に前記N個の入力オーディオ信号と脱相関され、かつKが1より大きい場合には音響心理学的に他のすべての中間信号と脱相関されるよう導出する段階であって、Kは1以上であり、かつM−N以下である、段階と;
前記N個の入力オーディオ信号および前記K個の中間信号を混合して前記M個の出力オーディオ信号を導出する段階であって、前記混合は、M次元空間においてN+K個のベクトルの集合を指定する行列の係数をもつ線形の式の系に従って実行され、前記N+K個のベクトルの少なくともK個は前記集合中の他のすべてのベクトルと実質的に直交である、段階とを含む、
方法。
【請求項2】
前記K個の中間信号のそれぞれを、前記N個の入力オーディオ信号の一つを遅延させることによって導出する、請求項1記載の方法。
【請求項3】
それぞれの中間信号を、
前記N個の入力オーディオ信号の一つを、第一の周波数サブバンドにおいて第一のインパルス応答に従ってフィルタ処理して、正および負の90°に実質的に等しいピークのある、周波数における双峰分布をもつ周波数依存の位相変化をもつ第一のサブバンド信号を得て、第二の周波数サブバンドにおいて第二のインパルス応答に従ってフィルタ処理して周波数依存の遅延をもつ第二のサブバンド信号を得る段階であって:
前記第二のインパルス応答は前記第一のインパルス応答と等しくなく、
前記第二の周波数サブバンドは、前記第一の周波数サブバンドに含まれる周波数より高い周波数を含み、
前記第一の周波数サブバンドは前記第二の周波数サブバンドに含まれる周波数より低い周波数を含む、
段階と、
前記第一のサブバンド信号および前記第二のサブバンド信号の組み合わせから前記それぞれの中間信号を導出する段階と
を含む方法によって導出する、
請求項1記載の方法。
【請求項4】
Nが1より大きい、請求項1ないし3のうちいずれか一項記載の方法。
【請求項5】
前記行列が、第一のスケール因子βによってスケーリングされる係数をもつN個のベクトルについての係数の第一の部分行列と、一つまたは複数の第二のスケール因子αによってスケーリングされるK個のベクトルについての係数の第二の部分行列とを含み;
前記N個の入力オーディオ信号は、前記第一のスケール因子によってスケーリングされた前記第一の部分行列の係数をもつ線形の式の系に従って混合され;
前記K個の中間オーディオ信号は、前記一つまたは複数の第二のスケール因子によってスケーリングされた前記第二の部分行列の係数をもつ線形の式の系に従って混合される、
請求項1ないし4のうちいずれか一項記載の方法。
【請求項6】
K個のベクトルの係数の前記第二の部分行列は一つのスケール因子αによってスケーリングされ;
前記第一のスケール因子および前記第二のスケール因子は、前記行列のフロベニウス・ノルムが、前記第一のスケール因子βによってスケーリングされない前記第一の部分行列のフロベニウス・ノルムの10%以内であるよう選ばれ、
【数18】

である、請求項5記載の方法。
【請求項7】
N個の入力オーディオ信号を混合して拡散音場の呈示のためのM個の出力オーディオ信号を導出することにおいて使うための線形の式の系のための係数の行列を得る方法であって:
M次元空間においてN個の第一のベクトルの集合を指定する係数をもつ第一の行列を得る段階と;
前記M次元空間におけるK個の第二のベクトルの集合を導出する段階であって、各第二のベクトルは各第一のベクトルと、そしてKが1より大きい場合には他のすべての第二のベクトルと実質的に直交である、段階と;
K個の第二のベクトルの前記集合を指定する係数をもつ第二の行列を得る段階と;
前記第一の行列を前記第二の行列と連結して、N個の第一のベクトルの前記集合およびK個の第二のベクトルの前記集合の和集合を指定する係数をもつ中間行列を得る段階であって、前記信号処理行列の係数が前記線形の式の系の係数である、段階とを含む、
方法。
【請求項8】
前記中間行列の係数をスケーリングして、スケーリングされた中間行列のフロベニウス・ノルムが前記第一の行列のフロベニウス・ノルムの10%以内になるようにする段階を含む、請求項7記載の方法。
【請求項9】
入力信号を受け取るための一つまたは複数の入力端子と;
メモリと;
請求項1ないし8のうちいずれか一項記載の方法を実行するための命令の一つまたは複数のプログラムを記録する記憶媒体と;
前記一つまたは複数の入力端子、前記メモリ、前記記憶媒体および一つまたは複数の出力端子に結合された、前記一つまたは複数のプログラムの命令を実行する処理回路と;
出力信号を送出するための一つまたは複数の出力端子とを有する装置。
【請求項10】
請求項1ないし8のうちいずれか一項記載の方法を実行するために装置によって実行可能な命令のプログラムを記録した記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公表番号】特表2013−517687(P2013−517687A)
【公表日】平成25年5月16日(2013.5.16)
【国際特許分類】
【出願番号】特願2012−548982(P2012−548982)
【出願日】平成23年1月7日(2011.1.7)
【国際出願番号】PCT/US2011/020561
【国際公開番号】WO2011/090834
【国際公開日】平成23年7月28日(2011.7.28)
【出願人】(507236292)ドルビー ラボラトリーズ ライセンシング コーポレイション (82)