ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、平均値を用いて、1つ以上の調整されたパラメータを提供する装置、方法およびコンピュータプログラム
ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して1つ以上の調整されたパラメータを提供する装置は、パラメータ調整器を備える。パラメータ調整器は、1つ以上のパラメータを受信し、それに基づいて1つ以上の調整されたパラメータを提供するように構成される。パラメータ調整器は、非最適なパラメータの使用によって生じるアップミックス信号表現の歪みが、少なくとも最適なパラメータから予め定められた偏差より大きく偏移しているパラメータに対して限定されるように、複数のパラメータ値の平均値に従って1つ以上の調整されたパラメータを提供するように構成される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明に係る実施形態は、ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の調整されたパラメータを提供する装置に関する。
【0002】
本発明に係る他の実施形態は、ダウンミックス信号表現とパラメトリックサイド情報に基づいてアップミックス信号表現を提供する装置に関する。
【0003】
本発明に係る他の実施形態は、ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の調整されたパラメータを提供する方法に関する。
【0004】
本発明に係る他の実施形態は、前記方法を実行するためのコンピュータプログラムに関する。
【0005】
本発明に係るいくつかの実施形態は、MPEG‐SAOCにおける歪み制御のためのパラメータ制限スキームに関する。
【背景技術】
【0006】
オーディオ処理、オーディオ伝送およびオーディオ記憶の技術において、聴覚インプレッションを改善するために、マルチチャンネルコンテンツを取り扱うという増大する要望がある。マルチチャンネルオーディオコンテンツの使用は、ユーザに対して有意の進歩をもたらす。例えば、娯楽アプリケーションにおいて、改善されたユーザ満足度をもたらす三次元聴覚インプレッションを取得することができる。しかしながら、マルチチャンネルオーディオコンテンツは、また、マルチチャンネルオーディオ再生を用いて話者了解度を改善することができるので、専門の環境、例えば電話会議アプリケーションにおいて有用である。
【0007】
しかしながら、また、マルチチャンネルアプリケーションによって生じる過度なリソース負荷を回避するために、オーディオ品質とビットレート要求条件との良好なトレードオフを有することが望ましい。
【0008】
最近、ビットレートの効率的な伝送のためのパラメトリック技術および/または多重のオーディオオブジェクトを含むオーディオシーンの記憶、例えば、バイノーラルキュー符号化(I型)(例えば、非特許文献1を参照)、ジョイントソース符号化(例えば、非特許文献2を参照)、およびMPEG空間オーディオオブジェクト符号化(SAOC)(例えば、非特許文献3,4,5を参照)が提案されている。
【0009】
受信サイドでのユーザ対話性と共に、このような技術は、極端なオブジェクトレンダリングが実行される場合に、出力信号の低いオーディオ品質に結果として導く可能性がある(例えば、特許文献1を参照)。
【0010】
これらの技術は、所望の出力オーディオシーンを、波形マッチングによるよりもむしろ知覚的に復元することを目指している。
【0011】
図8は、このようなシステム(ここでは、MPEG‐SAOC)のシステム概要を示す。図8に示されるMPEG−SAOCシステム800は、SAOCエンコーダ810とSAOCデコーダ820を備える。SAOCエンコーダ810は、例えば、時間ドメイン信号として、または時間‐周波数ドメイン信号(例えば、フーリエタイプ変換の変換係数のセットの形の、またはQMFサブバンド信号の形の)として表すことができる複数のオブジェクト信号x1〜xNを受信する。SAOCエンコーダ810は、通常は、オブジェクト信号x1〜xNに関係するダウンミックス係数d1〜dNも受信する。ダウンミックス係数の分離したセットは、ダウンミックス信号の各チャンネルに対して利用することができる。SAOCエンコーダ810は、通常は、オブジェクト信号x1〜xNを関係するダウンミックス係数d1〜dNに従って結合することによって、ダウンミックス信号のチャンネルを取得するように構成される。通常、ダウンミックスチャンネルは、オブジェクト信号x1〜xNより少ない。SAOCデコーダ820の側でのオブジェクト信号の分離(または分離処理)を(少なくとも近似的に)可能とするため、SAOCエンコーダ810は、1つ以上のダウンミックス信号(ダウンミックスチャンネルとして示される)812と、サイド情報814の両方を提供する。サイド情報814は、デコーダ側でのオブジェクト特有の処理を可能とするため、オブジェクト信号x1〜xNの特性を記述する。
【0012】
SAOCデコーダ820は、1つ以上のダウンミックス信号812とサイド情報814の両方を受信するように構成される。また、SAOCデコーダ820は、通常は、所望のレンダリングセットアップを記述するユーザ対話情報および/またはユーザ制御情報822を受信するように構成される。例えば、ユーザ対話情報/ユーザ制御情報822は、スピーカセットアップと、オブジェクト信号x1〜xNを提供するオブジェクトの所望の空間配置を記述することができる。
【0013】
【0014】
【0015】
ここで図9a、9b、9cを参照して、ダウンミックス信号表現とオブジェクト関連サイド情報に基づいてアップミックス信号表現を取得する異なる装置が記載される。オブジェクト関連サイド情報は、ダウンミックス信号に関係するサイド情報の例である点に注意しなければならない。図9aは、SAOCデコーダ920を備えるMPEG‐SAOCシステム900の概略ブロック図である。SAOCデコーダ920は、分離した機能ブロックとして、オブジェクトデコーダ922と混合器/レンダー器926を備える。オブジェクトデコーダ922は、ダウンミックス信号表現(例えば、時間ドメインにおいてまたは時間‐周波数ドメインにおいて表現される1つ以上のダウンミックス信号の形の)と、オブジェクト関連のサイド情報(例えば、オブジェクトメタデータの形の)に従って、複数の復元されたオブジェクト信号924を提供する。混合器/レンダー器926は、複数のN個のオブジェクトに関係する復元されたたオブジェクト信号924を受信し、それとレンダリング情報に基づいて、1つ以上のアップミックスチャンネル信号928を提供する。SAOCデコーダ920において、オブジェクト信号924の抽出は、オブジェクト復号化機能の混合/レンダリング機能からの分離を可能とする混合/レンダリングから分離して実行されるが、比較的高い計算量をもたらす。
【0016】
ここで図9bを参照して、SAOCデコーダ950を備える他のMPEG‐SAOCシステム930が簡単に述べられる。SAOCデコーダ950は、ダウンミックス信号表現(例えば、1つ以上のダウンミックス信号の形の)と、オブジェクト関連サイド情報(例えば、オブジェクトメタデータの形の)に従って、複数のアップミックスチャンネル信号958を提供する。SAOCデコーダ950は、オブジェクト復号化と混合/レンダリングの分離なしの合同の混合プロセスにおいてアップミックスチャンネル信号958を取得するように構成され、前記合同のアップミックスプロセスに対するパラメータがオブジェクト関連サイド情報とレンダリング情報の両方に依存する、複合されたオブジェクトデコーダおよび混合器/レンダー器を備える。合同のアップミックスプロセスは、オブジェクト関連サイド情報の一部であるとみなされるダウンミックス情報にも依存する。
【0017】
上記を要約すると、アップミックスチャンネル信号928、958の提供は、1つのステッププロセスまたは2つのステッププロセスにおいて実行することができる。
【0018】
ここで図9cを参照して、MPEG‐SAOCシステム960が記載される。SAOCシステム960は、SAOCデコーダよりもむしろ、SAOC‐MPEGサラウンドトランスコーダ980を備える。
【0019】
SAOC‐MPEGサラウンドトランスコーダは、オブジェクト関連サイド情報(例えば、オブジェクトメタデータの形の)と、オプションとして、1つ以上のダウンミックス信号とレンダリング情報に関係する情報を受信するように構成された、サイド情報トランスコーダ982を備える。サイド情報トランスコーダは、また、受信されたデータに基づいて、MPEGサラウンドサイド情報(例えば、MPEGサラウンドビットストリームの形の)を提供するように構成される。したがって、サイド情報トランスコーダ982は、オブジェクトエンコーダから受信されるオブジェクト関連(パラメトリック)サイド情報を、レンダリング情報とオプションとして1つ以上のダウンミックス信号のコンテンツについての情報を考慮に入れて、チャンネル関連(パラメトリック)サイド情報に変換するように構成される。
【0020】
オプションとして、SAOC‐MPEGサラウンドトランスコーダ980は、例えば、ダウンミックス信号表現によって記述された1つ以上のダウンミックス信号を操作し、操作されたダウンミックス信号表現988を取得するように構成することができる。しかしながら、SAOC‐MPEGサラウンドトランスコーダ980の出力ダウンミックス信号表現988がSAOC‐MPEGサラウンドトランスコーダの入力ダウンミックス信号表現と同じであるように、ダウンミックス信号操作器986を省略することができる。ダウンミックス信号操作器986は、例えば、いくつかのレンダリング配列において存在する可能性がある、チャンネル関連MPEGサラウンドサイド情報984がSAOC‐MPEGサラウンドトランスコーダ980の入力ダウンミックス信号表現に基づいて所望の聴覚インプレッションを提供することを可能にしない場合に、用いることができる。
【0021】
したがって、SAOC‐MPEGサラウンドトランスコーダ980は、SAOC‐MPEGサラウンドトランスコーダ980へのレンダリング情報入力に従ってオーディオオブジェクトを表現する複数のアップミックスチャンネル信号を、MPEGサラウンドビットストリーム984とダウンミックス信号表現988を受信するMPEGサラウンドデコーダを用いて生成することができるように、ダウンミックス信号表現988とMPEGサラウンドビットストリーム984を提供する。
【0022】
上記を要約すると、SAOC符号化されたオーディオ信号を復号化するために異なるコンセプトを用いることができる。場合によっては、ダウンミックス信号表現とオブジェクト関連パラメトリックサイド情報に従ってアップミックスチャンネル信号(例えば、アップミックスチャンネル信号928、958)を提供する、SAOCデコーダが用いられる。このコンセプトに対する実施例は、図9aと9bに見ることができる。あるいは、SAOC符号化されたオーディオ情報は、所望のアップミックスチャンネル信号を提供するためにMPEGサラウンドデコーダによって用いることができる、ダウンミックス信号表現(例えばダウンミックス信号表現988)とチャンネル関連サイド情報(例えば、チャンネル関連MPEGサラウンドビットストリーム984)を取得するために変換することができる。
【0023】
図8においてシステム概要が与えられる、MPEG‐SAOCシステム800において、一般的な処理が周波数選択的方法で行われ、各周波数バンド内で以下のように記述することができる。
●N個の入力オーディオオブジェクト信号x1〜xNは、SAOCエンコーダ処理の一部としてダウンミックスされる。モノラルダウンミックスに対して、ダウンミックス係数は、d1〜dNで示される。加えて、SAOCエンコーダ810は、入力オーディオオブジェクトの特性を記述するサイド情報814を抽出する。MPEG‐SAOCに対して、お互いに関するオブジェクトパワーの関係は、このようなサイド情報の最も基本的な形である。
●ダウンミックス信号812とサイド情報814は、送信され、および/または、記憶される。この目的に対して、ダウンミックスオーディオ信号は、MPEG‐1のレイヤIIまたはIII(「.mp3」としても知られる)、MPEGアドバンストオーディオコーディング(AAC)またはその他のオーディオコーダのような周知の知覚的オーディオコーダを用いて圧縮することができる。
●事実上、オブジェクト信号の分離は、分離ステップ(オブジェクト分離器820aによって示される)と混合ステップ(混合器820cによって示される)の両方がしばしば計算量において莫大な減少に結果としてなる単一の変換符号化ステップに結合されるので、ほとんど実行されない(または決して実行されない)。
【0024】
このようなスキームは、伝送ビットレート(N個の離散オブジェクトオーディオ信号または離散システムの代わりに、少しのダウンミックスチャンネルといくつかのサイド情報を送信することが必要なだけである)と計算量(処理複雑度は、主にオーディオオブジェクトの数よりむしろ出力チャンネル数に関係する)の両方に関して、大いに効率的であることが分かっている。受信端のユーザに対する更なる利益は、ユーザ選択(モノラル、ステレオ、サラウンド、バーチャル化されたヘッドホン再生、その他)のレンダリングセットアップを選択する自由度と、ユーザ対話性の特徴を含み、レンダリングマトリクス、従って出力シーンは、ユーザによって、意志、個人的嗜好または他の基準に従って設定し、対話的に変更することができる。例えば、1つの空間エリアに固まっている1つのグループから話し手を位置決めし、他の残りの話し手からの識別を最大化することが可能である。この対話性は、デコーダ・ユーザインターフェースを提供することによって達成される。
【0025】
各送信されたオブジェクトに対して、その相対レベルと、(非モノラルレンダリングに対して)レンダリングの空間位置を調整することができる。これは、ユーザが付随するグラフィカルユーザインターフェイス(GUI)のスライダの位置を変える(例えば、object level = +5dB, object position = -30deg)ように、リアルタイムに発生することができる。
【0026】
【0027】
【先行技術文献】
【非特許文献】
【0028】
【非特許文献1】C. Faller および F. Baumgarte、「バイノーラルキュー符号化‐第2部:スキームおよびアプリケーション」、IEEE Trans. on Speech and Audio Proc., vol.11, No. 6、2003年11月
【非特許文献2】C. Faller、「オーディオソースのパラメトリックジョイント符号化」、第120回AES大会、予稿集6752、パリ、2006年
【非特許文献3】J. Herre, S. Disch, J. Hilpert, O. Hellmuth、「SACからSAOC‐ 空間オーディオのパラメトリック符号化における最近の成果」、第22回英国AES会議、ケンブリッジ、英国、2007年4月
【非特許文献4】J. Engdegaerd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen、「空間オーディオオブジェクト符号化(SAOC)‐ パラメトリックオブジェクトベースのオーディオ符号化に関するやがて公開されるMPEG標準」、第124回AES大会、予稿集7377、アムステルダム、2008年
【非特許文献5】ISO/IEC、「MPEGオーディオ技術‐第2部:空間オーディオオブジェクト符号化(SAOC)」、ISO/IEC JTC1/SC29/WG11(MPEG)FCD23003-2
【非特許文献6】EBU技術勧告:「中間オーディオ品質の主観的リスニングテストのためのMUSHRA‐EBU法」、文書B/AIM022、1999年10月
【非特許文献7】ISO/IEC JTC1/SC29/WG11(MPEG)、文書N10843、「ISO/IEC23003-2に関する研究:200x年空間オーディオオブジェクト符号化(SAOC)」、第89回MPEGミーティング、ロンドン、英国、2009年7月
【特許文献】
【0029】
【特許文献1】米国特許出願61/173,456、歪みを回避するオーディオ信号処理の方法、装置およびコンピュータプログラム
【発明の概要】
【0030】
上記課題は、ダウンミックス信号表現と、前記ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の適応されたパラメータを提供する装置によって解決される。装置は、1つ以上のパラメータ(それは、いくつかの実施形態において、入力パラメータとすることができる)を受信し、それに基づいて、1つ以上の調整されたパラメータを提供するように構成された、パラメータ調整器を備える。パラメータ調整器は、非最適パラメータの使用によって生じるアップミックス信号表現の歪みが、少なくとも最適パラメータから予め定められた偏差以上偏移しているパラメータ(または入力パラメータ)に対して低減されるように、複数のパラメータ値(それは、いくつかの実施形態において、入力パラメータ値とすることができる)の平均値に従って、1つ以上の調整されたパラメータを提供するように構成される。
【0031】
本発明に係るこの実施形態は、歪みはしばしば平均値からの過剰な偏差によって生ずるので、複数の入力パラメータ値の平均値が、ダウンミックス信号表現とダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に用いられるパラメータの調整を可能にする意味のある量を構成するという考えに基づいている。平均値の使用は、平均値(average value)(時には、中間値(mean value)としても示される)からのこのような過剰な偏差を回避するために、1つ以上のパラメータの調整を可能にし、従って極端に劣化したオーディオ品質を回避するという可能性をもたらす。
【0032】
上述された実施形態は、SAOCデコーダ/トランスコーダがパラメータの調整に必要な全情報を備えるので、全ての処理を完全にSAOCデコーダ/トランスコーダ内で行うことができるレンダーされたSAOCシーンの主観的音質を保護するコンセプトを提供する。また、パラメータ値と平均値との大きな偏差は、通常は聞き取れる歪みに結果としてなるのに対して、パラメータ値と平均値との偏差の制限は、通常は良好な聴覚インプレッションに結果としてなることが分かっているので、上述の実施形態は、レンダーされたシーンの知覚されたオーディオ品質の複雑な尺度の明示の計算を含まない。このように、上述された実施形態は、アップミックス信号表現の提供に対して考慮されるパラメータを適切に調整するために、特に効率的なメカニズム、すなわち、平均値の使用を提供する。
【0033】
好ましい実施形態において、装置のパラメータ調整器は、複数のパラメータ値の加重平均である平均値に従って、1つ以上の調整されたパラメータを提供するように構成される。
tは異なるパラメータ値に対して異なる重みを割り当てることが可能であるので、加重平均を使用することは高度な自由度を提供する。しかしながら、パラメータ値に対して同じ重みを割り当てることも可能である。
【0034】
好ましい実施形態において、装置のパラメータ調整器は、1つ以上の調整されたパラメータが、平均値から、対応する受信されたパラメータよりも小さく偏移するように、1つ以上の調整されたパラメータを提供するように構成される。調整されたパラメータを、平均値の近くに持ってくることによって、またはさらに平均値に等しくセットすることによって、歪みの有意の低減を達成することができる。
【0035】
好ましい実施形態において、装置は、オーディオオブジェクトの、アップミックス信号表現の1つ以上のチャンネルに対する貢献度を記述する1つ以上のレンダリング係数(レンダリングパラメータとしても示される)を受信するように構成される。この場合、装置は、好ましくは、調整されたパラメータとして、1つ以上の調整されたレンダリング係数を提供するように構成される。入力パラメータ値の役割をする複数のレンダリングパラメータの平均値に従ってレンダリングパラメータを調整することは、過剰な聞き取れる歪みを回避する適切に調整されたレンダリングパラメータを取得する可能性をもたらすことが分かっている。
【0036】
好ましい実施形態において、パラメータ調整器は、入力パラメータとして、複数のレンダリング係数を受信するように構成される。この場合、パラメータ調整器は、複数のオーディオオブジェクトに関係するレンダリング係数を通じた平均を計算するように構成される。また、パラメータ調整器は、調整されたレンダリング係数の、複数のオーディオオブジェクトに関係するレンダリング係数を通じた平均からの偏差が限定されるように、調整されたレンダリング係数を提供するように構成される。本発明に係るこの実施形態は、調整されたレンダリング係数の、複数のオーディオオブジェクトに関係するレンダリング係数を通じた平均からの偏差が限定される場合に、非最適レンダリングパラメータの使用によって生じるアップミックス信号表現の歪みは、少なくとも最適レンダリングパラメータから予め定められた偏差よりも大きく偏移しているレンダリングパラメータに対して、通常は低減されるという発見に基づいている。このように、簡単なメカニズム、すなわち、調整されたレンダリング係数の、複数のオーディオオブジェクトに関係するレンダリング係数を通じた平均からの偏差が限定されるようなレンダリング係数の調整が、過剰な聞き取れる歪みを回避することを可能とする。
【0037】
好ましい実施形態において、パラメータ調整器は、レンダリング係数を通じた平均に従って決定される許容差の範囲内にあるレンダリング係数を不変のままにし、許容差の上側境界値よりも大きいレンダリング係数を上側境界値より小さいまたは等しい値に選択的にセットし、許容差の下側境界値よりも小さいレンダリング係数を下側境界値より大きいまたは等しい値に選択的にセットするように構成される。したがって、レンダリング係数を調整するために、平均値から大きく異なる非最適レンダリングパラメータの使用によって生じるアップミックス信号表現の過剰な歪みを回避する調整されたレンダリング係数を取得することを依然として可能とする、非常に簡単なメカニズムが確立される。
【0038】
好ましい実施形態において、パラメータ調整器は、それぞれの反復において、レンダリング係数を通じた平均からの最大偏差を含むレンダリング係数のそれぞれの1つを反復的に選択し、レンダリング係数の選択された1つを、レンダリング係数を通じた平均の近くに持ってくるように構成される。したがって、レンダリング係数を通じた平均に従って決定される許容差の外側にあるレンダリングパラメータは、反復的に許容差内に持ってこられる。このように、レンダリングパラメータは、非最適レンダリングパラメータの使用によって生じるアップミックス信号表現の歪みが、通常は低減されるように(少なくとも、最適レンダリングパラメータから、予め定められた偏差より大きく偏移している入力レンダリングパラメータに対して)、平均値に従って調整される。
【0039】
好ましい実施形態において、パラメータ調整器は、レンダリング係数のそれぞれの1つの反復的な選択と、選択された1つのレンダリング係数の反復的な修正を、全てのレンダリングパラメータが適用可能な許容差の範囲内にあるように調整されるまで繰り返すように構成される。したがって、アップミックス信号表現における聞き取れる歪みが十分小さく保たれることが確保される。
【0040】
好ましい実施形態において、装置は、ダウンミックス信号表現の1つ以上のチャンネルの、アップミックス信号表現の1つ以上のチャンネルへのマッピングを記述する1つ以上の変換符号化係数を受信するように構成される。この場合、装置は、調整されたパラメータとして、1つ以上の調整された変換符号化係数を提供するように構成される。本発明に係るこの実施形態は、変換符号化係数の平均値からの大きな偏差が通常は聞き取れる歪みを生じるので、変換符号化パラメータは、平均値に従う調整に対しても適切であるという発見に基づいている。したがって、平均値に従う変換符号化パラメータの調整または制限によって、非最適変換符号化パラメータの使用によって生じるアップミックス信号表現の歪みを、(少なくとも、最適変換符号化パラメータから予め定められた偏差より大きく偏移している入力変換符号化パラメータに対して)低減することが可能である。
【0041】
好ましい実施形態において、パラメータ調整器は、入力パラメータとして、変換符号化係数(変換符号化パラメータとしても示される)の時間シーケンスを受信するように構成される。この場合、パラメータ調整器は、複数の変換符号化係数に従って時間平均(temporal mean)(temporal averageとしても示される)を演算するように構成される。また、パラメータ調整器は、調整された変換符号化係数の時間平均からの偏差が限定されるように、調整された変換符号化係数を提供するように構成される。あらためて、非最適変換符号化係数の使用によって生じるアップミックス信号表現の過剰な聞き取れる歪みを回避する簡単なメカニズムが構築される。
【0042】
好ましい実施形態において、パラメータ調整器は、時間平均(それは平均値を構成する)に従って決定される許容差の範囲内にある変換符号化係数を不変のままにするように構成される。また、パラメータ調整器は、許容差の上側境界値よりも大きい変換符号化係数を、許容差の上側境界値よりも小さいまたは等しい値に選択的にセットし、許容差の下側境界値よりも小さい変換符号化係数を、許容差の下側境界値よりも大きいまたは等しい値に選択的にセットするように構成される。したがって、変換符号化係数は、非最適変換符号化の使用によって生じるアップミックス信号表現の歪みを、少なくとも最適変換符号化係数から予め定められた偏差よりも大きく偏差している変換符号化係数に対して低減することを可能とする明確に定められた許容差内に持ってくることができる。許容差は、時間平均が用いられるので、適応的な方法で選択される。このコンセプトは、変換符号化係数の大きな時間変化は、通常は聞き取れる歪みをもたらし、それ故にある程度に制限しなければならないという発見に基づいている。
【0043】
好ましい実施形態において、パラメータ調整器は、時間平均を、一連の変換符号化係数の再帰的ローパスフィルタリングを用いて算出するように構成される。このコンセプトは、変換符号化係数の長期の進化を考慮に入れた非常に明確に定められた時間平均をもたらすことを示している。また、一連の変換符号化係数のこのような再帰的ローパスフィルタリングは、少ない計算労力とメモリ要求条件を低減することを助ける記憶労力によって遂行することができることが分かっている。特に、長期の期間に対する変換符号化係数の履歴を記憶することなく、意味のある時間平均を取得することが可能である。
【0044】
好ましい実施形態において、パラメータ調整器は、調整されたパラメータの所定の1つが、複数の入力パラメータの平均値と1つ以上の許容差パラメータに従って境界が定められる許容差の範囲内にあるように、そして、入力パラメータと、対応する調整されたパラメータとの偏差が最小化されるまたは予め定められた最大許容範囲内に保持されるように、1つ以上の調整されたパラメータの所定の1つを提供するように構成される。良好な聴覚インプレッションをもたらす調整されたパラメータは、入力パラメータと、対応する調整されたパラメータとの過度に大きな差異を回避する目的を考慮に入れながら、調整されたパラメータを許容差に限定することによって、取得することができることが分かっている。したがって、非最適パラメータの使用によって生じるアップミックス信号表現の歪みを、入力パラメータによって定められる所望の聴覚設定を不必要に妥協することなく低減することができる。
【0045】
好ましい実施形態において、パラメータ調整器は、入力パラメータの調整されたバージョンを取得するために、複数の入力パラメータ値の平均値に従って境界が定められる許容差の外側にあることがわかった入力パラメータを、許容差の上側境界値または下側境界値に選択的にセットするように構成される。
【0046】
他の好ましい実施形態において、パラメータ調整器は、(平均値に従って境界が定められる)許容差の外側にある入力パラメータを、許容差内に反復的に持ってくるために、それぞれの反復において、平均値からの最大偏差を含む入力パラメータのそれぞれ1つを反復的に選択し、入力パラメータの選択された1つを平均値の近くに持ってくるように構成される。
【0047】
好ましい実施形態において、パラメータ調整器は、入力パラメータの選択された1つを平均値の近くに持ってくるために使用されるステップサイズを、入力パラメータの選択された1つと平均値の差異の予め定められた分数になるように選択するように構成される。
【0048】
本発明に係る他の実施形態は、ダウンミックス信号表現とパラメトリックサイド情報に基づいてアップミックス信号表現を提供する装置を構築する。前記装置は、前に述べられたような、1つ以上の入力パラメータに基づいて1つ以上の調整されたパラメータを提供する装置を備える。アップミックス信号表現を提供する装置は、また、ダウンミックス信号表現とパラメトリックサイド情報に基づいてアップミックス信号表現を取得するように構成された信号処理器を備える。1つ以上の調整されたパラメータを提供する装置は、信号処理器の1つ以上の処理パラメータの、例えば、信号処理器に入力されるレンダリングパラメータの、または、アップミックス信号表現を取得するために、信号処理器において演算され、信号処理器によって適用される変換符号化パラメータの、調整されたバージョンを提供するように構成される。
【0049】
この実施形態は、信号処理器によって適用され、信号処理器に入力されるかまたはさらに信号処理器において算出されるかのいずれかであり、平均値に基づく上述のパラメータ調整から利益を得ることができる多数のパラメータがあるという発見に基づいている。信号処理器は、通常は、パラメータのセット(例えば、異なるオーディオオブジェクトに関係するレンダリング係数のセット、または時間において異なるインスタンスに関係する変換符号化係数のセット)が良くバランスしている場合に、そのような値のセットの個々の値が平均値からの過度に大きい偏差を含まないように、小さい歪みで、良い品質のアップミックス信号表現を提供することが分かっている。このように、1つ以上の調整されたパラメータを提供する装置を、アップミックス信号表現を提供する装置と組み合わせて適用することによって、発明コンセプトの利益を実現することができる。
【0050】
好ましい実施形態において、信号処理器は、オーディオオブジェクトの、アップミックス信号表現の1つ以上のチャンネルに対する貢献度を記述する調整されたレンダリング係数に従ってアップミックス信号表現を提供するように構成される。1つ以上の調整されたパラメータを提供する装置は、入力パラメータとして、複数のユーザ指定のレンダリングパラメータを受信し、それに基づいて、信号処理器による使用のために(好ましくは信号処理器に)、1つ以上の調整されたレンダリングパラメータを提供するように構成される。1つ以上の調整されたパラメータを提供する装置を用いて取得することができる良くバランスしたレンダリングパラメータは、通常は良い聴覚インプレッションに結果としてなることが分かっている。
【0051】
他の実施形態において、1つ以上の調整されたパラメータを提供する装置は、1つ以上の入力パラメータとして、混合マトリクスの1つ以上の混合マトリクス要素を受信し、それに基づいて、信号処理器による使用のために、混合マトリクスの1つ以上の調整された混合マトリクス要素を提供するように構成される。この場合、信号処理器は、ダウンミックス信号表現の1つ以上のオーディオチャンネル信号(例えば、時間ドメイン表現の形でまたは時間‐周波数ドメイン表現の形で表された)の、アップミックス信号表現の1つ以上のオーディオチャンネル信号上へのマッピングを記述する混合マトリクスの調整された混合マトリクス要素に従って、アップミックス信号表現を提供するように構成される。混合マトリクス要素は、また、例えば、混合マトリクス要素の時間的変化が制限されているという点で、平均値によく適合しなければならないことが分かっている。
【0052】
本発明に係る他の実施形態において、オーディオ処理器は、MPEGサラウンド任意ダウンミックスゲイン値を取得するように構成される。この場合、1つ以上の調整されたパラメータを提供する装置は、入力パラメータとして、複数の任意ダウンミックスゲイン値を受信し、複数の調整された任意ダウンミックスゲインを提供するように構成される。任意ダウンミックスゲイン値に対する調整されたパラメータを提供する装置のアプリケーションは、また、良好な聴覚インプレッションに結果としてなり、聞き取れる歪みを制限することを可能にすることが分かっている。
【0053】
本発明に係る更なる実施形態は、1つ以上の調整されたパラメータを提供する方法およびコンピュータプログラムを構築する。前記実施形態は、上述の装置と同じ知見に基づき、発明の装置に関して本願明細書において述べられた構成および機能のいずれかによって拡張することができる。
【図面の簡単な説明】
【0054】
【図1】本発明の実施形態に係る1つ以上の調整されたパラメータを提供する装置の概略ブロック図を示す。
【図2】本発明の実施形態に係るアップミックス信号表現を提供する装置の概略ブロック図を示す。
【図3】本発明の他の実施形態に係るアップミックス信号表現を提供する装置の概略ブロック図を示す。
【図4】間接制御および直接制御を用いたパラメータ制限スキーム概略表現を示す。
【図5a】リスニングテスト条件を表すテーブルを示す。
【図5b】リスニングテストのオーディオ項目を表すテーブルを示す。
【図6】テストされた極端なレンダリング条件を表すテーブルを示す。
【図7】異なるパラメータ制限スキーム(PLS)に対するMUSHRAリスニングテスト結果のグラフィック表現を示す。
【図8】参照用MPEG‐SAOCシステムの概略ブロック図を示す。
【図9a】分離したデコーダおよび混合器を用いた参照用SAOCシステムの概略ブロック図を示す。
【図9b】統合したデコーダおよび混合器を用いた参照用SAOCシステムの概略ブロック図を示す。
【図9c】SAOC‐MPEGトランスコーダを用いた参照用SAOCシステムの概略ブロック図を示す。
【図10】どの変換符号化係数が提案されたパラメータ制限スキームによって修正することができるかを記述するテーブルを示す。
【発明を実施するための形態】
【0055】
1.図1に係る1つ以上の調整されたパラメータを提供する装置
【0056】
以下に、ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の調整されたパラメータを提供する装置が記載される。図1は、このような装置100の概略ブロック図である。
【0057】
装置100は、1つ以上の入力パラメータ110を受信し、それに基づいて、1つ以上の調整されたパラメータ120を提供するように構成される。装置100は、1つ以上の入力パラメータ110を受信し、それに基づいて、1つ以上の調整されたパラメータ120を提供するように構成された、パラメータ調整器130を備える。パラメータ調整器130は、非最適パラメータ(例えば、1つ以上の入力パラメータ110)の使用によって生じるアップミックス信号表現の歪みが、少なくとも最適パラメータから予め定められた偏差以上偏移している入力パラメータ(例えば、入力パラメータ110)に対して低減されるように、複数の入力パラメータ値の平均値132に従って、1つ以上の調整されたパラメータ120を提供するように構成される。例えば、パラメータ調整器130は、1つ以上の調整されたパラメータ120が、1つ以上の入力パラメータ110よりも、最適パラメータ(それは、歪みのないアップミックス信号表現に結果としてなる)に「近い」(より小さい歪みを生じるという意味において)という効果を有することができる。
【0058】
この目的のため、パラメータ調整器130は、平均値演算を実施し、関連する入力パラメータ110のセット(例えば、共通の時間インターバルに関係する入力パラメータ、または異なる時間インスタンスに関係する同じパラメータタイプの入力パラメータ)の平均値132(例えば、時間平均またはオブジェクト間平均として)を取得する。装置100の動作に関して、平均値132はパラメータを調整するために意味のある量であることが分かっているので、1つ以上の入力パラメータ110に基づく1つ以上の調整されたパラメータ120の提供が平均値132に従ってなされる点に注意しなければならない。特に、適度なパラメータ(平均値に関して)は、通常は適度な歪みをもたらすことが分かっている。
【0059】
更なる詳細が引き続いて記載される。
【0060】
2.図2に係るアップミックス信号表現を提供する装置
【0061】
以下に、図2に係るアップミックス信号表現を提供する装置が記載される。図2は、オーディオ信号デコーダとみなすことができる装置200の概略ブロック図を示す。例えば、装置200は、SAOCデコーダまたはSAOCトランスコーダの機能を備えることができる。
【0062】
装置200は、ダウンミックス信号表現210とパラメトリックサイド情報212を受信するように構成される。また、装置200は、ユーザ指定のレンダリングパラメータ214を受信するように構成される。装置は、アップミックス信号表現220を提供するように構成される。
【0063】
ダウンミックス信号表現210は、例えば、1チャンネルのオーディオ信号または2チャンネルのオーディオ信号の表現とすることができる。ダウンミックス信号表現210は、例えば、時間ドメイン表現または符号化された表現とすることができる。いくつかの実施形態では、ダウンミックス信号表現210は、ダウンミックス信号表現210の1つ以上のチャンネルがスペクトル値の引き続くセットによって表現される、時間‐周波数ドメイン表現とすることができる。
【0064】
アップミックス信号表現220は、例えば、時間ドメイン表現または時間‐周波数ドメイン表現の形の、個々のオーディオチャンネルの表現とすることができる。あるいは、アップミックス信号表現220は、ダウンミックス信号表現と、チャンネル関連サイド情報、例えば、MPEGサラウンドサイド情報の両方を含む符号化された表現とすることができる。
【0065】
ユーザ指定のレンダリングパラメータ214は、複数のオーディオオブジェクトの、アップミックス信号表現220の1つ以上のチャンネルに対する所望の貢献度を記述するレンダリングマトリクスエントリーの形で提供することができる。あるいは、ユーザ指定のレンダリングパラメータ214は、例えば、オーディオオブジェクトの所望のレンダリング位置とレンダリング量を特定する、他のいかなる適当な形でも提供することができる。
【0066】
装置200は、ダウンミックス信号表現210とパラメトリックサイド情報212に基づいてアップミックス信号表現220を提供するように構成された、信号処理器230を備える。信号処理器230は、ダウンミックス信号表現210に基づいてアップミックス信号表現220を提供するために、再混合機能232を備える。例えば、再混合機能232は、アップミックス信号表現220の1つ以上のチャンネルを取得するために、ダウンミックス信号表現212の複数のチャンネルを線形に結合するように構成することができる。この再混合において、ダウンミックス信号表現210のチャンネルの、アップミックス信号表現220のチャンネルに対する貢献度は、混合マトリクスGの混合マトリクス要素によって決定することができ、混合マトリクスGの第1の次元(例えば、列の数)はアップミックス信号表現220のチャンネル数によって決定することができ、混合マトリクスGの第2の次元(例えば、行の数)はダウンミックス信号表現210のチャンネル数で決定することができる。
【0067】
例えば、再混合プロセス232は、ダウンミックス信号表現210の1つ以上のチャンネルのスペクトル値を含む1つ以上のベクトルを、混合マトリクスGと掛けることによって、アップミックス信号表現220の1つ以上のチャンネルに関係するスペクトル値を含む1つ以上のベクトルを提供するために用いることができる。
【0068】
信号処理器230は、また、混合マトリクスG(または同様に、その要素)を提供する、混合パラメータ演算236を備えることができる。混合マトリクス要素は、混合パラメータ演算236によって、パラメトリックサイド情報212と修正されたレンダリングパラメータ252に従って決定される。混合マトリクスGの混合マトリクス要素は、例えば、アップミックス信号表現220の1つ以上のチャンネルが、ダウンミックス信号表現210の1つ以上のチャンネルによって表されるオーディオオブジェクトを記述するように、修正されたレンダリングパラメータ252によって提供される。この目的のため、例えば、オブジェクトレベル差情報OLD、オブジェクト間相関情報IOC、ダウンミックスゲイン情報DMGおよび(オプションとして)ダウンミックスチャンネルレベル差情報DCLDを含むパラメトリックサイド情報212は、混合パラメータ演算236によって評価される。オブジェクトレベル差情報は、例えば、周波数バンドワイズに、複数のオーディオオブジェクト間のレベル差を記述することができる。同様に、オブジェクト間相関情報は、例えば、周波数バンドワイズに、複数のオーディオオブジェクト間の相関を記述することができる。ダウンミックスゲイン情報と(オプションの)ダウンミックスチャンネルレベル差情報は、オーディオオブジェクト信号を複数のオーディオオブジェクトからダウンミックス信号表現の1つ以上のチャンネルに結合するために実行され、ダウンミックス信号表現210のチャンネルよりも通常は多いオーディオオブジェクトが存在するダウンミックスを記述することができる。
【0069】
したがって、混合パラメータ演算236は、パラメトリックサイド情報212と修正されたレンダリングパラメータ252に基づいて期待された統計的特性を含むアップミックス信号表現220を取得するために、混合マトリクス要素がどのように選択されなければならないかについて評価することができる。
【0070】
信号処理器230は、パラメトリックサイド情報212を受信し、修正されたサイド情報と、再混合プロセスによって提供される関連する再混合されたダウンミックス信号表現が所望のオーディオシーンを記述するように、修正されたサイド情報(例えば、MPEGサラウンドサイド情報)を提供するように構成された、サイド情報修正あるいはサイド情報変換240をオプションとして備えることができる。
【0071】
【0072】
あるいは、信号処理器230は、分離したデコーダおよび混合器920の機能を備えることができ、ダウンミックス信号表現210は1つ以上のダウンミックス信号の役割を持つことができ、パラメトリックサイド情報212はオブジェクトメタデータの役割を持つことができ、アップミックス信号表現220は1つ以上の出力チャンネル信号928の役割を持つことができる。
【0073】
あるいは、信号処理器230は、統合化されたデコーダおよび混合器950の機能を備えることができ、ダウンミックス信号表現210は1つ以上のダウンミックス信号の役割を持つことができ、パラメトリックサイド情報212はオブジェクトメタデータの役割を持つことができ、アップミックス信号表現220は1つ以上の出力チャンネル信号958の役割を持つことができる。
【0074】
あるいは、信号処理器230は、SAOC‐MPEGサラウンドトランスコーダ980の機能を備えることができ、ダウンミックス信号表現210は1つ以上のダウンミックス信号の役割を持つことができ、パラメトリックサイド情報212はオブジェクトメタデータの役割を持つことができ、アップミックス信号表現はMPEGサラウンドビットストリーム984と組み合わされるときに1つ以上のダウンミックス信号988に相当することができる。
【0075】
いずれにせよ、修正されたレンダリングパラメータ252は、ユーザ対話/制御情報822またはレンダリング情報の役割を持つことができる。
【0076】
装置200は、また、調整されたレンダリングパラメータを提供する装置250を備える。調整されたレンダリングパラメータを提供する装置250は、ユーザ指定のレンダリングパラメータ214を受信し、それに基づいて、修正されたレンダリングパラメータ252を提供する。装置250は、通常は、異なるオーディオオブジェクトに関係する複数のユーザ指定のレンダリングパラメータを通じた平均値を算出し、平均値を取得するように構成される。また、装置250は、平均値に従ってレンダリングパラメータ制限を実行し、ユーザ指定のレンダリングパラメータ214を制限することによって、修正されたレンダリングパラメータ252を取得するように構成される。修正されたレンダリングパラメータ252が制限される許容差は、ユーザ指定のレンダリングパラメータ214の1つ以上が平均値から大きな偏差を含む場合であっても、修正されたレンダリングパラメータ252の、平均値からの大きな偏差が回避されるように、通常は平均値に従って決定される。このように、異なるオーディオオブジェクトに関係するレンダリングパラメータ間の大きな差異は聞き取れるアーチファクトに結果としてなるが、制限されたオブジェクト間偏差を含む修正されたレンダリングパラメータ252は低歪のアップミックス信号表現に結果としてなるので、アップミックス信号表現220内の過剰な歪みは、通常は回避される。
【0077】
ここで、調整されたレンダリング係数を提供する装置250は、1つ以上の調整されたパラメータを提供する装置100と同じ全体機能を備えることができ、ユーザ指定のレンダリングパラメータ214は1つ以上の入力パラメータ110の役割を持つことができ、調整されたレンダリングパラメータ252は1つ以上の調整されたパラメータ120の役割を持つことができる点に注意しなければならない。
【0078】
修正されたレンダリングパラメータ252の提供に関する詳細は、図4を参照して後述される。
【0079】
3.図3に係るアップミックス信号表現を提供する装置
【0080】
以下に、本発明の他の実施形態に係るアップミックス信号表現を提供する装置が、そのような装置300の概略ブロック図を示す図3を参照して記述される。
【0081】
本願明細書において、同一または等価である信号を記載するために同一の参照番号が用いられるように、装置300は、通常は、装置200と同じタイプの入力信号を受信し、同じタイプの出力信号を提供する。要約すると、装置300は、ダウンミックス信号表現210、パラメトリックサイド情報212、およびユーザ指定のレンダリングパラメータ214を受信し、装置300は、それに基づいて、アップミックス信号表現220を提供する。
【0082】
装置300は、信号処理器230に対して機能において実質的に等価とすることができる、信号処理器330を備える。信号処理器330は、ダウンミックス信号表現に基づいて再混合されたオーディオチャンネル信号を提供するという点で、信号処理器230の再混合機能232と同一である、再混合機能332を備える。しかしながら、再混合332は、混合パラメータ演算から直接取得される混合マトリクスよりむしろ、調整された混合マトリクスを用いる。
【0083】
信号処理器330は、また、信号処理器230の混合パラメータ演算236に対して機能において同一とすることができる、混合パラメータ演算336を備える。したがって、混合パラメータ演算336は、パラメトリックサイド情報212とユーザ指定のレンダリングパラメータ214を受信し、それに基づいて、混合マトリクスG(または、同等に、337によって示される混合マトリクスGの混合マトリクス要素)を提供する。
【0084】
信号処理器330は、オプションとして、また、サイド情報修正240と機能が、同一であるサイド情報修正338を備える。
【0085】
加えて、装置300は、調整された混合マトリクス要素を提供する装置350を備える。装置350は、信号処理器330の一部であってもよく、一部でなくてもよい。装置350は、混合パラメータ演算336によって提供される混合マトリクス337,G(または、同等に、その混合マトリクス要素)を受信し、それに基づいて、調整された混合マトリクス352,G’(または、同等に、その調整された混合マトリクス要素)を提供するように構成される。例えば、周波数バンド毎に、そしてオーディオフレーム毎に、1セットの混合マトリクス要素と、1セットの調整された混合マトリクス要素を提供することができる。言い換えれば、混合マトリクスGと修正された混合マトリクスG’は、フレームワイズの処理が選択された場合、ダウンミックス信号表現210のオーディオフレーム毎に一度更新することができる。しかしながら、更新インターバルは、場合によって異なってもよい。また、異なる周波数バンドに対して、多重の混合マトリクスと調整された混合マトリクスG,G’がある必要はない。
【0086】
しかしながら、装置350は、混合パラメータ演算336によって提供される混合マトリクス337の混合マトリクス要素に基づいて、調整された混合マトリクス352の調整された混合マトリクス要素を提供するように構成される。例えば、処理は、所定の混合マトリクス位置の一連の調整された混合マトリクス要素が、同じ混合マトリクス位置での混合マトリクス337の一連の混合マトリクス要素に依存するが、異なる混合マトリクス位置での混合マトリクス要素から独立することができるように、混合マトリクス(または調整された混合マトリクス)の位置毎に個別に実行することができる。
【0087】
調整された混合マトリクス要素を提供する装置350は、混合マトリクス337に基づいて演算される1つ以上の平均値(例えば、1つ以上のマトリクス位置個々の平均値)に従って、調整された混合マトリクス352の1つ以上の調整された混合マトリクス要素を提供するように構成される。調整された混合マトリクス352の調整された混合マトリクス要素を提供する装置350は、好ましくは、所定の混合マトリクス位置での混合マトリクス要素の時間上の平均値を算出するように構成される。このように、所定の混合マトリクス位置に対して、平均値(好ましくは、しかしながら必然的ではなく、例えば、浮動平均または準無限インパルス応答平均値または再帰的ローパスフィルタリングまたは時間平均に対してよく知られた類似する数値演算によって得られる平均値のような時間的平均値)を、所定の混合マトリクス位置の一連の混合マトリクス要素に基づいて演算することができる。有限インパルス応答平均値または(準)無限インパルス応答平均値(例えば、再帰的ローパスフィルタリングまたは時間平均に対してよく知られた類似する数値演算を用いて取得された)とすることができるそのような平均値(average value)(mean valueとしても示される)を取得するために、例えば、ダウンミックス信号表現210の所定のチャンネルの、混合マトリクス要素が複数のオーディオフレームに関係するアップミックス信号表現220の所定のチャンネルへの貢献度を記述する一連の混合マトリクス要素を用いることができる。(ダウンミックス信号表現210の所定のチャンネルの、アップミックス信号表現220の所定のチャンネルへの貢献度を記述する)所定の混合マトリクス位置の現在の調整された混合マトリクス要素は、装置350によって、所定の混合マトリクス位置に関係する平均値に従って定められる許容差に制限することができる。
【0088】
したがって、調整された混合マトリクス要素は、例えば、同じ混合マトリクス位置での前の混合マトリクス要素の平均(有限インパルス応答平均または無限インパルス応答平均)で決定される許容差に限定されるので、混合マトリクス要素の過剰な時間変動は回避される。調整された混合マトリクス352の調整された混合マトリクス要素のこのような限定は、通常は、少なくとも非最適なユーザ指定のレンダリングパラメータが最適なユーザ指定のレンダリングパラメータから予め定められた偏差より大きく偏移している場合に、非最適パラメータ(例えば、非最適なユーザ指定のレンダリングパラメータ)の使用によって生じるアップミックス信号220の歪みの制限をもたらすことが分かっている。
【0089】
ここで、調整された混合マトリクス要素を提供する装置350は、1つ以上の調整されたパラメータを提供する装置100と同じ全体の機能を備えることができ、混合マトリクス337の混合マトリクス要素は1つ以上の入力パラメータ110の役割を持つことができ、調整された混合マトリクス352の調整された混合マトリクス要素は1つ以上の調整されたパラメータ120の役割を持つことができる点に注意しなければならない。
【0090】
4.図4に係るパラメータ制限スキーム
【0091】
以下に、本発明に係るパラメータ制限スキームが、そのようなパラメータ制限スキームの概略表現を示す図4を参照して記載される。
【0092】
図4は、パラメータ制限スキームのアプリケーションを、SAOCデコーダ410と組合せて示す。しかしながら、パラメータ制限スキームは、例えば、SAOCトランスコーダのような、オーディオデコーダまたはオーディオトランスコーダの異なるタイプと組合せて適用することができる。
【0093】
SAOCデコーダ410は、ダウンミックス420とSAOCビットストリーム422を受信する。また、SAOCデコーダは、1つ以上の出力チャンネル430a〜430Mを提供する
【0094】
【0095】
【0096】
パラメータ制限スキーム450は、許容差の境界を決定することができる1つ以上のパラメータΛT-,ΛT+を受信することができる。
【0097】
4.1 概要
【0098】
以下に、歪み制御のためのパラメータ制限スキームを通じて、概要が与えられる。
【0099】
一般的なSAOC処理は、時間/周波数選択的方法で遂行され、以下に記載される。
【0100】
SAOCエンコーダは、いくつかの入力オーディオオブジェクト信号の音響心理学的特性(例えば、オブジェクトのパワー関係および相関)を抽出し、次に、それらを複合されたモノラルまたはステレオチャンネルにダウンミックスする(それは、例えば、ダウンミックス信号表現として示すことができる)。このダウンミックス信号と抽出されたサイド情報は、周知の知覚オーディオコーダを用いて、圧縮されたフォーマットで送信される(または記憶される)。受信側では、SAOCデコーダは、概念的に、送信されたサイド情報(例えば、オブジェクトレベル差情報OLD、オブジェクト間相関情報IOC、ダウンミックスゲイン情報DMGおよびダウンミックスチャンネルレベル差情報DCLD)を用いて、オリジナルのオブジェクト信号(すなわち、分離したダウンミックスオブジェクト)を復元しようと試みる。これらの近似されたオブジェクト信号は、次に、レンダリングマトリクス(通常は、異なるオーディオオブジェクトの、アップミックス信号表現の異なるチャンネルへの貢献度を記述する)を用いて、目標シーンに混合される。レンダリングマトリクスは、各送信されたオーディオオブジェクトとアップミックスセットアップスピーカに対して特定された相対レンダリング係数RC(またはオブジェクトゲイン)から構成される。これらのオブジェクトゲインは、全ての分離された/レンダーされたオブジェクトの空間位置を決定する。事実上、分離と混合は単一の複合された処理ステップにおいて実行され、それは計算量の莫大な低減に結果としてなるので、オブジェクト信号の分離はめったに実行されない(または更に決して実行されない)。単一の複合された処理ステップは、例えば、オブジェクト分離と分離されたオブジェクトの混合の組合せを記述する変換符号化係数を用いて実行することができる。
【0101】
このスキームは、伝送ビットレート(それは、多数の個別のオブジェクトオーディオ信号の代わりに、1つまたは2つのダウンミックスチャンネルと、加えていくつかのサイド情報を送信することを必要とするだけである)と、計算量(処理複雑度は、オーディオオブジェクト数よりもむしろ出力チャンネル数に主に関係する)の両方に関して、大いに効率的であることが分かっている。
【0102】
SAOCデコーダは、オブジェクトゲインと他のサイド情報を、レンダーされた出力オーディオシーン(または、更なる復号化演算、例えば、通常は多重チャンネルMPEGサラウンドレンダリングに対して前処理されたダウンミックス信号)に対して、対応する信号をつくるためにダウンミックス信号に適応される変換符号化係数(TC)に、直接的に変換(パラメトリックレベルで)する。
【0103】
レンダーされた出力シーンの主観的に知覚されたオーディオ品質は、特許文献1に記述されるように、歪み制御尺度あるいはDCMのアプリケーションによって改善することができることが分かっている。この改善は、目標レンダリング設定の適度な動的修正を受け入れる代価で達成することができる。レンダリング情報の修正は、特定の環境下で不自然な音響呈色と時間変動アーチファクトに結果としてなる可能性がある時間および周波数可変の性質を有する。
【0104】
特許文献1に記載された歪み制御尺度(DCM)の変形例として、本発明に係る実施形態は、オーディオアーチファクト(音響呈色、時間変動、その他)の低減にフォーカスし、同時に自然な音響品質を保持する、多数のパラメータ制限スキームを使用する。
【0105】
本願明細書に記載された提案されたパラメータ制限スキームのコンセプトは、音響心理学的モデルに基づく複雑なアルゴリズムを用いて算出される歪み尺度に基づいてレンダリング係数(RC)を調整することはしない。その代わりに、提案されたパラメータ制限スキームのコンセプトは、低い計算量と構成上の複雑度を示し、それ故にSAOC技術への統合化に対して魅力的である。にもかかわらず、それらは、また、お互いに補足することでより良好な全体の出力品質を達成するために、特許文献1に記載されたスキームと都合よく組合せることができる。
【0106】
全体のSAOCシステムの範囲内で、パラメータ制限スキームは、2つの方法でSAOCデコーダ処理チェーンに組み込むことができる。例えば、そのパラメータ制限スキームは、図4において変形例(a)として示されるように、レンダリング係数(RC)を制御することによってSAOC出力の間接的な(外部の)修正のためのフロントエンドに位置付けることができる。あるいは、固有の変換符号化係数(TC)は、図4において変形例(b)として示されるように、係数がダウンミックス信号に適用され、出力アップミックスチャンネル信号を生成する前に、SAOCデコーダのバックエンドにおいて直接的に(内部的に)修正される。
【0107】
4.2 間接制御
【0108】
以下に、間接制御のコンセプトが更に詳細に述べられる。
【0109】
間接制御法の基礎をなす前提は、歪みレベルと、RCのオブジェクト平均化された値からの偏差との関係を考慮する。これは、RCによって、他のオブジェクトに関する特定のオブジェクトに、特別な減衰/ブーストが適用されればされるほど、SAOCデコーダ/トランスコーダによって、伝送されたダウンミックス信号の積極的な修正が実行されるという知見に基づいている。言い換えれば、「オブジェクトゲイン」値の偏差がお互いと比較して高ければ高いほど、容認できない歪みが起こる機会が高い(同一のダウンミックス係数と仮定して)。これは、RCの、全てのオブジェクト全体のRCの平均(例えば、平均レンダリング値)からの偏差を調べることによって、テストすることができることが分かっている。
【0110】
引き続く記述は、一般性の喪失なしに、全てのオブジェクトに対して単一のダウンミックスゲインを有するモノラルダウンミックスを考慮する構成に基づいている。(異なるおよび/または動的なオブジェクトゲインを有する)非自明なダウンミックスの場合、アルゴリズムは適切に修正することができる。加えて、RCは、表記を簡単にするため、周波数不変であると仮定される。
【0111】
【0112】
【0113】
【0114】
【0115】
【0116】
【0117】
【0118】
【0119】
4.2.1 ワンステップ解法
【0120】
【0121】
【0122】
4.2.2 反復解法
【0123】
【0124】
【0125】
この処理は、全ての値が許容範囲の内側となるまで、または予め定められた反復回数によって実行することができる。
【0126】
【0127】
4.3 直接制御
【0128】
直接制御法の基礎をなす前提は、歪みレベルと、TCの時間平均された値からの偏差との関係を考慮する。これは、他のオブジェクトに関する特定のオブジェクトに対して、特別な減衰/ブーストが適用されればされるほど、TCによって送信されたダウンミックス信号の積極的な修正が、SAOCデコーダ/トランスコーダによって実行されるという知見に基づいている。言い換えれば、TCの値が異常に大きい場合、SAOCアルゴリズムは、小さいパワーを有するオブジェクト信号を、大きなブーストを適用することによって、大きいパワーを有する他のオブジェクト信号によって支配される出力内に修正することを試みると結論づけることができる。逆にいえば、TCが異常に小さい場合、SAOCアルゴリズムは、大きいパワーを有するオブジェクト信号を、大きな減衰を適用することによって、小さいパワーを有する他のオブジェクト信号によって支配される出力内に修正することを試みると結論づけることができる。いずれの場合においても、SAOC出力において、容認できないほど低い信号品質を生じる高いリスクがある。このように、中心的なアイデアは、TCの、平均値からの大きな偏差を防止することである。
【0129】
このPLSは、SAOC信号パラメータ(例えばOLD、IOC)への全ての従属と変換符号化/復号化プロセスの発見的要素を含むので、時間および周波数可変とみなすことができる。
【0130】
引き続く記述は、一般性の喪失なしに、モノラルアップミックスを考慮する構成に基づいている。
【0131】
【0132】
【0133】
【0134】
【0135】
これは、特定の予め定義された値よりもむしろTCから動的に演算される基準値に関連して実行されるTC制限演算に対応する点に注意すべきである。
【0136】
【0137】
以下に、この問題に対する可能な解法アルゴリズムが記載される。
【0138】
4.3.1 解法アルゴリズム
【0139】
【0140】
4.3.2 変換符号化係数の例
【0141】
上述の変換符号化係数に対するパラメータ制限スキームは、例えば、上で述べたSAOCデコーダおよびトランスコーダにおいて用いられる異なる変換符号化係数に適用することができる。
【0142】
【0143】
図10の表は、全てのSAOC動作モードに対して、提案されたパラメータ制限スキームによって修正、例えば、制限することができる変換符号化係数のリストを提供する。図10の表は、第1カラム1010において、異なるSAOCモードを示す。図10の表は、更に、第2カラム1020において、提案されたパラメータ制限スキームによって、どのパラメータを修正する(例えば、制限する)ことができるかを示す。第3カラム1030は、非特許文献7のMPEG‐SAOCのFCD文書の対応する節の参照表示を示す。要約すると、図10の表は、全てのSAOC動作モードに対して、提案されたパラメータ制限スキームによって修正する(例えば、制限する)ことができる変換符号化係数のリストを、MPEG‐SAOCのFCD文書の対応する節を参照して示す。
【0144】
4.4 制限された相対偏差に対するパラメータ制限スキームの一般化された定式化
【0145】
【0146】
【0147】
【0148】
以下に、2つの解法アルゴリズムが述べられる。
【0149】
一般に、このような最小化問題の正確な解を取得する解析的アプローチは、計算上大変な労力を要する。にもかかわらず、依然としてPLS目的に適するサブオプティマルな結果を提供する簡単で速い代替方法が存在する。2つのこのような簡単なアプローチがここで記載される。
【0150】
4.4.1 ワンステップ解法
【0151】
【0152】
許容範囲(それは、許容差とみなすことができる)の内側にある値は、例えば、不変のままとすることができる。
【0153】
4.4.2 反復解法
【0154】
【0155】
【0156】
反復の数は、特定の値にセットするかまたはアルゴリズムから暗黙に導き出すことができる。
【0157】
全てのこれらの方法は、上述のように、RCとTCを制限するために適用することができる点に注意しなければならない。
【0158】
4.5 一般化された線形定式化
【0159】
【0160】
【0161】
以下に、この問題に対する2つの解法アルゴリズムが記載される。
【0162】
一般に、このような最小化問題の正確な解を取得する解析的アプローチは、計算上大変な労力を要する。にもかかわらず、依然としてPLS目的に適するサブオプティマルな結果を提供する簡単で速い代替方法が存在する。2つのこのような簡単なアプローチがここで記載される。
【0163】
4.5.1 ワンステップ解法
【0164】
【0165】
4.5.2 反復解法
【0166】
【0167】
【0168】
【0169】
全てのこれらの方法は、上述のように、RCとTCを制限するために適用することができる点に注意しなければならない。
【0170】
【0171】
このバージョンのアルゴリズムは、固定の(静的な)許容範囲Λx-,Λx+を用いる。
【0172】
4.6 更なる注釈
【0173】
上述のように、全てのこれらの方法は、レンダリング係数と変換符号化係数を制限するために適用することができる点に注意しなければならない。
【0174】
5.多重チャンネルのダウンミックス/アップミックスシナリオへのパラメータ制限スキームのアプリケーション
【0175】
モノラルのダウンミックス/モノラルアップミックスシナリオの単一のTC PLS(例えば、直接制御)は、ダウンミックス/アップミックスチャンネルのいかなる組合せも考慮するTCマトリクスに拡張する。従って、直接制御は、各TCに対して個々に適用することができる。RC PLS(例えば間接制御)に対する多重チャンネルのアップミックスシナリオは、例えば、全ての個々のレンダリング係数が独立に処理される簡単な多重のモノラルアプローチにおいて実現することができる。
【0176】
6.リスニングテスト結果
【0177】
6.1 テスト計画および項目
【0178】
主観的リスニングテストは、提案された歪み制御尺度(DCM)コンセプトの知覚的パフォーマンスを評価し、それを通常のSAOC参照モデル(SAOC‐RM)復号化処理と比較するために行われた。
【0179】
テスト計画は、提案されたパラメータ制限スキームの直接および間接の制御アプローチの個々のアプリケーションのケースならびにそれらの組み合わせを含む。通常の(パラメータ制限スキームPLSによって処理されていない)SAOCデコーダの出力信号は、SAOCのベースラインパフォーマンスを実証するために、試験に含まれる。加えて、ダウンミックス信号に対応する平凡なレンダリングのケースが、リスニングテストにおいて比較の目的で用いられる。
【0180】
図5aの表は、リスニングテスト条件を記載する。
【0181】
現行のリスニングテストに対して、極端なレンダリング条件に対する典型的なおよび最もクリチカルなアーチファクトタイプを表現する4つの項目が、提案募集(CfP)のリスニングテスト素材から選択された。
【0182】
図5bの表は、リスニングテストのオーディオ項目を記載する。
【0183】
図6の表に係るレンダリングオブジェクトゲインは、考慮されるアップミックスシナリオに対して適用された。
【0184】
提案されたPLSは、通常のSAOCビットストリームおよびダウンミックス(SAOCエンコーダサイドでのいかなるPLS関連アクティビティも必要ない)を用いて動作し、残余情報を中継しないので、対応するSAOCダウンミックス信号に対してコアコーダは適用されなかった。
【0185】
【0186】
6.2 テスト方法
【0187】
主観的リスニングテストは、高品質リスニングができるように設計された音響的に隔離されたリスニングルームで行われた。再生は、ヘッドホン(Lake‐PeopleのD/AコンバータとSTAXのSRMモニタを有するSTAX SR Lamda Pro)を用いてなされた。
【0188】
テスト方法は、中間品質オーディオの主観的評価のための隠されたリファレンスとアンカーを有する多重励振(MUSHRA)法(非特許文献6)に基づいて、空間オーディオ検証試験において用いられる手順に準拠した。テスト方法は、提案されたDCMコンセプトの知覚的パフォーマンスを評価するために、ぴったりあわせて修正された。採用されたテスト方法に従って、リスナーは、以下のリスニングテスト指令に従って全てのテスト条件をお互いに比較するように命じられた。
【0189】
各オーディオ項目に対して、
●最初に、あなたがシステムユーザとして達成することを望む所望のサウンドミックスの記述を読んで下さい。
項目「BlackCoffee」: サウンドミックス内のソフトなホーンセクションサウンド
項目「Fanta4」:サウンドミックス内の大きなドラムサウンド
項目「LovePop」:サウンドミックス内のソフトなストリングセクションサウンド
項目「Audition」:ソフトな音楽と大きなボーカルサウンド
●次に、以下の両方を記述する1つの共通の等級を用いて信号を等級分けして下さい。
―所望のサウンドミックスの目的を達成する
―全体のシーンのサウンド品質(歪み、アーチファクト、不自然さ...を考慮する)
【0190】
合計9人のリスナーは、実行された試験の各々に参加した。全ての被検者は、経験豊かなリスナーとみなすことができる。テスト条件は、各テスト項目と各リスナーに対して自動的にランダム化された。主観的応答は、コンピュータベースのMUSHRAプログラムによって、0から100にわたるスケールで記録された。テスト下の項目間の瞬時スイッチングが可能とされた。
【0191】
6.3 リスニングテスト結果
【0192】
取得されたリスニングテスト結果を示す図面に関する簡単な概要は、解説において見ることができる。これらのプロットは、全てのリスナーを通じた項目毎の平均MUSHRA等級と、全ての評価された項目を通じた統計的平均値を、関連する95%の信頼区間と共に示す。
【0193】
行われたリスニングテストの結果に基づいて、以下の知見をなすことができる。行われた全てのリスニングテストに対して、取得されたMUSHRAスコアは、通常のSAOC‐RMシステムと比較して、全体の統計的平均値の意味で、提案されたPLS機能が良好なパフォーマンスを提供することを証明している。通常のSAOCデコーダ(考慮された極端なレンダリング条件に対して大きなオーディオアーチファクト示す)によって生成された全ての項目の品質は、所望のレンダリングシナリオを全く満たさないダウンミックとス同一のレンダリング設定の品質と比較して、わずかに高く等級分けされる点に注意しなければならない。それ故、提案されたPLSは、全ての考慮されるリスニングテストシナリオに対して、主観的信号品質のかなりの改善に導くと結論づけることができる。また、最も有望な制限システムは、RCとTCのPLSの両方の組合せから成ると結論づけることができる。
【0194】
リスニングテスト結果に関する詳細は、図7の図解図において見ることができる。
【0195】
7.実施変形例
【0196】
いくつかの態様が装置の局面において記載されてきたが、これらの態様は、1つのブロックまたはデバイスが1つの方法ステップまたは方法ステップの特徴に対応する、対応する方法の記述をも表していることは明らかである。同様に、方法ステップの局面において記載された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の記述をも表している。いくつかまたは全ての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(または用いて)実行することができる。いくつかの実施形態において、いくつかの1つ以上の最も重要な方法ステップは、このような装置によって実行することができる。
【0197】
発明の符号化されたオーディオ信号は、デジタル記憶媒体上に記憶することができる、または、無線伝送媒体のような伝送媒体またはインターネットのような有線伝送媒体上を送信することができる。
【0198】
特定の実施要求に従って、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に格納される電子的に読み込み可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。従って、デジタル記憶媒体はコンピュータ読取可能とすることができる。
【0199】
本発明に係るいくつかの実施形態は、電子的に読み込み可能な制御信号を有し、本願明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協動することができる、データキャリアを含む。
【0200】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本発明の方法の1つを実行するために動作可能であるプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械読取可能なキャリア上に記憶することができる。
【0201】
他の実施形態は、機械読取可能なキャリア上に記憶され、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムを含む。
【0202】
言い換えれば、本発明の方法の実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0203】
本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムがその上に記録されたデータキャリア(またはデジタル記憶媒体またはコンピュータ読取可能媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、通常は有形および/または非遷移的である。
【0204】
本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続、例えばインターネットを介して伝送されるように構成することができる。
【0205】
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成され、または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
【0206】
更なる実施形態は、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
【0207】
いくつかの実施形態では、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を、本願明細書に記載された方法の機能の一部または全部を実行するために用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
【0208】
上記した実施形態は、単に本発明の原理に対して説明したものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。本発明は、それ故に、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明によって提供された特定の詳細によって制限されないことを意図する。
【0209】
8.結論
【0210】
本発明に係る実施形態は、オーディオデコーダにおける歪み制御に対して、パラメータ制限スキームを構築する。本発明に係るいくつかの実施形態は、所望の再生セットアップ(例えば、モノラル、ステレオ、5.1、他)の選択と、個人的な嗜好または他の基準に従ってレンダリングマトリクスを制御することによる所望の出力レンダリングシーンの対話式リアルタイム修正のためのユーザインターフェース手段を提供する、空間オーディオオブジェクト符号化(SAOC)に焦点を合わせている。しかしながら、提案された方法をパラメトリック技術に一般的に適合させることは、直接的な作業である。
【0211】
ダウンミックス/分離/混合ベースのパラメトリックアプローチのため、レンダーされたオーディオ出力の主観的品質はレンダリングパラメータ設定に依存する。ユーザ選択のレンダリング設定を選択する自由度は、全体の音響シーン内のオブジェクトの極端なゲイン操作のような、不適切なオブジェクトレンダリングオプションを選択するユーザのリスクを引き起こす。
【0212】
商用製品に対して、悪い音響品質および/またはオーディオアーチファクトを生じることは、ユーザインターフェースのいかなる設定に対しても、なんとしても容認できない。生成されたSAOCオーディオ出力の過剰な歪みを制御するために、レンダーされたシーンの知覚的な品質の尺度を演算し、この尺度(および他の情報)に基づいて、実際に適用されたレンダリング係数を修正するというアイデアに基づく、いくつかの計算上の尺度が記述されている(特許文献1参照)。
【0213】
本発明は、次のようなレンダーされたSAOCシーンの主観的音響品質を保護する代替のアイデアを構築する。
●全ての処理がSAOCデコーダ/トランスコーダの中で完全に行われる
●レンダーされた音響シーンの知覚されたオーディオ品質の複雑な尺度の明示の計算を含まない
【0214】
これらのアイデアは、このように、SAOCデコーダ/トランスコーダのフレームワーク内で、構造的に簡単で極めて効率的な方法で実施することができる。提案された歪み制御メカニズム(DCM)は、SAOCデコーダ、すなわち、レンダリング係数(RC)および変換符号化係数(TC)に固有のパラメータを制限することを目的とするので、本書面の全体にわたって、パラメータ制限スキーム(PLS)と呼ばれる。
【0215】
しかしながら、パラメータ制限スキームは、いかなる異なるオーディオデコーダに対しても同様に適用することができる。
【技術分野】
【0001】
本発明に係る実施形態は、ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の調整されたパラメータを提供する装置に関する。
【0002】
本発明に係る他の実施形態は、ダウンミックス信号表現とパラメトリックサイド情報に基づいてアップミックス信号表現を提供する装置に関する。
【0003】
本発明に係る他の実施形態は、ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の調整されたパラメータを提供する方法に関する。
【0004】
本発明に係る他の実施形態は、前記方法を実行するためのコンピュータプログラムに関する。
【0005】
本発明に係るいくつかの実施形態は、MPEG‐SAOCにおける歪み制御のためのパラメータ制限スキームに関する。
【背景技術】
【0006】
オーディオ処理、オーディオ伝送およびオーディオ記憶の技術において、聴覚インプレッションを改善するために、マルチチャンネルコンテンツを取り扱うという増大する要望がある。マルチチャンネルオーディオコンテンツの使用は、ユーザに対して有意の進歩をもたらす。例えば、娯楽アプリケーションにおいて、改善されたユーザ満足度をもたらす三次元聴覚インプレッションを取得することができる。しかしながら、マルチチャンネルオーディオコンテンツは、また、マルチチャンネルオーディオ再生を用いて話者了解度を改善することができるので、専門の環境、例えば電話会議アプリケーションにおいて有用である。
【0007】
しかしながら、また、マルチチャンネルアプリケーションによって生じる過度なリソース負荷を回避するために、オーディオ品質とビットレート要求条件との良好なトレードオフを有することが望ましい。
【0008】
最近、ビットレートの効率的な伝送のためのパラメトリック技術および/または多重のオーディオオブジェクトを含むオーディオシーンの記憶、例えば、バイノーラルキュー符号化(I型)(例えば、非特許文献1を参照)、ジョイントソース符号化(例えば、非特許文献2を参照)、およびMPEG空間オーディオオブジェクト符号化(SAOC)(例えば、非特許文献3,4,5を参照)が提案されている。
【0009】
受信サイドでのユーザ対話性と共に、このような技術は、極端なオブジェクトレンダリングが実行される場合に、出力信号の低いオーディオ品質に結果として導く可能性がある(例えば、特許文献1を参照)。
【0010】
これらの技術は、所望の出力オーディオシーンを、波形マッチングによるよりもむしろ知覚的に復元することを目指している。
【0011】
図8は、このようなシステム(ここでは、MPEG‐SAOC)のシステム概要を示す。図8に示されるMPEG−SAOCシステム800は、SAOCエンコーダ810とSAOCデコーダ820を備える。SAOCエンコーダ810は、例えば、時間ドメイン信号として、または時間‐周波数ドメイン信号(例えば、フーリエタイプ変換の変換係数のセットの形の、またはQMFサブバンド信号の形の)として表すことができる複数のオブジェクト信号x1〜xNを受信する。SAOCエンコーダ810は、通常は、オブジェクト信号x1〜xNに関係するダウンミックス係数d1〜dNも受信する。ダウンミックス係数の分離したセットは、ダウンミックス信号の各チャンネルに対して利用することができる。SAOCエンコーダ810は、通常は、オブジェクト信号x1〜xNを関係するダウンミックス係数d1〜dNに従って結合することによって、ダウンミックス信号のチャンネルを取得するように構成される。通常、ダウンミックスチャンネルは、オブジェクト信号x1〜xNより少ない。SAOCデコーダ820の側でのオブジェクト信号の分離(または分離処理)を(少なくとも近似的に)可能とするため、SAOCエンコーダ810は、1つ以上のダウンミックス信号(ダウンミックスチャンネルとして示される)812と、サイド情報814の両方を提供する。サイド情報814は、デコーダ側でのオブジェクト特有の処理を可能とするため、オブジェクト信号x1〜xNの特性を記述する。
【0012】
SAOCデコーダ820は、1つ以上のダウンミックス信号812とサイド情報814の両方を受信するように構成される。また、SAOCデコーダ820は、通常は、所望のレンダリングセットアップを記述するユーザ対話情報および/またはユーザ制御情報822を受信するように構成される。例えば、ユーザ対話情報/ユーザ制御情報822は、スピーカセットアップと、オブジェクト信号x1〜xNを提供するオブジェクトの所望の空間配置を記述することができる。
【0013】
【0014】
【0015】
ここで図9a、9b、9cを参照して、ダウンミックス信号表現とオブジェクト関連サイド情報に基づいてアップミックス信号表現を取得する異なる装置が記載される。オブジェクト関連サイド情報は、ダウンミックス信号に関係するサイド情報の例である点に注意しなければならない。図9aは、SAOCデコーダ920を備えるMPEG‐SAOCシステム900の概略ブロック図である。SAOCデコーダ920は、分離した機能ブロックとして、オブジェクトデコーダ922と混合器/レンダー器926を備える。オブジェクトデコーダ922は、ダウンミックス信号表現(例えば、時間ドメインにおいてまたは時間‐周波数ドメインにおいて表現される1つ以上のダウンミックス信号の形の)と、オブジェクト関連のサイド情報(例えば、オブジェクトメタデータの形の)に従って、複数の復元されたオブジェクト信号924を提供する。混合器/レンダー器926は、複数のN個のオブジェクトに関係する復元されたたオブジェクト信号924を受信し、それとレンダリング情報に基づいて、1つ以上のアップミックスチャンネル信号928を提供する。SAOCデコーダ920において、オブジェクト信号924の抽出は、オブジェクト復号化機能の混合/レンダリング機能からの分離を可能とする混合/レンダリングから分離して実行されるが、比較的高い計算量をもたらす。
【0016】
ここで図9bを参照して、SAOCデコーダ950を備える他のMPEG‐SAOCシステム930が簡単に述べられる。SAOCデコーダ950は、ダウンミックス信号表現(例えば、1つ以上のダウンミックス信号の形の)と、オブジェクト関連サイド情報(例えば、オブジェクトメタデータの形の)に従って、複数のアップミックスチャンネル信号958を提供する。SAOCデコーダ950は、オブジェクト復号化と混合/レンダリングの分離なしの合同の混合プロセスにおいてアップミックスチャンネル信号958を取得するように構成され、前記合同のアップミックスプロセスに対するパラメータがオブジェクト関連サイド情報とレンダリング情報の両方に依存する、複合されたオブジェクトデコーダおよび混合器/レンダー器を備える。合同のアップミックスプロセスは、オブジェクト関連サイド情報の一部であるとみなされるダウンミックス情報にも依存する。
【0017】
上記を要約すると、アップミックスチャンネル信号928、958の提供は、1つのステッププロセスまたは2つのステッププロセスにおいて実行することができる。
【0018】
ここで図9cを参照して、MPEG‐SAOCシステム960が記載される。SAOCシステム960は、SAOCデコーダよりもむしろ、SAOC‐MPEGサラウンドトランスコーダ980を備える。
【0019】
SAOC‐MPEGサラウンドトランスコーダは、オブジェクト関連サイド情報(例えば、オブジェクトメタデータの形の)と、オプションとして、1つ以上のダウンミックス信号とレンダリング情報に関係する情報を受信するように構成された、サイド情報トランスコーダ982を備える。サイド情報トランスコーダは、また、受信されたデータに基づいて、MPEGサラウンドサイド情報(例えば、MPEGサラウンドビットストリームの形の)を提供するように構成される。したがって、サイド情報トランスコーダ982は、オブジェクトエンコーダから受信されるオブジェクト関連(パラメトリック)サイド情報を、レンダリング情報とオプションとして1つ以上のダウンミックス信号のコンテンツについての情報を考慮に入れて、チャンネル関連(パラメトリック)サイド情報に変換するように構成される。
【0020】
オプションとして、SAOC‐MPEGサラウンドトランスコーダ980は、例えば、ダウンミックス信号表現によって記述された1つ以上のダウンミックス信号を操作し、操作されたダウンミックス信号表現988を取得するように構成することができる。しかしながら、SAOC‐MPEGサラウンドトランスコーダ980の出力ダウンミックス信号表現988がSAOC‐MPEGサラウンドトランスコーダの入力ダウンミックス信号表現と同じであるように、ダウンミックス信号操作器986を省略することができる。ダウンミックス信号操作器986は、例えば、いくつかのレンダリング配列において存在する可能性がある、チャンネル関連MPEGサラウンドサイド情報984がSAOC‐MPEGサラウンドトランスコーダ980の入力ダウンミックス信号表現に基づいて所望の聴覚インプレッションを提供することを可能にしない場合に、用いることができる。
【0021】
したがって、SAOC‐MPEGサラウンドトランスコーダ980は、SAOC‐MPEGサラウンドトランスコーダ980へのレンダリング情報入力に従ってオーディオオブジェクトを表現する複数のアップミックスチャンネル信号を、MPEGサラウンドビットストリーム984とダウンミックス信号表現988を受信するMPEGサラウンドデコーダを用いて生成することができるように、ダウンミックス信号表現988とMPEGサラウンドビットストリーム984を提供する。
【0022】
上記を要約すると、SAOC符号化されたオーディオ信号を復号化するために異なるコンセプトを用いることができる。場合によっては、ダウンミックス信号表現とオブジェクト関連パラメトリックサイド情報に従ってアップミックスチャンネル信号(例えば、アップミックスチャンネル信号928、958)を提供する、SAOCデコーダが用いられる。このコンセプトに対する実施例は、図9aと9bに見ることができる。あるいは、SAOC符号化されたオーディオ情報は、所望のアップミックスチャンネル信号を提供するためにMPEGサラウンドデコーダによって用いることができる、ダウンミックス信号表現(例えばダウンミックス信号表現988)とチャンネル関連サイド情報(例えば、チャンネル関連MPEGサラウンドビットストリーム984)を取得するために変換することができる。
【0023】
図8においてシステム概要が与えられる、MPEG‐SAOCシステム800において、一般的な処理が周波数選択的方法で行われ、各周波数バンド内で以下のように記述することができる。
●N個の入力オーディオオブジェクト信号x1〜xNは、SAOCエンコーダ処理の一部としてダウンミックスされる。モノラルダウンミックスに対して、ダウンミックス係数は、d1〜dNで示される。加えて、SAOCエンコーダ810は、入力オーディオオブジェクトの特性を記述するサイド情報814を抽出する。MPEG‐SAOCに対して、お互いに関するオブジェクトパワーの関係は、このようなサイド情報の最も基本的な形である。
●ダウンミックス信号812とサイド情報814は、送信され、および/または、記憶される。この目的に対して、ダウンミックスオーディオ信号は、MPEG‐1のレイヤIIまたはIII(「.mp3」としても知られる)、MPEGアドバンストオーディオコーディング(AAC)またはその他のオーディオコーダのような周知の知覚的オーディオコーダを用いて圧縮することができる。
●事実上、オブジェクト信号の分離は、分離ステップ(オブジェクト分離器820aによって示される)と混合ステップ(混合器820cによって示される)の両方がしばしば計算量において莫大な減少に結果としてなる単一の変換符号化ステップに結合されるので、ほとんど実行されない(または決して実行されない)。
【0024】
このようなスキームは、伝送ビットレート(N個の離散オブジェクトオーディオ信号または離散システムの代わりに、少しのダウンミックスチャンネルといくつかのサイド情報を送信することが必要なだけである)と計算量(処理複雑度は、主にオーディオオブジェクトの数よりむしろ出力チャンネル数に関係する)の両方に関して、大いに効率的であることが分かっている。受信端のユーザに対する更なる利益は、ユーザ選択(モノラル、ステレオ、サラウンド、バーチャル化されたヘッドホン再生、その他)のレンダリングセットアップを選択する自由度と、ユーザ対話性の特徴を含み、レンダリングマトリクス、従って出力シーンは、ユーザによって、意志、個人的嗜好または他の基準に従って設定し、対話的に変更することができる。例えば、1つの空間エリアに固まっている1つのグループから話し手を位置決めし、他の残りの話し手からの識別を最大化することが可能である。この対話性は、デコーダ・ユーザインターフェースを提供することによって達成される。
【0025】
各送信されたオブジェクトに対して、その相対レベルと、(非モノラルレンダリングに対して)レンダリングの空間位置を調整することができる。これは、ユーザが付随するグラフィカルユーザインターフェイス(GUI)のスライダの位置を変える(例えば、object level = +5dB, object position = -30deg)ように、リアルタイムに発生することができる。
【0026】
【0027】
【先行技術文献】
【非特許文献】
【0028】
【非特許文献1】C. Faller および F. Baumgarte、「バイノーラルキュー符号化‐第2部:スキームおよびアプリケーション」、IEEE Trans. on Speech and Audio Proc., vol.11, No. 6、2003年11月
【非特許文献2】C. Faller、「オーディオソースのパラメトリックジョイント符号化」、第120回AES大会、予稿集6752、パリ、2006年
【非特許文献3】J. Herre, S. Disch, J. Hilpert, O. Hellmuth、「SACからSAOC‐ 空間オーディオのパラメトリック符号化における最近の成果」、第22回英国AES会議、ケンブリッジ、英国、2007年4月
【非特許文献4】J. Engdegaerd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen、「空間オーディオオブジェクト符号化(SAOC)‐ パラメトリックオブジェクトベースのオーディオ符号化に関するやがて公開されるMPEG標準」、第124回AES大会、予稿集7377、アムステルダム、2008年
【非特許文献5】ISO/IEC、「MPEGオーディオ技術‐第2部:空間オーディオオブジェクト符号化(SAOC)」、ISO/IEC JTC1/SC29/WG11(MPEG)FCD23003-2
【非特許文献6】EBU技術勧告:「中間オーディオ品質の主観的リスニングテストのためのMUSHRA‐EBU法」、文書B/AIM022、1999年10月
【非特許文献7】ISO/IEC JTC1/SC29/WG11(MPEG)、文書N10843、「ISO/IEC23003-2に関する研究:200x年空間オーディオオブジェクト符号化(SAOC)」、第89回MPEGミーティング、ロンドン、英国、2009年7月
【特許文献】
【0029】
【特許文献1】米国特許出願61/173,456、歪みを回避するオーディオ信号処理の方法、装置およびコンピュータプログラム
【発明の概要】
【0030】
上記課題は、ダウンミックス信号表現と、前記ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の適応されたパラメータを提供する装置によって解決される。装置は、1つ以上のパラメータ(それは、いくつかの実施形態において、入力パラメータとすることができる)を受信し、それに基づいて、1つ以上の調整されたパラメータを提供するように構成された、パラメータ調整器を備える。パラメータ調整器は、非最適パラメータの使用によって生じるアップミックス信号表現の歪みが、少なくとも最適パラメータから予め定められた偏差以上偏移しているパラメータ(または入力パラメータ)に対して低減されるように、複数のパラメータ値(それは、いくつかの実施形態において、入力パラメータ値とすることができる)の平均値に従って、1つ以上の調整されたパラメータを提供するように構成される。
【0031】
本発明に係るこの実施形態は、歪みはしばしば平均値からの過剰な偏差によって生ずるので、複数の入力パラメータ値の平均値が、ダウンミックス信号表現とダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に用いられるパラメータの調整を可能にする意味のある量を構成するという考えに基づいている。平均値の使用は、平均値(average value)(時には、中間値(mean value)としても示される)からのこのような過剰な偏差を回避するために、1つ以上のパラメータの調整を可能にし、従って極端に劣化したオーディオ品質を回避するという可能性をもたらす。
【0032】
上述された実施形態は、SAOCデコーダ/トランスコーダがパラメータの調整に必要な全情報を備えるので、全ての処理を完全にSAOCデコーダ/トランスコーダ内で行うことができるレンダーされたSAOCシーンの主観的音質を保護するコンセプトを提供する。また、パラメータ値と平均値との大きな偏差は、通常は聞き取れる歪みに結果としてなるのに対して、パラメータ値と平均値との偏差の制限は、通常は良好な聴覚インプレッションに結果としてなることが分かっているので、上述の実施形態は、レンダーされたシーンの知覚されたオーディオ品質の複雑な尺度の明示の計算を含まない。このように、上述された実施形態は、アップミックス信号表現の提供に対して考慮されるパラメータを適切に調整するために、特に効率的なメカニズム、すなわち、平均値の使用を提供する。
【0033】
好ましい実施形態において、装置のパラメータ調整器は、複数のパラメータ値の加重平均である平均値に従って、1つ以上の調整されたパラメータを提供するように構成される。
tは異なるパラメータ値に対して異なる重みを割り当てることが可能であるので、加重平均を使用することは高度な自由度を提供する。しかしながら、パラメータ値に対して同じ重みを割り当てることも可能である。
【0034】
好ましい実施形態において、装置のパラメータ調整器は、1つ以上の調整されたパラメータが、平均値から、対応する受信されたパラメータよりも小さく偏移するように、1つ以上の調整されたパラメータを提供するように構成される。調整されたパラメータを、平均値の近くに持ってくることによって、またはさらに平均値に等しくセットすることによって、歪みの有意の低減を達成することができる。
【0035】
好ましい実施形態において、装置は、オーディオオブジェクトの、アップミックス信号表現の1つ以上のチャンネルに対する貢献度を記述する1つ以上のレンダリング係数(レンダリングパラメータとしても示される)を受信するように構成される。この場合、装置は、好ましくは、調整されたパラメータとして、1つ以上の調整されたレンダリング係数を提供するように構成される。入力パラメータ値の役割をする複数のレンダリングパラメータの平均値に従ってレンダリングパラメータを調整することは、過剰な聞き取れる歪みを回避する適切に調整されたレンダリングパラメータを取得する可能性をもたらすことが分かっている。
【0036】
好ましい実施形態において、パラメータ調整器は、入力パラメータとして、複数のレンダリング係数を受信するように構成される。この場合、パラメータ調整器は、複数のオーディオオブジェクトに関係するレンダリング係数を通じた平均を計算するように構成される。また、パラメータ調整器は、調整されたレンダリング係数の、複数のオーディオオブジェクトに関係するレンダリング係数を通じた平均からの偏差が限定されるように、調整されたレンダリング係数を提供するように構成される。本発明に係るこの実施形態は、調整されたレンダリング係数の、複数のオーディオオブジェクトに関係するレンダリング係数を通じた平均からの偏差が限定される場合に、非最適レンダリングパラメータの使用によって生じるアップミックス信号表現の歪みは、少なくとも最適レンダリングパラメータから予め定められた偏差よりも大きく偏移しているレンダリングパラメータに対して、通常は低減されるという発見に基づいている。このように、簡単なメカニズム、すなわち、調整されたレンダリング係数の、複数のオーディオオブジェクトに関係するレンダリング係数を通じた平均からの偏差が限定されるようなレンダリング係数の調整が、過剰な聞き取れる歪みを回避することを可能とする。
【0037】
好ましい実施形態において、パラメータ調整器は、レンダリング係数を通じた平均に従って決定される許容差の範囲内にあるレンダリング係数を不変のままにし、許容差の上側境界値よりも大きいレンダリング係数を上側境界値より小さいまたは等しい値に選択的にセットし、許容差の下側境界値よりも小さいレンダリング係数を下側境界値より大きいまたは等しい値に選択的にセットするように構成される。したがって、レンダリング係数を調整するために、平均値から大きく異なる非最適レンダリングパラメータの使用によって生じるアップミックス信号表現の過剰な歪みを回避する調整されたレンダリング係数を取得することを依然として可能とする、非常に簡単なメカニズムが確立される。
【0038】
好ましい実施形態において、パラメータ調整器は、それぞれの反復において、レンダリング係数を通じた平均からの最大偏差を含むレンダリング係数のそれぞれの1つを反復的に選択し、レンダリング係数の選択された1つを、レンダリング係数を通じた平均の近くに持ってくるように構成される。したがって、レンダリング係数を通じた平均に従って決定される許容差の外側にあるレンダリングパラメータは、反復的に許容差内に持ってこられる。このように、レンダリングパラメータは、非最適レンダリングパラメータの使用によって生じるアップミックス信号表現の歪みが、通常は低減されるように(少なくとも、最適レンダリングパラメータから、予め定められた偏差より大きく偏移している入力レンダリングパラメータに対して)、平均値に従って調整される。
【0039】
好ましい実施形態において、パラメータ調整器は、レンダリング係数のそれぞれの1つの反復的な選択と、選択された1つのレンダリング係数の反復的な修正を、全てのレンダリングパラメータが適用可能な許容差の範囲内にあるように調整されるまで繰り返すように構成される。したがって、アップミックス信号表現における聞き取れる歪みが十分小さく保たれることが確保される。
【0040】
好ましい実施形態において、装置は、ダウンミックス信号表現の1つ以上のチャンネルの、アップミックス信号表現の1つ以上のチャンネルへのマッピングを記述する1つ以上の変換符号化係数を受信するように構成される。この場合、装置は、調整されたパラメータとして、1つ以上の調整された変換符号化係数を提供するように構成される。本発明に係るこの実施形態は、変換符号化係数の平均値からの大きな偏差が通常は聞き取れる歪みを生じるので、変換符号化パラメータは、平均値に従う調整に対しても適切であるという発見に基づいている。したがって、平均値に従う変換符号化パラメータの調整または制限によって、非最適変換符号化パラメータの使用によって生じるアップミックス信号表現の歪みを、(少なくとも、最適変換符号化パラメータから予め定められた偏差より大きく偏移している入力変換符号化パラメータに対して)低減することが可能である。
【0041】
好ましい実施形態において、パラメータ調整器は、入力パラメータとして、変換符号化係数(変換符号化パラメータとしても示される)の時間シーケンスを受信するように構成される。この場合、パラメータ調整器は、複数の変換符号化係数に従って時間平均(temporal mean)(temporal averageとしても示される)を演算するように構成される。また、パラメータ調整器は、調整された変換符号化係数の時間平均からの偏差が限定されるように、調整された変換符号化係数を提供するように構成される。あらためて、非最適変換符号化係数の使用によって生じるアップミックス信号表現の過剰な聞き取れる歪みを回避する簡単なメカニズムが構築される。
【0042】
好ましい実施形態において、パラメータ調整器は、時間平均(それは平均値を構成する)に従って決定される許容差の範囲内にある変換符号化係数を不変のままにするように構成される。また、パラメータ調整器は、許容差の上側境界値よりも大きい変換符号化係数を、許容差の上側境界値よりも小さいまたは等しい値に選択的にセットし、許容差の下側境界値よりも小さい変換符号化係数を、許容差の下側境界値よりも大きいまたは等しい値に選択的にセットするように構成される。したがって、変換符号化係数は、非最適変換符号化の使用によって生じるアップミックス信号表現の歪みを、少なくとも最適変換符号化係数から予め定められた偏差よりも大きく偏差している変換符号化係数に対して低減することを可能とする明確に定められた許容差内に持ってくることができる。許容差は、時間平均が用いられるので、適応的な方法で選択される。このコンセプトは、変換符号化係数の大きな時間変化は、通常は聞き取れる歪みをもたらし、それ故にある程度に制限しなければならないという発見に基づいている。
【0043】
好ましい実施形態において、パラメータ調整器は、時間平均を、一連の変換符号化係数の再帰的ローパスフィルタリングを用いて算出するように構成される。このコンセプトは、変換符号化係数の長期の進化を考慮に入れた非常に明確に定められた時間平均をもたらすことを示している。また、一連の変換符号化係数のこのような再帰的ローパスフィルタリングは、少ない計算労力とメモリ要求条件を低減することを助ける記憶労力によって遂行することができることが分かっている。特に、長期の期間に対する変換符号化係数の履歴を記憶することなく、意味のある時間平均を取得することが可能である。
【0044】
好ましい実施形態において、パラメータ調整器は、調整されたパラメータの所定の1つが、複数の入力パラメータの平均値と1つ以上の許容差パラメータに従って境界が定められる許容差の範囲内にあるように、そして、入力パラメータと、対応する調整されたパラメータとの偏差が最小化されるまたは予め定められた最大許容範囲内に保持されるように、1つ以上の調整されたパラメータの所定の1つを提供するように構成される。良好な聴覚インプレッションをもたらす調整されたパラメータは、入力パラメータと、対応する調整されたパラメータとの過度に大きな差異を回避する目的を考慮に入れながら、調整されたパラメータを許容差に限定することによって、取得することができることが分かっている。したがって、非最適パラメータの使用によって生じるアップミックス信号表現の歪みを、入力パラメータによって定められる所望の聴覚設定を不必要に妥協することなく低減することができる。
【0045】
好ましい実施形態において、パラメータ調整器は、入力パラメータの調整されたバージョンを取得するために、複数の入力パラメータ値の平均値に従って境界が定められる許容差の外側にあることがわかった入力パラメータを、許容差の上側境界値または下側境界値に選択的にセットするように構成される。
【0046】
他の好ましい実施形態において、パラメータ調整器は、(平均値に従って境界が定められる)許容差の外側にある入力パラメータを、許容差内に反復的に持ってくるために、それぞれの反復において、平均値からの最大偏差を含む入力パラメータのそれぞれ1つを反復的に選択し、入力パラメータの選択された1つを平均値の近くに持ってくるように構成される。
【0047】
好ましい実施形態において、パラメータ調整器は、入力パラメータの選択された1つを平均値の近くに持ってくるために使用されるステップサイズを、入力パラメータの選択された1つと平均値の差異の予め定められた分数になるように選択するように構成される。
【0048】
本発明に係る他の実施形態は、ダウンミックス信号表現とパラメトリックサイド情報に基づいてアップミックス信号表現を提供する装置を構築する。前記装置は、前に述べられたような、1つ以上の入力パラメータに基づいて1つ以上の調整されたパラメータを提供する装置を備える。アップミックス信号表現を提供する装置は、また、ダウンミックス信号表現とパラメトリックサイド情報に基づいてアップミックス信号表現を取得するように構成された信号処理器を備える。1つ以上の調整されたパラメータを提供する装置は、信号処理器の1つ以上の処理パラメータの、例えば、信号処理器に入力されるレンダリングパラメータの、または、アップミックス信号表現を取得するために、信号処理器において演算され、信号処理器によって適用される変換符号化パラメータの、調整されたバージョンを提供するように構成される。
【0049】
この実施形態は、信号処理器によって適用され、信号処理器に入力されるかまたはさらに信号処理器において算出されるかのいずれかであり、平均値に基づく上述のパラメータ調整から利益を得ることができる多数のパラメータがあるという発見に基づいている。信号処理器は、通常は、パラメータのセット(例えば、異なるオーディオオブジェクトに関係するレンダリング係数のセット、または時間において異なるインスタンスに関係する変換符号化係数のセット)が良くバランスしている場合に、そのような値のセットの個々の値が平均値からの過度に大きい偏差を含まないように、小さい歪みで、良い品質のアップミックス信号表現を提供することが分かっている。このように、1つ以上の調整されたパラメータを提供する装置を、アップミックス信号表現を提供する装置と組み合わせて適用することによって、発明コンセプトの利益を実現することができる。
【0050】
好ましい実施形態において、信号処理器は、オーディオオブジェクトの、アップミックス信号表現の1つ以上のチャンネルに対する貢献度を記述する調整されたレンダリング係数に従ってアップミックス信号表現を提供するように構成される。1つ以上の調整されたパラメータを提供する装置は、入力パラメータとして、複数のユーザ指定のレンダリングパラメータを受信し、それに基づいて、信号処理器による使用のために(好ましくは信号処理器に)、1つ以上の調整されたレンダリングパラメータを提供するように構成される。1つ以上の調整されたパラメータを提供する装置を用いて取得することができる良くバランスしたレンダリングパラメータは、通常は良い聴覚インプレッションに結果としてなることが分かっている。
【0051】
他の実施形態において、1つ以上の調整されたパラメータを提供する装置は、1つ以上の入力パラメータとして、混合マトリクスの1つ以上の混合マトリクス要素を受信し、それに基づいて、信号処理器による使用のために、混合マトリクスの1つ以上の調整された混合マトリクス要素を提供するように構成される。この場合、信号処理器は、ダウンミックス信号表現の1つ以上のオーディオチャンネル信号(例えば、時間ドメイン表現の形でまたは時間‐周波数ドメイン表現の形で表された)の、アップミックス信号表現の1つ以上のオーディオチャンネル信号上へのマッピングを記述する混合マトリクスの調整された混合マトリクス要素に従って、アップミックス信号表現を提供するように構成される。混合マトリクス要素は、また、例えば、混合マトリクス要素の時間的変化が制限されているという点で、平均値によく適合しなければならないことが分かっている。
【0052】
本発明に係る他の実施形態において、オーディオ処理器は、MPEGサラウンド任意ダウンミックスゲイン値を取得するように構成される。この場合、1つ以上の調整されたパラメータを提供する装置は、入力パラメータとして、複数の任意ダウンミックスゲイン値を受信し、複数の調整された任意ダウンミックスゲインを提供するように構成される。任意ダウンミックスゲイン値に対する調整されたパラメータを提供する装置のアプリケーションは、また、良好な聴覚インプレッションに結果としてなり、聞き取れる歪みを制限することを可能にすることが分かっている。
【0053】
本発明に係る更なる実施形態は、1つ以上の調整されたパラメータを提供する方法およびコンピュータプログラムを構築する。前記実施形態は、上述の装置と同じ知見に基づき、発明の装置に関して本願明細書において述べられた構成および機能のいずれかによって拡張することができる。
【図面の簡単な説明】
【0054】
【図1】本発明の実施形態に係る1つ以上の調整されたパラメータを提供する装置の概略ブロック図を示す。
【図2】本発明の実施形態に係るアップミックス信号表現を提供する装置の概略ブロック図を示す。
【図3】本発明の他の実施形態に係るアップミックス信号表現を提供する装置の概略ブロック図を示す。
【図4】間接制御および直接制御を用いたパラメータ制限スキーム概略表現を示す。
【図5a】リスニングテスト条件を表すテーブルを示す。
【図5b】リスニングテストのオーディオ項目を表すテーブルを示す。
【図6】テストされた極端なレンダリング条件を表すテーブルを示す。
【図7】異なるパラメータ制限スキーム(PLS)に対するMUSHRAリスニングテスト結果のグラフィック表現を示す。
【図8】参照用MPEG‐SAOCシステムの概略ブロック図を示す。
【図9a】分離したデコーダおよび混合器を用いた参照用SAOCシステムの概略ブロック図を示す。
【図9b】統合したデコーダおよび混合器を用いた参照用SAOCシステムの概略ブロック図を示す。
【図9c】SAOC‐MPEGトランスコーダを用いた参照用SAOCシステムの概略ブロック図を示す。
【図10】どの変換符号化係数が提案されたパラメータ制限スキームによって修正することができるかを記述するテーブルを示す。
【発明を実施するための形態】
【0055】
1.図1に係る1つ以上の調整されたパラメータを提供する装置
【0056】
以下に、ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の調整されたパラメータを提供する装置が記載される。図1は、このような装置100の概略ブロック図である。
【0057】
装置100は、1つ以上の入力パラメータ110を受信し、それに基づいて、1つ以上の調整されたパラメータ120を提供するように構成される。装置100は、1つ以上の入力パラメータ110を受信し、それに基づいて、1つ以上の調整されたパラメータ120を提供するように構成された、パラメータ調整器130を備える。パラメータ調整器130は、非最適パラメータ(例えば、1つ以上の入力パラメータ110)の使用によって生じるアップミックス信号表現の歪みが、少なくとも最適パラメータから予め定められた偏差以上偏移している入力パラメータ(例えば、入力パラメータ110)に対して低減されるように、複数の入力パラメータ値の平均値132に従って、1つ以上の調整されたパラメータ120を提供するように構成される。例えば、パラメータ調整器130は、1つ以上の調整されたパラメータ120が、1つ以上の入力パラメータ110よりも、最適パラメータ(それは、歪みのないアップミックス信号表現に結果としてなる)に「近い」(より小さい歪みを生じるという意味において)という効果を有することができる。
【0058】
この目的のため、パラメータ調整器130は、平均値演算を実施し、関連する入力パラメータ110のセット(例えば、共通の時間インターバルに関係する入力パラメータ、または異なる時間インスタンスに関係する同じパラメータタイプの入力パラメータ)の平均値132(例えば、時間平均またはオブジェクト間平均として)を取得する。装置100の動作に関して、平均値132はパラメータを調整するために意味のある量であることが分かっているので、1つ以上の入力パラメータ110に基づく1つ以上の調整されたパラメータ120の提供が平均値132に従ってなされる点に注意しなければならない。特に、適度なパラメータ(平均値に関して)は、通常は適度な歪みをもたらすことが分かっている。
【0059】
更なる詳細が引き続いて記載される。
【0060】
2.図2に係るアップミックス信号表現を提供する装置
【0061】
以下に、図2に係るアップミックス信号表現を提供する装置が記載される。図2は、オーディオ信号デコーダとみなすことができる装置200の概略ブロック図を示す。例えば、装置200は、SAOCデコーダまたはSAOCトランスコーダの機能を備えることができる。
【0062】
装置200は、ダウンミックス信号表現210とパラメトリックサイド情報212を受信するように構成される。また、装置200は、ユーザ指定のレンダリングパラメータ214を受信するように構成される。装置は、アップミックス信号表現220を提供するように構成される。
【0063】
ダウンミックス信号表現210は、例えば、1チャンネルのオーディオ信号または2チャンネルのオーディオ信号の表現とすることができる。ダウンミックス信号表現210は、例えば、時間ドメイン表現または符号化された表現とすることができる。いくつかの実施形態では、ダウンミックス信号表現210は、ダウンミックス信号表現210の1つ以上のチャンネルがスペクトル値の引き続くセットによって表現される、時間‐周波数ドメイン表現とすることができる。
【0064】
アップミックス信号表現220は、例えば、時間ドメイン表現または時間‐周波数ドメイン表現の形の、個々のオーディオチャンネルの表現とすることができる。あるいは、アップミックス信号表現220は、ダウンミックス信号表現と、チャンネル関連サイド情報、例えば、MPEGサラウンドサイド情報の両方を含む符号化された表現とすることができる。
【0065】
ユーザ指定のレンダリングパラメータ214は、複数のオーディオオブジェクトの、アップミックス信号表現220の1つ以上のチャンネルに対する所望の貢献度を記述するレンダリングマトリクスエントリーの形で提供することができる。あるいは、ユーザ指定のレンダリングパラメータ214は、例えば、オーディオオブジェクトの所望のレンダリング位置とレンダリング量を特定する、他のいかなる適当な形でも提供することができる。
【0066】
装置200は、ダウンミックス信号表現210とパラメトリックサイド情報212に基づいてアップミックス信号表現220を提供するように構成された、信号処理器230を備える。信号処理器230は、ダウンミックス信号表現210に基づいてアップミックス信号表現220を提供するために、再混合機能232を備える。例えば、再混合機能232は、アップミックス信号表現220の1つ以上のチャンネルを取得するために、ダウンミックス信号表現212の複数のチャンネルを線形に結合するように構成することができる。この再混合において、ダウンミックス信号表現210のチャンネルの、アップミックス信号表現220のチャンネルに対する貢献度は、混合マトリクスGの混合マトリクス要素によって決定することができ、混合マトリクスGの第1の次元(例えば、列の数)はアップミックス信号表現220のチャンネル数によって決定することができ、混合マトリクスGの第2の次元(例えば、行の数)はダウンミックス信号表現210のチャンネル数で決定することができる。
【0067】
例えば、再混合プロセス232は、ダウンミックス信号表現210の1つ以上のチャンネルのスペクトル値を含む1つ以上のベクトルを、混合マトリクスGと掛けることによって、アップミックス信号表現220の1つ以上のチャンネルに関係するスペクトル値を含む1つ以上のベクトルを提供するために用いることができる。
【0068】
信号処理器230は、また、混合マトリクスG(または同様に、その要素)を提供する、混合パラメータ演算236を備えることができる。混合マトリクス要素は、混合パラメータ演算236によって、パラメトリックサイド情報212と修正されたレンダリングパラメータ252に従って決定される。混合マトリクスGの混合マトリクス要素は、例えば、アップミックス信号表現220の1つ以上のチャンネルが、ダウンミックス信号表現210の1つ以上のチャンネルによって表されるオーディオオブジェクトを記述するように、修正されたレンダリングパラメータ252によって提供される。この目的のため、例えば、オブジェクトレベル差情報OLD、オブジェクト間相関情報IOC、ダウンミックスゲイン情報DMGおよび(オプションとして)ダウンミックスチャンネルレベル差情報DCLDを含むパラメトリックサイド情報212は、混合パラメータ演算236によって評価される。オブジェクトレベル差情報は、例えば、周波数バンドワイズに、複数のオーディオオブジェクト間のレベル差を記述することができる。同様に、オブジェクト間相関情報は、例えば、周波数バンドワイズに、複数のオーディオオブジェクト間の相関を記述することができる。ダウンミックスゲイン情報と(オプションの)ダウンミックスチャンネルレベル差情報は、オーディオオブジェクト信号を複数のオーディオオブジェクトからダウンミックス信号表現の1つ以上のチャンネルに結合するために実行され、ダウンミックス信号表現210のチャンネルよりも通常は多いオーディオオブジェクトが存在するダウンミックスを記述することができる。
【0069】
したがって、混合パラメータ演算236は、パラメトリックサイド情報212と修正されたレンダリングパラメータ252に基づいて期待された統計的特性を含むアップミックス信号表現220を取得するために、混合マトリクス要素がどのように選択されなければならないかについて評価することができる。
【0070】
信号処理器230は、パラメトリックサイド情報212を受信し、修正されたサイド情報と、再混合プロセスによって提供される関連する再混合されたダウンミックス信号表現が所望のオーディオシーンを記述するように、修正されたサイド情報(例えば、MPEGサラウンドサイド情報)を提供するように構成された、サイド情報修正あるいはサイド情報変換240をオプションとして備えることができる。
【0071】
【0072】
あるいは、信号処理器230は、分離したデコーダおよび混合器920の機能を備えることができ、ダウンミックス信号表現210は1つ以上のダウンミックス信号の役割を持つことができ、パラメトリックサイド情報212はオブジェクトメタデータの役割を持つことができ、アップミックス信号表現220は1つ以上の出力チャンネル信号928の役割を持つことができる。
【0073】
あるいは、信号処理器230は、統合化されたデコーダおよび混合器950の機能を備えることができ、ダウンミックス信号表現210は1つ以上のダウンミックス信号の役割を持つことができ、パラメトリックサイド情報212はオブジェクトメタデータの役割を持つことができ、アップミックス信号表現220は1つ以上の出力チャンネル信号958の役割を持つことができる。
【0074】
あるいは、信号処理器230は、SAOC‐MPEGサラウンドトランスコーダ980の機能を備えることができ、ダウンミックス信号表現210は1つ以上のダウンミックス信号の役割を持つことができ、パラメトリックサイド情報212はオブジェクトメタデータの役割を持つことができ、アップミックス信号表現はMPEGサラウンドビットストリーム984と組み合わされるときに1つ以上のダウンミックス信号988に相当することができる。
【0075】
いずれにせよ、修正されたレンダリングパラメータ252は、ユーザ対話/制御情報822またはレンダリング情報の役割を持つことができる。
【0076】
装置200は、また、調整されたレンダリングパラメータを提供する装置250を備える。調整されたレンダリングパラメータを提供する装置250は、ユーザ指定のレンダリングパラメータ214を受信し、それに基づいて、修正されたレンダリングパラメータ252を提供する。装置250は、通常は、異なるオーディオオブジェクトに関係する複数のユーザ指定のレンダリングパラメータを通じた平均値を算出し、平均値を取得するように構成される。また、装置250は、平均値に従ってレンダリングパラメータ制限を実行し、ユーザ指定のレンダリングパラメータ214を制限することによって、修正されたレンダリングパラメータ252を取得するように構成される。修正されたレンダリングパラメータ252が制限される許容差は、ユーザ指定のレンダリングパラメータ214の1つ以上が平均値から大きな偏差を含む場合であっても、修正されたレンダリングパラメータ252の、平均値からの大きな偏差が回避されるように、通常は平均値に従って決定される。このように、異なるオーディオオブジェクトに関係するレンダリングパラメータ間の大きな差異は聞き取れるアーチファクトに結果としてなるが、制限されたオブジェクト間偏差を含む修正されたレンダリングパラメータ252は低歪のアップミックス信号表現に結果としてなるので、アップミックス信号表現220内の過剰な歪みは、通常は回避される。
【0077】
ここで、調整されたレンダリング係数を提供する装置250は、1つ以上の調整されたパラメータを提供する装置100と同じ全体機能を備えることができ、ユーザ指定のレンダリングパラメータ214は1つ以上の入力パラメータ110の役割を持つことができ、調整されたレンダリングパラメータ252は1つ以上の調整されたパラメータ120の役割を持つことができる点に注意しなければならない。
【0078】
修正されたレンダリングパラメータ252の提供に関する詳細は、図4を参照して後述される。
【0079】
3.図3に係るアップミックス信号表現を提供する装置
【0080】
以下に、本発明の他の実施形態に係るアップミックス信号表現を提供する装置が、そのような装置300の概略ブロック図を示す図3を参照して記述される。
【0081】
本願明細書において、同一または等価である信号を記載するために同一の参照番号が用いられるように、装置300は、通常は、装置200と同じタイプの入力信号を受信し、同じタイプの出力信号を提供する。要約すると、装置300は、ダウンミックス信号表現210、パラメトリックサイド情報212、およびユーザ指定のレンダリングパラメータ214を受信し、装置300は、それに基づいて、アップミックス信号表現220を提供する。
【0082】
装置300は、信号処理器230に対して機能において実質的に等価とすることができる、信号処理器330を備える。信号処理器330は、ダウンミックス信号表現に基づいて再混合されたオーディオチャンネル信号を提供するという点で、信号処理器230の再混合機能232と同一である、再混合機能332を備える。しかしながら、再混合332は、混合パラメータ演算から直接取得される混合マトリクスよりむしろ、調整された混合マトリクスを用いる。
【0083】
信号処理器330は、また、信号処理器230の混合パラメータ演算236に対して機能において同一とすることができる、混合パラメータ演算336を備える。したがって、混合パラメータ演算336は、パラメトリックサイド情報212とユーザ指定のレンダリングパラメータ214を受信し、それに基づいて、混合マトリクスG(または、同等に、337によって示される混合マトリクスGの混合マトリクス要素)を提供する。
【0084】
信号処理器330は、オプションとして、また、サイド情報修正240と機能が、同一であるサイド情報修正338を備える。
【0085】
加えて、装置300は、調整された混合マトリクス要素を提供する装置350を備える。装置350は、信号処理器330の一部であってもよく、一部でなくてもよい。装置350は、混合パラメータ演算336によって提供される混合マトリクス337,G(または、同等に、その混合マトリクス要素)を受信し、それに基づいて、調整された混合マトリクス352,G’(または、同等に、その調整された混合マトリクス要素)を提供するように構成される。例えば、周波数バンド毎に、そしてオーディオフレーム毎に、1セットの混合マトリクス要素と、1セットの調整された混合マトリクス要素を提供することができる。言い換えれば、混合マトリクスGと修正された混合マトリクスG’は、フレームワイズの処理が選択された場合、ダウンミックス信号表現210のオーディオフレーム毎に一度更新することができる。しかしながら、更新インターバルは、場合によって異なってもよい。また、異なる周波数バンドに対して、多重の混合マトリクスと調整された混合マトリクスG,G’がある必要はない。
【0086】
しかしながら、装置350は、混合パラメータ演算336によって提供される混合マトリクス337の混合マトリクス要素に基づいて、調整された混合マトリクス352の調整された混合マトリクス要素を提供するように構成される。例えば、処理は、所定の混合マトリクス位置の一連の調整された混合マトリクス要素が、同じ混合マトリクス位置での混合マトリクス337の一連の混合マトリクス要素に依存するが、異なる混合マトリクス位置での混合マトリクス要素から独立することができるように、混合マトリクス(または調整された混合マトリクス)の位置毎に個別に実行することができる。
【0087】
調整された混合マトリクス要素を提供する装置350は、混合マトリクス337に基づいて演算される1つ以上の平均値(例えば、1つ以上のマトリクス位置個々の平均値)に従って、調整された混合マトリクス352の1つ以上の調整された混合マトリクス要素を提供するように構成される。調整された混合マトリクス352の調整された混合マトリクス要素を提供する装置350は、好ましくは、所定の混合マトリクス位置での混合マトリクス要素の時間上の平均値を算出するように構成される。このように、所定の混合マトリクス位置に対して、平均値(好ましくは、しかしながら必然的ではなく、例えば、浮動平均または準無限インパルス応答平均値または再帰的ローパスフィルタリングまたは時間平均に対してよく知られた類似する数値演算によって得られる平均値のような時間的平均値)を、所定の混合マトリクス位置の一連の混合マトリクス要素に基づいて演算することができる。有限インパルス応答平均値または(準)無限インパルス応答平均値(例えば、再帰的ローパスフィルタリングまたは時間平均に対してよく知られた類似する数値演算を用いて取得された)とすることができるそのような平均値(average value)(mean valueとしても示される)を取得するために、例えば、ダウンミックス信号表現210の所定のチャンネルの、混合マトリクス要素が複数のオーディオフレームに関係するアップミックス信号表現220の所定のチャンネルへの貢献度を記述する一連の混合マトリクス要素を用いることができる。(ダウンミックス信号表現210の所定のチャンネルの、アップミックス信号表現220の所定のチャンネルへの貢献度を記述する)所定の混合マトリクス位置の現在の調整された混合マトリクス要素は、装置350によって、所定の混合マトリクス位置に関係する平均値に従って定められる許容差に制限することができる。
【0088】
したがって、調整された混合マトリクス要素は、例えば、同じ混合マトリクス位置での前の混合マトリクス要素の平均(有限インパルス応答平均または無限インパルス応答平均)で決定される許容差に限定されるので、混合マトリクス要素の過剰な時間変動は回避される。調整された混合マトリクス352の調整された混合マトリクス要素のこのような限定は、通常は、少なくとも非最適なユーザ指定のレンダリングパラメータが最適なユーザ指定のレンダリングパラメータから予め定められた偏差より大きく偏移している場合に、非最適パラメータ(例えば、非最適なユーザ指定のレンダリングパラメータ)の使用によって生じるアップミックス信号220の歪みの制限をもたらすことが分かっている。
【0089】
ここで、調整された混合マトリクス要素を提供する装置350は、1つ以上の調整されたパラメータを提供する装置100と同じ全体の機能を備えることができ、混合マトリクス337の混合マトリクス要素は1つ以上の入力パラメータ110の役割を持つことができ、調整された混合マトリクス352の調整された混合マトリクス要素は1つ以上の調整されたパラメータ120の役割を持つことができる点に注意しなければならない。
【0090】
4.図4に係るパラメータ制限スキーム
【0091】
以下に、本発明に係るパラメータ制限スキームが、そのようなパラメータ制限スキームの概略表現を示す図4を参照して記載される。
【0092】
図4は、パラメータ制限スキームのアプリケーションを、SAOCデコーダ410と組合せて示す。しかしながら、パラメータ制限スキームは、例えば、SAOCトランスコーダのような、オーディオデコーダまたはオーディオトランスコーダの異なるタイプと組合せて適用することができる。
【0093】
SAOCデコーダ410は、ダウンミックス420とSAOCビットストリーム422を受信する。また、SAOCデコーダは、1つ以上の出力チャンネル430a〜430Mを提供する
【0094】
【0095】
【0096】
パラメータ制限スキーム450は、許容差の境界を決定することができる1つ以上のパラメータΛT-,ΛT+を受信することができる。
【0097】
4.1 概要
【0098】
以下に、歪み制御のためのパラメータ制限スキームを通じて、概要が与えられる。
【0099】
一般的なSAOC処理は、時間/周波数選択的方法で遂行され、以下に記載される。
【0100】
SAOCエンコーダは、いくつかの入力オーディオオブジェクト信号の音響心理学的特性(例えば、オブジェクトのパワー関係および相関)を抽出し、次に、それらを複合されたモノラルまたはステレオチャンネルにダウンミックスする(それは、例えば、ダウンミックス信号表現として示すことができる)。このダウンミックス信号と抽出されたサイド情報は、周知の知覚オーディオコーダを用いて、圧縮されたフォーマットで送信される(または記憶される)。受信側では、SAOCデコーダは、概念的に、送信されたサイド情報(例えば、オブジェクトレベル差情報OLD、オブジェクト間相関情報IOC、ダウンミックスゲイン情報DMGおよびダウンミックスチャンネルレベル差情報DCLD)を用いて、オリジナルのオブジェクト信号(すなわち、分離したダウンミックスオブジェクト)を復元しようと試みる。これらの近似されたオブジェクト信号は、次に、レンダリングマトリクス(通常は、異なるオーディオオブジェクトの、アップミックス信号表現の異なるチャンネルへの貢献度を記述する)を用いて、目標シーンに混合される。レンダリングマトリクスは、各送信されたオーディオオブジェクトとアップミックスセットアップスピーカに対して特定された相対レンダリング係数RC(またはオブジェクトゲイン)から構成される。これらのオブジェクトゲインは、全ての分離された/レンダーされたオブジェクトの空間位置を決定する。事実上、分離と混合は単一の複合された処理ステップにおいて実行され、それは計算量の莫大な低減に結果としてなるので、オブジェクト信号の分離はめったに実行されない(または更に決して実行されない)。単一の複合された処理ステップは、例えば、オブジェクト分離と分離されたオブジェクトの混合の組合せを記述する変換符号化係数を用いて実行することができる。
【0101】
このスキームは、伝送ビットレート(それは、多数の個別のオブジェクトオーディオ信号の代わりに、1つまたは2つのダウンミックスチャンネルと、加えていくつかのサイド情報を送信することを必要とするだけである)と、計算量(処理複雑度は、オーディオオブジェクト数よりもむしろ出力チャンネル数に主に関係する)の両方に関して、大いに効率的であることが分かっている。
【0102】
SAOCデコーダは、オブジェクトゲインと他のサイド情報を、レンダーされた出力オーディオシーン(または、更なる復号化演算、例えば、通常は多重チャンネルMPEGサラウンドレンダリングに対して前処理されたダウンミックス信号)に対して、対応する信号をつくるためにダウンミックス信号に適応される変換符号化係数(TC)に、直接的に変換(パラメトリックレベルで)する。
【0103】
レンダーされた出力シーンの主観的に知覚されたオーディオ品質は、特許文献1に記述されるように、歪み制御尺度あるいはDCMのアプリケーションによって改善することができることが分かっている。この改善は、目標レンダリング設定の適度な動的修正を受け入れる代価で達成することができる。レンダリング情報の修正は、特定の環境下で不自然な音響呈色と時間変動アーチファクトに結果としてなる可能性がある時間および周波数可変の性質を有する。
【0104】
特許文献1に記載された歪み制御尺度(DCM)の変形例として、本発明に係る実施形態は、オーディオアーチファクト(音響呈色、時間変動、その他)の低減にフォーカスし、同時に自然な音響品質を保持する、多数のパラメータ制限スキームを使用する。
【0105】
本願明細書に記載された提案されたパラメータ制限スキームのコンセプトは、音響心理学的モデルに基づく複雑なアルゴリズムを用いて算出される歪み尺度に基づいてレンダリング係数(RC)を調整することはしない。その代わりに、提案されたパラメータ制限スキームのコンセプトは、低い計算量と構成上の複雑度を示し、それ故にSAOC技術への統合化に対して魅力的である。にもかかわらず、それらは、また、お互いに補足することでより良好な全体の出力品質を達成するために、特許文献1に記載されたスキームと都合よく組合せることができる。
【0106】
全体のSAOCシステムの範囲内で、パラメータ制限スキームは、2つの方法でSAOCデコーダ処理チェーンに組み込むことができる。例えば、そのパラメータ制限スキームは、図4において変形例(a)として示されるように、レンダリング係数(RC)を制御することによってSAOC出力の間接的な(外部の)修正のためのフロントエンドに位置付けることができる。あるいは、固有の変換符号化係数(TC)は、図4において変形例(b)として示されるように、係数がダウンミックス信号に適用され、出力アップミックスチャンネル信号を生成する前に、SAOCデコーダのバックエンドにおいて直接的に(内部的に)修正される。
【0107】
4.2 間接制御
【0108】
以下に、間接制御のコンセプトが更に詳細に述べられる。
【0109】
間接制御法の基礎をなす前提は、歪みレベルと、RCのオブジェクト平均化された値からの偏差との関係を考慮する。これは、RCによって、他のオブジェクトに関する特定のオブジェクトに、特別な減衰/ブーストが適用されればされるほど、SAOCデコーダ/トランスコーダによって、伝送されたダウンミックス信号の積極的な修正が実行されるという知見に基づいている。言い換えれば、「オブジェクトゲイン」値の偏差がお互いと比較して高ければ高いほど、容認できない歪みが起こる機会が高い(同一のダウンミックス係数と仮定して)。これは、RCの、全てのオブジェクト全体のRCの平均(例えば、平均レンダリング値)からの偏差を調べることによって、テストすることができることが分かっている。
【0110】
引き続く記述は、一般性の喪失なしに、全てのオブジェクトに対して単一のダウンミックスゲインを有するモノラルダウンミックスを考慮する構成に基づいている。(異なるおよび/または動的なオブジェクトゲインを有する)非自明なダウンミックスの場合、アルゴリズムは適切に修正することができる。加えて、RCは、表記を簡単にするため、周波数不変であると仮定される。
【0111】
【0112】
【0113】
【0114】
【0115】
【0116】
【0117】
【0118】
【0119】
4.2.1 ワンステップ解法
【0120】
【0121】
【0122】
4.2.2 反復解法
【0123】
【0124】
【0125】
この処理は、全ての値が許容範囲の内側となるまで、または予め定められた反復回数によって実行することができる。
【0126】
【0127】
4.3 直接制御
【0128】
直接制御法の基礎をなす前提は、歪みレベルと、TCの時間平均された値からの偏差との関係を考慮する。これは、他のオブジェクトに関する特定のオブジェクトに対して、特別な減衰/ブーストが適用されればされるほど、TCによって送信されたダウンミックス信号の積極的な修正が、SAOCデコーダ/トランスコーダによって実行されるという知見に基づいている。言い換えれば、TCの値が異常に大きい場合、SAOCアルゴリズムは、小さいパワーを有するオブジェクト信号を、大きなブーストを適用することによって、大きいパワーを有する他のオブジェクト信号によって支配される出力内に修正することを試みると結論づけることができる。逆にいえば、TCが異常に小さい場合、SAOCアルゴリズムは、大きいパワーを有するオブジェクト信号を、大きな減衰を適用することによって、小さいパワーを有する他のオブジェクト信号によって支配される出力内に修正することを試みると結論づけることができる。いずれの場合においても、SAOC出力において、容認できないほど低い信号品質を生じる高いリスクがある。このように、中心的なアイデアは、TCの、平均値からの大きな偏差を防止することである。
【0129】
このPLSは、SAOC信号パラメータ(例えばOLD、IOC)への全ての従属と変換符号化/復号化プロセスの発見的要素を含むので、時間および周波数可変とみなすことができる。
【0130】
引き続く記述は、一般性の喪失なしに、モノラルアップミックスを考慮する構成に基づいている。
【0131】
【0132】
【0133】
【0134】
【0135】
これは、特定の予め定義された値よりもむしろTCから動的に演算される基準値に関連して実行されるTC制限演算に対応する点に注意すべきである。
【0136】
【0137】
以下に、この問題に対する可能な解法アルゴリズムが記載される。
【0138】
4.3.1 解法アルゴリズム
【0139】
【0140】
4.3.2 変換符号化係数の例
【0141】
上述の変換符号化係数に対するパラメータ制限スキームは、例えば、上で述べたSAOCデコーダおよびトランスコーダにおいて用いられる異なる変換符号化係数に適用することができる。
【0142】
【0143】
図10の表は、全てのSAOC動作モードに対して、提案されたパラメータ制限スキームによって修正、例えば、制限することができる変換符号化係数のリストを提供する。図10の表は、第1カラム1010において、異なるSAOCモードを示す。図10の表は、更に、第2カラム1020において、提案されたパラメータ制限スキームによって、どのパラメータを修正する(例えば、制限する)ことができるかを示す。第3カラム1030は、非特許文献7のMPEG‐SAOCのFCD文書の対応する節の参照表示を示す。要約すると、図10の表は、全てのSAOC動作モードに対して、提案されたパラメータ制限スキームによって修正する(例えば、制限する)ことができる変換符号化係数のリストを、MPEG‐SAOCのFCD文書の対応する節を参照して示す。
【0144】
4.4 制限された相対偏差に対するパラメータ制限スキームの一般化された定式化
【0145】
【0146】
【0147】
【0148】
以下に、2つの解法アルゴリズムが述べられる。
【0149】
一般に、このような最小化問題の正確な解を取得する解析的アプローチは、計算上大変な労力を要する。にもかかわらず、依然としてPLS目的に適するサブオプティマルな結果を提供する簡単で速い代替方法が存在する。2つのこのような簡単なアプローチがここで記載される。
【0150】
4.4.1 ワンステップ解法
【0151】
【0152】
許容範囲(それは、許容差とみなすことができる)の内側にある値は、例えば、不変のままとすることができる。
【0153】
4.4.2 反復解法
【0154】
【0155】
【0156】
反復の数は、特定の値にセットするかまたはアルゴリズムから暗黙に導き出すことができる。
【0157】
全てのこれらの方法は、上述のように、RCとTCを制限するために適用することができる点に注意しなければならない。
【0158】
4.5 一般化された線形定式化
【0159】
【0160】
【0161】
以下に、この問題に対する2つの解法アルゴリズムが記載される。
【0162】
一般に、このような最小化問題の正確な解を取得する解析的アプローチは、計算上大変な労力を要する。にもかかわらず、依然としてPLS目的に適するサブオプティマルな結果を提供する簡単で速い代替方法が存在する。2つのこのような簡単なアプローチがここで記載される。
【0163】
4.5.1 ワンステップ解法
【0164】
【0165】
4.5.2 反復解法
【0166】
【0167】
【0168】
【0169】
全てのこれらの方法は、上述のように、RCとTCを制限するために適用することができる点に注意しなければならない。
【0170】
【0171】
このバージョンのアルゴリズムは、固定の(静的な)許容範囲Λx-,Λx+を用いる。
【0172】
4.6 更なる注釈
【0173】
上述のように、全てのこれらの方法は、レンダリング係数と変換符号化係数を制限するために適用することができる点に注意しなければならない。
【0174】
5.多重チャンネルのダウンミックス/アップミックスシナリオへのパラメータ制限スキームのアプリケーション
【0175】
モノラルのダウンミックス/モノラルアップミックスシナリオの単一のTC PLS(例えば、直接制御)は、ダウンミックス/アップミックスチャンネルのいかなる組合せも考慮するTCマトリクスに拡張する。従って、直接制御は、各TCに対して個々に適用することができる。RC PLS(例えば間接制御)に対する多重チャンネルのアップミックスシナリオは、例えば、全ての個々のレンダリング係数が独立に処理される簡単な多重のモノラルアプローチにおいて実現することができる。
【0176】
6.リスニングテスト結果
【0177】
6.1 テスト計画および項目
【0178】
主観的リスニングテストは、提案された歪み制御尺度(DCM)コンセプトの知覚的パフォーマンスを評価し、それを通常のSAOC参照モデル(SAOC‐RM)復号化処理と比較するために行われた。
【0179】
テスト計画は、提案されたパラメータ制限スキームの直接および間接の制御アプローチの個々のアプリケーションのケースならびにそれらの組み合わせを含む。通常の(パラメータ制限スキームPLSによって処理されていない)SAOCデコーダの出力信号は、SAOCのベースラインパフォーマンスを実証するために、試験に含まれる。加えて、ダウンミックス信号に対応する平凡なレンダリングのケースが、リスニングテストにおいて比較の目的で用いられる。
【0180】
図5aの表は、リスニングテスト条件を記載する。
【0181】
現行のリスニングテストに対して、極端なレンダリング条件に対する典型的なおよび最もクリチカルなアーチファクトタイプを表現する4つの項目が、提案募集(CfP)のリスニングテスト素材から選択された。
【0182】
図5bの表は、リスニングテストのオーディオ項目を記載する。
【0183】
図6の表に係るレンダリングオブジェクトゲインは、考慮されるアップミックスシナリオに対して適用された。
【0184】
提案されたPLSは、通常のSAOCビットストリームおよびダウンミックス(SAOCエンコーダサイドでのいかなるPLS関連アクティビティも必要ない)を用いて動作し、残余情報を中継しないので、対応するSAOCダウンミックス信号に対してコアコーダは適用されなかった。
【0185】
【0186】
6.2 テスト方法
【0187】
主観的リスニングテストは、高品質リスニングができるように設計された音響的に隔離されたリスニングルームで行われた。再生は、ヘッドホン(Lake‐PeopleのD/AコンバータとSTAXのSRMモニタを有するSTAX SR Lamda Pro)を用いてなされた。
【0188】
テスト方法は、中間品質オーディオの主観的評価のための隠されたリファレンスとアンカーを有する多重励振(MUSHRA)法(非特許文献6)に基づいて、空間オーディオ検証試験において用いられる手順に準拠した。テスト方法は、提案されたDCMコンセプトの知覚的パフォーマンスを評価するために、ぴったりあわせて修正された。採用されたテスト方法に従って、リスナーは、以下のリスニングテスト指令に従って全てのテスト条件をお互いに比較するように命じられた。
【0189】
各オーディオ項目に対して、
●最初に、あなたがシステムユーザとして達成することを望む所望のサウンドミックスの記述を読んで下さい。
項目「BlackCoffee」: サウンドミックス内のソフトなホーンセクションサウンド
項目「Fanta4」:サウンドミックス内の大きなドラムサウンド
項目「LovePop」:サウンドミックス内のソフトなストリングセクションサウンド
項目「Audition」:ソフトな音楽と大きなボーカルサウンド
●次に、以下の両方を記述する1つの共通の等級を用いて信号を等級分けして下さい。
―所望のサウンドミックスの目的を達成する
―全体のシーンのサウンド品質(歪み、アーチファクト、不自然さ...を考慮する)
【0190】
合計9人のリスナーは、実行された試験の各々に参加した。全ての被検者は、経験豊かなリスナーとみなすことができる。テスト条件は、各テスト項目と各リスナーに対して自動的にランダム化された。主観的応答は、コンピュータベースのMUSHRAプログラムによって、0から100にわたるスケールで記録された。テスト下の項目間の瞬時スイッチングが可能とされた。
【0191】
6.3 リスニングテスト結果
【0192】
取得されたリスニングテスト結果を示す図面に関する簡単な概要は、解説において見ることができる。これらのプロットは、全てのリスナーを通じた項目毎の平均MUSHRA等級と、全ての評価された項目を通じた統計的平均値を、関連する95%の信頼区間と共に示す。
【0193】
行われたリスニングテストの結果に基づいて、以下の知見をなすことができる。行われた全てのリスニングテストに対して、取得されたMUSHRAスコアは、通常のSAOC‐RMシステムと比較して、全体の統計的平均値の意味で、提案されたPLS機能が良好なパフォーマンスを提供することを証明している。通常のSAOCデコーダ(考慮された極端なレンダリング条件に対して大きなオーディオアーチファクト示す)によって生成された全ての項目の品質は、所望のレンダリングシナリオを全く満たさないダウンミックとス同一のレンダリング設定の品質と比較して、わずかに高く等級分けされる点に注意しなければならない。それ故、提案されたPLSは、全ての考慮されるリスニングテストシナリオに対して、主観的信号品質のかなりの改善に導くと結論づけることができる。また、最も有望な制限システムは、RCとTCのPLSの両方の組合せから成ると結論づけることができる。
【0194】
リスニングテスト結果に関する詳細は、図7の図解図において見ることができる。
【0195】
7.実施変形例
【0196】
いくつかの態様が装置の局面において記載されてきたが、これらの態様は、1つのブロックまたはデバイスが1つの方法ステップまたは方法ステップの特徴に対応する、対応する方法の記述をも表していることは明らかである。同様に、方法ステップの局面において記載された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の記述をも表している。いくつかまたは全ての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(または用いて)実行することができる。いくつかの実施形態において、いくつかの1つ以上の最も重要な方法ステップは、このような装置によって実行することができる。
【0197】
発明の符号化されたオーディオ信号は、デジタル記憶媒体上に記憶することができる、または、無線伝送媒体のような伝送媒体またはインターネットのような有線伝送媒体上を送信することができる。
【0198】
特定の実施要求に従って、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に格納される電子的に読み込み可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。従って、デジタル記憶媒体はコンピュータ読取可能とすることができる。
【0199】
本発明に係るいくつかの実施形態は、電子的に読み込み可能な制御信号を有し、本願明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協動することができる、データキャリアを含む。
【0200】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本発明の方法の1つを実行するために動作可能であるプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械読取可能なキャリア上に記憶することができる。
【0201】
他の実施形態は、機械読取可能なキャリア上に記憶され、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムを含む。
【0202】
言い換えれば、本発明の方法の実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0203】
本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムがその上に記録されたデータキャリア(またはデジタル記憶媒体またはコンピュータ読取可能媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、通常は有形および/または非遷移的である。
【0204】
本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続、例えばインターネットを介して伝送されるように構成することができる。
【0205】
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成され、または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
【0206】
更なる実施形態は、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
【0207】
いくつかの実施形態では、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を、本願明細書に記載された方法の機能の一部または全部を実行するために用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
【0208】
上記した実施形態は、単に本発明の原理に対して説明したものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。本発明は、それ故に、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明によって提供された特定の詳細によって制限されないことを意図する。
【0209】
8.結論
【0210】
本発明に係る実施形態は、オーディオデコーダにおける歪み制御に対して、パラメータ制限スキームを構築する。本発明に係るいくつかの実施形態は、所望の再生セットアップ(例えば、モノラル、ステレオ、5.1、他)の選択と、個人的な嗜好または他の基準に従ってレンダリングマトリクスを制御することによる所望の出力レンダリングシーンの対話式リアルタイム修正のためのユーザインターフェース手段を提供する、空間オーディオオブジェクト符号化(SAOC)に焦点を合わせている。しかしながら、提案された方法をパラメトリック技術に一般的に適合させることは、直接的な作業である。
【0211】
ダウンミックス/分離/混合ベースのパラメトリックアプローチのため、レンダーされたオーディオ出力の主観的品質はレンダリングパラメータ設定に依存する。ユーザ選択のレンダリング設定を選択する自由度は、全体の音響シーン内のオブジェクトの極端なゲイン操作のような、不適切なオブジェクトレンダリングオプションを選択するユーザのリスクを引き起こす。
【0212】
商用製品に対して、悪い音響品質および/またはオーディオアーチファクトを生じることは、ユーザインターフェースのいかなる設定に対しても、なんとしても容認できない。生成されたSAOCオーディオ出力の過剰な歪みを制御するために、レンダーされたシーンの知覚的な品質の尺度を演算し、この尺度(および他の情報)に基づいて、実際に適用されたレンダリング係数を修正するというアイデアに基づく、いくつかの計算上の尺度が記述されている(特許文献1参照)。
【0213】
本発明は、次のようなレンダーされたSAOCシーンの主観的音響品質を保護する代替のアイデアを構築する。
●全ての処理がSAOCデコーダ/トランスコーダの中で完全に行われる
●レンダーされた音響シーンの知覚されたオーディオ品質の複雑な尺度の明示の計算を含まない
【0214】
これらのアイデアは、このように、SAOCデコーダ/トランスコーダのフレームワーク内で、構造的に簡単で極めて効率的な方法で実施することができる。提案された歪み制御メカニズム(DCM)は、SAOCデコーダ、すなわち、レンダリング係数(RC)および変換符号化係数(TC)に固有のパラメータを制限することを目的とするので、本書面の全体にわたって、パラメータ制限スキーム(PLS)と呼ばれる。
【0215】
しかしながら、パラメータ制限スキームは、いかなる異なるオーディオデコーダに対しても同様に適用することができる。
【特許請求の範囲】
【請求項1】
【請求項2】
前記パラメータ調整器は、複数のパラメータ値の荷重平均である平均値に従って、前記1つ以上の調整されたパラメータを提供するように構成された、請求項1に記載の装置(100;250;350;440;450)。
【請求項3】
前記パラメータ調整器は、前記1つ以上の調整されたパラメータが、前記平均値から、対応する受信されたパラメータよりも小さく偏移するように、前記1つ以上の調整されたパラメータを提供するように構成された、請求項1または2に記載の装置(100;250;350;440;450)。
【請求項4】
【請求項5】
【請求項6】
【請求項7】
【請求項8】
【請求項9】
【請求項10】
【請求項11】
【請求項12】
【請求項13】
【請求項14】
【請求項15】
【請求項16】
【請求項17】
【請求項18】
【請求項19】
【請求項20】
前記信号処理器は、MPEGサラウンド任意ダウンミックスゲイン値を取得するように構成され、
前記1つ以上の調整されたパラメータを提供する装置は、入力パラメータとして、複数の任意ダウンミックスゲイン値を受信し、複数の調整された任意ダウンミックスゲイン値を提供するように構成された、
請求項17に記載された、装置(200;300;410)。
【請求項21】
ダウンミックス信号表現と、前記ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の調整されたパラメータを提供する方法であって、
1つ以上のパラメータを受信するステップと、
前記受信されたパラメータに基づいて、非最適なパラメータの使用によって生じるアップミックス信号表現の歪みが、最適パラメータから予め定められた偏差より大きく偏移している少なくとも1つ以上のパラメータに対して限定されるように、複数のパラメータ値の平均値に従って、前記1つ以上の調整されたパラメータを提供するステップと、
を備えた、方法。
【請求項22】
コンピュータプログラムがコンピュータ上で動作するときに、請求項21に記載された方法を実行する、コンピュータプログラム。
【請求項1】
【請求項2】
前記パラメータ調整器は、複数のパラメータ値の荷重平均である平均値に従って、前記1つ以上の調整されたパラメータを提供するように構成された、請求項1に記載の装置(100;250;350;440;450)。
【請求項3】
前記パラメータ調整器は、前記1つ以上の調整されたパラメータが、前記平均値から、対応する受信されたパラメータよりも小さく偏移するように、前記1つ以上の調整されたパラメータを提供するように構成された、請求項1または2に記載の装置(100;250;350;440;450)。
【請求項4】
【請求項5】
【請求項6】
【請求項7】
【請求項8】
【請求項9】
【請求項10】
【請求項11】
【請求項12】
【請求項13】
【請求項14】
【請求項15】
【請求項16】
【請求項17】
【請求項18】
【請求項19】
【請求項20】
前記信号処理器は、MPEGサラウンド任意ダウンミックスゲイン値を取得するように構成され、
前記1つ以上の調整されたパラメータを提供する装置は、入力パラメータとして、複数の任意ダウンミックスゲイン値を受信し、複数の調整された任意ダウンミックスゲイン値を提供するように構成された、
請求項17に記載された、装置(200;300;410)。
【請求項21】
ダウンミックス信号表現と、前記ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、1つ以上の調整されたパラメータを提供する方法であって、
1つ以上のパラメータを受信するステップと、
前記受信されたパラメータに基づいて、非最適なパラメータの使用によって生じるアップミックス信号表現の歪みが、最適パラメータから予め定められた偏差より大きく偏移している少なくとも1つ以上のパラメータに対して限定されるように、複数のパラメータ値の平均値に従って、前記1つ以上の調整されたパラメータを提供するステップと、
を備えた、方法。
【請求項22】
コンピュータプログラムがコンピュータ上で動作するときに、請求項21に記載された方法を実行する、コンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5a】
【図5b】
【図6】
【図7】
【図8】
【図9a】
【図9b】
【図9c】
【図10】
【図2】
【図3】
【図4】
【図5a】
【図5b】
【図6】
【図7】
【図8】
【図9a】
【図9b】
【図9c】
【図10】
【公表番号】特表2013−507664(P2013−507664A)
【公表日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2012−533643(P2012−533643)
【出願日】平成22年10月15日(2010.10.15)
【国際出願番号】PCT/EP2010/065503
【国際公開番号】WO2011/045409
【国際公開日】平成23年4月21日(2011.4.21)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.EEPROM
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】
【公表日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願日】平成22年10月15日(2010.10.15)
【国際出願番号】PCT/EP2010/065503
【国際公開番号】WO2011/045409
【国際公開日】平成23年4月21日(2011.4.21)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.EEPROM
【出願人】(591037214)フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ (259)
【Fターム(参考)】
[ Back to top ]