オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
【課題】オブジェクトベースのオーディオ信号を効率的に処理できるように符号化及び復号化するオーディオ符号化及び復号化方法とその装置を提供する。
【解決手段】相対オブジェクトエネルギー情報及び絶対オブジェクトエネルギー情報を含む少なくとも2つのエネルギー情報を獲得し、エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する。
【解決手段】相対オブジェクトエネルギー情報及び絶対オブジェクトエネルギー情報を含む少なくとも2つのエネルギー情報を獲得し、エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクトベースのオーディオ信号を効率的に処理できるように符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置に関するものである。
【背景技術】
【0002】
一般に、マルチチャネルオーディオ符号化及び復号化では、マルチチャネルから構成された複数のチャネル信号を元来のチャネル数よりも小さい数のチャネルの信号にダウンミックスし、追加の付加情報を転送し、元来のチャネル数を持つマルチチャネル信号として再生する。
【0003】
オブジェクトベースのオーディオ符号化及び復号化も、複数の音源をそれよりも小さい数の音源信号にダウンミックスし、追加の付加情報を転送することは、マルチチャネルオーディオ符号化及び復号化と同様である。ただし、オブジェクトベースのオーディオ符号化及び復号化では、オブジェクト信号をマルチチャネルオーディオ符号化においてチャネル信号に該当する信号と見なしてコーディングを行う。ここで、オブジェクト信号は、ある楽器の音や人の声などコーディングの対象となる信号を構成している基本的な要素のことを指す。
【0004】
すなわち、マルチチャネルオーディオ符号化及び復号化では、コーディングしようとするチャネル信号をいくつの要素から構成されているかに関らず、チャネル信号間の情報のみに基づいてマルチチャネルオーディオコーディングを行うのに対し、オブジェクトベースのオーディオ符号化及び復号化では、かかるそれぞれのオブジェクト信号を独立したコーディングの対象と見なす。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、多様な環境で適用可能なように効率的にオブジェクト信号を符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置を提供することにある。
【課題を解決するための手段】
【0006】
上記の目的を達成するための本発明によるオーディオ復号化方法は、 相対オブジェクトエネルギー情報及び絶対オブジェクトエネルギー情報を含む少なくとも2つのエネルギー情報を獲得する段階と, 前記エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する段階と、を含む。
【0007】
また、上記の目的を達成するための本発明によるオーディオ復号化方法は、オブジェクト符号化された第1オーディオ信号と第2オーディオ信号を受信する段階と、前記第1オーディオ信号に含まれた第1オブジェクトエネルギー情報と、前記第2オーディオ信号に含まれた第2オブジェクトエネルギー情報を用いて第3オブジェクトエネルギー情報を生成する段階と、前記第1及び第2オーディオ信号が結合され、前記第3オブジェクトエネルギー情報を含む第3オーディオ信号を生成する段階と、を含む。
【0008】
また、上記の目的を達成するための本発明によるオーディオ符号化方法は、 第1オーディオ信号から第1ダウンミックス信号と第1オブジェクト情報を抽出し、第2オーディオ信号から第2ダウンミックス信号と第2オブジェクト情報を抽出するデマルチプレクサと、前記第1及び第2オブジェクト情報が結合され、前記第1オブジェクト情報に含まれた第1オブジェクトエネルギー情報と、前記第2オブジェクト情報に含まれた第2オブジェクトエネルギー情報を用いて生成した第3オブジェクトエネルギー情報を含む第3オブジェクト情報と、前記第1及び第2ダウンミックス信号を結合した第3ダウンミックス信号とを生成するマルチポインタ制御部と、を含む。
【0009】
そして、上記の目的を達成するために本発明では、上記方法をコンピュータで実行させるためのプログラムを記録した、コンピュータ読取可能記録媒体を提供する。
【発明の効果】
【0010】
本発明によれば、多様な環境においてオブジェクトベースのオーディオ信号の符号化及び復号化の長所を最大限に活かしながら、各オブジェクトオーディオ信号別に効率的に音象を定位させることができるので、オブジェクトオーディオ信号の再生に際してより生き生きした現実感を提供することができる。
【図面の簡単な説明】
【0011】
【図1】一般的なオブジェクトベースのオーディオ符号化/復号化装置を示すブロック図である。
【図2】本発明の第1実施例によるオーディオ復号化装置を示すブロック図である。
【図3】本発明の第2実施例によるオーディオ復号化装置を示すブロック図である。
【図4】本発明の第3実施例によるオーディオ復号化装置を示すブロック図である。
【図5】本発明の第3実施例によるオーディオ復号化装置で使用可能なADGモジュールを示すブロック図である。
【図6】本発明の第4実施例によるオーディオ復号化装置を示すブロック図である。
【図7】本発明の第5実施例によるオーディオ復号化装置を示すブロック図である。
【図8】本発明の第6実施例によるオーディオ復号化装置を示すブロック図である。
【図9】本発明の第7実施例によるオーディオ復号化装置を示すブロック図である。
【図10】本発明の第8実施例によるオーディオ復号化装置を示すブロック図である。
【図11】トランスコーダの動作を説明するための図である。
【図12】トランスコーダの動作を説明するための図である。
【図13】オブジェクト情報を構成する多様な方法を説明するための図である。
【図14】オブジェクト情報を構成する多様な方法を説明するための図である。
【図15】オブジェクト情報を構成する多様な方法を説明するための図である。
【図16】オブジェクト情報を構成する多様な方法を説明するための図である。
【図17】オブジェクト情報を結合する場合を説明するための図である。
【図18】オブジェクト情報を結合する場合を説明するための図である。
【図19】オブジェクト情報を結合する場合を説明するための図である。
【図20】オブジェクト情報を結合する場合を説明するための図である。
【図21】オブジェクト情報を結合する場合を説明するための図である。
【図22】オブジェクト情報を結合する場合を説明するための図である。
【図23】前処理過程を説明するための図である。
【図24】前処理過程を説明するための図である。
【図25】前処理過程を説明するための図である。
【図26】前処理過程を説明するための図である。
【図27】前処理過程を説明するための図である。
【図28】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図29】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図30】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図31】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図32】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図33】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【発明を実施するための形態】
【0012】
以下、添付の図面を参照しつつ本発明をより詳細に説明する。
【0013】
本発明によるオーディオ符号化及び復号化方法は基本的にオブジェクトベースのオーディオ信号の処理過程に適用されるが、これに限定されず、本発明による条件を満たす他の信号の処理過程にも適用可能である。
【0014】
図1は、一般的なオブジェクトベースのオーディオ符号化及び復号化装置を示すブロック図である。一般的にオブジェクトベースのオーディオ符号化装置において入力信号は、マルチチャネル上のチャネルとは関わっておらず、それぞれ独立したオブジェクト信号に該当し、このような点で、入力信号がマルチチャネル上の各チャネル信号に該当するマルチチャネルオーディオ符号化装置と異なっている。例えば、マルチチャネルオーディオ符号化装置で入力信号は、5.1チャネル信号のフロントレフト信号やフロントライト信号などのようなチャネル信号となる。これに対し、オブジェクトベースのオーディオ符号化装置において入力信号となるオブジェクト信号は、通常、チャネル信号よりも小さい個体を指すもので、人の声またはバイオリンやピアノなどの楽器音などがそれに該当する。
【0015】
図1を参照すると、オブジェクトベースのオーディオ符号化装置に含まれるオブジェクトエンコーダ100と、オブジェクトベースの復号化装置に含まれるオブジェクトデコーダ111及びミキサー/レンダラー113が示されている。
【0016】
オブジェクトエンコーダ100は、N個のオブジェクト信号を受信し、1つあるいはそれ以上のチャネルを持つオブジェクトベースのダウンミックス信号と、各オブジェクトオーディオ信号から抽出した情報が含まれるオブジェクト情報とを生成する。この時、各オブジェクト信号から抽出した情報は、エネルギー差、位相差、相関値などに基づくものである。
【0017】
オブジェクト情報には、チャネルベースのオーディオコーディングなのかオブジェクトベースのオーディオコーディングなのかを識別する識別子が含まれ、この値によってチャネルベースの復号化を行ったりあるいはオブジェクトベースの復号化を行うようにすることができる。また、オブジェクト情報には、オブジェクト信号に関する、エネルギー情報、グルーピング情報、無音区間情報、ダウンミックスゲイン情報、ディレー情報などが含まれうる。
【0018】
オブジェクトエンコーダ100で生成されたオブジェクト情報とダウンミックス信号は、一つのビットストリームに結合されて復号化装置に転送されうる。
【0019】
オブジェクトデコーダ111は、オブジェクトベースのオーディオ符号化装置から転送されたダウンミックス信号とオブジェクト情報を用いて元来のオブジェクト信号と類似の性質を有するオブジェクト信号を再生する。この時、オブジェクトデコーダ111で生成されるオブジェクト信号は、マルチチャネル上の特定チャネルに配置されていない信号である。したがって、オブジェクトデコーダ111で生成されたオブジェクト信号はそれぞれ、ミキサー/レンダラー113に入力され、制御情報によってマルチチャネル空間上の特定位置に特定レベルで配置されて再生される。各オブジェクト信号に関する制御情報は時間によって変換可能であり、これにより、特定オブジェクト信号の音象が時間によって空間上の位置やそのレベルが変わることができる。
【0020】
図2は、本発明の第1実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置120は、制御情報の分析を通じて適応的デコーディングが可能なように構成される。
【0021】
図2を参照すると、本実施例によるオーディオ信号復号化装置120は、オブジェクトデコーダ121、ミキサー/レンダラー123、及びパラメータコンバータ125を含む。図示してはいないが、復号化装置は、デマルチプレクサなどを含み、受信したビットストリームからダウンミックス信号とオブジェクト情報を抽出でき、以下に説明する他の実施例による復号化装置においても同様である。
【0022】
オブジェクトデコーダ121は、ダウンミックス信号と、パラメータコンバータ125から伝達される変換されたオブジェクト情報を用いてオブジェクト信号を生成する。ミキサー/レンダラー123は、オブジェクトデコーダ121から出力される各オブジェクト信号を制御情報によってマルチチャネルの空間上の特定位置に特定レベルで配置する。パラメータコンバータ125は、オブジェクト情報に制御情報を結合させて生成した変換されたオブジェクト情報をオブジェクトデコーダ121に伝達する。
【0023】
このような構成により、オブジェクトデコーダ121で、変換されたオブジェクト情報に結合された制御情報を分析し、適応的復号化が可能になる。
【0024】
例えば、制御情報によって、オブジェクト1信号とオブジェクト2信号がマルチチャネル空間上で同じ位置に同じレベルに設定される場合、一般的な復号化装置ではオブジェクト1信号とオブジェクト2信号がそれぞれ個別にデコーディングされた後、ミキシング/レンダリング過程で制御情報に合うようにマルチチャネル空間上に配列される。しかし、本実施例によるオーディオ復号化装置120でオブジェクトデコーダ121は、変換されたオブジェクト情報に結合された制御情報から、オブジェクト1信号とオブジェクト2信号がまるで一つの音源かのように同じレベルで同じ位置に設定されていることがわかる。これにより、オブジェクトデコーダ121は、オブジェクト1信号とオブジェクト2信号をそれぞれ別個にデコーディングせずに一つの音源のようにデコーディングすることができる。
【0025】
このようにオブジェクト1信号とオブジェクト2信号を一つの音源のように復号化し、復号化過程の複雑性を減らすことができる。また、ミキシング/レンダリング過程においても処理すべき音源が減るので、同様に複雑性を減らすことができる。このようなオーディオ復号化装置120は、オブジェクト信号の数が最終出力チャネル数よりも多いので、確率的に複数のオブジェクト信号が同じ空間上に配置される場合に効果的に使われることができる。
【0026】
他の例として、オーディオ復号化装置120は、オブジェクト1信号とオブジェクト2信号がマルチチャネル空間上で同じ位置に配置されるが、オブジェクト1信号とオブジェクト2信号のレベルが同一でなく、いずれか一方が他方よりも大きい場合にも使われることができる。この場合にも、オブジェクト1信号とオブジェクト2信号を個別にデコーディングした後にミキサー/レンダラー123の入力として転送する代わりに、オブジェクト1信号とオブジェクト2信号のレベルが調整された状態でこれら両者を一つの信号のようにデコーディングすることとなる。この時、オブジェクトデコーダ121は、変換されたオブジェクト情報に結合された制御情報から、オブジェクト1信号とオブジェクト2信号に対するエネルギーレベル差に関する情報を得ることができるので、この情報に基づいて両信号をデコーディングすることができる。これにより、オブジェクト1信号とオブジェクト2信号はそれぞれのレベルが調整された状態で一つの音源のように復号化が可能になる。
【0027】
さらに他の例として、オブジェクトデコーダ121が制御情報によって、各オブジェクト信号のレベルを調整するようにすることができる。すなわち、オブジェクトデコーダ121で制御情報によって、各オブジェクト信号がレベル調整された状態でデコーディングが行われるようにする。この場合、ミキサー/レンダラー123では位置とレベルを両方とも調整する代わりに、レベル調整無しで各オブジェクト信号のマルチチャネル空間上の位置に対してのみ配置作業をすれば良い。したがって、制御情報によるレベル調整段階をオブジェクトデコーダ121のデコーディング過程で行い、オブジェクト信号に対して追加的なレベル調整をすることなく直ちに位置配置が可能なので、複雑性を減らすことができる。
【0028】
このように本実施例によるオーディオ復号化装置120は、制御情報の分析を通じてオブジェクトデコーダ121が適応的にデコーディングを行うことができるので、デコーディング過程とミキシング/レンダリング過程の複雑性を減らすという効果が得られる。また、前述した様々な例で説明した方法は組み合わせて同時に用いても良い。
【0029】
図3は、本発明の第2実施例によるオーディオ信号復号化装置のブロック図である。図3を参照すると、本実施例によるオーディオ信号復号化装置130は、オブジェクトデコーダ131と、ミキサー/レンダラー133とを含む。本実施例によるオーディオ信号復号化装置130は、オブジェクト情報がオブジェクトデコーダ131の他にミキサー/レンダラー133にも伝達されるのに特徴がある。
【0030】
このような構成により、オブジェクト信号中に無音区間が存在する場合に、効率的にデコーディング作業を行うことができる。例えば、オブジェクト2〜4信号までは楽器音が演奏され、オブジェクト1信号が無音区間、すなわち伴奏区間に該当する。また、信号の時間帯別に特定オブジェクト信号が無音区間である場合が存在する。このような場合、各オブジェクト信号の無音区間に関する情報がオブジェクト情報に含まれて転送されうる。この時、オブジェクトデコーダ131は、特定オブジェクト信号が無音区間に該当する場合、その特定オブジェクト信号をデコーディングしない方式によって復号化過程の複雑性を最小化する。
【0031】
また、ミキサー/レンダラー133には、無音に該当するオブジェクトの信号が‘0’値で伝達される。しかし、このような無音信号、すなわち‘0’となっている信号に対してもミキサー/レンダラー133は一つの信号と見なし、ミキシング/レンダリング作業を行うのが一般的である。
【0032】
しかし、本実施例によるオーディオ復号化装置130は、個々のオブジェクト信号の無音区間に関する情報が含まれているオブジェクト情報がミキサー/レンダラー133にも伝達され、特定オブジェクト信号が無音区間である場合、そのオブジェクト信号に対してミキシングやレンダリング作業が行われないように構成されうる。
【0033】
図4は、本発明の第3実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置は、オブジェクトデコーダとミキサー/レンダラーの代わりにマルチチャネルデコーダを使用し、各オブジェクト信号がマルチチャネル空間上で配置完了し、デコーディングされるように構成される。
【0034】
図4を参照すると、本実施例によるオーディオ復号化装置140は、マルチチャネルデコーダ141及びパラメータコンバータ145を含む。マルチチャネルデコーダ141は、ダウンミックス信号とパラメータコンバータ145から伝達されるチャネルベースのパラメータ情報である空間パラメータとを用いて、マルチチャネル空間上に配置完了したマルチチャネル信号を出力する。パラメータコンバータ145では、オブジェクト情報及び制御情報を用いて空間パラメータを生成する。すなわち、オブジェクト情報と、プレイバック setup及びミキシング情報などが含まれた制御情報とを取り込み、これに基づいてマルチチャネルデコーダ141で使用可能な空間パラメータを生成する。これは、各OTT(One−To−Two)ボックスあるいはTTT(Two−To−Three)ボックスに該当する空間データへの変換を意味する。
【0035】
このような構成により、オブジェクトベースのデコーディング及びミキシング/レンダリング過程がマルチチャネルデコーディング過程により完了する他、中間段階としてそれぞれのオブジェクト信号を生成する過程が省かれ、複雑性を減らす効果が得られる。
【0036】
例えば、10個のオブジェクト信号があり、最終再生チャネルは5.1チャネルスピーカー再生システムである場合、一般的なオブジェクトベースオーディオ復号化装置では、ダウンミックス信号とオブジェクト情報を用いて10個のオブジェクトのそれぞれに対してデコーディングされた信号を生成する。そして、10個のオブジェクト信号とミキシング/レンダリング情報を用いてミキサー/レンダラーでは5.1チャネルスピーカー環境に合わせて各オブジェクト信号をマルチチャネル上の特定位置に配置し、最終的に5.1チャネル信号を生成する。このように、最終5.1チャネル信号のために中間段階で10個のオブジェクト信号のそれぞれを生成しなければならないという非効率性があり、この非効率性は、最終再生チャネル数とオブジェクト信号の数との差が大きいほどより増大する。
【0037】
しかし、本実施例によるオーディオ復号化装置140を用いてデコーディングする場合、オブジェクト情報と制御情報を用いて5.1チャネル出力構成に合う空間パラメータを生成する。そして、空間パラメータとダウンミックス信号をマルチチャネルデコーダ141に入力し、5.1チャネル信号を出力する。すなわち、最終出力チャネルが5.1チャネルである場合、中間段階である10個の信号を生成する過程無しで直接ダウンミックス信号から5.1チャネル信号を生成する構造であるから、一般的な方法に比べて効率的である。
【0038】
したがって、本実施例によるオーディオ信号復号化装置140は、エンコーダから転送されたオブジェクト情報と制御情報の分析を通じて各OTT、TTTボックスの空間パラメータを計算するのに必要な計算量が、全てのオブジェクト信号のそれぞれをデコーディングした後にミキサー/レンダラーを経由するのに必要な計算量よりも少ない場合に効率的である。
【0039】
また、本実施例によるオーディオ信号復号化装置140は、オブジェクト情報と制御情報の分析を通じて、マルチチャネルデコーダで使われる空間パラメータを生成するモジュールのみを追加するだけで、既存のマルチチャネルデコーダをそのまま使用してオブジェクトベースのオーディオ復号化装置を具現でき、既存のマルチチャネルデコーダと互換性を維持できるという長所がある。また、一般的なマルチチャネルデコーダ等に在るエンベロープシェーピング、STP(Sub−band Temporal Processing)ツール、デコリレータなどの既存ツールを変形せずに使用して音質を向上させることができる。これらの点は、既存のマルチチャネルデコーディングが持っている長所をいずれもオブジェクト復号化過程でも使用可能であるということを意味している。
【0040】
そして、パラメータコンバータ145から出力されてマルチチャネルデコーダ141に転送される空間パラメータは、データが最小限に圧縮されて転送に好適な形態であっても良く、一般的なマルチチャネルエンコーダから転送される形態、すなわちハフマンデコーディング、パイロットデコーディングなどの過程を経て実際マルチチャネルデコーダの各モジュールに入力されるべき圧縮されていない空間パラメータの形態で出力されても良い。前者の場合のように出力される場合、該当の空間パラメータ情報を遠隔地に在る他のマルチチャネルデコーダに転送するのに有利である。後者の場合、マルチチャネルデコーダで圧縮された空間パラメータを実際デコーディング作業に使われる実際空間パラメータに再び変換しなくて済むという長所がある。
【0041】
一方、オブジェクト情報と制御情報の分析を通じて空間パラメータを構成する上でディレーが発生しうる。この場合、ダウンミックス信号とディレーを合わせる過程が必要である。このために、ダウンミックス信号に追加的なバッファーを置いてダウンミックス信号とビットストリーム間のディレーを合わせる方法と、オブジェクト情報と制御情報から得られた空間パラメータに追加的なバッファーを置いてディレーを合わせる方法がある。しかし、これらの方法は追加的なバッファーを置かなければならないという不具合がある。この点に鑑み、オブジェクト情報自体を、ディレーを考慮してダウンミックス信号よりも早く送る方法も可能である。この場合、制御情報と結合して生成された空間パラメータは、追加的なディレーを補正することなく適用可能である。
【0042】
また、各オブジェクト信号が相対的レベルの差を有する場合、制御情報により与えられる各オブジェクト信号の相対的大きさは、ダウンミックス信号を直接補正するADG(Arbitrary Downmix Gains)によって決定し、オブジェクト信号の空間上の特定位置への割当は、CLD(Channel Level Difference)、ICC(Inter Channel Correlation)、CPC(Channel Prediction Coefficient)などの空間パラメータによって行うことが可能である。
【0043】
例えば、オブジェクト1信号が制御情報によって空間上の特定の位置に配置されると同時に他のオブジェクト信号に比べて相対的にレベルが大きくなった状態で配置される場合、一般的にマルチチャネルベースのデコーダは、転送された空間パラメータを用いてダウンミックス信号のパラメータバンド別相対的エネルギー差を求めた後、これに基づいて転送されたダウンミックス信号を出力チャネル別に分ける方式を用いている。このようなマルチチャネルデコーダは、ある特定の楽器や特定の音がダウンミックス信号自体において他の信号に比べて相対的に小さいレベルあるいは大きいレベルで含まれている場合、これを最終マルチチャネル出力において該当の特定信号の大きさのみを増加または減少させる方法を持っていない。すなわち、マルチチャネルデコーダは基本的な概念そのものが、転送されたダウンミックス信号を出力チャネルにそれぞれ分けて分配する形式であるがため、ダウンミックス信号自体に小さい音として含まれている信号を、出力信号において相対的に増加させたり、ダウンミックス信号自体に大きい音として含まれている信号を出力信号において相対的に減少させるという役割を果たし難い。
【0044】
したがって、オブジェクトエンコーダで生成されたダウンミックス信号を用いて、制御情報で要求する各オブジェクト信号の空間上の特定の位置に割り当てることは容易であるが、特定オブジェクト信号の大きさを増減させる場合にはより特別な方法が必要とされる。これは、オブジェクトエンコーダで生成されたダウンミックス信号をそのまま使用する場合、ダウンミックス信号中に含まれている特定オブジェクト信号の音を減少させることが難しいためである。
【0045】
したがって、本実施例では、このような場合において制御情報によるオブジェクト信号の相対的大きさ変化を適用する方法として、図5に示すように、ADGモジュール147を使用することができる。このADGモジュール147はマルチチャネルデコーダ141内に設置されても良く、マルチチャネルデコーダ141とは別に設置されても良い。
【0046】
ADGモジュール147を使用する場合、オブジェクトエンコーダから転送されたダウンミックス信号において特定オブジェクト信号の相対的大きさを減らしたり増やしたりすることが可能になり、ADGモジュール147によって変換されたダウンミックス信号をもってマルチチャネルデコーディングを行うことが可能である。
【0047】
ADGモジュール147を使用してダウンミックス信号を変化させ、オブジェクト信号の相対的大きさを調節する方法を用いる場合、オブジェクトデコーディングを既存のマルチチャネルデコーダを用いて行うことができるという長所がある。オブジェクトエンコーダで生成されたダウンミックス信号がモノ、ステレオ、または3チャネル以上の信号である場合にもADGモジュール147を適用することが可能であり、ダウンミックス信号が2チャネル以上である場合、大きさを調整しようとするオブジェクト信号がダウンミックスの特定チャネルにのみ存在すると、ADGモジュール147を特定ダウンミックスチャネルにのみ適用することも可能である。この全ての場合に既存のマルチチャネルデコーダの構成を変えることなく適用可能である。
【0048】
また、最終出力がマルチチャネルスピーカー再生ではなくバイノーラル再生の場合にも同一に適用可能であり、この場合にも、オブジェクト信号間の相対的大きさ変化はADGモジュール147を用いて調節可能である。
【0049】
この他にも、ADGモジュール147を使用してオブジェクト信号の相対的大きさを修正する方法を用いずに、各パラメータ値を用いて信号を生成する過程でオブジェクト信号間の相対的大きさを適用するゲイン値を適用させることも可能である。この場合、既存のマルチチャネルデコーダにおいてこのようなゲイン値を追加させるための若干の変形が必要である。しかし、既存のマルチチャネルデコーダの修正が必要である以外は、ADGを計算し補正する方法を用いずにデコーディング過程中にゲイン値を追加する方法で大きさを調整することができるので、相対的に複雑性が低減するという長所がある。
【0050】
このように、ADGモジュール147の適用は、単にオブジェクト信号のレベル調整だけでなく、特定オブジェクト信号のスペクトラム情報の変形が可能な場合にこれに対する適用ツールとしても用いられることができる。すなわち、特定オブジェクト信号のレベルを増加させたり減少させる場合にADGモジュール147が使われると共に、特定オブジェクト信号のスペクトラム情報の変形、すなわち特定オブジェクトの低音部を増やしたり高音部を増やしたりするようなスペクトラム情報の変形もADGモジュール147を用いて行うことができる。もちろん、このようなスペクトラム情報の変形は、既存マルチチャネルデコーダでADGモジュール147を使用せずには不可能な過程である。
【0051】
図6は、本発明の第4実施例によるオーディオ復号化装置を示すブロック図である。本実施例による復号化装置は、前述した実施例と略同様であり、ただし、バイノーラル出力の場合を追加した点に特徴がある。
【0052】
図6を参照すると、本実施例によるオーディオ信号復号化装置150は、マルチチャネルバイノーラルデコーダ151、第1パラメータコンバータ157、及び第2パラメータコンバータ159を含む。
【0053】
第2パラメータコンバータ159は、エンコーダで生成されたオブジェクト情報と制御情報を分析して空間パラメータを生成する。第1パラメータコンバータ157は空間パラメータに再びHRTFパラメータなどの3D情報を追加し、仮想3Dパラメータを生成する。マルチチャネルバイノーラルデコーダ151は、ダウンミックス信号に仮想3Dパラメータを適用してバイノーラル信号を生成する。
【0054】
この時、第1パラメータコンバータ157と第2パラメータコンバータ159を結合し、オブジェクト情報と制御情報及び3D情報を受信してバイノーラルパラメータを生成する統合されたパラメータコンバータ155としても良い。
【0055】
もし、一般的な方法により、10個のオブジェクト信号が含まれたダウンミックス信号を、ヘッドホン再生などのためのバイノーラル信号とするためには、まず、オブジェクトデコーダでダウンミックス信号とオブジェクト情報から10個のオブジェクト信号のそれぞれに対してデコーディングされた信号を生成する。生成した信号と制御情報を用いてミキサー/レンダラーでは5チャネルスピーカー環境に合うように各オブジェクト信号をマルチチャネル上の特定位置に配置し、5チャネルスピーカーを通じて再生される5チャネル信号を生成する。そして、この信号に対して各チャネル別3D情報などを適用し、最終的に2チャネル出力を生成することとなる。これは、最終2チャネル信号を生成するために、10個のオブジェクト信号を再生し、これらを再び5チャネル信号に変換した後に最終2チャネル信号を生成するという点で非効率的である。
【0056】
これに対して、本実施例による復号化装置150は、オブジェクト信号からヘッドホン再生などのためのバイノーラル信号を直接生成することができる。また、本実施例による復号化装置150は、オブジェクト情報と制御情報を分析して空間パラメータを生成し、バイノーラル出力の場合にも既存のマルチチャネルバイノーラルデコーダをそのまま使用することができるという長所がある。そして、オブジェクト情報と制御情報、HRTFパラメータを入力としてバイノーラルパラメータを生成する統合されたパラメータコンバータを用いる場合、複雑性をさらに減らすことができるという長所がある。この場合にも同様に、マルチチャネルバイノーラルデコーダを再使用できるという長所がある。
【0057】
図7は、本発明の第5実施例によるオーディオ復号化装置を示すブロック図である。図7を参照すると、本実施例によるオーディオ復号化装置160は、前処理部161、マルチチャネルデコーダ163、及びパラメータコンバータ165を含む。
【0058】
パラメータコンバータ165は、マルチチャネルデコーダ163で使用される空間パラメータと前処理部161で使用されるパラメータとを生成する。前処理部161は、ダウンミックス信号に対する前処理過程を行い、前処理過程の行われた信号はマルチチャネルデコーダ163に伝達され、デコーディング過程が行われる。マルチチャネルデコーダ163から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。前処理部161で行われる前処理過程には、フィルタリングなどを用いたダウンミックス信号の時間あるいは周波数ドメインでの修正や変換などが含まれうる。
【0059】
また、オーディオ復号化装置160に入力されるダウンミックス信号がステレオ信号の場合、このダウンミックス信号は、マルチチャネルデコーダ163の入力として転送される前に、前処理部161でダウンミックス前処理過程をたどらなければならない。なぜなら、マルチチャネルデコーダ163は、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程においてダウンミックス信号の左チャネルに位置している信号をマルチチャネルの右側チャネルにマッピングすることができないためである。したがって、ステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更させようとする場合、ステレオダウンミックスチャネルに前処理過程を行ってからマルチチャネルデコーダ163に入力させなければならない。
【0060】
このようなステレオダウンミックス信号の前処理過程は、オブジェクト情報と制御情報から前処理に関する情報を求めた後、この情報を用いて行うことができる。
【0061】
図8は、本発明の第6実施例によるオーディオ復号化装置を示すブロック図である。図8を参照すると、本実施例によるオーディオ復号化装置170は、マルチチャネルデコーダ171、後処理部173、及びパラメータコンバータ175を含む。
【0062】
パラメータコンバータ175は、マルチチャネルデコーダ171で使われる空間パラメータと後処理部173で使われるパラメータとを生成する。後処理部173は、マルチチャネルデコーダ171の出力信号に後処理過程を行う。マルチチャネルデコーダ173から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。
【0063】
後処理部173で行われる後処理過程には、フィルタリングなどを用いて出力信号のチャネル別あるいは全てのチャネルに対して修正及び変換を行うことなどが含まれる。後処理部173の特定の例としては、オブジェクト情報内に特定オブジェクト信号の基本周波数値などを表示し、これを用いて後処理過程で基本周波数の倍音成分のみを除去することが挙げられる。マルチチャネル復号化方法だけでは、充分な性能のカラオケシステムを具現し難いかもしれないが、ボーカルオブジェクト信号に対して基本周波数情報を含み、その倍音成分を後処理過程で消すと、高い性能のカラオケシステム具現が可能となる。この技術を、音声の他、特定オブジェクト信号に適用すると特定楽器のみを消すことが可能になる。また、オブジェクト信号の基本周波数情報を用いて特定倍音成分のみを増幅することができる。このように、後処理パラメータは、マルチチャネルデコーダで適用不可能なオブジェクト信号の残響効果挿入、ノイズ追加、低音部補強などの様々なエフェクト適用を可能にする。
【0064】
そして、後処理部173は、ダウンミックス信号に追加的なエフェクト処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ171の出力信号に加える作業を行うことができる。特定オブジェクト信号のスペクトラムを変更したり、ダウンミックス信号全体に変形を加える必要がある場合、後処理部173は、該当の作業をダウンミックス信号自体に加える。残響などのように、ダウンミックス信号に直接処理し、処理された信号をマルチチャネルデコーダ171に転送することが適切でない場合、このような処理をマルチチャネルデコーダ171に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ171の出力に加える方式で処理しても良い。
【0065】
図9は、本発明の第7実施例によるオーディオ復号化装置を示すブロック図である。図9を参照すると、本実施例によるオーディオ復号化装置180は、前処理部181、マルチチャネルデコーダ183、後処理部185、及びパラメータコンバータ187を含む。すなわち、本実施例によるオーディオ復号化装置180は、マルチチャネルデコーダ183の前段に前処理部181が配置され、マルチチャネルデコーダ183の後段に後処理部185が配置されるように構成される。
【0066】
前処理部181は、図7で説明したのと同様に適用されうる。また、後処理部185を、後処理過程が適用された後に対応するエフェクトが適用された信号をマルチチャネルデコーダ185の出力に加えて最終信号を得るのに使用しても良い。この場合、後処理部185は、信号を加える役割のみを果たす。また、エフェクト適用がどちらで行われるかによってエフェクトパラメータは前処理部181と後処理部185のうち、該当の過程が行われる一方に伝達される。また、ダウンミックス信号にエフェクトを適用してマルチチャネルデコーダ183の出力に加える過程と、マルチチャネルデコーダ185の出力信号にエフェクトを適用する過程が同時に行われうる。
【0067】
一方、図7及び図9で提案された前処理部は、ダウンミックス信号を使用者の制御情報によってレンダリングする役割を果たすことができる。また、前処理部は、単純なオブジェクト信号の方向情報によるレンダリング過程だけでなく、オブジェクト信号のレベルを増加または減少させる過程、オブジェクト信号のスペクトラムに変形を加える過程も行うことができる。この場合、前述したADGモジュールで可能な処理を前処理部で行うことも可能である。
【0068】
このような場合、前処理部ではオブジェクト信号の方向情報によるレンダリング過程と、オブジェクト信号のレベル調整、オブジェクト信号のスペクトラム情報変形などの過程を同時に行うことができる。また、これらの過程は、適切に分けられ、一部は前処理部で行い、一部はADGモジュールを用いて行うことができる。例えば、オブジェクト信号のスペクトラム変形の場合、ADGモジュールで使われる量子化レベル間隔及びパラメータバンド間隔を用いて行うことが適切でない場合がある。この場合、オブジェクト信号のスペクトラム修正は、前処理過程で周波数別に細かいスペクトラム変形を行い、ADGモジュールでは各オブジェクト信号のレベル調整を行うことによってなされうる。
【0069】
図10は、本発明の第8実施例によるオーディオ復号化装置を示すブロック図である。図10を参照すると、本実施例によるオーディオ復号化装置200は、レンダリングマトリクス生成部201、トランスコーダ203、マルチチャネルデコーダ205、前処理部207、エフェクトプロセッサ208、及び加算器209を含む。
【0070】
レンダリングマトリクス生成部201は、オブジェクト信号の空間上での位置に関する情報と、オブジェクト信号のレベル大きさに関するプレイバック情報などを表現するレンダリングマトリクスを生成し、トランスコーダ203に伝達する。また、レンダリングマトリクス生成部201は、オブジェクト信号の空間上での位置に関する情報によって適切なHRTF係数などのような3D情報を生成して伝達する。この時、HRTFとは、任意の位置を持つ音源から出る音波と耳の鼓膜に到達する音波間の伝達関数を意味し、音源の方位と高度によってその値が異なってくる。方向性のない信号を特定方向のHRTFでフィルタリングすると、人にはあたかも特定方向から声が聞こえるかのように感じられる。
【0071】
レンダリングマトリクス生成部201が入力として受けるオブジェクト位置とプレイバック構成情報は、最終使用者が任意の組合せで入力し、時変可能な情報である。
【0072】
トランスコーダ203は、オブジェクトベースのオブジェクト情報とレンダリングマトリクス情報、3D情報などを用いてチャネルベースの付加情報を生成してマルチチャネルデコーダ205に伝達し、マルチチャネルデコーダ205で使用される3D情報を伝達する。すなわち、トランスコーダ203は、N個のオブジェクト信号に対するオブジェクトベースパラメータ情報から変換されたM個のチャネルに対するチャネルベースの付加情報と、各オブジェクト信号に適用された3D情報とを分離してマルチチャネルデコーダ205に転送する。
【0073】
マルチチャネルデコーダ205は、ダウンミックス信号とトランスコーダ203から出力されるチャネルベースの付加情報とを用いてマルチチャネルオーディオ信号を生成し、3D情報を用いて3Dレンダリングを行い、3Dベースのマルチチャネル信号を出力することができる。また、図示してはいないが、レンダリングマトリクス生成部201内に3D情報データベースが備えられる。
【0074】
トランスコーダ203は、ダウンミックス信号をマルチチャネルデコーダ205に入力する前に前処理作業が必要な場合、これに関する情報を前処理部207に伝達する。トランスコーダ203に入力されるオブジェクト情報には各オブジェクト信号に関する情報が含まれており、レンダリングマトリクスには各オブジェクト信号の空間上の位置及びレベル情報が含まれている。トランスコーダ203はこれら2つの情報を利用すると各オブジェクト信号が最終的にミキシングされて再生されるチャネルに関する情報が得られ、このようにミキシングされて再生されるためにマルチチャネルデコーダ205に転送されなければならないチャネルベースの付加情報を算出し、マルチチャネルデコーダ205に転送する。
【0075】
トランスコーダ203から出力されるチャネルベースの付加情報と3D情報はそれぞれ、フレームインデックスを含むことができる。これにより、マルチチャネルデコーダ205では、フレームインデックスを用いて、チャネルベースの付加情報と3D情報を同期させ、ビットストリームの特定フレームに3D情報を適用することができる。このようにフレームインデックスを用いて、3D情報が時間の経過と共に更新される場合、チャネルベースの付加情報で時間上のどの位置に適用されるかを決定することができる。すなわち、マルチチャネルデコーダ205でチャネルベースの付加情報と更新される3D情報を時間同期化するため、トランスコーダ203でチャネルベースの付加情報と3D情報にフレームインデックスを含める。
【0076】
前処理部207は、受信したダウンミックス信号をマルチチャネルデコーダ205に入力する前に、必要な作業がある場合、それに対する作業を行う。すなわち、前述したように、ステレオダウンミックス信号では、左チャネルに属したオブジェクト信号を右チャネルで再生しようとする場合などにおいて該当の作業がマルチチャネルデコーダ205で不可能なので、ダウンミックス信号に対して該当のオブジェクト信号の位置変換作業などを行う。このような作業に関する情報はトランスコーダ205から受信する。該当の作業を経たダウンミックス信号はマルチチャネルデコーダ205に伝達される。
【0077】
エフェクトプロセッサ208と加算器209は、ダウンミックス信号に追加的なエフェクト処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ205の出力信号に加える作業を行うことができる。エフェクトプロセッサ208は、特定オブジェクト信号のスペクトラムを変更したり、ダウンミックス信号全体に変形を加える必要がある場合、かかる作業をダウンミックス信号自体に適用することができる。また、残響などのように、ダウンミックス信号に直接処理し、処理されたダウンミックス信号をマルチチャネルデコーダ205に転送することが適切でない場合、該当の処理をマルチチャネルデコーダ205に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ205の出力に加える方式で処理することができる。
【0078】
このような構成で、レンダリングマトリクス生成部201で生成するレンダリングマトリクスについてより詳細に説明すると、下記の通りである。
【0079】
レンダリングマトリクスは、オブジェクト信号の位置とプレイバック構成に関する情報を表現するマトリクスである。すなわち、オブジェクト信号の個数がNで、最終再生チャネルの個数がMの場合、レンダリングマトリクスはN個のオブジェクト信号がM個のチャネルにどのようにマッピングされるかに関する情報を含む。このような情報を、下記のように様々な方法を用いてレンダリングマトリクスとして表現できる。
【0080】
第一の方法は、N個のオブジェクト信号をM個のチャネルにマッピングする場合、N*Mマトリクスで表現する。この場合、N行はそれぞれのオブジェクト信号に該当し、M列は各チャネルに該当する。特定オブジェクト信号に該当する行のM列には、該当のオブジェクト信号が各チャネルに割り当てられる比率を表記する。この比率を表記する方法は、実数で表現しても良く、整数で表現しても良い。
【0081】
オブジェクト信号が各チャネルに割り当てられる比率を実数で表現する場合、特定行のM列の値を全部合算した値が1の場合、オブジェクト信号のレベル変化はないものと見なす。また、この値が1よりも小さい場合は該当のオブジェクト信号のレベルを減らした場合と、1よりも大きい場合はレベルを増加させた場合と見なす。もちろん、レベル変化のないケースに該当する基準値1は、他の値で表示しても良い。レベル変化の範囲は±12dBなどのような値でその範囲が限定されうる。例えば、レベル変化のない場合の基準値を1にした場合、1.5は+12dBに該当し、0.5は−12dBに該当するもので表現し、0.5〜1.5の値は−12dB〜+12dBの値で線形的に対応させることが可能である。
【0082】
オブジェクト信号が各チャネルに割り当てられる比率を整数で表現する場合、オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のM列を全部合算した値を10または20、30あるいは100等の定められた値で定義することとなる。M列の和が定められた値よりも小さい場合、当該オブジェクト信号のレベルを減少させたことに該当し、和が定められた値よりも大きい場合、オブジェクト信号のレベルを増加させたことに該当する。この場合にもレベル変化の範囲は±12dBなどのような値でその範囲が限定されうる。また、この場合、該当のレベル変化範囲内で表示できるレベル変化の差の間隔が定められうる。例えば、数値1の増減を2dBの変化と表現することができる。オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のM列を全部合算した値が20の場合を取り上げて説明すると、23は+6dBを表現し、15は−10dBを表現することができる。
【0083】
レンダリングマトリクスをN*Mマトリクスで表現する場合、オブジェクト信号が6個で、再生チャネルが5個である場合を挙げると、この時に表現されるレンダリングマトリクスは6*5行列となる。各チャネルに割り当てられるオブジェクト信号の比率を整数で表現し、オブジェクト信号のレベル変化がない場合の和が10の場合と、この値の1の増減が2dB増減を表す場合、任意のレンダリングマトリクスを表現すると、下記の式1のようになる。この時チャネルを表現する5列の順序はLf、Rf、C、Ls、Rsであると仮定する。
【0084】
【数1】
【0085】
上記の式1のように表現されるレンダリングマトリクスから、オブジェクト1信号に該当する1行の5列の値(3,1,2,2,2)を参照するとオブジェクト1信号が5チャネル上にどんな割合で分配されたかがわかる。この5列のうち1番目の列が3と最も大きく、5列の和が10であることから、オブジェクト1信号はLf方向に位置が定められ、全体的なオブジェクト信号のレベルには変化が無いことがわかる。同様に、オブジェクト2信号に該当する値である(2,4,3,1,2)を参照すると、最も大きい値がRfに位置していて、オブジェクト2信号の方向がRf側に位置していることがわかり、5列の和が12と、オブジェクト2信号のレベルが元来よりも4dB大きくなったことがわかる。同様に、オブジェクト3信号の場合、該当する値が(0,0,12,0,0)と、Cにのみ成分が存在し、全体的に4dB大きくなったことがわかる。オブジェクト5信号の場合、(2,2,2,2,2)と全チャネルに均一に分布しており、レベルの大きさには変化が無いことがわかる。
【0086】
レンダリングマトリクスで表現する第二の方法は、前述したように、オブジェクト信号のレベル変化の有無は、オブジェクト信号に該当する行に在る全ての列の値を合算した値から求めることができるが、このような構造を若干変更し、上のN*Mマトリクスで表現されたものに1列を追加し、N*(M+1)マトリクスで表現する。この時、各行の1番目のM列は、Mチャネルにオブジェクト信号がどのように分布するかを、上記第一の方法と略同様な方法で表現する。M+1にオブジェクト信号のレベルを表現する方式は、第一の方法でM列の和の値で表現する方法と同じ方法で表現可能である。
【0087】
このようにオブジェクト信号のチャネル上の分布とレベル変化を同時に表示する場合とは違い、オブジェクト信号のチャネル上の分布とレベル変化を別個に表示する場合、以降オブジェクト信号のレベル変化のみを計算する必要がある場合、追加的な計算無しでレベル変化情報を得ることができる。また、このような第二の方法は、第一の方法とは表現する方式が違うだけで、表現の内容には違いがないので、第一の方法で表現されたレンダリングマトリクスをこのような形式に変換したりその反対に変換したりすることが可能であり、このような変形に追加的に必要な情報はない。
【0088】
レンダリングマトリクスで表現する第三の方法は、N個のオブジェクト信号をM個のチャネルにマッピングする場合に、N*2マトリクスで表現する。この場合、1番目の列は、オブジェクト信号が位置する空間上の位置に対する角度を表示し、2番目の列は、オブジェクト信号のレベル変化を表示することができる。角度表示の場合、フロントを0度と仮定し、反時計回り方向にオブジェクト位置の角度を表現することができる。角度表示は0〜360度の値とすることができる。この時、角度表現は、1度間隔あるいは3度間隔などの間隔レベルをおいて行うことができる。特定の方向が存在せず、全チャネルに均一に分布するオブジェクト信号では、特定値を割り当てて方向を表示する値に特定値を表示する場合には、全チャネルに均一に分布するということを意味するように設定することができる。
【0089】
このような方法は、2次元上の方向の他、上下の方向を表示しようとする場合、N*2マトリクスに列を一つ追加してN*3マトリクスで表現し、2番目の列を上下の方向に関する情報を表現するのに使用することができる。最後の列に表示されるオブジェクト信号のレベル変化は、第一の方法と同様に、実数あるいは整数で表現が可能であり、その変化のレベル間隔及び範囲も、第一の方法で説明したような方法を用いれば良い。
【0090】
もし、オブジェクトデコーダの最終再生モードがバイノーラルステレオである場合、レンダリングマトリクス生成部201でオブジェクト信号の位置によって、該当の位置に対応する3D情報あるいは該3D情報に対応するインデックスを伝達することができる。3D情報インデックスを伝達する場合、トランスコーダ203は、伝達されたインデックスに対応する3D情報を保有していなければならない。また、各オブジェクト信号の位置に対応する3D情報を転送することによって、トランスコーダ203では各オブジェクト信号の位置に対応する3D情報とレンダリングマトリクス、そしてオブジェクト情報から、マルチチャネルデコーダ205で使われる特定3D情報を計算することができる。もちろん、インデックスを伝達せずに、レンダリングマトリクス生成部で計算された3D情報を直接伝達しても良い。
【0091】
前述したレンダリングマトリクスと3D情報は、最終使用者がオブジェクト位置とプレイバック構成情報を実時間で変更することによって適応的に実時間変更され、トランスコーダ203に転送される。この時、レンダリングマトリクスと3D情報は一定の時間間隔をおいて情報の変化の有無及び以前の情報と対比して変化した情報のみを転送しても良い。例えば0.5秒間隔で1回ずつ情報変化有無及び情報変化時に変化した情報転送をする場合が挙げられる。この時、時間間隔は任意に定めることができる。設定された時間間隔をおいて転送された情報をトランスコーダ203で使用する場合、情報の変化が起きた区間では、以前の情報と変化した情報を用いて必要な情報を生成できる。
【0092】
情報転送の方法も、オブジェクト位置とプレイバック構成が変わらない場合、最初にレンダリングマトリクスと3D情報を一度転送した後、それ以上該当の情報を転送せずに、変化の無いことを表示する情報のみを転送できる。情報の変化がある場合には、変化があることを表示する情報の転送後に、変化されたレンダリングマトリクスと3D情報を転送する方法を使用することができる。情報の変化を表示する方法の場合にも、レンダリングマトリクスと3D情報のそれぞれに対して情報変化の有無を表示する方法と、これら両者の変化を一つの代表値で表示した後、変化が起きた場合に追加的にレンダリングマトリクスと3D情報のいずれの情報に変化が起きたかを表現する方法が可能である。この方法を使用する場合、変化が長い間起こらない場合に、変化が起きていないことを表示する方法がより簡単になる。
【0093】
上記の式1のレンダリングマトリクスに1列を追加し、この列にはオブジェクトの上下方向に関する情報を含めることができる。この場合、該当の情報は、−90度〜+90度までの値を表現することとなる。このようなオブジェクト信号の上下方向に関する情報が追加的な行列の列に含まれることは、第一の方法だけでなく第二及び第三の方法のケースに該当するレンダリングマトリクスにも適用することができる。この情報の場合、実際マルチチャネルデコーダのノーマルデコーディングモードでは使用されず、マルチチャネルデコーダがバイノーラルモードで動作する場合に追加的な3D情報適用を通じて具現可能である。このようなオブジェクト信号の上下方向に関する情報は、このようにレンダリングマトリクスに含まれて転送されても良いが、レンダリングマトリクスに含まれずに、3D情報と一緒に転送される方式で転送されても良い。このような上下方向に関する情報は、チャネルベースの付加情報には影響を及ぼさず、バイノーラルモードでデコーディングする時に3D情報に適用されることとなる。
【0094】
一方、オブジェクト信号の空間上の位置とレベル調整に関する情報は、レンダリングマトリクスで表現可能であるだけでなく、オブジェクト信号のスペクトラム上に変化を与えることもできる。例えば、特定オブジェクト信号に対する低音部強化、あるいは高音部強化のような変化を与えることができる。この場合、これに関する情報は、マルチチャネルコーデックで使われるADGと類似の形態で各パラメータバンドのレベル変化として表示して転送されうる。このようなオブジェクト信号のスペクトラム変更は、ダウンミックス前処理過程で処理可能である。このようなオブジェクト信号のスペクトラム上の変化を最終使用者が制御する場合、これに関する情報は、例えばスペクトラムマトリクスなどのような形態としてレンダリングマトリクスとは別個に転送されうる。この場合、レンダリングマトリクスの行はオブジェクト信号の個数分だけ、列はパラメータ個数分だけ構成された行列が使用されることができ、行列の係数は、各パラメータバンドのレベル調整に関する情報を表すことができる。
【0095】
次に、トランスコーダ203の動作過程について詳細に説明する。トランスコーダ203は、オブジェクトベースのオブジェクト情報、レンダリングマトリクス情報及び3D情報を用いて、マルチチャネルデコーダ205で使われるチャネルベースの付加情報を生成して伝達し、マルチチャネルデコーダ205で使用される3D情報を伝達する。また、ダウンミックス信号をマルチチャネルデコーダ205に入力する前に前処理過程が必要な場合、これに関する情報を伝達する。
【0096】
トランスコーダ203が入力として受信するオブジェクトベースのオブジェクト情報には、各オブジェクト信号がダウンミックス信号にどのように含まれているかを表現する情報が入っている。各オブジェクト信号がダウンミックス信号にどのように含まれているかを表現する方法には、マルチチャネルコーデックで既に使用されているOTT(One−to−Two)ボックス及びTTT(Two−to−Three)ボックスなどを用いてCLD、ICC、CPC等の情報を通じて表現する方法があり得る。このような情報を通じて、各オブジェクト信号に関する情報をどのように表現可能かについてオブジェクトエンコーダで可能な方法を説明すると、オブジェクト情報にオブジェクト信号に関する情報がどんな方法で含まれるかがわかる。
【0097】
一般に、マルチチャネルコーデックにおけるTTTボックスは、L、C、R信号をL、R信号にダウンミックスしたり、逆にアップミックスするのに使われる。これはC信号がL、R信号の成分を一部ずつ持っているケースに該当する。しかし、オブジェクト信号間のダウンミックスとアップミックスの場合、オブジェクト信号間にこのような特徴を持っている場合はほとんど存在しない。したがって、オブジェクトコーディングのアップミックスとダウンミックス時にはほとんどOTTボックスのみが使われる場合が多い。もちろん、マルチチャネルコーデックにおいて、CがL、Rの成分ではなく独立した信号を含んでいる場合にも問題なくTTTボックスの使用が可能なので、オブジェクトコーディングアップミックスとダウンミックス時にTTTボックスの使用も可能である。
【0098】
このような場合の例として、オブジェクト信号が合計6個存在し、モノダウンミックス信号である場合が考えられる。この場合、図11に示すように、OTTボックスを通じて6個のオブジェクト信号をダウンミックス信号に変換し、オブジェクト信号に関する情報を求めることが可能である。
【0099】
図11に示す構造で、一つのダウンミックス信号と総数5個のOTTボックスから得られるCLD、ICC等の情報で6個のオブジェクト信号に関する情報を表現できる。また、オブジェクトコーディングではこのような構造の自由な変更が可能である。すなわち、図11で、OTTボックス1(211)には6個のオブジェクト信号のうち任意の二つのオブジェクト信号を入力することができる。また、OTTボックスとOTTボックスが階層的に連結される構造もまた自由な変更が可能であり、オブジェクト情報にはこのようなOTTボックスの階層的に連結される構造に関する情報と各オブジェクト信号が入力として入る位置に関する情報が含まれる。任意のツリー構造の場合、マルチチャネルコーデックで使用する任意のツリー構造を表現する方法をそのまま使用することも可能である。また、各オブジェクト信号の入力位置に関する情報は様々な方法を用いて表現できる。
【0100】
オブジェクト情報には各オブジェクト信号の無音区間、すなわち、特定オブジェクトの信号がない場合に対して情報を表示することも可能である。この場合、ツリー構造が時間の変化に適応して変わることができる。例えば、図11で、オブジェクト1信号が無音区間である場合、OTTボックス1(211)への情報は必要でなく、オブジェクト2信号に該当する信号がOTTボックス4(217)に入力されると見なすことができる。このように、場合によって毎度ツリー構造を変更し、これに関する情報をオブジェクト情報に含めることができる。
【0101】
また、類似の方法として、特定オブジェクト信号が無音状態にあり、そのオブジェクト信号がダウンミックスされるOTTボックスに対して、OTTボックスの使用有無に関する情報が存在し、この情報によって当該ボックスのキューが存在したり存在しない方法を使用することができる。このように、特定オブジェクト信号の無音区間に関する情報を適用する場合、オブジェクト情報で実際に使われないOTT、TTTボックスに関する情報を減らすことができるという長所がある。また、ツリー構造を変更する場合にも、最初に定められたツリー構造で特定オブジェクト信号が無音区間に該当する場合、該当オブジェクト信号が無音となることによって機能がオン/オフされるボックスがどれかを類推できる。したがって、毎度変更されたツリー構造全体に対して情報を送らず、特定オブジェクト信号が無音であるという情報だけでもデコーダではツリー構造のどの部分に修正が加えられるべきかがわかるので、無音区間有無に関する情報は最小限に低減され、オブジェクト信号に対するキューは効率的に転送されうる。
【0102】
図12は、各オブジェクト信号がダウンミックス信号にどのように含まれているかを説明するための図である。図12を参照すると、図11でマルチチャネルコーディングのOTTボックス構造をそのまま使用したこととは違い、それを若干変形した構造を示している。この構造では、一つのボックスに複数のオブジェクト信号が入力され、一つのダウンミックス信号を生成する。この場合、各オブジェクト信号に関する情報は、全体エネルギーに対する各オブジェクト信号のエネルギーの比で表現することが可能である。しかし、オブジェクト信号数が多くなると、各オブジェクト信号のエネルギーに比べて全体エネルギーの大きさが大きくなり、各オブジェクト信号に関する情報であるエネルギーの比が小さい値のみからなることができる。これを補正するため、全体エネルギーに対する各オブジェクト信号のエネルギー比を表示せずに、特定パラメータバンド内でエネルギーの最も大きいオブジェクト信号を捜し、残りのオブジェクト信号のエネルギーを最もエネルギーの大きいオブジェクト信号のエネルギーに対する割合で表す方法を適用することができる。このような方法を用いる場合、該当のパラメータバンド内で最も大きいエネルギーを持つオブジェクト信号に関する情報と、該オブジェクト信号が持つエネルギーの絶対値を知ると、残りのオブジェクト信号のエネルギーの大きさがわかる。
【0103】
特定パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号のエネルギーの大きさは、MCU(Multipoint Control Unit)のように複数のビットストリームを一つのビットストリームに併合する場合には必須の情報となる。しかし、ビットストリームを併合しない場合、最も大きいエネルギーを持つオブジェクト信号と比較した残りのオブジェクト信号のエネルギーの大きさの比が与えられると、最も大きいエネルギーを持つオブジェクト信号の絶対的エネルギーの大きさは計算を通じて抽出することができる。
【0104】
例えば、特定パラメータに含まれたオブジェクト信号がA、B、C、Dの4個と仮定し、この中で最も大きいエネルギーを持つオブジェクト信号をAとする。オブジェクトAのエネルギーとB、C、Dとのエネルギーの大きさの比をそれぞれa、b、cとし、オブジェクトAの絶対的エネルギーの大きさをEAとし、該当のパラメータバンドのエネルギーをEPとすれば、下記のような式が成り立つ。
【0105】
【数2】
【0106】
上記の式2から、最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対的大きさは、それに関する情報が与えられなくても他の情報を用いて計算できることがわかる。したがって、MCUを経てビットストリームが結合される場合でない限り、最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対的大きさは、ビットストリームに含めて転送しなくても良い。ビットストリームにはこのような情報が含まれているか否かをヘッダに表示する方法を用いてビットストリーム全体の大きさを低減することができる。
【0107】
しかし、MCUを経てビットストリームが結合される場合、最も大きいエネルギーを持つオブジェクト信号のエネルギーの大きさ値に関する情報が必要とされる。この場合、ダウンミックス信号の実際エネルギーの大きさと最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号との比から求められる各オブジェクト信号のエネルギーの和が、実際ダウンミックス信号のエネルギーの大きさと異なってくる場合が発生する。すなわち、ダウンミックス信号のエネルギーの大きさは100であるが、各オブジェクト信号のエネルギーの大きさを計算して合算した結果が98あるいは103等と、100でない値として計算される場合がある。これは、各エネルギーの絶対値、エネルギーの大きさの比が量子化された状態でこれを再び脱量子化したのち計算することによる不一致に起因する。この場合、各オブジェクト信号のエネルギーの大きさとして計算された最終値にこの差を補正する係数を乗算しなければならない。ダウンミックス信号のエネルギーがXであるが、各オブジェクト信号のエネルギーを計算して合算した値がYである場合、各オブジェクト信号を計算する部分にX/Yを乗算しなければならいない。このような不一致を考慮しない場合、量子化エラーが各パラメータバンド及び毎フレームに含まれ、信号の歪みが生じうる。
【0108】
したがって、パラメータバンドで最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対値がどのオブジェクト信号に該当するかを表示する情報が必要である。これを表示するための情報は、特定ビットを用いて表現できるが、この情報を表示するために必要なビット数は、総オブジェクト信号の数が幾つかによって変わりうる。すなわち、オブジェクト信号数が少ないと最も大きいエネルギーを持つオブジェクト信号を表現するのに使われるビット数も減り、オブジェクト信号の数が多いとこれを表現するビット数も増えることとなる。このとき、あらかじめ定められた規則によって該当のビット数を定めても良く、あるいは、何ビットを使用すべきかを表す他の情報を必要としても良い。
【0109】
また、マルチチャネルコーデックのOTT、TTTボックスに使われるCLD、ICC、CPC値を表現する時、その絶対値ではなく時間差、周波数差、パイロットコーディングなどの方法を通じて情報量を減らすことと同様に、各パラメータバンド別に最も大きいエネルギーを持つオブジェクトに関する情報も上記のような方法を用いて表示することができる。
【0110】
また、最も大きいエネルギーを持つオブジェクト信号を表現するのに最適化されたハフマンテーブルを使用することも可能である。この場合、パラメータバンド内での最も大きいエネルギーを持つオブジェクト信号がどれかを表示する情報の他にも、最も大きいエネルギーを持つオブジェクト信号と比較した相対エネルギーを表示するオブジェクト信号の順序に関する情報も必要である。例えば、オブジェクト信号が1、2、3、4、5の5個が存在すると仮定する。特定パラメータで最も大きいエネルギーを持つオブジェクト信号を3番オブジェクト信号とする場合、このオブジェクト信号に関する情報を表示し、相対的なエネルギーの比を表示する方法としては、下記のようなものが考えられる。
【0111】
その第1の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、1番オブジェクト信号から順次にエネルギーの比を表示する方法であり、第2の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、該当のオブジェクト信号以降のオブジェクトから循環的な順序でオブジェクト信号のエネルギーの比を表示する方法である。もちろん、このようなオブジェクト信号間の順序に関する情報は、ファイルヘッダにあるいは一定フレームごとに1回ずつ転送されてオブジェクト信号の表示順序を知らせる情報に基づく。マルチチャネルコーデックでOTTボックス番号によって各チャネルに該当する信号のCLD、ICCなどを推論するのと同様に、オブジェクトビットストリーム上には各オブジェクト信号とビットストリーム上の情報がどのようにマッチングされるかを表現する情報が必要である。
【0112】
マルチチャネルコーデックの場合、OTTあるいはTTTボックスのナンバーによって各チャネルに該当する信号に関する情報が何であるかがわかる。オブジェクトベースのオーディオ符号化でも、上記の方法のようにオブジェクト信号がN個ある場合、該当のオブジェクト信号を表示するために1番からN番までの番号を割り当てる方法を用いることができる。しかし、オブジェクトベースのオーディオ符号化では、該当のオブジェクト信号をオブジェクトデコーダ上で使用者が制御する場合が発生するが、この場合、使用者はオブジェクト信号のナンバリングだけでなく、該当番号に該当するオブジェクト信号がどのオブジェクト信号かに関する説明も必要である。例えば、1番オブジェクト信号は女性ボーカルに該当し、2番オブジェクト信号はピアノに該当するなどという情報が必要であるが、これに関する情報もビットストリームのヘッダにメタデータなどとして含まれて伝達されうる。このためには、オブジェクト信号に関する説明をテキストのようなフォーマットで自由に表示できる方法を用いたり、コードテーブルのような方法を用いてあらかじめ定められたオブジェクト信号区分方法によるコードワードを使って表現しても良い。
【0113】
また、オブジェクト信号間の相関情報が必要な場合もあるが、この場合にも、相関値は、エネルギーの最も大きいオブジェクト信号を基準にしてその他のオブジェクト信号に対する相関値を表現する方法を用いることができる。この時、マルチチャネルコーデックで全てのOTTボックスに一つのICC値を使用したのと同様に、全てのオブジェクト信号に一つの相関値を指定することも可能である。
【0114】
ステレオオブジェクト信号の場合、ステレオチャネルで表現されるオブジェクト信号の左、右信号に対するエネルギー比率、相関情報などが必要である。ステレオオブジェクト信号の左、右エネルギーに対する比率は、前述した各チャネルの特定パラメータバンドで最も大きいエネルギーを持つオブジェクト信号に対する残りのオブジェクト信号の比率、そして最も大きいエネルギーを持つオブジェクト信号の絶対的エネルギー値に関する情報から得ることができる。例えば、特定パラメータバンドで各チャネルで最も大きいエネルギーを持つオブジェクト信号のエネルギー絶対値をそれぞれA、Bとし、これに比例したステレオオブジェクトの相対的エネルギー比率に関する情報をそれぞれx、yとすれば、ステレオオブジェクト信号の左、右チャネルに含まれたエネルギーの値はA*x、B*yとして求められる。したがって、この値を使用すると、ステレオオブジェクト信号の左右チャネル間のエネルギー比率が計算できる。
【0115】
上の情報は、オブジェクト信号はモノであるが、ダウンミックス信号がステレオであり、このステレオダウンミックス信号にモノオブジェクト信号がステレオダウンミックスチャネル両側に全て含まれて転送される場合にも使われうる。この場合、モノオブジェクト信号がステレオダウンミックス信号の両チャネルに含まれたエネルギーの比に関する情報、相関に関する情報が必要であり、これはステレオオブジェクトに必要な情報と同一である。モノオブジェクトをステレオダウンミックス信号の両チャネルに含める場合、多くの場合において相関値が1の信号、すなわち、L、R両側にレベルの差のみが存在する信号が含まれる。この場合、両信号間の相関は、パラメータ全域にわたって1である場合が存在する。このような場合、データ量を減らすため、該当の相関はパラメータ全域がいずれも1であることを表示する情報を用いて追加的な情報を減らすことができる。このような情報を使用する場合、パラメータバンド全体に対して相関値が1であることを毎パラメータバンドごとに表示せずに、全体パラメータに該当する相関値を一つの値で表示すれば良い。
【0116】
また、複数のオブジェクト信号を一つのダウンミックス信号に結合すべくオブジェクト信号を加える場合、クリッピングが発生する場合がある。これを防止するため、ダウンミックス信号に特定値を乗じ、ダウンミックス信号の最大値がクリッピング限界を超えないようにするゲイン値が必要である。このゲイン値は、時間によって変わりうる。したがって、この場合、各ダウンミックスチャネルに乗じられるゲイン値に関する情報が必要である。ダウンミックス信号がステレオダウンミックスである場合、このようなクリッピング防止のためのゲイン値は、L、Rそれぞれ独立して存在することとなる。これらの値はそれぞれを独立的に表示して転送することができる。転送されるデータ量を減らすべくゲイン値をそれぞれ独立して転送せずに、ゲイン値の和と比に変形して転送しても良い。このように転送する場合、ゲイン値を別に転送する時よりもダイナミックレンジを減らすことができ、データ転送量を低減させることができる。
【0117】
また、追加的にデータ転送量を減らす目的で、オブジェクト信号を一つのダウンミックス信号にする時、クリッピングが起きたか否かを表示するビットを備え、該当のビットが、クリッピングがおきたことを知らせる時にのみゲイン値を転送し、該当のビットが、クリッピングがおきていないことを知らせる場合にはゲイン値に関する情報を転送しない方法を使用することも可能である。このようなクリッピングに関する情報は、複数のビットストリームを結合する場合においてダウンミックス信号を結合する場合にもクリッピング防止のために必要である。この時、複数のダウンミックス信号が結合される場合にクリッピング防止のためのゲイン値の逆数だけがダウンミックス信号の和に乗算される。
【0118】
図13〜図16は、オブジェクトベースのオブジェクト情報を構成する多様な方法を説明するための図である。これは、特定オブジェクトの信号がモノ、ステレオだけでなく、マルチチャネルである場合にも適用可能である。
【0119】
図13は、マルチチャネルオブジェクト信号を、オブジェクトエンコーダ221を通じてダウンミックス信号とオブジェクト情報を生成した後、ダウンミックス信号は他のオブジェクト信号と共に再びオブジェクトエンコーダ223を経由するように構成されている。マックス225はオブジェクトデコーダ221,223で生成したオブジェクト情報を併合する作業を行う。
【0120】
図14は、MCUで複数のビットストリームを結合する方法と同様にして、マルチチャネルオブジェクト信号で一つのビットストリームを生成し、残りのオブジェクト信号を用いてビットストリームを生成した後、これらを再び一つの結合されたビットストリームとして生成する形態を示している。
【0121】
図15は、マルチチャネルオブジェクトをまず、マルチチャネルエンコーダ241でダウンミックス信号とチャネルベースの付加情報として生成する。マルチチャネルエンコーダ241から出力されたダウンミックス信号は、残りのオブジェクト信号が入力として入るオブジェクトエンコーダ243に一つの独立したオブジェクト信号のように入力される。オブジェクトエンコーダ243ではこのダウンミックス信号と残りのオブジェクト信号を用いてオブジェクトビットストリームを生成する。マックス245では、マルチチャネルエンコーダ241から出力されるチャネルベースの付加情報とオブジェクトエンコーダ243から出力されるオブジェクト情報を結合して出力する。
【0122】
図16は、マルチチャネルオブジェクトをマルチチャネルエンコーダ253に通過させ、残りのオブジェクト信号はオブジェクトエンコーダ251を通過させた後、これら両ダウンミックス信号を再びオブジェクトエンコーダ255に通過させる構造を示している。ここで、マックス257は、二つのオブジェクトエンコーダ251,255で生成されたオブジェクト情報とマルチチャネルエンコーダ253で生成されたチャネルベースの付加情報とを結合させる。
【0123】
次いで、テレコンファレンスなどでオブジェクトベースのオーディオ符号化が用いられる場合、一つのオブジェクトビットストリームともう一つのオブジェクトビットストリームとが結合され、結合されたビットストリームを生成しなければならない場合について説明する。
【0124】
図17は、二つのオブジェクトビットストリームが結合される場合を示している。図17を参照すると、二つのオブジェクトビットストリームが一つのオブジェクトビットストリームに結合される場合、それぞれのオブジェクトビットストリーム中のOTTボックスに該当するCLD、ICC等の情報を修正する必要がない。ただし、二つのオブジェクトビットストリームに属する二つのダウンミックス信号をダウンミックスする過程で追加のOTTボックスが1つ使われ、かつ、この追加されたOTTボックスによりCLD、ICC情報が追加される。
【0125】
この場合、既存のそれぞれのオブジェクトビットストリームでツリー構成情報を表現する部分が、2つのビットストリームが結合されながら、統合されたツリー構成情報に変換されなければならない。結局、2オブジェクトビットストリームが結合されながら追加的な構成情報に対する修正と、各ボックスに対するインデクシングなどの修正と、追加されるOTTボックスでの情報計算、2つのダウンミックス信号の再ダウンミックス等の追加作業が必要となるだけで、既存のオブジェクトビットストリームに含まれたオブジェクト信号に関する情報自体を修正する必要はない。これにより、2つのビットストリームを一つのビットストリームに結合する簡単な方法を提供する。
【0126】
また、図17で、2つのダウンミックス信号を再びダウンミックスせずに2チャネルダウンミックス信号として持つ場合、すなわち、図17で、OTTボックス11を省く場合、追加的なOTTボックスに対する計算無しで2つのビットストリームを結合することができる。
【0127】
図18は、ダウンミックス信号がステレオである場合、独立したオブジェクトビットストリーム間の結合を示す図である。図18を参照すると、2つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、それぞれのオブジェクトビットストリームで使われたパラメータバンドの個数が互いに異なる場合が発生しうる。この場合、統合されたパラメータバンドの個数に統合することが必要である。一般的には、2つのオブジェクトビットストリームのうちパラメータバンドの個数が少ない側を、パラメータバンドの個数が多い側に合わせてマッピングする。
【0128】
マッピングする方法は、各パラメータバンド間のマッピングに対するテーブルを持っており、これによってマッピングを行うことが一般的である。この場合、パラメータバンド拡張によるマッピング方法は簡単な線形的数式によって行うことができる。
【0129】
マッピング時に複数のバンドが重なる区間では、重なった区間だけの割合でパラメータ値を混ぜる方法を用いることとなる。低複雑度が優先される場合、パラメータバンドの統合は、2つのオブジェクトビットストリームのうち、パラメータバンドの個数が多い側をパラメータバンドの個数が少ない側に合わせてマッピングする場合も可能である。この場合にも、パラメータのマッピングは、上記の場合と同じ方法で行う。
【0130】
前述した2つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、既存のオブジェクトビットストリームがそれぞれ持っているパラメータを再計算することなく結合可能である。しかし、ダウンミックス信号を結合する場合、このダウンミックス信号に関するパラメータを再びQMF/ハイブリッド分析を通じて計算する必要がある。このようなダウンミックス信号に関するパラメータの計算に必要な計算量が相対的に大きく、このため、オブジェクトビットストリームを統合する時に再計算が必要でないという長所がやや薄れてしまう。既存のオブジェクトビットストリーム間の統合の場合にも再計算無しで統合可能なので、ダウンミックス信号間の再ダウンミックス時にもQMF/ハイブリッド分析/合成過程を行わずにパラメータを抽出できる方法が必要である。このような過程は、オブジェクトビットストリーム上にあらかじめ各ダウンミックス信号のパラメータバンド別エネルギーに関する情報を含めておく方法で解決可能である。この場合、ダウンミックス信号の再ダウンミックス時にパラメータ計算に必要なQMF/ハイブリッド分析/合成過程無しで、オブジェクトビットストリーム上に含まれているパラメータバンド別エネルギー情報から簡単にCLDのような値を計算することができる。このようなエネルギー情報は、該当のパラメータの全体エネルギー値を表示しても良く、前述したように該当のパラメータで最も大きいエネルギーを持つオブジェクトのエネルギー絶対値を表示しても良い。ICCのような情報の場合、ダウンミックス信号の時間ドメイン上で求められるICC値を全体パラメータに使用する簡単化した方法を使用しても良く、パラメータバンド数よりも少ないバンドで簡単な分析過程を経た後、それに対してICC値を求める方法も可能である。
【0131】
このような場合、複数のダウンミックス信号を再ダウンミックスする過程で信号のクリッピングがおきる可能性がある。したがって、ダウンミックス信号のレベルを減少させて再ダウンミックス時にクリッピングがおきないようにする過程が必要である。このようなクリッピング防止のために信号のレベルを減少させる場合において、該当のレベル調整に関する情報がオブジェクトビットストリームに必要となる。このようなレベル調整に関する情報は、フレーム別に適用可能であり、クリッピングがおきるフレームに対してのみ該当のレベル調整情報を持っており、デコーディング時にこれを逆に適用すると元来の信号のエネルギーレベルを求めることができる。このようなクリッピング防止のための情報を計算する過程は時間ドメイン上で可能なので、QMF/ハイブリッド合成/分析を行わなくても良い。
【0132】
複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合することは、図12のような構造でも可能である。これを図19に示す。
【0133】
図19は、Box1(261)を通じて生成された独立した第1オブジェクトビットストリーム1と、Box2(263)を通じて生成されたオブジェクトビットストリーム2とを、Box3(265)を通じて結合された一つのオブジェクトビットストリーム3として生成する場合を示している。この場合、ビットストリーム1とビットストリーム2に含まれた情報が、前述した特定パラメータバンド内の最も大きいエネルギーを持つオブジェクト信号のエネルギー絶対値と、これと比較した残りのオブジェクト信号の相対的エネルギー比率、Box1(261)とBox2(263)におけるダウンミックス信号に乗算されたゲイン値に関する情報などである場合、Box3(265)では追加的なオブジェクトパラメータを計算したり抽出する過程無しで入力として入る複数のオブジェクトビットストリームを単純に併合する過程のみが必要となる。
【0134】
また、Box3(265)に入力として入る複数のダウンミックス信号はPCM信号に変換した後、単純に加算して一つのダウンミックス信号とする過程のみが必要である。この時、Box3(265)に入力される複数のダウンミックス信号を一つのダウンミックスとして結合する過程でクリッピングがおきる場合がある。したがって、クリッピングを防止するためには追加的にダウンミックス信号にゲイン値を乗じる過程が必要である。この場合、ゲイン値は併合されたオブジェクトパラメータに含まれて転送される。
【0135】
複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合する場合についてより詳細に説明すると、下記の通りである。図19の例を挙げると、SIDE INFO Aの特定パラメータには最も大きいエネルギーを持つオブジェクト信号に関する情報とそのエネルギーの大きさの値、この値と比較した他のオブジェクト信号のエネルギー比に関する値などが含まれており、SIDE INFO Bにも同じ種類の情報が含まれている。この場合、2つのビットストリームを結合して一つのビットストリームとして構成する方法には、下記のような方法が適用可能である。
【0136】
第一の方法は、2つのビットストリームを追加的な計算によって統合せずに、単純に一つのビットストリーム内に並列式に配置することである。この場合、図20に示すように、デコーダでは、転送されてきたビットストリーム内に複数のビットストリームが並列式に存在していることを知らせるビット情報に基づいて当該ビットストリームを分析することとなる。
【0137】
図20に示すように、一つに結合されたビットストリームを表示する場合、MCUのように複数のオブジェクトビットストリームを一つのビットストリームに併合する所では単純に複数個のビットストリームが存在するという情報、いくつのビットストリームが結合されたかに関する情報、及び併合される前のビットストリームの位置を区分するビット情報以降に、併合される前の別個のビットストリームを単純に配置すればよい。この場合、デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが結合されたものかは情報分析によってわかる。この場合、複数のビットストリームを併合するにおいて単純な識別子に該当する情報を加える作業以外には他の付加的な作業をする必要がないという長所がある。しかし、これに関する情報を一定のフレームごとにヘッダに含めなければならないという負担が存在し、デコーダでは毎度転送されてきたビットストリームが最初から一つに生成されたビットストリームなのか、複数個のビットストリームが併合されたビットストリームなのかを判断しなければならない。
【0138】
上の方法の代案としては、デコーダが複数のビットストリームが一つのビットストリームに併合されたものかが確認できないように若干の計算を通じてビットストリームを併合する方法がある。この場合を図21に示す。
【0139】
図21を参照すると、A、Bの最も大きいオブジェクト信号のエネルギーの大きさを比較した後、そのうちより大きいオブジェクト信号を併合されたストリームでエネルギーの最も大きいオブジェクト信号と定める。このオブジェクト信号が含まれていたビットストリームに含まれたオブジェクト信号のエネルギー比はそのまま使用し、他のビットストリームに含まれたオブジェクト信号のエネルギーはA、Bの最も大きいエネルギーの比だけを乗じて再び計算をする。この場合、パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号間のエネルギーの大きさの比を再び計算しなければならないが、複雑度はあまり高くない。デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが併合されたビットストリームなのか否かが確認できないので、一般的な方法を使用してデコーディングできるという長所がある。
【0140】
もし、ダウンミックス信号がステレオである場合にも2つのオブジェクトビットストリームの結合は、モノダウンミックス信号のオブジェクトビットストリームの結合におけると類似の方式で可能であり、このような結合は、既存にそれぞれのオブジェクトビットストリームが持っていたオブジェクト信号に関する情報を再び計算せずに使用することができるという点から、簡単な結合方法であることがわかる。このようにオブジェクトビットストリームの構造は、最初にオブジェクト信号をダウンミックスするツリー構造に関する情報が置かれた後、各ツリーの枝に該当するボックスから得られたオブジェクト信号の情報が続く形態で構成されうる。
【0141】
以上のオブジェクトビットストリームでは、特定オブジェクト信号1つがダウンミックスチャネルのたった一箇所に存在する場合について説明した。すなわち、ダウンミックス信号がステレオである場合であり、特定オブジェクトの信号がステレオダウンミックス信号の両側に存在する場合についての説明がさらに必要である。このような場合は主として、オブジェクトオーディオ符号化の下位互換性に対する条件でダウンミックス信号のみを既存のステレオ再生機で再生する場合を考慮することによって発生する。すなわち、一般的なステレオ信号の場合、一つのオブジェクト信号が一方のチャネルにのみ存在するのではなく両チャネルに存在する場合が大部分である。この場合、該当するダウンミックス信号を生成するときにおいてオブジェクトビットストリームを生成する方法は、下記の通りである。
【0142】
図22は、複数のオブジェクト信号をミキシングしてステレオダウンミックス信号を生成する方法を説明するための図である。図22には、4個のオブジェクト信号がミキシングされて、L、Rのステレオ信号としてダウンミックスされる過程が示されている。
【0143】
このような場合、特定オブジェクト信号がダウンミックスチャネルのL、R両側に含まれていることがわかる。特定オブジェクト信号がL、R両側チャネルに分配される過程は、次の通りである。図22で、オブジェクト1信号は、LとRにa:bの割合で分配して入力されている。これを数式にすると、下記の通りである。
【0144】
【数3】
【0145】
上記のような式から、各オブジェクト信号がL、Rに分配された比率がわかると、特定オブジェクト信号がL、R両方に含まれた場合にも、L、Rにオブジェクト信号がどんな割合で含まれているかがわかる。すなわち、オブジェクト信号がステレオダウンミックスチャネルの両側に含まれた場合、これに対する比、すなわち、上の式でa、b値に関する情報が追加的に必要である。以降、L、Rの各チャネルにOTTボックスによるダウンミックスを通じてCLD、ICC等のオブジェクトに関する情報を計算することは、図23に示されている。
【0146】
図23に示すように、ダウンミックスを進行しながら各OTTボックスで得られたCLD、ICC情報と、前述したL、Rに分配されたオブジェクト信号の分配比率に関する情報を持っていると、以降最終使用者がオブジェクト位置、プレイバック構成情報を変化させる場合にこれに対して適応的に変化されるマルチチャネルビットストリームを計算することができる。また、ダウンミックス前処理過程でステレオダウンミックス信号に変形を加えなければならない場合、その変形情報を求めて前処理部に伝達することも可能である。言い換えると、オブジェクト信号の分配比率、すなわち、上記の式3におけるa、bの値がない場合、ステレオオブジェクト信号の場合、マルチチャネルビットストリームを計算する方法や、ダウンミックス前処理部で処理しなければならない情報を求める方法がない。上記のa、bの比率を表現する方法は、a、bのそれぞれの値に対して表現する方法と、aとbの比率を一つのdB値で表現する方法などが可能である。
【0147】
上述した場合、すなわち、オブジェクト信号がステレオダウンミックス信号の全てに含まれている場合には、該当の信号のチャネル間の分配比率に関する情報が必要である。この時、この情報は、前述したように該当のオブジェクト信号の単純なチャネル間のレベルの比率であっても良いが、より複雑な場合、周波数バンド別にその比率が異なって適用されうる。この場合には前述した比率a、bに関する情報が周波数バンド別にそれぞれ与えられなければならない。また、このような情報が後で適用される場合においても該当のオブジェクト信号のチャネル間の情報を使用する場合、各パラメータバンド別に与えられた比率情報を使用しなければならない。また、より複雑なダウンミックス過程を経た場合、すなわち、一つのオブジェクト信号がダウンミックスされたチャネル両側に含まれ、バンド別にICC値に変化を与えてダウンミックスされた場合、これに関する情報も追加的に必要である。これは、最終的にレンダリングされたオブジェクト出力信号をデコーディングする過程で必須となる。また、このような方法は、前述したオブジェクトの全ての可能な構造に適用可能である。
【0148】
次に、前処理過程について、図24〜図27を参照して詳細に説明する。オブジェクトデコーダに入力されるダウンミックス信号がステレオ信号である場合、このダウンミックス信号はオブジェクトデコーダ内のマルチチャネルデコーダの入力として入る前に前処理過程を経なければならない。その理由は、前述したように、マルチチャネルデコーダは、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程で、ダウンミックス信号の左チャネルに位置した信号をマルチチャネルの右側チャネルにマッピングすることができないためである。したがって、最終使用者がステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更させようとする場合、ステレオダウンミックスチャネルに対して前処理過程を行ってからマルチチャネルデコーダに入力させなければならない。
【0149】
このようなステレオダウンミックス信号の前処理過程は、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求めた後、この情報を用いてステレオ信号に適切な処理をすることで完了する。ここでは、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求め、これをステレオダウンミックス信号に適用する方法について説明する。
【0150】
図24は、オブジェクト1〜4の総4個のオブジェクト信号がステレオダウンミックスとして構成される過程を示している。図24を参照すると、オブジェクト1信号とオブジェクト2信号の場合、それぞれa:b、c:dの割合で分割されてL、Rチャネルに含まれており、オブジェクト3信号はLチャネルにのみ、オブジェクト4はRチャネルにのみ含まれている。これらのオブジェクト信号のそれぞれはOTTボックスを経由しながらCLD、ICC等の情報を生成し、ダウンミックス信号となる。
【0151】
このような場合、最終使用者がオブジェクト信号の位置とレベル調整値を設定し、上記の式1のような形式のレンダリングマトリクスを得たとする。ここでは最終再生チャネルが5チャネルである場合を挙げると、そのレンダリングマトリクスの例は、下記の式4で示される。
【0152】
【数4】
【0153】
上記の式4で表現したレンダリングマトリクスを、上記のレンダリングマトリクスの説明方法によって説明すると、次の通りである。一応、レンダリングマトリクスの値は整数値を使用するフォーマットで表現され、各行の5列の和は100になる時に該当のオブジェクト信号のレベル変化がないと仮定した。また、この和が1増えたり減ったりする度に該当のオブジェクト信号のレベルが1dBずつ増減することを表現することとし、5列の順序が表すチャネルの位置はFL、FR、C、RL、RRとする。
【0154】
オブジェクト1信号の場合について説明すると、レンダリングマトリクスで表現されるオブジェクト1信号のチャネル間の分布は[30 10 20 30 10]で表現される。これら係数の和が100であるので、オブジェクト1信号は、レベル変化はなく、単に空間上の位置のみ変化されることがわかる。これを左側と右側の2方向に分けると、Left=30+30+20*0.5=70、Right=10+10+20*0.5=30で表現される。すなわち、レンダリングマトリクスは、オブジェクト1信号に対してレベルは変化せずに、左側に70%、右側に30%分布させるという情報を知らせる。和が100より小さいか大きい場合、これはオブジェクト信号レベルの変化を意味し、これはダウンミックス信号の前処理過程で処理しても良く、チャネルベースの付加情報にADG形態に変換して転送しても良い。
【0155】
ダウンミックス信号の前処理を行うためには、ダウンミックス信号をQMF/ハイブリッド変換を経た信号に、各OTTボックスでパラメータを抽出する時のパラメータバンド別に信号の分布比を計算した後、これをレンダリングマトリクスの設定に合うように再分布させなければならない。このような再分布方法には様々な方法がある。
【0156】
第一の再分布方法は、左側、右側の各チャネル別にOTTボックスのCLD、ICCなどを用いて左側、右側の信号のそれぞれに対して、マルチチャネルコーデックでOTTボックスを含む場合に各信号をデコーディングするのと同様にして各オブジェクト信号をデコーディングする。このように左側、右側の信号のそれぞれに対してデコーディングを行うと、各信号に含まれていたオブジェクト信号を求めることができる。この時、計算量を減らすべくICCは用いずに、CLDのみを用いてデコーディングをすることができる。特定オブジェクト信号が左側、右側の両側に含まれている場合、該当のオブジェクト信号が左側、右側にどんな割合で含まれているかは、前述したように、該当の情報からわかる。
【0157】
このようにして求められた信号を、レンダリングマトリクスから分かる左側、右側の信号比率に合うように、レンダリングマトリクスの比率よりも多く含まれている側の信号からその分だけを引いた後、これを他の側のチャネルオブジェクト信号に加える作業を行うことで、各オブジェクト信号の分配が完了する。このように分配が完了した信号を再びOTTボックスなどを通じて各チャネル別にダウンミックスをすることで、ダウンミックス前処理過程が完了する。直前のチャネル別オブジェクト信号のダウンミックスを通じてOTTボックスのCLD、ICCなどは再計算される。このような方法はマルチチャネルデコーディングで使用した方法を再使用可能であるという長所はあるが、各チャネルに対してオブジェクト信号数だけの信号をデコーディングし、これを再分配した後にチャネル別にダウンミックス過程を行わなければならない。
【0158】
第2の再分布方法は、左側、右側チャネルのそれぞれの信号において全てのオブジェクト信号をそれぞれデコーディングせずに、一度で左側のダウンミックス信号のうち右側のダウンミックス信号側に移されなければならない部分、右側のダウンミックス信号のうち左側のダウンミックス信号側に移されなければならない部分を構成する方法が可能である。これを簡単に表示すると、図25のようになる。図25では、図24のようにダウンミックスされた信号の例でダウンミックス前処理する状況を仮定した。
【0159】
同図において、L信号において左側に残るようになる信号L_Lと右側に加えられなければならない信号L_Rを求める方法は次の通りであり、これは、R信号においてR_LとR_R信号を求める方法にも同様に適用される。まず、L、R信号においてオブジェクト信号がどのような比率となっているかを知らなければならない。これは、上記の式2におけるa、b値に該当するものである。式2では、オブジェクト1信号がLとRにa:bの割合で分配されていることが示されている。ここにレンダリングマトリクスから求められるL’とR’におけるオブジェクト1に対する比率を求めることができる。式3の例では、この比率が7:3として得られることがわかる。ここで、これら2つの情報、すなわち、オブジェクト1信号のL、Rの比率a:bとL’、R’の比率7:3とを比較すると、オブジェクト1信号がL、RからL’、R’の割合に変わるためにはL、R信号のいずれかからどれほどの比率を抽出して残りの一方に加えられるべきかに関する値を得ることができる。
【0160】
このような方法を用いると、オブジェクト2、3、4信号に対してもそれぞれ、L、R信号のどちらの成分をどれほど抽出して残りの他方に加えるべきかに関する情報を求めることができる。これは、図25でLから抽出されてR’側に加えるL_Rと、Rから抽出されてL’側に加えられるR_Lに対する比率に関する情報を計算したことに該当する。この情報と一緒にL、R各チャネルのOTTボックスのCLD、ICC情報を用いると、各パラメータバンド別にどんな割合でLの信号をL_Lの信号とL_Rの信号とに分割する場合にオブジェクト1、2、3、4信号に対して所望の比率のままに分割された信号が得られるかに対する最終比率値を求めることができる。
【0161】
以上ではLをL_LとL_Rとに分ける時にエネルギーの比率をどのように分割するかについて説明した。ここに加えて、L_LとL_R間のICC値も決定しなければならない。これもまた、パラメータバンド別にL信号に対するOTTボックスのICC情報から求めることができる。すなわち、既存OTTボックスでオブジェクト間のICC値がわかるので、L_LとL_Rでオブジェクト間の比率を通じて最終ICC値を求めることが可能になる。これにより、LをL_L、L_R信号に、またRをR_L、R_R信号に分けた後、この信号に対してL_LとR_L、L_RとR_Rを合算し、最終的にダウンミックス前処理が完了したL’とR’得ることができる。
【0162】
上記した第2の方法について具体的な数字を挙げて説明すると、次の通りである。まず、ダウンミックス信号であるLとRは、図24のような過程によって得られるとしよう。また、オブジェクト1信号は、L、Rに1:2の割合で含まれており、オブジェクト2信号は2:3の割合で含まれているとする。また、オブジェクト3信号はLにのみ含まれていて1:0の割合で表現でき、同様にオブジェクト4信号はRにのみ含まれていて0:1の割合で表現できるとする。図25からわかるように、各チャネルでオブジェクト信号がOTTボックスを経てダウンミックスされ、CLD、ICCなどの情報を得ることとなる。
【0163】
レンダリングマトリクスの例は式4に示した。これは、上記の式3で用いた例と同一である。該当のレンダリングマトリクスには最終使用者が設定したオブジェクト信号の位置nに関する情報が入っており、また、これを通じてダウンミックス前処理過程で得られるL’、R’に関する情報を求めることができる。レンダリングマトリクスの構成とこれを解析する方法については、上記の式3で説明した通りである。
【0164】
レンダリングマトリクスを通じて得られる、オブジェクト1〜4信号のL’、R’に分布される比率は、下記の式5のように計算される。
【0165】
【数5】
【0166】
L、R信号に分布されていたオブジェクト1〜4信号の比率は前述した通りであり、下記の式6で表現される。
【0167】
【数6】
【0168】
上記の式5で、オブジェクト3のL’、R'比率の和は110、オブジェクト4のL’、R’比率の和は95であり、これは、オブジェクト3は25だけのレベルが大きくなるということを、オブジェクト4は5だけのレベルが小さくなるということを意味する。このL’、R’比率の和が100であるとレベルの変化が無いことを意味し、1増加したり減少することが該当のオブジェクトのレベルが1dB増加または減少するということを意味する場合、オブジェクト3信号は、10dBレベル増加したことを、オブジェクト4信号は5dBレベル減少したことを意味することとなる。
【0169】
上記の式5及び6に表現したオブジェクト1〜4信号に対するL、Rでの比率とレンダリングマトリクスを経た後に得られるL’、R’での比率とを比較しやくするため、比率の和が100となるように再び表現すると、下記の式7のようになる。
【0170】
【数7】
【0171】
上記の式7から、ダウンミックス前処理前後に各オブジェクトが左側、右側にどんな分布とされているか、このような結果を得るためにダウンミックス信号の左側、右側信号においてどのオブジェクト信号がどちらにどれだけ再分配されるべきかが容易にわかる。例えば、オブジェクト2信号の場合、40:60から30:70へと比率が変わったが、これはダウンミックス前処理を通じてL側のオブジェクト2信号の成分40から10がR側へと移動しなければならないということを意味する。これは、Lに含まれているオブジェクト2の成分の25%(10/40*100)がR側に移動しなければならないということを意味する。これについて再び整理すると、下記の式8の通りである。
【0172】
【数8】
【0173】
式8を参照して図25のL_L、L_R、R_L、R_Rを表現すると、下記の式9のようになる。L信号に対して特定パラメタでオブジェクト1〜3信号が占める比をLに対して示すと、下記の式9のようになる。式の複雑度を減らすためにパラメータ表示はしない。
【0174】
【数9】
【0175】
上記の式9で、各オブジェクト信号の値をOTTボックスのCLDを用いてL、Rに対する比で表現すると、下記の式10のようになる。ちなみに、下記の式10の値は、パラメータバンド別に表現されなければならないが、式の複雑性を避けるためにパラメータ表示はしないものとする。ここで、CLDは離脱量子化された値を意味するとする。
【0176】
【数10】
【0177】
図25で、各パーシング部で用いられるCLDは、下記の式11で求められ、式10に代入すると具体的な値が得られる。
【0178】
【数11】
【0179】
このような方式で、図25においてLからL_L、L_R信号を生成するパーシング部に用いられるCLDとICCを求めることができ、同様に、RからR_L、R_R信号を生成するためのCLDとICCを求めることができる。これを用いて各信号を生成した後、同図のように、L_LとR_Lとを合算し、L_RとR_Rと合算することで、ダウンミックス前処理されたステレオ信号が得られる。最終再生チャネルがステレオである場合には、ダウンミックス前処理が完了したL’、R’信号を出力として用いることができる。この場合、特定オブジェクト信号のレベルが増加または減少した場合に対してはまだ処理されていないので、この処理ができるモジュールを選択的に追加することができる。該モジュールの機能は、マルチチャネルデコーディングでADGが行う処理過程と同一である。また、追加的にこのようなオブジェクト信号のレベル処理を、前述したダウンミックス前処理過程内に追加することも可能である。この場合にも、レベル処理方法はADG処理方法と同一である。
【0180】
図25は、図26のような方法で表現しても良い。図26では、図25とは違い、リミックスされた出力L’、R’信号の相関値を合わせるためのデコリレーション作業が第1及び第2パーシング部で行われずに、L’あるいはR’信号の出力に適用されている。Pre_L’とPre_R’の信号はL、R間のエネルギーレベル差が補正された信号を意味する。このうちいずれか一方の信号にデコリレータを適用した後、ミキシング過程を通じて相関値に該当する信号を生成する。
【0181】
前述したダウンミックス前処理を経たステレオ信号は、マルチチャネルデコーダに入力される。最終使用者が設定したオブジェクト位置とプレイバック構成に合うマルチチャネル出力を生成するためには、ダウンミックス前処理の出力信号と共にマルチチャネルデコーディングのためのチャネルベースの付加情報が必要である。このようなチャネルベースの付加情報を求める方法を、上記の例について説明すると、次の通りである。ダウンミックス前処理を経て出力された信号L’、R’がマルチチャネルデコーダの入力信号として入力されるので、この信号に対して式5を参照して再び整理すると、下記の式12のようになる。
【0182】
【数12】
【0183】
また、上記の式2のレンダリングマトリクスで各チャネルに対するオブジェクト信号の分布を式で表示すると、下記の式13のようになり、L’、R’が5.1チャネルに拡張される構造は、図27に示す。
【0184】
【数13】
【0185】
図27で、各TTTボックスとOTTボックスのパラメータを計算しなければならない。この場合にも、パラメータの計算はパラメータバンド別に行われる。以降の式においてもパラメータバンドの表示がされていなければならないが、式の簡単化のためにパラメータバンド表示は省略する。TTT、OTTボックスのパラメータ計算式は、パラメータバンド単位に行われることに留意されたい。
【0186】
図27で、TTTボックスはエネルギーベースモードと予測モードの2種類のモードに使われうる。エネルギーベースモードで動作する場合には2個のCLDが必要であり、予測モードに使われる場合には2個のCPCと1個のICCが必要である。
【0187】
エネルギーベースモードの場合、CLDを求めるためには、図27でL"、R"、Cのエネルギー比率を知らなければならない。これは、式6、10、13を通じて求めることができる。L"のエネルギーを求める方法は式14に示されており、R"、Cに対しても同一式を適用すれば良い。
【0188】
【数14】
【0189】
上記の式14と同一の方法でR"、Cに対してもエネルギーを求めることができる。このようにして求めたL"、R"、Cのエネルギーを用いてエネルギーベースモードにおけるTTTボックスに使われるCLD値を求めることができ、これは、式15で示される。
【0190】
【数15】
【0191】
上記の式14では式10における値が使われた。この時、オブジェクト1、2の各信号に対して代入された値は、式10で左チャネルに対する値が使われた。これと同じ方法で、式10で右チャネルに対する値を代入して計算することもできる。これから推論できる点は、図26で右チャネルのOTT3、OTT4のCLD、ICCの値をOTT1、OTT2のCLD、ICC値から計算できるという事実である。これは全てのオブジェクト信号のツリー構造に適用可能なわけではなく、特殊なケースに該当する。この場合、オブジェクトビットストリームに含まれて転送されてくる情報をOTTボックスのそれぞれに転送しても良く、一部のOTTボックスにのみ転送した後、転送しなかったボックスに関する情報は計算を通じて得ても良いということを意味する。
【0192】
上記と類似の方式として、OTTボックスA、B、Cに対してもCLD、ICCパラメータを計算することができ、計算されたマルチチャネルパラメータをマルチチャネルデコーダの入力として伝達し、マルチチャネルデコーディングを行うと、最終ユーザーの所望するオブジェクト位置とプレイバック構成に合うようにレンダリングが完了したマルチチャネル信号が得られる。
【0193】
上記のマルチチャネルパラメータには、オブジェクト信号レベルに変化がある場合、該当のレベルがダウンミックス前処理で調整されなかったとき、マルチチャネルパラメータにADG形態で含まれて転送され、マルチチャネルデコーディング過程上でオブジェクト信号のレベルを修正する。上記の例においてレベル補正がダウンミックス前処理過程で調整されなかった場合にADG値を計算する方法は、下記の通りである。
【0194】
上記の例で、オブジェクト信号のレベル調整は、レンダリングマトリクスによってオブジェクト3信号に対して10dB大きくなり、オブジェクト4信号に対して5dB小さくなるように設定された。これはADGが適用されるL’、R’信号に対しては、L’信号でオブジェクト3信号が5dB大きくなり、オブジェクト4信号に対して2.5dB小さくなるように設定され、L’信号でオブジェクト3が5dB大きくなり、オブジェクト4に対して2.5dB小さくなるように設定された。L’信号でオブジェクト3、4のレベル調整がなされる以前と以降の比率を計算すると、下記の式16のようになる。
【0195】
【数16】
【0196】
この式16に上記の式10の値を代入することによって値を求めることができる。R信号に対しても同じ方法でADG適用前後のエネルギーの比を求めることができる。このようにして求められた値は、オブジェクト信号のレベル調整前後における該当のパラメータバンドのエネルギー変化の比率であるから、これを通じてADG値を求めることができる。ADG値は、次の式17で求められる。
【0197】
【数17】
【0198】
このようにして求められたADG値は、マルチチャネルデコーディングのADG量子化テーブルによって量子化されて転送される。また、マルチチャネルデコーディングのADGテーブルを使用する場合よりもさらに精密な調整が必要な場合、該当の情報をADGの形態で転送し、マルチチャネルデコーダに適用せずにダウンミックス前処理部で行うことも可能である。
【0199】
一方、オブジェクトビットストリームでオブジェクト信号を表現する時に使用したパラメータバンドと、マルチチャネルデコーダで使われるパラメータバンドの個数及びバンド間の間隔が異なる場合がありうる。この場合、オブジェクトのパラメータバンドからマルチチャネルデコーダのパラメータバンドにマッピングする方法が必要である。このとき、線形的なマッピング方法を使用する。線形的なマッピングとは、例えばオブジェクトの特定パラメータバンドの領域がマルチチャネルデコーダの特定パラメータバンドの2箇所にわたっている場合、2箇所に含まれている領域の比率でオブジェクトのパラメータを分割して適用することを意味する。これは、オブジェクトの複数のパラメータバンドがマルチチャネルデコーディングの特定パラメータの1箇所に含まれた場合、これらオブジェクトパラメータの平均値を適用することを意味する。また、既にマルチチャネル標準に含まれているバンド間のマッピングテーブルを使用しても良い。
【0200】
テレコンファレンスの場合においてオブジェクトコーディングを使用する状況を取り上げると、オブジェクト信号には多数の話し手の音声が該当し、オブジェクトデコーダではこれらのオブジェクト信号のそれぞれに該当する音声を特定スピーカーから再生することとなる。このように同時に多数の話し手が話をする場合、各話し手の信号を正確に区分し、それぞれのスピーカーに特定の話し手に該当する人の音声が配置されるようにデコーディングすることは難しい。この場合、オブジェクト信号に該当する話し手をそれぞれ異なるスピーカーに配置するようにする、すなわち、レンダリングする過程が、むしろダウンミックス信号よりも認識度が悪くなる程度の音質歪みを引き起こすという恐れがある。このような歪みを防止するため、一人が話をしているのか、同時に数人が話をしているのかを表す情報を含めることができる。このような情報によって、多数の話し手が同時に話す場合、敢えてそれぞれのオブジェクト信号を特定スピーカーに配置させるデコーディング作業をすることによって音質の歪みを誘発させずに、むしろダウンミックス信号に近い程度とほとんどデコーディングをしない信号が各スピーカーに出力されるようにトランスコーダのチャネルベースビットストリームを調整する方法が可能である。
【0201】
例えば、a、b、c、d、eと5人の話し手に該当するオブジェクト信号があり、これらをそれぞれA、B、C、D、Eというスピーカーに配置されるようにデコーディングする場合が考えられる。もしa、b、cの3人の話し手が同時に話す場合、ダウンミックス信号はa、b、cの3人の話し手の音声がダウンミックスされて含まれている。この場合、一般的なオブジェクトデコーディング過程は次の通りである。まず、a、b、cの音声が含まれたダウンミックス信号でa、b、cの音声に該当する部分に関する情報をマルチチャネルビットストリームに構成し、Aスピーカーからaの音声が出力され、Bスピーカーからはbの音声が出力され、cスピーカーからはcの音声のみ出力されるようにデコーディングが行われる。しかし、このようにする場合、各スピーカーからは該当の音声信号が歪んだ状態で出力され、むしろダウンミックス信号の場合よりも認識率が低下し、話し手間の音声が完璧に分離されないという不都合がある。このような場合、a、b、cが同時に話しているという情報がSAOCビットストリーム上に含まれて伝達されると、トランスコーダではA、B、Cスピーカーから該当のダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成する。これにより、信号の歪みが防止される。
【0202】
多数の人が同時に話す場合、実際にも特定の一人が話す声のみを聞くことはできないので、人々の声をそれぞれ分離して所望の位置に出力させて歪みを発生させることより、ダウンミックス信号をそのまま出力することがより実際の環境に近いといえよう。この場合、トランスコーダで、同時に話している人々に該当するスピーカーにダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成しても良いが、該当のスピーカーに該当する話し手の音声が歪みを発生させないような範囲で相対的にやや大きく出力されるようにマルチチャネルビットストリームを生成しても良い。
【0203】
また、オブジェクトビットストリームに複数の話し手が同時に話をしているか否かを表示して伝達せずに、オブジェクトエンコーダでこれを勘案してオブジェクトビットストリームを変形して伝達することも可能である。この場合、オブジェクトデコーダでは普段のとおりにデコーディングをするが、複数の話し手が話している場合、複数の話し手に該当するスピーカーの出力がダウンミックス信号、あるいは、対応するスピーカーに該当する話し手の音声が歪みの生じないような範囲でやや大きくなった信号がデコーディングされて出力されることとなる。
【0204】
次に、マルチチャネルデコーダに伝達されるHTRFなどのような3D情報について説明する。
【0205】
オブジェクトデコーダがバイノーラルモードで再生される場合、オブジェクトデコーダ内に含まれたマルチチャネルデコーダがバイノーラルモードで作動する。この時、最終使用者が各オブジェクト信号を空間上に位置させた情報に基づいて最適化されたHRTFなどのような3D情報が、マルチチャネルデコーダに転送される。
【0206】
このときに転送される3D情報を求める方法を、オブジェクト信号2個が任意の位置1、2に位置している場合を例に挙げて説明する。このような場合、位置1、位置2に該当する3D情報は、レンダリングマトリクス生成部あるいはトランスコーダに含まれている。レンダリングマトリクス生成部に3D情報が含まれている場合、該当のオブジェクト信号が位置している位置に該当する3D情報をトランスコーダ側に転送する。3D情報がトランスコーダに含まれている場合、レンダリングマトリクス生成部は単に該当のオブジェクト信号が位置している位置に関する情報、すなわち、どの位置に該当の3D情報を使用すべきかに関するインデックス情報のみをトランスコーダに転送する。
【0207】
このようにオブジェクト信号が2個あり、該当の位置に関する3D情報がある場合、バイノーラル信号は下記の式18から得られる。
【0208】
【数18】
【0209】
マルチチャネルバイノーラルデコーダでは、5.1チャネルスピーカー再生を仮定した状態で、5個のスピーカー位置に関する3D情報を用いてバイノーラルサウンドをデコーディングする。これを理論的な式で表すと、下記の式19のようになる。
【0210】
【数19】
【0211】
式18と式19からオブジェクト1信号の左チャネルに対する部分のみを別に分離すると、下記の式20で表現できる。同様に、オブジェクト1の信号の右チャネルに対する部分と、オブジェクト2信号の左側、右側チャネルに対する部分も、式20で表現できる。
【0212】
【数20】
【0213】
例えば、オブジェクト1信号とオブジェクト2信号の全体エネルギーの比率をa:bとする。また、オブジェクト1信号がFLチャネルに含まれた比率をc、オブジェクト2信号がFLチャネルに含まれた比率をdとすれば、FLでオブジェクト1信号とオブジェクト2信号が占めている比率はac:bdとなる。この場合、FLのHRTFは下記の式21から得られる。
【0214】
【数21】
【0215】
上記のような方法によってマルチチャネルバイノーラルデコーダに使われる3D情報を求めることができる。このようにして求められた3D情報を用いてバイノーラルデコーディングを行う場合、マルチチャネルデコーディングにおいて5個のスピーカー位置に固定されている3D情報を使用する時よりも、実際オブジェクト信号が位置している所に該当する3D情報を使用することができるため、より実感溢れるバイノーラル信号を再生することができる。
【0216】
このようにオブジェクト信号の空間上に位置している所に該当する3D情報からマルチチャネルバイノーラルデコーダに使われる3D情報を計算する方法は、上記のようなエネルギー比率に関する情報のみを用いて行っても良いが、各オブジェクト信号間のICC情報に基づいて各オブジェクト位置に該当する3D情報を加算する時に、適切なデコリレーション過程を経て加算する方法を追加しても良い。
【0217】
次に、エフェクトプロセシングは、ダウンミックス前処理中に含めて処理する場合と、エフェクト結果をマルチチャネルデコーダ出力に加える場合とに分けることができる。ダウンミックス前処理中に含める場合において、特定オブジェクト信号に対するエフェクトを処理しようとする場合、前述したようにダウンミックス前処理においてL信号をL_L、L_R信号に分け、R信号をR_L、R_R信号に分ける過程に加えて、エフェクト処理を希望する信号を別個に抽出しなければならない。これは次の方法で処理可能である。
【0218】
第一に、L、R信号から該当のオブジェクト信号を抽出し、これを除くオブジェクト信号に対してL_L、L_R、R_L、R_R信号を生成した後、別に抽出したオブジェクト信号に対してエフェクト処理をし、続いて、この信号はレンダリングマトリクスの情報によって左側、右側の信号に分け、左側信号はL_L、R_L信号にさらに加え、右側信号はL_R、R_R信号にさらに加える方法がある。
【0219】
第二に、L’、R’信号を生成した後、この信号からエフェクト処理しようとするオブジェクト信号の成分を抽出した後、エフェクト処理後に再び加える方法がある。
【0220】
エフェクトプロセシングの場合、特定オブジェクト信号のスペクトラム形態を変えても良い。例えば、特定オブジェクト信号に対して全体レベル調整だけでなく、高音成分を増やしたり、低音成分を増やしたりしたい時、該当のスペクトラム領域に対してのみレベル調整を行うことが可能である。このような処理をする場合、スペクトラムの値が変形されたパラメータバンドの場合、オブジェクトビットストリームを通じて受け取ったオブジェクト信号の情報を修正する必要がある。例えば、特定オブジェクト信号の低音成分を増やしたと仮定する場合、該オブジェクト信号の低音領域のエネルギーが大きくなるため、これに関する情報がオブジェクトビットストリームを通じて受け取ったものと異なってくる。これを修正するため、オブジェクトビットストリーム自体で当該オブジェクト信号に関する情報を修正する方法を使用することができる。また、スペクトラム変化に関する情報をトランスコーダで受信してマルチチャネルビットストリームを生成するとき、この変化を適用してマルチチャネルビットストリームを生成する方法も可能である。
【0221】
図28〜図33は、複数のオブジェクト情報と複数のダウンミックス信号を一つのオブジェクト情報とダウンミックス信号に結合する場合を説明するための図である。テレコンファレンスなどでは、複数のオブジェクト情報と複数のダウンミックス信号を、一つのオブジェクト情報とダウンミックス信号に結合しなければならない状況が発生し、このような場合、下記の事項を考慮しなければならない。
【0222】
まず、図28は、オブジェクト符号化されたビットストリームの一例を示す。図28に示すように、オブジェクト符号化されたビットストリームは、ダウンミックス信号とオブジェクト情報が互いに時間的に整合されている。したがって、このようなビットストリームは、オブジェクトデコーダで追加の考慮事項無しでデコーディング過程を行うことができる。しかし、複数のビットストリームを一つのビットストリームに結合する場合、状況によってはダウンミックス信号とオブジェクト情報間の時間的整合を補正しなければならない場合が発生することができる。
【0223】
図29は、オブジェクト符号化されたビットストリームが結合される最も簡単な場合の例を示している。図28の表示方法と同様に、四角形の上に付した数字1、2、3はフレーム番号を示し、四角形の上段はオブジェクト情報を、下段はダウンミックス信号を示す。そして、2つのオブジェクト符号化されたビットストリームはそれぞれBS1とBS2で示す。
【0224】
図29を参照すると、ダウンミックス信号を一つに結合するためにはまず、圧縮コーデックで圧縮されているダウンミックス信号をPCM(Puls code modulation)信号に変換し、これを時間ドメイン上でダウンミックスした後、再び圧縮コーデック形式に変換する過程を行うこととなる。この過程で図29の(b)に示すように、ディレーdが発生する。したがって、一つに結合されたビットストリームをデコーディングする場合にダウンミックス信号とオブジェクト情報との時間的整列に留意しなければならない。
【0225】
このような状況の発生時に、総ディレー値がわかるとそのディレー分だけを補正しなければならない。このようなディレーはダウンミックスに使われる圧縮コーデックによってそれぞれ異なり、したがって、オブジェクト情報などに該当のディレー値を表示できるビットを割り当てることによって様々なディレー値を表示すると良い。
【0226】
図30は、複数のビットストリームを一つのビットストリームに結合する場合においてそれぞれのビットストリームに使われたダウンミックス信号のコーデックが互いに異なるか、オブジェクト情報の構成が互いに異なることから、それぞれ異なるディレーが発生する場合を挙げている。
【0227】
図30では、BS1とBS2に使われたコーデックの種類または付加情報の構成が異なる場合、ダウンミックス信号を結合するためにダウンミックス信号を時間ドメイン信号に変換し、これを再び一つの圧縮コーデックで変換するときに発生する総ディレーが互いに異なる場合である。この場合、BS1とBS2間の互いに異なるディレーを考慮せずに結合する場合、ダウンミックス信号間に、またダウンミックス信号とオブジェクト情報間の時間的整列に問題が発生することとなる。
【0228】
これを解決する方法として、図31に示す方法を使用することができる。
【0229】
図31を参照すると、BS1でダウンミックス信号に発生するディレーd1に付加的なディレーを加え、総ディレーがBS2で発生するディレーd2と同じ値になるように調整する例が示されている。このようにディレーを調整すると、BS1をBS2と結合する方法は、図30で示す方法と同一になる。すなわち、一つに結合すべきビットストリームが複数である場合、最も大きいディレーが発生するビットストリームを基準にして最終ディレー値を定めればよい。
【0230】
一般的に複数のビットストリームを一つに結合する場合でないとディレー値は0となるので、ディレー有無を表示するビット情報を含めた後、この情報が、ディレーがあることを表示すると、以降具体的なディレー値を表示するビット情報を読むようにすることによってディレー表示に使われるビットを最小化することができる。
【0231】
図32には、ディレー差を補正する他の方法を示す。図32で、BS1で発生するディレーd1を基準にして時間的整列をする方法を示している。2番目のフレームを取り上げると、このフレームに該当するBS1のオブジェクト情報は2番目のフレームに該当するオブジェクト情報をそのまま使用することができる。これに対し、BS2のオブジェクト情報は、1番目のフレームに該当するオブジェクト情報と2番目のフレームに該当するオブジェクト情報がいずれも含まれている。したがって、当該フレームにおいて、BS2に該当するオブジェクト情報は、BS2の1番目のフレームのオブジェクト情報と2番目のフレームのオブジェクト情報に対して該当の区間を占める比率による平均化を行う方法あるいは補間を行う方法を通じて得ることができる。こうすると、図32の(b)で、点線で表示した各区間に該当するBS1、BS2のオブジェクト情報を得ることができ、これらのオブジェクト情報を一つのオブジェクト情報に結合するには、図29で使用した方法をそのまま用いれば良い。ダウンミックス信号の場合は、ディレーがそれぞれ異なる状態で追加的なディレー補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれるディレー情報はd1に該当する情報が保存される。
【0232】
図33には、上述したディレー差を補正するさらに他の方法を示す。図33は、BS2で発生するディレーd2を基準にして時間的整列をする方法を示している。1番目のフレームを取り上げると、このフレームに該当するBS2のオブジェクト情報は、1番目のフレームに該当するオブジェクト情報をそのまま使用することができる。これに対し、BS1のオブジェクト情報は1番目のフレームに該当するオブジェクト情報と2番目のフレームに該当するオブジェクト情報がいずれも含まれている。したがって、2番目のフレームにおいて、BS1に該当するオブジェクト情報は、BS1の1番目のフレームのオブジェクト情報と2番目のフレームのオブジェクト情報に対して当該区間を占める比率による平均化を行う方法あるいは補間を行う方法を通じて得ることができる。こうすると、図33の右図、つまり(b)に点線で表示した各区間に該当するBS1、BS2のオブジェクト情報を得ることができ、これらのオブジェクト情報を一つのオブジェクト情報に結合するには、図29で使用した方法とすれば良い。ダウンミックス信号の場合、ディレーがそれぞれ異なる状態で追加的なディレー補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれるディレー情報はd2に該当する情報が保存される。
【0233】
以上の如く、複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合、各オブジェクト符号化されたビットストリームに含まれているダウンミックス信号を一つのダウンミックス信号に結合する過程が必要である。この場合、様々な圧縮コーデックによるダウンミックス信号を一つのダウンミックス信号に結合するためには、圧縮されている信号をPCM信号あるいは特定周波数ドメイン上の信号に変換し、該当のドメインでダウンミックス信号を結合し、また特定圧縮コーデックで信号を変換する過程が要求される。この時、圧縮コーデックがどんな種類かによって、ダウンミックス信号がPCM段階で結合されるか、特定周波数ドメインなどで結合されるかによって様々なディレーが発生することとなる。このようなディレーは、最終に結合されたビットストリームをデコーディングするデコーダではその具体的な値が予測できない。したがって、該当のディレーはビットストリーム上に含まれて伝達されなければならない。このディレーは、PCM信号上でのディレーサンプル数を表現しても良く、特定周波数ドメイン上でのディレーサンプル数を表現しても良い。
【0234】
一方、本発明は、プロセッサ読取可能記録媒体にプロセッサが読取りできるコードとして実現することが可能である。プロセッサ読取可能記録媒体は、プロセッサにより読取り可能なデータが記憶される全ての種類の記録装置を含む。プロセッサ読取可能記録媒体の例には、ROM、RAM、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置などがあり、また、インターネットを介した転送などのようなキャリアウェーブの形態で実現されることも含む。また、プロセッサ読取可能記録媒体はネットワークで連結されたシステムに分散され、分散方式でプロセッサが読取りできるコードが記憶され実行されうる。
【0235】
以上では具体的な実施例を示して本発明を説明してきたが、本発明は、具体例に限定されず、特許請求の範囲で請求する本発明の要旨を逸脱しない限度内で、当該発明が属する技術分野における通常の知識を持つ者が様々に変更して実施できるということは明らかであり、このような変更は本発明の技術的思想や展望から別個のものとして理解されてはならない。
【技術分野】
【0001】
本発明は、オブジェクトベースのオーディオ信号を効率的に処理できるように符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置に関するものである。
【背景技術】
【0002】
一般に、マルチチャネルオーディオ符号化及び復号化では、マルチチャネルから構成された複数のチャネル信号を元来のチャネル数よりも小さい数のチャネルの信号にダウンミックスし、追加の付加情報を転送し、元来のチャネル数を持つマルチチャネル信号として再生する。
【0003】
オブジェクトベースのオーディオ符号化及び復号化も、複数の音源をそれよりも小さい数の音源信号にダウンミックスし、追加の付加情報を転送することは、マルチチャネルオーディオ符号化及び復号化と同様である。ただし、オブジェクトベースのオーディオ符号化及び復号化では、オブジェクト信号をマルチチャネルオーディオ符号化においてチャネル信号に該当する信号と見なしてコーディングを行う。ここで、オブジェクト信号は、ある楽器の音や人の声などコーディングの対象となる信号を構成している基本的な要素のことを指す。
【0004】
すなわち、マルチチャネルオーディオ符号化及び復号化では、コーディングしようとするチャネル信号をいくつの要素から構成されているかに関らず、チャネル信号間の情報のみに基づいてマルチチャネルオーディオコーディングを行うのに対し、オブジェクトベースのオーディオ符号化及び復号化では、かかるそれぞれのオブジェクト信号を独立したコーディングの対象と見なす。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、多様な環境で適用可能なように効率的にオブジェクト信号を符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置を提供することにある。
【課題を解決するための手段】
【0006】
上記の目的を達成するための本発明によるオーディオ復号化方法は、 相対オブジェクトエネルギー情報及び絶対オブジェクトエネルギー情報を含む少なくとも2つのエネルギー情報を獲得する段階と, 前記エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する段階と、を含む。
【0007】
また、上記の目的を達成するための本発明によるオーディオ復号化方法は、オブジェクト符号化された第1オーディオ信号と第2オーディオ信号を受信する段階と、前記第1オーディオ信号に含まれた第1オブジェクトエネルギー情報と、前記第2オーディオ信号に含まれた第2オブジェクトエネルギー情報を用いて第3オブジェクトエネルギー情報を生成する段階と、前記第1及び第2オーディオ信号が結合され、前記第3オブジェクトエネルギー情報を含む第3オーディオ信号を生成する段階と、を含む。
【0008】
また、上記の目的を達成するための本発明によるオーディオ符号化方法は、 第1オーディオ信号から第1ダウンミックス信号と第1オブジェクト情報を抽出し、第2オーディオ信号から第2ダウンミックス信号と第2オブジェクト情報を抽出するデマルチプレクサと、前記第1及び第2オブジェクト情報が結合され、前記第1オブジェクト情報に含まれた第1オブジェクトエネルギー情報と、前記第2オブジェクト情報に含まれた第2オブジェクトエネルギー情報を用いて生成した第3オブジェクトエネルギー情報を含む第3オブジェクト情報と、前記第1及び第2ダウンミックス信号を結合した第3ダウンミックス信号とを生成するマルチポインタ制御部と、を含む。
【0009】
そして、上記の目的を達成するために本発明では、上記方法をコンピュータで実行させるためのプログラムを記録した、コンピュータ読取可能記録媒体を提供する。
【発明の効果】
【0010】
本発明によれば、多様な環境においてオブジェクトベースのオーディオ信号の符号化及び復号化の長所を最大限に活かしながら、各オブジェクトオーディオ信号別に効率的に音象を定位させることができるので、オブジェクトオーディオ信号の再生に際してより生き生きした現実感を提供することができる。
【図面の簡単な説明】
【0011】
【図1】一般的なオブジェクトベースのオーディオ符号化/復号化装置を示すブロック図である。
【図2】本発明の第1実施例によるオーディオ復号化装置を示すブロック図である。
【図3】本発明の第2実施例によるオーディオ復号化装置を示すブロック図である。
【図4】本発明の第3実施例によるオーディオ復号化装置を示すブロック図である。
【図5】本発明の第3実施例によるオーディオ復号化装置で使用可能なADGモジュールを示すブロック図である。
【図6】本発明の第4実施例によるオーディオ復号化装置を示すブロック図である。
【図7】本発明の第5実施例によるオーディオ復号化装置を示すブロック図である。
【図8】本発明の第6実施例によるオーディオ復号化装置を示すブロック図である。
【図9】本発明の第7実施例によるオーディオ復号化装置を示すブロック図である。
【図10】本発明の第8実施例によるオーディオ復号化装置を示すブロック図である。
【図11】トランスコーダの動作を説明するための図である。
【図12】トランスコーダの動作を説明するための図である。
【図13】オブジェクト情報を構成する多様な方法を説明するための図である。
【図14】オブジェクト情報を構成する多様な方法を説明するための図である。
【図15】オブジェクト情報を構成する多様な方法を説明するための図である。
【図16】オブジェクト情報を構成する多様な方法を説明するための図である。
【図17】オブジェクト情報を結合する場合を説明するための図である。
【図18】オブジェクト情報を結合する場合を説明するための図である。
【図19】オブジェクト情報を結合する場合を説明するための図である。
【図20】オブジェクト情報を結合する場合を説明するための図である。
【図21】オブジェクト情報を結合する場合を説明するための図である。
【図22】オブジェクト情報を結合する場合を説明するための図である。
【図23】前処理過程を説明するための図である。
【図24】前処理過程を説明するための図である。
【図25】前処理過程を説明するための図である。
【図26】前処理過程を説明するための図である。
【図27】前処理過程を説明するための図である。
【図28】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図29】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図30】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図31】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図32】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【図33】複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
【発明を実施するための形態】
【0012】
以下、添付の図面を参照しつつ本発明をより詳細に説明する。
【0013】
本発明によるオーディオ符号化及び復号化方法は基本的にオブジェクトベースのオーディオ信号の処理過程に適用されるが、これに限定されず、本発明による条件を満たす他の信号の処理過程にも適用可能である。
【0014】
図1は、一般的なオブジェクトベースのオーディオ符号化及び復号化装置を示すブロック図である。一般的にオブジェクトベースのオーディオ符号化装置において入力信号は、マルチチャネル上のチャネルとは関わっておらず、それぞれ独立したオブジェクト信号に該当し、このような点で、入力信号がマルチチャネル上の各チャネル信号に該当するマルチチャネルオーディオ符号化装置と異なっている。例えば、マルチチャネルオーディオ符号化装置で入力信号は、5.1チャネル信号のフロントレフト信号やフロントライト信号などのようなチャネル信号となる。これに対し、オブジェクトベースのオーディオ符号化装置において入力信号となるオブジェクト信号は、通常、チャネル信号よりも小さい個体を指すもので、人の声またはバイオリンやピアノなどの楽器音などがそれに該当する。
【0015】
図1を参照すると、オブジェクトベースのオーディオ符号化装置に含まれるオブジェクトエンコーダ100と、オブジェクトベースの復号化装置に含まれるオブジェクトデコーダ111及びミキサー/レンダラー113が示されている。
【0016】
オブジェクトエンコーダ100は、N個のオブジェクト信号を受信し、1つあるいはそれ以上のチャネルを持つオブジェクトベースのダウンミックス信号と、各オブジェクトオーディオ信号から抽出した情報が含まれるオブジェクト情報とを生成する。この時、各オブジェクト信号から抽出した情報は、エネルギー差、位相差、相関値などに基づくものである。
【0017】
オブジェクト情報には、チャネルベースのオーディオコーディングなのかオブジェクトベースのオーディオコーディングなのかを識別する識別子が含まれ、この値によってチャネルベースの復号化を行ったりあるいはオブジェクトベースの復号化を行うようにすることができる。また、オブジェクト情報には、オブジェクト信号に関する、エネルギー情報、グルーピング情報、無音区間情報、ダウンミックスゲイン情報、ディレー情報などが含まれうる。
【0018】
オブジェクトエンコーダ100で生成されたオブジェクト情報とダウンミックス信号は、一つのビットストリームに結合されて復号化装置に転送されうる。
【0019】
オブジェクトデコーダ111は、オブジェクトベースのオーディオ符号化装置から転送されたダウンミックス信号とオブジェクト情報を用いて元来のオブジェクト信号と類似の性質を有するオブジェクト信号を再生する。この時、オブジェクトデコーダ111で生成されるオブジェクト信号は、マルチチャネル上の特定チャネルに配置されていない信号である。したがって、オブジェクトデコーダ111で生成されたオブジェクト信号はそれぞれ、ミキサー/レンダラー113に入力され、制御情報によってマルチチャネル空間上の特定位置に特定レベルで配置されて再生される。各オブジェクト信号に関する制御情報は時間によって変換可能であり、これにより、特定オブジェクト信号の音象が時間によって空間上の位置やそのレベルが変わることができる。
【0020】
図2は、本発明の第1実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置120は、制御情報の分析を通じて適応的デコーディングが可能なように構成される。
【0021】
図2を参照すると、本実施例によるオーディオ信号復号化装置120は、オブジェクトデコーダ121、ミキサー/レンダラー123、及びパラメータコンバータ125を含む。図示してはいないが、復号化装置は、デマルチプレクサなどを含み、受信したビットストリームからダウンミックス信号とオブジェクト情報を抽出でき、以下に説明する他の実施例による復号化装置においても同様である。
【0022】
オブジェクトデコーダ121は、ダウンミックス信号と、パラメータコンバータ125から伝達される変換されたオブジェクト情報を用いてオブジェクト信号を生成する。ミキサー/レンダラー123は、オブジェクトデコーダ121から出力される各オブジェクト信号を制御情報によってマルチチャネルの空間上の特定位置に特定レベルで配置する。パラメータコンバータ125は、オブジェクト情報に制御情報を結合させて生成した変換されたオブジェクト情報をオブジェクトデコーダ121に伝達する。
【0023】
このような構成により、オブジェクトデコーダ121で、変換されたオブジェクト情報に結合された制御情報を分析し、適応的復号化が可能になる。
【0024】
例えば、制御情報によって、オブジェクト1信号とオブジェクト2信号がマルチチャネル空間上で同じ位置に同じレベルに設定される場合、一般的な復号化装置ではオブジェクト1信号とオブジェクト2信号がそれぞれ個別にデコーディングされた後、ミキシング/レンダリング過程で制御情報に合うようにマルチチャネル空間上に配列される。しかし、本実施例によるオーディオ復号化装置120でオブジェクトデコーダ121は、変換されたオブジェクト情報に結合された制御情報から、オブジェクト1信号とオブジェクト2信号がまるで一つの音源かのように同じレベルで同じ位置に設定されていることがわかる。これにより、オブジェクトデコーダ121は、オブジェクト1信号とオブジェクト2信号をそれぞれ別個にデコーディングせずに一つの音源のようにデコーディングすることができる。
【0025】
このようにオブジェクト1信号とオブジェクト2信号を一つの音源のように復号化し、復号化過程の複雑性を減らすことができる。また、ミキシング/レンダリング過程においても処理すべき音源が減るので、同様に複雑性を減らすことができる。このようなオーディオ復号化装置120は、オブジェクト信号の数が最終出力チャネル数よりも多いので、確率的に複数のオブジェクト信号が同じ空間上に配置される場合に効果的に使われることができる。
【0026】
他の例として、オーディオ復号化装置120は、オブジェクト1信号とオブジェクト2信号がマルチチャネル空間上で同じ位置に配置されるが、オブジェクト1信号とオブジェクト2信号のレベルが同一でなく、いずれか一方が他方よりも大きい場合にも使われることができる。この場合にも、オブジェクト1信号とオブジェクト2信号を個別にデコーディングした後にミキサー/レンダラー123の入力として転送する代わりに、オブジェクト1信号とオブジェクト2信号のレベルが調整された状態でこれら両者を一つの信号のようにデコーディングすることとなる。この時、オブジェクトデコーダ121は、変換されたオブジェクト情報に結合された制御情報から、オブジェクト1信号とオブジェクト2信号に対するエネルギーレベル差に関する情報を得ることができるので、この情報に基づいて両信号をデコーディングすることができる。これにより、オブジェクト1信号とオブジェクト2信号はそれぞれのレベルが調整された状態で一つの音源のように復号化が可能になる。
【0027】
さらに他の例として、オブジェクトデコーダ121が制御情報によって、各オブジェクト信号のレベルを調整するようにすることができる。すなわち、オブジェクトデコーダ121で制御情報によって、各オブジェクト信号がレベル調整された状態でデコーディングが行われるようにする。この場合、ミキサー/レンダラー123では位置とレベルを両方とも調整する代わりに、レベル調整無しで各オブジェクト信号のマルチチャネル空間上の位置に対してのみ配置作業をすれば良い。したがって、制御情報によるレベル調整段階をオブジェクトデコーダ121のデコーディング過程で行い、オブジェクト信号に対して追加的なレベル調整をすることなく直ちに位置配置が可能なので、複雑性を減らすことができる。
【0028】
このように本実施例によるオーディオ復号化装置120は、制御情報の分析を通じてオブジェクトデコーダ121が適応的にデコーディングを行うことができるので、デコーディング過程とミキシング/レンダリング過程の複雑性を減らすという効果が得られる。また、前述した様々な例で説明した方法は組み合わせて同時に用いても良い。
【0029】
図3は、本発明の第2実施例によるオーディオ信号復号化装置のブロック図である。図3を参照すると、本実施例によるオーディオ信号復号化装置130は、オブジェクトデコーダ131と、ミキサー/レンダラー133とを含む。本実施例によるオーディオ信号復号化装置130は、オブジェクト情報がオブジェクトデコーダ131の他にミキサー/レンダラー133にも伝達されるのに特徴がある。
【0030】
このような構成により、オブジェクト信号中に無音区間が存在する場合に、効率的にデコーディング作業を行うことができる。例えば、オブジェクト2〜4信号までは楽器音が演奏され、オブジェクト1信号が無音区間、すなわち伴奏区間に該当する。また、信号の時間帯別に特定オブジェクト信号が無音区間である場合が存在する。このような場合、各オブジェクト信号の無音区間に関する情報がオブジェクト情報に含まれて転送されうる。この時、オブジェクトデコーダ131は、特定オブジェクト信号が無音区間に該当する場合、その特定オブジェクト信号をデコーディングしない方式によって復号化過程の複雑性を最小化する。
【0031】
また、ミキサー/レンダラー133には、無音に該当するオブジェクトの信号が‘0’値で伝達される。しかし、このような無音信号、すなわち‘0’となっている信号に対してもミキサー/レンダラー133は一つの信号と見なし、ミキシング/レンダリング作業を行うのが一般的である。
【0032】
しかし、本実施例によるオーディオ復号化装置130は、個々のオブジェクト信号の無音区間に関する情報が含まれているオブジェクト情報がミキサー/レンダラー133にも伝達され、特定オブジェクト信号が無音区間である場合、そのオブジェクト信号に対してミキシングやレンダリング作業が行われないように構成されうる。
【0033】
図4は、本発明の第3実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置は、オブジェクトデコーダとミキサー/レンダラーの代わりにマルチチャネルデコーダを使用し、各オブジェクト信号がマルチチャネル空間上で配置完了し、デコーディングされるように構成される。
【0034】
図4を参照すると、本実施例によるオーディオ復号化装置140は、マルチチャネルデコーダ141及びパラメータコンバータ145を含む。マルチチャネルデコーダ141は、ダウンミックス信号とパラメータコンバータ145から伝達されるチャネルベースのパラメータ情報である空間パラメータとを用いて、マルチチャネル空間上に配置完了したマルチチャネル信号を出力する。パラメータコンバータ145では、オブジェクト情報及び制御情報を用いて空間パラメータを生成する。すなわち、オブジェクト情報と、プレイバック setup及びミキシング情報などが含まれた制御情報とを取り込み、これに基づいてマルチチャネルデコーダ141で使用可能な空間パラメータを生成する。これは、各OTT(One−To−Two)ボックスあるいはTTT(Two−To−Three)ボックスに該当する空間データへの変換を意味する。
【0035】
このような構成により、オブジェクトベースのデコーディング及びミキシング/レンダリング過程がマルチチャネルデコーディング過程により完了する他、中間段階としてそれぞれのオブジェクト信号を生成する過程が省かれ、複雑性を減らす効果が得られる。
【0036】
例えば、10個のオブジェクト信号があり、最終再生チャネルは5.1チャネルスピーカー再生システムである場合、一般的なオブジェクトベースオーディオ復号化装置では、ダウンミックス信号とオブジェクト情報を用いて10個のオブジェクトのそれぞれに対してデコーディングされた信号を生成する。そして、10個のオブジェクト信号とミキシング/レンダリング情報を用いてミキサー/レンダラーでは5.1チャネルスピーカー環境に合わせて各オブジェクト信号をマルチチャネル上の特定位置に配置し、最終的に5.1チャネル信号を生成する。このように、最終5.1チャネル信号のために中間段階で10個のオブジェクト信号のそれぞれを生成しなければならないという非効率性があり、この非効率性は、最終再生チャネル数とオブジェクト信号の数との差が大きいほどより増大する。
【0037】
しかし、本実施例によるオーディオ復号化装置140を用いてデコーディングする場合、オブジェクト情報と制御情報を用いて5.1チャネル出力構成に合う空間パラメータを生成する。そして、空間パラメータとダウンミックス信号をマルチチャネルデコーダ141に入力し、5.1チャネル信号を出力する。すなわち、最終出力チャネルが5.1チャネルである場合、中間段階である10個の信号を生成する過程無しで直接ダウンミックス信号から5.1チャネル信号を生成する構造であるから、一般的な方法に比べて効率的である。
【0038】
したがって、本実施例によるオーディオ信号復号化装置140は、エンコーダから転送されたオブジェクト情報と制御情報の分析を通じて各OTT、TTTボックスの空間パラメータを計算するのに必要な計算量が、全てのオブジェクト信号のそれぞれをデコーディングした後にミキサー/レンダラーを経由するのに必要な計算量よりも少ない場合に効率的である。
【0039】
また、本実施例によるオーディオ信号復号化装置140は、オブジェクト情報と制御情報の分析を通じて、マルチチャネルデコーダで使われる空間パラメータを生成するモジュールのみを追加するだけで、既存のマルチチャネルデコーダをそのまま使用してオブジェクトベースのオーディオ復号化装置を具現でき、既存のマルチチャネルデコーダと互換性を維持できるという長所がある。また、一般的なマルチチャネルデコーダ等に在るエンベロープシェーピング、STP(Sub−band Temporal Processing)ツール、デコリレータなどの既存ツールを変形せずに使用して音質を向上させることができる。これらの点は、既存のマルチチャネルデコーディングが持っている長所をいずれもオブジェクト復号化過程でも使用可能であるということを意味している。
【0040】
そして、パラメータコンバータ145から出力されてマルチチャネルデコーダ141に転送される空間パラメータは、データが最小限に圧縮されて転送に好適な形態であっても良く、一般的なマルチチャネルエンコーダから転送される形態、すなわちハフマンデコーディング、パイロットデコーディングなどの過程を経て実際マルチチャネルデコーダの各モジュールに入力されるべき圧縮されていない空間パラメータの形態で出力されても良い。前者の場合のように出力される場合、該当の空間パラメータ情報を遠隔地に在る他のマルチチャネルデコーダに転送するのに有利である。後者の場合、マルチチャネルデコーダで圧縮された空間パラメータを実際デコーディング作業に使われる実際空間パラメータに再び変換しなくて済むという長所がある。
【0041】
一方、オブジェクト情報と制御情報の分析を通じて空間パラメータを構成する上でディレーが発生しうる。この場合、ダウンミックス信号とディレーを合わせる過程が必要である。このために、ダウンミックス信号に追加的なバッファーを置いてダウンミックス信号とビットストリーム間のディレーを合わせる方法と、オブジェクト情報と制御情報から得られた空間パラメータに追加的なバッファーを置いてディレーを合わせる方法がある。しかし、これらの方法は追加的なバッファーを置かなければならないという不具合がある。この点に鑑み、オブジェクト情報自体を、ディレーを考慮してダウンミックス信号よりも早く送る方法も可能である。この場合、制御情報と結合して生成された空間パラメータは、追加的なディレーを補正することなく適用可能である。
【0042】
また、各オブジェクト信号が相対的レベルの差を有する場合、制御情報により与えられる各オブジェクト信号の相対的大きさは、ダウンミックス信号を直接補正するADG(Arbitrary Downmix Gains)によって決定し、オブジェクト信号の空間上の特定位置への割当は、CLD(Channel Level Difference)、ICC(Inter Channel Correlation)、CPC(Channel Prediction Coefficient)などの空間パラメータによって行うことが可能である。
【0043】
例えば、オブジェクト1信号が制御情報によって空間上の特定の位置に配置されると同時に他のオブジェクト信号に比べて相対的にレベルが大きくなった状態で配置される場合、一般的にマルチチャネルベースのデコーダは、転送された空間パラメータを用いてダウンミックス信号のパラメータバンド別相対的エネルギー差を求めた後、これに基づいて転送されたダウンミックス信号を出力チャネル別に分ける方式を用いている。このようなマルチチャネルデコーダは、ある特定の楽器や特定の音がダウンミックス信号自体において他の信号に比べて相対的に小さいレベルあるいは大きいレベルで含まれている場合、これを最終マルチチャネル出力において該当の特定信号の大きさのみを増加または減少させる方法を持っていない。すなわち、マルチチャネルデコーダは基本的な概念そのものが、転送されたダウンミックス信号を出力チャネルにそれぞれ分けて分配する形式であるがため、ダウンミックス信号自体に小さい音として含まれている信号を、出力信号において相対的に増加させたり、ダウンミックス信号自体に大きい音として含まれている信号を出力信号において相対的に減少させるという役割を果たし難い。
【0044】
したがって、オブジェクトエンコーダで生成されたダウンミックス信号を用いて、制御情報で要求する各オブジェクト信号の空間上の特定の位置に割り当てることは容易であるが、特定オブジェクト信号の大きさを増減させる場合にはより特別な方法が必要とされる。これは、オブジェクトエンコーダで生成されたダウンミックス信号をそのまま使用する場合、ダウンミックス信号中に含まれている特定オブジェクト信号の音を減少させることが難しいためである。
【0045】
したがって、本実施例では、このような場合において制御情報によるオブジェクト信号の相対的大きさ変化を適用する方法として、図5に示すように、ADGモジュール147を使用することができる。このADGモジュール147はマルチチャネルデコーダ141内に設置されても良く、マルチチャネルデコーダ141とは別に設置されても良い。
【0046】
ADGモジュール147を使用する場合、オブジェクトエンコーダから転送されたダウンミックス信号において特定オブジェクト信号の相対的大きさを減らしたり増やしたりすることが可能になり、ADGモジュール147によって変換されたダウンミックス信号をもってマルチチャネルデコーディングを行うことが可能である。
【0047】
ADGモジュール147を使用してダウンミックス信号を変化させ、オブジェクト信号の相対的大きさを調節する方法を用いる場合、オブジェクトデコーディングを既存のマルチチャネルデコーダを用いて行うことができるという長所がある。オブジェクトエンコーダで生成されたダウンミックス信号がモノ、ステレオ、または3チャネル以上の信号である場合にもADGモジュール147を適用することが可能であり、ダウンミックス信号が2チャネル以上である場合、大きさを調整しようとするオブジェクト信号がダウンミックスの特定チャネルにのみ存在すると、ADGモジュール147を特定ダウンミックスチャネルにのみ適用することも可能である。この全ての場合に既存のマルチチャネルデコーダの構成を変えることなく適用可能である。
【0048】
また、最終出力がマルチチャネルスピーカー再生ではなくバイノーラル再生の場合にも同一に適用可能であり、この場合にも、オブジェクト信号間の相対的大きさ変化はADGモジュール147を用いて調節可能である。
【0049】
この他にも、ADGモジュール147を使用してオブジェクト信号の相対的大きさを修正する方法を用いずに、各パラメータ値を用いて信号を生成する過程でオブジェクト信号間の相対的大きさを適用するゲイン値を適用させることも可能である。この場合、既存のマルチチャネルデコーダにおいてこのようなゲイン値を追加させるための若干の変形が必要である。しかし、既存のマルチチャネルデコーダの修正が必要である以外は、ADGを計算し補正する方法を用いずにデコーディング過程中にゲイン値を追加する方法で大きさを調整することができるので、相対的に複雑性が低減するという長所がある。
【0050】
このように、ADGモジュール147の適用は、単にオブジェクト信号のレベル調整だけでなく、特定オブジェクト信号のスペクトラム情報の変形が可能な場合にこれに対する適用ツールとしても用いられることができる。すなわち、特定オブジェクト信号のレベルを増加させたり減少させる場合にADGモジュール147が使われると共に、特定オブジェクト信号のスペクトラム情報の変形、すなわち特定オブジェクトの低音部を増やしたり高音部を増やしたりするようなスペクトラム情報の変形もADGモジュール147を用いて行うことができる。もちろん、このようなスペクトラム情報の変形は、既存マルチチャネルデコーダでADGモジュール147を使用せずには不可能な過程である。
【0051】
図6は、本発明の第4実施例によるオーディオ復号化装置を示すブロック図である。本実施例による復号化装置は、前述した実施例と略同様であり、ただし、バイノーラル出力の場合を追加した点に特徴がある。
【0052】
図6を参照すると、本実施例によるオーディオ信号復号化装置150は、マルチチャネルバイノーラルデコーダ151、第1パラメータコンバータ157、及び第2パラメータコンバータ159を含む。
【0053】
第2パラメータコンバータ159は、エンコーダで生成されたオブジェクト情報と制御情報を分析して空間パラメータを生成する。第1パラメータコンバータ157は空間パラメータに再びHRTFパラメータなどの3D情報を追加し、仮想3Dパラメータを生成する。マルチチャネルバイノーラルデコーダ151は、ダウンミックス信号に仮想3Dパラメータを適用してバイノーラル信号を生成する。
【0054】
この時、第1パラメータコンバータ157と第2パラメータコンバータ159を結合し、オブジェクト情報と制御情報及び3D情報を受信してバイノーラルパラメータを生成する統合されたパラメータコンバータ155としても良い。
【0055】
もし、一般的な方法により、10個のオブジェクト信号が含まれたダウンミックス信号を、ヘッドホン再生などのためのバイノーラル信号とするためには、まず、オブジェクトデコーダでダウンミックス信号とオブジェクト情報から10個のオブジェクト信号のそれぞれに対してデコーディングされた信号を生成する。生成した信号と制御情報を用いてミキサー/レンダラーでは5チャネルスピーカー環境に合うように各オブジェクト信号をマルチチャネル上の特定位置に配置し、5チャネルスピーカーを通じて再生される5チャネル信号を生成する。そして、この信号に対して各チャネル別3D情報などを適用し、最終的に2チャネル出力を生成することとなる。これは、最終2チャネル信号を生成するために、10個のオブジェクト信号を再生し、これらを再び5チャネル信号に変換した後に最終2チャネル信号を生成するという点で非効率的である。
【0056】
これに対して、本実施例による復号化装置150は、オブジェクト信号からヘッドホン再生などのためのバイノーラル信号を直接生成することができる。また、本実施例による復号化装置150は、オブジェクト情報と制御情報を分析して空間パラメータを生成し、バイノーラル出力の場合にも既存のマルチチャネルバイノーラルデコーダをそのまま使用することができるという長所がある。そして、オブジェクト情報と制御情報、HRTFパラメータを入力としてバイノーラルパラメータを生成する統合されたパラメータコンバータを用いる場合、複雑性をさらに減らすことができるという長所がある。この場合にも同様に、マルチチャネルバイノーラルデコーダを再使用できるという長所がある。
【0057】
図7は、本発明の第5実施例によるオーディオ復号化装置を示すブロック図である。図7を参照すると、本実施例によるオーディオ復号化装置160は、前処理部161、マルチチャネルデコーダ163、及びパラメータコンバータ165を含む。
【0058】
パラメータコンバータ165は、マルチチャネルデコーダ163で使用される空間パラメータと前処理部161で使用されるパラメータとを生成する。前処理部161は、ダウンミックス信号に対する前処理過程を行い、前処理過程の行われた信号はマルチチャネルデコーダ163に伝達され、デコーディング過程が行われる。マルチチャネルデコーダ163から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。前処理部161で行われる前処理過程には、フィルタリングなどを用いたダウンミックス信号の時間あるいは周波数ドメインでの修正や変換などが含まれうる。
【0059】
また、オーディオ復号化装置160に入力されるダウンミックス信号がステレオ信号の場合、このダウンミックス信号は、マルチチャネルデコーダ163の入力として転送される前に、前処理部161でダウンミックス前処理過程をたどらなければならない。なぜなら、マルチチャネルデコーダ163は、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程においてダウンミックス信号の左チャネルに位置している信号をマルチチャネルの右側チャネルにマッピングすることができないためである。したがって、ステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更させようとする場合、ステレオダウンミックスチャネルに前処理過程を行ってからマルチチャネルデコーダ163に入力させなければならない。
【0060】
このようなステレオダウンミックス信号の前処理過程は、オブジェクト情報と制御情報から前処理に関する情報を求めた後、この情報を用いて行うことができる。
【0061】
図8は、本発明の第6実施例によるオーディオ復号化装置を示すブロック図である。図8を参照すると、本実施例によるオーディオ復号化装置170は、マルチチャネルデコーダ171、後処理部173、及びパラメータコンバータ175を含む。
【0062】
パラメータコンバータ175は、マルチチャネルデコーダ171で使われる空間パラメータと後処理部173で使われるパラメータとを生成する。後処理部173は、マルチチャネルデコーダ171の出力信号に後処理過程を行う。マルチチャネルデコーダ173から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。
【0063】
後処理部173で行われる後処理過程には、フィルタリングなどを用いて出力信号のチャネル別あるいは全てのチャネルに対して修正及び変換を行うことなどが含まれる。後処理部173の特定の例としては、オブジェクト情報内に特定オブジェクト信号の基本周波数値などを表示し、これを用いて後処理過程で基本周波数の倍音成分のみを除去することが挙げられる。マルチチャネル復号化方法だけでは、充分な性能のカラオケシステムを具現し難いかもしれないが、ボーカルオブジェクト信号に対して基本周波数情報を含み、その倍音成分を後処理過程で消すと、高い性能のカラオケシステム具現が可能となる。この技術を、音声の他、特定オブジェクト信号に適用すると特定楽器のみを消すことが可能になる。また、オブジェクト信号の基本周波数情報を用いて特定倍音成分のみを増幅することができる。このように、後処理パラメータは、マルチチャネルデコーダで適用不可能なオブジェクト信号の残響効果挿入、ノイズ追加、低音部補強などの様々なエフェクト適用を可能にする。
【0064】
そして、後処理部173は、ダウンミックス信号に追加的なエフェクト処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ171の出力信号に加える作業を行うことができる。特定オブジェクト信号のスペクトラムを変更したり、ダウンミックス信号全体に変形を加える必要がある場合、後処理部173は、該当の作業をダウンミックス信号自体に加える。残響などのように、ダウンミックス信号に直接処理し、処理された信号をマルチチャネルデコーダ171に転送することが適切でない場合、このような処理をマルチチャネルデコーダ171に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ171の出力に加える方式で処理しても良い。
【0065】
図9は、本発明の第7実施例によるオーディオ復号化装置を示すブロック図である。図9を参照すると、本実施例によるオーディオ復号化装置180は、前処理部181、マルチチャネルデコーダ183、後処理部185、及びパラメータコンバータ187を含む。すなわち、本実施例によるオーディオ復号化装置180は、マルチチャネルデコーダ183の前段に前処理部181が配置され、マルチチャネルデコーダ183の後段に後処理部185が配置されるように構成される。
【0066】
前処理部181は、図7で説明したのと同様に適用されうる。また、後処理部185を、後処理過程が適用された後に対応するエフェクトが適用された信号をマルチチャネルデコーダ185の出力に加えて最終信号を得るのに使用しても良い。この場合、後処理部185は、信号を加える役割のみを果たす。また、エフェクト適用がどちらで行われるかによってエフェクトパラメータは前処理部181と後処理部185のうち、該当の過程が行われる一方に伝達される。また、ダウンミックス信号にエフェクトを適用してマルチチャネルデコーダ183の出力に加える過程と、マルチチャネルデコーダ185の出力信号にエフェクトを適用する過程が同時に行われうる。
【0067】
一方、図7及び図9で提案された前処理部は、ダウンミックス信号を使用者の制御情報によってレンダリングする役割を果たすことができる。また、前処理部は、単純なオブジェクト信号の方向情報によるレンダリング過程だけでなく、オブジェクト信号のレベルを増加または減少させる過程、オブジェクト信号のスペクトラムに変形を加える過程も行うことができる。この場合、前述したADGモジュールで可能な処理を前処理部で行うことも可能である。
【0068】
このような場合、前処理部ではオブジェクト信号の方向情報によるレンダリング過程と、オブジェクト信号のレベル調整、オブジェクト信号のスペクトラム情報変形などの過程を同時に行うことができる。また、これらの過程は、適切に分けられ、一部は前処理部で行い、一部はADGモジュールを用いて行うことができる。例えば、オブジェクト信号のスペクトラム変形の場合、ADGモジュールで使われる量子化レベル間隔及びパラメータバンド間隔を用いて行うことが適切でない場合がある。この場合、オブジェクト信号のスペクトラム修正は、前処理過程で周波数別に細かいスペクトラム変形を行い、ADGモジュールでは各オブジェクト信号のレベル調整を行うことによってなされうる。
【0069】
図10は、本発明の第8実施例によるオーディオ復号化装置を示すブロック図である。図10を参照すると、本実施例によるオーディオ復号化装置200は、レンダリングマトリクス生成部201、トランスコーダ203、マルチチャネルデコーダ205、前処理部207、エフェクトプロセッサ208、及び加算器209を含む。
【0070】
レンダリングマトリクス生成部201は、オブジェクト信号の空間上での位置に関する情報と、オブジェクト信号のレベル大きさに関するプレイバック情報などを表現するレンダリングマトリクスを生成し、トランスコーダ203に伝達する。また、レンダリングマトリクス生成部201は、オブジェクト信号の空間上での位置に関する情報によって適切なHRTF係数などのような3D情報を生成して伝達する。この時、HRTFとは、任意の位置を持つ音源から出る音波と耳の鼓膜に到達する音波間の伝達関数を意味し、音源の方位と高度によってその値が異なってくる。方向性のない信号を特定方向のHRTFでフィルタリングすると、人にはあたかも特定方向から声が聞こえるかのように感じられる。
【0071】
レンダリングマトリクス生成部201が入力として受けるオブジェクト位置とプレイバック構成情報は、最終使用者が任意の組合せで入力し、時変可能な情報である。
【0072】
トランスコーダ203は、オブジェクトベースのオブジェクト情報とレンダリングマトリクス情報、3D情報などを用いてチャネルベースの付加情報を生成してマルチチャネルデコーダ205に伝達し、マルチチャネルデコーダ205で使用される3D情報を伝達する。すなわち、トランスコーダ203は、N個のオブジェクト信号に対するオブジェクトベースパラメータ情報から変換されたM個のチャネルに対するチャネルベースの付加情報と、各オブジェクト信号に適用された3D情報とを分離してマルチチャネルデコーダ205に転送する。
【0073】
マルチチャネルデコーダ205は、ダウンミックス信号とトランスコーダ203から出力されるチャネルベースの付加情報とを用いてマルチチャネルオーディオ信号を生成し、3D情報を用いて3Dレンダリングを行い、3Dベースのマルチチャネル信号を出力することができる。また、図示してはいないが、レンダリングマトリクス生成部201内に3D情報データベースが備えられる。
【0074】
トランスコーダ203は、ダウンミックス信号をマルチチャネルデコーダ205に入力する前に前処理作業が必要な場合、これに関する情報を前処理部207に伝達する。トランスコーダ203に入力されるオブジェクト情報には各オブジェクト信号に関する情報が含まれており、レンダリングマトリクスには各オブジェクト信号の空間上の位置及びレベル情報が含まれている。トランスコーダ203はこれら2つの情報を利用すると各オブジェクト信号が最終的にミキシングされて再生されるチャネルに関する情報が得られ、このようにミキシングされて再生されるためにマルチチャネルデコーダ205に転送されなければならないチャネルベースの付加情報を算出し、マルチチャネルデコーダ205に転送する。
【0075】
トランスコーダ203から出力されるチャネルベースの付加情報と3D情報はそれぞれ、フレームインデックスを含むことができる。これにより、マルチチャネルデコーダ205では、フレームインデックスを用いて、チャネルベースの付加情報と3D情報を同期させ、ビットストリームの特定フレームに3D情報を適用することができる。このようにフレームインデックスを用いて、3D情報が時間の経過と共に更新される場合、チャネルベースの付加情報で時間上のどの位置に適用されるかを決定することができる。すなわち、マルチチャネルデコーダ205でチャネルベースの付加情報と更新される3D情報を時間同期化するため、トランスコーダ203でチャネルベースの付加情報と3D情報にフレームインデックスを含める。
【0076】
前処理部207は、受信したダウンミックス信号をマルチチャネルデコーダ205に入力する前に、必要な作業がある場合、それに対する作業を行う。すなわち、前述したように、ステレオダウンミックス信号では、左チャネルに属したオブジェクト信号を右チャネルで再生しようとする場合などにおいて該当の作業がマルチチャネルデコーダ205で不可能なので、ダウンミックス信号に対して該当のオブジェクト信号の位置変換作業などを行う。このような作業に関する情報はトランスコーダ205から受信する。該当の作業を経たダウンミックス信号はマルチチャネルデコーダ205に伝達される。
【0077】
エフェクトプロセッサ208と加算器209は、ダウンミックス信号に追加的なエフェクト処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ205の出力信号に加える作業を行うことができる。エフェクトプロセッサ208は、特定オブジェクト信号のスペクトラムを変更したり、ダウンミックス信号全体に変形を加える必要がある場合、かかる作業をダウンミックス信号自体に適用することができる。また、残響などのように、ダウンミックス信号に直接処理し、処理されたダウンミックス信号をマルチチャネルデコーダ205に転送することが適切でない場合、該当の処理をマルチチャネルデコーダ205に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ205の出力に加える方式で処理することができる。
【0078】
このような構成で、レンダリングマトリクス生成部201で生成するレンダリングマトリクスについてより詳細に説明すると、下記の通りである。
【0079】
レンダリングマトリクスは、オブジェクト信号の位置とプレイバック構成に関する情報を表現するマトリクスである。すなわち、オブジェクト信号の個数がNで、最終再生チャネルの個数がMの場合、レンダリングマトリクスはN個のオブジェクト信号がM個のチャネルにどのようにマッピングされるかに関する情報を含む。このような情報を、下記のように様々な方法を用いてレンダリングマトリクスとして表現できる。
【0080】
第一の方法は、N個のオブジェクト信号をM個のチャネルにマッピングする場合、N*Mマトリクスで表現する。この場合、N行はそれぞれのオブジェクト信号に該当し、M列は各チャネルに該当する。特定オブジェクト信号に該当する行のM列には、該当のオブジェクト信号が各チャネルに割り当てられる比率を表記する。この比率を表記する方法は、実数で表現しても良く、整数で表現しても良い。
【0081】
オブジェクト信号が各チャネルに割り当てられる比率を実数で表現する場合、特定行のM列の値を全部合算した値が1の場合、オブジェクト信号のレベル変化はないものと見なす。また、この値が1よりも小さい場合は該当のオブジェクト信号のレベルを減らした場合と、1よりも大きい場合はレベルを増加させた場合と見なす。もちろん、レベル変化のないケースに該当する基準値1は、他の値で表示しても良い。レベル変化の範囲は±12dBなどのような値でその範囲が限定されうる。例えば、レベル変化のない場合の基準値を1にした場合、1.5は+12dBに該当し、0.5は−12dBに該当するもので表現し、0.5〜1.5の値は−12dB〜+12dBの値で線形的に対応させることが可能である。
【0082】
オブジェクト信号が各チャネルに割り当てられる比率を整数で表現する場合、オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のM列を全部合算した値を10または20、30あるいは100等の定められた値で定義することとなる。M列の和が定められた値よりも小さい場合、当該オブジェクト信号のレベルを減少させたことに該当し、和が定められた値よりも大きい場合、オブジェクト信号のレベルを増加させたことに該当する。この場合にもレベル変化の範囲は±12dBなどのような値でその範囲が限定されうる。また、この場合、該当のレベル変化範囲内で表示できるレベル変化の差の間隔が定められうる。例えば、数値1の増減を2dBの変化と表現することができる。オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のM列を全部合算した値が20の場合を取り上げて説明すると、23は+6dBを表現し、15は−10dBを表現することができる。
【0083】
レンダリングマトリクスをN*Mマトリクスで表現する場合、オブジェクト信号が6個で、再生チャネルが5個である場合を挙げると、この時に表現されるレンダリングマトリクスは6*5行列となる。各チャネルに割り当てられるオブジェクト信号の比率を整数で表現し、オブジェクト信号のレベル変化がない場合の和が10の場合と、この値の1の増減が2dB増減を表す場合、任意のレンダリングマトリクスを表現すると、下記の式1のようになる。この時チャネルを表現する5列の順序はLf、Rf、C、Ls、Rsであると仮定する。
【0084】
【数1】
【0085】
上記の式1のように表現されるレンダリングマトリクスから、オブジェクト1信号に該当する1行の5列の値(3,1,2,2,2)を参照するとオブジェクト1信号が5チャネル上にどんな割合で分配されたかがわかる。この5列のうち1番目の列が3と最も大きく、5列の和が10であることから、オブジェクト1信号はLf方向に位置が定められ、全体的なオブジェクト信号のレベルには変化が無いことがわかる。同様に、オブジェクト2信号に該当する値である(2,4,3,1,2)を参照すると、最も大きい値がRfに位置していて、オブジェクト2信号の方向がRf側に位置していることがわかり、5列の和が12と、オブジェクト2信号のレベルが元来よりも4dB大きくなったことがわかる。同様に、オブジェクト3信号の場合、該当する値が(0,0,12,0,0)と、Cにのみ成分が存在し、全体的に4dB大きくなったことがわかる。オブジェクト5信号の場合、(2,2,2,2,2)と全チャネルに均一に分布しており、レベルの大きさには変化が無いことがわかる。
【0086】
レンダリングマトリクスで表現する第二の方法は、前述したように、オブジェクト信号のレベル変化の有無は、オブジェクト信号に該当する行に在る全ての列の値を合算した値から求めることができるが、このような構造を若干変更し、上のN*Mマトリクスで表現されたものに1列を追加し、N*(M+1)マトリクスで表現する。この時、各行の1番目のM列は、Mチャネルにオブジェクト信号がどのように分布するかを、上記第一の方法と略同様な方法で表現する。M+1にオブジェクト信号のレベルを表現する方式は、第一の方法でM列の和の値で表現する方法と同じ方法で表現可能である。
【0087】
このようにオブジェクト信号のチャネル上の分布とレベル変化を同時に表示する場合とは違い、オブジェクト信号のチャネル上の分布とレベル変化を別個に表示する場合、以降オブジェクト信号のレベル変化のみを計算する必要がある場合、追加的な計算無しでレベル変化情報を得ることができる。また、このような第二の方法は、第一の方法とは表現する方式が違うだけで、表現の内容には違いがないので、第一の方法で表現されたレンダリングマトリクスをこのような形式に変換したりその反対に変換したりすることが可能であり、このような変形に追加的に必要な情報はない。
【0088】
レンダリングマトリクスで表現する第三の方法は、N個のオブジェクト信号をM個のチャネルにマッピングする場合に、N*2マトリクスで表現する。この場合、1番目の列は、オブジェクト信号が位置する空間上の位置に対する角度を表示し、2番目の列は、オブジェクト信号のレベル変化を表示することができる。角度表示の場合、フロントを0度と仮定し、反時計回り方向にオブジェクト位置の角度を表現することができる。角度表示は0〜360度の値とすることができる。この時、角度表現は、1度間隔あるいは3度間隔などの間隔レベルをおいて行うことができる。特定の方向が存在せず、全チャネルに均一に分布するオブジェクト信号では、特定値を割り当てて方向を表示する値に特定値を表示する場合には、全チャネルに均一に分布するということを意味するように設定することができる。
【0089】
このような方法は、2次元上の方向の他、上下の方向を表示しようとする場合、N*2マトリクスに列を一つ追加してN*3マトリクスで表現し、2番目の列を上下の方向に関する情報を表現するのに使用することができる。最後の列に表示されるオブジェクト信号のレベル変化は、第一の方法と同様に、実数あるいは整数で表現が可能であり、その変化のレベル間隔及び範囲も、第一の方法で説明したような方法を用いれば良い。
【0090】
もし、オブジェクトデコーダの最終再生モードがバイノーラルステレオである場合、レンダリングマトリクス生成部201でオブジェクト信号の位置によって、該当の位置に対応する3D情報あるいは該3D情報に対応するインデックスを伝達することができる。3D情報インデックスを伝達する場合、トランスコーダ203は、伝達されたインデックスに対応する3D情報を保有していなければならない。また、各オブジェクト信号の位置に対応する3D情報を転送することによって、トランスコーダ203では各オブジェクト信号の位置に対応する3D情報とレンダリングマトリクス、そしてオブジェクト情報から、マルチチャネルデコーダ205で使われる特定3D情報を計算することができる。もちろん、インデックスを伝達せずに、レンダリングマトリクス生成部で計算された3D情報を直接伝達しても良い。
【0091】
前述したレンダリングマトリクスと3D情報は、最終使用者がオブジェクト位置とプレイバック構成情報を実時間で変更することによって適応的に実時間変更され、トランスコーダ203に転送される。この時、レンダリングマトリクスと3D情報は一定の時間間隔をおいて情報の変化の有無及び以前の情報と対比して変化した情報のみを転送しても良い。例えば0.5秒間隔で1回ずつ情報変化有無及び情報変化時に変化した情報転送をする場合が挙げられる。この時、時間間隔は任意に定めることができる。設定された時間間隔をおいて転送された情報をトランスコーダ203で使用する場合、情報の変化が起きた区間では、以前の情報と変化した情報を用いて必要な情報を生成できる。
【0092】
情報転送の方法も、オブジェクト位置とプレイバック構成が変わらない場合、最初にレンダリングマトリクスと3D情報を一度転送した後、それ以上該当の情報を転送せずに、変化の無いことを表示する情報のみを転送できる。情報の変化がある場合には、変化があることを表示する情報の転送後に、変化されたレンダリングマトリクスと3D情報を転送する方法を使用することができる。情報の変化を表示する方法の場合にも、レンダリングマトリクスと3D情報のそれぞれに対して情報変化の有無を表示する方法と、これら両者の変化を一つの代表値で表示した後、変化が起きた場合に追加的にレンダリングマトリクスと3D情報のいずれの情報に変化が起きたかを表現する方法が可能である。この方法を使用する場合、変化が長い間起こらない場合に、変化が起きていないことを表示する方法がより簡単になる。
【0093】
上記の式1のレンダリングマトリクスに1列を追加し、この列にはオブジェクトの上下方向に関する情報を含めることができる。この場合、該当の情報は、−90度〜+90度までの値を表現することとなる。このようなオブジェクト信号の上下方向に関する情報が追加的な行列の列に含まれることは、第一の方法だけでなく第二及び第三の方法のケースに該当するレンダリングマトリクスにも適用することができる。この情報の場合、実際マルチチャネルデコーダのノーマルデコーディングモードでは使用されず、マルチチャネルデコーダがバイノーラルモードで動作する場合に追加的な3D情報適用を通じて具現可能である。このようなオブジェクト信号の上下方向に関する情報は、このようにレンダリングマトリクスに含まれて転送されても良いが、レンダリングマトリクスに含まれずに、3D情報と一緒に転送される方式で転送されても良い。このような上下方向に関する情報は、チャネルベースの付加情報には影響を及ぼさず、バイノーラルモードでデコーディングする時に3D情報に適用されることとなる。
【0094】
一方、オブジェクト信号の空間上の位置とレベル調整に関する情報は、レンダリングマトリクスで表現可能であるだけでなく、オブジェクト信号のスペクトラム上に変化を与えることもできる。例えば、特定オブジェクト信号に対する低音部強化、あるいは高音部強化のような変化を与えることができる。この場合、これに関する情報は、マルチチャネルコーデックで使われるADGと類似の形態で各パラメータバンドのレベル変化として表示して転送されうる。このようなオブジェクト信号のスペクトラム変更は、ダウンミックス前処理過程で処理可能である。このようなオブジェクト信号のスペクトラム上の変化を最終使用者が制御する場合、これに関する情報は、例えばスペクトラムマトリクスなどのような形態としてレンダリングマトリクスとは別個に転送されうる。この場合、レンダリングマトリクスの行はオブジェクト信号の個数分だけ、列はパラメータ個数分だけ構成された行列が使用されることができ、行列の係数は、各パラメータバンドのレベル調整に関する情報を表すことができる。
【0095】
次に、トランスコーダ203の動作過程について詳細に説明する。トランスコーダ203は、オブジェクトベースのオブジェクト情報、レンダリングマトリクス情報及び3D情報を用いて、マルチチャネルデコーダ205で使われるチャネルベースの付加情報を生成して伝達し、マルチチャネルデコーダ205で使用される3D情報を伝達する。また、ダウンミックス信号をマルチチャネルデコーダ205に入力する前に前処理過程が必要な場合、これに関する情報を伝達する。
【0096】
トランスコーダ203が入力として受信するオブジェクトベースのオブジェクト情報には、各オブジェクト信号がダウンミックス信号にどのように含まれているかを表現する情報が入っている。各オブジェクト信号がダウンミックス信号にどのように含まれているかを表現する方法には、マルチチャネルコーデックで既に使用されているOTT(One−to−Two)ボックス及びTTT(Two−to−Three)ボックスなどを用いてCLD、ICC、CPC等の情報を通じて表現する方法があり得る。このような情報を通じて、各オブジェクト信号に関する情報をどのように表現可能かについてオブジェクトエンコーダで可能な方法を説明すると、オブジェクト情報にオブジェクト信号に関する情報がどんな方法で含まれるかがわかる。
【0097】
一般に、マルチチャネルコーデックにおけるTTTボックスは、L、C、R信号をL、R信号にダウンミックスしたり、逆にアップミックスするのに使われる。これはC信号がL、R信号の成分を一部ずつ持っているケースに該当する。しかし、オブジェクト信号間のダウンミックスとアップミックスの場合、オブジェクト信号間にこのような特徴を持っている場合はほとんど存在しない。したがって、オブジェクトコーディングのアップミックスとダウンミックス時にはほとんどOTTボックスのみが使われる場合が多い。もちろん、マルチチャネルコーデックにおいて、CがL、Rの成分ではなく独立した信号を含んでいる場合にも問題なくTTTボックスの使用が可能なので、オブジェクトコーディングアップミックスとダウンミックス時にTTTボックスの使用も可能である。
【0098】
このような場合の例として、オブジェクト信号が合計6個存在し、モノダウンミックス信号である場合が考えられる。この場合、図11に示すように、OTTボックスを通じて6個のオブジェクト信号をダウンミックス信号に変換し、オブジェクト信号に関する情報を求めることが可能である。
【0099】
図11に示す構造で、一つのダウンミックス信号と総数5個のOTTボックスから得られるCLD、ICC等の情報で6個のオブジェクト信号に関する情報を表現できる。また、オブジェクトコーディングではこのような構造の自由な変更が可能である。すなわち、図11で、OTTボックス1(211)には6個のオブジェクト信号のうち任意の二つのオブジェクト信号を入力することができる。また、OTTボックスとOTTボックスが階層的に連結される構造もまた自由な変更が可能であり、オブジェクト情報にはこのようなOTTボックスの階層的に連結される構造に関する情報と各オブジェクト信号が入力として入る位置に関する情報が含まれる。任意のツリー構造の場合、マルチチャネルコーデックで使用する任意のツリー構造を表現する方法をそのまま使用することも可能である。また、各オブジェクト信号の入力位置に関する情報は様々な方法を用いて表現できる。
【0100】
オブジェクト情報には各オブジェクト信号の無音区間、すなわち、特定オブジェクトの信号がない場合に対して情報を表示することも可能である。この場合、ツリー構造が時間の変化に適応して変わることができる。例えば、図11で、オブジェクト1信号が無音区間である場合、OTTボックス1(211)への情報は必要でなく、オブジェクト2信号に該当する信号がOTTボックス4(217)に入力されると見なすことができる。このように、場合によって毎度ツリー構造を変更し、これに関する情報をオブジェクト情報に含めることができる。
【0101】
また、類似の方法として、特定オブジェクト信号が無音状態にあり、そのオブジェクト信号がダウンミックスされるOTTボックスに対して、OTTボックスの使用有無に関する情報が存在し、この情報によって当該ボックスのキューが存在したり存在しない方法を使用することができる。このように、特定オブジェクト信号の無音区間に関する情報を適用する場合、オブジェクト情報で実際に使われないOTT、TTTボックスに関する情報を減らすことができるという長所がある。また、ツリー構造を変更する場合にも、最初に定められたツリー構造で特定オブジェクト信号が無音区間に該当する場合、該当オブジェクト信号が無音となることによって機能がオン/オフされるボックスがどれかを類推できる。したがって、毎度変更されたツリー構造全体に対して情報を送らず、特定オブジェクト信号が無音であるという情報だけでもデコーダではツリー構造のどの部分に修正が加えられるべきかがわかるので、無音区間有無に関する情報は最小限に低減され、オブジェクト信号に対するキューは効率的に転送されうる。
【0102】
図12は、各オブジェクト信号がダウンミックス信号にどのように含まれているかを説明するための図である。図12を参照すると、図11でマルチチャネルコーディングのOTTボックス構造をそのまま使用したこととは違い、それを若干変形した構造を示している。この構造では、一つのボックスに複数のオブジェクト信号が入力され、一つのダウンミックス信号を生成する。この場合、各オブジェクト信号に関する情報は、全体エネルギーに対する各オブジェクト信号のエネルギーの比で表現することが可能である。しかし、オブジェクト信号数が多くなると、各オブジェクト信号のエネルギーに比べて全体エネルギーの大きさが大きくなり、各オブジェクト信号に関する情報であるエネルギーの比が小さい値のみからなることができる。これを補正するため、全体エネルギーに対する各オブジェクト信号のエネルギー比を表示せずに、特定パラメータバンド内でエネルギーの最も大きいオブジェクト信号を捜し、残りのオブジェクト信号のエネルギーを最もエネルギーの大きいオブジェクト信号のエネルギーに対する割合で表す方法を適用することができる。このような方法を用いる場合、該当のパラメータバンド内で最も大きいエネルギーを持つオブジェクト信号に関する情報と、該オブジェクト信号が持つエネルギーの絶対値を知ると、残りのオブジェクト信号のエネルギーの大きさがわかる。
【0103】
特定パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号のエネルギーの大きさは、MCU(Multipoint Control Unit)のように複数のビットストリームを一つのビットストリームに併合する場合には必須の情報となる。しかし、ビットストリームを併合しない場合、最も大きいエネルギーを持つオブジェクト信号と比較した残りのオブジェクト信号のエネルギーの大きさの比が与えられると、最も大きいエネルギーを持つオブジェクト信号の絶対的エネルギーの大きさは計算を通じて抽出することができる。
【0104】
例えば、特定パラメータに含まれたオブジェクト信号がA、B、C、Dの4個と仮定し、この中で最も大きいエネルギーを持つオブジェクト信号をAとする。オブジェクトAのエネルギーとB、C、Dとのエネルギーの大きさの比をそれぞれa、b、cとし、オブジェクトAの絶対的エネルギーの大きさをEAとし、該当のパラメータバンドのエネルギーをEPとすれば、下記のような式が成り立つ。
【0105】
【数2】
【0106】
上記の式2から、最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対的大きさは、それに関する情報が与えられなくても他の情報を用いて計算できることがわかる。したがって、MCUを経てビットストリームが結合される場合でない限り、最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対的大きさは、ビットストリームに含めて転送しなくても良い。ビットストリームにはこのような情報が含まれているか否かをヘッダに表示する方法を用いてビットストリーム全体の大きさを低減することができる。
【0107】
しかし、MCUを経てビットストリームが結合される場合、最も大きいエネルギーを持つオブジェクト信号のエネルギーの大きさ値に関する情報が必要とされる。この場合、ダウンミックス信号の実際エネルギーの大きさと最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号との比から求められる各オブジェクト信号のエネルギーの和が、実際ダウンミックス信号のエネルギーの大きさと異なってくる場合が発生する。すなわち、ダウンミックス信号のエネルギーの大きさは100であるが、各オブジェクト信号のエネルギーの大きさを計算して合算した結果が98あるいは103等と、100でない値として計算される場合がある。これは、各エネルギーの絶対値、エネルギーの大きさの比が量子化された状態でこれを再び脱量子化したのち計算することによる不一致に起因する。この場合、各オブジェクト信号のエネルギーの大きさとして計算された最終値にこの差を補正する係数を乗算しなければならない。ダウンミックス信号のエネルギーがXであるが、各オブジェクト信号のエネルギーを計算して合算した値がYである場合、各オブジェクト信号を計算する部分にX/Yを乗算しなければならいない。このような不一致を考慮しない場合、量子化エラーが各パラメータバンド及び毎フレームに含まれ、信号の歪みが生じうる。
【0108】
したがって、パラメータバンドで最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対値がどのオブジェクト信号に該当するかを表示する情報が必要である。これを表示するための情報は、特定ビットを用いて表現できるが、この情報を表示するために必要なビット数は、総オブジェクト信号の数が幾つかによって変わりうる。すなわち、オブジェクト信号数が少ないと最も大きいエネルギーを持つオブジェクト信号を表現するのに使われるビット数も減り、オブジェクト信号の数が多いとこれを表現するビット数も増えることとなる。このとき、あらかじめ定められた規則によって該当のビット数を定めても良く、あるいは、何ビットを使用すべきかを表す他の情報を必要としても良い。
【0109】
また、マルチチャネルコーデックのOTT、TTTボックスに使われるCLD、ICC、CPC値を表現する時、その絶対値ではなく時間差、周波数差、パイロットコーディングなどの方法を通じて情報量を減らすことと同様に、各パラメータバンド別に最も大きいエネルギーを持つオブジェクトに関する情報も上記のような方法を用いて表示することができる。
【0110】
また、最も大きいエネルギーを持つオブジェクト信号を表現するのに最適化されたハフマンテーブルを使用することも可能である。この場合、パラメータバンド内での最も大きいエネルギーを持つオブジェクト信号がどれかを表示する情報の他にも、最も大きいエネルギーを持つオブジェクト信号と比較した相対エネルギーを表示するオブジェクト信号の順序に関する情報も必要である。例えば、オブジェクト信号が1、2、3、4、5の5個が存在すると仮定する。特定パラメータで最も大きいエネルギーを持つオブジェクト信号を3番オブジェクト信号とする場合、このオブジェクト信号に関する情報を表示し、相対的なエネルギーの比を表示する方法としては、下記のようなものが考えられる。
【0111】
その第1の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、1番オブジェクト信号から順次にエネルギーの比を表示する方法であり、第2の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、該当のオブジェクト信号以降のオブジェクトから循環的な順序でオブジェクト信号のエネルギーの比を表示する方法である。もちろん、このようなオブジェクト信号間の順序に関する情報は、ファイルヘッダにあるいは一定フレームごとに1回ずつ転送されてオブジェクト信号の表示順序を知らせる情報に基づく。マルチチャネルコーデックでOTTボックス番号によって各チャネルに該当する信号のCLD、ICCなどを推論するのと同様に、オブジェクトビットストリーム上には各オブジェクト信号とビットストリーム上の情報がどのようにマッチングされるかを表現する情報が必要である。
【0112】
マルチチャネルコーデックの場合、OTTあるいはTTTボックスのナンバーによって各チャネルに該当する信号に関する情報が何であるかがわかる。オブジェクトベースのオーディオ符号化でも、上記の方法のようにオブジェクト信号がN個ある場合、該当のオブジェクト信号を表示するために1番からN番までの番号を割り当てる方法を用いることができる。しかし、オブジェクトベースのオーディオ符号化では、該当のオブジェクト信号をオブジェクトデコーダ上で使用者が制御する場合が発生するが、この場合、使用者はオブジェクト信号のナンバリングだけでなく、該当番号に該当するオブジェクト信号がどのオブジェクト信号かに関する説明も必要である。例えば、1番オブジェクト信号は女性ボーカルに該当し、2番オブジェクト信号はピアノに該当するなどという情報が必要であるが、これに関する情報もビットストリームのヘッダにメタデータなどとして含まれて伝達されうる。このためには、オブジェクト信号に関する説明をテキストのようなフォーマットで自由に表示できる方法を用いたり、コードテーブルのような方法を用いてあらかじめ定められたオブジェクト信号区分方法によるコードワードを使って表現しても良い。
【0113】
また、オブジェクト信号間の相関情報が必要な場合もあるが、この場合にも、相関値は、エネルギーの最も大きいオブジェクト信号を基準にしてその他のオブジェクト信号に対する相関値を表現する方法を用いることができる。この時、マルチチャネルコーデックで全てのOTTボックスに一つのICC値を使用したのと同様に、全てのオブジェクト信号に一つの相関値を指定することも可能である。
【0114】
ステレオオブジェクト信号の場合、ステレオチャネルで表現されるオブジェクト信号の左、右信号に対するエネルギー比率、相関情報などが必要である。ステレオオブジェクト信号の左、右エネルギーに対する比率は、前述した各チャネルの特定パラメータバンドで最も大きいエネルギーを持つオブジェクト信号に対する残りのオブジェクト信号の比率、そして最も大きいエネルギーを持つオブジェクト信号の絶対的エネルギー値に関する情報から得ることができる。例えば、特定パラメータバンドで各チャネルで最も大きいエネルギーを持つオブジェクト信号のエネルギー絶対値をそれぞれA、Bとし、これに比例したステレオオブジェクトの相対的エネルギー比率に関する情報をそれぞれx、yとすれば、ステレオオブジェクト信号の左、右チャネルに含まれたエネルギーの値はA*x、B*yとして求められる。したがって、この値を使用すると、ステレオオブジェクト信号の左右チャネル間のエネルギー比率が計算できる。
【0115】
上の情報は、オブジェクト信号はモノであるが、ダウンミックス信号がステレオであり、このステレオダウンミックス信号にモノオブジェクト信号がステレオダウンミックスチャネル両側に全て含まれて転送される場合にも使われうる。この場合、モノオブジェクト信号がステレオダウンミックス信号の両チャネルに含まれたエネルギーの比に関する情報、相関に関する情報が必要であり、これはステレオオブジェクトに必要な情報と同一である。モノオブジェクトをステレオダウンミックス信号の両チャネルに含める場合、多くの場合において相関値が1の信号、すなわち、L、R両側にレベルの差のみが存在する信号が含まれる。この場合、両信号間の相関は、パラメータ全域にわたって1である場合が存在する。このような場合、データ量を減らすため、該当の相関はパラメータ全域がいずれも1であることを表示する情報を用いて追加的な情報を減らすことができる。このような情報を使用する場合、パラメータバンド全体に対して相関値が1であることを毎パラメータバンドごとに表示せずに、全体パラメータに該当する相関値を一つの値で表示すれば良い。
【0116】
また、複数のオブジェクト信号を一つのダウンミックス信号に結合すべくオブジェクト信号を加える場合、クリッピングが発生する場合がある。これを防止するため、ダウンミックス信号に特定値を乗じ、ダウンミックス信号の最大値がクリッピング限界を超えないようにするゲイン値が必要である。このゲイン値は、時間によって変わりうる。したがって、この場合、各ダウンミックスチャネルに乗じられるゲイン値に関する情報が必要である。ダウンミックス信号がステレオダウンミックスである場合、このようなクリッピング防止のためのゲイン値は、L、Rそれぞれ独立して存在することとなる。これらの値はそれぞれを独立的に表示して転送することができる。転送されるデータ量を減らすべくゲイン値をそれぞれ独立して転送せずに、ゲイン値の和と比に変形して転送しても良い。このように転送する場合、ゲイン値を別に転送する時よりもダイナミックレンジを減らすことができ、データ転送量を低減させることができる。
【0117】
また、追加的にデータ転送量を減らす目的で、オブジェクト信号を一つのダウンミックス信号にする時、クリッピングが起きたか否かを表示するビットを備え、該当のビットが、クリッピングがおきたことを知らせる時にのみゲイン値を転送し、該当のビットが、クリッピングがおきていないことを知らせる場合にはゲイン値に関する情報を転送しない方法を使用することも可能である。このようなクリッピングに関する情報は、複数のビットストリームを結合する場合においてダウンミックス信号を結合する場合にもクリッピング防止のために必要である。この時、複数のダウンミックス信号が結合される場合にクリッピング防止のためのゲイン値の逆数だけがダウンミックス信号の和に乗算される。
【0118】
図13〜図16は、オブジェクトベースのオブジェクト情報を構成する多様な方法を説明するための図である。これは、特定オブジェクトの信号がモノ、ステレオだけでなく、マルチチャネルである場合にも適用可能である。
【0119】
図13は、マルチチャネルオブジェクト信号を、オブジェクトエンコーダ221を通じてダウンミックス信号とオブジェクト情報を生成した後、ダウンミックス信号は他のオブジェクト信号と共に再びオブジェクトエンコーダ223を経由するように構成されている。マックス225はオブジェクトデコーダ221,223で生成したオブジェクト情報を併合する作業を行う。
【0120】
図14は、MCUで複数のビットストリームを結合する方法と同様にして、マルチチャネルオブジェクト信号で一つのビットストリームを生成し、残りのオブジェクト信号を用いてビットストリームを生成した後、これらを再び一つの結合されたビットストリームとして生成する形態を示している。
【0121】
図15は、マルチチャネルオブジェクトをまず、マルチチャネルエンコーダ241でダウンミックス信号とチャネルベースの付加情報として生成する。マルチチャネルエンコーダ241から出力されたダウンミックス信号は、残りのオブジェクト信号が入力として入るオブジェクトエンコーダ243に一つの独立したオブジェクト信号のように入力される。オブジェクトエンコーダ243ではこのダウンミックス信号と残りのオブジェクト信号を用いてオブジェクトビットストリームを生成する。マックス245では、マルチチャネルエンコーダ241から出力されるチャネルベースの付加情報とオブジェクトエンコーダ243から出力されるオブジェクト情報を結合して出力する。
【0122】
図16は、マルチチャネルオブジェクトをマルチチャネルエンコーダ253に通過させ、残りのオブジェクト信号はオブジェクトエンコーダ251を通過させた後、これら両ダウンミックス信号を再びオブジェクトエンコーダ255に通過させる構造を示している。ここで、マックス257は、二つのオブジェクトエンコーダ251,255で生成されたオブジェクト情報とマルチチャネルエンコーダ253で生成されたチャネルベースの付加情報とを結合させる。
【0123】
次いで、テレコンファレンスなどでオブジェクトベースのオーディオ符号化が用いられる場合、一つのオブジェクトビットストリームともう一つのオブジェクトビットストリームとが結合され、結合されたビットストリームを生成しなければならない場合について説明する。
【0124】
図17は、二つのオブジェクトビットストリームが結合される場合を示している。図17を参照すると、二つのオブジェクトビットストリームが一つのオブジェクトビットストリームに結合される場合、それぞれのオブジェクトビットストリーム中のOTTボックスに該当するCLD、ICC等の情報を修正する必要がない。ただし、二つのオブジェクトビットストリームに属する二つのダウンミックス信号をダウンミックスする過程で追加のOTTボックスが1つ使われ、かつ、この追加されたOTTボックスによりCLD、ICC情報が追加される。
【0125】
この場合、既存のそれぞれのオブジェクトビットストリームでツリー構成情報を表現する部分が、2つのビットストリームが結合されながら、統合されたツリー構成情報に変換されなければならない。結局、2オブジェクトビットストリームが結合されながら追加的な構成情報に対する修正と、各ボックスに対するインデクシングなどの修正と、追加されるOTTボックスでの情報計算、2つのダウンミックス信号の再ダウンミックス等の追加作業が必要となるだけで、既存のオブジェクトビットストリームに含まれたオブジェクト信号に関する情報自体を修正する必要はない。これにより、2つのビットストリームを一つのビットストリームに結合する簡単な方法を提供する。
【0126】
また、図17で、2つのダウンミックス信号を再びダウンミックスせずに2チャネルダウンミックス信号として持つ場合、すなわち、図17で、OTTボックス11を省く場合、追加的なOTTボックスに対する計算無しで2つのビットストリームを結合することができる。
【0127】
図18は、ダウンミックス信号がステレオである場合、独立したオブジェクトビットストリーム間の結合を示す図である。図18を参照すると、2つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、それぞれのオブジェクトビットストリームで使われたパラメータバンドの個数が互いに異なる場合が発生しうる。この場合、統合されたパラメータバンドの個数に統合することが必要である。一般的には、2つのオブジェクトビットストリームのうちパラメータバンドの個数が少ない側を、パラメータバンドの個数が多い側に合わせてマッピングする。
【0128】
マッピングする方法は、各パラメータバンド間のマッピングに対するテーブルを持っており、これによってマッピングを行うことが一般的である。この場合、パラメータバンド拡張によるマッピング方法は簡単な線形的数式によって行うことができる。
【0129】
マッピング時に複数のバンドが重なる区間では、重なった区間だけの割合でパラメータ値を混ぜる方法を用いることとなる。低複雑度が優先される場合、パラメータバンドの統合は、2つのオブジェクトビットストリームのうち、パラメータバンドの個数が多い側をパラメータバンドの個数が少ない側に合わせてマッピングする場合も可能である。この場合にも、パラメータのマッピングは、上記の場合と同じ方法で行う。
【0130】
前述した2つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、既存のオブジェクトビットストリームがそれぞれ持っているパラメータを再計算することなく結合可能である。しかし、ダウンミックス信号を結合する場合、このダウンミックス信号に関するパラメータを再びQMF/ハイブリッド分析を通じて計算する必要がある。このようなダウンミックス信号に関するパラメータの計算に必要な計算量が相対的に大きく、このため、オブジェクトビットストリームを統合する時に再計算が必要でないという長所がやや薄れてしまう。既存のオブジェクトビットストリーム間の統合の場合にも再計算無しで統合可能なので、ダウンミックス信号間の再ダウンミックス時にもQMF/ハイブリッド分析/合成過程を行わずにパラメータを抽出できる方法が必要である。このような過程は、オブジェクトビットストリーム上にあらかじめ各ダウンミックス信号のパラメータバンド別エネルギーに関する情報を含めておく方法で解決可能である。この場合、ダウンミックス信号の再ダウンミックス時にパラメータ計算に必要なQMF/ハイブリッド分析/合成過程無しで、オブジェクトビットストリーム上に含まれているパラメータバンド別エネルギー情報から簡単にCLDのような値を計算することができる。このようなエネルギー情報は、該当のパラメータの全体エネルギー値を表示しても良く、前述したように該当のパラメータで最も大きいエネルギーを持つオブジェクトのエネルギー絶対値を表示しても良い。ICCのような情報の場合、ダウンミックス信号の時間ドメイン上で求められるICC値を全体パラメータに使用する簡単化した方法を使用しても良く、パラメータバンド数よりも少ないバンドで簡単な分析過程を経た後、それに対してICC値を求める方法も可能である。
【0131】
このような場合、複数のダウンミックス信号を再ダウンミックスする過程で信号のクリッピングがおきる可能性がある。したがって、ダウンミックス信号のレベルを減少させて再ダウンミックス時にクリッピングがおきないようにする過程が必要である。このようなクリッピング防止のために信号のレベルを減少させる場合において、該当のレベル調整に関する情報がオブジェクトビットストリームに必要となる。このようなレベル調整に関する情報は、フレーム別に適用可能であり、クリッピングがおきるフレームに対してのみ該当のレベル調整情報を持っており、デコーディング時にこれを逆に適用すると元来の信号のエネルギーレベルを求めることができる。このようなクリッピング防止のための情報を計算する過程は時間ドメイン上で可能なので、QMF/ハイブリッド合成/分析を行わなくても良い。
【0132】
複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合することは、図12のような構造でも可能である。これを図19に示す。
【0133】
図19は、Box1(261)を通じて生成された独立した第1オブジェクトビットストリーム1と、Box2(263)を通じて生成されたオブジェクトビットストリーム2とを、Box3(265)を通じて結合された一つのオブジェクトビットストリーム3として生成する場合を示している。この場合、ビットストリーム1とビットストリーム2に含まれた情報が、前述した特定パラメータバンド内の最も大きいエネルギーを持つオブジェクト信号のエネルギー絶対値と、これと比較した残りのオブジェクト信号の相対的エネルギー比率、Box1(261)とBox2(263)におけるダウンミックス信号に乗算されたゲイン値に関する情報などである場合、Box3(265)では追加的なオブジェクトパラメータを計算したり抽出する過程無しで入力として入る複数のオブジェクトビットストリームを単純に併合する過程のみが必要となる。
【0134】
また、Box3(265)に入力として入る複数のダウンミックス信号はPCM信号に変換した後、単純に加算して一つのダウンミックス信号とする過程のみが必要である。この時、Box3(265)に入力される複数のダウンミックス信号を一つのダウンミックスとして結合する過程でクリッピングがおきる場合がある。したがって、クリッピングを防止するためには追加的にダウンミックス信号にゲイン値を乗じる過程が必要である。この場合、ゲイン値は併合されたオブジェクトパラメータに含まれて転送される。
【0135】
複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合する場合についてより詳細に説明すると、下記の通りである。図19の例を挙げると、SIDE INFO Aの特定パラメータには最も大きいエネルギーを持つオブジェクト信号に関する情報とそのエネルギーの大きさの値、この値と比較した他のオブジェクト信号のエネルギー比に関する値などが含まれており、SIDE INFO Bにも同じ種類の情報が含まれている。この場合、2つのビットストリームを結合して一つのビットストリームとして構成する方法には、下記のような方法が適用可能である。
【0136】
第一の方法は、2つのビットストリームを追加的な計算によって統合せずに、単純に一つのビットストリーム内に並列式に配置することである。この場合、図20に示すように、デコーダでは、転送されてきたビットストリーム内に複数のビットストリームが並列式に存在していることを知らせるビット情報に基づいて当該ビットストリームを分析することとなる。
【0137】
図20に示すように、一つに結合されたビットストリームを表示する場合、MCUのように複数のオブジェクトビットストリームを一つのビットストリームに併合する所では単純に複数個のビットストリームが存在するという情報、いくつのビットストリームが結合されたかに関する情報、及び併合される前のビットストリームの位置を区分するビット情報以降に、併合される前の別個のビットストリームを単純に配置すればよい。この場合、デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが結合されたものかは情報分析によってわかる。この場合、複数のビットストリームを併合するにおいて単純な識別子に該当する情報を加える作業以外には他の付加的な作業をする必要がないという長所がある。しかし、これに関する情報を一定のフレームごとにヘッダに含めなければならないという負担が存在し、デコーダでは毎度転送されてきたビットストリームが最初から一つに生成されたビットストリームなのか、複数個のビットストリームが併合されたビットストリームなのかを判断しなければならない。
【0138】
上の方法の代案としては、デコーダが複数のビットストリームが一つのビットストリームに併合されたものかが確認できないように若干の計算を通じてビットストリームを併合する方法がある。この場合を図21に示す。
【0139】
図21を参照すると、A、Bの最も大きいオブジェクト信号のエネルギーの大きさを比較した後、そのうちより大きいオブジェクト信号を併合されたストリームでエネルギーの最も大きいオブジェクト信号と定める。このオブジェクト信号が含まれていたビットストリームに含まれたオブジェクト信号のエネルギー比はそのまま使用し、他のビットストリームに含まれたオブジェクト信号のエネルギーはA、Bの最も大きいエネルギーの比だけを乗じて再び計算をする。この場合、パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号間のエネルギーの大きさの比を再び計算しなければならないが、複雑度はあまり高くない。デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが併合されたビットストリームなのか否かが確認できないので、一般的な方法を使用してデコーディングできるという長所がある。
【0140】
もし、ダウンミックス信号がステレオである場合にも2つのオブジェクトビットストリームの結合は、モノダウンミックス信号のオブジェクトビットストリームの結合におけると類似の方式で可能であり、このような結合は、既存にそれぞれのオブジェクトビットストリームが持っていたオブジェクト信号に関する情報を再び計算せずに使用することができるという点から、簡単な結合方法であることがわかる。このようにオブジェクトビットストリームの構造は、最初にオブジェクト信号をダウンミックスするツリー構造に関する情報が置かれた後、各ツリーの枝に該当するボックスから得られたオブジェクト信号の情報が続く形態で構成されうる。
【0141】
以上のオブジェクトビットストリームでは、特定オブジェクト信号1つがダウンミックスチャネルのたった一箇所に存在する場合について説明した。すなわち、ダウンミックス信号がステレオである場合であり、特定オブジェクトの信号がステレオダウンミックス信号の両側に存在する場合についての説明がさらに必要である。このような場合は主として、オブジェクトオーディオ符号化の下位互換性に対する条件でダウンミックス信号のみを既存のステレオ再生機で再生する場合を考慮することによって発生する。すなわち、一般的なステレオ信号の場合、一つのオブジェクト信号が一方のチャネルにのみ存在するのではなく両チャネルに存在する場合が大部分である。この場合、該当するダウンミックス信号を生成するときにおいてオブジェクトビットストリームを生成する方法は、下記の通りである。
【0142】
図22は、複数のオブジェクト信号をミキシングしてステレオダウンミックス信号を生成する方法を説明するための図である。図22には、4個のオブジェクト信号がミキシングされて、L、Rのステレオ信号としてダウンミックスされる過程が示されている。
【0143】
このような場合、特定オブジェクト信号がダウンミックスチャネルのL、R両側に含まれていることがわかる。特定オブジェクト信号がL、R両側チャネルに分配される過程は、次の通りである。図22で、オブジェクト1信号は、LとRにa:bの割合で分配して入力されている。これを数式にすると、下記の通りである。
【0144】
【数3】
【0145】
上記のような式から、各オブジェクト信号がL、Rに分配された比率がわかると、特定オブジェクト信号がL、R両方に含まれた場合にも、L、Rにオブジェクト信号がどんな割合で含まれているかがわかる。すなわち、オブジェクト信号がステレオダウンミックスチャネルの両側に含まれた場合、これに対する比、すなわち、上の式でa、b値に関する情報が追加的に必要である。以降、L、Rの各チャネルにOTTボックスによるダウンミックスを通じてCLD、ICC等のオブジェクトに関する情報を計算することは、図23に示されている。
【0146】
図23に示すように、ダウンミックスを進行しながら各OTTボックスで得られたCLD、ICC情報と、前述したL、Rに分配されたオブジェクト信号の分配比率に関する情報を持っていると、以降最終使用者がオブジェクト位置、プレイバック構成情報を変化させる場合にこれに対して適応的に変化されるマルチチャネルビットストリームを計算することができる。また、ダウンミックス前処理過程でステレオダウンミックス信号に変形を加えなければならない場合、その変形情報を求めて前処理部に伝達することも可能である。言い換えると、オブジェクト信号の分配比率、すなわち、上記の式3におけるa、bの値がない場合、ステレオオブジェクト信号の場合、マルチチャネルビットストリームを計算する方法や、ダウンミックス前処理部で処理しなければならない情報を求める方法がない。上記のa、bの比率を表現する方法は、a、bのそれぞれの値に対して表現する方法と、aとbの比率を一つのdB値で表現する方法などが可能である。
【0147】
上述した場合、すなわち、オブジェクト信号がステレオダウンミックス信号の全てに含まれている場合には、該当の信号のチャネル間の分配比率に関する情報が必要である。この時、この情報は、前述したように該当のオブジェクト信号の単純なチャネル間のレベルの比率であっても良いが、より複雑な場合、周波数バンド別にその比率が異なって適用されうる。この場合には前述した比率a、bに関する情報が周波数バンド別にそれぞれ与えられなければならない。また、このような情報が後で適用される場合においても該当のオブジェクト信号のチャネル間の情報を使用する場合、各パラメータバンド別に与えられた比率情報を使用しなければならない。また、より複雑なダウンミックス過程を経た場合、すなわち、一つのオブジェクト信号がダウンミックスされたチャネル両側に含まれ、バンド別にICC値に変化を与えてダウンミックスされた場合、これに関する情報も追加的に必要である。これは、最終的にレンダリングされたオブジェクト出力信号をデコーディングする過程で必須となる。また、このような方法は、前述したオブジェクトの全ての可能な構造に適用可能である。
【0148】
次に、前処理過程について、図24〜図27を参照して詳細に説明する。オブジェクトデコーダに入力されるダウンミックス信号がステレオ信号である場合、このダウンミックス信号はオブジェクトデコーダ内のマルチチャネルデコーダの入力として入る前に前処理過程を経なければならない。その理由は、前述したように、マルチチャネルデコーダは、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程で、ダウンミックス信号の左チャネルに位置した信号をマルチチャネルの右側チャネルにマッピングすることができないためである。したがって、最終使用者がステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更させようとする場合、ステレオダウンミックスチャネルに対して前処理過程を行ってからマルチチャネルデコーダに入力させなければならない。
【0149】
このようなステレオダウンミックス信号の前処理過程は、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求めた後、この情報を用いてステレオ信号に適切な処理をすることで完了する。ここでは、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求め、これをステレオダウンミックス信号に適用する方法について説明する。
【0150】
図24は、オブジェクト1〜4の総4個のオブジェクト信号がステレオダウンミックスとして構成される過程を示している。図24を参照すると、オブジェクト1信号とオブジェクト2信号の場合、それぞれa:b、c:dの割合で分割されてL、Rチャネルに含まれており、オブジェクト3信号はLチャネルにのみ、オブジェクト4はRチャネルにのみ含まれている。これらのオブジェクト信号のそれぞれはOTTボックスを経由しながらCLD、ICC等の情報を生成し、ダウンミックス信号となる。
【0151】
このような場合、最終使用者がオブジェクト信号の位置とレベル調整値を設定し、上記の式1のような形式のレンダリングマトリクスを得たとする。ここでは最終再生チャネルが5チャネルである場合を挙げると、そのレンダリングマトリクスの例は、下記の式4で示される。
【0152】
【数4】
【0153】
上記の式4で表現したレンダリングマトリクスを、上記のレンダリングマトリクスの説明方法によって説明すると、次の通りである。一応、レンダリングマトリクスの値は整数値を使用するフォーマットで表現され、各行の5列の和は100になる時に該当のオブジェクト信号のレベル変化がないと仮定した。また、この和が1増えたり減ったりする度に該当のオブジェクト信号のレベルが1dBずつ増減することを表現することとし、5列の順序が表すチャネルの位置はFL、FR、C、RL、RRとする。
【0154】
オブジェクト1信号の場合について説明すると、レンダリングマトリクスで表現されるオブジェクト1信号のチャネル間の分布は[30 10 20 30 10]で表現される。これら係数の和が100であるので、オブジェクト1信号は、レベル変化はなく、単に空間上の位置のみ変化されることがわかる。これを左側と右側の2方向に分けると、Left=30+30+20*0.5=70、Right=10+10+20*0.5=30で表現される。すなわち、レンダリングマトリクスは、オブジェクト1信号に対してレベルは変化せずに、左側に70%、右側に30%分布させるという情報を知らせる。和が100より小さいか大きい場合、これはオブジェクト信号レベルの変化を意味し、これはダウンミックス信号の前処理過程で処理しても良く、チャネルベースの付加情報にADG形態に変換して転送しても良い。
【0155】
ダウンミックス信号の前処理を行うためには、ダウンミックス信号をQMF/ハイブリッド変換を経た信号に、各OTTボックスでパラメータを抽出する時のパラメータバンド別に信号の分布比を計算した後、これをレンダリングマトリクスの設定に合うように再分布させなければならない。このような再分布方法には様々な方法がある。
【0156】
第一の再分布方法は、左側、右側の各チャネル別にOTTボックスのCLD、ICCなどを用いて左側、右側の信号のそれぞれに対して、マルチチャネルコーデックでOTTボックスを含む場合に各信号をデコーディングするのと同様にして各オブジェクト信号をデコーディングする。このように左側、右側の信号のそれぞれに対してデコーディングを行うと、各信号に含まれていたオブジェクト信号を求めることができる。この時、計算量を減らすべくICCは用いずに、CLDのみを用いてデコーディングをすることができる。特定オブジェクト信号が左側、右側の両側に含まれている場合、該当のオブジェクト信号が左側、右側にどんな割合で含まれているかは、前述したように、該当の情報からわかる。
【0157】
このようにして求められた信号を、レンダリングマトリクスから分かる左側、右側の信号比率に合うように、レンダリングマトリクスの比率よりも多く含まれている側の信号からその分だけを引いた後、これを他の側のチャネルオブジェクト信号に加える作業を行うことで、各オブジェクト信号の分配が完了する。このように分配が完了した信号を再びOTTボックスなどを通じて各チャネル別にダウンミックスをすることで、ダウンミックス前処理過程が完了する。直前のチャネル別オブジェクト信号のダウンミックスを通じてOTTボックスのCLD、ICCなどは再計算される。このような方法はマルチチャネルデコーディングで使用した方法を再使用可能であるという長所はあるが、各チャネルに対してオブジェクト信号数だけの信号をデコーディングし、これを再分配した後にチャネル別にダウンミックス過程を行わなければならない。
【0158】
第2の再分布方法は、左側、右側チャネルのそれぞれの信号において全てのオブジェクト信号をそれぞれデコーディングせずに、一度で左側のダウンミックス信号のうち右側のダウンミックス信号側に移されなければならない部分、右側のダウンミックス信号のうち左側のダウンミックス信号側に移されなければならない部分を構成する方法が可能である。これを簡単に表示すると、図25のようになる。図25では、図24のようにダウンミックスされた信号の例でダウンミックス前処理する状況を仮定した。
【0159】
同図において、L信号において左側に残るようになる信号L_Lと右側に加えられなければならない信号L_Rを求める方法は次の通りであり、これは、R信号においてR_LとR_R信号を求める方法にも同様に適用される。まず、L、R信号においてオブジェクト信号がどのような比率となっているかを知らなければならない。これは、上記の式2におけるa、b値に該当するものである。式2では、オブジェクト1信号がLとRにa:bの割合で分配されていることが示されている。ここにレンダリングマトリクスから求められるL’とR’におけるオブジェクト1に対する比率を求めることができる。式3の例では、この比率が7:3として得られることがわかる。ここで、これら2つの情報、すなわち、オブジェクト1信号のL、Rの比率a:bとL’、R’の比率7:3とを比較すると、オブジェクト1信号がL、RからL’、R’の割合に変わるためにはL、R信号のいずれかからどれほどの比率を抽出して残りの一方に加えられるべきかに関する値を得ることができる。
【0160】
このような方法を用いると、オブジェクト2、3、4信号に対してもそれぞれ、L、R信号のどちらの成分をどれほど抽出して残りの他方に加えるべきかに関する情報を求めることができる。これは、図25でLから抽出されてR’側に加えるL_Rと、Rから抽出されてL’側に加えられるR_Lに対する比率に関する情報を計算したことに該当する。この情報と一緒にL、R各チャネルのOTTボックスのCLD、ICC情報を用いると、各パラメータバンド別にどんな割合でLの信号をL_Lの信号とL_Rの信号とに分割する場合にオブジェクト1、2、3、4信号に対して所望の比率のままに分割された信号が得られるかに対する最終比率値を求めることができる。
【0161】
以上ではLをL_LとL_Rとに分ける時にエネルギーの比率をどのように分割するかについて説明した。ここに加えて、L_LとL_R間のICC値も決定しなければならない。これもまた、パラメータバンド別にL信号に対するOTTボックスのICC情報から求めることができる。すなわち、既存OTTボックスでオブジェクト間のICC値がわかるので、L_LとL_Rでオブジェクト間の比率を通じて最終ICC値を求めることが可能になる。これにより、LをL_L、L_R信号に、またRをR_L、R_R信号に分けた後、この信号に対してL_LとR_L、L_RとR_Rを合算し、最終的にダウンミックス前処理が完了したL’とR’得ることができる。
【0162】
上記した第2の方法について具体的な数字を挙げて説明すると、次の通りである。まず、ダウンミックス信号であるLとRは、図24のような過程によって得られるとしよう。また、オブジェクト1信号は、L、Rに1:2の割合で含まれており、オブジェクト2信号は2:3の割合で含まれているとする。また、オブジェクト3信号はLにのみ含まれていて1:0の割合で表現でき、同様にオブジェクト4信号はRにのみ含まれていて0:1の割合で表現できるとする。図25からわかるように、各チャネルでオブジェクト信号がOTTボックスを経てダウンミックスされ、CLD、ICCなどの情報を得ることとなる。
【0163】
レンダリングマトリクスの例は式4に示した。これは、上記の式3で用いた例と同一である。該当のレンダリングマトリクスには最終使用者が設定したオブジェクト信号の位置nに関する情報が入っており、また、これを通じてダウンミックス前処理過程で得られるL’、R’に関する情報を求めることができる。レンダリングマトリクスの構成とこれを解析する方法については、上記の式3で説明した通りである。
【0164】
レンダリングマトリクスを通じて得られる、オブジェクト1〜4信号のL’、R’に分布される比率は、下記の式5のように計算される。
【0165】
【数5】
【0166】
L、R信号に分布されていたオブジェクト1〜4信号の比率は前述した通りであり、下記の式6で表現される。
【0167】
【数6】
【0168】
上記の式5で、オブジェクト3のL’、R'比率の和は110、オブジェクト4のL’、R’比率の和は95であり、これは、オブジェクト3は25だけのレベルが大きくなるということを、オブジェクト4は5だけのレベルが小さくなるということを意味する。このL’、R’比率の和が100であるとレベルの変化が無いことを意味し、1増加したり減少することが該当のオブジェクトのレベルが1dB増加または減少するということを意味する場合、オブジェクト3信号は、10dBレベル増加したことを、オブジェクト4信号は5dBレベル減少したことを意味することとなる。
【0169】
上記の式5及び6に表現したオブジェクト1〜4信号に対するL、Rでの比率とレンダリングマトリクスを経た後に得られるL’、R’での比率とを比較しやくするため、比率の和が100となるように再び表現すると、下記の式7のようになる。
【0170】
【数7】
【0171】
上記の式7から、ダウンミックス前処理前後に各オブジェクトが左側、右側にどんな分布とされているか、このような結果を得るためにダウンミックス信号の左側、右側信号においてどのオブジェクト信号がどちらにどれだけ再分配されるべきかが容易にわかる。例えば、オブジェクト2信号の場合、40:60から30:70へと比率が変わったが、これはダウンミックス前処理を通じてL側のオブジェクト2信号の成分40から10がR側へと移動しなければならないということを意味する。これは、Lに含まれているオブジェクト2の成分の25%(10/40*100)がR側に移動しなければならないということを意味する。これについて再び整理すると、下記の式8の通りである。
【0172】
【数8】
【0173】
式8を参照して図25のL_L、L_R、R_L、R_Rを表現すると、下記の式9のようになる。L信号に対して特定パラメタでオブジェクト1〜3信号が占める比をLに対して示すと、下記の式9のようになる。式の複雑度を減らすためにパラメータ表示はしない。
【0174】
【数9】
【0175】
上記の式9で、各オブジェクト信号の値をOTTボックスのCLDを用いてL、Rに対する比で表現すると、下記の式10のようになる。ちなみに、下記の式10の値は、パラメータバンド別に表現されなければならないが、式の複雑性を避けるためにパラメータ表示はしないものとする。ここで、CLDは離脱量子化された値を意味するとする。
【0176】
【数10】
【0177】
図25で、各パーシング部で用いられるCLDは、下記の式11で求められ、式10に代入すると具体的な値が得られる。
【0178】
【数11】
【0179】
このような方式で、図25においてLからL_L、L_R信号を生成するパーシング部に用いられるCLDとICCを求めることができ、同様に、RからR_L、R_R信号を生成するためのCLDとICCを求めることができる。これを用いて各信号を生成した後、同図のように、L_LとR_Lとを合算し、L_RとR_Rと合算することで、ダウンミックス前処理されたステレオ信号が得られる。最終再生チャネルがステレオである場合には、ダウンミックス前処理が完了したL’、R’信号を出力として用いることができる。この場合、特定オブジェクト信号のレベルが増加または減少した場合に対してはまだ処理されていないので、この処理ができるモジュールを選択的に追加することができる。該モジュールの機能は、マルチチャネルデコーディングでADGが行う処理過程と同一である。また、追加的にこのようなオブジェクト信号のレベル処理を、前述したダウンミックス前処理過程内に追加することも可能である。この場合にも、レベル処理方法はADG処理方法と同一である。
【0180】
図25は、図26のような方法で表現しても良い。図26では、図25とは違い、リミックスされた出力L’、R’信号の相関値を合わせるためのデコリレーション作業が第1及び第2パーシング部で行われずに、L’あるいはR’信号の出力に適用されている。Pre_L’とPre_R’の信号はL、R間のエネルギーレベル差が補正された信号を意味する。このうちいずれか一方の信号にデコリレータを適用した後、ミキシング過程を通じて相関値に該当する信号を生成する。
【0181】
前述したダウンミックス前処理を経たステレオ信号は、マルチチャネルデコーダに入力される。最終使用者が設定したオブジェクト位置とプレイバック構成に合うマルチチャネル出力を生成するためには、ダウンミックス前処理の出力信号と共にマルチチャネルデコーディングのためのチャネルベースの付加情報が必要である。このようなチャネルベースの付加情報を求める方法を、上記の例について説明すると、次の通りである。ダウンミックス前処理を経て出力された信号L’、R’がマルチチャネルデコーダの入力信号として入力されるので、この信号に対して式5を参照して再び整理すると、下記の式12のようになる。
【0182】
【数12】
【0183】
また、上記の式2のレンダリングマトリクスで各チャネルに対するオブジェクト信号の分布を式で表示すると、下記の式13のようになり、L’、R’が5.1チャネルに拡張される構造は、図27に示す。
【0184】
【数13】
【0185】
図27で、各TTTボックスとOTTボックスのパラメータを計算しなければならない。この場合にも、パラメータの計算はパラメータバンド別に行われる。以降の式においてもパラメータバンドの表示がされていなければならないが、式の簡単化のためにパラメータバンド表示は省略する。TTT、OTTボックスのパラメータ計算式は、パラメータバンド単位に行われることに留意されたい。
【0186】
図27で、TTTボックスはエネルギーベースモードと予測モードの2種類のモードに使われうる。エネルギーベースモードで動作する場合には2個のCLDが必要であり、予測モードに使われる場合には2個のCPCと1個のICCが必要である。
【0187】
エネルギーベースモードの場合、CLDを求めるためには、図27でL"、R"、Cのエネルギー比率を知らなければならない。これは、式6、10、13を通じて求めることができる。L"のエネルギーを求める方法は式14に示されており、R"、Cに対しても同一式を適用すれば良い。
【0188】
【数14】
【0189】
上記の式14と同一の方法でR"、Cに対してもエネルギーを求めることができる。このようにして求めたL"、R"、Cのエネルギーを用いてエネルギーベースモードにおけるTTTボックスに使われるCLD値を求めることができ、これは、式15で示される。
【0190】
【数15】
【0191】
上記の式14では式10における値が使われた。この時、オブジェクト1、2の各信号に対して代入された値は、式10で左チャネルに対する値が使われた。これと同じ方法で、式10で右チャネルに対する値を代入して計算することもできる。これから推論できる点は、図26で右チャネルのOTT3、OTT4のCLD、ICCの値をOTT1、OTT2のCLD、ICC値から計算できるという事実である。これは全てのオブジェクト信号のツリー構造に適用可能なわけではなく、特殊なケースに該当する。この場合、オブジェクトビットストリームに含まれて転送されてくる情報をOTTボックスのそれぞれに転送しても良く、一部のOTTボックスにのみ転送した後、転送しなかったボックスに関する情報は計算を通じて得ても良いということを意味する。
【0192】
上記と類似の方式として、OTTボックスA、B、Cに対してもCLD、ICCパラメータを計算することができ、計算されたマルチチャネルパラメータをマルチチャネルデコーダの入力として伝達し、マルチチャネルデコーディングを行うと、最終ユーザーの所望するオブジェクト位置とプレイバック構成に合うようにレンダリングが完了したマルチチャネル信号が得られる。
【0193】
上記のマルチチャネルパラメータには、オブジェクト信号レベルに変化がある場合、該当のレベルがダウンミックス前処理で調整されなかったとき、マルチチャネルパラメータにADG形態で含まれて転送され、マルチチャネルデコーディング過程上でオブジェクト信号のレベルを修正する。上記の例においてレベル補正がダウンミックス前処理過程で調整されなかった場合にADG値を計算する方法は、下記の通りである。
【0194】
上記の例で、オブジェクト信号のレベル調整は、レンダリングマトリクスによってオブジェクト3信号に対して10dB大きくなり、オブジェクト4信号に対して5dB小さくなるように設定された。これはADGが適用されるL’、R’信号に対しては、L’信号でオブジェクト3信号が5dB大きくなり、オブジェクト4信号に対して2.5dB小さくなるように設定され、L’信号でオブジェクト3が5dB大きくなり、オブジェクト4に対して2.5dB小さくなるように設定された。L’信号でオブジェクト3、4のレベル調整がなされる以前と以降の比率を計算すると、下記の式16のようになる。
【0195】
【数16】
【0196】
この式16に上記の式10の値を代入することによって値を求めることができる。R信号に対しても同じ方法でADG適用前後のエネルギーの比を求めることができる。このようにして求められた値は、オブジェクト信号のレベル調整前後における該当のパラメータバンドのエネルギー変化の比率であるから、これを通じてADG値を求めることができる。ADG値は、次の式17で求められる。
【0197】
【数17】
【0198】
このようにして求められたADG値は、マルチチャネルデコーディングのADG量子化テーブルによって量子化されて転送される。また、マルチチャネルデコーディングのADGテーブルを使用する場合よりもさらに精密な調整が必要な場合、該当の情報をADGの形態で転送し、マルチチャネルデコーダに適用せずにダウンミックス前処理部で行うことも可能である。
【0199】
一方、オブジェクトビットストリームでオブジェクト信号を表現する時に使用したパラメータバンドと、マルチチャネルデコーダで使われるパラメータバンドの個数及びバンド間の間隔が異なる場合がありうる。この場合、オブジェクトのパラメータバンドからマルチチャネルデコーダのパラメータバンドにマッピングする方法が必要である。このとき、線形的なマッピング方法を使用する。線形的なマッピングとは、例えばオブジェクトの特定パラメータバンドの領域がマルチチャネルデコーダの特定パラメータバンドの2箇所にわたっている場合、2箇所に含まれている領域の比率でオブジェクトのパラメータを分割して適用することを意味する。これは、オブジェクトの複数のパラメータバンドがマルチチャネルデコーディングの特定パラメータの1箇所に含まれた場合、これらオブジェクトパラメータの平均値を適用することを意味する。また、既にマルチチャネル標準に含まれているバンド間のマッピングテーブルを使用しても良い。
【0200】
テレコンファレンスの場合においてオブジェクトコーディングを使用する状況を取り上げると、オブジェクト信号には多数の話し手の音声が該当し、オブジェクトデコーダではこれらのオブジェクト信号のそれぞれに該当する音声を特定スピーカーから再生することとなる。このように同時に多数の話し手が話をする場合、各話し手の信号を正確に区分し、それぞれのスピーカーに特定の話し手に該当する人の音声が配置されるようにデコーディングすることは難しい。この場合、オブジェクト信号に該当する話し手をそれぞれ異なるスピーカーに配置するようにする、すなわち、レンダリングする過程が、むしろダウンミックス信号よりも認識度が悪くなる程度の音質歪みを引き起こすという恐れがある。このような歪みを防止するため、一人が話をしているのか、同時に数人が話をしているのかを表す情報を含めることができる。このような情報によって、多数の話し手が同時に話す場合、敢えてそれぞれのオブジェクト信号を特定スピーカーに配置させるデコーディング作業をすることによって音質の歪みを誘発させずに、むしろダウンミックス信号に近い程度とほとんどデコーディングをしない信号が各スピーカーに出力されるようにトランスコーダのチャネルベースビットストリームを調整する方法が可能である。
【0201】
例えば、a、b、c、d、eと5人の話し手に該当するオブジェクト信号があり、これらをそれぞれA、B、C、D、Eというスピーカーに配置されるようにデコーディングする場合が考えられる。もしa、b、cの3人の話し手が同時に話す場合、ダウンミックス信号はa、b、cの3人の話し手の音声がダウンミックスされて含まれている。この場合、一般的なオブジェクトデコーディング過程は次の通りである。まず、a、b、cの音声が含まれたダウンミックス信号でa、b、cの音声に該当する部分に関する情報をマルチチャネルビットストリームに構成し、Aスピーカーからaの音声が出力され、Bスピーカーからはbの音声が出力され、cスピーカーからはcの音声のみ出力されるようにデコーディングが行われる。しかし、このようにする場合、各スピーカーからは該当の音声信号が歪んだ状態で出力され、むしろダウンミックス信号の場合よりも認識率が低下し、話し手間の音声が完璧に分離されないという不都合がある。このような場合、a、b、cが同時に話しているという情報がSAOCビットストリーム上に含まれて伝達されると、トランスコーダではA、B、Cスピーカーから該当のダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成する。これにより、信号の歪みが防止される。
【0202】
多数の人が同時に話す場合、実際にも特定の一人が話す声のみを聞くことはできないので、人々の声をそれぞれ分離して所望の位置に出力させて歪みを発生させることより、ダウンミックス信号をそのまま出力することがより実際の環境に近いといえよう。この場合、トランスコーダで、同時に話している人々に該当するスピーカーにダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成しても良いが、該当のスピーカーに該当する話し手の音声が歪みを発生させないような範囲で相対的にやや大きく出力されるようにマルチチャネルビットストリームを生成しても良い。
【0203】
また、オブジェクトビットストリームに複数の話し手が同時に話をしているか否かを表示して伝達せずに、オブジェクトエンコーダでこれを勘案してオブジェクトビットストリームを変形して伝達することも可能である。この場合、オブジェクトデコーダでは普段のとおりにデコーディングをするが、複数の話し手が話している場合、複数の話し手に該当するスピーカーの出力がダウンミックス信号、あるいは、対応するスピーカーに該当する話し手の音声が歪みの生じないような範囲でやや大きくなった信号がデコーディングされて出力されることとなる。
【0204】
次に、マルチチャネルデコーダに伝達されるHTRFなどのような3D情報について説明する。
【0205】
オブジェクトデコーダがバイノーラルモードで再生される場合、オブジェクトデコーダ内に含まれたマルチチャネルデコーダがバイノーラルモードで作動する。この時、最終使用者が各オブジェクト信号を空間上に位置させた情報に基づいて最適化されたHRTFなどのような3D情報が、マルチチャネルデコーダに転送される。
【0206】
このときに転送される3D情報を求める方法を、オブジェクト信号2個が任意の位置1、2に位置している場合を例に挙げて説明する。このような場合、位置1、位置2に該当する3D情報は、レンダリングマトリクス生成部あるいはトランスコーダに含まれている。レンダリングマトリクス生成部に3D情報が含まれている場合、該当のオブジェクト信号が位置している位置に該当する3D情報をトランスコーダ側に転送する。3D情報がトランスコーダに含まれている場合、レンダリングマトリクス生成部は単に該当のオブジェクト信号が位置している位置に関する情報、すなわち、どの位置に該当の3D情報を使用すべきかに関するインデックス情報のみをトランスコーダに転送する。
【0207】
このようにオブジェクト信号が2個あり、該当の位置に関する3D情報がある場合、バイノーラル信号は下記の式18から得られる。
【0208】
【数18】
【0209】
マルチチャネルバイノーラルデコーダでは、5.1チャネルスピーカー再生を仮定した状態で、5個のスピーカー位置に関する3D情報を用いてバイノーラルサウンドをデコーディングする。これを理論的な式で表すと、下記の式19のようになる。
【0210】
【数19】
【0211】
式18と式19からオブジェクト1信号の左チャネルに対する部分のみを別に分離すると、下記の式20で表現できる。同様に、オブジェクト1の信号の右チャネルに対する部分と、オブジェクト2信号の左側、右側チャネルに対する部分も、式20で表現できる。
【0212】
【数20】
【0213】
例えば、オブジェクト1信号とオブジェクト2信号の全体エネルギーの比率をa:bとする。また、オブジェクト1信号がFLチャネルに含まれた比率をc、オブジェクト2信号がFLチャネルに含まれた比率をdとすれば、FLでオブジェクト1信号とオブジェクト2信号が占めている比率はac:bdとなる。この場合、FLのHRTFは下記の式21から得られる。
【0214】
【数21】
【0215】
上記のような方法によってマルチチャネルバイノーラルデコーダに使われる3D情報を求めることができる。このようにして求められた3D情報を用いてバイノーラルデコーディングを行う場合、マルチチャネルデコーディングにおいて5個のスピーカー位置に固定されている3D情報を使用する時よりも、実際オブジェクト信号が位置している所に該当する3D情報を使用することができるため、より実感溢れるバイノーラル信号を再生することができる。
【0216】
このようにオブジェクト信号の空間上に位置している所に該当する3D情報からマルチチャネルバイノーラルデコーダに使われる3D情報を計算する方法は、上記のようなエネルギー比率に関する情報のみを用いて行っても良いが、各オブジェクト信号間のICC情報に基づいて各オブジェクト位置に該当する3D情報を加算する時に、適切なデコリレーション過程を経て加算する方法を追加しても良い。
【0217】
次に、エフェクトプロセシングは、ダウンミックス前処理中に含めて処理する場合と、エフェクト結果をマルチチャネルデコーダ出力に加える場合とに分けることができる。ダウンミックス前処理中に含める場合において、特定オブジェクト信号に対するエフェクトを処理しようとする場合、前述したようにダウンミックス前処理においてL信号をL_L、L_R信号に分け、R信号をR_L、R_R信号に分ける過程に加えて、エフェクト処理を希望する信号を別個に抽出しなければならない。これは次の方法で処理可能である。
【0218】
第一に、L、R信号から該当のオブジェクト信号を抽出し、これを除くオブジェクト信号に対してL_L、L_R、R_L、R_R信号を生成した後、別に抽出したオブジェクト信号に対してエフェクト処理をし、続いて、この信号はレンダリングマトリクスの情報によって左側、右側の信号に分け、左側信号はL_L、R_L信号にさらに加え、右側信号はL_R、R_R信号にさらに加える方法がある。
【0219】
第二に、L’、R’信号を生成した後、この信号からエフェクト処理しようとするオブジェクト信号の成分を抽出した後、エフェクト処理後に再び加える方法がある。
【0220】
エフェクトプロセシングの場合、特定オブジェクト信号のスペクトラム形態を変えても良い。例えば、特定オブジェクト信号に対して全体レベル調整だけでなく、高音成分を増やしたり、低音成分を増やしたりしたい時、該当のスペクトラム領域に対してのみレベル調整を行うことが可能である。このような処理をする場合、スペクトラムの値が変形されたパラメータバンドの場合、オブジェクトビットストリームを通じて受け取ったオブジェクト信号の情報を修正する必要がある。例えば、特定オブジェクト信号の低音成分を増やしたと仮定する場合、該オブジェクト信号の低音領域のエネルギーが大きくなるため、これに関する情報がオブジェクトビットストリームを通じて受け取ったものと異なってくる。これを修正するため、オブジェクトビットストリーム自体で当該オブジェクト信号に関する情報を修正する方法を使用することができる。また、スペクトラム変化に関する情報をトランスコーダで受信してマルチチャネルビットストリームを生成するとき、この変化を適用してマルチチャネルビットストリームを生成する方法も可能である。
【0221】
図28〜図33は、複数のオブジェクト情報と複数のダウンミックス信号を一つのオブジェクト情報とダウンミックス信号に結合する場合を説明するための図である。テレコンファレンスなどでは、複数のオブジェクト情報と複数のダウンミックス信号を、一つのオブジェクト情報とダウンミックス信号に結合しなければならない状況が発生し、このような場合、下記の事項を考慮しなければならない。
【0222】
まず、図28は、オブジェクト符号化されたビットストリームの一例を示す。図28に示すように、オブジェクト符号化されたビットストリームは、ダウンミックス信号とオブジェクト情報が互いに時間的に整合されている。したがって、このようなビットストリームは、オブジェクトデコーダで追加の考慮事項無しでデコーディング過程を行うことができる。しかし、複数のビットストリームを一つのビットストリームに結合する場合、状況によってはダウンミックス信号とオブジェクト情報間の時間的整合を補正しなければならない場合が発生することができる。
【0223】
図29は、オブジェクト符号化されたビットストリームが結合される最も簡単な場合の例を示している。図28の表示方法と同様に、四角形の上に付した数字1、2、3はフレーム番号を示し、四角形の上段はオブジェクト情報を、下段はダウンミックス信号を示す。そして、2つのオブジェクト符号化されたビットストリームはそれぞれBS1とBS2で示す。
【0224】
図29を参照すると、ダウンミックス信号を一つに結合するためにはまず、圧縮コーデックで圧縮されているダウンミックス信号をPCM(Puls code modulation)信号に変換し、これを時間ドメイン上でダウンミックスした後、再び圧縮コーデック形式に変換する過程を行うこととなる。この過程で図29の(b)に示すように、ディレーdが発生する。したがって、一つに結合されたビットストリームをデコーディングする場合にダウンミックス信号とオブジェクト情報との時間的整列に留意しなければならない。
【0225】
このような状況の発生時に、総ディレー値がわかるとそのディレー分だけを補正しなければならない。このようなディレーはダウンミックスに使われる圧縮コーデックによってそれぞれ異なり、したがって、オブジェクト情報などに該当のディレー値を表示できるビットを割り当てることによって様々なディレー値を表示すると良い。
【0226】
図30は、複数のビットストリームを一つのビットストリームに結合する場合においてそれぞれのビットストリームに使われたダウンミックス信号のコーデックが互いに異なるか、オブジェクト情報の構成が互いに異なることから、それぞれ異なるディレーが発生する場合を挙げている。
【0227】
図30では、BS1とBS2に使われたコーデックの種類または付加情報の構成が異なる場合、ダウンミックス信号を結合するためにダウンミックス信号を時間ドメイン信号に変換し、これを再び一つの圧縮コーデックで変換するときに発生する総ディレーが互いに異なる場合である。この場合、BS1とBS2間の互いに異なるディレーを考慮せずに結合する場合、ダウンミックス信号間に、またダウンミックス信号とオブジェクト情報間の時間的整列に問題が発生することとなる。
【0228】
これを解決する方法として、図31に示す方法を使用することができる。
【0229】
図31を参照すると、BS1でダウンミックス信号に発生するディレーd1に付加的なディレーを加え、総ディレーがBS2で発生するディレーd2と同じ値になるように調整する例が示されている。このようにディレーを調整すると、BS1をBS2と結合する方法は、図30で示す方法と同一になる。すなわち、一つに結合すべきビットストリームが複数である場合、最も大きいディレーが発生するビットストリームを基準にして最終ディレー値を定めればよい。
【0230】
一般的に複数のビットストリームを一つに結合する場合でないとディレー値は0となるので、ディレー有無を表示するビット情報を含めた後、この情報が、ディレーがあることを表示すると、以降具体的なディレー値を表示するビット情報を読むようにすることによってディレー表示に使われるビットを最小化することができる。
【0231】
図32には、ディレー差を補正する他の方法を示す。図32で、BS1で発生するディレーd1を基準にして時間的整列をする方法を示している。2番目のフレームを取り上げると、このフレームに該当するBS1のオブジェクト情報は2番目のフレームに該当するオブジェクト情報をそのまま使用することができる。これに対し、BS2のオブジェクト情報は、1番目のフレームに該当するオブジェクト情報と2番目のフレームに該当するオブジェクト情報がいずれも含まれている。したがって、当該フレームにおいて、BS2に該当するオブジェクト情報は、BS2の1番目のフレームのオブジェクト情報と2番目のフレームのオブジェクト情報に対して該当の区間を占める比率による平均化を行う方法あるいは補間を行う方法を通じて得ることができる。こうすると、図32の(b)で、点線で表示した各区間に該当するBS1、BS2のオブジェクト情報を得ることができ、これらのオブジェクト情報を一つのオブジェクト情報に結合するには、図29で使用した方法をそのまま用いれば良い。ダウンミックス信号の場合は、ディレーがそれぞれ異なる状態で追加的なディレー補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれるディレー情報はd1に該当する情報が保存される。
【0232】
図33には、上述したディレー差を補正するさらに他の方法を示す。図33は、BS2で発生するディレーd2を基準にして時間的整列をする方法を示している。1番目のフレームを取り上げると、このフレームに該当するBS2のオブジェクト情報は、1番目のフレームに該当するオブジェクト情報をそのまま使用することができる。これに対し、BS1のオブジェクト情報は1番目のフレームに該当するオブジェクト情報と2番目のフレームに該当するオブジェクト情報がいずれも含まれている。したがって、2番目のフレームにおいて、BS1に該当するオブジェクト情報は、BS1の1番目のフレームのオブジェクト情報と2番目のフレームのオブジェクト情報に対して当該区間を占める比率による平均化を行う方法あるいは補間を行う方法を通じて得ることができる。こうすると、図33の右図、つまり(b)に点線で表示した各区間に該当するBS1、BS2のオブジェクト情報を得ることができ、これらのオブジェクト情報を一つのオブジェクト情報に結合するには、図29で使用した方法とすれば良い。ダウンミックス信号の場合、ディレーがそれぞれ異なる状態で追加的なディレー補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれるディレー情報はd2に該当する情報が保存される。
【0233】
以上の如く、複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合、各オブジェクト符号化されたビットストリームに含まれているダウンミックス信号を一つのダウンミックス信号に結合する過程が必要である。この場合、様々な圧縮コーデックによるダウンミックス信号を一つのダウンミックス信号に結合するためには、圧縮されている信号をPCM信号あるいは特定周波数ドメイン上の信号に変換し、該当のドメインでダウンミックス信号を結合し、また特定圧縮コーデックで信号を変換する過程が要求される。この時、圧縮コーデックがどんな種類かによって、ダウンミックス信号がPCM段階で結合されるか、特定周波数ドメインなどで結合されるかによって様々なディレーが発生することとなる。このようなディレーは、最終に結合されたビットストリームをデコーディングするデコーダではその具体的な値が予測できない。したがって、該当のディレーはビットストリーム上に含まれて伝達されなければならない。このディレーは、PCM信号上でのディレーサンプル数を表現しても良く、特定周波数ドメイン上でのディレーサンプル数を表現しても良い。
【0234】
一方、本発明は、プロセッサ読取可能記録媒体にプロセッサが読取りできるコードとして実現することが可能である。プロセッサ読取可能記録媒体は、プロセッサにより読取り可能なデータが記憶される全ての種類の記録装置を含む。プロセッサ読取可能記録媒体の例には、ROM、RAM、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置などがあり、また、インターネットを介した転送などのようなキャリアウェーブの形態で実現されることも含む。また、プロセッサ読取可能記録媒体はネットワークで連結されたシステムに分散され、分散方式でプロセッサが読取りできるコードが記憶され実行されうる。
【0235】
以上では具体的な実施例を示して本発明を説明してきたが、本発明は、具体例に限定されず、特許請求の範囲で請求する本発明の要旨を逸脱しない限度内で、当該発明が属する技術分野における通常の知識を持つ者が様々に変更して実施できるということは明らかであり、このような変更は本発明の技術的思想や展望から別個のものとして理解されてはならない。
【特許請求の範囲】
【請求項1】
相対オブジェクトエネルギー情報及び絶対オブジェクトエネルギー情報を含む少なくとも2つのエネルギー情報を獲得する段階と、
前記エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する段階と、
を含むことを特徴とするオーディオ復号化方法。
【請求項2】
前記絶対エネルギー情報が、最大オブジェクトエネルギーレベルを含むことを特徴とする、請求項1に記載のオーディオ復号化方法。
【請求項3】
前記相対オブジェクトエネルギー情報が、最大オブジェクトエネルギーレベルと各オブジェクトエネルギーレベルとの比であることを特徴とする、請求項2に記載のオーディオ復号化方法。
【請求項4】
前記結合されたエネルギー情報を生成する段階で、前記結合された絶対オブジェクトエネルギー情報を算出し、前記結合された絶対オブジェクトエネルギー情報に基づいて前記結合された相対オブジェクトエネルギー情報を生成することを特徴とする、請求項1に記載のオーディオ復号化方法。
【請求項5】
オブジェクト符号化された第1オーディオ信号と第2オーディオ信号を受信する段階と、
前記第1オーディオ信号に含まれた第1オブジェクトエネルギー情報と、前記第2オーディオ信号に含まれた第2オブジェクトエネルギー情報を用いて第3オブジェクトエネルギー情報を生成する段階と、
前記第1及び第2オーディオ信号が結合され、前記第3オブジェクトエネルギー情報を含む第3オーディオ信号を生成する段階と、
を含むことを特徴とするオーディオ復号化方法。
【請求項6】
前記第3オブジェクト付加情報とレンダリング制御情報を用いてチャネルベースの付加情報を生成する段階と、
前記第3ダウンミックス信号と前記チャネルベースの付加情報を用いてマルチャネルオーディオ信号を生成する段階と、
をさらに含むことを特徴とする、請求項5に記載のオーディオ復号化方法。
【請求項7】
前記第3エネルギー情報が、オブジェクトレベル情報及び絶対オブジェクトエネルギー情報のうちの少なくとも1つを含むことを特徴とする、請求項5に記載のオーディオ復号化方法。
【請求項8】
前記第3オーディオ信号が、前記絶対オブジェクトエネルギー情報を転送するか否かを表すフラグ情報を含むことを特徴とする、請求項7に記載のオーディオ復号化方法。
【請求項9】
第1オーディオ信号から第1ダウンミックス信号と第1オブジェクト情報を抽出し、第2オーディオ信号から第2ダウンミックス信号と第2オブジェクト情報を抽出するデマルチプレクサと、
前記第1及び第2オブジェクト情報が結合され、前記第1オブジェクト情報に含まれた第1オブジェクトエネルギー情報と、前記第2オブジェクト情報に含まれた第2オブジェクトエネルギー情報を用いて生成した第3オブジェクトエネルギー情報を含む第3オブジェクト情報と、前記第1及び第2ダウンミックス信号を結合した第3ダウンミックス信号とを生成するマルチポインタ制御部と、
を含むことを特徴とするオーディオ復号化装置。
【請求項10】
前記第3オブジェクト情報とレンダリング制御情報を用いてチャネルベースの付加情報を生成するトランスコーダと、
前記第3ダウンミックス信号と前記チャネルベースの付加情報を用いてマルチャネルオーディオ信号を生成するマルチャネルデコーダと、
をさらに含むことを特徴とする、請求項9に記載のオーディオ復号化装置。
【請求項11】
前記第3エネルギー情報が、オブジェクトレベル情報及び絶対オブジェクトエネルギー情報のうち少なくとも1つを含むことを特徴とする、請求項9に記載のオーディオ復号化装置。
【請求項12】
前記マルチポインタ制御部が、前記第1及び第2エネルギー情報をレベル調整情報に基づいて調節したエネルギー情報を用いて前記第3エネルギー情報を生成することを特徴とする、請求項9に記載のオーディオ復号化装置。
【請求項13】
相対オブジェクトエネルギー情報と絶対オブジェクトエネルギー情報を含む少なくとも2つのエネルギー情報を獲得する段階と、
前記エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサ読取可能記録媒体。
【請求項14】
オブジェクト符号化された第1オーディオ信号と第2オーディオ信号を受信する段階と、
前記第1オーディオ信号に含まれた第1オブジェクトエネルギー情報と、前記第2オーディオ信号に含まれた第2オブジェクトエネルギー情報を用いて第3オブジェクトエネルギー情報を生成する段階と、
前記第1及び第2オーディオ信号が結合され、前記第3オブジェクトエネルギー情報を含む第3オーディオ信号を生成する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサ読取可能記録媒体。
【請求項15】
前記第3オブジェクト付加情報とレンダリング制御情報を用いてチャネルベースの付加情報を生成する段階と、
前記第1及び第2ダウンミックス信号を結合した第3ダウンミックス信号と前記チャネルベースの付加情報を用いてマルチャネルオーディオ信号を生成する段階と、をさらに含むことを特徴とする請求項14に記載のプロセッサで実行させるためのプログラムを記録したプロセッサ読取可能記録媒体。
【請求項1】
相対オブジェクトエネルギー情報及び絶対オブジェクトエネルギー情報を含む少なくとも2つのエネルギー情報を獲得する段階と、
前記エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する段階と、
を含むことを特徴とするオーディオ復号化方法。
【請求項2】
前記絶対エネルギー情報が、最大オブジェクトエネルギーレベルを含むことを特徴とする、請求項1に記載のオーディオ復号化方法。
【請求項3】
前記相対オブジェクトエネルギー情報が、最大オブジェクトエネルギーレベルと各オブジェクトエネルギーレベルとの比であることを特徴とする、請求項2に記載のオーディオ復号化方法。
【請求項4】
前記結合されたエネルギー情報を生成する段階で、前記結合された絶対オブジェクトエネルギー情報を算出し、前記結合された絶対オブジェクトエネルギー情報に基づいて前記結合された相対オブジェクトエネルギー情報を生成することを特徴とする、請求項1に記載のオーディオ復号化方法。
【請求項5】
オブジェクト符号化された第1オーディオ信号と第2オーディオ信号を受信する段階と、
前記第1オーディオ信号に含まれた第1オブジェクトエネルギー情報と、前記第2オーディオ信号に含まれた第2オブジェクトエネルギー情報を用いて第3オブジェクトエネルギー情報を生成する段階と、
前記第1及び第2オーディオ信号が結合され、前記第3オブジェクトエネルギー情報を含む第3オーディオ信号を生成する段階と、
を含むことを特徴とするオーディオ復号化方法。
【請求項6】
前記第3オブジェクト付加情報とレンダリング制御情報を用いてチャネルベースの付加情報を生成する段階と、
前記第3ダウンミックス信号と前記チャネルベースの付加情報を用いてマルチャネルオーディオ信号を生成する段階と、
をさらに含むことを特徴とする、請求項5に記載のオーディオ復号化方法。
【請求項7】
前記第3エネルギー情報が、オブジェクトレベル情報及び絶対オブジェクトエネルギー情報のうちの少なくとも1つを含むことを特徴とする、請求項5に記載のオーディオ復号化方法。
【請求項8】
前記第3オーディオ信号が、前記絶対オブジェクトエネルギー情報を転送するか否かを表すフラグ情報を含むことを特徴とする、請求項7に記載のオーディオ復号化方法。
【請求項9】
第1オーディオ信号から第1ダウンミックス信号と第1オブジェクト情報を抽出し、第2オーディオ信号から第2ダウンミックス信号と第2オブジェクト情報を抽出するデマルチプレクサと、
前記第1及び第2オブジェクト情報が結合され、前記第1オブジェクト情報に含まれた第1オブジェクトエネルギー情報と、前記第2オブジェクト情報に含まれた第2オブジェクトエネルギー情報を用いて生成した第3オブジェクトエネルギー情報を含む第3オブジェクト情報と、前記第1及び第2ダウンミックス信号を結合した第3ダウンミックス信号とを生成するマルチポインタ制御部と、
を含むことを特徴とするオーディオ復号化装置。
【請求項10】
前記第3オブジェクト情報とレンダリング制御情報を用いてチャネルベースの付加情報を生成するトランスコーダと、
前記第3ダウンミックス信号と前記チャネルベースの付加情報を用いてマルチャネルオーディオ信号を生成するマルチャネルデコーダと、
をさらに含むことを特徴とする、請求項9に記載のオーディオ復号化装置。
【請求項11】
前記第3エネルギー情報が、オブジェクトレベル情報及び絶対オブジェクトエネルギー情報のうち少なくとも1つを含むことを特徴とする、請求項9に記載のオーディオ復号化装置。
【請求項12】
前記マルチポインタ制御部が、前記第1及び第2エネルギー情報をレベル調整情報に基づいて調節したエネルギー情報を用いて前記第3エネルギー情報を生成することを特徴とする、請求項9に記載のオーディオ復号化装置。
【請求項13】
相対オブジェクトエネルギー情報と絶対オブジェクトエネルギー情報を含む少なくとも2つのエネルギー情報を獲得する段階と、
前記エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサ読取可能記録媒体。
【請求項14】
オブジェクト符号化された第1オーディオ信号と第2オーディオ信号を受信する段階と、
前記第1オーディオ信号に含まれた第1オブジェクトエネルギー情報と、前記第2オーディオ信号に含まれた第2オブジェクトエネルギー情報を用いて第3オブジェクトエネルギー情報を生成する段階と、
前記第1及び第2オーディオ信号が結合され、前記第3オブジェクトエネルギー情報を含む第3オーディオ信号を生成する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサ読取可能記録媒体。
【請求項15】
前記第3オブジェクト付加情報とレンダリング制御情報を用いてチャネルベースの付加情報を生成する段階と、
前記第1及び第2ダウンミックス信号を結合した第3ダウンミックス信号と前記チャネルベースの付加情報を用いてマルチャネルオーディオ信号を生成する段階と、をさらに含むことを特徴とする請求項14に記載のプロセッサで実行させるためのプログラムを記録したプロセッサ読取可能記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【図33】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【図33】
【公開番号】特開2012−198556(P2012−198556A)
【公開日】平成24年10月18日(2012.10.18)
【国際特許分類】
【出願番号】特願2012−120606(P2012−120606)
【出願日】平成24年5月28日(2012.5.28)
【分割の表示】特願2009−532306(P2009−532306)の分割
【原出願日】平成20年2月14日(2008.2.14)
【出願人】(502032105)エルジー エレクトロニクス インコーポレイティド (2,269)
【Fターム(参考)】
【公開日】平成24年10月18日(2012.10.18)
【国際特許分類】
【出願日】平成24年5月28日(2012.5.28)
【分割の表示】特願2009−532306(P2009−532306)の分割
【原出願日】平成20年2月14日(2008.2.14)
【出願人】(502032105)エルジー エレクトロニクス インコーポレイティド (2,269)
【Fターム(参考)】
[ Back to top ]