説明

トランスコーディング装置

【課題】MPEGサラウンドデコードのために、空間キュー基盤オーディオコーディング方式でエンコードされたマルチオブジェクトオーディオ信号を変換するトランスコーディング装置を提供する。
【解決手段】トランスコーディング装置は、エンコーダから伝送され、マルチオブジェクトオーディオ信号に対するレンダリング情報を含むビットストリームまたは外部から入力される前記マルチオブジェクトオーディオ信号に対するレンダリング情報に基づいて、前記マルチオブジェクトオーディオ信号に対する空間キュー情報が含まれたMPSビットストリームを生成するトランスコーディング手段と、前記エンコーダから伝送されるビットストリームまたは外部から入力されるレンダリング情報に基づいて、前記エンコードされたマルチオブジェクトオーディオ信号をMPSデコードに適するように変換する信号処理手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多様なチャネルで構成されたマルチオブジェクトオーディオ信号のトランスコーディング装置に関し、より詳細には、付加情報ビットストリームを変換し、変換された付加情報ビットストリームを利用して所望の出力信号、すなわち多様なチャネルを有するマルチオブジェクトオーディオ信号を復元する付加情報ビットストリーム変換を含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号のトランスコーディング装置に関する。
【0002】
ここで、多様なチャネルを有するマルチオブジェクトオーディオ信号とは、マルチオブジェクトオーディオ信号であって、各々のオーディオオブジェクトが互いに異るチャネル(例えば、モノ、ステレオ、5.1チャネル)で構成されたオーディオ信号を意味する。
【0003】
本発明は、情報通信部および情報通信研究振興院のIT次世代核心技術開発事業の一環として行われた研究から導出されたものである。[課題管理番号:2005−S−403−02、課題名:知能型統合情報放送(SmaRTV)技術(Development of Super−intelligent Multimedia Anytime−anywhere Realistic TV(SmarTV) Technology)]
【背景技術】
【0004】
従来のオーディオ符号化/復号化技術によれば、ユーザは、オーディオコンテンツを受動的に聴取するしかできなかった。従って、ユーザの必要に応じて互いに異るチャネルで構成された各オーディオオブジェクトを制御し、1つのオーディオコンテンツを多様な方法で組み合わせることによって、多様なオーディオオブジェクトを消費することができる多様なチャネルで構成された複数のオーディオオブジェクト別の符号化および復号化装置、並びに方法が要求される。
これと関連して、従来のSAC(Spatial Audio Coding)は、マルチチャネルオーディオ信号をダウンミックスされたモノまたはステレオ信号で表現、伝送および復元する技術であって、低いビット率でも高品質のマルチチャネルオーディオ信号を伝送することができる。
【0005】
しかし、従来のSACはマルチチャネルの信号を、1つのオーディオオブジェクトに対してのみ符号化および復号化が可能な技術であるため、マルチチャネル及びマルチオブジェクトオーディオ信号、例えば、モノ、ステレオ、および5.1チャネルで構成された多様なオブジェクトのオーディオ信号を符号化/復号化することができないという問題がある。
【0006】
また、従来のバイノーラルキューコーディング(Binaural Cue Coding、BCC)は、マルチオブジェクトオーディオ信号を符号化/復号化することができる。しかし、オーディオオブジェクトのチャネルは、モノチャネルに限定されることから、モノチャネルを含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号を符号化/復号化することができない。
【0007】
整理すれば、従来技術は、単一チャネルで構成されたマルチオブジェクトオーディオ信号またはマルチチャネルの単一オブジェクトオーディオ信号に対してのみ符号化/復号化を行なうことができるため、多様なチャネルで構成されたマルチオブジェクトオーディオ信号に対しては符号化/復号化を行なうことができない。したがって、従来のオーディオ符号化/復号化技術によれば、ユーザはオーディオコンテンツを受動的に聴取するほかなかった。
【0008】
したがって、ユーザの必要に応じて、互いに異るチャネルで構成された複数のオーディオオブジェクト各々を制御し、1つのオーディオコンテンツを多様な方法で組み合わせることによって、多様なオーディオオブジェクトを消費できる多様なチャネルで構成された複数のオーディオオブジェクト別の符号化および復号化装置、並びに方法が要求される。
【0009】
また、マルチオブジェクトオーディオ符号化器から生成された付加情報ビットストリームが、従来のSAC符号化/復号化器の付加情報ビットストリームに対する下位互換性を提供するために、マルチオブジェクトオーディオビットストリームと従来のSACビットストリームとの間で変換が可能な変換装置および方法が要求される。
【0010】
前述したように、互いに異るチャネルで構成された複数のオーディオオブジェクト各々を制御し、1つのオーディオコンテンツを多様な方法で組み合わせることのできる多様なチャネルのマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法であって、前記マルチオブジェクトオーディオ符号化および復号化装置、並びに方法は、従来のSACビットストリームとの下位互換性を提供するためのビットストリーム変換が可能な多様なチャネルのマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法が要求される。
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は前述した要求に応じるために提案されたものであって、その目的は、多様なチャネルを有するマルチオブジェクトオーディオ信号を符号化および復号化し、従来のSACビットストリームに対する下位互換性を提供する多様なチャネルで構成されたトランスコーディング装置を提供することにある。
【課題を解決するための手段】
【0012】
前述した目的を達成するための本発明は、MPEGサラウンドデコードのために、空間キュー基盤オーディオコーディング方式でエンコードされたマルチオブジェクトオーディオ信号を変換するトランスコーディング装置であって、エンコーダから伝送され、前記マルチオブジェクトオーディオ信号に対するレンダリング情報を含むビットストリームまたは外部から入力される前記マルチオブジェクトオーディオ信号に対するレンダリング情報に基づいて、前記マルチオブジェクトオーディオ信号に対する空間キュー情報が含まれたMPSビットストリームを生成するトランスコーディング手段と、前記エンコーダから伝送されるビットストリームまたは外部から入力されるレンダリング情報に基づいて、前記エンコードされたマルチオブジェクトオーディオ信号をMPSデコードに適するように変換する信号処理手段と、を備えることを特徴とするトランスコーディング装置を提供する。
【発明の効果】
【0013】
本発明は、付加情報ビットストリームの変換を含み、多様なチャネルを有するマルチオブジェクトオーディオ信号の符号化装置を提供することによって、多様なチャネルを有するマルチオブジェクトオーディオコンテンツを効率よく符号化および復号化し、ユーザの必要に応じて能動的にオーディオコンテンツを消費することができ、従来に利用されるビットストリームに対する下位互換性を提供することによって、従来における符号化および復号化装置との互換性を提供することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の実施形態に係るマルチオブジェクトオーディオ符号化器およびマルチオブジェクト復号化器を示すブロック図である。
【図2】本発明の実施形態に係るマルチオブジェクトオーディオ符号化器およびマルチオブジェクト復号化器を示すブロック図である。
【図3】本発明の実施形態に係る図2のトランスコーダ103を示すブロック図である。
【図4】本発明の実施形態に係る図2のビットストリームフォーマッタ205から生成される代表SAOC(spatial audio object coding)ビットストリームを示す図である。
【図5】本発明の他の実施形態に係る図2の代表SAOCビットストリームを示す図である。
【図6】本発明の他の実施形態に係る図2のトランスコーダ103を示すブロック図である。
【図7】図2におけるマルチオブジェクトオーディオ符号化器および復号化器にオーディオオブジェクト除去部701が追加的に備えられた場合を示すブロック図である。
【図8】図2におけるSACコーダ201およびSACデコーダ105をMPEGサラウンドコーダおよびデコーダに代替した場合を示すブロック図である。
【発明を実施するための形態】
【0015】
前述した目的、特徴および長所は、添付の図面と関連した次の詳細な説明を介して更に明確になるのであろう。以下、添付の図面に基づいて本発明に係る好ましい一実施形態を詳細に説明する。
【0016】
図1は、本発明に係るマルチオブジェクトオーディオ符号化器およびマルチオブジェクト復号化器を示すブロック図である。
【0017】
図1に示すように、本発明は、SAOC(Spatial Audio Object Coding)コーダ101、トランスコーダ103、およびSAC(Spatial Audio Coding)デコーダ105を備える。
【0018】
空間オーディオオブジェクトコーディング(SAOC:Spatial Audio Object Coding)方式によれば、コーダに入力される信号はオーディオオブジェクトとして符号化される。ここで、各オーディオオブジェクトは、デコーダによって復元され、独立的に再生されない。しかし、所望のオーディオ場面を構成するためにオーディオオブジェクトに対する情報がレンダリングされ、多様なチャネルを有するマルチオブジェクトオーディオ信号が出力される。したがって、SACデコーダは、所望のオーディオ場面を獲得するために入力されるオーディオオブジェクトに対する情報をレンダリングできる装置を要求する。
【0019】
前記SAOCコーダ101は、空間キュー基盤のコーダであって、入力オーディオ信号をオーディオオブジェクトとして符号化する。ここで、前記SAOCコーダ101に入力されるオーディオオブジェクトはモノまたはステレオ信号である。
【0020】
前記SAOCコーダ101は、入力される1つ以上のオーディオオブジェクトからダウンミックス信号を出力し、空間キューおよび付加情報(side information)を抽出することによりSAOCビットストリームを生成する。ここで、出力されるダウンミックス信号はモノまたはステレオ信号である。前記SAOCコーダ101は「異質なレイアウトSAOC」または「Faller」技法に基づいて入力されるオーディオオブジェクト信号を分析する。
【0021】
前記抽出されたSAOCビットストリームは空間キューおよび付加情報を含み、前記付加情報は入力オーディオオブジェクトの空間情報を含む。前記空間キューは、一般的に周波数領域のサブバンド単位で分析されて抽出される。
【0022】
ここで、空間キュー(spatial cue)とは、オーディオ信号を符号化および復号化する過程で利用される情報である。空間キューは、周波数領域から抽出され、入力される2つの信号の大きさの差、遅延差、相関性などの情報を含む。例えば、空間キューは、オーディオ信号のパワー利得情報を表すオーディオ信号間のレベル差(Channel Level Difference、CLD)、オーディオ信号間のエネルギー比(Inter−Channel Level Difference、ICLD)、オーディオ信号間の時間差(Inter Channel Time Difference、ICTD)、オーディオ信号間の相関性情報を表すオーディオ信号間の相関性(Inter Channel Correlation、ICC)、および仮想音源位置情報(Virtual Source Location Information)を含むが、これらの例に限定されない。
【0023】
また、前記付加情報は、オーディオ信号の復元、制御のための情報が含まれる。前記付加情報はヘッダー情報を含む。前記ヘッダー情報は、多様なチャネルで構成されたマルチオブジェクトオーディオ信号の復元および再生のための情報を含み、オーディオオブジェクトに対するチャネル情報および該当オーディオオブジェクトのIDを定義することによって、モノ、ステレオ、マルチチャネルのオーディオオブジェクトに対する復号化情報を提供することができる。例えば、符号化された特定オーディオオブジェクトがモノオーディオ信号であるかステレオオーディオ信号であるかを区分することができるよう各オブジェクトのIDおよび情報が定義され得る。前記ヘッダー情報は、一実施形態としてSAC(Spatial Audio Coding)ヘッダー情報、オーディオオブジェクト情報、およびプリセット(preset)情報を含むことができる。
【0024】
前記トランスコーダ103は、SAOCコーダ101に入力されるオーディオオブジェクトに対するレンダリングを行い、外部から入力される制御信号、すなわちオブジェクト別の音響情報および再生環境情報を利用して前記SAOCコーダ101から抽出されたSAOCビットストリームをSACビットストリームに変換する。
【0025】
すなわち、前記トランスコーダ103は、SAOCコーダ101に入力されるオーディオオブジェクトを多様なチャネルのマルチオブジェクトオーディオ信号に復元するために抽出されたSAOCビットストリームを利用してレンダリングする。付加情報を利用したレンダリングは、パラメータ領域で行なうことができる。
【0026】
また、前記トランスコーダ103は、SAOCビットストリームをSACビットストリームに変換する。まず、前記トランスコーダ103は、SAOCビットストリームから入力オーディオオブジェクトの情報を獲得し、入力オーディオオブジェクトの情報を所望のオーディオ場面に対応されるようレンダリングする。
【0027】
前記レンダリング過程において、前記トランスコーダ103は、所望のオーディオ場面に対応する空間情報を予測し、前記予測された空間情報を変換してSACビットストリームとして出力する。
【0028】
前記トランスコーダ103に対しては、以下の図3で詳細に説明する。
【0029】
前記SACデコーダ105は、空間キュー基盤のマルチチャネルオーディオデコーダであって、前記トランスコーダ103から出力されるSACビットストリームを利用し、前記SAOCコーダ101から出力されるダウンミックス信号をオブジェクト別のオーディオ信号に復元し、多様なチャネルのマルチオブジェクトオーディオ信号に復元する。前記SACデコーダ105は、MPEG(Moving Pcture Experts Group)サラウンド復号化器、BCC(binaural cue coding)復号化器などで代替され得る。
【0030】
図2は、本発明に係るマルチオブジェクトオーディオ符号化器および復号化器を示す更なる一実施形態の構成図であって、入力信号が多様なチャネルを有する信号である場合を示す。
【0031】
同図に示したように、本発明はSAOCコーダ101、トランスコーダ103、SACデコーダ105、SACコーダ201、プリセットASI(audio scene information)部203、およびビットストリームフォーマッタ205を備える。
【0032】
前記SAOCコーダ101がモノまたはステレオのオーディオオブジェクトのみをサポートする場合、前記SACコーダ201は、入力されるマルチチャネルオーディオ信号から1つのオーディオオブジェクトを出力する。前記出力された1つのオーディオオブジェクトは、ダウンミックスされたモノまたはステレオ信号である。また前記SACコーダ201は、空間キューおよび付加情報を抽出してSACビットストリームを生成する。
【0033】
前記SAOCコーダ101は、前記SACコーダ201から出力される1つのオーディオオブジェクトを備える1つ以上のオーディオオブジェクトから代表ダウンミックス信号を出力し、空間キューおよび付加情報を抽出してSAOCビットストリームを生成する。
【0034】
前記プリセットASI部203は、外部から入力される制御信号、すなわちオブジェクト別の音響情報および再生環境情報をプリセット−ASI(Preset−Audio Scene Information)情報で構成し、前記プリセット−ASI情報を含むプリセットASIビットストリームを生成する。前記プリセット−ASI情報に対しては、以下図4で詳細に説明する。
【0035】
前記ビットストリームフォーマッタ205は、前記SAOCコーダ101によって生成されたSAOCビットストリーム、前記SACコーダ201によって生成されたSACビットストリーム、および前記プリセットASI部203によって生成されたプリセットASIビットストリームを利用し、代表SAOCビットストリームを生成する。
【0036】
前記トランスコーダ103は、SAOCコーダ101に入力されるオーディオオブジェクトに対するレンダリングを行い、外部から入力されるオブジェクト別の音響情報および再生環境情報を利用して前記ビットストリームフォーマッタ205によって生成された代表SAOCビットストリームを代表SACビットストリームに変換する。前記トランスコーダ103は、前記SACデコーダ105に含まれて前記のような役割を行なうことができる。
【0037】
前記SACデコーダ105は、前記トランスコーダ103から出力されるSACビットストリームを利用し、前記SAOCコーダ101から出力される代表ダウンミックス信号を多様なチャネルのマルチオブジェクトオーディオ信号に復元する。前記SACデコーダ105は、MPEGサラウンド復号化器、BCC復号化器などで代替され得る。
【0038】
図3は、図2におけるトランスコーダ103を示す一実施形態の詳細な構造図である。
【0039】
同図に示すように、トランスコーダ103は、パーシング部301、レンダリング部303、第2行列部311、および第1行列部313を備え、代表SAOCビットストリームを代表SACビットストリームに変換する。
【0040】
図1では、前記トランスコーダ103は、SAOCビットストリームをSACビットストリームに変換する。
【0041】
前記パーシング部301は、前記ビットストリームフォーマッタ205から生成された代表SAOCビットストリーム、または図1のSAOCコーダ101から生成されたSAOCビットストリームをパーシングし、前記代表SAOCビットストリームに含まれたSAOCビットストリームおよびSACビットストリームを分離する。また、前記パーシング部301は、前記分離したSAOCビットストリームからSAOCコーダ101に入力されるオーディオオブジェクトの個数に対する情報を抽出する。ここで、図1のSAOCコーダ101から生成されたSAOCビットストリームをパーシングする場合、SACビットストリームが存在しないことから、分離する必要がない。
【0042】
前記第2行列部311は、前記パーシング部301によって分離したSACビットストリームを利用して第2行列を生成する。前記第2行列は、SACコーダ201に入力されるマルチチャネルオーディオ信号に対する行列式である。もし、前記代表SAOCビットストリームにSACビットストリームが含まれていない場合、すなわち、図1のSAOCコーダ101から生成されたSAOCビットストリームをパーシングする場合、前記第2行列部311は不要である。
【0043】
第2行列は、SACコーダ201に入力されるマルチチャネルオーディオ信号のパワー利得値に対するものであって、下記の数式1のとおりである。
【数1】

【0044】
一般的に、1つのフレームをサブバンドに分割して解釈することがSACの基本分析過程である。
【0045】
ここで、uSAC(k)はSACコーダ201から出力されるダウンミックス信号であって、kは周波数係数インデックスであり、bはサブバンドインデックスである。wch_iは前記SACビットストリームから獲得できるマルチチャネル信号の空間キュー情報であって、i番目チャネル信号(1=i=M)の周波数情報を復元するために利用される。したがって、wch_iは周波数係数の大きさ情報や位相情報として表現され得る。したがって、数式1の右側の項目を参照すれば、YSAC(k)は数式1の結果であって、SACデコーダ105から出力されるマルチチャネルオーディオ信号を表す。
【0046】
前記uSAC(k)およびwch_iはベクトルであり、uSAC(k)の前置行列次元(Transpose Matrix Dimension)がwch_iの次元となる。例えば、下記の数式2のように定義され得る。ここで、SACコーダ201から出力されるダウンミックス信号は、モノまたはステレオであるため、mは1または2である。
【数2】

前記のように、wch_iはSACビットストリームに含まれた空間キュー情報である。
【0047】
ch_iが各チャネルのサブバンドでのパワー利得を表す場合、wch_iはチャネルレベル差空間キュー(Channel Level Difference、CLD)から予測されることができる。wch_iが周波数係数の位相差を補償するための係数として利用される場合、wch_iはチャネル時間差空間キュー(Channel Time Difference)または相関性空間キュー(Inter−Channel Coherence)から予測されることができる。
【0048】
以下、例示的にwch_iが周波数係数の位相差を補償するための係数として利用される場合を基準にして説明する。
【0049】
SACコーダ201から出力されるダウンミックス信号との行列演算によって出力信号YSAC(k)が生成されるよう、数式1の第2行列は、各チャネル別のパワー利得値を表現し、前記ダウンミックス信号のベクトルの次元を逆にしたものにならなければならない。
【0050】
前記第2行列部311が数式1および数式2を満足する第2行列を生成すれば、前記レンダリング部303は、前記生成された第2行列を前記第1行列部313の出力と結合する。
【0051】
前記第1行列部313は、制御信号(例えば、オブジェクト制御情報、再生システム情報)を利用し、前記SAOCコーダ101に入力される1つ以上のオーディオオブジェクトを所望の出力、すなわち多様なチャネルのマルチオブジェクトオーディオ信号でマッピングさせるための第1行列を生成する。
【0052】
前記SAOCコーダ101に入力されたオーディオオブジェクトの個数がNの場合、SACコーダ201から出力されるダウンミックス信号も1つのオーディオオブジェクトとして見なされ、入力されるN個のオーディオオブジェクトに含まれる。このような場合、SACコーダ201から出力されるダウンミックス信号を除去した各オーディオオブジェクトは、第1行列を利用してSACデコーダ105から出力されるチャネルでマッピングされ得る。
【0053】
SACデコーダ105から出力されるチャネルの個数をMとするとき、第1行列は下記の条件を満足することができる。
【数3】

ここで、woj_iは、b番目サブバンドのi番目オーディオオブジェクト信号(1=i=N−1)を表すベクトルであって、前記SAOCビットストリームから獲得できる空間キュー情報である。もし、オーディオオブジェクトiがステレオであればwoj_iは2×1行列のベクトルである。Pijは、j番目オーディオオブジェクトがi番目出力チャネルにマッピングされるためのパワー利得情報または位相情報を表す第1行列の要素ベクトルであって、外部から入力されたり、初期値で設定された制御情報(例えば、オブジェクト制御情報、再生システム情報)から獲得できる。
【0054】
前記数式3の条件に適合する第1行列は、前記レンダリング部303に伝送され、前記数式3は前記レンダリング部303で演算される。
【0055】
数式3の演算子
【数3a】

および演算過程は下記の数式4および数式5で詳細に説明する。
【数4】

【数5】

ここで、入力されるオーディオオブジェクトがステレオである場合、mは2となる。
【0056】
例えば、入力されるオーディオオブジェクトの個数がYであり、m=2であり、出力されるチャネルの個数がMの場合、第1行列の次元は、M×Yとなり、Y個のPi,jは2×1行列で構成される。ここで、SACコーダ201から出力されるオーディオオブジェクトが含まれる場合、Y=Y−1と見なされる。前記数式3の演算結果、出力されるチャネルのパワー利得ベクトルwch_jで構成された行列が表現されるべきである。前記表現されたベクトルの次元がM×2の場合、出力されるチャネル個数Mおよび入力されるオーディオオブジェクトのレイアウトである2を反映する。
【0057】
再度、図3の説明に戻って、前記レンダリング部303は、前記第1行列部313および第2行列部311から第1行列および第2行列が伝送される。前記レンダリング部303は、前記パーシング部301によって分離されたSAOCビットストリームから獲得される各オーディオオブジェクトの空間キュー情報woj_iを獲得し、第1行列および第2行列を利用して算出された出力ベクトルを結合して所望の空間キュー情報を獲得し、前記所望の空間キュー情報を含む代表SACビットストリームを生成する。ここで、所望の空間キューとは、ユーザが前記SACデコーダ105からの出力を所望する出力マルチチャネルオーディオ信号と関連した空間キューを意味する。
【0058】
前記第1行列および第2行列に基づいて、所望の空間キュー情報を獲得するための演算は下記の数式6のとおりである。
【数6】

ここで、Pは第1行列を生成するとき考慮しない事項であって、SACコーダ201から出力されるオーディオオブジェクトのパワーと、SAOCコーダ101に直接入力されるオーディオオブジェクトのパワーとの和の比を表す。
【0059】
前記Pは数式7のように表すことができる。
【数7】

【0060】
したがって、wch_jが出力されるチャネルのパワーであれば、オーディオオブジェクトがレンダリングされた後、各チャネルのパワー比はWmodifiedとして表す。Wmodifiedから所望の空間キューパラメータを新たに抽出することができる。例えば、ch_2とch_1との間のCLDパラメータを抽出すれば、下記の数式8のとおりである。
【数8】

【0061】
もし、伝送されるダウンミックス信号がモノ信号であれば、CLDパラメータは下記の数式9のとおりである。
【数9】

【0062】
出力されるチャネルのパワー比は、空間キューパラメータであるCLDで表現することができ、隣接したチャネル間の空間キューパラメータは与えられたWmodified情報から多様な組合せの形態で示すことができる。前記レンダリング部303は、Wmodifiedから抽出された空間キュー(例えば、CLDパラメータ)をHuffmanコーディング方式などを利用してSACビットストリームを生成する。
【0063】
前記レンダリング部303により生成されたSACビットストリームに含まれる空間キューは、デコーダの特性に応じて分析および抽出される方法が異なる。
例えば、BCCデコーダの場合、1つのチャネルを基準として前記数式8を利用してN−1個のCLDパラメータを抽出することができる。また、MPEGサラウンドデコーダの場合、MPEGサラウンドのチャネル別の比較順に応じてCLDパラメータを抽出することができる。
【0064】
整理すれば、前記パーシング部301は、SACビットストリームおよびSAOCビットストリームを分離し、前記第2行列部311は、前記パーシング部301によって分離されたSACビットストリームを利用して上記の数式1に基づいて第2行列を生成し、前記第1行列部313は、制御信号に対応される第1行列を生成する。前記パーシング部301によって分離されたSAOCビットストリームは前記レンダリング部303に伝送され、前記レンダリング部303は、伝送されたSAOCビットストリームからオブジェクトの情報を獲得して第1行列と演算し、前記演算結果を第2行列と結合して前記Wmodifiedを生成し、生成されたWmodifiedから空間キューを抽出して代表SACビットストリームを生成する。すなわち、 生成されたWmodifiedから空間キューが所望の空間キューとなる。前記代表SACビットストリームは、MPEGサラウンドデコーダまたはBCCデコーダの特性に応じて適切に変換されたビットストリームであって、多様なチャネルを有するマルチオブジェクト信号に復元されることができる。
【0065】
図4は、図2のビットストリームフォーマッタ205から生成される代表SAOCビットストリームを示す一実施形態の構造図である。
【0066】
同図に示すように、ビットストリームフォーマッタ205によって生成された代表SAOCビットストリームは、前記SAOCコーダ101によって生成されたSAOCビットストリームと、前記SACコーダ201によって生成されたSACビットストリームとを結合して生成され、前記代表SAOCビットストリームは、前記プリセットASI部203によって生成されたプリセット−ASIビットストリームを含む。前記プリセット−ASIビットストリームは下記の図5で詳細に説明する。
【0067】
前記SAOCビットストリームとSACビットストリームとを結合する方法は、第1に、各々のビットストリームを直接的にMUXさせて1つのビットストリームを生成する方法であって、代表SAOCビットストリームでSAOCビットストリームおよびSACビットストリームが直列的に接続する401。
【0068】
第2に、SAOC補助データ(ancillary data)領域が存在する場合、前記補助領域にSACビットストリーム情報を含ませて1つのビットストリームを生成する方法であって、代表SAOCビットストリームでSAOCビットストリームおよび補助データ領域が直列的に接続され、前記補助データ領域はSACビットストリームを含む403。
【0069】
第3に、前記SAOCビットストリームおよびSACビットストリームのうち、類似の空間キューを符号化した領域を同じビットストリームで表現する方法であって、例えば、代表SAOCビットストリームのヘッダー情報領域には、SAOCビットストリームヘッダー情報およびSACビットストリームヘッダー情報が含まれ、代表SAOCビットストリームの任意の領域各々には、特定のCLDと関連したSAOCビットストリームおよびSACビットストリームが含まれる405。
【0070】
図5は、図2の代表SAOCビットストリームを示す更なる一実施形態の構成図であって、前記代表SAOCビットストリームが複数のプリセット−ASI情報を含む場合を示す。
【0071】
同図に示すように、代表SAOCビットストリームは、プリセット−ASI領域を含む。前記プリセット−ASI領域は複数のプリセット−ASIを含み、前記プリセット−ASI情報は、オーディオオブジェクトの制御情報およびレイアウト情報などを含む。
【0072】
前記トランスコーダ103を利用してオーディオオブジェクトをレンダリングする場合、各オーディオオブジェクトの位置情報および制御情報、出力される再生スピーカーレイアウト情報が入力されなければならない。前記制御情報および再生スピーカーレイアウト情報が入力されない場合、トランスコーダ103において各オーディオオブジェクトの制御情報およびレイアウト情報は基本値として設定される。
【0073】
基本値として設定された制御情報およびレイアウト情報を利用したり、入力されたオーディオオブジェクト制御情報およびレイアウト情報は、代表SAOCビットストリームまたは代表SACビットストリームの付加情報またはヘッダー情報に含まれる。前記制御情報は2種類に表現され得る。第1に、各オーディオオブジェクトに対する制御情報(位置およびレベル)およびスピーカーのレイアウト情報を直接的に表現したり、第2に、制御情報およびスピーカーのレイアウト情報を第1行列の形態で表現し、前記第1行列部313の第1行列の代わりに利用され得る。
【0074】
プリセット−ASI情報とは、オーディオオブジェクト制御情報およびスピーカーのレイアウト情報を表す。すなわち、スピーカーのレイアウト情報およびスピーカーのレイアウト情報に適合するオーディオ場面を構成するための各オーディオオブジェクトの位置およびレベル情報などを含む。
【0075】
前記パーシング部301によって抽出されたプリセット−ASI情報を代表SACビットストリームに伝送するために、前記したように、前記プリセット−ASI情報は直接的に表現されたり、第1行列の形態で表現される。
【0076】
プリセット−ASI情報が直接的に表現される場合、プリセット−ASI情報は、再生システムのレイアウト(モノ/ステレオ/マルチャネル)、オーディオオブジェクトID、オーディオオブジェクトレイアウト(モノまたはステレオ)、オーディオオブジェクト位置、方位(Azimuth、0 degree〜360 degree)、ステレオ再生時高低(Elevation、−50 degree〜90 degree)、オーディオオブジェクトレベル情報(−50dB〜50dB)を含むことができる。
【0077】
プリセット−ASI情報が第1行列の形態で表現される場合、前記プリセット−ASI情報を反映した数式3のP行列を構成し、前記P行列をレンダリング部303に伝送する。前記P行列は、各オーディオオブジェクトが出力されるチャネルにマッピングされるためのパワー利得情報または位相情報を要素ベクトルとして含む。
【0078】
前記プリセット−ASI情報は、入力される同一のオーディオオブジェクトに対して、所望の再生シナリオに対応される様々なオーディオ場面を定義することができる。例えば、ステレオまたはマルチチャネル(5.1、7.1)再生システムに要求されるプリセット−ASI情報がコンテンツ製作者および再生サービスの目的に適合するよう追加的に伝送され得る。
【0079】
図6は、図2のトランスコーダ103を示す更なる一実施形態の構成図であって、外部から入力される制御信号がない場合にプリセット−ASI情報を活用する一実施形態の構成図を示す。
【0080】
同図に示すように、トランスコーダ103は、パーシング部301およびレンダリング部303を備える。前記トランスコーダ103は、第2行列部311、第1行列部313、プリセット−ASI抽出部601、および行列判断部603からの助けを受け得る。
【0081】
前記パーシング部301は、前記代表SAOCビットストリームに含まれたSAOCビットストリームとSACビットストリームとを分離し、前記代表SAOCビットストリームに含まれたプリセット−ASIビットストリームをパーシングしてプリセット−ASI抽出部601に伝送する。
【0082】
前記プリセット−ASI抽出部601は、パーシングされたプリセット−ASIビットストリームからデフォルト(default)プリセット−ASIを出力するが、もし、プリセット−ASIに対する分離(selection)要請がある場合、分離要請されたプリセット−ASIを出力する。
【0083】
前記行列判断部603は、前記プリセット−ASI抽出部601により出力されたプリセット−ASIが分離されたプリセット−ASIの場合、分離されたプリセット−ASIが第1行列の形態であるか判断する。分離したプリセット−ASIが情報を直接的に表現した場合、前記第1行列部313に伝送され、前記第1行列部313は、前記プリセット−ASI情報を利用して第1行列を生成する。分離したプリセット−ASIが第1行列である場合、レンダリング部303に直接入力される信号として利用される。
【0084】
図7は、図2のマルチオブジェクトオーディオ符号化器および復号化器にオーディオオブジェクト除去部701が追加的に備えられた場合を示す一実施形態の構造図である。
【0085】
同図に示すように、オーディオオブジェクト除去部701は、前記SAOCコーダ101によって生成された代表ダウンミックス信号から任意のオーディオオブジェクトを除去するために利用される。前記オーディオオブジェクト除去部701は、前記SAOCコーダ101によって生成された代表ダウンミックス信号および前記トランスコーダ103から代表SAOCビットストリーム情報を受信し、任意のオーディオオブジェクトを除去する。前記オーディオオブジェクト除去部701に伝送される代表SAOCビットストリーム情報は、例えばレンダリング部303により提供され得る。
【0086】
例えば、前記SACコーダ201のダウンミックス信号であるオーディオオブジェクト(OBJECT#N)のみを前記SACデコーダ105の入力信号として利用しようとする場合を説明する。
【0087】
前記SAOCコーダ101は、入力される各々のオーディオオブジェクトのパワー大きさをサブバンド別に抽出してCLD値で抽出し、前記CLD値を含むSAOCビットストリームを生成する。任意のサブバンドmに対するパワー情報は、次のように獲得することができる。
【0088】
object#1,Pobject#2,・・・Pobject#N
ここで、Pobject#Nは、SAOCコーダ101によって出力される代表ダウンミックス信号のm番目バンドのパワー大きさである。したがって、オーディオオブジェクト除去部701に入力される代表ダウンミックス信号をu(n)とし、前記代表ダウンミックス信号を周波数領域に変換したものをU(f)とし、オーディオオブジェクト除去部701の出力信号、すなわち前記SACデコーダ105の入力信号をUmodified(f)とすれば、Umodified(f)は、前記SACコーダ201のダウンミックス信号のオーディオオブジェクト(OBJECT#N)と対応し、下記の数式10のように表すことができる。
【数10】

ここで、A(m)は、m番目のサブバンドの周波数領域で境界を示し、δは、レベルの大きさを調整するための任意の定数値であり、U(f)は、モノまたはステレオである。
【0089】
以下、U(f)がモノである場合を説明する。ただ、U(f)がステレオである場合、U(f)が左/右チャネルに分離して処理されること以外はモノの場合と同一である。
【0090】
前記Umodified(f)は、前記SACコーダ201のダウンミックス信号のオーディオオブジェクト(OBJECT#N)と同一に見られる。したがって、前記SACデコーダ105に入力される代表SACビットストリームは、前記代表SAOCビットストリームから前記SAOCビットストリームが除外されたビットストリームであって、SACコーダ201から出力されるSACビットストリームと同一に利用することができる。すなわち、前記SACデコーダ105は、OBJECT#Nを受信し、M個のマルチチャネル信号に復元できる。しかし、全体信号のレベルは、トランスコーダ103のレンダリング部303により調整されたり、または数式10に任意の定数値を乗算してOBJECT#Nの信号レベルを調整することによって調整できる。
【0091】
一方、一実施形態において、前記SACコーダ201のダウンミックス信号のオーディオオブジェクト(OBJECT#N)のみを前記SACデコーダ105の入力信号から除去する場合について説明する。前記数式10は、下記の数式11のように示される。
【数11】

【0092】
したがって、前記SACデコーダ105に入力される代表SACビットストリームは、前記代表SAOCビットストリームからSACコーダ201の前記SACビットストリームが除外されたビットストリームであって、レンダリング部303の第2行列に対する出力がないこととみられる。すなわち、前記トランスコーダ103は、代表SAOCビットストリーム部をパーシングし、OBJECT#Nに関する情報を除去した残りのオーディオオブジェクト情報のみをレンダリングして代表SACビットストリームを生成する。
【0093】
したがって、OBJECT#Nに該当するパワー利得情報、相関性情報などを代表SACビットストリームに含まない。前記数式11は数式10と同様に、δはレベルの大きさを調整するための任意の定数値であって、全体の出力信号レベルを調整することができる。
【0094】
前記オーディオオブジェクト除去部701は代表ダウンミックス信号からオーディオオブジェクトを除去し、除去命令はトランスコーダ103に入力される制御信号によって決定される。前記オーディオオブジェクト除去部701は、時間領域信号および周波数領域信号のすべてが適用可能である。また、前記代表ダウンミックス信号をサブバンドで分割するためにDFT(Discrete Fourier Transform)またはQMF(Quadrature Mirror Filterbank)を利用することができる。
【0095】
トランスコーダ103のレンダリング部303は、SAOCビットストリームまたはSACビットストリームを除去してSACデコーダ105に伝送し、前記オーディオオブジェクト除去部701は、前記SACデコーダ105に伝送されるビットストリームに対応されるようオーディオオブジェクトを適切に除去する。
【0096】
前記トランスコーダ103がSACデコーダ105に含まれる場合、前記トランスコーダ103から出力される代表SACビットストリームは、付加の変換過程なしでSACデコーダ105に伝送され得る。ここで、付加の変換過程とは、量子化やHuffmanコーディング方法のような一般的なコーディング過程を意味する。
【0097】
また、SAOCコーダ101がSACコーダ201と接続しないものと見なし、SACコーダ201の出力オーディオオブジェクトを除去したSAOCコーダ101に入力されるオーディオオブジェクト、すなわちOBJECT#1〜OBJECT#N−1のみを制御して復元することができる。
【0098】
図8は、図2のSACコーダ201およびSACデコーダ105をMPEGサラウンドコーダおよびデコーダに代替した場合を示す一実施形態の構造図である。
【0099】
同図に示すように、SACコーダ201はMPEGサラウンドコーダ(MPSコーダ)801に、SACデコーダ105はMPEGサラウンドデコーダ(MPSデコーダ)805に代替される。また、前記SAOCコーダ101から出力される代表ダウンミックス信号がステレオである場合、追加的に信号処理部803が要求される。
【0100】
前記MPSコーダ801は、図2のSACコーダ201と同一の役割を行なう。すなわち、前記MPSコーダ801は、入力されるマルチチャネルオーディオ信号から1つのオーディオオブジェクトを出力し、空間キューおよび付加情報を抽出してMPSビットストリームを生成する。前記出力された1つのオーディオオブジェクトは、ダウンミックスされたモノまたはステレオ信号である。
【0101】
また、前記MPSデコーダ805は、図2のSACデコーダ105と同一の役割を行なう。すなわち、前記MPSデコーダ805は、前記トランスコーダ103から出力される代表MPSビットストリームを利用し、前記SAOCコーダ101から出力されるダウンミックス信号または信号処理部803から出力される代表再ダウンミックス信号を多様なチャネルのマルチオブジェクトオーディオ信号に復元する。
【0102】
一方、前記信号処理部803は、前記SAOCコーダ101から出力される代表ダウンミックス信号がステレオである場合、すなわち前記MPSデコーダ805がステレオ信号を処理する場合、MPSデコーダ805がステレオ信号の左/右処理に制約されるために要求される。
【0103】
前記数式2は、一般的なSACデコーダでダウンミックス信号がM個に一般化された場合を示す。ダウンミックス信号がステレオである場合、復元される出力チャネル1に対する数式2は下記の数式12のとおりである。
【数12】

ここで、出力チャネルのベクトルは、すべてのダウンミックス信号に対して適用可能すべきであるが、現在MPSデコーダ805では不可能である。前記MPSデコーダ805は、下記の数式13のように、行列値が0に制限されるためである。
【数13】

【0104】
すなわち、出力チャネル1の復元において、U(k)要素が反映されないので、前記数式3、数式4、数式5によって生成されたWch_2が適用されない。したがって、ステレオ以上のレイアウトを有する信号に対して流動的な位置選定(flexible positioning)が不可能である。すなわち、ステレオ信号の左側信号および右側信号の相互間に自由なレンダリングが不可能である。
【0105】
しかし、前記信号処理部803を利用して前記SAOCコーダ101から出力される代表ダウンミックス信号を再度ダウンミックスし、代表再ダウンミックス信号として出力する。前記信号処理部803の処理過程は、下記の数式14のとおりである。
【数14】

【0106】
前記SAOCコーダ101から出力される代表ダウンミックス信号がステレオである場合、前記信号処理部803の出力信号は、下記の数式15のとおりである。
【数15】

ここで、ych_L(k)、ych_R(k)は、前記信号処理部803により出力される信号であって、前記MPSデコーダ805に入力される。ych_L(k)およびych_R(k)は、数式15のように左側信号および右側信号のレンダリングがすべて反映された信号であるため、前記MPSデコーダ805が前記数式13のように制限されても、前記MPSデコーダ805は、左側信号および右側信号が自由にレンダリングされた信号を出力することができる。
【0107】
例えば、前記W、WがMPSデコーダ805により5チャネルに復元される場合、前記数式14においてW、Wは次のように表現され得る。
【数16】

【0108】
前記したように、MPEGサラウンドの制約によってMPSデコーダ805がステレオ信号の処理が困難な場合、前記信号処理部803は、前記トランスコーダ103から伝送されたオブジェクト位置情報を利用し、再度ダウンミックスして代表再ダウンミックス信号を出力する。前記信号処理部803に伝送されるオブジェクト位置情報は、例えばレンダリング部303により提供され得る。ここで、レンダリング部303は、前述で説明したものと類似した方式で前記代表SAOCビットストリームに基づいて前記SAOCコーダ101およびMPSコーダ801に入力されるオーディオ信号に対し、MPSデコーダ805により出力されるオーディオ信号の左側信号および右側信号の各々に対する空間キュー情報が含まれた代表MPSビットストリームを生成することができる。
【0109】
前記MPSデコーダ805は、前記信号処理部803とともに動作することによって、図2のSACデコーダ105と同一の役割を行なうことができる。
【0110】
前記MPSデコーダ805は、前記信号処理部803から出力された代表再ダウンミックス信号を所望の出力、すなわち多様なチャネルを有するマルチオブジェクト信号に復元する。
【0111】
前記図2のSACデコーダ105または前記信号処理部803とともに動作する前記MPSデコーダ805の復号化方法は、マルチチャネルマルチオブジェクトダウンミックス信号およびマルチチャネルマルチオブジェクト付加情報(side information)信号を受信するステップと、前記マルチチャネルマルチオブジェクトダウンミックス信号をマルチチャネルダウンミックス信号に変換するステップと、前記マルチチャネルマルチオブジェクト付加情報信号をマルチチャネル付加情報信号に変換するステップと、前記変換されたマルチチャネルダウンミックス信号およびマルチチャネル付加情報信号を利用してオーディオ信号を合成するステップとを含む。
【0112】
前記マルチチャネルダウンミックス信号の変換ステップは、前記マルチチャネルマルチオブジェクト付加情報信号から獲得されるオブジェクト関連情報を利用し、前記マルチチャネルマルチオブジェクトダウンミックス信号からオブジェクト情報を除去するステップを含む。前記マルチチャネルダウンミックス信号の変換ステップは、前記マルチチャネルマルチオブジェクト付加情報信号から獲得されるオブジェクト関連情報を利用し、前記マルチチャネルマルチオブジェクトダウンミックス信号に含まれるオブジェクト情報を制御するステップを含む。
【0113】
ここで、前記マルチチャネルダウンミックス信号の変換ステップで、前記オブジェクト関連情報はオブジェクト制御情報によって制御され得る。ここで、前記オブジェクト関連情報は、復号化システム情報によって制御され得る。
【0114】
以上で説明された本発明に係る符号化および復号化過程は装置の観点で説明したが、前記装置に備えられた各装置的な構成要素は、プロセス的構成要素に代替され得、この場合、本発明に係る符号化および復号化過程は、方法の観点で理解されることができることは自明である。
【0115】
前述のような本発明の方法は、プログラムで具現され、コンピュータで読出し可能な形態で記録媒体(CD−ROM、 RAM 、 ROM、フロッピーディスク、ハードディスク、光磁気ディスクなど)に保存され得る。このような過程は、本発明が属する技術分野における通常の知識を有する者が容易に実施できるため、これ以上詳細に説明しない。
【0116】
以上で説明した本発明は、前述した実施形態および添付の図面によって限定されるのでなく、本発明の技術的な思想から脱離しない範囲内で様々な置換、変形、および変更が可能であることが、本発明が属する技術分野における通常の知識を有する者にとって明白であろう。

【特許請求の範囲】
【請求項1】
MPEGサラウンドデコードのために、空間キュー基盤オーディオコーディング方式でエンコードされたマルチオブジェクトオーディオ信号を変換するトランスコーディング装置であって、
エンコーダから伝送され、前記マルチオブジェクトオーディオ信号に対するレンダリング情報を含むビットストリームまたは外部から入力される前記マルチオブジェクトオーディオ信号に対するレンダリング情報に基づいて、前記マルチオブジェクトオーディオ信号に対する空間キュー情報が含まれたMPSビットストリームを生成するトランスコーディング手段と、
前記エンコーダから伝送されるビットストリームまたは外部から入力されるレンダリング情報に基づいて、前記エンコードされたマルチオブジェクトオーディオ信号をMPSデコードに適するように変換する信号処理手段と、
を備えることを特徴とするトランスコーディング装置。
【請求項2】
前記信号処理手段は、
下記の数式によって前記マルチオブジェクトオーディオ信号をMPSデコードに適するように変換することを特徴とする請求項1に記載のトランスコーディング装置。
【数1】

ただし、
【数2】

は、前記信号処理手段によりMPSデコードに適するように変換されるマルチオブジェクトオーディオ信号、
【数3】

は、前記マルチオブジェクトオーディオ信号に対するレンダリング情報、
【数4】

は、前記マルチオブジェクトオーディオ信号である。
【請求項3】
前記マルチオブジェクトオーディオ信号に対するレンダリング情報は、下記の数式のように表現されることを特徴とする請求項2に記載のトランスコーディング装置。
【数5】

【請求項4】
前記信号処理手段は、前記ビットストリームまたは外部から入力されるレンダリング情報として前記マルチオブジェクトオーディオ信号の出力位置情報に基づいて、前記マルチオブジェクトオーディオ信号をMPSデコードに適するように変換することを特徴とする請求項1に記載のトランスコーディング装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2013−101384(P2013−101384A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2013−11344(P2013−11344)
【出願日】平成25年1月24日(2013.1.24)
【分割の表示】特願2012−256586(P2012−256586)の分割
【原出願日】平成19年12月27日(2007.12.27)
【出願人】(596099882)エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート (179)
【氏名又は名称原語表記】ELECTRONICS AND TELECOMMUNICATIONS RESEARCH INSTITUTE
【Fターム(参考)】