説明

復号装置、復号方法、符号化装置、符号化方法、及び編集装置

多チャンネル音声信号を含む符号化音声信号を保存する保存手段(11)と、符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成する変換手段(40)と、変換ブロックベースの音声信号に、第1の窓関数と音声信号の混合比の積を第2の窓関数として乗算する窓処理手段(41)と、乗算された変換ブロックベースの音声信号を重ね合わせてそれぞれのチャンネルの音声信号を合成する合成手段(43)と、チャンネルの間でそれぞれのチャンネルの音声信号をミキシングして、ダウンミキシングされた音声信号を生成するミキシング手段(14)と、を備える復号装置(10)が開示されている。さらに、多チャンネル音声信号をダウンミキシングし、ダウンミキシングした音声信号を符号化し、符号化されたダウンミキシングされた音声信号を生成する、符号化装置が開示されている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号の復号及び符号化に関し、より詳細には、音声信号のダウンミキシングに関する。
【背景技術】
【0002】
近年、AC3(Audio Code number 3)、ATRAC(Adaptive TRansform Acoustic Coding)、AAC(Advanced Audio Coding)など、高い音質を実現するものが、音声信号の符号化のスキームとして利用されている。さらに、7.1チャンネル又は5.1チャンネルなどの多チャンネルの音声信号を利用してリアルな音響効果を再構築している。
【0003】
7.1チャンネル又は5.1チャンネルなどの多チャンネル音声信号がステレオオーディオ機器を用いて再生される際には、多チャンネル音声信号をステレオ音声信号にダウンミキシングする処理が実行される。
【0004】
例えば、符号化された5.1チャンネル音声信号をダウンミキシングし、ステレオオーディオ機器を用いてダウンミキシングされた音声信号を再生する場合、最初に、復号処理を実行して、左チャンネル、右チャンネル、中央チャンネル、左サラウンドチャンネル、右サラウンドチャンネル用の復号された5チャンネル音声信号を生成する。続いて、ステレオ左チャンネル音声信号を生成するため、左チャンネル、中央チャンネル、左サラウンドチャンネルのそれぞれの音声信号に、混合比係数を乗算して、得られた積を合計する。ステレオ右チャンネル音声信号を生成するため、右チャンネル、中央チャンネル、右サラウンドチャンネルのそれぞれの音声信号に対しても同様に乗算をして、合計する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2000−276196号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
一方で、音声信号を高速で処理する必要性が存在する。符号化された音声信号を復号して、ダウンミキシングする処理はソフトウェアでCPUを用いて実行されることが多いが、このCPUが同時に別の処理を実行している場合、処理速度は低下しやすくなり、多くの時間を要する場合がある。
【0007】
そこで、本発明は、新規で有用な復号装置、復号方法、符号化装置、符号化方法、及び編集装置を提供することを目的とする。本発明の個別の目的は、音声信号をダウンミキシングする際の乗算処理の数を削減する復号装置、復号方法、符号化装置、符号化方法、及び編集装置を提供することである。
【課題を解決するための手段】
【0008】
本発明の一態様によると、多チャンネル音声信号を含む符号化音声信号を保存する保存手段と、前記符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成する変換手段と、前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算する窓処理手段と、乗算された変換ブロックベースの音声信号を重ね合わせて多チャンネル音声信号を合成する合成手段と、チャンネルの間で合成された多チャンネル音声信号をミキシングして、ダウンミキシングされた音声信号を生成するミキシング手段と、を備える復号装置が提供される。
【0009】
本発明によると、ミキシングされる前に、音声信号は、第1の窓関数と音声信号の混合比との積である第2の窓関数によって乗算される。したがって、ミキシング手段は、多チャンネル音声信号をミキシングする際に混合比の乗算を実行することは不要となる。さらに、窓処理手段が音声信号に乗算する窓関数が、第1の窓関数から第2の窓関数に変更されたとしても、計算量は増加しない。したがって、音声信号のダウンミキシング時における乗算処理の数は減少する。
【0010】
本発明の他の態様によると、多チャンネル音声信号を含む符号化音声信号を保存するメモリと、CPUと、を備え、前記CPUは、前記符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成し、前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比との積を第2の窓関数として乗算し、乗算された変換ブロックベースの音声信号を重ね合わせて多チャンネル音声信号を合成し、チャンネルの間で合成された多チャンネル音声信号をミキシングして、ダウンミキシングされた音声信号を生成するように構成されていることを特徴とする、復号装置が提供される。
【0011】
本発明によると、上述の復号装置で説明した発明と同様の有利な効果を得ることができる。
【0012】
本発明の他の態様によると、多チャンネル音声信号を保存する保存手段と、前記多チャンネル音声信号をチャンネルの間でミキシングしてダウンミキシングされた音声信号を生成するミキシング手段と、前記ダウンミキシングされた音声信号を分離して変換ブロックベースの音声信号を生成する分離手段と、前記変換ブロックベースの音声信号に第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算する窓処理手段と、乗算された音声信号を変換して符号化音声信号を生成する変換手段と、を備える符号化装置が提供される。
【0013】
本発明によると、ミキシングされた音声信号に、第1の窓関数と音声信号の混合比との積を第2の窓関数として乗算する。したがって、ミキシング手段は、多チャンネル音声信号のミキシング時に、複数のチャンネルの少なくとも一部に対して混合比の乗算を実行することは不要となる。さらに、窓処理手段が音声信号に乗算する窓関数が、第1の窓関数から第2の窓関数に変更されたとしても、計算量は増加しない。したがって、音声信号のダウンミキシング時における乗算処理の数は減少する。
【0014】
本発明の他の態様によると、多チャンネル音声信号を保存するメモリと、CPUとを、備え、前記CPUは、前記多チャンネル音声信号をチャンネルの間でミキシングしてダウンミキシングされた音声信号を生成し、前記ダウンミキシングされた音声信号を分離して変換ブロックベースの音声信号を生成し、前記変換ブロックベースの音声信号に第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算し、乗算された音声信号を変換して符号化音声信号を生成するように構成されている、符号化装置が提供される。
【0015】
本発明によると、上述の符号化装置で説明した発明と同様の有利な効果を得ることができる。
【0016】
本発明の他の態様によると、多チャンネル音声信号を含む符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成するステップと、前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算するステップと、乗算された変換ブロックベースの音声信号を重ね合わせて多チャンネル音声信号を合成するステップと、チャンネルの間で合成された多チャンネル音声信号をミキシングして、ダウンミキシングされた音声信号を生成するステップと、を含む復号方法が提供される。
【0017】
本発明によると、ミキシングされる前に、音声信号は、第1の窓関数と音声信号の混合比との積である第2の窓関数によって乗算される。したがって、チャンネルの間の乗算された音声信号をミキシングしてミキシングされた音声信号を生成する際に、混合比の乗算を実行することは不要となる。さらに、音声信号に乗算する窓関数が、第1の窓関数から第2の窓関数に変更されたとしても、計算量は増加しない。したがって、音声信号のダウンミキシング時における乗算処理の数は減少する。
【0018】
本発明の他の態様によると、多チャンネル音声信号をチャンネルの間でミキシングしてダウンミキシングされた音声信号を生成するステップと、前記ダウンミキシングされた音声信号を分離して変換ブロックベースの音声信号を生成するステップと、前記変換ブロックベースの音声信号に第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算するステップと、乗算された音声信号を変換して符号化音声信号を生成するステップと、を含む、符号化方法が提供される。
【0019】
本発明によると、ミキシングされた音声信号に、第1の窓関数と音声信号の混合比との積を第2の窓関数として乗算する。したがって、多チャンネル音声信号のミキシング時に、複数のチャンネルの少なくとも一部に対して混合比の乗算を実行することは不要となる。さらに、音声信号に乗算する窓関数が、第1の窓関数から第2の窓関数に変更されたとしても、計算量は増加しない。したがって、音声信号のダウンミキシング時における乗算処理の数は減少する。
【発明の効果】
【0020】
本発明によると、音声信号のダウンミキシング時における乗算処理の数を削減する、復号装置、復号方法、符号化装置、符号化方法、及び編集装置を提供することができる。
【図面の簡単な説明】
【0021】
【図1】音声信号のダウンミキシングに関連する構成を説明するブロック図である。
【図2】音声信号の復号処理のフローを説明する図である。
【図3】本発明の第1の実施の形態に係る復号装置の構成を説明するブロック図である。
【図4】ストリームの構造を説明する図である。
【図5】チャンネル復号器の構成を説明する図である。
【図6A】窓関数保存部に保存されたスケール窓関数を説明する図である。
【図6B】窓関数保存部に保存されたスケール窓関数を説明する図である。
【図6C】窓関数保存部に保存されたスケール窓関数を説明する図である。
【図7】第1の実施の形態に係る復号装置の機能構成図である。
【図8】第1の実施の形態に係る復号装置を説明するフローチャートである。
【図9】音声信号の符号化処理のフローを説明する図である。
【図10】本発明の第2の実施の形態に係る符号化装置の構成を説明するブロック図である。
【図11】チャンネル符号化器の構成を説明するブロック図である。
【図12】第2の実施の形態に係る符号化装置のミキシング部をベースとした、ミキシング部の構成を説明するブロック図である。
【図13】第2の実施の形態に係る符号化装置の機能構成図である。
【図14】本発明の第2の実施の形態に係る符号化方法を説明するフローチャートで0ある。
【図15】本発明の第3の実施の形態に係る編集装置のハードウェア構成を説明するブロック図である。
【図16】第3の実施の形態に係る編集装置の機能構成図である。
【図17】編集装置の編集画面の一例を説明する図である。
【図18】本発明の第3の実施の形態に係る編集装置を説明するフローチャートである。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態について図面を参照して説明する。
【0023】
[第1の実施の形態]
本発明の第1の実施の形態に係る復号装置について、多チャンネル音声信号含む符号化音声信号をダウンミキシングされた音声信号に復号する復号装置及び復号方法を例に説明する。第1の実施の形態では、例示としてAACを用いるが、本発明はAACに限定されないことは言うまでもない。
【0024】
<ダウンミキシング>
図1は、5.1チャンネル音声信号のダウンミキシングに関連する構成を説明するブロック図である。
【0025】
図1に示すように、ダウンミキシングは乗算器700a〜700eと、加算器701a、701bによって実行される。
【0026】
乗算器700aは、左サラウンドチャンネルの音声信号LS0をダウンミックス係数δで乗算する。乗算器700bは、左チャンネルの音声信号L0をダウンミックス係数αで乗算する。乗算器700cは、中央チャンネルの音声信号C0をダウンミックス係数βで乗算する。ダウンミックス係数α、β、δは、それぞれのチャンネルの音声信号の混合比である。
【0027】
加算器701は、乗算器700aから出力される音声信号と、乗算器700bから出力される音声信号と、乗算器700cから出力される音声信号とを加算し、ダウンミキシングされた左チャンネル音声信号LDM0を生成する。同様に、右チャンネルについても、ダウンミキシングされた右チャンネル音声信号RDM0を生成する。
【0028】
<音声信号の復号処理>
図2は、音声信号の復号処理のフローを説明する図である。
【0029】
図2に示すように、復号処理では、MDCT(修正離散コサイン変換)係数440が、符号化音声信号(符号化された信号)を含むストリームをエントロピー復号し、逆量子化することによって再生される。MDCT係数440は、変換(MDCT)ブロックベースのデータで形成される。変換ブロックは所定長を有する。再生されたMDCT係数440は、IMDCT(逆MDCT)により時間領域の変換ブロックベースの音声信号に変換される。窓関数441によって、変換ブロックベースの音声信号を乗算して得られた信号442を重ね合わせて加算することによって、復号処理された音声信号443が生成される。
【0030】
<復号装置のハードウェア構成>
図3は、本発明の第1の実施の形態に係る復号装置の構成を説明するブロック図である。
【0031】
図3に示すように、復号装置10は、符号化された5.1チャンネル音声信号(符号化された信号)を含むストリームを保存する信号保存部11と、ストリームから符号化された5.1チャンネル音声信号を抽出する多重分離部12と、それぞれのチャンネルの音声信号に復号処理を実行するチャンネル復号器13a、13b、13c、13d、13eと、復号された5チャンネル音声信号をミキシングして、2チャンネル音声信号、即ち、ダウンミキシングされたステレオ音声信号を生成するミキシング部14とを備える。第1の実施の形態に係る復号処理は、AACに基づくエントロピー復号処理である。説明を容易にするため、本明細書のそれぞれの実施の形態では、低周波エフェクト(LFE)チャンネルについての説明は省略する。
【0032】
信号保存部11から出力されるストリームSは、符号化された5.1チャンネル音声信号を含む。
【0033】
図4は、ストリームの構造を説明する図である。
【0034】
図4に示すように、ここに示すストリームの構造は、ADTS(Audio Data Transport Stream)と呼ばれるストリームフォーマットを有する1フレーム(1024サンプルに相当する)の構造である。このストリームは、ヘッダ450と、CRC451から始まり、続く符号化されたAACデータを含む。
【0035】
ヘッダ450は、同期ワード、プロファイル、サンプリング周波数、チャンネル構成、著作権情報、デコーダバッファ満杯量(decoder buffer fullness)、1フレーム長(バイト数)などを含む。CRC451は、ヘッダ450と符号化データのエラーを検出するチェックサムである。SCE(Single Channel Element)452は、符号化された中央チャンネル音声信号であり、使用した窓関数と量子化などの情報に加えて、エントロピー符号化されたMDCT係数を含む。CPE(Channel Pair Element)453、454は、符号化されたステレオ音声信号であり、ジョイントステレオ情報に加えて、それぞれのチャンネルの符号化情報を含む。ジョイントステレオ情報は、M/S(Mid/Side)ステレオを使用するか否かを表す情報であり、M/Sステレオを使用するとした場合、M/Sステレオを使用する周波数帯を示す。符号化情報は、使用した窓関数、量子化、符号化されたMDCT係数などに関する情報を含む。
【0036】
ジョイントステレオを使用する場合、ステレオには同一の窓関数を使用する必要がある。この場合、使用した窓関数の情報は、CPE453、454の一つに結合される。CPE453は左チャンネルと右チャンネルに対応し、CPE454は左サラウンドチャンネルと右サラウンドチャンネルに対応する。LFE(LFE Channel Element)455は、LFEチャンネルの符号化音声信号であり、SCE452とほぼ同様の情報を含む。しかしながら、使用可能な窓関数、又は、使用可能なMDCT係数の範囲には制限がある。FIL(Fill Element)456は、デコーダバッファのオーバーフローを回避するために必要に応じて挿入されるパッディングである。
【0037】
多重分離部12は、上述の構造を有するストリームから、それぞれのチャンネル(符号化された信号LSlO、LlO、ClO、RlO、RSlO)の符号化音声信号を抽出し、それぞれのチャンネルの音声信号を、対応するそれぞれのチャンネルのチャンネル復号器13a、13b、13c、13d、13eに出力する。
【0038】
チャンネル復号器13aは、左サラウンドチャンネルの音声信号を符号化して得た符号化された信号LS10の復号処理を実行する。チャンネル復号器13bは、左チャンネルの音声信号を符号化して得た符号化された信号L10の復号処理を実行する。チャンネル復号器13cは、中央チャンネルの音声信号を符号化して得た符号化された信号C10の復号処理を実行する。チャンネル復号器13dは、右チャンネルの音声信号を符号化して得た符号化された信号R10の復号処理を実行する。チャンネル復号器13eは、右サラウンドチャンネルの音声信号を符号化して得た符号化された信号RS10の復号処理を実行する。
【0039】
ミキシング部14は、加算器30a、30bを含む。加算器30aは、チャンネル復号器13aによって処理された音声信号LS11と、チャンネル復号器13bによって処理された音声信号L11と、チャンネル復号器13cによって処理された音声信号C11と、を加算して、ダウンミキシングされた左チャンネル音声信号LDM10を生成する。加算器30bは、チャンネル復号器13cによって処理された音声信号C11と、チャンネル復号器13dによって処理された音声信号R11と、チャンネル復号器13eによって処理された音声信号RS11と、を加算して、ダウンミキシングされた右チャンネル音声信号RDM10を生成する。
【0040】
図5は、チャンネル復号器の構成を説明するブロック図である。図3に示すチャンネル復号器13a、13b、13c、13d、13eのそれぞれの構成は基本的に同じであるので、チャンネル復号器13aの構成を図5に示す。
【0041】
図5に示すように、チャンネル復号器13aは、変換部40と、窓処理部41と、窓関数保存部42と、変換ブロック合成部43とを含む。変換部40は、エントロピー復号部40aと、逆量子化部40bと、IMDCT部40cとを含む。それぞれの構成部によって実行される処理は、多重分離部12から出力される制御信号によって制御される。
【0042】
エントロピー復号部40aは、エントロピー復号により符号化音声信号(ビットストリーム)を復号して量子化MDCT係数を生成する。逆量子化部40bは、エントロピー復号部40aから出力された量子化MDCT係数を逆量子化して、逆量子化MDCT係数を生成する。IMDCT部40cは、逆量子化部40bから出力されたMDCT係数を、IMDCTにより時間領域の音声信号に変換する。数式(1)は、IMDCTの変換を表す。
【数1】

【0043】
数式(1)において、Nは、窓長(サンプル数)を表し、spec[i][k]は、MDCT係数を表す。iは、変換ブロックのインデックスを表し、kは、MDCT係数のインデックスを表し、Xi,nは、時間領域の音声信号を表し、nは、時間領域の音声信号のインデックスを表し、nは、(N/2+1)/2を表す。
【0044】
窓処理部41は、スケール窓関数(Scaled Window Function)により、変換部40から出力される時間領域の音声信号を乗算する。スケール窓関数とは、音声信号の混合比であるダウンミックス係数と、正規化窓関数との積である。窓関数保存部42は、窓処理部41が音声信号に乗算する窓関数を保存して、該窓関数を窓処理部41に出力する。
【0045】
図6A〜6Cは、窓関数保存部42に保存されたスケール窓関数を説明する図である。図6Aは、左チャンネルと右チャンネルの音声信号に乗算されるスケール窓関数を示す。図6Bは、中央チャンネルの音声信号に乗算されるスケール窓関数を示す。図6Cは、左サラウンドチャンネルと右サラウンドチャンネルの音声信号に乗算されるスケール窓関数を示す。
【0046】
図6Aに示すように、N個の離散値αW、αW、αW、・・・、αWN−1が、左チャンネル及び右チャンネルの音声信号に乗算するスケール窓関数として、窓関数保存部42(図5)に準備されている。Wm(m=0、1、2、・・・、N−1)は、ダウンミックス係数を含まない、正規化窓関数の値である。αWm(m=0、1、2、・・・、N−1)は、音声信号Xi、mに乗算する窓関数の値であり、インデックスmに対応する窓関数値Wmにダウンミックス係数αを乗算することによって得られる。即ち、αW、αW、αW、・・・、αWN−1は、窓関数値W、W、W、・・・、WN−1をα倍することによって得られた値である。
【0047】
窓関数保存部42は、N個の値全てを保存する必要はなく、窓関数保存部42は、窓関数の対称性を利用して、N/2個の値のみを保存してもよい。さらに、窓関数は、全てのチャンネルに必要とされるのではなく、スケール窓関数は、同一の倍率を有するチャンネルによって共有されてもよい。
【0048】
窓処理部41は、図6Aに示すように、変換部40から出力される音声信号を形成するN個のデータの各々に、窓関数値を乗算する。即ち、窓処理部41は、数式(1)によって表されるデータxi、0に窓関数値αW0を乗算し、データxi、1に窓関数値αW1を乗算する。他の窓関数値に対しても同様である。AACでは、窓長の異なる複数種類の窓関数が組み合わされて使用されるため、Nの値は窓関数の種類に応じて変化することに留意されたい。
【0049】
さらに、図6Bに示すように、N個の離散値βW、βW、βW、・・・、βWN−1が、中央チャンネルの音声信号に乗算するスケール窓関数として、窓関数保存部42(図5)に準備されている。
【0050】
さらに、図6Cに示すように、N個の離散値δW、δW、δW、・・・、δWN−1が、左サラウンドチャンネル及び右サラウンドチャンネルの音声信号に乗算するスケール窓関数として、窓関数保存部42(図5)に準備されている。
【0051】
図6B及び図6Cに示すそれぞれの値の定義については、図6Aに示すそれぞれの値の定義と同様である。さらに、図6B及び図6Cのそれぞれの値に対する窓処理部41の処理の詳細については、図6Aに示すそれぞれの値に対する窓処理部41の処理と同様である。
【0052】
以下の数式(2)は、ダウンミックス係数αの代表的な数式である。数式(3)は、ダウンミックス係数β及びδの代表的な数式である。
【数2】

【数3】

【0053】
図6A〜図6Cに示す値W、W、W、・・・、WN−1を算出するために、様々な関数を窓関数として使用することができる。例えば、正弦(sine)窓を使用することができる。以下に示す数式(4)及び(5)は、正弦窓関数である。
【数4】

【数5】

【0054】
上述の正弦窓の代わりに、KBD窓(カイザーベッセル派生窓)を使用することもできる。
【0055】
変換ブロック合成部43は、窓処理部41から出力された変換ブロックベースの音声信号を重ね合わせて、復号処理が行われた音声信号を合成する。以下の数式(6)は、変換ブロックベースの音声信号の重ね合わせを表す。
【数6】

【0056】
数式(6)において、iは、変換ブロックのインデックスを表す。nは、変換ブロックにおける音声信号のインデックスを表す。outi、nは、重ね合わされた音声信号を表す。zは、窓関数によって乗算された変換ブロックベースの音声信号を表し、zi、nは、スケール窓関数w(n)と時間領域の音声信号xi、nとを用いて以下の数式(7)によって表される
【数7】

【0057】
数式(6)によると、音声信号outi、nは、変換ブロックiの前部半分の音声信号を、変換ブロックiの直前の変換ブロック変換ブロックi−1の後部半分に加えて生成している。長い窓を使用する場合、数式(6)によって表されるouti、nは、1フレームに相当する。さらに、短い窓を使用する場合、8つの変換ブロックを重ね合わせて得られる音声信号が1フレームに相当する。
【0058】
上述のように、チャンネル復号器13a、13b、13c、13d、13eにより生成されるそれぞれのチャンネルの音声信号は、ミキシング部14によってミキシングされ、ダウンミキシングされる。チャンネル復号器13a、13b、13c、13d、13eの処理によって、ダウンミックス係数の乗算が行われるため、ミキシング部14は、ダウンミックス係数を掛け合わせない。このようにして、音声信号のダウンミキシングが完了する。
【0059】
第1の実施の形態の復号装置によると、ダウンミックス係数によって乗算された窓関数は、ミキシング部14によって処理されていない音声信号に乗算される。したがって、ミキシング部14は、ダウンミックス係数を乗算する必要はない。ダウンミックス係数の乗算を実行しないので、音声信号をダウンミキシングする際の乗算処理の数を減らすことができ、結果として音声信号の処理が高速となる。さらに、従来のダウンミキシングにおいてダウンミックス係数の乗算に必要とされた乗算器を省くことができるので、回路の規模及び電力消費を削減できる。
【0060】
<復号装置の機能構成>
上述の復号装置10の機能は、プログラムを使用したソフトウェア処理として具現化してもよい。
【0061】
図7は、第1の実施の形態に係る復号装置の機能構成図である。
【0062】
図7に示すように、CPU200は、メモリ210に展開されたアプリケーションプログラムによって変換部201、窓処理部202、変換ブロック合成部203、ミキシング部204の各機能ブロックを構成する。変換部201の機能は、図5に示す変換部40の機能と同様である。窓処理部202の機能は、図5に示す窓処理部41の機能と同様である。変換ブロック合成部203の機能は、図5に示す変換ブロック合成部43の機能と同様である。ミキシング部204の機能は、図3に示すミキシング部14の機能と同様である。
【0063】
メモリ210は、信号保存部211と窓関数保存部212の機能ブロックを構成する。信号保存部211の機能は、図3に示す信号保存部11の機能と同様である。窓関数保存部212の機能は、図3に示す窓関数保存部42の機能と同様である。メモリ210は、ROM(Read Only Memory)、RAM(Random Access Memory)の何れか一つ、あるいは、両方を含んでもよい。本実施の形態では、メモリ210はROMとRAMの両方を含むものとして説明を進める。メモリ210は、ハードディスクドライブ(HDD)、半導体メモリ、磁気テープドライブ、光ディスクドライブなどの記録媒体を含む装置であってもよい。CPU200によって実行されるアプリケーションプログラムは、ROM又はRAMに保存してもよく、あるいは、上述の記録媒体を有するHDDなどに保存してもよい。
【0064】
音声信号の復号機能は、上述のそれぞれの機能ブロックによって具現化される。CPU200によって処理される(符号化信号を含む)音声信号は、信号保存部211に保存される。CPU200は、復号処理を行う符号化信号を信号保存部211から読み出し、変換部201を用いて符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成する。ここで、変換ブロックは所定長を有するものとする。
【0065】
さらに、CPU200は、窓処理部202を用いて窓関数を時間領域の音声信号に乗算する処理を実行する。この処理において、CPU200は、音声信号に乗算する窓関数を窓関数保存部212から読み出す。さらに、CPU200は、変換ブロックベースの音声信号を重ね合わせて、変換ブロック合成部203を用いて復号処理を行う音声信号を合成する処理を実行する。
【0066】
さらに、CPU200は、ミキシング部204を用いて音声信号をミキシングする処理を実行する。ダウンミキシングされた音声信号は、信号保存部211に保存される。
【0067】
<復号方法>
図8は、本発明の第1の実施の形態に係る復号方法を説明するフローチャートである。本発明の第1の実施の形態に係る復号方法について図8を参照して、5.1チャンネル音声信号を復号してダウンミキシングする例を用いて説明する。
【0068】
最初にステップS100において、CPU200は、左サラウンドチャンネル(LS)、左チャンネル(L)、中央チャンネル(C)、右チャンネル(R)、右サラウンドチャンネル(RS)を含む、それぞれのチャンネルの音声信号を符号化して得られた符号化信号を時間領域の変換ブロックベースの音声信号に変換する。ここで、変換ブロックは所定長を有するものとする。この変換において、エントロピー復号、逆量子化、IMDCTを含む各処理が実行される。
【0069】
続いて、ステップS110において、CPU200は、窓関数保存部212からスケール窓関数を読み出し、これらの窓関数を時間領域の変換ブロックベースの音声信号に乗算をする。上述のように、スケール窓関数とは、正規化窓関数と音声信号の混合比であるダウンミックス係数の積である。さらに、一例として、スケール窓関数は、それぞれのチャンネル毎に用意されており、それぞれのチャンネルに対応する窓関数がそれぞれのチャンネルの音声信号に乗算される。
【0070】
続けて、ステップS120において、CPU200は、ステップS110で処理された変換ブロックベースの音声信号を重ね合わせ、復号処理を実行した音声信号を合成する。復号処理を実行した音声信号をステップS110においてダウンミックス係数に乗算していることに留意されたい。
【0071】
続いて、ステップS130において、CPU200は、ステップS120において復号処理が実行された5チャンネル音声信号をミキシングして、ダウンミキシングされた左チャンネル(LDM)音声信号とダウンミキシングされた右チャンネル音声信号(RDM)音声信号を生成する。
【0072】
具体的には、CPU200は、ステップS120において合成された左サラウンドチャンネル(LS)音声信号と、ステップS120において合成された左チャンネル(L)音声信号と、ステップS120において合成された中央チャンネル(C)音声信号とを加算して、ダウンミキシングされた左チャンネル(LDM)音声信号を生成する。さらに、CPU200は、ステップS120において合成された中央チャンネル(C)音声信号と、右チャンネル(R)音声信号と、ステップS120において合成された右サラウンドチャンネル(RS)音声信号と加算して、ダウンミキシングされた右チャンネル(RDM)音声信号を生成する。従来技術とは事なり、このステップS130においては、加算処理のみを実行し、ダウンミックス係数の乗算処理を実行しないことが重要である。
【0073】
第1の実施の形態の復号方法によると、ステップS110においてダウンミックス係数によって乗算された窓関数は、まだミキシングされていない音声信号に乗算される。したがって、ステップS130では、ダウンミックス係数の乗算を実行することは不要となる。ダウンミックス係数の乗算を実行しないので、ステップS130の音声信号をダウンミキシングする際の乗算処理の数を減らすことができ、結果として、音声信号の処理が高速となる。
【0074】
第1の実施の形態に係る窓処理は、MDCTブロックの長さに依存することなく、適用可能であるため、処理を簡易化することができる。例えば、AACには2つの長さの窓関数(長い窓長と短い窓長)が存在するが、これらの窓長のいずれか一つを使用した場合であっても、各チャンネル毎に長い窓長と短い窓長を任意に組み合わせた場合であっても、第1の実施の形態に係る窓処理は適用可能であるので、処理を簡易化することができる。さらに、第2の実施の形態で説明するが、第1の実施の形態に係る窓処理と同一の窓処理を符号化処理に適用することができる。
【0075】
第1の実施の形態の修正例として、MSステレオを左チャンネルと右チャンネルに行う場合、即ち、和信号と差信号によって左チャンネルと右チャンネルの音声信号を構築する場合、MSステレオ処理は、逆量子化処理の後、又は、IMDCT処理の前に実行して、和信号と差信号から左チャンネルと右チャンネルの音声信号を生成してもよい。MSステレオは、左サラウンドチャンネル及び右サラウンドチャンネルに使用してもよい。
【0076】
さらに、第1の実施の形態の別の修正例として、[−1.0、1.0]の範囲を有する復号信号を、所定のビット精度を有するように、所定のゲイン係数を乗算して拡大又は縮小し、復号装置からスケール信号(Scaled Signal)を出力し、ゲイン係数で乗算された窓関数を復号時に信号に乗算する場合について説明する。例えば、16ビット信号を復号装置から出力する場合、ゲイン係数は215に設定する。こうすることにより、復号された後にゲイン係数によって信号を乗算する必要はないので、上述と同様の有利な効果を得ることができる。
【0077】
さらに、第1の実施の形態の別の修正例として、ダウンミックス係数によって乗算された基底関数を、IMDCT実行時にMDCT係数に乗算してもよい。こうすることによって、ダウンミキシング時にダウンミックス係数の乗算を実行することが不要となるので、上述と同様の有利な効果を得ることができる。
【0078】
[第2の実施の形態]
本発明の第2の実施の形態に係る符号化装置について、多チャンネル音声信号からダウンミキシングされた符号化音声信号を生成する符号化装置及び符号化方法を例に説明する。第2の実施の形態では、例示としてAACを用いるが、本発明はAACに限定されないことは言うまでもない。
【0079】
<音声信号の符号化処理>
図9は、音声信号の符号化処理のフローを説明する図である。
【0080】
図9に示すように、符号化処理において、一定の間隔を有する変換ブロック461が、処理対象の音声信号460から切り取られ(分離され)、窓関数462によって乗算される。同時に、音声信号460のサンプルされた値が、予め算出されている窓関数の値によって乗算される。それぞれの変換ブロックは他の変換ブロックに対して重ね合わされるように設定される。
【0081】
窓関数462によって乗算された時間領域の音声信号463は、MDCTによってMDCT係数464に変換される。MDCT係数464は、量子化され、エントロピー符号化されて符号化音声信号(符号化信号)を含むストリームを生成する。
【0082】
<符号化装置のハードウェア構成>
図10は、本発明の第2の実施の形態に係る符号化装置の構成を説明する図である。
【0083】
図10に示すように、符号化装置20は、5.1チャンネル音声信号を保存する信号保存部21と、それぞれのチャンネルの音声信号をミキシングして2チャンネルのダウンミキシングされたステレオ音声信号を生成するミキシング部22と、音声信号の符号化処理を実行するチャンネル符号化器23a、23bと、2チャンネル符号化音声信号を多重化して、ストリームを生成する多重化部24と、を含む。第2の実施の形態に係る符号化処理は、AACに基づくエントロピー符号化処理である。
【0084】
ミキシング部22は、乗算器50a、50c、50eと、加算器51a、51bとを有する。乗算器50aは、所定の係数δ/αで左サラウンドチャンネル音声信号LS20を乗算する。乗算器50cは、所定の係数β/αで中央チャンネル音声信号C20を乗算する。乗算器50eは、所定の係数δ/αで右サラウンドチャンネル音声信号RS20を乗算する。
【0085】
加算器51aは、乗算器50aから出力される音声信号LS21と、信号保存部21から出力された左チャンネル音声信号L20と、乗算器50cから出力される音声信号C21とを加算して、ダウンミキシングされた左チャンネル音声信号LDM20を生成する。加算器51bは、乗算器50cから出力される音声信号C21と、信号保存部21から出力された右チャンネル音声信号R20と、乗算器50eから出力される音声信号RS21とを加算して、ダウンミキシングされた右チャンネル音声信号RDM20を生成する。
【0086】
チャンネル符号化器23aは、左チャンネル音声信号LDM20の符号化処理を実行する。チャンネル符号化器23bは、右チャンネル音声信号RDM20の符号化処理を実行する。
【0087】
多重化部24は、チャンネル符号化器23から出力された音声信号LDM32と、チャンネル符号化器23bから出力された音声信号RDM21とを多重化してストリームSを生成する。
【0088】
図11は、チャンネル符号化器の構成を説明するブロック図である。図10に示すそれぞれのチャンネル符号化器23a、23bは基本的に同様であるので、チャンネル符号化器23aの構成を図11を参照して説明する
【0089】
図11に示すように、チャンネル符号化器23は、変換ブロック分離部60と、窓処理部61と、窓関数保存部62と、変換部63とを含む。
【0090】
変換ブロック分離部60は、入力された音声信号を変換ブロックベースの音声信号に分離する。変換ブロックは所定長を有する。
【0091】
窓処理部61は、変換ブロック分離部60から出力された音声信号を、スケール窓関数によって乗算する。スケール窓関数とは、音声信号の混合比を決定するダウンミックス係数と正規化窓関数との積である。第1の実施の形態と同様に、KBD窓又は正弦窓など、様々な関数を窓関数として使用することができる。窓関数保存部62は、窓処理部612が音声信号に乗算する窓関数を保存し、当該窓関数を窓処理部61に出力する。
【0092】
変換部63は、MDCT部63aと、量子化部63bと、エントロピー符号化部63cとを含む。
【0093】
MDCT部63aは、窓処理部61から出力される時間領域の音声信号をMDCTによってMDCT係数に変換する。数式(8)はMDCT変換を表す。
【数8】

【0094】
数式(8)において、Nは、窓長(サンプル数)を表し、zi、nは、窓関数を掛け合わせた時間領域の音声信号を表す。iは、変換ブロックのインデックスを表す。nは時間領域の音声信号のインデックスを表す。Xi,kは、MDCT係数を表す。kは、MDCT係数のインデックスを表す。nは、(N/2+1)/2を表す。
【0095】
量子化部63bは、MDCT部63aから出力されたMDCT係数を量子化して、量子化MDCT係数を生成する。エントロピー符号化部63cは、量子化MDCT係数をエントロピー符号化によって符号化して符号化音声信号(ビットストリーム)を生成する。
【0096】
図12は、本発明の第2の実施の形態に係る符号化装置のミキシング部をベースとするミキシング部の構成を説明するブロック図である。
【0097】
図12に示すように、ミキシング部65は、図10に示すミキシング部22に相当する。ミキシング部65は、乗算器50a、50c、50eと、加算器51a、51bとを有する。乗算器50aは、所定の係数δ0で左サラウンドチャンネル音声信号LS20を乗算する。乗算器50bは、所定の係数α0で左チャンネル音声信号L20を乗算する。乗算器50cは、所定の係数β0で中央チャンネル音声信号C20を乗算する。乗算器50dは、所定の係数α0で右チャンネル音声信号R20を乗算する。乗算器50eは、所定の係数δ0で右サラウンドチャンネル音声信号RS20を乗算する。
【0098】
加算器51aは、乗算器50aから出力される音声信号LS21と、乗算器50bから出力される音声信号L21と、乗算器50cから出力される音声信号C21とを加算して、ダウンミキシングされた左チャンネル音声信号LDM30を生成する。加算器51bは、乗算器50cから出力される音声信号C21と、乗算器50dから出力される音声信号R21と、乗算器50eから出力される音声信号RS21とを加算して、ダウンミキシングされた右チャンネル音声信号RDM30を生成する。
【0099】
ミキシング部65は、図1に示すものと同様のダウンミキシングを実行する。ここで、ダウンミックス係数がα、β、δで表され、ダウンミックス係数αは図12に示す係数α0に設定され、ダウンミックス係数βは図12に示す係数β0に設定され、ダウンミックス係数δは図12に示す係数δ0に設定される。これらの係数α0、β0、δ0を適当な値に設定することにより、乗算の回数をミキシング部65の回数と比較して削減する、ミキシング部を構築することができる。
【0100】
図12とともに図10を再び参照する。ミキシング部における、左チャンネル音声信号L20と右チャンネル音声信号R20に乗算する係数は1(=α/α)に設定される。中央チャンネル音声信号C20に乗算する係数は、ダウンミックス係数βをダウンミックス係数αで除算して得られる値(=β/α)に設定される。左サラウンドチャンネル音声信号LS20と右サラウンドチャンネル音声信号RS20に乗算する係数はダウンミックス係数δをダウンミックス係数αで除算して得られる値(=δ/α)に設定される。
【0101】
即ち、第2の実施の形態によると、音声信号に乗算する係数は、図1に示す音声信号に乗算するそれぞれの係数を、ダウンミックス係数αの逆数(1/α)で乗算して得た値となる。さらに、図10に示すように、左チャンネル音声信号L20と右チャンネル音声信号R20に乗算する係数は1に設定しているので、左チャンネル音声信号L20と右チャンネル音声信号R20に乗算を実行することは不要となる。したがって、ミキシング部65の乗算器50b、50dはミキシング部22から省略される。
【0102】
音声信号に乗算するそれぞれの係数にダウンミックス係数の逆数(=1/α)を乗算することを省略するためには、ダウンミックス係数αによってダウンミキシングされた音声信号を乗算する必要がある。第2の実施の形態では、窓処理部61が音声信号に乗算する窓関数を、ダウンミックス係数αによって窓関数を乗算して得られたスケール窓関数に設定する。したがって、音声信号に乗算するそれぞれの係数にダウンミックス係数αの逆数(=1/α)の乗算を行うことは省略される。
【0103】
再び図10を参照する。ダウンミックス係数であるαとβがお互いに等しい、又は、ダウンミックス係数であるαとδはお互いに等しい場合、β/α又はδ/αは1となるので、左チャンネルと右チャンネルに関連する乗算器に加えて、乗算器50c又は乗算器50aと50eは省略することができる。ダウンミックス係数α、β、δがお互いに等しい場合、β/αとδ/αは1となり、全てのチャンネルに関連する乗算器は省略することができる。
【0104】
さらに、上述の説明において、音声信号に乗算するそれぞれの係数は、ダウンミックス係数αの逆数(=1/α)によって乗算されるとしたが、音声信号に乗算するそれぞれの係数は、ダウンミックス係数βの逆数(=1/β)又は、ダウンミックス係数δの逆数(=1/δ)によって乗算してもよい。
【0105】
音声信号に乗算するそれぞれの係数をダウンミックス係数βの逆数(=1/β)で乗算する場合、窓処理部61が音声信号に乗算するスケール窓関数は、ダウンミックス係数βと正規化窓関数の積となる。さらに、ミキシング部22の構成は、図12のミキシング部65の構成から乗算器50cを省いたものとなる。
【0106】
音声信号に乗算するそれぞれの係数をダウンミックス係数δの逆数(=1/δ)で乗算する場合、窓処理部61が音声信号に乗算するスケール窓関数は、ダウンミックス係数δと正規化窓関数の積となる。さらに、ミキシング部22の構成は、図12のミキシング部65の構成から乗算器50a、50eを省いたものとなる。
【0107】
第2の実施の形態の符号化装置によると、ダウンミックス係数によって乗算される窓関数は、ミキシング部22によって処理された音声信号に乗算される。したがって、ミキシング部22は、チャンネルの少なくとも一部にダウンミックス係数の乗算を実行することは不要となる。このため、音声信号をダウンミキシングする際の乗算処理の数を減らすことができ、結果として音声信号の処理が高速となる。さらに、従来のダウンミキシングにおいてダウンミックス係数の乗算に必要であった乗算器を不要とすることができるので、回路の規模及び電力消費を削減できる。
【0108】
例えば、ダウンミックス係数がチャンネルに応じて異なるとしても、ミキシング部22におけるダウンミックス係数の乗算を少なくとも一つのチャンネルで省略できる。特に、複数のチャンネルのダウンミックス係数が等しい場合には、ミキシング部22におけるダウンミックス係数の乗算をさらに省略することができる。
【0109】
<符号化装置の機能構成>
符号化装置20の上述の機能は、プログラムを用いたソフトウェア処理によって具現化してもよい。
【0110】
図13は、第2の実施の形態に係る符号化装置の機能構成図である。
【0111】
図13に示すように、CPU300は、メモリ310に展開されるアプリケーションプログラムを用いて、ミキシング部301、変換ブロック分離部302、窓処理部303、変換部304のそれぞれの機能ブロックを構成する。ミキシング部301の機能は、図10に示すミキシング部22と同様である。変換ブロック分離部302の機能は、図11に示す変換ブロック分離部60と同様である。窓処理部303の機能は、図11に示す窓処理部61と同様である。変換部304の機能は、図11に示す変換部63と同様である。
【0112】
メモリ310は、信号保存部311と窓関数保存部312の機能ブロックを構成する。信号保存部311の機能は、図10に示す信号保存部21の機能と同様である。窓関数保存部312の機能は、図11に示す窓関数保存部62の機能と同様である。メモリ310は、ROM(Read Only Memory)、RAM(Random Access Memory)の何れか一つ、あるいは、両方を含んでもよい。本実施の形態では、メモリ310はROMとRAMの両方を含むものとして説明を進める。メモリ310は、ハードディスクドライブ(HDD)、半導体メモリ、磁気テープドライブ、光ディスクドライブなどの記録媒体を含む装置であってもよい。CPU300によって実行されるアプリケーションプログラムは、ROM又はRAMに保存してもよく、あるいは、上述の記録媒体を有するHDDなどに保存してもよい。
【0113】
音声信号の符号化機能は、上述のそれぞれの機能ブロックによって具現化される。CPU300によって処理される(符号化信号を含む)音声信号は、信号保存部311に保存される。CPU300は、メモリ310からダウンミキシングする音声信号を読み出し、ミキシング部301を用いて当該音声信号をミキシングする処理を実行する。
【0114】
さらに、CPU300は、変換ブロック分離部302を用いてダウンミキシングされた音声信号を分離して、時間領域の変換ブロックベースの音声信号を生成する処理を実行する。ここで、変換ブロックは所定長を有する。
【0115】
さらに、CPU300は、ダウンミキシングされた音声信号を、窓処理部303を用いて窓関数によって乗算する処理を実行する。この処理で、CPU300は、窓関数保存部312から音声信号に乗算する窓関数を読み出す。
【0116】
さらに、CPU300は、変換部304を用いて音声信号を変換して、符号化音声信号を生成する処理を実行する。符号化音声信号は、信号保存部311に保存される。
【0117】
<符号化方法>
【0118】
図14は、本発明の第2の実施の形態に係る符号化方法を説明するフローチャートである。本発明の第2の実施の形態に係る符号化方法について図14を参照して、5.1チャンネル音声信号をダウンミキシングして符号化する例を用いて説明する。
【0119】
最初に、ステップS200において、CPU300は、左サラウンドチャンネル(LS)、左チャンネル(L)、中央チャンネル(C)、右チャンネル(R)、右サラウンドチャンネル(RS)を含む、それぞれのチャンネルの音声信号の一部を係数によって乗算し、得られた信号をミキシングして、ダウンミキシングした左チャンネル(LDM)音声信号とダウンミキシングした右チャンネル(RDM)音声信号を生成する。
【0120】
具体的には、CPU300は、左サラウンドチャンネル(LS)音声信号には係数δ/αを乗じて、中央チャンネル(C)音声信号には係数β/αを乗じる。左チャンネル(L)には係数の乗算を実行しない。CPU300は、係数δ/αを乗じた左サラウンドチャンネル(LS)音声信号と、左チャンネル(L)音声信号と、係数β/αを乗じた中央チャンネル(C)音声信号とを加算して、ダウンミキシングした左チャンネル(LDM)音声信号を生成する。
【0121】
さらに、CPU300は、中央チャンネル(C)音声信号に係数β/αを乗じて、右サラウンドチャンネル(RS)音声信号に係数δ/αを乗じる。右チャンネル(R)音声信号に係数の乗算は実行しない。CPU300は、係数β/αを乗じた中央チャンネル(C)音声信号と、右チャンネル(R)音声信号と、係数δ/αを乗じた右サラウンドチャンネル(RS)音声信号とを加算して、ダウンミキシングした右チャンネル(RDM)音声信号を生成する。
【0122】
続いて、ステップS210において、CPU300は、ステップS200でダウンミキシングされた音声信号を分離して時間領域の変換ブロックベースの音声信号を生成する。変換ブロックは所定長を有する。
【0123】
続いて、ステップS220において、CPU300は、メモリ310の窓関数保存部312から窓関数を読み出し、ステップS210で生成された音声信号を当該窓関数によって乗算する。窓関数は、ダウンミックス係数の除算から得られたスケール窓関数である。さらに、一例では、窓関数をそれぞれのチャンネルに用意しておき、それぞれのチャンネルに対応する窓関数をそれぞれのチャンネルの音声信号に乗算する。
【0124】
続いて、ステップS230において、CPU300は、ステップS220で処理された音声信号を変換して符号化音声信号を生成する。この変換では、MDCT、量子化、エントロピー符号化を含むそれぞれの処理を実行する。
【0125】
第2の実施の形態の符号化方法によると、ダウンミックス係数で乗算された窓関数は、ミキシングされた音声信号に乗算される。したがって、ステップS200において、複数のチャンネルの少なくとも一部にダウンミックス係数の乗算を実行する必要はなくなる。ダウンミックス係数の乗算を複数のチャンネルの少なくとも一部に実行しないので、ダウンミックス係数の乗算を全てのチャンネルに実行する従来技術と比較して、ステップS200における音声信号の処理は高速となる。
【0126】
第2の実施の形態の修正例として、符号化装置に入力された所定のビット精度を有する信号を[−1.0、1.0]の範囲を有するように、所定のゲイン係数を乗算して拡大又は縮小し、符号化時にスケール信号を符号化してもよい。信号は、ゲイン係数で乗算された窓関数によって乗算してもよい。例えば、16ビット信号を符号化装置に入力する場合、ゲイン係数は1/215に設定する。こうすることにより、符号化される前にゲイン係数によって信号を乗算する必要はないので、上述と同様の有利な効果を得ることができる。
【0127】
さらに、第2の実施の形態の別の修正例として、MDCTを実行する際に、音声信号にダウンミックス係数によって乗算された基底関数を乗算してもよい。こうすることによって、ダウンミキシング時にダウンミックス係数の乗算を実行することが不要となるので、上述と同様の有利な効果を得ることができる。
【0128】
[第3の実施の形態]
本発明の第3の実施の形態に係る編集装置について、多チャンネル音声信号を編集する編集装置及び編集方法を例に説明する。第3の実施の形態では、例示としてAACを用いるが、本発明はAACに限定されないことは言うまでもない。
【0129】
<編集装置のハードウェア構成>
図15は、本発明の第3の実施の形態に係る符号化装置の構成を説明する図である。
【0130】
図15に示すように、編集装置100は、光ディスク又はその他の記録媒体を駆動するドライブ101と、CPU102と、ROM103と、RAM104と、HDD105と、通信インタフェース106と、入力インタフェース107と、出力インタフェース108と、AV部109と、これらを接続するバス110と、を含む。さらに、第3の実施の形態に係る編集装置は、第1の実施の形態に係る復号装置の機能と、第2の実施の形態に係る復号装置の機能とを有する。
【0131】
光ディスクなどの脱着可能な媒体101aがドライブ101に装着されると、脱着可能な媒体101aからデータが読み出される。図15には、ドライブ101は編集装置100に設けられているが、ドライブ101は、外部ドライブでもよい。光ディスクの他に、ドライブ101には、磁気ディスク、光磁気ディスク、ブルーレイディスク、半導体メモリなどを用いてもよい。通信インタフェース106を介して接続可能なネットワークnリソースから材料データを読み込んでもよい。
【0132】
CPU102は、ROM103に記録された制御プログラムを、RAM104などの揮発性メモリ領域に展開して、編集装置100の全体の動作を制御する。
【0133】
HDD105は、編集装置としてのアプリケーションプログラムを保存する。CPU102は、アプリケーションプログラムをRAM104に展開する。これによって、コンピュータは、編集装置として機能することができる。さらに、編集装置100は、光ディスクなどの脱着可能な媒体101aから読み出した材料データ、それぞれのクリップの編集データなどを、HDD105に保存する。HDD105に保存した材料データへのアクセス速度は、ドライブ101に装着した光ディスクよりも早いので、HDD105に保存された材料データを用いることで、編集時の表示の遅延は減少する。編集データを保存する手段は、HDD105に限定されず、高速アクセスが可能な保存手段であれば、例えば、磁気ディスク、光磁気ディスク、ブルーレイディスク、半導体メモリなどを用いてもよい。通信インタフェース106を介して接続可能なネットワークの保存手段を編集データの保存手段として用いてもよい。
【0134】
通信インタフェース106は、接続されたビデオカメラとの通信を、例えば、USB(Universal Serial Bus)を介して行い、ビデオカメラの記録媒体に記録されたデータを受信する。さらに、通信インタフェース106は、生成した編集データをネットワークのリソースにLAN又はインターネットを介して送信することができる。
【0135】
入力インタフェース107は、キーボード又はマウスなどの操作部400を介して入力されたユーザによる指示を受け付け、バス110を介して操作信号をCPU102に提供する。出力インタフェース108は、CPU102からの画像データ又は音声データをLCD(液晶ディスプレイ)又はCRTなどの表示装置、又はスピーカなどの出力装置500に提供する。
【0136】
AV部109は、様々な処理をビデオ信号と音声信号に実行し、次の構成要素と機能を有する。
【0137】
外部ビデオ信号インタフェース111は、画像圧縮/解凍部112、及び編集装置100の外部とビデオ信号を送受信する。例えば、外部ビデオ信号インタフェース111は、アナログコンポジット信号及びアナログコンポーネント信号の入出力部を設けてもよい。
【0138】
画像圧縮/解凍部112は、ビデオインタフェース113を介して供給されたビデオデータを復号してアナログ変換して、得られたビデオ信号を外部ビデオ信号インタフェース111に出力する。さらに、画像圧縮/解凍部112は、外部ビデオ信号インタフェース111又は外部ビデオ/音声信号インタフェース114から供給されたビデオ信号を必要に応じてデジタル変換して、変換したビデオ信号を、例えば、MPEG−2方式によって圧縮し、得られたデータをビデオインタフェース113を介してバス110に出力する。
【0139】
ビデオインタフェース113は、画像圧縮/解凍部112及びバス110とデータを送受信する。
【0140】
外部ビデオ/音声信号インタフェース114は、外部機器から入力されたビデオデータを画像圧縮/解凍部112に出力し、音声データはオーディオプロセッサ116に出力する。さらに、外部ビデオ/音声信号インタフェース114は、画像圧縮/解凍部112から供給されたビデオデータと、オーディオプロセッサ116から供給された音声データを外部機器に出力する。例えば、外部ビデオ/音声信号インタフェース114は、SDI(Serial Digital Interface)などに基づくインタフェースである。外部音声信号インタフェース115は、外部機器とオーディオプロセッサ116の間で音声信号を送受信する。例えば、外部音声信号インタフェース115は、アナログ音声信号のインタフェース標準に基づくインタフェースである。
【0141】
オーディオプロセッサ116は、外部音声信号インタフェース115から供給された音声信号をアナログデジタル変換して、得られたデータをオーディオインタフェース117に出力する。さらに、オーディオプロセッサ116は、オーディオインタフェース117から出力される音声データにデジタルアナログ変換、音声調整(voice adjustment)などを実行して、得られた信号を外部音声信号インタフェース115に出力する。
【0142】
オーディオインタフェース117は、オーディオプロセッサ116にデータを供給し、オーディオプロセッサ116からのデータをバス110に出力する。
【0143】
<編集装置の機能構成>
図16は、第3の実施の形態に係る編集装置の機能構成図である。
【0144】
図16に示すように、メモリに展開されたアプリケーションプログラムを用いて、編集装置100のCPU102は、ユーザインタフェース部70、編集部73、情報入力部74、情報出力部75のそれぞれの機能ブロックを構成する。
【0145】
それぞれの機能ブロックは、材料データ及び/又は編集データを含むプロジェクトファイルのインポート機能、それぞれのクリップの編集機能、材料データ及び/編集データを含むプロジェクトファイルのエクスポート機能、プロジェクトファイルのエクスポート時における材料データのマージン設定機能などを具現化する。以下、編集機能の詳細について説明する
【0146】
<編集機能>
図17は、編集装置の編集画面の一例を説明する図である。
【0147】
図17を図16と合わせて参照する。表示制御部72によって編集画面の表示データを生成し、出力装置500のディスプレイに出力する。
【0148】
編集画面150は、編集されたコンテンツ又は取得した材料データの再生画面を表示する再生ウインドウ151と、それぞれのクリップがタイムラインに沿って配置される、複数のトラックにより構成されるタイムラインウインドウ152と、アイコンなどを用いて取得した材料データを表示するビンウインドウ153と、を含む。
【0149】
ユーザインタフェース部70は、操作部400を介してユーザにより入力された指示を受け取る指示受け付け部71と、ディスプレイ又はスピーカなどの出力装置500の表示制御を実行する表示制御部72とを含む。
【0150】
編集部73は、情報入力部74を介して、操作部400を介してユーザから入力された指示によって指定されたクリップが参照する材料データ、又は、デフォルトで指定されるプロジェクト情報を有するクリップが参照する材料データを取得する。
【0151】
HDD105に記録された材料データが指定された場合、情報入力部74はビンウインドウ153にアイコンを表示し、HDD105に記録されていない材料データが指定された場合、情報入力部74は、ネットワーク又は脱着可能な媒体のリソースから材料データを読み出し、ビンウインドウ153にアイコンを表示する。図示の例では、3つの材料データがアイコンIC1〜IC3によって表示されている。
【0152】
指示受け付け部71は、編集画面において、編集に使用されたクリップの指定、材料データの参照範囲、参照範囲により占有されるコンテンツの時間軸の時間的位置を受け取る。具体的には、指示受け付け部71は、クリップIDの指定、参照範囲の開始点及び時間的長さ、クリップが配置されるコンテンツの時間情報などを受け取る。このためには、ユーザは、表示されたクリップ名を手掛かりとして、所望の材料データのアイコンをタイムライン上でドラッグしてドロップする。この動作により、指示受け付け部71はクリップIDの指定を受け付け、選択されたクリップが、選択されたクリップが参照する参照範囲に対応する時間的長さ分、トラックに配置される。
【0153】
トラックに配置されたクリップのタイムライン上の開始点、終点、及び時間的な配置は、適当に変更することができ、例えば、編集画面におけるマウスカーソルの移動、所定の動作を行うための指示を入力することができる。
【0154】
例えば、録音材料の編集は以下のように実行する。ユーザが操作部400を使用してHDD105に記録したAAC方式の5.1チャンネル録音材料を指定すると、指示受け付け部71は指定を受け付け、編集部73は表示制御部72を介して、出力装置500のディスプレイのビンウインドウ153にアイコン(クリップ)を表示する。
【0155】
ユーザが操作部400を用いて、タイムラインウインドウ152の音声トラック154にクリップを配置するように指示をすると、指示受け付け部71は指定を受け付け、編集部73は表示制御部72を介して出力装置500のディスプレイの音声トラック154にクリップを表示する。ユーザが、例えば、操作部400を用いた所定の操作により、表示される編集コンテンツの中から、ステレオへのダウンミキシングを選択した場合、指示受け付け部71は、ステレオへのダウンミキシングの指示(編集処理指示)を受け付け、この指示を編集部73に伝える。
【0156】
編集部73は、指示受け付け部71から通知された指示に従って、AAC方式の5.1チャンネル録音材料をダウンミキシングして、AAC方式の2チャンネルの録音材料を生成する。この時、編集部73は、第1の実施の形態に係る復号方法を実行して、ダウンミキシングされた復号ステレオ音声信号を生成してもよく、又は、編集部73は、第2の実施形態の係る符号化方法を実行して、ダウンミキシングされた符号化ステレオ音声信号を生成してもよい。さらに、両方の方法を略同時に実行いてもよい。
【0157】
編集部73によって生成された音声信号は、情報出力部75に出力される。情報出力部75は、編集された録音材料を、例えば、HDD105にバス110を介して出力して、当該編集された録音資料をそこに記録する。
【0158】
音声トラック154のクリップを再生する指示をユーザから与えられると、編集部73は上述の復号方法によって5.1チャンネル録音材料をダウンミキシングしながら、ダウンミキシングされた材料を再生したかのように、ダウンミキシングされた復号ステレオ音声信号を出力して再生することができることに留意されたい。
【0159】
<編集方法>
図18は、本発明の第3の実施の形態に係る編集方法を説明するフローチャートである。本発明の第3の実施の形態に係る編集方法について図18を参照して5.1チャンネル音声信号を編集する場合を例に説明する。
【0160】
最初にステップS300において、ユーザがHDD105に記録されたAAC方式の5.1チャンネル録音材料を指定すると、CPU102はこの指定を受け付け、ビンウインドウ153にアイコンで録音材料を表示する。さらに、ユーザが表示アイコンをタイムラインウインドウ152の音声トラック154に配置する指示を与えると、CPU102は指示を受け付け、タイムラインウインドウ152の音声トラック154に録音材料のクリップを配置する。
【0161】
続いて、ステップS310で、例えば、ユーザによる操作部400を介した所定の操作によって表示される編集コンテンツから、録音材料のステレオへのダウンミキシングが選択されると、CPU102は、選択を受け付ける。
【0162】
続いて、ステップS320で、ステレオへのダウンミキシングの指示を受け付けたCPU102は、AAC方式の5.1チャンネル録音材料をダウンミキシングして2チャンネルステレオ音声信号を生成する。この時、CPU102は、第1の実施の形態に係る復号方法を実行して、ダウンミキシングされた復号ステレオ音声信号を生成してもよく、又は、CPU102は、第2の実施の形態に係る符号化方法を実行して、ダウンミキシングされた符号化ステレオ音声信号を生成してもよい。CPU102は、ステップS320で生成された音声信号をバス110を介してHDD105に出力し、生成された音声信号をHDD105に保存する(ステップS330)。音声信号は、HDDに記録する代わりに、編集装置の外部の装置に出力してもよいことにも留意されたい。
【0163】
第3の実施の形態によると、音声信号を編集することができる編集装置であっても、第1の実施の形態と第2の実施の形態と同様の有利な効果を得ることができる。
【0164】
以上、本発明の好ましい実施の形態について詳細に説明した。しかしながら、本発明はこれらの特定の実施の形態に限定されることはなく、特許請求の範囲に記載された本発明の範囲から逸脱することなく様々な修正を行うことができる。
【0165】
例えば、音声信号のダウンミキシングは、ステレオへのダウンミキシングに限定されない。モノラルへのダウンミキシングを実行してもよい。さらに、ダウンミキシングは5.1チャンネルのダウンミキシングに限定されず、一例として、7.1チャンネルダウンミキシングを実行してもよい。より詳細には、7.1チャンネルのオーディオシステムでは、5.1チャンネルと同様のチャンネルに加えて、例えば、2チャンネル(左後方チャンネル(LB)及び右後方チャンネル(RB)がある。)7.1チャンネル音声信号が5.1チャンネル音声信号にダウンミキシングされる場合、ダウンミキシングは、数式(9)及び(10)に従って実行することができる。
LSDM=αLS+βLB (9)
RSDM=αRS+βRB (10)
【0166】
数式(9)において、LSDMは、ダウンミキシング後の左サラウンドチャンネル音声信号を表し、LSは、ダウンミキシング前の左サラウンドチャンネル音声信号を表し、LBは、左後方チャンネル音声信号を表す。数式(10)において、RSDMは、ダウンミキシング後の右サラウンドチャンネル音声信号を表し、RSは、ダウンミキシング前の右サラウンドチャンネル音声信号を表し、RBは、右後方チャンネル音声信号を表す。数式(9)、(10)において、α及びβは、ダウンミックス係数を表す。
【0167】
数式(9)、(10)に従って生成される左サラウンドチャンネル音声信号と右サラウンドチャンネル音声信号、及び、ダウンミキシングでは使用されない中央チャンネル音声信号、左チャンネル音声信号、及び右チャンネル音声信号とが5.1チャンネル音声信号を構成する。5.1チャンネル音声信号を2チャンネル音声信号にダウンミキシングする方法と同様に、7.1チャンネル音声信号を2チャンネル音声信号にダウンミキシングしてもよい。
【0168】
さらに、上述の実施の形態では、AACを例に説明したが、本発明は、AACに限定されず、AC3、ATRAC3のMDCTなど、時間周波数変換に窓関数を用いたコーデックを採用する場合に適用可能である。
【符号の説明】
【0169】
10・・・復号装置
11、21、211、311・・・信号保存部
12・・・多重分離部
13a、13b、13c、13d、13e・・・チャンネル復号器
14、22、204、301・・・ミキシング部
20・・・符号化装置
23a、23b・・・チャンネル符号化器
24・・・多重化部
30a、30b、51a、51b・・・加算器
40、63、201、304・・・変換部
41、61、202、303・・・窓処理部
42、62、212、312・・・窓関数保存部
42、203・・・変換ブロック合成部
50a、50b、50c、50d、50e・・・乗算器
60、302・・・変換ブロック分離部
73・・・編集部
100、200、300・・・CPU
210、310・・・メモリ

【特許請求の範囲】
【請求項1】
多チャンネル音声信号を含む符号化音声信号を保存する保存手段(11)と、
前記符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成する変換手段(40)と、
前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算する窓処理手段(41)と、
乗算された変換ブロックベースの音声信号を重ね合わせて多チャンネル音声信号を合成する合成手段(43)と、
チャンネルの間で合成された多チャンネル音声信号をミキシングして、ダウンミキシングされた音声信号を生成するミキシング手段(14)と、を備える復号装置(10)。
【請求項2】
前記第1の窓関数は正規化されていることを特徴とする、請求項1記載の復号装置。
【請求項3】
前記ミキシング手段は、前記合成された多チャンネル音声信号を、前記符号化音声信号に含まれているチャンネルの数より少ない数のチャンネルを有する音声信号に変換することを特徴とする、請求項1記載の復号装置。
【請求項4】
前記符号化音声信号は、5.1チャンネル又は7.1チャンネルのオーディオシステムの音声信号であり、
前記ミキシング手段は、ステレオ音声信号又はモノラル音声信号を生成することを特徴とする、請求項1記載の復号装置。
【請求項5】
多チャンネル音声信号を含む符号化音声信号を保存するメモリ(210)と、
CPU(200)と、を備え、
前記CPUは、前記符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成し、
前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比との積を第2の窓関数として乗算し、
乗算された変換ブロックベースの音声信号を重ね合わせて多チャンネル音声信号を合成し、
チャンネルの間で合成された多チャンネル音声信号をミキシングして、ダウンミキシングされた音声信号を生成するように構成されていることを特徴とする、復号装置(10)。
【請求項6】
前記CPUは、
前記符号化音声信号に含まれているチャンネルの数より少ない数のチャンネルを有するミキシングされた音声信号に変換するように構成されていることを特徴とする、請求項5記載の復号装置。
【請求項7】
前記符号化音声信号は、5.1チャンネル又は7.1チャンネルのオーディオシステムの音声信号であり、
前記CPUは、ステレオ音声信号又はモノラル音声信号を生成するように構成されていることを特徴とする、請求項5記載の復号装置。
【請求項8】
多チャンネル音声信号を保存する保存手段(21)と、
前記多チャンネル音声信号をチャンネルの間でミキシングしてダウンミキシングされた音声信号を生成するミキシング手段(22)と、
前記ダウンミキシングされた音声信号を分離して変換ブロックベースの音声信号を生成する分離手段(60)と、
前記変換ブロックベースの音声信号に第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算する窓処理手段(61)と、
乗算された音声信号を変換して符号化音声信号を生成する変換手段(63)と、を備える符号化装置(20)。
【請求項9】
前記ミキシング手段は、
第1のチャンネルの音声信号に、前記第1のチャンネルに関連付けられた第1の混合比(δ、β)と第2のチャンネルに関連付けられた第2の混合比(α)の逆数との積を第3の混合比(δ/α、β/α)として乗算する乗算手段(50a、50c、50e)と、
前記第1のチャンネルと前記第2のチャンネルを含む多チャンネルの音声信号を加算する加算手段(51a、51b)と、を備え、
前記窓処理手段は、前記変換ブロックベースの音声信号に前記第2の混合比と前記第1の窓関数の積である前記第2の窓関数を乗算することを特徴とする、請求項8記載の符号化装置。
【請求項10】
前記第1の窓関数は正規化されていることを特徴とする、請求項8記載の符号化装置。
【請求項11】
前記ミキシング手段は、前記多チャンネル音声信号を、より少ない数のチャンネルの音声信号に変換することを特徴とする、請求項8記載の復号装置。
【請求項12】
多チャンネル音声信号を保存するメモリ(310)と、
CPU(300)と、を備え、
前記CPUが、
前記多チャンネル音声信号をチャンネルの間でミキシングしてダウンミキシングされた音声信号を生成し、
前記ダウンミキシングされた音声信号を分離して変換ブロックベースの音声信号を生成し、
前記変換ブロックベースの音声信号に第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算し、
乗算された音声信号を変換して符号化音声信号を生成するように構成されていることを特徴とする、号化装置(20)。
【請求項13】
前記CPUは、前記多チャンネル音声信号をミキシングして、より少ない数のチャンネルの音声信号を生成するように構成されていることを特徴とする、請求項12記載の復号装置。
【請求項14】
多チャンネル音声信号を含む符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成するステップ(S100)と、
前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算するステップ(S110)と、
乗算された変換ブロックベースの音声信号を重ね合わせて多チャンネル音声信号を合成するステップ(S120)と、
チャンネルの間で合成された多チャンネル音声信号をミキシングして、ダウンミキシングされた音声信号を生成するステップ(S130)と、を含む復号方法(10)。
【請求項15】
多チャンネル音声信号をチャンネルの間でミキシングしてダウンミキシングされた音声信号を生成するステップ(S200)と、
前記ダウンミキシングされた音声信号を分離して変換ブロックベースの音声信号を生成するステップ(S210)と、
前記変換ブロックベースの音声信号に第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算するステップ(S220)と、
乗算された音声信号を変換して符号化音声信号を生成するステップ(S230)と、を含む、符号化方法。
【請求項16】
コンピュータに、
多チャンネル音声信号を含む符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成するステップ(S100)と、
前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算するステップ(S110)と、
乗算された変換ブロックベースの音声信号を重ね合わせて多チャンネル音声信号を合成するステップ(S120)と、
チャンネルの間で合成された多チャンネル音声信号をミキシングして、ダウンミキシングされた音声信号を生成するステップ(S130)と、を実行させる復号プログラム。
【請求項17】
コンピュータに、
多チャンネル音声信号をチャンネルの間でミキシングしてダウンミキシングされた音声信号を生成するステップ(S200)と、
前記ダウンミキシングされた音声信号を分離して変換ブロックベースの音声信号を生成するステップ(S210)と、
前記変換ブロックベースの音声信号に第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算するステップ(S220)と、
乗算された音声信号を変換して符号化音声信号を生成するステップ(S230)と、を実行させる、符号化プログラム。
【請求項18】
コンピュータに、
多チャンネル音声信号を含む符号化音声信号を変換して、時間領域の変換ブロックベースの音声信号を生成するステップ(S100)と、
前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算するステップ(S110)と、
乗算された変換ブロックベースの音声信号を重ね合わせて多チャンネル音声信号を合成するステップ(S120)と、
チャンネルの間で合成された多チャンネル音声信号をミキシングして、ダウンミキシングされた音声信号を生成するステップ(S130)と、を実行させる復号プログラムを記録した記録媒体。
【請求項19】
コンピュータに、
多チャンネル音声信号をチャンネルの間でミキシングしてダウンミキシングされた音声信号を生成するステップ(S200)と、
前記ダウンミキシングされた音声信号を分離して時間領域の変換ブロックベースの音声信号を生成するステップ(S210)と、
前記変換ブロックベースの音声信号に第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算するステップ(S220)と、
乗算された音声信号を変換して符号化音声信号を生成するステップ(S230)と、を実行させる、符号化プログラムを記録した記録媒体。
【請求項20】
多チャンネル音声信号を含む符号化音声信号を保存する保存手段(105)と、
変換手段(40)、窓処理手段(41)、合成手段(43)、ミキシング手段(14)を含む編集手段(73)と、を備え、
前記変換手段は、ダウンミキシング処理のためのユーザの要求に応じて、前記符号化音声信号を変換して、変換ブロックベースの音声信号を生成し、
前記窓処理手段は、前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算し、
前記合成手段は、乗算された変換ブロックベースの音声信号を重ね合わせて多チャンネル音声信号を合成し、
前記ミキシング手段は、チャンネルの間で合成された多チャンネル音声信号をミキシングして、ダウンミキシングされた音声信号を生成する、編集装置(100)。
【請求項21】
多チャンネル音声信号を保存する保存手段(105)と、
ミキシング手段(22)、分離手段(60)、窓処理手段(61)、変換手段(63)を含む編集手段(73)と、を備え、
前記ミキシング手段は、ダウンミキシング処理のためのユーザの要求に応じて、符号化音声信号をチャンネルの間でミキシングして、ダウンミキシングされた音声信号を生成し、
前記分離手段は、前記ダウンミキシングされた音声信号を分離して変換ブロックベースの音声信号を生成し、
前記窓処理手段は、前記変換ブロックベースの音声信号に、第1の窓関数と前記音声信号の混合比の積を第2の窓関数として乗算し、
前記変換手段は、乗算された音声信号を変換して符号化音声信号を生成する、編集装置(100)。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図6C】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公表番号】特表2012−504775(P2012−504775A)
【公表日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願番号】特願2011−514573(P2011−514573)
【出願日】平成20年10月1日(2008.10.1)
【国際出願番号】PCT/JP2008/068258
【国際公開番号】WO2010/038318
【国際公開日】平成22年4月8日(2010.4.8)
【出願人】(511006720)ジーブイビービー ホールディングス エス.エイ.アール.エル. (8)
【Fターム(参考)】