説明

信号処理装置、信号処理方法、再生装置、再生方法、電子機器

【課題】例えば圧縮符号化により失われた高域部分の信号を補間して高音質化を図る。
【解決手段】所定の周波数以上の帯域において自己相関計算を行い、計算された相関値が最大となるときの相関最大シフト量を求めると共に、この相関最大シフト量だけ離間した周波数ポイント間の信号の比率を計算しておく。その上で、信号成分が失われた以降の各補間対象周波数ポイントの信号を、それら各補間対象周波数ポイントから上記相関最大シフト量だけ離間した信号と上記比率とに基づき計算した値で補間する。これによって相関性を活かしたより自然なかたちで符号化により失われた高域信号を補間できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号処理装置として、特に音声圧縮符号化処理により失われた成分を補正して高音質化を図るための信号処理装置と、その方法とに関する。また、再生装置とその方法、及び電子機器に関する。
【背景技術】
【0002】
音声信号の圧縮符号化処理は、「量子化(PCM:Pulse Code Moduration)」、音声信号の時間的連続性を用いた「時間相関符号化」、人間の聴覚特性を用いた「周波数相関符号化」、これらの符号化から得られた符号の発生確率の偏りを用いた「エントロピー符号化」を組み合わせることで実現することができる。
【0003】
音声信号の圧縮符号化の手法としては、MPEG(Moving Pictures Experts Group)、ATRAC(Adaptive TRansform Acoustic Coding:登録商標)、AC−3(Audio Code Number 3:登録商標)、WMA(Windows Media Audio:登録商標)などで規格化され、その符号化信号は現在、デジタルテレビジョン放送、デジタルオーディオプレーヤー、WEBストリーミングなど広範にわたって使用されている。
【0004】
ここで、圧縮符号化処理の中でも、周波数相関符号化は、圧縮率や音質に大きな影響を与える符号化処理である。周波数相関符号化とは、量子化されたPCM信号を、時間領域から周波数領域に直交変換し、周波数領域における信号エネルギーの偏差を求める。この偏差を用いて符号化することで符号化効率を高めることができる。また直交変換後の信号に対して、心理聴覚特性を用いて、周波数帯域をいくつかの帯域に分け、より人間に知覚されやすい帯域の信号劣化を最小とするように、ある種の重み付けを行って量子化することにより、全体的な符号化品質を改善することができる。
心理聴覚特性を用いた符号化は、絶対可聴閾値と、マスキング効果で定まる相対可聴閾値を用いて、補正可聴閾値を求める。この補正可聴閾値に基づいて、分割された帯域ごとにビット割り当てを行う。補正可聴閾値以下の音圧を持つ周波数成分に関しては、人間は知覚できない音として、符号化の際にカットされる。また、絶対可聴閾値は高周波数帯域(以下、単に高域とも呼ぶ)でその振幅値が上昇するため、低周波数帯域(低域とも呼ぶ)に比べて高域の周波数成分はより多くカットされる。これが音声信号圧縮符号化特有の、高域における周波数帯域制限である。
【0005】
このような心理聴覚特性を用いた音声信号の圧縮符号化方式は、MPEG規格で積極的に取り入られている。音声信号の圧縮符号化は各エンコーダーメーカーの技術力により、その傾向が決められるものではあるが、MPEG規格が採用されているデジタルテレビジョン放送の音声信号においては、上記符号化により、ある周波数を境にそれ以降の高域信号が全てカットされたり、可聴帯域内においても、ある分割帯域の信号が全てカットされてしまうといった現状も確認されている。
すなわち、このような信号成分の欠落により、音質の劣化(低下)が生じるものである。
【0006】
このような圧縮符号化に伴う高域部分での信号欠落による音質低下を抑制するための先行技術はいくつか存在する。
例えば、下記特許文献1に記載の「周波数補間装置、周波数補間方法及び記録媒体」では、既存の音声信号を使って高域信号を複製する方法が開示されている。
また、特許文献2に記載の「周波数補間システム、周波数補間装置、周波数補間方法及び記録媒体」では、符号化時において、欠落した信号の情報を予め記録しておき、復号時にそれを用いて音質を保ちながら復号する方法が開示されている。
【0007】
また、圧縮符号化に伴う音質劣化としては、上記のような高域部分の欠落の他にも、割り当てビット数の削減に伴う量子化誤差もその1つの要因として挙げることができる。
つまり、心理聴覚特性を用いた符号化では、聴感上聞こえないとされる周波数帯域については割り当てるビット数を削減することとし、これによって音質の低下を抑えながら効率の良い情報圧縮処理を実現しようとしている。但し、このように低ビット数が割り当てられた周波数帯域では、その低ビット数に起因して復号の際の復号精度が低下し、本来の音声信号との差が大きくなるという現象が確認されている。すなわち、これによって低ビット数が割り当てられた帯域での音質の劣化(低下)が生じやすいものとなる。
【0008】
このような割り当てビット数の削減に伴う量子化誤差に起因した音質低下を抑制するための先行技術としては、例えば下記の特許文献3を挙げることができる。
この特許文献3に記載の「量子化誤差補正方法及び装置並びにオーディオ情報復号方法」では、補正対象である音声信号の本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出する。補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法が開示されている。
【0009】
さらに、圧縮符号化に伴う音質劣化の要因としては、上記のような割り当てビット数の削減に伴うバンド間誤差も挙げることができる。すなわち、割り当てビット数を削減されたバンドでは、そこに隣接した割り当てビット数の比較的多いバンドとの境界部分で、それらの割り当てビット数の差に起因してバンド間での量子化誤差が生じる。
このようにバンド間の量子化誤差が生じた部分では、波形の連続性が失われて音質劣化の要因となってしまう。
【0010】
【特許文献1】特開2001−356788号公報
【特許文献2】特開2002−73096号公報
【特許文献3】特開2001−102939号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
ここで、先ず、高域部分の信号欠落について対策する上記特許文献1においては、高域信号の生成元となる基準バンドを信号が存在する帯域から特定し、その基準バンドに基づいた情報を用いて高域用の信号を生成し、追加するという手法が開示されている。
しかしながらこの手法では、上記基準バンドを特定するにあたり、信号が存在する帯域を分割し、分割した数だけ組合せを作り相関関係を求めなければならず、その分処理負担が重くなってしまう。
また、相関関係が求まるまでの処理量が各フレームで変化するため、処理量や処理時間が入力信号に左右されて変わってしまうことになる。
【0012】
また、同じく高域部分の信号欠落について対策する上記特許文献2に記載の発明では、符号器側と復号器側とで共通のアルゴリズムが必要となっており、よって汎用性に乏しいものとなっている。
【0013】
このようにして、符号化により失われた高域成分を補間(追加)するにあたり採られていた従来の手法では、処理量の偏りや処理負担の増大という問題や、汎用性の面での問題を抱えるものであった。
【0014】
また、割り当てビット数の削減に伴う量子化誤差について補正する上記特許文献3に記載の手法では、隣接する周波数帯域の符号化信号により、数通りの場合分けが必要となり、その分処理負担が増大する。さらには、上記「補正値」の算出にあたって各信号において二次曲線を求めるものとしているが、このような補正値としてその精度を確保するためには比較的長時間にわたる信号をサンプルして計算を行う必要があり、この点でも処理量が増大化する傾向となる。
すなわち、割り当てビット数の削減に伴う量子化誤差を補正するための従来手法では、補正にあたっての処理負担の軽減が要請される。
【0015】
さらに、上述したようなバンド間の量子化誤差については、現状ではそれを補正するための技術は確立しておらず、この点での音質改善が図られないものとなっている。
【課題を解決するための手段】
【0016】
そこで、本発明では、先ずは上記のような高域信号の欠落についての問題点に鑑み、信号処理装置として以下のように構成することとした。
つまり、所定の情報圧縮処理がされたオーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手段を備える。
また、上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手段を備える。
また、上記所定の周波数以上の帯域において、上記シフト量検出手段により求められた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手段を備える。
さらに、上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手段を備えるものである。
【0017】
上記本発明では、所定の周波数以上の帯域において自己相関計算を行い、その結果得られる相関値を最大とするシフト量(相関最大シフト量)を求めるものとしている。この相関最大シフト量の値としては、上記所定の周波数以上の帯域では、その値だけシフトさせたときに自己相関が最も高いということを示すものとなる。このため、信号成分が失われた以降の各補間対象周波数ポイントの信号を補間するにあたり、上記のようにして先ず相関最大シフト量だけ離間した周波数ポイント間の振幅値の比率を計算した上で、各補間対象周波数ポイントから上記相関最大シフト量だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で各補間対象周波数ポイントの信号を補間すれば、相関性のある部分の信号に基づいて生成した違和感のない信号により高域を補間することができる。
【0018】
また、本発明では、上述した割り当てビット数の削減による量子化誤差についての問題点に鑑み、信号処理装置として以下のように構成することとした。
つまり、所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段を備える。
また、上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段を備える。
さらに、上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段を備えるものである。
【0019】
上記のようにして周波数軸上で所定値となっている部分を検出し、その部分の振幅値を、予測信号の値との比較結果に基づいて上記予測信号の値に基づき置換することで、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。
【0020】
さらに、本発明では、上述したバンド間の量子化誤差の問題に鑑みて、信号処理装置として以下のように構成することとした。
つまり、所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段を備える。
また、上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手段を備える。
さらに、上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手段を備えるものとした。
【0021】
上記のようにして分解能の値が異なっている連続した周波数バンド間の境界部分を検出し、その境界部分の振幅値を予測信号と比較した結果に基づいて予測信号の値に基づき置換するものとすれば、割り当てビット数の差によってバンド間で大きな量子化誤差が生じてバンド間の連続性が損なわれた部分を適正に検出し、その部分の振幅値を予測信号に基づくより確からしい値で補正することができる。
【発明の効果】
【0022】
上記のようにして、高域補間についての本発明によれば、残された高域側の信号についての自己相関計算結果に基づき、さらに高域の信号の失われた部分を補間するものとしたことで、失われた信号成分を正しく補間することができる。
また、このような本発明は、補間処理にあたっては自己相関計算と比率計算、及び相関最大シフト量と比率とを用いた追加すべき信号値の計算といった、比較的簡易な四則演算のみを行えばよい。この点で、従来のようにして、基準バンドを特定するにあたり信号が存在する帯域を分割し、分割した数だけ組合せを作り相関関係を求めるとった手法を採る場合と比較すれば、処理負担は格段に軽くすることができる。
【0023】
また、上記本発明の補間手法によれば、補間処理にあたっては、常に自己相関計算、比率計算、相関最大シフト量と比率とに基づく信号追加を行うだけでよい。すなわち、所定のフレーム単位ごとの補間処理として、その内容は同じものとすることができる。この点から、従来のように各フレームごとに処理内容が変化し、処理量や処理時間が入力信号に左右されて変わってしまうといった不都合は生じないものとなる。
【0024】
また、本発明の高域補間手法としては、復号化処理とは独立した処理とできるので、特に符号化側と共通な復号アルゴリズムとする必要はなく、汎用性が失われるといった問題は生じないようにすることができる。
【0025】
また、上記量子化誤差補正についての本発明によれば、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。すなわち、これによって圧縮符号化による音質劣化を効果的に抑圧することができる。
【0026】
そして、上記本発明によれば、このような音質改善効果を得るにあたっては、予測信号を生成し、その値と音声信号の振幅値とを比較した結果に基づき予測信号の値との置換を行えばよいのみとすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。
【0027】
さらに、バンド間の量子化誤差に関する本発明によれば、割り当てビット数の差によってバンド間で大きな量子化誤差が生じてバンド間の連続性が損なわれた部分を適正に検出し、その部分の振幅値を予測信号に基づくより確からしい値によって補正することができる。すなわち、これによって割り当てビット数の差によって生じるバンド間部分での波形の不連続性を有効に改善することができ、この結果、高音質化を図ることができる。
【発明を実施するための最良の形態】
【0028】
以下、発明を実施するための最良の形態(以下実施の形態とする)について説明していく。
なお以下、各実施の形態(第1〜第3の実施の形態)の説明にあたっては、音声符号化方式として、MPEG−2 AAC(Moving Pictures Experts Group-2 Advanced Audio Coding)と呼ばれるISO/IEC13818−7規格の符号化方式が採用され、その復号処理を行う場合を例に挙げる。
また、以下においては、MPEG−2 AACを、単にAACとも呼ぶ。
なお、上記ISOは、国際標準化機構(International Organization for Standardization)の略称であり、IECは、国際電気標準会議(International Electrotechnical Commission)の略称である。
【0029】
[AAC符号化処理の概要]
先ず、実施の形態を説明する上での前提として、AAC方式の符号化処理の概要について述べておく。
AAC方式による音声符号化処理は、周波数相関符号化処理として、心理聴覚(psycho acoustics)に基づいて、人が知覚できない音の領域はデータ化しないことで、圧縮効果を高めているものである。AAC方式の符号化によると、例えば2チャンネルステレオ音声の場合、96キロビット/秒程度の伝送量でもCD(Compact Disc)なみの音質が得られ、約1/15(15分の1)の圧縮率が得られるものとなる。
【0030】
AAC方式では、上述した心理聴覚分析の結果に基づいて、(1)ゲイン調整処理→(2)適応ブロック長切換MDCT処理→(3)TNS処理→(4)インテンシティ・ステレオ符号化処理→(5)予測処理→(6)M/Sステレオ処理→(7)スケーリング処理が行われた後に、(8)量子化処理と(9)ハフマン符号化処理とが、割り当てられたビット数を下回るまで反復されて、符号化音声データが形成される。実際には、これらの処理過程において付すべき種々の係数等が付加されることにより最終的な符号化音声信号(AACビットストリーム)が形成される。
【0031】
以下に、具体的な処理内容を示す。
先ず、入力された符号化処理前の音声信号は、ゲイン調整され、所定のサンプル数毎にブロック化されて、これが1フレームとして処理される。符号化装置では、入力フレームを心理聴覚分析部においてFFT(Fast Fourier Transform)処理して周波数スペクトルを求め、それを元に聴覚のマスキングを計算し、予め設定された周波数帯域毎の許容量子化雑音電力と、そのフレームに対する心理聴覚エントロピー(PE:Perceptual Entropy)と呼ぶパラメータを求める。
【0032】
心理聴覚エントロピーは、聴取者が雑音を知覚することがないようにそのフレームを量子化するのに必要な総ビット数に相当する。また、心理エントロピーは、音声信号のアタック部のように信号レベルが急激に増大するところで大きな値を取るという特性がある。そこで、心理エントロピーの値の急変部を元にしてMDCT(Modified Discrete Cosine Transform)の変換ブロック長を決定する。
【0033】
MDCT処理は、心理聴覚分析部で決定されたブロック長で入力された音声信号を周波数スペクトル(以下、MDCT係数という)に変換する。変換ブロック長を、入力信号に応じて適応的に切り換える処理(適応ブロック切り換え)は、プリエコーと呼ばれる聴覚的に有害な雑音を抑制するために必要な処理である。
【0034】
MDCT処理によって形成されたMDCT係数は、TNS(Temporal Noise Shaping)処理される。このTNS処理は、MDCT係数を時間軸上の信号であるかのように見たてて、線形予測を行い、MDCT係数に対して予測フィルタリングを行うものである。このTNS処理により、復号処理側で逆MDCTして得られる波形に含まれる量子化雑音は、信号レベルの大きなところに集まるようになる。
【0035】
そして、TNS処理されたMDCT係数に対しては、インテンシティ・ステレオ符号化、すなわち、高い周波数領域の音は左チャンネル(Lチャンネル)と右チャンネル(Rチャンネル)を合わせた1つのカップリングチャンネルしか伝送しないようにするための処理が施される。
インテンシティ・ステレオ符号化されたMDCT係数は、MDCT係数1本毎に、過去2フレームにおける量子化されたMDCT係数から現在のMDCT係数の値が予測され、その予測残差が求められる。この予測処理されたMDCT係数は、M/Sステレオ処理により、左右チャンネルの和信号(M=L+R)と差信号(S=L−R)を伝送するか、左右チャンネルのそれぞれ(LチャンネルとRチャンネルとのそれぞれ)を伝送するかが決定され、出力される。
【0036】
M/Sステレオ処理により出力されたMDCT係数は、予め設定された周波数帯域毎の複数本でグループ化されて(スケーリングされ)、これを単位として量子化が行われる。これらMDCT係数のグループをスケールファクタバンド(sfb)と呼んでいる。このsfbは、聴覚の特性に合わせて低域側では狭く、高域側では広くなるように設定されている。
【0037】
量子化処理では、心理聴覚部で求めたsfb毎の許容量子化雑音電力を下回ることを目標に量子化を行う。量子化されたMDCT係数は、さらにハフマン符号化が施されて冗長度が削減される。この量子化・ハフマン符号化の処理は反復ループで行われ、実際に生成される符号量が、フレームに割り当てられたビット数を下回るまで繰り返し行われる。
【0038】
このように、AAC符号化方式は、心理聴覚分析の結果に基づいて、(1)ゲイン調整処理→(2)適応ブロック長切換MDCT処理→(3)TNS処理→(4)インテンシティ・ステレオ符号化処理→(5)予測処理→(6)M/Sステレオ処理→(7)スケーリング処理を行った後に、(8)量子化処理と(9)ハフマン符号化処理とを、割り当てられたビット数を下回るまで反復して行うことで、符号化された音声データを形成するようにされている。
【0039】
なお、上述したAAC方式の音声符号化処理については、例えば「デジタルテレビ技術入門」高田豊、浅見聡著、米田出版、112頁〜124頁等の種々の文献、あるいは、Webページなどにおいても詳細に説明されている。
【0040】
また、ゲイン調整処理、TNS処理、インテンシティ・ステレオ符号化処理、予測処理、M/Sステレオ処理は、オプション処理であり、AAC符号化全工程で行うものではない。すなわち、ゲイン調整処理、TNS処理、インテンシティ・ステレオ符号化処理、予測処理、M/Sステレオ処理は、オプション処理が選択された場合にのみ行われる処理である。以下で説明する実施の形態においては、上述したオプション処理を行うようにされて圧縮符号化された符号化音声信号を処理する場合を例にして説明することとする。
【0041】
<第1の実施の形態>

図1は、本発明の再生装置(電子機器)の第1の実施の形態としての再生装置1の内部構成について示したブロック図である。
この再生装置1は、図示する記憶部2として、例えばHDD(Hard Disc Drive)やフラッシュメモリ等の記憶デバイスに記憶された圧縮符号化音声信号を復号して再生可能なオーディオプレイヤとして構成される。
再生装置1には、この記憶部2に加え、復調部3、圧縮符号復号化部4、DSP(Digital Signal Processor)5、バス6、システムコントローラ7、操作部8、表示部9が備えられている。
【0042】
先ず、記憶部2においては、圧縮符号化音声信号がランレングスリミテッド符号化処理やエラー訂正コード付加処理等の所定処理が施された状態で記憶されている。復調部3は、記憶部2からの読み出し信号について、上記ランレングスリミテッド符号のデコードや上記エラー訂正コードに基づくエラー訂正処理等、所定の復調処理を行って圧縮符号化音声信号を得る。
【0043】
復調部3の復調処理により得られた圧縮符号化音声信号は、圧縮符号復号化部4に供給され、ここにおいて圧縮符号の復号化処理が行われる。先の説明から理解されるように、本実施の形態では圧縮符号化音声信号がAAC圧縮符号化音声信号であることを前提としており、この圧縮符号復号化部4としてはAAC方式に対応した復号化処理を行うように構成されている。すなわち、AAC圧縮符号化音声信号を音声出力可能な状態に復号化するように構成されている。
なお、この圧縮符号復号化部4の内部構成については後述する。
また、第1の実施の形態の場合、この圧縮符号復号化部4内には、図示するようにして高域補間部4aが備えられるがこれについても後述する。
【0044】
圧縮符号復号化部4の復号処理を経て得られた音声信号は、DSP5に供給され、ここで所要の音声信号処理(例えばボリューム調整や各種音響効果付加処理等)が施された後、図示する出力端子Toutに供給され外部出力される。
【0045】
システムコントローラ7は、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Randam Access Memory)などを備えたマイクロコンピュータで構成され、図示するバス6を介して接続される記憶部2、復調部3、圧縮符号復号化部4、DSP5との間で制御信号や各種データのやりとりすることで当該再生装置1の全体制御を行う。
例えばシステムコントローラ7は、後述する操作部8からの操作入力等に応じて記憶部2の信号読み出し制御を実行する。また、例えば操作部8からの操作入力等に応じてDSP5に音声信号処理の各種パラメータを設定する処理なども行う。
【0046】
操作部8は、例えば再生装置1の筐体外面に表出するようにして備えられる図示されない操作キー等によるの入力デバイスであって、ユーザが各種操作入力やデータ入力を行う。操作部8で入力された情報はシステムコントローラ7に対して操作又はデータの入力情報として伝達される。システムコントローラ7は入力された情報に対応して必要な演算や制御を行う。
【0047】
表示部9は、例えば液晶パネルなどの表示パネルを備え、ユーザに対して各種情報表示を行う。この場合は、システムコントローラ7からの指示に基づく各種情報の表示を行う。
【0048】
[圧縮符号復号化部の構成]
図2は、図1に示した圧縮符号復号化部4の内部構成について示している。
先ず、圧縮符号復号化部4の構成要素としては、大別すると、フォーマット解析部10、逆量子化処理部11、ステレオ処理部12、適応ブロック長切換逆MDCT部13、ゲイン制御部14に分けることができる。また、この場合の圧縮符号復号化部4には、図1にも示したように、高域補間部4aが備えられることになる。
【0049】
上記逆量子化処理部11には、ハフマン復号化部11a、逆量子化部11b、リスケーリング部11cとが備えられる。また、上記ステレオ処理部12には、M/Sステレオ処理部12a、予測処理部12b、インテンシティ・ステレオ処理部12c、TNS部12dとが備えられている。
【0050】
先ず、図1に示した復調部3からの符号化音声信号(ビットストリーム)は、フォーマット解析部10に供給される。フォーマット解析部10は、供給された符号化音声信号をMDCT係数とそれ以外のパラメータや制御情報とに分離する。MDCT係数については、逆量子化処理部11内のハフマン復号化部11aに供給する。
また、フォーマット解析部10は、符号化音声信号のビットストリームから抽出したパラメータや制御情報に基づいて、各部に対する制御信号を形成し、これを図中の破線矢印で示すようにして圧縮符号復号化部4内の各部に対して供給することによって、各部における処理が制御される。
【0051】
上記のようにしてフォーマット解析部10で分離されたMDCT係数については、上述したAAC符号化時の処理とは言わば逆となる処理を施すことによって、符号化音声信号の復号化処理が行われる。
具体的に、先ず上記ハフマン復号化部11aでは、フォーマット解析部10から供給されるMDCT係数についてハフマン復号処理を行う。次に、逆量子化部11bにおいて逆量子化処理を行った後、リスケーリング部11cにおいてリスケーリング処理を行うことで量子化前のMDCT係数を復元する。
【0052】
このようにして逆量子化処理部11にて量子化前の状態に復元されたMDCT係数は、ステレオ処理部12内のM/Sステレオ処理部12aに供給される。
M/Sステレオ処理部12aにおいては、左チャンネル(Lch)と右チャンネル(Rch)のMDCT係数が復元される。この左右2チャンネルのMDCT係数は、次の予測処理部12bにおいて処理されることで、符号化時の予測処理によるデータ圧縮前のMDCT係数に復元され、さらにインテンシティ・ステレオ処理部12cにおいて、インテンシティ・ステレオ復号化処理が施されて、高い周波数領域の音についても、左右のそれぞれのチャンネルのMDCT係数に分配される。この後、TNS部12dにおいて、予測フィルタリングがはずされ、符号化時においてMDCT処理された直後のMDCT係数が復元される。
【0053】
第1の実施の形態の場合、このようにステレオ処理部12でMDCT処理された直後に相当する状態に復元されたMDCT係数は、図示するようにして高域補間部4aによる高域補間を経た後に、適応ブロック長切換逆MDCT部13に対して供給される。
なお、先にも述べたが、この高域補間部4aによる高域補間処理の内容、及びその内部構成については後述する。
【0054】
適応ブロック長切換逆MDCT部13は、上記のようにして高域補間部4aを介して供給されるMDCT係数(周波数領域の音声信号)を逆MDCT処理することによって時間軸領域の音声信号(時間音声信号:音声出力可能な状態の音声信号)に変換し、これをゲイン制御部14に供給する。
適応ブロック長切換逆MDCT部13で得られた時間音声信号は、次段のゲイン制御部14にてゲイン調整が行われた後、先の図1に示したDSP5に対して供給される。
【0055】
[高域補間動作]
上記のようにして圧縮符号復号化部4では、AAC方式で符号化されて形成された符号化音声信号の復号処理を行って、音声出力可能な音声信号を得るようにされる。
しかしながら、一般的に音声圧縮符号化は、周波数相関符号化として、上述したような心理聴覚分析などを用いた方式が採られるため、高域の音声信号が失われて音質が劣化する可能性が高いものとなっている。すなわち、このような圧縮符号化された音声信号を復号化して得られる音声信号としても、その音質が劣化している可能性が高いものである。
【0056】
そこで、第1の実施の形態においては、符号化により失われてしまった高域部分の音声信号を補間することで、音質の改善を図る(つまり高音質化を図る)ようにしている。そしてそのための構成として、先の図2(図1)に示した高域補間部4aを設けるようにしている。
【0057】
先ずは、図3〜図7を参照して、第1の実施の形態の高域補間動作について説明する。
なお、以下で説明する動作は、図2に示したステレオ処理部12から出力されるAAC1フレーム(1024サンプル)のMDCT係数について行われるもので、実際においては、この1フレームごとの動作が繰り返されることで、時間音声信号の音質改善が図れることになる。
なお、上記AAC1フレーム分のMDCT係数は、例えばサンプリング周波数が44.1kHzの場合、時間に換算すると0.023sec(1024/44100sec)程度となるものである。
【0058】
先ずは図3により、AAC1フレーム分のMDCT係数の概要について説明する。図3では縦軸を振幅(MDCT係数の値)、横軸を周波数としたときの1フレーム分のMDCT係数について模式的に示している。
AAC方式では、サンプリング周波数が48kHzまたは44.1kHzの場合、1フレームは49個のスケールファクタバンド(sfb)に分割される。具体的には、低域側から高域側にかけて順にsfb[0]、sfb[1]、sfb[2]、・・・sfb[48]までsfbの番号が割り振られる。
先にも述べたように、各スケールファクタバンドのバンド幅は、心理聴覚特性に基づき、低域側ではより狭く高域側では広くなるように設定されている。具体的には、最も低域側となるsfb[0]のバンド幅=「4」(MDCT係数4個分)として、高域側にかけて徐々にバンド幅が広がるようになっている。
そして、AACの場合、或る程度高域となると、sfbのバンド幅は一定となるようにされている。具体的には、sfb[0]からsfb[28]までは徐々にバンド幅が広がるようになっているが、それ以降sfb[29](MDCT係数番号320からのsfb)からsfb[47](MDCT係数番号928までのsfb)までは、バンド幅は「32」で一定となるようにされる。但し、図にも示されているように、最後のsfb[48]のみはバンド幅=「96」とされる。
【0059】
第1の実施の形態の高域補間動作では、上記のようにしてsfbのバンド幅が一定となった以降、信号が存在する間の帯域(つまり符号化により信号が失われるまでの帯域)を、図示するようにして「高域サブバンド」として設定する。
ちなみに、AAC方式(ビットレート128kbps)の場合、符号化により信号が失われることになるのは、概ねMDCT係数番号=650前後以降の帯域となる。
【0060】
このようにして設定された高域サブバンドについて、第1の実施の形態では、その帯域内の信号を用いて、それ以降における信号が失われた部分についての補間を行う。
補間動作の概要は以下のようになる。
先ずは、特定した高域サブバンド内における自己相関計算を行う。すなわち、高域サブバンド内では、どの程度周波数方向にシフトさせると、自己信号との相関性が最も高くなるかを計算により求める。このように自己相関性が最も高くなるときのシフト量のことを、本明細書においては相関最大シフト量と呼ぶ。
そして、この相関最大シフト量と共に、信号が失われた部分を補間するための追加信号の生成に必要な情報として、Rate(比率)の値を計算する。具体的には、高域サブバンド内において、上記相関最大シフト量だけ離間した各MDCT係数番号位置の振幅値の比率をRateの値として計算する。
その上で、上記相関最大シフト量とRateの値とを用いて、信号が失われた部分についての補間を行う。つまり、信号の失われた帯域内の各MDCT係数番号位置(各周波数ポイント)のMDCT係数の値を、そのMDCT係数番号から上記相関最大シフト量だけ戻った位置のMDCT係数と上記Rateの値とに基づき計算した値で補間するものである。
【0061】
図4〜図7では、第1の実施の形態としての高域補間動作の具体的な手順について説明する。
先ず図4は、自己相関計算を行うにあたって行われるべきピーク値検出動作について模式的に示している。なお、この図4においても、先の図3と同様に縦軸を振幅(MDCT係数の値)、横軸を周波数としたときの1フレーム分のMDCT係数を示している。
【0062】
図4において、先ず、ピーク値検出にあたっては、高域サブバンド内の各sfbを4等分する。そして、このように各sfbを4等分して得られることになる、MDCT係数8個分の各バンド(以下分割バンドと呼ぶ)内において、最も値(振幅)の大きいMDCT係数を、その分割バンドのピーク値Peakとして検出する。
このピーク値Peakについては、図示するようにして最も低域側となる帯域から順にピーク値Peak[0]、ピーク値Peak[1]、ピーク値Peak[2]、・・・ピーク値Peak[n]とする。
なお、確認のために述べておくと、上記Peak[n]の「n」は、振幅がある最後の4等分されたバンドの番号(つまり分割バンドの番号)を指すものである。例えば仮に、sfb[30]よりも高域側で信号が失われたという場合には、320/8=40より、ピーク値Peak[40]までが検出されるといったものである。
【0063】
このようにしてピーク値Peakを検出すると、それらの値を用いて高域サブバンド内での自己相関計算を行う。
図5は、自己相関計算を説明するための模式図として、先の図3と同様に縦軸を振幅(MDCT係数の値)横軸を周波数としたときの1フレーム分のMDCT係数について示している。
【0064】
図5において、自己相関計算を行うにあたっては、先ずはシフト量jを設定することになる。このシフト量jの値は、自己信号をどの程度シフトさせた状態から自己相関計算を開始するかを決定付けるための値となる。すなわち、図示するようにして高域サブバンド内の各ピーク値Peakで構成されることになる、高域サブバンドの自己信号に対し、この自己信号をシフト量jの値だけシフトさせた位置から自己相関計算を開始するものである。
本例の場合、このシフト量jの値としては例えばj=20を設定することとしている。
【0065】
自己相関計算の具体的な内容としては、ピーク値Peakが検出された分割バンドの番号を「i」、信号(MDCT係数)が存在する最後の分割バンド番号を「N」とした場合に、以下の式1で表すことができる。

【数1】

【0066】
この自己相関計算により、各シフト位置での相関値が求まる。これらの相関値のうち、その値が最大となるときのシフト量jの値が、最も相関性が高くなるときの相関最大シフト量の値となる。以下では、この相関最大シフト量の値を「k」とおく。
【0067】
なお、これまでの説明では、原信号において必ず高域の信号成分が含まれていることを前提としたが、実際においては、原信号は比較的低域の成分のみを含み、高域成分が全く含まれていないといった場合も想定できる。そのような場合に高域補間が行われてしまうと、もともとない部分の信号成分が不自然に追加されてしまうことになり、かえって音質の劣化を招く可能性がある。
そこで第1の実施の形態では、原信号にもともと高域成分が含まれているか否かを判別し、その結果に基づき、以降で説明する高域補間を実行するか否かを判定するものとしている。
この場合、原信号にもともと高域成分が含まれているか否かの判別は、上記のようにして自己相関計算で得られる相関値を利用するものとしている。具体的には、計算された相関値のうちその値が大きい上位5つの相関値を選出し、それらの総和が予め定められた閾値(例えば1.0)以上である場合には、原信号において高域成分が含まれていたとして、以降の高域補間のための動作を実行する。
一方、値の大きい上位5つの相関値の総和が上記閾値(1.0)未満である場合には、原信号において高域がもともと含まれていなかったとして、以降の高域補間のための動作は行わないようにする。
【0068】
続いて、図6は、Rateの計算手法について示している。この図6においても先の図3と同様に縦軸を振幅(MDCT係数の値)、横軸を周波数としたときの1フレーム分のMDCT係数を示している。
上述のようにして求められた相関最大シフト量「k」の値は、高域サブバンド内ではこの値「k」だけシフトさせると自己との相関性が最も高くなるということを示す値となる。そこで、この相関最大シフト量「k」を用いて、高域側に「k」だけシフトさせた位置での振幅の比率(Rate)を求める。
【0069】
本実施の形態の場合、このRateの計算は、信号が存在する最後の分割バンド(分割バンド[n])で検出されたPeak[n]を基準として行うものとしている。
具体的には、図示するようにして先ずは分割バンド[n]のPeak[n]と、この分割バンド[n]から相関最大シフト量「k」だけ低域側に戻った位置の分割バンド[m]のピーク値Peak[m]との振幅比率を計算により求める。すなわち、Peak[m]/Peak[n]を計算する。
同様に、分割バンド[n−1]におけるピーク値Peak[n−1]と、分割バンド[m−1]のピーク値Peak[m−1]との振幅比率(Peak[m−1]/Peak[n−1])を計算する。
以降も同様に、所定値xとして、分割バンド[n−x]までについて、同様の比率計算を行う。例えば本例の場合、所定値x=5として、ピーク値Peak[n−5]と、ピーク値Peak[m−5]との振幅比率(Peak[m−5]/Peak[n−5])までを計算する。
そして、この結果得られることになる計5つの振幅比率の値を平均化したものを、最終的なRateの値として算出する。
【0070】
上記の手順により、相関最大シフト量「k」とRateの値とを計算すると、次の図7に示すようにして、信号がなくなる帯域、すなわち補間対象となるべき帯域における各MDCT係数番号位置に対する実際のMDCT係数の補間(追加)を行う。
なお、この図7においても先の図3と同様に縦軸を振幅(MDCT係数の値)、横軸を周波数としたときの1フレーム分のMDCT係数を示している。
【0071】
先ず、先に求めた相関最大シフト量「k」の値は、ピーク値Peakを元に求めた値であり、従って分割バンド単位(つまりMDCT係数8個分の単位)で換算したシフト量となっている。これに対し、実際の信号の追加(補間)は、各MDCT係数番号位置について行うことから、これをMDCT係数番号単位での値に戻すことが必要となる。具体的には、k×8とすることで、MDCT係数単位での相関最大シフト量に戻すことができる。
そして、具体的な補間動作としては、信号がなくなる帯域内の各MDCT係数番号位置の値を、それら各MDCT係数番号位置からそれぞれk×8だけ低域側に戻った位置のMDCT係数の値とRateの値とに基づき計算した値で補間する。換言すれば、このようにして計算した値で各MDCT係数番号位置にMDCT係数を追加するものである。
この場合、Rateの値は、先の図6で説明したようにしてm/n、すなわち振幅のより小さい高域側を分母としたので、高域に従って振幅が減衰するという特性に合うように、各MDCT係数位置の値を上記Rateの値で除算した値により、各MDCT係数位置の値を補間する。
【0072】
[高域補間部の内部構成]
図8は、上記により説明した第1の実施の形態の高域補間動作を実現するための高域補間部4a内の構成について示すブロック図である。
図示するようにして高域補間部4a内には、Peak検出部21、自己相関計算部22、相関最大シフト量検出部23、Rate計算部24、高域信号追加部25、補間判定部26が備えられている。
【0073】
先ず、この図8においても、先の図2に示したステレオ処理部12、及び適応ブロック長切り換え逆MDCT部13が示されている。
ステレオ処理部12から出力されるAAC1フレーム単位ごとのMDCT係数は、図示するようにしてPeak検出部21に対して入力されると共に、分岐して自己相関計算部22、Rate計算部24、高域信号追加部25のそれぞれに対しても供給される。
【0074】
上記Peak検出部21では、供給された1フレーム分のMDCT係数に基づき、予め定められた所定のsfb(この場合はsfb[29])から振幅がある最後のsfbまでの帯域を高域サブバンドとして、この高域サブバンド内の各sfbを4分割して各分割バンドに分けた上で、それら各分割バンド内でのMDCT係数のピーク値Peakを検出する。すなわち、先の図4にて説明したようなピーク値Peak[0]〜ピーク値Peak[n]を検出する。
検出した各ピーク値Peak[0]〜ピーク値Peak[n]は自己相関計算部22とRate計算部24に対して供給される。
【0075】
自己相関計算部22は、上記Peak検出部21から供給されたピーク値Peak[0]〜ピーク値Peak[n]を入力し、先に説明したようにしてピーク値Peakが検出された分割バンドの番号を「i」、MDCT係数の振幅が存在する最後の分割バンドの番号を「N」とした場合に、上述した式1による計算を行って各シフト位置での相関値を算出する。
【0076】
相関最大シフト量検出部23は、上記自己相関計算部22にて計算された各シフト位置での相関値とそのシフト量の情報とを入力し、相関値が最大となるときのシフト量を相関最大シフト量「k」として検出する。検出した相関最大シフト量「k」の値はRate計算部24と高域信号追加部25に対して供給される。
【0077】
また、上記自己相関計算部22にて計算された各シフト位置での相関値は、補間判定部26に対しても供給される。補間判定部26は、自己相関計算部22からの相関値について、その値が大きい順に上位5つの相関値を選出し、それらの総和が予め定められた所定閾値(この場合は1.0)以上であるか否かを判別する。計算した総和の値が上記閾値以上であると判別した場合は、原信号において高域成分が含まれていたと判定し、Rate計算部24、及び高域信号追加部25に対して動作の実行を指示するための制御信号(実行指示信号)を供給する。一方、計算した総和の値が上記閾値未満であると判別した場合は、原信号にはもともと高域成分が含まれていなかったと判定し、Rate計算部24、及び高域信号追加部25に対して動作を実行しないように指示するための制御信号(非実行指示信号)を供給する。
【0078】
Rate計算部24は、Peak検出部21からのピーク値Peak[0]〜Peak[n]と、相関最大シフト量検出部23からの相関最大シフト量「k」とを入力し、先の図6にて説明した手法によりRateの値を計算する。つまり、分割バンド[n]〜[n−5]のピーク値Peakについて、相関最大シフト量「k」だけ低域側に戻った分割バンドでのピーク値Peakとの振幅比率をそれぞれ計算した上で、その結果求まった計5つの振幅比率の値を平均化したものを、最終的なRateの値として算出する。
また、Rate計算部24は、上記補間判定部26からの制御信号に応じて上記Rateの計算動作を実行/非実行とするように構成される。すなわち、上記実行指示信号に応じては上記Rate計算動作を行い、上記非実行指示信号に応じては上記Rate計算動作は実行しないように構成される。
Rate計算部24により計算されたRateの値は高域信号追加部25に対して供給される。
【0079】
高域信号追加部25は、ステレオ処理部12からのMDCT係数と、相関最大シフト量検出部23からの相関最大シフト量「k」と、Rate計算部24からのRateの値とを入力し、先の図7にて説明した手法により信号がなくなる帯域内の各MDCT係数番号位置のMDCT係数の値を追加する。
すなわち、信号がなくなる帯域内の各MDCT係数番号位置に対し、それら各MDCT係数番号位置からそれぞれk×8だけ低域側に戻った位置のMDCT係数の値をRateの値で除算した値を追加する処理を行うものである。
【0080】
なお、ここでの図示は省略したが、実際においては、高域補間部4a内の各部では共通のnフレーム目のMDCT係数について処理が実行されるように、必要な部分に遅延回路を設けて各信号の供給タイミングを調整するなどの対策が行われるべきである。
【0081】
上記のようにして第1の実施の形態では、高域サブバンド内における自己相関計算を行って、相関最大シフト量を求めた上で、高域サブバンド内において、この相関最大シフト量だけ離間した各MDCT係数番号位置間での振幅比率を計算した結果に基づきRateの値を計算するようにしている。
その上で、上記相関最大シフト量とRateとを用いて、信号の失われた帯域内の各MDCT係数番号位置のMDCT係数の値を、そのMDCT係数番号位置から上記相関最大シフト量だけ戻った位置のMDCT係数を上記Rateの値で除算した値で補間するようにしている。
このようにして自己相関計算結果から求まった相関最大シフト量とRateの値とに基づき、符号化で信号が失われた帯域を補間することで、高域サブバンド内での相関性と、高域側に向けての振幅の減衰度合いとを踏襲したかたちで信号を追加することができ、この結果、より自然な信号で信号が失われた帯域を補間することができる。すなわち、これによって音質の向上を図ることができる。
【0082】
また、第1の実施の形態では、相関最大シフト量を求めるにあたり、高域サブバンド内を所定単位の分割バンドごとに分割して、それぞれの分割バンド内のピーク値Peakを検出し、このピーク値Peakを用いて自己相関計算を行うものとしたが、このことで以下のような効果を得ることができる。
すなわち、このようなピーク値Peakは、その分割バンド内での特徴をよく表したものとなるので、このようにピーク値Peakを用いた自己相関計算とすることで、より信頼性の高い自己相関計算を行うことができ、従ってこの自己相関計算結果に基づき求められる相関最大シフト量「k」の値としても、より信頼性の高い値を得ることができることになる。
【0083】
また、第1の実施の形態では、シフト量jの値としてj=20を設定し、高域サブバンドの始点から分割バンド20個分ずらした位置から自己相関計算を開始するものとしたが、このシフト量jの値としては、j=1以外であれば他の値を設定することができる。すなわち、j=1としたときは、その時点で自己相関計算値が最大となってしまうことから、大前提としてj≧2であることが必須となる。
このとき、jの値としては、その値が小さければその分最終的なシフト位置に至るまでのシフト量が増え、自己相関計算量が増大化することになる。また、逆に大きければ自己相関計算量は少なくできるという性質をもつ。
この点を考慮すると、シフト量jの値は、できるだけ大きくして自己相関計算の処理負担の軽減を図ることが考えられるが、実際には、高域側の信号では高調波が出やすい傾向となるので、シフト量jとしてあまりに大きな値を設定した場合には、自己相関計算の結果の信頼性を著しく損なう虞がある。
ここで、一般的に考えて、高域サブバンドの始点となるMDCT係数番号=320近傍のピーク値Peakは、320の最初の整数倍(2倍)であるMDCT係数番号=640付近のピーク値Peakと相関性が高くなるであろうということが予想できる。本実施の形態では、この点に鑑み、j=20(MDCT係数番号で換算すると20×8=160個分のシフト量であり、相関計算開始位置は320+160=480付近となる)を設定している。すなわち、相関性が最も高くなると予測されるMDCT係数番号=640付近からおよそ160個分程度マージンをとった位置から、相関計算を開始するようにしているものである。
このような予測位置から実際の計算開始位置までのマージンは、大きくすればする程、自己相関計算結果、すなわち相関最大シフト量の検出精度を向上させることができる。しかしながらこのマージンをとりすぎると、結果としてjの値は小さくなり、その分最終的なシフト位置に至るまでのシフト量が増えて自己相関計算量が増大化してしまうことになる。
以上のことから、jの値の設定によって自己相関計算の処理負担の軽減を図ることと、相関最大シフト量の検出精度を高めることとはトレードオフの関係にあることがわかる。実際のシフト量jの値の設定にあたっては、これら自己相関計算の処理負担の軽減と相関最大シフト量の信頼性確保の双方を考慮した上で、最適とされる値が設定されればよい。その最適点の一例として、本例ではj=20を例示している。
【0084】
また、上記により説明した第1の実施の形態の高域補間動作によれば、1フレーム当たりで自己相関計算は1度のみ行えばよく、あとは比率を計算した上で既存の信号を比率で除算するという処理のみで高域の信号を補間できる。この点で、従来の手法のように、基準バンドを特定するにあたり、信号が存在する帯域を分割し、分割した数だけ組合せを作り相関関係を求めるとった処理を行う場合と比較すれば、処理負担は格段に軽くすることができる。
また、第1の実施の形態の高域補間としては、その処理内容はフレーム単位で同じ(自己相関計算・比率計算・相関最大シフト量と比率とに基づく高域信号の追加)であり、従来のように各フレームごとに処理内容が変化して処理量や処理時間が入力信号に左右されて変わってしまうといった不都合は生じない。
また、復号化処理とは独立した処理とできるので、特に符号化側と共通な復号アルゴリズムとする必要はなく、汎用性が失われるといった問題も生じないようにすることができる。
【0085】
図9には、第1の実施の形態の有効性を実証するための実験結果を示す。この図9においては、AAC1フレーム分の音声信号について、図9(a)は原信号のスペクトログラムを、図9(b)は上記原信号を符号化した符号化信号を従来通りの復号化処理で復号化した信号のスペクトログラムを、図9(c)は本例の補間処理で生成された高域信号のスペクトログラムを、また図9(d)は上記復号化処理後の信号に上記補間処理で生成された高域信号を追加した信号のスペクトログラムをそれぞれ示している。
なお、図9の各図においては縦軸を周波数、横軸を時間とし、振幅の強さは色の濃さにより表している。また図9では一例として、AAC方式・ビットレート=128kbpsにより符号化された音声信号について復号化・高域補間を行ったときの結果を示している。
【0086】
先ず、図9(a)と図9(b)とを比較してわかるように、符号化に伴っては、高域信号の欠落が生じる。先に説明した本例の高域補間によっては、図9(c)に示すようにして、符号化により欠落した部分の信号が生成され、これが図9(d)に示されるようにして復号化後の信号における欠落が生じた部分に対して追加されることになる。
この図9(d)より、本例の高域補間が行われることによっては、符号化により欠落しなかった高域部分での相関を活かして、欠落が生じた部分の信号が追加されていることが理解できる。
【0087】
なお、ここまでの説明では、第1の実施の形態の高域補間動作が、先の図8に示したようなハードウェア構成により実現される場合を例示したが、第1の実施の形態の高域補間動作としてはソフトウェア処理によっても実現することができる。つまり、高域補間部4aとしては、例えばCPUやメモリを備えた演算処理部で構成することができ、この演算処理部のソフトウェア処理により上述した実施の形態としての高域補間動作を実現するものである。
【0088】
この場合において実行されるべき処理動作を、次の図10のフローチャートに示す。
なお、この図に示す処理動作は、上述のような高域補間部4aとしての演算処理部が、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
先ずステップS101では、Peak検出処理を実行する。すなわち、ステレオ処理部12から供給された1フレーム分のMDCT係数に基づき、予め定められた所定のsfb(この場合はsfb[29])から振幅がある最後のsfbまでの帯域を高域サブバンドとして、この高域サブバンド内の各sfbを4分割して各分割バンドに分けた上で、それら各分割バンド内でのMDCT係数のピーク値Peakを検出する。これによって先の図4にて説明したようなピーク値Peak[0]〜ピーク値Peak[n]が検出される。
【0089】
続くステップS102では、自己相関計算処理を実行する。つまり、検出したピーク値Peak[0]〜ピーク値Peak[n]の情報を用い、ピーク値Peakが検出された分割バンド番号を「i」、振幅が存在する最後の分割バンド番号を「N」とした場合に、先に示した式1による計算を行って各シフト位置での相関値を算出する。
【0090】
次のステップS103では、先ずは計算した相関値について、値が大きい上位5つの相関値を選出する。
そして、続くステップS104において、補間するか否かの判別処理を実行する。すなわち、選出した上位5つの相関値の総和と、予め定められた所定閾値(1.0)とを比較し、相関値の総和が上記閾値以上となっているか否か(補間するか否か)を判別する。
【0091】
ステップS104において、上記相関値の総和が上記閾値以上ではなく、補間しないとの否定結果が得られた場合は、図示するようにしてそのまま「RETURN」となる。
一方、上記相関値の総和が上記閾値以上であり、補間するとの肯定結果が得られた場合は、ステップS105に進む。
【0092】
ステップS105では、相関最大シフト量「k」の検出処理として、先のステップS102で計算した相関値が最大となるときのシフト量を相関最大シフト量「k」として検出する。
そして、続くステップS106では、Rate計算処理を実行する。すなわち、ステップS101にて検出したピーク値Peak[0]〜Peak[n]と、上記相関最大シフト量「k」とを用いて、先の図6にて説明した手法によりRateの値を計算する。具体的には、分割バンド[n]〜[n−5]のピーク値Peakについて、それぞれ相関最大シフト量「k」だけ低域側に戻った分割バンドでのピーク値Peakとの振幅比率を計算した上で、その結果求まった計5つの振幅比率の値を平均化したものを最終的なRateの値として算出する。
【0093】
さらに、続くステップS107では、相関最大シフト量「k」とRateの値とに基づく高域信号追加処理を実行する。すなわち、供給された1フレーム分のMDCT係数について、信号(振幅)がなくなる帯域内の各MDCT係数番号位置に対し、それら各MDCT係数番号位置からそれぞれk×8だけ低域側に戻った位置のMDCT係数の値をRateの値で除算した値を追加する処理を行う。
このステップS107の処理を実行すると、図示するようにして「RETURN」となり、これによって上記により説明した処理(S101〜S107)が1フレームごとに繰り返し実行されることになる。
【0094】
なお、図10では、原信号にもともと高域信号がないか否かに応じてRate計算処理・高域信号追加処理を実行/非実行とするための処理(ステップS103の選出処理・ステップS104の判別処理)を、連続した1セットの処理として実行する場合を例示したが、このようなステップS103・S104の処理は、必ずしも連続した処理として実行される必要はない。例えば、ステップS103→ステップS105→ステップS104の順に処理を実行することもできる。
また、ステップS104の判別処理が、相関最大シフト量「k」の検出処理前に実行される場合を例示したが、このステップS104の判別処理としては、Rate計算処理と高域信号追加処理よりも前であって、上位5つの相関値の選出処理後となるタイミングであれば任意のタイミングで行うことができる。また、ステップS103の選出処理としては、自己相関計算処理後であって、補間するか否かの判別処理前となるタイミングであれば任意のタイミングで行うことができる。
【0095】
また、これまでの説明では、高域補間部4aが圧縮符号復号化部4内に設けられる場合を例示したが、例えば次の図11に示すようにして、圧縮符号復号化部4の外部に対して高域補間部4aを設けるようにすることもできる。
【0096】
図11において、この場合の圧縮符号復号化部4内においては、高域補間部4aが省略され、ステレオ処理部12からのMDCT係数は直接的に適応ブロック長切換逆MDCT部13に供給されるようになっている。
そして、圧縮符号復号化部4から出力される音声信号(時間音声信号)を入力して、これを再度MDCT変換して周波数軸領域の音声信号に変換するMDCT変換部30を追加するものとしている。
その上で、この場合の高域補間部4aに対しては、このMDCT変換部30にて時間−周波数変換された音声信号(MDCT係数)を、AAC1フレーム単位ごとに入力する。
なお、この場合も高域補間部4aが行う動作としては先に説明したものと同様となるため改めての説明は省略する。
【0097】
そして、この高域補間部4aにて高域信号が追加されたMDCT係数を、図中逆MDCT変換部31により再度逆MDCT変換させ、音声出力可能な時間音声信号に戻すようにする。このようにして得られた時間音声信号が、図1に示したDSP5に対して供給される。
【0098】
このようにして第1の実施の形態の高域補間動作を行う高域補間部4aとしては、圧縮符号復号化部4の外部に設けて、復号化処理の完了した音声信号について高音質化を図るようにすることもできる。
但し、上記説明からも理解されるように、このようにして圧縮符号復号化部4外部に設ける場合には、復号化後の時間音声信号を再度周波数変換された状態の音声信号に戻すための構成(MDCT変換部30)と、高域補間後の周波数軸領域の音声信号を再度時間軸領域の音声信号に戻すための構成(逆MDCT変換部31)とが別途必要となる。
この点に鑑み、先の図1に示した再生装置1では、高域補間部4aを圧縮符号復号化部4内に設けて、復号化処理の過程で既に周波数軸領域に変換された状態にある音声信号について高域補間を施すようにしたことで、上記のような別途の構成が不要となるようにしたものである。
【0099】
以上、第1の実施の形態について説明したが、本発明の高域補間としてはこれまでの具体例に限定されるべきものではない。
例えばこれまでの説明では、Rateの値は、高域サブバンドの終点側(最も高域側)を基準として行ったが、始点側(最も低域側)を基準として行うこともできる。つまり、ピーク値Peak[k]/ピーク値Peak[0]、ピーク値Peak[k+1]/ピーク値Peak[1]、・・・ピーク値Peak[k+x]/ピーク値Peak[x]のように、高域サブバンドの始点〜所定値xまでの各分割バンドのピーク値Peakについて、それぞれ+kとした分割バンドのピーク値Peakとの振幅比率を計算し、それらの平均値をRateの値として算出するといったものである。
但し、先の例のように終点側を基準としたRate計算とすれば、補間すべき部分により近いところでRateを計算できる分、始点側で計算する場合よりも信頼性の高いRateの値を得ることができる。すなわち、そのようなRateの値を使用して高域信号追加を行うことで、より自然な信号で高域の信号を補間することができるようになる。
【0100】
また、Rateの値は、相関最大シフト量「k」だけ離間した複数組の各ピーク値Peakの振幅比率を平均化した値を計算するものとしたが、kだけ離間した1組の各ピーク値Peakの振幅比率をそのままRateの値とすることもできる。
但し、複数組の振幅比率を平均化した値とすれば、1組の振幅比率のみからRateを計算する場合よりもRateの値の信頼性は高めることができる。
【0101】
また、ピーク値Peakについては、MDCT係数8個分の分割バンド単位で区切ったときのピーク値としたが、ピーク値Peakを得るための分割バンド幅は「8」以外の他の数値とすることもできる。
【0102】
また、これまでの説明では、ピーク値Peakを自己信号として自己相関計算を行うものとしたが、ピーク値Peakは検出せずに、各MDCT係数番号位置のMDCT係数を用いて自己相関計算を行うこともできる。また、Rateの計算としても、ピーク値Peakは検出せずに、MDCT係数を用いて行うことができる。
各MDCT係数番号位置のMDCT係数を用いた自己相関計算を行った場合、相関最大シフト量としてはMDCT係数番号単位での値となる。この場合、仮にRate計算については先の具体例と同様にピーク値Peakを用いて行うとするのであれば、このようなMDCT係数番号単位での相関最大シフト量を1/8に除算(つまり分割バンド幅で除算)し、その値だけ離間した各ピーク値Peakの振幅比率を計算した結果に基づきRateの値を算出すればよい。
また、このように各MDCT係数番号位置のMDCT係数を用いた自己相関計算を行った場合、高域信号追加動作時には、検出された相関最大シフト量の値に敢えて分割バンド幅の値を乗算して用いる必要はなくなる。
但し、ピーク値Peakを用いた自己相関計算とすれば、その分自己相関計算の計算量は削減でき、また上述もしたように信頼性の高い相関値を計算でき、これによって信頼性の高い相関最大シフト量の検出が可能となる。
【0103】
また、これまでの説明では、自己相関計算について、先の式1における「N」を振幅がある最後の分割バンド番号の値とし、高域サブバンドの全範囲を自己信号として自己相関計算を行う場合を例示したが、例えば「N」の値をより低域側の分割バンド番号の値とすることで、高域サブバンド内の一部を自己信号として自己相関計算を行うこともできる。このようにすることで、自己相関計算量を削減することができる。
【0104】
また、これまでの説明では、AAC方式により圧縮符号化がされた音声信号(オーディオ信号)について高域補間を行う場合についてのみ説明したが、他の音声圧縮符号化方式で符号化された音声信号について高域補間を行う場合にも本発明は好適に適用することができる。
ここで、AAC方式以外では、所定周波数以上の領域のみがバンド幅一定とならず、全域にわたってバンド幅が一定である場合もある。そこで、そのような場合には、高域サブバンドの始点として予め所定の周波数(MDCT係数番号)を設定しておき、同様にその始点から振幅がある最後のバンドまでを高域サブバンドとして設定するものとすればよい。以降は同様の動作とすることで実施の形態の場合と同様の効果を得ることができる。
【0105】
<第2の実施の形態>

続いて、第2の実施の形態について説明する。
第2の実施の形態は、量子化誤差を補正するためのものである。
図12は、第2の実施の形態としての再生装置40の内部構成を示すブロック図である。
図示するようにして第2の実施の形態の再生装置40では、圧縮符号復号化部4内に、先の高域補間部4aに代えて量子化誤差補正部4bが設けられる。
なお、第2の実施の形態の再生装置40は、この量子化誤差補正部4bが設けられる以外は先の第1の実施の形態の再生装置1と同様の構成となるので、ここでは同一符号を付して説明を省略する。
【0106】
図13は、図12に示される圧縮符号復号化部4の内部構成を示している。
第2の実施の形態の場合の量子化誤差補正部4bとしても、先の高域補間部4aと同様に、圧縮符号復号化部4内において、ステレオ処理部12と適応ブロック長切換逆MDCT部13との間に対して設けられる。すなわち、この量子化誤差補正部4bとしても、先の高域補間部4aと同様に、ステレオ処理部12によって得られる、符号化時のMDCT処理された直後に相当する状態に復元されたMDCT係数を入力し、それについて処理を行うようにされている。
なお、圧縮符号復号化部4内の他の構成については先の第1の実施の形態の場合と同様となることから、ここでは同一符号を付して説明を省略する。
【0107】
[量子化誤差]
ここで、一般的に音声圧縮符号化は、上述したような周波数相関符号化として、心理聴覚分析を用いた方式が採られている。この心理聴覚特性を用いた符号化では、聴感上聴取することのできないとされる周波数帯域については割り当てるビット数を削減することで、音質の低下を抑えながら効率の良い情報圧縮処理を行うように図られている。
しかしながら、このようにして低ビット数が割り当てられた周波数帯域では、その低ビット数に起因して復号の際の復号精度が低下し、本来の音声信号との差が大きくなるという現象が生じる。このような現象は、量子化誤差と呼ばれる。
【0108】
図14は、このような割り当てビット数に起因して生じる量子化誤差について説明するための図である。
先ず、前提として、圧縮符号化では、上述のようにして所要の周波数帯域については割り当てるビット数を削減するものとしているが、このような帯域ごとのビット割り当て数は、その帯域について設定された分解能の値によって決定される。
図14では、それぞれ異なる分解能が設定された場合での元データ(原信号のデータ)、符号化による量子化前/後の各データ、及び復号結果としてのデータの関係を示している。具体的に図14(a)では分解能=2(高分解能)が設定された場合、図14(b)では分解能=5(低分解能)が設定された場合について示している。
【0109】
これらの図を参照してわかるように、高分解能とされた場合の方が、低分解能とされる場合よりも元データと復号結果との誤差が小さくなる。
具体的に、例えば図中の最左欄の元データ=8のケースに着目すると、分解能=2のときは、量子化前の値は8÷2により「4」であり、その量子化結果はこれを整数化したものと捉えることができ、図中量子化後として示すように同じ「4」となる。復号結果は、量子化後の値を分解能の値で戻したものに相当し、4×2により「8」となる。
これに対し、分解能=5のときは、元データ=8に対し量子化前の値は「1.6」となり、量子化後の値はこれが整数化されて「1」となってしまう。そして、復号結果は、この「1」を分解能「5」で戻した「5」となり、先の分解能=2の場合の復号結果「8」と比較して誤差が大きくなる。
【0110】
このようにして分解能が低い場合には、量子化前の値と、これが整数化されたものに相当する量子化後の値との誤差が大きくなる傾向にあり、これに応じ復号結果にも元データの値からの大きな誤差を生じさせることとなる。これが、割り当てビット数の少ない部分で量子化誤差が生じやすい所以である。
【0111】
ここで、例えば元データがとり得る値を仮に0〜100までの範囲としたとき、分解能を高くする(値としては小さくする)ことによっては、その分、細かい刻みで元データの値を表現することができるが、それに伴ってより多くのビット数を割り当てる必要がでてくることがわかる。一方で、分解能を低くする(値としては大きくする)ことによっては、元データの値を表現する上での刻み幅を粗くすることができるので、割り当てるビット数はより少なくすることができる。このようなことから、符号化の際に各バンドに設定する分解能の値により、そのバンドについての割り当てビット数が決定付けられることが理解できる。
【0112】
図15は、実際の量子化誤差の発生形態の一例について説明するための図として、図15(a)ではビットレート=512kbpsのとき、図15(b)ではビットレート=128kbpsのときのスペクトル分布を示している。なお、この図ではスペクトル分布として、図13(図2)に示したステレオ処理部12から出力されるAAC1フレーム分のMDCT係数の分布(図中黒丸)を示している。また、この図では、周波数相関符号化により割り当てビット数の削減率が比較的高くなる中・高域として、例えば7kHz以降(〜22kHz)のMDCT係数の分布を示している。
【0113】
先ず、図15(a)に示す高ビットレートの場合、中・高域においても各バンドの割り当てビット数は比較的多くすることができるため、大きな量子化誤差はほぼ生じていないことが確認できる。
これに対し、図15(b)の低ビットレートの場合は、中・高域での割り当てビット数の削減率が高くなることに伴って、比較的大きな量子化誤差が生じやすくなる。この大きな量子化誤差部分は、図中の丸印で囲うように、同じ振幅値が連続する部分として確認することができる。これが、量子化誤差による平坦化と呼ばれる現象である。
【0114】
このような平坦化が生じた部分は、当然のことながら元の原信号の波形を忠実に再現したものとはならない。すなわち、このように平坦化が生じた部分で特に音質の劣化が生じるものである。
【0115】
[量子化誤差の補正]
そこで、第2の実施の形態では、特にこのような平坦化部分による音質劣化を防止し、音質の改善を図る(つまり高音質化を図る)ものとする。そのための構成として、先の図13(図12)に示した量子化誤差補正部4bを設けるようにしている。
【0116】
図16は、量子化誤差補正部4bの内部構成について示すブロック図である。
図示するようにして量子化誤差補正部4bには、平坦化部分抽出部41、置換判定部42、予測処理部43、置換部44が備えられている。
これら量子化誤差補正部4b内の各部に対しては、図13に示したステレオ処理部12から出力されるAAC1フレーム単位ごとのMDCT係数が入力される。
【0117】
先ず、予測処理部43では、上記ステレオ処理部12から供給される1フレーム分ごとのMDCT係数に基づき、圧縮符号化前の原信号を予測した予測信号を生成する。
この予測処理部43が備える予測器として、本実施の形態ではAACのMainプロファイル(ISO/IEC13818-7)で規格化されている予測器を用いるものとしている。なおこの予測器は、先の図2、図13に示した予測処理部12bが備えるものと同等のものである。
【0118】
ここで、図17は、上記予測器による予測処理のフローを示している。
この予測器は、2次の後方適応格子型予測器である。予測値x est(n)は以下のように求められる。
x est(n) = x est,1(n)+ x est,2(n)
ここで、
x est,1(n) = bk1(n) r q,0(n-1)
x est,2(n) = bk2(n) r q,1(n-1)
であり、a=b=0.953125である。
r q,0(n) = axrec(n)
r q,1(n) = a(rq,0 (n-1) − bk1(n)eq,0(n))
e q,0(n) = xrec(n)
e q,1(n) = e q,0(n) − xest,1(n)
km(n+1),m=1,2は以下の式により求める。
km(n+1) = CORm(n)/VARm(n)
ここで、
CORm(n) = αCOR m(n-1)+r q,m-1(n-1) eq,m-1(n)
VARm(n) = αVAR m(n-1)+0.5(r2 q,m-1(n-1)+ e2q,m-1(n))
であり、α=0.90625である。
【0119】
なお、本例では、上記予測処理部43として、先の予測処理部12bと同手法により予測処理を行う部分を別途設けるものとしているが、これは、AACのオプション処理として、図2、図13に示すインテンシティステレオ処理部12c、TNS処理部12dとしての処理を行っていることに起因する。すなわち、これらのオプション処理を行う場合、予測処理部12bにおける処理結果は、本例の量子化誤差補正部4bで用いることのできるかたちでの予測信号として得ることができないため、別途の予測処理部43を設けているものである。
【0120】
説明を図16に戻す。
平坦化部分抽出部41には、上述のようにしてステレオ処理部12からの1フレーム分のMDCT係数が供給されると共に、図13に示したフォーマット解析部10から供給されるスケールファクタバンド(sfb)ごとの分解能の情報が入力される。
平坦化部分抽出部41では、これら1フレーム分のMDCT係数とsfbごとの分解能の情報とに基づき、sfbごとに、MDCT係数の値がそのsfbの分解能と同値となっている部分を検出(抽出)する。
多くの場合、このように分解能の値と同値となっているとして検出された部分が、先の図15(b)に示したような平坦化部分を形成する部分となる。
【0121】
ここで、第2の実施の形態では、量子化誤差の補正を行う帯域を、ビット割り当て数が不十分とされる中・高域に限定するものとしている。例えばこの場合は、先の図15に示されるような7kHz〜22kHzまでの帯域のみを対象として補正動作を行うものとしている。
これに応じ平坦化部分抽出部41では、1フレームを形成する各sfbのうち、このような7kHz以降のsfbのみを対象としてMDCT係数の値がそのsfbの分解能と同値となっているMDCT係数位置を検出する。
平坦化帯域抽出部41は、検出したMDCT係数位置の情報(MDCT係数番号情報)と、さらにそのMDCT係数位置が属するsfbの分解能の情報とを併せて置換判定部42に供給する。
【0122】
置換判定部42は、上記平坦化部分抽出部41により検出されたMDCT係数番号の情報とそのバンドにおける分解能の情報、及びステレオ処理部12からのMDCT係数、さらに予測処理部43で生成された予測信号を入力し、それらの情報に基づき置換判定を行う。すなわち、上記平坦化部分抽出部41からのMDCT係数番号によって特定されるMDCT係数位置における上記予測信号の値と上記MDCT係数の値と、さらにそのMDCT係数位置が属するsfbの分解能の情報とに基づき、置換判定を行う。
具体的には、予測信号の値が、[MDCT係数の値(絶対値)+分解能/n]以下となっているか否かを判別した結果に基づき、置換判定を行う。例えばこの場合は、n=2として、予測信号の値がMDCT係数の値+分解能の値/2以下であるか否かを判別する。
予測信号の値がMDCT係数の値+分解能の値/2以下となっていないとした場合、そのMDCT係数位置については置換を行わないとの判定結果を示す判定信号を次に説明する置換部44に対して供給する。一方、予測信号の値がMDCT係数の値+分解能の値/2以下となっているとした場合は、そのMDCT係数位置については置換を行うとの判定結果を示す判定信号を置換部44に対して供給する。
【0123】
置換部44は、ステレオ処理部12から供給されるMDCT係数と、上記置換判定部42からの判定信号と、さらに予測処理部23からの予測信号とに基づき、置換処理を行う。
具体的には、上記置換判定部42からの判定信号により置換を行うとの判定結果が示されたMDCT係数位置について、そのMDCT係数の値を予測信号の値で置換する。
この置換部44による置換処理が施された1フレーム分のMDCT係数が、先の図13に示した適応ブロック長切換逆MDCT部13に対して順次供給されることになる。
【0124】
上記のようにして第2の実施の形態では、圧縮符号化がされた音声信号(オーディオ信号)について、周波数軸上でそのバンド(sfb)の分解能の値となっているMDCT係数位置を検出し、その位置の振幅値を、予測信号の値との比較結果に基づいて予測信号の値で置換するものとしている。
【0125】
ここで、上記のようにして本例においては、周波数軸上で分解能と同値となっている部分を検出するものとしているが、先の図14、図15の説明からも理解されるように、音質劣化の原因となる平坦化部分は、分解能と同値となっているところで生じやすいことになる。すなわち、分解能と同値(分解能の値×1)の部分は、量子化としての整数化で波数が切り捨てられた際に、その切り捨て率が相対的に高くなる可能性が高く、それに伴い生じる量子化誤差の率も高くなる傾向となって、大きな量子化誤差が生じやすい。
そこで本例では、上記のようにして先ずは分解能の値と同値となっている部分を置換候補部分として検出し、予測信号の値からその候補部分で大きな量子化誤差が生じているか、すなわち置換を行う妥当性があるかを判定した上で、妥当であるとされた場合にはその部分のMDCT係数を予測信号の値で置換するものとしている。
これにより、割り当てビット数の少なさに起因して大きな量子化誤差の生じている部分を適正に検出し、その誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。この結果、圧縮符号化による音質劣化を効果的に抑圧し、高音質化を図ることができる。
【0126】
そして、このような第2の実施の形態としての補正動作によれば、高音質化を図るにあたっては、予測信号を生成し、その値と音声信号の振幅値とを比較した結果に基づき予測信号の値との置換を行えばよいのみとすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。
【0127】
特に、予測信号の生成にあたり、上述したような2次の後方適応格子型による予測器を採用する本例の場合、その予測アルゴリズムとしては1フレームにつき1回の予測処理関数を呼び出せばよく、従来の如く各バンドで妥当とされる二次曲線などを求める場合のように複数フレーム間にわたって処理を行う必要はないものとでき、その分処理負担を格段に軽減することができる。また、さらには処理負担を音源によらず一定とすることもでき、処理の安定化を図ることができる。
【0128】
また、第2の実施の形態では、例えば7kHz以降の中・高域の帯域のみを対象として補正動作を行うこととしているが、このことで、不必要な部分で置換が行われてしまうことを効果的に防止することができる。
例えば、先に示した特許文献3に記載の発明では、全周波数帯域を対象として補正を行うことを前提としているが、このように全周波数帯域を対象として補正を行った場合、低域などのビット割り当てが充分であるところで、求めた補正値がかえって本来の振幅値とかけ離れたものとなってしまう可能性があり、結果的に音質向上を図ることができなくなる可能性がある。
これに対し本例のように補正対象帯域をビット割り当てが不十分とされる中・高域に限定すれば、必要な帯域のみについて補正を行うことができ、そのような不具合の発生を効果的に防止できる。
【0129】
なお、ここまでの説明では、第2の実施の形態としての量子化誤差の補正動作が、先の図16に示したようなハードウェア構成により実現される場合を例示したが、第2の実施の形態の補正動作としても、先の第1の実施の形態の場合と同様にソフトウェア処理によっても実現することができる。つまり、この場合も量子化誤差補正部4bを例えばCPUやメモリを備えた演算処理部で構成し、この演算処理部としての量子化誤差補正部4bのソフトウェア処理により上述した第2の実施の形態としての補正動作を実現するものである。
【0130】
この場合において実行されるべき処理動作を、次の図18のフローチャートに示す。
なお、この図に示す処理動作としても、上述のような演算処理部としての量子化誤差補正部4bが、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
また、図示による説明は省略するが、この演算処理部としての量子化誤差補正部4bは、この図に示す処理動作と並行して、ステレオ処理部12からのMDCT係数に基づき先の図17の説明に基づく予測処理を行って予測信号を生成する処理を行っているものとする。
【0131】
先ずステップS201では、分解能情報を取得する。すなわち、先の図13に示したフォーマット解析部10からのsfbごとの分解能の情報を取得する。
【0132】
続くステップS202では、平坦化部分を抽出するための処理を行う。すなわち、ステレオ処理部12から供給される1フレーム分のMDCT係数を入力し、この1フレームを形成する各sfbのうち、例えば7kHz以降のsfbのみを対象としてMDCT係数の値がそのsfbの分解能と同値となっているMDCT係数位置を検出する。
【0133】
さらに、次のステップS203では、予測信号に基づき抽出部分ごとに置換判定を行う。
すなわち、上記ステップS202によって検出したMDCT係数位置ごとに、MDCT係数の値、そのMDCT係数位置が属するsfbの分解能の値、予測信号の値に基づき置換判定を行う。具体的には、先にも述べたようにこれらMDCT係数の値、予測信号の値、分解能の値について、予測信号の値が、MDCT係数の値+分解能の値/2以下となっているか否かを判別した結果に基づき、置換判定を行う。
【0134】
その上で、続くステップS204においては、要置換部分のMDCT係数を予測信号に基づき置換する処理を行う。つまり、上記ステップS203の置換判定より、予測信号の値がMDCT係数の値+分解能の値/2以下となっていると判定したMDCT係数位置についてのみ、予測信号の値による置換を行う。
このステップS204を実行すると、図示するようにして「RETURN」となる。なお確認のために述べておくと、この図に示す処理動作としてもAAC1フレームごとに実行されるべきものである。
【0135】
ここで、これまでの説明では、量子化誤差補正部4bが圧縮符号復号化部4内に設けられる場合を例示したが、この場合としても、例えば次の図19に示すようにして、圧縮符号復号化部4の外部に対して量子化誤差補正部4bを設けるようにすることもできる。
図示するようにして、この場合の構成としては、先の図11に示した構成において高域補間部4aの代わりに量子化誤差補正部4bを設けたものに相当する。但し、量子化誤差補正部4bの場合は、sfbごとの分解能の情報を用いるようにされるので、図中破線矢印により示されるようにしてフォーマット解析部10からのsfbごとの分解能の情報も入力する。
なお、この場合も量子化誤差補正部4bが行う動作としては先に説明したものと同様となるため改めての説明は省略する。
【0136】
なお、この図19に示す変形例では、このように外付けとされた量子化誤差補正部4b(平坦化部分抽出部41)に対してフォーマット解析部10からの分解能の情報を入力するように構成したが、このようなフォーマット解析部10からの分解能の情報の入力は必須ではない。
フォーマット解析部10からの分解能の情報を入力しない場合、平坦化部分抽出部41に対し、圧縮符号復号化部4→MDCT変換部30を介して得られるMDCT係数を供給するようにしておく。その上で、この場合の平坦化部分抽出部41としては、各sfbにおいて最小の振幅値をそのsfbの分解能の値として検出し、平坦化部分の検出、及びその後の置換判定においては、このようにして検出した値を分解能の値として用いるようにする。或いは、各sfbごとに頻発する振幅値をそのsfbの分解能の値と見なしてこれを用いるようにすることもできる。
【0137】
以上、第2の実施の形態について説明したが、本発明の量子化誤差補正としてはこれまでに説明した具体例に限定されるべきものではない。
例えば、これまでの説明では、所定の帯域のみについて補正処理を行う場合を例示したが、全帯域を対象として補正処理を行うものとしてもよい。
【0138】
また、これまでの説明では、予測信号の生成にあたり、2次の後方適応格子型による予測器を用いる例を挙げたが、他の方式による予測器を用いることもできる。或いは、補間多項式や、多次元の近似式など多次元関数による予測処理で予測信号を生成することもできる。
但し、先にも述べたように処理負担の軽減の面では、実施の形態で採用したような2次の後方適応格子型による予測器を用いるのが好ましい。
【0139】
また、これまでの説明では、置換の妥当性の判断基準として、誤差候補部分の予測信号の値が、MDCT係数の値+分解能の値/2以下であるか否かを判別する場合を例示したが、このような判断基準としては少なくとも分解能/nとすればよい。但し、量子化誤差はもともと分解能未満となる性質上、nの値としては、分解能/nの値を分解能の値未満とする値を選定すべきである。
或いは、置換の妥当性の判断としては、予測信号の値がMDCT係数の値±分解能の値/n以下であるか否かを判別するようにしてもよい。または、誤差候補部分の振幅値とその予測信号の値との差が、分解能/nであるか否か判別することもできる。
【0140】
<第3の実施の形態>

図20は、第3の実施の形態としての再生装置50の内部構成を示すブロック図である。
第3の実施の形態は、バンド間の量子化誤差を補正するためのものである。
図示するようにして第3の実施の形態の再生装置50では、圧縮符号復号化部4内に、先の高域補間部4a(又は量子化誤差補正部4b)に代えて、バンド間量子化誤差補正部4cが設けられる。
なお、第3の実施の形態の再生装置50としても、このようなバンド間量子化誤差補正部4cが設けられる以外は、先の第1の実施の形態の再生装置1と同様の構成となるのでここでは同一符号を付して説明を省略する。
【0141】
図21は、図20に示される圧縮符号復号化部4の内部構成を示している。
第3の実施の形態の場合のバンド間量子化誤差補正部4cとしても、先の高域補間部4aと同様に、圧縮符号復号化部4内において、ステレオ処理部12と適応ブロック長切換逆MDCT部13との間に対して設けられる。つまり、このバンド間量子化誤差補正部4cとしても、先の高域補間部4a、量子化誤差補正部4bと同様、ステレオ処理部12によって得られる、MDCT処理された直後に相当する状態に復元されたMDCT係数を入力して処理するようにされている。
なお、この場合も圧縮符号復号化部4内の他の構成については先の第1の実施の形態の場合と同様となることから、同一符号を付して説明を省略する。
【0142】
[バンド間の量子化誤差]
ここで、圧縮符号化処理に伴う音質劣化要因としては、これまでで説明してきた高域信号の欠落、量子化誤差による平坦化の他にも、割り当てビット数の削減に伴うバンド間の量子化誤差も挙げることができる。
【0143】
図22、図23は、このようなバンド間の量子化誤差について説明するための図である。
先ず、図22では、周波数軸上において、連続するスケールファクタバンド(fsb[n]、fsb[n+1])の一部のMDCT係数位置のみを抽出して示している。なお、この図では、横軸にMDCT係数番号をとり、図中左側が低域側、右側が高域側としている。
またこの図において、各MDCT係数位置に示す振幅値は、MDCT係数の値ではなく元データ(原信号)の値を示しているとする。
【0144】
図示するようにして、連続するsfbのうち低域側のsfb[n]では、MDCT係数番号[1]の振幅が「12」、MDCT係数番号[2]の振幅が「17」、MDCT係数番号[3]の振幅が「11」である。
また、このsfb[n]の高域側に隣接するsfb[n+1]は、図示するようにしてMDCT係数番号[4]から始まる。従ってこのMDCT係数番号[4]がこれらsfb[n]とsfb[n+1]との境界部分となる。sfb[n+1]において、MDCT係数番号[4]の振幅は「8」、MDCT係数番号[5]の振幅は「10」、MDCT係数番号[6]の振幅は「13」、MDCT係数番号[7]の振幅は「18」であることが示されている。
【0145】
図23は、図22に示したsfb[n]内のMDCT係数番号[1]〜[3]と、sfb[n+1]内のMDCT係数番号[4]〜[7]について、符号化時にそれぞれのsfbで設定された分解能の値により、元データに対する量子化前/後のデータ及び復号結果が変化する様子を表化して示した図である。
ここで、例えば高ビットレート(例えば512kbps)で圧縮された場合のcase:Aとして、図示するようにsfb[n]とsfb[n+1]とで同じ分解能=2が設定されていたとする。一方で、低ビットレート(例えば128kbps)で圧縮された場合のcase:Bとしては、sfb[n]で分解能=2、sfb[n+1]で分解能=5が設定されていたとする。
【0146】
sfb[n]・sfb[n+1]のバンド間の部分について着目すると、元データは、sfb[n]側のMDCT係数番号[3]の位置では「11」、sfb[n+1]側のMDCT係数番号[4]の位置では「8」となっている。
高ビットレートのcase:Aの場合、それぞれ同じ分解能=2であることから、sfb[n]側のMDCT係数番号[3]の位置、及びsfb[n+1]側のMDCT係数番号[4]の位置では、それぞれ上記の元データ「11」「8」がスケーリングされて「5.5」「4」という数値になり、これらが量子化により小数点以下が丸められて「5」「4」という数値になる。復号結果は、これら量子化後の値がそれぞれ分解能の値に基づき戻された「10」「8」という数値になる。
このように高ビットレートのcase:Aの場合、バンド間の振幅は元データ「11」「8」に対し復号結果「10」「8」であり、その量子化誤差は「1」となる。
【0147】
これに対し、低ビットレートの場合のcase:Bでは、分解能がsfb間で2から5へと変化する。このため、分解能=5とされるfsb[n+1]側のMDCT係数番号[4]の位置では、case:Aと比較して量子化誤差が大きくなり、復号結果としては先のcase:Aでの「8」という数値に対し、図のように「5」に変化してしまう。すなわちcase:Aでバンド間の量子化誤差が「1」であったのに対し、case:Bではこれが増大化して「4」となってしまう。
【0148】
低分解能により大きな量子化誤差が生じやすいことについては既に先の第2の実施の形態で述べたが、このようにバンド間に着目してみると、バンド間の分解能の差により、復号結果の波形の連続性が悪化する可能性が高くなる。このようにして、バンド間での大きな量子化誤差が不連続性を生じさせ、音質の劣化を助長することになる。
【0149】
[バンド間の量子化誤差の補正]
そこで第3の実施の形態では、このようなバンド間での大きな量子化誤差を補正し、高音質化を図るものとしている。そのための構成として、先の図21(図20)に示したバンド間量子化誤差補正部4cを設けるものとしている。
【0150】
図24は、バンド間量子化誤差補正部4cの内部構成を示すブロック図である。
図示するようにして量子化誤差補正部4c内には、誤差境界抽出部51、置換判定部52、予測処理部53、置換部54が設けられる。
これら量子化誤差補正部4cを構成する各部のうち、置換判定部52、予測処理部53、置換部54に対しては、それぞれ図21に示されるステレオ処理部12から出力されるAAC1フレーム単位ごとのMDCT係数が入力される。
なお、この場合も予測処理部53では、上記ステレオ処理部12から供給される1フレーム分ごとのMDCT係数に基づき、圧縮符号化前の原信号を予測した予測信号を生成するが、このような第3の実施の形態での予測処理部53としても、先に説明したようなAACのMainプロファイルで規格化されている2次の後方適応格子型予測器を用いるものとしている。
【0151】
先ず、誤差境界抽出部51には、図21に示されるフォーマット解析部10から供給されるsfbごとの分解能の情報が入力される。
誤差境界抽出部51では、このsfbごとの分解能の情報に基づき、それぞれで分解能の値が異なっている連続したバンド間の境界部分を検出(抽出)する。
ここで、第3の実施の形態の場合のバンド間量子化誤差の補正は、先の第2の実施の形態とは異なり帯域を限定せず、全体帯域を対象として補正動作を行う。このため誤差境界抽出部51では、1フレームを形成する全体帯域のsfbを対象として、連続したsfb間で分解能の値が異なっている境界部分を検出する。
誤差境界抽出部51は、検出した境界部分としてのMDCT係数位置の情報(MDCT係数番号情報)と、さらにそのMDCT係数位置が属するsfbの分解能の情報とを置換判定部52に対して供給する。
【0152】
置換判定部52は、上記誤差境界抽出部51により検出されたMDCT係数番号の情報と分解能の情報、及び上述のようにしてステレオ処理部12から供給されるMDCT係数、さらに予測処理部43で生成された予測信号に基づき、置換判定を行う。すなわち、上記誤差境界抽出部51からのMDCT係数番号によって特定されるMDCT係数位置における上記予測信号の値と上記MDCT係数の値と、さらにそのMDCT係数位置が属するsfbの分解能の情報とに基づき置換判定を行う。
具体的には、それらMDCT係数の値、予測信号の値、分解能の値について、予測信号の値が、[MDCT係数の値(絶対値)+分解能/n]以下となっているか否かを判別した結果に基づき、置換判定を行う。例えばこの場合もn=2として、予測信号の値が、[MDCT係数の値+分解能/2以下であるか否かを判別する。
予測信号の値がMDCT係数の値+分解能/2以下となっていないとした場合、そのMDCT係数位置については置換を行わないとの判定結果を示す判定信号を次の置換部54に対して供給する。一方、予測信号の値がMDCT係数の値+分解能/2以下となっているとした場合は、そのMDCT係数位置については置換を行うとの判定結果を示す判定信号を置換部54に対して供給する。
【0153】
置換部54は、ステレオ処理部12から供給される1フレーム分のMDCT係数と、上記置換判定部52からの判定信号と、さらに予測処理部53からの予測信号とに基づき、置換処理を行う。
具体的には、上記置換判定部52からの判定信号により置換を行うとの判定結果が示されたMDCT係数位置について、そのMDCT係数の値を予測信号の値で置換する。
この置換部54による置換処理が施された1フレーム分のMDCT係数が、先の図21に示した適応ブロック長切換逆MDCT部13に対して順次供給されることになる。
【0154】
上記のようにして第3の実施の形態では、所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされた圧縮符号化がされた音声信号(オーディオ信号)について、周波数軸上で分解能の値が異なっている連続した周波数バンド間の境界部分を検出し、その境界部分の振幅値を予測信号と比較した結果に基づいて予測信号の値で置換するものとしている。これによれば、割り当てビット数の差によってバンド間で大きな量子化誤差が生じてバンド間の連続性が損なわれた部分を適正に検出し、その部分の振幅値を予測信号に基づくより確からしい値で補正することができる。この結果、割り当てビット数の差に起因して生じるバンド間の不連続性による音質劣化を改善することができ、高音質化を図ることができる。
【0155】
また、このような第3の実施の形態としての手法では、誤差が生じやすい部分を特定しその部分のみについて補正を行うものとなっているので、例えば従来のような全帯域の信号について一律に補正を行う場合のように、補正の必要の無い部分についてまで補正が行われてかえって音質の劣化を招くといった事態を回避することができる。なお、このことは先の第2の実施の形態についても同様である。
【0156】
なお、ここまでの説明では、第3の実施の形態としてのバンド間量子化誤差の補正動作が、先の図24に示したようなハードウェア構成により実現される場合を例示したが、この第3の実施の形態の補正動作としても、先の各実施の形態の場合と同様にソフトウェア処理によって実現することもできる。すなわち、この場合もバンド間量子化誤差補正部4cを例えばCPUやメモリを備えた演算処理部で構成し、この演算処理部としてのバンド間量子化誤差補正部4cのソフトウェア処理により上述した第3の実施の形態としての補正動作を実現するものである。
【0157】
この場合において実行されるべき処理動作を、次の図25のフローチャートに示す。
なお、この図に示す処理動作としても、上述のような演算処理部としてのバンド間量子化誤差補正部4cが例えば上記メモリ内に格納されるプログラムに従って実行するものである。
また、この場合も、演算処理部としてのバンド間量子化誤差補正部4cでは、この図に示す処理動作と並行してステレオ処理部12からのMDCT係数に基づき先の図17の説明に基づく予測処理を行って予測信号を生成する処理を行っているものとする。
【0158】
先ずステップS301では、バンドごとに分解能情報を取得する。すなわち、先の図21に示したフォーマット解析部10からのsfbごとの分解能の情報を取得する。
【0159】
続くステップS302では、分解能差バンド境界部分を抽出するための処理を行う。すなわち、上記ステップS301にて取得したバンドごとの分解能の情報に基づき、1フレームを形成する全sfbを対象として、それぞれで分解能の値が異なっている連続したsfb間の境界部分(MDCT係数位置)を検出する。
【0160】
さらに、次のステップS303では、予測信号に基づき抽出部分ごとに置換判定を行う。
すなわち、上記ステップS302によって検出した境界部分としてのMDCT係数位置ごとに、MDCT係数の値、そのMDCT係数位置が属するsfbの分解能の値、予測信号の値に基づき置換判定を行う。具体的には、先にも述べたようにこれらMDCT係数の値、予測信号の値、分解能の値について、予測信号の値が、MDCT係数の値+分解能の値/2以下となっているか否かを判別した結果に基づき、置換判定を行う。
【0161】
その上で続くステップS304においては、要置換部分のMDCT係数を予測信号に基づき置換する処理を行う。すなわち、上記ステップS303の置換判定より、予測信号の値がMDCT係数の値+分解能の値/2以下となっていると判定したMDCT係数位置についてのみ、予測信号の値による置換を行う。
このステップS304を実行すると図示するようにして「RETURN」となる。なおこの図に示す処理動作としてもAAC1フレームごとに実行されるべきものである。
【0162】
ここで、第3の実施の形態においても、バンド間量子化誤差補正部4cが圧縮符号復号化部4内に設けられる場合を例示したが、この場合も例えば次の図26に示すようにして圧縮符号復号化部4の外部に対して設けることもできる。
すなわち、図示するようにしてこの場合の構成としては、先の図11に示した構成において高域補間部4aの代わりにバンド間量子化誤差補正部4cを設けたものに相当する。但し、バンド間量子化誤差補正部4cとしても、sfbごとの分解能の情報を用いるので、図中破線矢印により示されるようにしてフォーマット解析部10からのsfbごとの分解能の情報も入力する。
なお、この場合もバンド間量子化誤差補正部4cが行う動作は先に説明したものと同様となるため改めての説明は省略する。
【0163】
なお、この図26に示す変形例においても、先の第2の実施の形態の変形例の場合と同様に、各sfbにおいて最小の振幅値をそのsfbの分解能の値として検出する、或いは各sfbごとに頻発する振幅値をそのsfbの分解能の値として検出する等すれば、フォーマット解析部10からの分解能の情報を入力せずに境界部分の抽出動作、及び置換判定を行うことができる。
【0164】
ここで、本発明のバンド間の量子化誤差補正としては、これまでに説明した第3の実施の形態としての具体例に限定されるべきものではない。
例えば、第3の実施の形態としても、予測信号の生成にあたっては2次の後方適応格子型による予測器を用いる例を挙げたが、この場合としても他の方式による予測器や、或いは補間多項式、多次元の近似式など多次元関数による予測処理で予測信号を生成することもできる。
【0165】
また、第3の実施の形態としても、置換の妥当性の判断基準として、検出された誤差候補部分の予測信号の値が、MDCT係数の値+分解能の値/2以下であるか否かを判別する場合を例示したが、この場合としても判断基準は少なくとも分解能/nとすればよい。但し、この場合としても量子化誤差の性質上、nの値としては、分解能/nの値を分解能の値未満とする値を選定すべきである。
また、置換の妥当性の判断としては、この場合も予測信号の値がMDCT係数の値±分解能の値/n以内であるか否かを判別するようにしてもよい。または、誤差候補部分の振幅値とその予測信号の値との差が、分解能/nであるか否か判別することもできる。
【0166】
以上、本発明の各実施の形態について説明したが、本発明としてはこれまでに説明した具体例に限定されるべきものではない。
例えば、これまでの説明では、本発明が、記憶部2としての例えばHDDやフラッシュメモリ等に記憶される音声信号について再生を行う再生装置に適用される場合を例示したが、本発明としては、例えばMD(Mini Disc(登録商標))などの光磁気ディスクやCD(Compact Disc)、DVD(Digital Versatile Disc)などの光ディスクを記録媒体として用いる再生装置にも適用することができる。
また、このように記録媒体に記憶される音声信号について再生を行う場合以外にも、デジタルテレビジョン放送信号中に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器や、Webストリームデータ内に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器に対しても好適に適用することができる。
【0167】
また、これまでの説明では、本発明がLch(チャンネル)/Rchの2chオーディオ信号に対応する構成を例示したが、例えば5.1chなどのマルチchオーディオ信号、或いはモノラルオーディオ信号について高音質化のための処理を行う場合にも本発明は好適に適用できる。
【0168】
また、これまでの説明では、本発明がAAC方式により圧縮符号化がされた音声信号(オーディオ信号)について補正処理を行う場合についてのみ説明したが、他の音声圧縮符号化方式で符号化された音声信号について高音質化のための処理を行う場合にも本発明は好適に適用することができる。
【図面の簡単な説明】
【0169】
【図1】本発明の第1の実施の形態としての再生装置(電子機器)の内部構成について示したブロック図である。
【図2】第1の実施の形態の再生装置内部に備えられる圧縮符号復号化部の内部構成について示したブロック図である。
【図3】AAC1フレーム分のMDCT係数の概要について説明するための図である。
【図4】ピーク値検出について説明するための図である。
【図5】自己相関計算について説明するための図である。
【図6】Rateの計算について説明するための図である。
【図7】高域信号の追加について説明するための図である。
【図8】第1の実施の形態の信号処理装置(高域補間部)の内部構成について示したブロック図である。
【図9】第1の実施の形態の高域補間動作の有効性について実証するための実験結果を示した図である。
【図10】第1の実施の形態としての高域補間動作をソフトウェア処理によって実現するために行われるべき処理動作について示したフローチャートである。
【図11】第1の実施の形態の再生装置(電子機器)の変形例の構成を示したブロック図である。
【図12】本発明の第2の実施の形態としての再生装置(電子機器)の内部構成について示したブロック図である。
【図13】第2の実施の形態の再生装置内部に備えられる圧縮符号復号化部の内部構成について示したブロック図である。
【図14】量子化誤差について説明するための図である。
【図15】量子化誤差による平坦化について説明するための図である。
【図16】第2の実施の形態の信号処理装置(量子化誤差補正部)の内部構成について示したブロック図である。
【図17】第2、第3の実施の形態で用いる予測器の処理フローを示した図である。
【図18】第2の実施の形態としての補正動作をソフトウェア処理によって実現するために行われるべき処理動作について示したフローチャートである。
【図19】第2の実施の形態の再生装置(電子機器)の変形例の構成を示したブロック図である。
【図20】本発明の第3の実施の形態としての再生装置(電子機器)の内部構成について示したブロック図である。
【図21】第3の実施の形態の再生装置内部に備えられる圧縮符号復号化部の内部構成について示したブロック図である。
【図22】バンド間の量子化誤差について説明するための図である。
【図23】同じく、バンド間の量子化誤差について説明するための図である。
【図24】第3の実施の形態の信号処理装置(量子化誤差補正部)の内部構成について示したブロック図である。
【図25】第3の実施の形態としての補正動作をソフトウェア処理によって実現するために行われるべき処理動作について示したフローチャートである。
【図26】第3の実施の形態の再生装置(電子機器)の変形例の構成を示したブロック図である。
【符号の説明】
【0170】
1,40,50 再生装置、2 記憶部、3 復調部、4 圧縮符号復号化部、4a 高域補間部、5 DSP、6 バス、7 システムコントローラ、8 操作部、9 表示部、10 フォーマット解析部、11 逆量子化処理部、11a ハフマン符号化部、11b 逆量子化部、11c リスケーリング部、12 ステレオ処理部、12a M/Sステレオ処理部、12b 予測処理部、12c インテンシティ・ステレオ処理部、12d TNS部、13 適応ブロック長切換逆MDCT部、14 ゲイン制御部、21 Peak検出部、22 自己相関計算部、23 相関最大シフト量検出部、24 Rate計算部、25 高域信号追加部、26 補間判定部、30 MDCT変換部、31 逆MDCT変換部、41 平坦化部分抽出部、42,52 置換判定部、43,53 予測処理部、44,54 置換部、51 誤差境界抽出部

【特許請求の範囲】
【請求項1】
所定の情報圧縮処理がされたオーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手段と、
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手段と、
上記所定の周波数以上の帯域において、上記シフト量検出手段により求められた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手段と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手段と、
を備えることを特徴とする信号処理装置。
【請求項2】
上記相関計算手段は、
上記所定の周波数以上の帯域をn個の周波数ポイントを含む分割バンド単位で区切ったときの、各分割バンド内での振幅値のピーク値をそれぞれ検出した上で、それら各ピーク値を上記自己信号として自己相関計算を行う、
ことを特徴とする請求項1に記載の信号処理装置。
【請求項3】
上記比率計算手段は、
上記相関最大シフト量に基づく分だけ離間した複数組の各周波数ポイントでの各振幅値の比率を平均化して上記比率の値として算出する、
ことを特徴とする請求項1に記載の信号処理装置。
【請求項4】
上記所定の周波数以上の帯域は、AAC方式による周波数相関符号化の過程で分割される各サブバンドのうち、そのバンド幅が一定となるサブバンド以降の周波数帯域である、
ことを特徴とする請求項1に記載の信号処理装置。
【請求項5】
さらに、符号化前の原信号における上記所定の周波数以上の帯域に信号が存在したか否かについて判定する判定手段を備え、
少なくとも上記補間手段は、
上記判定手段の判定の結果、上記原信号における上記所定の周波数以上の帯域に信号が存在したとされた場合にのみ補間動作を行うように構成される、
ことを特徴とする請求項1に記載の信号処理装置。
【請求項6】
上記判定手段は、
上記相関計算手段による自己相関計算結果に基づいて上記原信号における上記所定の周波数以上の帯域に信号が存在したか否かについて判定する、
ことを特徴とする請求項5に記載の信号処理装置。
【請求項7】
所定の情報圧縮処理がされたオーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手順と、
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手順と、
上記所定の周波数以上の帯域において、上記シフト量検出手順により求めた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手順と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手順と、
を備えることを特徴とする信号処理方法。
【請求項8】
記録媒体に記録された少なくともオーディオ信号を再生する再生装置であって、
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手段と、
上記オーディオ信号取得手段により得られた上記オーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手段と、
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手段と、
上記所定の周波数以上の帯域において、上記シフト量検出手段により求められた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手段と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手段と、
を備えることを特徴とする再生装置。
【請求項9】
記録媒体に記録された少なくともオーディオ信号を再生する再生方法であって、
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手順と、
上記オーディオ信号取得手順により得た上記オーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手順と、
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手順と、
上記所定の周波数以上の帯域において、上記シフト量検出手順により求めた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手順と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手順と、
を備えることを特徴とする再生方法。
【請求項10】
所定の情報圧縮処理がされたオーディオ信号を取得する取得手段と、
上記取得手段により取得されたオーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手段と、
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手段と、
上記所定の周波数以上の帯域において、上記シフト量検出手段により求められた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手段と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手段と、
を備えることを特徴とする電子機器。
【請求項11】
所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする信号処理装置。
【請求項12】
上記誤差候補部分検出手段は、帯域を限定して上記誤差候補部分の検出を行うことを特徴とする請求項11に記載の信号処理装置。
【請求項13】
上記誤差候補部分検出手段は、上記情報圧縮処理の際に設定された分解能の値と同値となっている部分を検出することを特徴とする請求項11に記載の信号処理装置。
【請求項14】
上記置換手段は、
上記情報圧縮処理の際に設定された分解能の値に基づいて上記誤差候補部分の振幅値と予測信号の値とを比較した結果に基づき、その誤差候補部分の振幅値を上記予測信号の値に基づき置換する、
ことを特徴とする請求項11に記載の信号処理装置。
【請求項15】
上記予測手段は、2次の後方適応格子型による予測処理によって上記予測信号を生成することを特徴とする請求項11に記載の信号処理装置。
【請求項16】
上記予測手段は、近似式又は補間多項式により上記予測信号を生成することを特徴とする請求項11に記載の信号処理装置。
【請求項17】
所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手順と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする信号処理方法。
【請求項18】
記録媒体に記録された少なくともオーディオ信号を再生する再生装置であって、
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手段と、
上記オーディオ信号取得手段により得られた上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする再生装置。
【請求項19】
記録媒体に記録された少なくともオーディオ信号を再生する再生方法であって、
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手順と、
上記オーディオ信号取得手順により得た上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手順と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする再生方法。
【請求項20】
所定の情報圧縮処理がされたオーディオ信号を取得する取得手段と、
上記取得手段により取得されたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする電子機器。
【請求項21】
所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手段と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする信号処理装置。
【請求項22】
上記置換手段は、
上記境界部分が属する周波数バンドに設定された分解能値に基づいて上記境界部分の振幅値と予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する、
ことを特徴とする請求項21に記載の信号処理装置。
【請求項23】
上記予測手段は、2次の後方適応格子型による予測処理によって上記予測信号を生成することを特徴とする請求項21に記載の信号処理装置。
【請求項24】
上記予測手段は、近似式又は補間多項式により上記予測信号を生成することを特徴とする請求項21に記載の信号処理装置。
【請求項25】
所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手順と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする信号処理方法。
【請求項26】
記録媒体に記録された少なくともオーディオ信号を再生する再生装置であって、
上記記録媒体からの読み出しを行って、所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手段と、
上記オーディオ信号取得手段により得られた上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手段と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする再生装置。
【請求項27】
記録媒体に記録された少なくともオーディオ信号を再生する再生方法であって、
上記記録媒体からの読み出しを行って、所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手順と、
上記オーディオ信号取得手順により得た上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手順と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする再生方法。
【請求項28】
所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされたオーディオ信号を取得する取得手段と、
上記取得手段により取得されたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手段と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする電子機器。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図9】
image rotate


【公開番号】特開2008−158301(P2008−158301A)
【公開日】平成20年7月10日(2008.7.10)
【国際特許分類】
【出願番号】特願2006−347513(P2006−347513)
【出願日】平成18年12月25日(2006.12.25)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】