説明

ピッチ分析装置、音声符号化装置、ピッチ分析方法および音声符号化方法

【課題】高いサンプリングレートのターゲット信号に対しても、少ない計算量で高精度なピッチ分析を行うこと。
【解決手段】このピッチ分析装置は、主に信号分析または信号符号化のためにターゲット信号のピッチを分析するピッチ分析装置であって、ターゲット信号301の周波数帯域を制限して周波数調整された透過ターゲット信号を出力するローパスフィルタ302と、ターゲット信号のサンプリング間隔である第1のサンプリング間隔よりも長い第2のサンプリング間隔で透過ターゲット信号の信号値を抽出して透過ターゲット信号の自己相関および透過ターゲット信号のパワーを算出する間引き相関値計算部303と、算出された自己相関およびパワーに基づいてターゲット信号のピッチを判定するピッチ判定部304と、を具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、主に信号分析または信号符号化のためにターゲット信号のピッチを分析するピッチ分析装置およびその方法、並びに、このピッチ分析を利用した音声符号化装置およびその方法に関する。
【背景技術】
【0002】
音声信号、音響信号、画像信号または映像信号においては、類似した信号波形が任意のピッチで繰り返されることがある。そして、このようなピッチを分析し利用することで、音声信号、音響信号、画像信号または映像信号の効率的な符号化が可能となる。例えば、携帯電話で利用されるCELP(Code-Excited Linear Prediction)型の音声コーデック(符号化/復号化)では、音声信号のピッチを分析して、この分析結果を用いて適応符号帳を効率的に探索することが行われている。
【0003】
CELP型の音声コーデックは、国際規格のITU−T(International Telecommunication Union - Telecommunication Standardization Sector)標準G.729またはG.722.2の標準方式として採用されている。また、CELP型の音声コーデックは、国際規格のETSI(European Telecommunications Standards Institute)標準AMR(Adaptive Multiple Rate Coding)、AMR−WB(Adaptive Multiple Rate Coding - Wide Band)の標準方式として採用されている。同様に、CELP型の音声コーデックは、国際規格の3GPP(3rd Generation Partnership Project)2標準VMR−WB(Variable Multiple rate - Wide Band)の標準方式に採用されている。
【0004】
近年では、例えば音声信号の高品質化のため、サンプリングレートの高い広帯域信号(16kHz)または超広帯域信号(32kHz)の符号化を行う音声コーデックが求められている。このような音声コーデックでは、処理の一部として、サンプリングレートの高い信号に対してピッチ分析が行われることになる。
【0005】
ピッチ分析処理では、図1に示すように、先ず、相関値計算部102が、ターゲット信号(例えば音声信号)101の自己相関値Corとパワー値Powとを、式(1)に従って算出する。これらの計算は、予め定められた範囲内の全てのピッチ候補Pについてそれぞれ行われる。
【0006】
ここでは、例えば、ターゲット信号101のサンプリング周波数が8kHzであり、20msを1フレームとして処理する場合について説明する。この場合、複数のピッチ候補Pはサンプリング番号が20〜143程度になる範囲に設定される。サンプリング番号とは、1フレームの開始を「0」として1回のサンプリングごとに「1」加算されていくインデックスを示す。また、複数のピッチ候補Pは、この範囲内においてサンプリング間隔ごとに設定される。
【数1】

【0007】
次に、ピッチ判定部103は、複数のピッチ候補Pの各自己相関値Corと各パワー値Powとから、複数のピッチ候補Pにそれぞれ対応する複数のコスト値Costを算出する。コスト値Costは式(2)に従って算出される。さらに、ピッチ判定部103は、複数のコスト値Costを比較して、コスト値Costが最大となるピッチ候補Pを、ターゲット信号101のピッチ(ラグとも呼ぶ)104として出力する。
【0008】
【数2】

【0009】
このようなピッチ分析に必要な計算量は、一般に、サンプリングレートの上昇に伴って大きく増加する。
【0010】
特許文献1には、このような課題を解決するため、ピッチ分析に必要な計算量の増加を抑える方法が開示されている。この方法では、計算量を削減するためにターゲット信号のダウンサンプリング(デシメーション)を行って、先ず、ダウンサンプリングにより得られたサンプル数の少ない信号列からおおまかなピッチを探索する。続いて、得られたおおまかなピッチの近傍だけをターゲット信号そのものを用いてピッチ分析を行う。
【0011】
以下には、特許文献1のピッチ分析方法の詳細について、図2を参照しながら説明する。この方法では、まず、入力されたターゲット信号201に対してローパスフィルタ(低域透過フィルタ)202がフィルタ処理を行って、透過ターゲット信号を得る。ここでは、ダウンサンプリング率を「1/2」とし、ターゲット信号201のサンプリングレートを16kHzとした例を説明する。この場合、ローパスフィルタ202は0〜4kHzを透過するフィルタということになる。
【0012】
次に、ダウンサンプリング部203は、透過ターゲット信号を間引いて抽出し、抽出された信号を詰めてメモリに格納することによってダウンサンプリング(デシメーション)を行う。ここでは、ダウンサンプリング率は1/2なので1つ置きに信号値を抽出している。このプロセスにより16kHzサンプリングの信号は8kHzサンプリングになる。
【0013】
続いて、相関値計算部204は、おおまかなピッチ探索のために、自己相関値とパワー値とを計算する。この計算は、相関値計算部102と同様に以下の式(3)に従って行う。この例では、ダウンサンプリングにより、ピッチの探索範囲が1/2になり、ターゲット信号の信号列の長さが1/2となる。その結果、計算量は約1/4に低減される。
【0014】
【数3】

【0015】
次いで、ピッチ判定部205は、相関値計算部204で求めた自己相関値とパワー値とを用いて、式(4)に従って、コスト値が最大になるP1=Pitch1を求める。そして、ピッチ判定部205は、求められたPitch1を透過ターゲット信号のピッチ(すなわち、ターゲット信号201のおおまかなピッチ)として相関値計算部206に送る。
【数4】

【0016】
近傍のみの相関値計算部206は、ピッチ判定部205から送られてきたピッチPitch1とターゲット信号201とを用いて自己相関値を計算する。この計算において、ピッチ候補は、Pitch1の近傍のみに設定される。例えば、ピッチ候補は、ピッチPitch1を中心として、±2のサンプリング間隔の範囲内に設定される。この場合の計算例を式(5)に示す。
【数5】

【0017】
この計算例に示すように、ダウンサンプリングを用いたことにより、実際のターゲット信号201の自己相関値の算出に必要な計算量は少なくなる。
【0018】
ピッチ判定部207は、相関値計算部206で求めた自己相関値とパワー値とを用いて、次の式(6)のコスト値が最大になるピッチP(=Pitch2)を求める。そして、ピッチ判定部207は、求めたピッチ「Pitch2」をターゲット信号201のピッチ(ラグ)208として出力する。
【数6】

【0019】
上述のように、特許文献1のピッチ分析方法では、ダウンサンプリングを行うことにより、実際のターゲット信号201のピッチ分析に必要な計算量は少なくなる。言い換えれば、特許文献1のピッチ分析方法では、少ない計算量でターゲット信号201のピッチを分析できる。
【先行技術文献】
【特許文献】
【0020】
【特許文献1】特開平6−77834号公報
【発明の概要】
【発明が解決しようとする課題】
【0021】
しかしながら、計算量を低減させた上記従来のピッチ分析方法では、一旦、ダウンサンプリングされた信号の自己相関値の計算を行って大まかなピッチを求めるため、ピッチ探索の分解能が下がり、探索誤りを発生する場合があるという問題があった。
【0022】
すなわち、上述した従来例では、ピッチ判定部205で探索されるおおまかなピッチの精度は、あくまでターゲット信号201の標本化精度の1/2の精度になる。また、相関値計算部206は「Pitch1×2」の近傍のみにピッチ候補を設定する。それゆえ、もし、ピッチ判定部205が正しいピッチに近いピッチ候補を抽出できなければ、相関値計算部206が設定したピッチ候補の中に正しいピッチは含まれないことになる。この場合、ピッチ判定部207が最終的に求めるピッチ208は誤ったものになる。
【0023】
本発明の目的は、高いサンプリングレートのターゲット信号に対しても、少ない計算量で精度よくピッチ分析を行えるピッチ分析装置および方法、ならびに、少ない計算量で高品質な音声の符号化を行うことのできる音声符号化装置および方法を提供することである。
【課題を解決するための手段】
【0024】
本発明の一態様に係るピッチ分析装置は、ターゲット信号のピッチを分析するピッチ分析装置であって、ターゲット信号の周波数帯域を制限して周波数調整された透過ターゲット信号を出力するローパスフィルタと、前記ターゲット信号のサンプリング間隔である第1のサンプリング間隔よりも長い第2のサンプリング間隔で前記透過ターゲット信号の信号値を抽出して前記透過ターゲット信号の自己相関および前記透過ターゲット信号のパワーを算出する算出部と、算出された前記自己相関および前記パワーに基づいて前記ターゲット信号のピッチを判定するピッチ判定部と、を具備する構成を採る。
【0025】
本発明の一態様に係るCELP型の音声符号化装置は、入力音声信号の線形予測分析を行って線形予測係数を算出する線形予測分析部と、入力音声信号のピッチ分析を行うピッチ分析部と、ピッチ分析の結果に応じた適応音源を出力する適応符号帳と、少なくとも前記適応音源と前記線形予測係数とに基づいて合成信号を生成する合成フィルタと、を具備し、前記ピッチ分析部は、前記入力音声信号の周波数帯域を制限して周波数調整された透過ターゲット信号を出力するローパスフィルタと、前記入力音声信号のサンプリング間隔である第1のサンプリング間隔よりも長い第2のサンプリング間隔で前記透過ターゲット信号の信号値を抽出して前記透過ターゲット信号の自己相関および前記透過ターゲット信号のパワーを算出する算出部と、算出された前記自己相関および前記パワーに基づいて前記入力音声信号のピッチを判定するピッチ判定部と、を具備する構成を採る。
【0026】
本発明の一態様に係るピッチ分析方法は、ターゲット信号のピッチを分析するピッチ分析方法であって、ターゲット信号の周波数帯域を制限して周波数調整された透過ターゲット信号を出力するステップと、前記ターゲット信号のサンプリング間隔である第1のサンプリング間隔よりも長い第2のサンプリング間隔で前記透過ターゲット信号の信号値を抽出して前記透過ターゲット信号の自己相関および前記透過ターゲット信号のパワーを算出する算出ステップと、算出された前記自己相関および前記パワーに基づいて前記ターゲット信号のピッチを判定するステップと、を含む構成を採る。
【0027】
本発明の一態様に係るCELP型の音声符号化方法は、入力音声信号の線形予測分析を行って線形予測係数を算出するステップと、入力音声信号のピッチ分析を行うピッチ分析ステップと、ピッチ分析の結果に応じた適応音源を適応符号帳から出力するステップと、少なくとも前記適応音源と前記線形予測係数とに基づいて合成信号を生成するステップと、を含み、前記ピッチ分析ステップは、前記入力音声信号の周波数帯域を制限して周波数調整された透過ターゲット信号を出力するステップと、前記入力音声信号のサンプリング間隔である第1のサンプリング間隔よりも長い第2のサンプリング間隔で前記透過ターゲット信号の信号値を抽出して前記透過ターゲット信号の自己相関および前記透過ターゲット信号のパワーを算出する算出ステップと、算出された前記自己相関および前記パワーに基づいて前記入力音声信号のピッチを判定するステップと、を含む構成を採る。
【発明の効果】
【0028】
本発明によれば、高いサンプリングレートのターゲット信号に対して、少ない計算量で精度よくピッチ分析を行うことができる。
【図面の簡単な説明】
【0029】
【図1】従来のピッチ分析装置の要部を示すブロック図
【図2】計算量を低減させた従来のピッチ分析装置の要部を示すブロック図
【図3】本発明に係る実施の形態1のピッチ分析装置の要部を示すブロック図
【図4】本発明に係る実施の形態2のピッチ分析装置の要部を示すブロック図
【図5】本発明に係る実施の形態の音声符号化装置の要部を示すブロック図
【発明を実施するための形態】
【0030】
以下、本発明の各実施の形態について図面を参照して詳細に説明する。
【0031】
(実施の形態1)
図3は、本発明に係る実施の形態1のピッチ分析装置の要部を示すブロック図である。このピッチ分析装置は、主に信号分析または信号符号化のために用いられる。
【0032】
実施の形態1のピッチ分析装置は、ローパスフィルタ(低域透過フィルタ)302、間引き相関値計算部303、および、ピッチ判定部304を備えている。さらに、このピッチ分析装置は、ターゲット信号301を入力して、ターゲット信号301のピッチ305を出力する。
【0033】
続いて、このピッチ分析装置の動作の詳細を説明する。
【0034】
このピッチ分析装置においては、まず、入力されたターゲット信号301に対してローパスフィルタ302がフィルタ処理を行う。そして、ローパスフィルタ302は、周波数帯域が調整された透過ターゲット信号を出力する。本実施の形態1では、ダウンサンプリング率を「1/M」(Mは正の整数)とし、ターゲット信号301のサンプリングレートを16kHzとする。したがって、ローパスフィルタ302としては、(0〜8/M)kHzを透過するフィルタが採用される。
【0035】
間引き相関値計算部303は、ローパスフィルタ302から送られる透過ターゲット信号について自己相関値とパワー値とを計算する。この計算は下記の式(7)に従って行われる。
【0036】
この計算の際、ピッチの探索範囲、および、ピッチ探索の分解能は、図1の従来例の場合と同様に設定される。すなわち、ターゲット信号301のサンプリング周波数が16kHzであり、20msを1フレームとして処理する場合、複数のピッチ候補P3は、サンプリング番号が80〜286程度の範囲で、16kHzのサンプリング間隔ごとに設定される。この場合、ピッチ探索の分解能は、ターゲット信号301のサンプリング間隔と変わらないので、ピッチの探索精度は低下しない。
【0037】
一方、間引き相関値計算部303では、積和計算の対象とするサンプルを、間引いて抽出する。サンプルを間引くことで、間引かない場合と比較して、自己相関値とパワー値の計算量は1/Mに低減される。また、ローパスフィルタ302の作用により、ターゲット信号の前後のサンプル値が平均化されて、サンプルを間引くことによる誤差が低減される。
【数7】

【0038】
ピッチ判定部304は、間引き相関値計算部303で求めた自己相関値とパワー値を用いて次式(8)のコスト値が最大になるピッチ候補P3(=Pitch3)を求める。そして、ピッチ判定部304は、このピッチ候補の値「Pitch3」を透過ターゲット信号のピッチ305として出力する。
【数8】

【0039】
以上のように、実施の形態1のピッチ分析装置およびそのピッチ分析方法によれば、間引き相関値計算部303は、ターゲット信号301のダウンサンプリング(デシメーション)に伴ってピッチ探索の分解能を低下させない。つまり、ピッチ探索の分解能は、サンプリングレートの高いターゲット信号のサンプリング間隔と同等になり、精度の高いピッチ分析が実現される。一方、間引き相関値計算部303は、ローパスフィルタ302を用いてターゲット信号301の周波数帯域を調整した上で、信号値を、間引いて抽出して積和を計算する。よって、自己相関値とパワー値との計算精度はあまり低下せず、自己相関値とパワー値との計算量が大幅に削減される。例えば、M=4とすれば計算量は1/4になる。この計算量は、サンプリング周波数の低いターゲット信号101を対象とした、図1の従来例の計算量とほぼ同じになる。
【0040】
(実施の形態2)
図4は、本発明に係る実施の形態2のピッチ分析装置の要部を示すブロック図である。このピッチ分析装置も、実施の形態1と同様に、主に信号分析または信号符号化のために用いられる。
【0041】
実施の形態2のピッチ分析装置は、ローパスフィルタ(低域透過フィルタ)402、間引き相関値計算部403、ピッチ判定部404、および、調整値格納部406を備える。そして、このピッチ分析装置は、ターゲット信号401を入力して、ターゲット信号のピッチ分析の結果としてピッチ405を出力する。
【0042】
続いて、このピッチ分析装置の動作の詳細を説明する。
【0043】
このピッチ分析装置においては、まず、入力されたターゲット信号401に対してローパスフィルタ402がフィルタ処理を行う。そして、ローパスフィルタ402は、周波数帯域が調整された透過ターゲット信号を出力する。本実施の形態2では、ダウンサンプリング率を「1/M」(Mは正の整数)とし、ターゲット信号401のサンプリングレートを16kHzとする。したがって、ローパスフィルタ402としては(0〜8/M)kHzを透過するフィルタが採用される。
【0044】
間引き相関値計算部403は、ローパスフィルタ402から送られる透過ターゲット信号について自己相関値とパワー値とを計算する。この計算は下記の式(9)に従って行われる。
【0045】
この計算の際、ピッチの探索範囲、および、ピッチ探索の分解能は、図1の従来例の場合と同様に設定される。例えば、ターゲット信号401のサンプリング周波数が16kHzであり、20msを1フレームとして処理する場合、ピッチ候補P4は、サンプリング番号が80〜286程度の範囲で、16kHzのサンプリング間隔ごとに設定される。この場合、ピッチ探索の分解能は、ターゲット信号401のサンプリング間隔と変わらないので、ピッチの探索精度は低下しない。
【0046】
一方、間引き相関値計算部403では、積和計算の対象とするサンプルを、間引いて抽出する。サンプルを間引くことで、間引かない場合と比較して、自己相関値とパワー値との計算量は1/Mに低減される。また、ローパスフィルタ402の作用により、ターゲット信号401の前後のサンプル値が平均化されて、サンプルを間引くことによる誤差が低減される。
【0047】
また、間引き相関値計算部403は、調整値格納部406に格納されたピッチ周期毎の固定の位相差(位相調整値とも呼ぶ)DP4を用いて、この位相差DP4で位相をずらした信号値を抽出して自己相関値およびパワー値を計算する。
【0048】
調整値格納部406に格納されるピッチ周期毎の位相差は、ローパスフィルタ402の位相特性による信号値の位相のずれを修正するように設定されている。
【数9】

【0049】
ピッチ判定部404は、間引き相関値計算部403で求めた自己相関値とパワー値とを用いて次式(10)のコスト値が最大になるピッチ候補P4(=Pitch4)を求める。そして、ピッチ判定部404は、このピッチ候補の値「Pitch4」を透過ターゲット信号のピッチ405として出力する。
【数10】

【0050】
以上のように、実施の形態2のピッチ分析装置およびそのピッチ分析方法によれば、間引き相関値計算部403は、ターゲット信号401のダウンサンプリング(デシメーション)に伴ってピッチ探索の分解能を低下させない。つまり、ピッチ探索の分解能は、サンプリング周波数の高いターゲット信号のサンプリング間隔と同等になり、精度の高いピッチ分析が実現される。一方、間引き相関値計算部403は、ローパスフィルタ402を用いてターゲット信号401の周波数帯域を調整した上で、信号値を間引いて抽出して積和を計算する。よって、自己相関値とパワー値との計算精度はあまり低下せず、自己相関値とパワー値との計算量が大幅に削減される。例えば、M=4とすれば計算量は1/4になる。この計算量は、サンプリング周波数の低いターゲット信号101を対象とした、図1の従来例の計算量とほぼ同じになる。
【0051】
さらに、この実施の形態2のピッチ分析装置およびそのピッチ分析方法によれば、間引き相関値計算部403は、固定の位相差(位相調整値)で、信号値を抽出する位相をずらして自己相関値とパワー値とを計算する。この構成によって、ローパスフィルタ402の位相特性による影響を吸収し、間引き相関値計算部403は、より精度の高い自己相関値とパワー値とを求めることができる。よって、ピッチ分析装置は、より精度の高いピッチ探索を可能とする。
【0052】
(実施の形態3)
図5は、本発明に係る実施の形態の音声符号化装置の要部を示すブロック図である。
【0053】
この実施の形態の音声符号化装置500は、LPC(linear predictive coding)分析部501、LPC量子化部502、適応符号帳503、および、固定符号帳504を備えた、CELP型の音声符号化装置である。さらに、この音声符号化装置500は、ゲイン符号帳505、乗算器506,507、加算器508、LPC合成フィルタ509、加算器510、聴感重み付け部511、歪み最小化部512、および、ピッチ分析部520等を備えている。
【0054】
LPC分析部501は、音声信号に対して線形予測分析(LPC分析)を施し、スペクトル包絡情報であるLPCパラメータを求める。そして、LPC分析部501は、求めたLPCパラメータをLPC量子化部502及び聴感重み付け部511に出力する。
【0055】
LPC量子化部502は、LPC分析部501から出力されたLPCパラメータを量子化する。そして、LPC量子化部502は、得られた量子化LPCパラメータをLPC合成フィルタ509に出力し、量子化LPCパラメータのインデックス(LSP(Line spectral pairs)符号)を音声符号化装置500の外部へ出力する。
【0056】
ピッチ分析部520は、音声信号をターゲット信号として、現フレームのピッチ分析を行う。そして、ピッチ分析部520は、分析結果のピッチを適応符号帳503に送る。ピッチ分析部520の構成としては、実施の形態1のピッチ分析装置、または、実施の形態2のピッチ分析装置の構成が採用される。
【0057】
適応符号帳503は、LPC合成フィルタ509で使用された過去の駆動音源を記憶している。そして、適応符号帳503は、ピッチ分析部520から送られたピッチと、歪み最小化部512から指示されたインデックスとに対応する適応符号帳ラグに従って、記憶している駆動音源から1サブフレーム分の音源ベクトルを生成する。この音源ベクトルは、適応符号帳ベクトルとして乗算器506に出力される。サブフレームとは、フレームをさらに分割した単位である。
【0058】
固定符号帳504は、音源符号化(「音源量子化」または「音源ベクトル符号化」とも呼ばれる)の符号帳である。固定符号帳504は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部512から指示されたインデックスに対応する音源ベクトルを、固定符号帳ベクトルとして乗算器507に出力する。固定符号帳504は代数的音源を記憶している。代数的音源とは、多くの標準コーデックに採用されている音源である。
【0059】
なお、上記の適応符号帳503は、有声音のように周期性の強い成分を表現するために使われる。一方、固定符号帳504は、白色雑音のように周期性の弱い成分を表現するために使われる。
【0060】
ゲイン符号帳505は、歪み最小化部512からの指示に従って、適応符号帳503から出力される適応符号帳ベクトル用のゲイン(適応符号帳ゲイン)、及び固定符号帳504から出力される固定符号帳ベクトル用のゲイン(固定符号帳ゲイン)を生成する。そして、ゲイン符号帳505は、これらのゲインをそれぞれ乗算器506、507に出力する。
【0061】
乗算器506は、ゲイン符号帳505から出力された適応符号帳ゲインを、適応符号帳503から出力された適応符号帳ベクトルに乗じ、乗算後の適応符号帳ベクトルを加算器508に出力する。
【0062】
乗算器507は、ゲイン符号帳505から出力された固定符号帳ゲインを、固定符号帳504から出力された固定符号帳ベクトルに乗じ、乗算後の固定符号帳ベクトルを加算器508に出力する。
【0063】
加算器508は、乗算器506から出力された適応符号帳ベクトルと、乗算器507から出力された固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源としてLPC合成フィルタ509に出力する。
【0064】
LPC合成フィルタ509は、LPC量子化部502から出力された量子化LPCパラメータをフィルタ係数とし、適応符号帳503及び固定符号帳504で生成される音源ベクトルを駆動音源としたフィルタ関数を用いて合成信号を生成する。このフィルタ関数は、LPC合成フィルタと呼ばれる。合成信号は、加算器510に出力される。
【0065】
加算器510は、LPC合成フィルタ509で生成された合成信号を音声信号から減算することによって誤差信号を算出し、この誤差信号を聴感重み付け部511に出力する。なお、この誤差信号は符号化歪みを表わす。
【0066】
聴感重み付け部511は、LPC分析部501から入力されるLPCパラメータを用いて、加算器510から出力された符号化歪みに対して聴感的な重み付けを施し、歪み最小化部512に出力する。
【0067】
歪み最小化部512は、聴感重み付け部511から出力された符号化歪みが最小となるような、適応符号帳503、固定符号帳504及びゲイン符号帳505の各インデックス(符号)をサブフレームごとに求める。そして、歪み最小化部512は、これらのインデックスを符号化情報として音声符号化装置500の外部に出力する。
【0068】
上記の適応符号帳503及び固定符号帳504に基づいて合成信号を生成し、この信号の符号化歪みを求める一連の処理は閉ループ制御(帰還制御)となっている。歪み最小化部512は、各符号帳に指示するインデックスを1サブフレーム内において様々に変化させることによって各符号帳を探索し、最終的に得られる、符号化歪みを最小とする各符号帳のインデックスを出力する。
【0069】
適応符号帳503の探索において、歪み最小化部512は、ピッチ分析部520から送られてきたピッチの近傍範囲(例えば、ピッチ±3の範囲など)でのみ、各サブフレームのラグを探索する。つまり、適応符号帳503は、従来のように、歪み最小化部512から指示されたインデックスに応じて、適応符号帳ラグを大きな範囲で変化させて、この適応符号帳ラグに対応する適応音源ベクトルを出力するという動作は行わない。適応符号帳503は、ピッチ分析部520から送られたピッチ(ラグ)を中心とし、かつ、歪み最小化部512から指示されたインデックスに応じて、適応符号帳ラグを小さな範囲で変化させて、この適応符号帳ラグに対応する適応音源ベクトルを出力する。ピッチ分析部520から適応符号帳503に入力されるピッチはフレームを代表するピッチ候補であるので、各サブフレームのピッチはその近傍になる。よって、歪み最小化部512は、その近傍に適応符号帳ラグを探索する自由度があれば的確な適応符号帳ラグを探索することができる。
【0070】
以上のように、この実施の形態の音声符号化装置500によれば、歪み最小化部512は、適応符号帳503の探索において、ピッチ分析部520から適応符号帳503に入力されるピッチの近傍のみで適応符号帳503の探索を行えばよい。このような探索でも、歪み最小化部512は、適応符号帳503から的確な適応音源ベクトルを出力させることができる。さらに、ピッチ分析部520は、実施の形態1、2で述べたように、少ない計算量で且つ高い精度でピッチを分析することができる。
【0071】
その結果、この実施の形態の音声符号化装置500および音声符号化方法によれば、高品質なサンプリングレートの高い音声信号に対しても、計算量および処理量を低減させつつ高効率に音声信号の符号化を行うことができる。
【0072】
以上、本発明の各実施の形態について説明した。
【0073】
なお、各実施の形態では、ターゲット信号のサンプリングレートが16kHz、ローパスフィルタが周波数透過率1/4となる構成を例にとって説明した。しかし、本発明は、ターゲット信号が他のサンプリングレートであっても、あるいは、ローパスフィルタが他の透過率である構成に対しても、有効に適用できることは明らかである。特に、本発明は、超広帯域信号(32kHzサンプリング信号)を扱う装置および方法に対して適用することで、大きな効果を及ぼすことができる。
【0074】
また、実施の形態1及び実施の形態2では、ピッチ分析装置から1つのピッチしか出力されない構成を例にとって説明したが、ピッチ分析装置は、コスト値の大きいものから複数のピッチ候補を探索して、複数のピッチを出力する構成としてもよい。つまり。本発明は、ピッチ分析装置から出力されるピッチの数に制限されない。実施の形態3のピッチ分析部にこの構成を適用すれば、歪み最小化部はより精度の高い適応符号帳の探索を実現することができる。
【0075】
また、各実施の形態では、複数のピッチ候補P3,P4が、ターゲット信号301,401のサンプリング間隔で離散した構成を例にとって説明した。しかしながら、複数のピッチ候補P3,P4は、ダウンサンプリングのサンプリング間隔よりも短い間隔で離散していれば、ダウンサンプリングのサンプリング間隔と同一の間隔で離散させた場合よりも、ピッチ分析の分解能は高くなり、ピッチ分析精度も高くなる。つまり、本発明は、ピッチ候補の間隔とターゲット信号のサンプリング間隔とを同一にした構成に制限されない。
【0076】
また、実施の形態3では、本発明に係るピッチ分析装置および方法を、音声符号化に利用した場合を示したが、一般に、信号のピッチ分析は、音声認識、音声合成、画像認識、または、画像符号化の各処理内でも行われる。従って、これら音声認識、音声合成、画像認識、または、画像符号化を行う装置および方法においても、本発明に係るピッチ分析装置および方法を適用できることは明らかである。本発明に係るピッチ分析の手法は、信号の周期性を分析するピッチ分析、長期予測に係る分析に独立的に適用できるものであり、これらの分析を一部に含むアルゴリズム全体の目的に依存しないからである。
【0077】
また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアで実現することも可能である。
【0078】
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
【0079】
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)または、LSI内部の回路セルの接続または設定を再構成可能なリコンフィギュラブルプロセッサを利用してもよい。
【0080】
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
【産業上の利用可能性】
【0081】
本発明のピッチ分析装置および方法は、音声信号、音響信号、画像信号または映像信号を対象に、信号解析処理または符号化処理を行う装置および方法に有用である。また、本発明の音声符号化装置および方法は、音声信号を圧縮して伝送する装置に有用である。
【符号の説明】
【0082】
301、401 ターゲット信号
302、402 ローパスフィルタ
303、403 間引き相関値計算部
304、404 ピッチ判定部
305、405 ピッチ
406 調整値格納部
500 音声符号化装置
501 LPC分析部
502 LPC量子化部
503 適応符号帳
504 固定符号帳
509 LPC合成フィルタ
512 歪み最小化部
520 ピッチ分析部


【特許請求の範囲】
【請求項1】
ターゲット信号のピッチを分析するピッチ分析装置であって、
ターゲット信号の周波数帯域を制限して周波数調整された透過ターゲット信号を出力するローパスフィルタと、
前記ターゲット信号のサンプリング間隔である第1のサンプリング間隔よりも長い第2のサンプリング間隔で前記透過ターゲット信号の信号値を抽出して前記透過ターゲット信号の自己相関および前記透過ターゲット信号のパワーを算出する算出部と、
算出された前記自己相関および前記パワーに基づいて前記ターゲット信号のピッチを判定するピッチ判定部と、
を具備するピッチ分析装置。
【請求項2】
前記算出部は、
前記第1のサンプリング間隔で離散した複数のピッチ候補について、前記透過ターゲット信号から前記第2のサンプリング間隔で抽出された複数の信号値を積和して、前記自己相関および前記パワーをそれぞれ算出する
請求項1記載のピッチ分析装置。
【請求項3】
前記算出部は、
前記第2のサンプリング間隔より短い間隔で離散した複数のピッチ候補について、前記透過ターゲット信号から前記第2のサンプリング間隔で抽出された複数の信号値を積和して、前記自己相関および前記パワーをそれぞれ算出する
請求項1記載のピッチ分析装置。
【請求項4】
ピッチの長さごとの固定の位相調整値を格納した調整値格納部をさらに具備し、
前記算出部は、
前記透過ターゲット信号から抽出する信号値の位相を、ピッチの長さごとに前記位相調整値だけずらして、前記自己相関および前記パワーを算出する
請求項1記載のピッチ分析装置。
【請求項5】
入力音声信号の線形予測分析を行って線形予測係数を算出する線形予測分析部と、
入力音声信号のピッチ分析を行うピッチ分析部と、
ピッチ分析の結果に応じた適応音源を出力する適応符号帳と、
少なくとも前記適応音源と前記線形予測係数とに基づいて合成信号を生成する合成フィルタと、
を具備し、
前記ピッチ分析部は、
前記入力音声信号の周波数帯域を制限して周波数調整された透過ターゲット信号を出力するローパスフィルタと、
前記入力音声信号のサンプリング間隔である第1のサンプリング間隔よりも長い第2のサンプリング間隔で前記透過ターゲット信号の信号値を抽出して前記透過ターゲット信号の自己相関および前記透過ターゲット信号のパワーを算出する算出部と、
算出された前記自己相関および前記パワーに基づいて前記入力音声信号のピッチを判定するピッチ判定部と、
を具備する
CELP(Code Excited Linear Prediction)型の音声符号化装置。
【請求項6】
前記ピッチ分析部は、
ピッチ候補ごとの固定の位相調整値を格納した調整値格納部をさらに具備し、
前記算出部は、
前記透過ターゲット信号から抽出する信号値の位相を、ピッチ候補ごとに前記位相調整値だけずらして、前記自己相関および前記パワーを算出する
請求項5記載の音声符号化装置。
【請求項7】
ターゲット信号のピッチを分析するピッチ分析方法であって、
ターゲット信号の周波数帯域を制限して周波数調整された透過ターゲット信号を出力するステップと、
前記ターゲット信号のサンプリング間隔である第1のサンプリング間隔よりも長い第2のサンプリング間隔で前記透過ターゲット信号の信号値を抽出して前記透過ターゲット信号の自己相関および前記透過ターゲット信号のパワーを算出する算出ステップと、
算出された前記自己相関および前記パワーに基づいて前記ターゲット信号のピッチを判定するステップと、
を含むピッチ分析方法。
【請求項8】
入力音声信号の線形予測分析を行って線形予測係数を算出するステップと、
入力音声信号のピッチ分析を行うピッチ分析ステップと、
ピッチ分析の結果に応じた適応音源を適応符号帳から出力するステップと、
少なくとも前記適応音源と前記線形予測係数とに基づいて合成信号を生成するステップと、
を含み、
前記ピッチ分析ステップは、
前記入力音声信号の周波数帯域を制限して周波数調整された透過ターゲット信号を出力するステップと、
前記入力音声信号のサンプリング間隔である第1のサンプリング間隔よりも長い第2のサンプリング間隔で前記透過ターゲット信号の信号値を抽出して前記透過ターゲット信号の自己相関および前記透過ターゲット信号のパワーを算出する算出ステップと、
算出された前記自己相関および前記パワーに基づいて前記入力音声信号のピッチを判定するステップと、
を含むCELP型の音声符号化方法。
【請求項9】
前記ピッチ分析ステップは、
ピッチ候補ごとの固定の位相調整値を読み出すステップをさらに含み、
前記算出ステップでは、
前記透過ターゲット信号から抽出する信号値の位相を、ピッチ候補ごとに前記位相調整値だけずらして、前記自己相関および前記パワーを算出する
請求項8記載の音声符号化方法。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2013−101212(P2013−101212A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2011−244490(P2011−244490)
【出願日】平成23年11月8日(2011.11.8)
【出願人】(000005821)パナソニック株式会社 (73,050)
【Fターム(参考)】