説明

擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラム

【課題】自然度、明瞭度ともに高い擬似広帯域音声信号を生成する。
【解決手段】周波数変換部は、離散値化された狭帯域音声・音響信号を、一定時間ごとに区切られたフレームごとに周波数領域の低域領域の信号に変換する。高域信号生成部は、低域領域の信号の全部または一部を複写して高域領域の信号を生成する。自己相関係数計算部は、狭帯域音声・音響信号の自己相関係数を所定の複数の次数についてフレームごとに計算する。ゲイン決定部は、低域領域内の2つの異なる周波数範囲の信号のパワーまたは振幅の絶対値和の大小関係と自己相関係数とからゲイン係数を決定する。ゲイン乗算部は、高域領域の信号にゲイン係数を乗じて強調高域信号を生成する。結合部は、低域領域の信号と強調高域信号とを合わせて擬似広帯域周波数信号を生成する。周波数逆変換部は、擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電話網やパケット通信ネットワークを利用した音声・音響信号(以下、「音声」という)通信に用いるものであり、狭帯域信号から擬似的に広帯域信号を求める擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラムに関する。
【背景技術】
【0002】
アナログ電話を代表とする従来からの電話システムで伝送できる音声の周波数帯域は、およそ300Hzから3.4kHzである。これは、用件を伝えるのに必要な音声品質と、伝送に必要な情報量とのバランスを考慮して、国際電気通信連合(ITU−T)によって決められ、広く世界で採用されていることによる。一般に、周波数帯域の上限が4kHz以下の音声を狭帯域信号、4kHzを超えて7kHz程度までの音声を広帯域信号と呼ぶ。
【0003】
ところで、最近の音響技術の発展及びディジタル信号処理技術の進歩により、日常生活で使われる機器の音声の品質が向上している。このような状況において、電話の音声にも広帯域化を求める声がある。かかる要求に応える目的で、音声擬似広帯域化装置やその方法が用いられる。音声の擬似広帯域化とは、通話相手から受信した狭帯域信号を利用して、受信側の端末又は通信路上の変換装置によって広帯域信号を生成することをいう。生成される広帯域信号は、本来の広帯域音声とは異なり、あらかじめ決められた規則によって狭帯域信号から広帯域信号に変換されるものであるため、これを擬似広帯域信号と呼ぶ。擬似広帯域化において重要なことは、できるだけ本来の広帯域音声に近い音質の広帯域信号を生成することであり、狭帯域信号から広帯域信号への変換規則がその性能を左右する。
【0004】
音声を擬似広帯域化するには、大きく分けて、300Hz前後より低い周波数帯成分の回復(以下、「回復A」という)の処理と、3.4kHzより高い周波数帯域成分の回復(以下、「回復B」という)の処理が必要である。本発明は回復Bに関するものである。
【0005】
回復Bに関する方法として、特許文献1の方法が知られている。特許文献1の方法を実行する擬似広帯域音声信号生成装置10の構成例を図19に示す。信号擬似広帯域化装置10は、周波数変換部11、高域信号生成部12、ゲイン決定部14、ゲイン乗算部15、結合部16、および周波数逆変換部17を備える。周波数変換部11は、離散値化された狭帯域音声・音響信号を周波数領域の信号に変換して低域領域の信号を生成する。高域信号生成部12は、低域領域の信号の一部または全部を複写して高域領域の信号を生成する。ゲイン決定部14は、低域領域内の異なる範囲の信号のパワー比または振幅の絶対値和の比に基づいて、異なる範囲の低域側の信号のパワーまたは振幅の絶対値和が大きい場合には高域領域の信号に乗ずるゲイン係数を小さくし、高域側の信号のパワーまたは振幅の絶対値和が大きい場合には高域領域の信号に乗ずるゲイン係数を大きくするようにゲイン係数を決定する。ゲイン乗算部15は、高域領域の信号にゲイン係数を乗じて強調高域信号を生成する。結合部16は、低域領域の信号と強調高域信号を合わせて擬似広帯域周波数信号を生成する。周波数逆変換部17は、擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換して出力する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2009−134260号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1の方法は、低域領域内の信号の特徴に応じてゲイン係数を可変することで、雑音の発生を防止すると共に無声部を聞き取り易くできるので、擬似広帯域音声の明瞭度を向上させることができる。しかしながら、ゲイン決定部の処理が簡易であること、高域信号生成部では低域領域の信号の一部または全部を複写して高域領域の信号を生成していること、高域領域の信号にゲイン係数を乗じる際に低域領域からの連続性が十分に考慮されていないことなど、処理が簡易であるために生成した擬似広帯域音声信号の自然性や明瞭度の向上が十分でない問題があった。
【0008】
本発明の目的は、自然度、明瞭度ともに高い擬似広帯域音声信号を生成することが可能な、擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラムを提供することにある。
【課題を解決するための手段】
【0009】
本発明の擬似広帯域音声信号生成装置は、周波数変換部と高域信号生成部と自己相関係数計算部とゲイン決定部とゲイン乗算部と結合部と周波数逆変換部とを備える。周波数変換部は、離散値化された狭帯域音声・音響信号を、一定時間ごとに区切られたフレームごとに周波数領域の低域領域の信号に変換する。高域信号生成部は、前記低域領域の信号の全部または一部を複写して高域領域の信号を生成する。自己相関係数計算部は、前記狭帯域音声・音響信号の自己相関係数を、所定の複数の次数について前記フレームごとに計算する。ゲイン決定部は、前記低域領域内の2つの異なる周波数範囲の信号のパワーまたは振幅の絶対値和の大小関係と前記自己相関係数とからゲイン係数を決定する。ゲイン乗算部は、前記高域領域の信号に前記ゲイン係数を乗じて強調高域信号を生成する。結合部は、前記低域領域の信号と前記強調高域信号とを合わせて擬似広帯域周波数信号を生成する。周波数逆変換部は、前記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換する。
【発明の効果】
【0010】
本発明の擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラムは、高域領域の信号に乗ずるゲインを、狭帯域音声のスペクトルの傾きだけでなく、ピッチ相関の値を加味して決定するため、従来の擬似広帯域音声信号生成装置より自然性の高い音質で、かつ明瞭度が高い擬似広帯域音声信号を生成することができる。
【図面の簡単な説明】
【0011】
【図1】擬似広帯域音声信号生成装置100の構成例を示す図。
【図2】擬似広帯域音声信号生成装置100の処理フロー例を示す図。
【図3】ゲイン決定部140の構成例を示す図。
【図4】ゲイン決定部140の処理フロー例を示す図。
【図5】擬似広帯域音声信号生成装置200の構成例を示す図。
【図6】擬似広帯域音声信号生成装置200の処理フロー例を示す図。
【図7】自己相関係数c(1)の値に応じたスペクトルの形状のイメージを示す図。
【図8】擬似広帯域音声信号生成装置300の構成例を示す図。
【図9】擬似広帯域音声信号生成装置300の処理フロー例を示す図。
【図10】ゲイン係数計算手段342の詳細動作の例を示す図。
【図11】ゲイン係数計算手段342の詳細動作の別の例を示す図。
【図12】擬似広帯域音声信号生成装置400の構成例を示す図。
【図13】擬似広帯域音声信号生成装置400の処理フロー例を示す図。
【図14】擬似広帯域音声信号生成装置401の構成例を示す図。
【図15】擬似広帯域音声信号生成装置401の処理フロー例を示す図。
【図16】擬似広帯域音声信号生成装置500の構成例を示す図。
【図17】擬似広帯域音声信号生成装置500の処理フロー例を示す図。
【図18】ゲイン係数gから中域ゲインG(k)を決める規則の例を示す図。
【図19】従来の擬似広帯域音声信号生成装置10の構成例を示す図。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態について、詳細に説明する。
【実施例1】
【0013】
本発明の擬似広帯域音声信号生成装置100の構成例を図1に、その構成例における処理フローを図2に示す。擬似広帯域音声信号生成装置100は、周波数変換部110、高域信号生成部120、自己相関係数計算部130、ゲイン決定部140、ゲイン乗算部150、結合部160、及び周波数逆変換部170を備える。
【0014】
フレームと呼ばれる一定時間毎に区切られたディジタル形式の狭帯域音声・音響信号(以下、狭帯域音声と呼ぶ)をs(t)とする。添え字iは第i番目のフレームであることを示し、tはフレームの先頭時刻を基準とする相対的なサンプル番号とする。t=1はフレームの先頭サンプル、tが0以下のときは前フレームのサンプルを、tがフレームの時間長(以下、フレーム長)を越えるときは次フレームのサンプルを示すことにする。サンプリング周波数には8kHzを用いることが多いが、11kHzや16kHzなどの他のサンプリング周波数を用いてもよい。フレーム長は例えば20ミリ秒を用いることができるが、5ミリ秒、10ミリ秒など他の時間長を用いてもよい。以下の例では、サンプリング周波数が8kHz、フレーム長が20ミリ秒であるとして説明する。狭帯域音声s(t)は、周波数変換部110と自己相関係数計算部130に送られる。
【0015】
周波数変換部110は、フーリエ変換、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)などの手法を用いて、狭帯域音声s(t)を周波数領域の低域領域の信号S(k)に変換する(S1)。ここでkは周波数を表し、1≦k≦Dとする。Dは周波数変換の窓長に依存するが、一例として、D=160とし、k=1は0Hz、k=Dは4kHzに対応させることができる。なお、S(k)はフレーム番号iに依存する値となるが、添え字iは省略し、以下、他の変数名についても処理フロー上明らかな場合は同様にフレーム番号を省略する。S(k)は高域信号生成部120とゲイン決定部140と結合部160に送られる。
【0016】
高域信号生成部120は、低域領域の信号S(k)の全部または一部を複写して高域領域の信号S(k)を生成する(S2)。一例として、
(k)=S(k) 1≦k≦D (1)
または
【0017】
【数1】

【0018】
とする。S(k)は、ゲイン乗算部150に送られる。
【0019】
自己相関係数計算部130は、狭帯域音声s(t)の自己相関係数c(n)を計算する(S3)。自己相関係数c(n)は、例えば、
【0020】
【数2】

【0021】
と計算する。ここで、Nは自己相関係数の最大次数、Wは分析窓長、Pは狭帯域音声のパワーである。パワーPは、例えば
【0022】
【数3】

【0023】
と計算できる。式(3)においてパワーPによる正規化は省略しても構わないが、正規化をするとc(n)の各値がおよそ−1≦c(n)≦1の範囲となるため、後述する閾値などの設定が行いやすい。Nは音声のピッチ周期(基本周波数に対応する時間領域の長さ)の想定範囲と同程度以上にする。例えば、人間の音声の基本周波数は50Hzから400Hz程度であるため、一例としてN=160とすることができる。基本周波数が50Hzに近いことは稀なため、実用上はN=140やN=120程度としてもよい。分析窓長は一例としてフレーム長と同じW=160とすることができるが、より長時間にわたる平均的な自己相関係数を求めるために、W=240程度とすることもある。自己相関係数c(n)はゲイン決定部140に送られる。
【0024】
ゲイン決定部140は、まず、低域領域の信号S(k)の2つの異なる周波数範囲それぞれのパワーまたは振幅の絶対値和を計算する。ここで、2つの異なる周波数範囲のうち、周波数の低い側を範囲1、周波数の高い側を範囲2とし、範囲1と範囲2がそれぞれどの周波数からどの周波数までかは、あらかじめ決められているものとする。また、以下、パワーまたは振幅の絶対値和は総称してパワーと呼ぶ。そして、特許文献1の方法では、範囲1と範囲2のパワーの大小関係のみでゲイン係数gを決定しているが、本実施例では、範囲1と範囲2のパワーの大小関係と自己相関係数c(n)の両方を用いてゲイン係数gを決定する(S4)。ゲイン係数gはゲイン乗算部150に送られる。
【0025】
ゲイン乗算部150は、高域領域の信号S(k)にゲインgを乗じて、強調高域信号S’(k)を生成し、結合部160に送る(S5)。なお、S(k)にゲインgを乗ずる際に、あらかじめ決められた窓関数H(k)を併せて乗じると、低域領域の信号S(k)と強調高域信号S’(k)の周波数境界近傍での不連続性を低減することができる。H(k)の一例として、ハミング窓やハニング窓を利用することができる。
【0026】
結合部160は、低域領域の信号S(k)と強調高域信号S’(k)を合わせて擬似広帯域周波数信号S(k)を生成する(S6)。
【0027】
周波数逆変換部170は、擬似広帯域周波数信号S(k)を時間領域の擬似広帯域信号に変換して出力する(S7)。
【0028】
図3は、図1におけるゲイン決定部140を具体化した構成例であり、図4はその構成例における処理フローである。ゲイン決定部140は、第1パワー計算手段141、第2パワー計算手段142、傾き計算手段143、ピッチ相関探索手段144、ピッチ相関判定手段145、及びゲイン係数計算手段146からなる。
【0029】
周波数変換部110で得られた低域領域の信号S(k)は、第1パワー計算手段141と第2パワー計算手段142に送られる。第1パワー計算手段141は、周波数の範囲1のパワーQを計算する(S4−1)。第2パワー計算手段142は、周波数の範囲2のパワーQを計算する(S4−2)。QとQは傾き計算手段143に送られる。
【0030】
傾き計算手段143は、QとQからスペクトルの傾きを表すパラメータRを計算する(S4−3)。Rは例えば、QとQの比を用いることができる。QとQの差でもよい。
【0031】
一方、自己相関係数計算部130で得られた自己相関係数c(n)は、ピッチ相関探索手段144に送られる。ピッチ相関探索手段144は、n=1,2,3,…,Nのそれぞれについてc(n)の値を探索して、音声のピッチ周期に対応するnの値nと、n=nのときの自己相関係数c(n)を特定し、ピッチ相関判定手段145に送る(S4−4)。なお、nは、自己相関係数c(n)の極大値の中から、nのフレーム間の連続性を考慮して選択する方法により求めることができる。
【0032】
ピッチ相関判定手段145は、c(n)の値をあらかじめ決められた閾値と比較し、比較結果をフラグFの値にセットする(S4−5)。例えば、c(n)の値が閾値以上であればF=1、未満であればF=0とする。閾値には、例えば0.8を用いることができる。なお、このフラグFは、当該フレームの音声区間が、有声音であるか無声音であるかを示すものとみなすことができる。フラグFはゲイン係数計算手段146に送られる。
【0033】
ゲイン係数計算手段146は、フラグF=1すなわち有声音とみなされるときは、ゲイン係数gとして、あらかじめ決められたゲイン係数gを出力し、F=0すなわち無声音とみなされるときは、ゲイン係数gとして、スペクトルの傾きを表すパラメータRに応じたゲイン係数を出力する(S4−6)。第1の例として、RがQ≧Qを示すときはゲイン係数g、Q<Qを示すときはgを出力する。第2の例として、以下の式(5)のように、QがQよりも大きいほど、ゲイン係数が小さくなるように決めてもよい。
【0034】
【数4】

【0035】
なお、g<g<gとし、数値としては例えば、g=0.8、g=1.4、g=2.0を用いることができるが、各閾値(または条件式)やそれに対応するゲイン係数は、実際に様々な入力狭帯域音声から擬似広帯域音声信号を実験的に作成し、擬似広帯域音声の聴感的な品質が良くなるように、各値を設定するのがよい。
【0036】
以上のように、本発明の擬似広帯域音声信号生成装置100は、高域領域の信号に乗ずるゲインを、狭帯域音声のスペクトルの傾きだけでなく、ピッチ相関の値を加味して決定するため、従来の擬似広帯域音声信号生成装置10より自然性の高い音質で、かつ明瞭度が高い擬似広帯域音声信号を生成することができる。
【実施例2】
【0037】
本発明の擬似広帯域音声信号生成装置200の構成例を図5に、その処理フロー例を図6に示す。擬似広帯域音声信号生成装置200は、実施例1の擬似広帯域音声信号生成装置100の変形例であり、具体的にはゲイン決定部におけるゲイン係数gの決定に、低域領域の信号S(k)を用いず自己相関係数c(n)のみを用いる構成である。以下、実施例1と共通する部分(符号が同じ部分)の説明は必要最小限にとどめる。
【0038】
擬似広帯域音声信号生成装置200は、周波数変換部110、高域信号生成部120、自己相関係数計算部130、ゲイン決定部240、ゲイン乗算部150、結合部160、及び周波数逆変換部170を備える。
【0039】
狭帯域音声s(t)は、実施例1と同様、周波数変換部110と自己相関係数計算部130に送られる。
【0040】
周波数変換部110は、実施例1と同様であるが、生成した低域領域の信号S(k)は、高域信号生成部120と結合部160に送られる(S1)。
【0041】
自己相関係数計算部130は、実施例1と同様にn=1,2,3,…,Nのそれぞれについて自己相関係数c(n)を計算し、ゲイン決定部240に送る(S3)。
【0042】
ゲイン決定部240は、傾き計算手段241、ピッチ相関探索手段144、ピッチ相関判定手段145、及びゲイン係数計算手段242からなり、自己相関係数c(n)を用いてゲイン係数gを決定する(S8)。自己相関係数c(n)は傾き計算手段241とピッチ相関探索手段144に送られる。
【0043】
傾き計算手段241は、自己相関係数c(n)のうち、n=1の係数c(1)から狭帯域音声s(t)のスペクトルの傾きを表すパラメータrを計算する(S8−1)。自己相関係数が実施例1で述べたようにパワーで正規化されていれば、一般に
−1≦c(1)≦1 (6)
である(ただし、自己相関係数やパワーの計算方法により、下限が−1より小さくなる場合や、上限が1よりも大きくなる場合もあるが、およそプラスマイナス1の範囲であると考えてよい)。また、c(1)が負のときは、図7(a)に示すようにスペクトルが「高域上がり」すなわち、およそ実施例1におけるQ<Qのときに相当するスペクトル形状である。c(1)が正のときは、図7(b)に示すようにスペクトルが「高域下がり」すなわち、およそ実施例1におけるQ>Qのときに相当するスペクトル形状である。ここでは一例として、
r=c(1)+1 (7)
とし、
0≦r≦2 (8)
とする。スペクトルの傾きを表すパラメータrはゲイン係数計算手段242に送られる。
【0044】
ピッチ相関探索手段144は、実施例1と同様にして、音声のピッチ周期に対応するnの値nと、n=nのときの自己相関係数値c(n)を求め、ピッチ相関判定手段145に送る(S8−2)。
【0045】
ピッチ相関判定手段145は、実施例1と同様にして、c(n)の値をあらかじめ決められた閾値と比較し、比較結果をフラグFの値にセットする(S8−3)。
【0046】
ゲイン係数計算手段242は、フラグF=1すなわち有声音とみなされるときは、ゲイン係数gとして、あらかじめ決められたゲイン係数gを出力し、F=0すなわち無声音とみなされるときは、スペクトルの傾きを表すパラメータrに応じたゲイン係数を出力する(S8−4)。一例として、以下の式(9)のように、ゲイン係数の上下限を設けたうえで、rが大きいほどゲイン係数が小さく、rが小さいほどゲイン係数が大きくなるようにする。
【0047】
【数5】

【0048】
なお、g<g<gとし、数値例としては、g=0.8、g=1.4、g=2.0を用いることができるが、各閾値(または条件式)やそれに対応するゲイン係数は、実際に様々な入力狭帯域音声から擬似広帯域音声信号を実験的に作成し、擬似広帯域音声の聴感的な品質が良くなるように、各値を設定するのがよい。
【0049】
ゲイン係数gはゲイン乗算部150に送られる。高域信号生成部120、ゲイン乗算部150、結合部160、周波数逆変換部170は実施例1と同様であるため説明を省略する(S2、S5〜7)。
【実施例3】
【0050】
本発明の擬似広帯域音声信号生成装置300の構成例を図8に、その処理フロー例を図9に示す。擬似広帯域音声信号生成装置300は、実施例2の擬似広帯域音声信号生成装置200の変形例であり、具体的にはゲイン決定部におけるゲイン係数gの決定に、更にフレームの定常/非定常判定結果を用いる構成である。以下、実施例2と共通する部分(符号が同じ部分)の説明は必要最小限にとどめる。
【0051】
擬似広帯域音声信号生成装置300は、周波数変換部110、高域信号生成部120、自己相関係数計算部330、ゲイン決定部340、ゲイン乗算部150、結合部160、及び周波数逆変換部170を備える。
【0052】
狭帯域音声s(t)は、実施例2と同様、周波数変換部110と自己相関係数計算部130に送られる。
【0053】
周波数変換部110は、実施例2と同様に低域領域の信号S(k)を生成し、高域信号生成部120と結合部160に送る(S1)。
【0054】
自己相関係数計算部330は、実施例2と同様にn=1,2,3,…,Nのそれぞれについて自己相関係数c(n)を計算して、ゲイン決定部340に送るとともに、式(3)により自己相関係数c(n)を計算する過程で計算したパワーP(例えば式(4))もゲイン決定部340に送る(S9)。
【0055】
ゲイン決定部340は、傾き計算手段241、ピッチ相関探索手段144、ピッチ相関判定手段145、定常/非定常判定手段341、及びゲイン係数計算手段342からなり、自己相関係数c(n)やパワーPを用いてゲイン係数gを決定する(S10)。自己相関係数c(n)は、傾き計算手段241とピッチ相関探索手段144と定常/非定常判定手段341に送られる。パワーPは、定常/非定常判定手段341に送られる。
【0056】
傾き計算手段241とピッチ相関探索手段144とピッチ相関判定手段145は、実施例2と同様である(S10−1〜3)。
【0057】
定常/非定常判定手段341は、自己相関係数c(n)のうち、n=1の係数c(1)とパワーPの両方または一方の時系列を用いて、当該フレームが定常区間であるか非定常区間であるかを判定する(S10−4)。一例として、定常/非定常判定手段341は内部に複数フレームにわたってc(1)とパワーPを保持するメモリを持ち、c(1)またはPの時間変化、すなわちフレーム間の変化量があらかじめ決められた閾値よりも小さければ定常区間、あらかじめ決められた閾値よりも大きければ非定常区間であるとする。定常/非定常判定結果Fは、ゲイン値計算手段342に送られる。
【0058】
ゲイン係数計算手段342は、ピッチ相関判定手段145の出力であるフラグFと、傾き計算手段241の出力であるスペクトルの傾きを表すパラメータrと、定常/非定常判定結果Fを用い、あらかじめ定めた規則に基づいてゲイン係数を求める(S10−5)。
ゲイン係数計算手段342の詳細動作例を、図10を用いて説明する。ゲイン係数計算手段342は、内部にFの時系列を保持するメモリを持つ。定常/非定常判定結果Fが定常区間であることを示し、現フレームのフラグがF=1、前フレームのフラグがF=1であるときには、ゲイン係数gとして、あらかじめ決められたゲイン係数gを出力する。定常/非定常判定結果Fが定常区間であることを示し、現フレームのフラグがF=0、前フレームのフラグがF=0であるときには、スペクトルの傾きを表すパラメータrに応じたゲイン値を出力する。一例として、以下の式(10)のように、ゲイン値の上下限を設けたうえで、rが大きいほどゲイン値が小さく、rが小さいほどゲイン値が大きくなるようにする。
【0059】
【数6】

【0060】
なお、g<g<gとし、数値例としては、g=0.8、g=1.4、g=2.0を用いることができるが、各閾値(または条件式)やそれに対応するゲイン係数は、実際に様々な入力狭帯域音声から擬似広帯域音声信号を実験的に作成し、擬似広帯域音声の聴感的な品質が良くなるように、各値を設定するのがよい。定常/非定常判定結果Fが定常区間であることを示し、現フレームのフラグがF=0、前フレームのフラグがF=1であるときには、ゲイン係数gとして、あらかじめ決められたゲイン係数gを出力する。定常/非定常判定結果Fが定常区間であることを示し、現フレームのフラグがF=1、前フレームのフラグがF=0であるときには、上記式(10)に例示するような、スペクトルの傾きを表すパラメータrに応じたゲイン係数を出力する。定常/非定常判定結果Fが非定常区間であることを示し、現フレームのフラグがF=1であるときには、ゲイン係数gとして、あらかじめ決められたゲイン係数gを出力する。定常/非定常判定結果Fが非定常区間であることを示し、現フレームのフラグがF=0であるときには、上記式(10)に例示するような、スペクトルの傾きを表すパラメータrに応じたゲイン係数を出力する。
【0061】
図11に図10に示すゲイン係数計算手段342の詳細動作例の変形例を示す。定常/非定常判定結果Fが定常区間であることを示し、現フレームのフラグFと、前フレームのフラグFの値が異なる場合の動作以外は図10と同様である。定常/非定常判定結果Fが定常区間であることを示し、現フレームのフラグがF=0、前フレームのフラグがF=1であるとき、または、現フレームのフラグがF=1、前フレームのフラグがF=0であるときは、以下の式(11)に示すように、スペクトルの傾きを表すパラメータrに応じたゲイン係数を出力する。
【0062】
【数7】

【0063】
ここで、g≦g<gかつ、g<g、g<gとする。すなわち、式(10)と同様に、ゲイン係数の上下限を設けたうえで、rが大きいほどゲイン係数が小さく、rが小さいほどゲイン係数が大きくなるようにするが、ゲイン係数の上下限を式(10)よりも小さく設定し、現フレームのフラグがF=0、前フレームのフラグがF=0のときよりも、同じrの値に対する出力するゲイン係数が小さくなるようにする。その理由は、定常区間であるにもかかわらず、隣接するフレームでフラグFの値が異なるときは、音質劣化のリスクを考慮して、ゲイン係数を小さめにするためである。数値の一例としては、g=1.2、g=1.6を用いることができる。
【0064】
ゲイン係数gはゲイン乗算部150に送られる。高域信号生成部120、ゲイン乗算部150、結合部160、周波数逆変換部170は実施例2と同様であるため説明を省略する。
【0065】
以上のように、本発明の擬似広帯域音声信号生成装置300は、高域領域の信号に乗ずるゲインを、狭帯域音声のスペクトルの傾きとピッチ相関の値だけでなく、定常/非定常状態の判定結果を加味して決定するため、更に自然性の高い音質で、かつ明瞭度が高い擬似広帯域音声信号を生成することができる。
【実施例4】
【0066】
本発明の擬似広帯域音声信号生成装置400の構成例を図12に、その処理フロー例を図13に示す。擬似広帯域音声信号生成装置400は、実施例3の擬似広帯域音声信号生成装置300の変形例である。具体的には、ゲイン乗算部150と結合部160との間に高域白色化部480を設け、ゲイン乗算部150で得られた強調高域信号S’(k)に白色雑音またはガウス雑音を加算して白色化強調高域信号S”(k)を生成し、これを結合部160にて低域領域の信号と結合する(S11)。加算する雑音量は、ゲイン決定部340で計算されるゲイン係数gまたはフラグFを用いてコントロールする。例えば、ゲイン係数gが大きいほど加算量が大きくなるようにするか、フラグFが無声音を示すときは加算量を大きく、Fが有声音を示すときは加算量を小さくする。 なお、高域白色化部を結合部160と周波数逆変換部170との間に配置しても等価である。また、本実施例は実施例3の変形例として説明したが、実施例1、実施例2の構成にも同様に適用可能である。
【0067】
このように高域を白色化することで、より自然性の高い音質の擬似広帯域音声信号を生成することができる。
【実施例5】
【0068】
本発明の擬似広帯域音声信号生成装置401の構成例を図14に、その処理フロー例を図15に示す。擬似広帯域音声信号生成装置401は、実施例4の擬似広帯域音声信号生成装置400の変形例である。具体的には、高域白色化部480を、周波数領域でなく、周波数逆変換部170の後段の時間領域に設け、擬似広帯域信号s(t)に白色雑音またはガウス雑音を加算して、白色化された擬似広帯域信号を出力する。加算する雑音量は、実施例4と同様に、ゲイン決定部340で計算されるゲイン係数gまたはフラグFを用いてコントロールする。
【0069】
実施例4と本実施例は、周波数領域で雑音を加算するか、時間領域で雑音を加算するかの違いであり、等価な処理と解することもできるが、周波数領域で雑音を加算すると雑音の周波数特性をコントロールしやすく、時間領域で雑音を加算すると雑音の時間変化パターンをコントロールしやすいというそれぞれのメリットがある。
【実施例6】
【0070】
本発明の擬似広帯域音声信号生成装置500の構成例を図16に、その処理フロー例を図17に示す。擬似広帯域音声信号生成装置500は、実施例3の擬似広帯域音声信号生成装置300の変形例である。具体的には、実施例3の構成に中域ゲイン決定部510と中域ゲイン乗算部520を加えた構成である。
【0071】
中域ゲイン決定部510は、ゲイン決定部340で得られたゲイン係数gに基づき、中域ゲインG(k)を決定する。ここで、G(k)は周波数kの関数である。G(k)は中域ゲイン乗算部520に送られる。
【0072】
中域ゲイン乗算部520は、周波数変換部110と結合部160との間に設けられ、以下の式(12)に示すように、低域領域の信号S(k)に中域ゲインG(k)を対応する周波数kごとに乗じて、中域が強調された低域領域の信号S’(k)を生成して結合部160に送る。
【0073】
S’(k)=G(k)S(k) (12)
図18(a)、(b)に、中域ゲイン決定部510の動作例として、ゲイン係数gから中域ゲインG(k)を決める規則例を示す。図18(a)はg>1のときの例であり、式で書くと、
【0074】
【数8】

【0075】
である。kは例えば0.5kHzまたは1kHzにするとよい。式(13)に従えば、k=4kHzのときは、G(k)=gとなるが、以下の式(14)のように定義して、
【0076】
【数9】

【0077】
というように、k=4kHzのときにG(k)=1+(g−1)/2となるようにしてもよい。また、図18(b)はg≦1のときの例であり、
(k)=1 0≦k≦4(kHz)のとき
とする。
【0078】
このように、高域領域の信号に乗ずるゲインに合わせて中域にもゲインを乗ずることで、低域領域から高域領域まで連続性が考慮された、自然性、明瞭度ともに高い擬似広帯域音声信号を生成することができる。
【0079】
なお、実施例6では中域ゲイン決定部510と中域ゲイン乗算部520を実施例3の構成に適用した場合を説明したが、他の実施例の構成にも同様に適用可能である。
【0080】
以上説明した各実施例の擬似広帯域音声信号生成装置及び擬似広帯域音声信号生成方法における各処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明の擬似広帯域音声信号生成装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明において表現されている技術的思想の範囲内で適宜変更が可能である。
【0081】
本発明の擬似広帯域音声信号生成装置を構成する各部、各手段をコンピュータによって実現する場合、各部が担う機能の処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には、必要なプログラムやデータがRAM(Random Access Memory)に読み込まれて、そのプログラムがCPUにより実行されることにより、コンピュータ上で各処理内容が実現される。

【特許請求の範囲】
【請求項1】
離散値化された狭帯域音声・音響信号を、一定時間ごとに区切られたフレームごとに周波数領域の低域領域の信号に変換する周波数変換部と、
前記低域領域の信号の全部または一部を複写して高域領域の信号を生成する高域信号生成部と、
前記狭帯域音声・音響信号の自己相関係数を、所定の複数の次数について前記フレームごとに計算する自己相関係数計算部と、
前記低域領域内の2つの異なる周波数範囲の信号のパワーまたは振幅の絶対値和(以下、総称して「パワー」と呼ぶ。)の大小関係と前記自己相関係数とからゲイン係数を決定するゲイン決定部と、
前記高域領域の信号に前記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算部と、
前記低域領域の信号と前記強調高域信号とを合わせて擬似広帯域周波数信号を生成する結合部と、
前記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換する周波数逆変換部と、
を備える擬似広帯域音声信号生成装置。
【請求項2】
請求項1に記載の擬似広帯域音声信号生成装置において、
前記ゲイン決定部は、
一方の前記周波数範囲のパワーを計算する第1パワー計算手段と、
他方の前記周波数範囲のパワーを計算する第2パワー計算手段と、
前記第1パワー計算手段での計算結果と前記第2パワー計算手段での計算結果とからスペクトルの傾きを表すパラメータを計算する傾き計算手段と、
各次数の前記自己相関係数から音声のピッチ周期に対応する自己相関係数を特定するピッチ相関探索手段と、
前記ピッチ相関探索手段で特定された音声のピッチ周期に対応する自己相関係数の値をあらかじめ決められた閾値と比較し、比較結果をフラグ値としてセットするピッチ相関判定手段と、
前記フラグ値と前記パラメータとの組み合わせに基づきゲイン係数を決定するゲイン係数計算手段と、
を備える擬似広帯域音声信号生成装置。
【請求項3】
離散値化された狭帯域音声・音響信号を、一定時間ごとに区切られたフレームごとに周波数領域の低域領域の信号に変換する周波数変換部と、
前記低域領域の信号の全部または一部を複写して高域領域の信号を生成する高域信号生成部と、
前記狭帯域音声・音響信号の自己相関係数を、所定の複数の次数について前記フレームごとに計算する自己相関係数計算部と、
前記自己相関係数からゲイン係数を決定するゲイン決定部と、
前記高域領域の信号に前記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算部と、
前記低域領域の信号と前記強調高域信号とを合わせて擬似広帯域周波数信号を生成する結合部と、
前記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換する周波数逆変換部と、
を備え、
前記ゲイン決定部は、
前記自己相関係数からスペクトルの傾きを表すパラメータを計算する傾き計算手段と、
各次数の前記自己相関係数から音声のピッチ周期に対応する自己相関係数を特定するピッチ相関探索手段と、
前記ピッチ相関探索手段で特定された音声のピッチ周期に対応する自己相関係数の値をあらかじめ決められた閾値と比較し、比較結果をフラグ値としてセットするピッチ相関判定手段と、
前記フラグ値と前記パラメータとの組み合わせに基づきゲイン係数を決定するゲイン係数計算手段と、
を備える
擬似広帯域音声信号生成装置。
【請求項4】
請求項3に記載の擬似広帯域音声信号生成装置において、
前記ゲイン決定部は、フレームごとに、前記自己相関係数及び/又は前記狭帯域音声・音響信号のパワーに基づき、当該フレームが定常区間であるか非定常区間であるかを判定する定常/非定常判定手段を更に備え、
前記ゲイン係数計算手段は、前記フラグ値と前記パラメータと前記定常/非定常判定手段における判定結果との組み合わせに基づきゲイン係数を決定する
ことを特徴とする擬似広帯域音声信号生成装置。
【請求項5】
請求項2乃至4のいずれかに記載の擬似広帯域音声信号生成装置において、
前記ゲイン乗算部と前記結合部との間に高域白色化部を更に備え、
前記高域白色化部は、前記強調高域信号に白色雑音またはガウス雑音を加算して前記結合部に与え、
加算する雑音量は、前記ゲイン係数または前記フラグ値を用いてコントロールする
ことを特徴とする擬似広帯域音声信号生成装置。
【請求項6】
請求項2乃至4のいずれかに記載の擬似広帯域音声信号生成装置において、
前記周波数逆変換部の後段に高域白色化部を更に備え、
前記高域白色化部は、前記擬似広帯域音声信号に白色雑音またはガウス雑音を加算して出力し、
加算する雑音量は、前記ゲイン係数または前記フラグ値を用いてコントロールする
ことを特徴とする擬似広帯域音声信号生成装置。
【請求項7】
請求項1乃至6のいずれかに記載の擬似広帯域音声信号生成装置において、
中域ゲイン決定部と中域ゲイン乗算部を更に備え、
前記中域ゲイン決定部は、前記ゲイン係数に基づき中域ゲインを決定し、
前記中域ゲイン乗算部は、前記周波数変換部と前記結合部との間に設けられ、前記低域領域の信号に前記中域ゲインを乗算して前記結合部に与える
ことを特徴とする擬似広帯域音声信号生成装置。
【請求項8】
離散値化された狭帯域音声・音響信号を、一定時間ごとに区切られたフレームごとに周波数領域の低域領域の信号に変換する周波数変換ステップと、
前記低域領域の信号の全部または一部を複写して高域領域の信号を生成する高域信号生成ステップと、
前記狭帯域音声・音響信号の自己相関係数を、所定の複数の次数について前記フレームごとに計算する自己相関係数計算ステップと、
前記低域領域内の2つの異なる周波数範囲の信号のパワーまたは振幅の絶対値和(以下、総称して「パワー」と呼ぶ。)の大小関係と前記自己相関係数とからゲイン係数を決定するゲイン決定ステップと、
前記高域領域の信号に前記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算ステップと、
前記低域領域の信号と前記強調高域信号とを合わせて擬似広帯域周波数信号を生成する結合ステップと、
前記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換する周波数逆変換ステップと、
を実行する擬似広帯域音声信号生成方法。
【請求項9】
請求項8に記載の擬似広帯域音声信号生成方法において、
前記ゲイン決定ステップは、
一方の前記周波数範囲のパワーを計算する第1パワー計算サブステップと、
他方の前記周波数範囲のパワーを計算する第2パワー計算サブステップと、
前記第1パワー計算サブステップでの計算結果と前記第2パワー計算サブステップでの計算結果とからスペクトルの傾きを表すパラメータを計算する傾き計算サブステップと、
各次数の前記自己相関係数から音声のピッチ周期に対応する自己相関係数を特定するピッチ相関探索サブステップと、
前記ピッチ相関探索サブステップで特定された音声のピッチ周期に対応する自己相関係数の値をあらかじめ決められた閾値と比較し、比較結果をフラグ値としてセットするピッチ相関判定サブステップと、
前記フラグ値と前記パラメータとの組み合わせに基づきゲイン係数を決定するゲイン係数計算サブステップと、
を実行する擬似広帯域音声信号生成方法。
【請求項10】
離散値化された狭帯域音声・音響信号を、一定時間ごとに区切られたフレームごとに周波数領域の低域領域の信号に変換する周波数変換ステップと、
前記低域領域の信号の全部または一部を複写して高域領域の信号を生成する高域信号生成ステップと、
前記狭帯域音声・音響信号の自己相関係数を、所定の複数の次数について前記フレームごとに計算する自己相関係数計算ステップと、
前記自己相関係数からゲイン係数を決定するゲイン決定ステップと、
前記高域領域の信号に前記ゲイン係数を乗じて強調高域信号を生成するゲイン乗算ステップと、
前記低域領域の信号と前記強調高域信号とを合わせて擬似広帯域周波数信号を生成する結合ステップと、
前記擬似広帯域周波数信号を時間領域の擬似広帯域音声信号に変換する周波数逆変換ステップと、
を実行し、
前記ゲイン決定ステップは、
前記自己相関係数からスペクトルの傾きを表すパラメータを計算する傾き計算サブステップと、
各次数の前記自己相関係数から音声のピッチ周期に対応する自己相関係数を特定するピッチ相関探索サブステップと、
前記ピッチ相関探索サブステップで特定された音声のピッチ周期に対応する自己相関係数の値をあらかじめ決められた閾値と比較し、比較結果をフラグ値としてセットするピッチ相関判定サブステップと、
前記フラグ値と前記パラメータとの組み合わせに基づきゲイン係数を決定するゲイン係数計算サブステップと、
を実行する
擬似広帯域音声信号生成方法。
【請求項11】
請求項10に記載の擬似広帯域音声信号生成方法において、
前記ゲイン決定ステップは、フレームごとに、前記自己相関係数及び/又は前記狭帯域音声・音響信号のパワーに基づき、当該フレームが定常区間であるか非定常区間であるかを判定する定常/非定常判定サブステップを更に実行し、
前記ゲイン係数計算サブステップは、前記フラグ値と前記パラメータと前記定常/非定常判定サブステップにおける判定結果との組み合わせに基づきゲイン係数を決定する
ことを特徴とする擬似広帯域音声信号生成方法。
【請求項12】
請求項9乃至11のいずれかに記載の擬似広帯域音声信号生成方法において、
前記ゲイン乗算ステップと前記結合ステップとの間に高域白色化ステップを更に実行し、
前記高域白色化ステップは、前記強調高域信号に白色雑音またはガウス雑音を加算して前記結合ステップに与え、
加算する雑音量は、前記ゲイン係数または前記フラグ値を用いてコントロールする
ことを特徴とする擬似広帯域音声信号生成方法。
【請求項13】
請求項9乃至11のいずれかに記載の擬似広帯域音声信号生成方法において、
前記周波数逆変換ステップの後に高域白色化ステップを更に実行し、
前記高域白色化ステップは、前記擬似広帯域音声信号に白色雑音またはガウス雑音を加算して出力し、
加算する雑音量は、前記ゲイン係数または前記フラグ値を用いてコントロールする
ことを特徴とする擬似広帯域音声信号生成方法。
【請求項14】
請求項8乃至13のいずれかに記載の擬似広帯域音声信号生成方法において、
中域ゲイン決定ステップと中域ゲイン乗算ステップを更に実行し、
前記中域ゲイン決定ステップは、前記ゲイン係数に基づき中域ゲインを決定し、
前記中域ゲイン乗算ステップは、前記周波数変換ステップと前記結合ステップとの間で実行され、前記低域領域の信号に前記中域ゲインを乗算して前記結合ステップに与える
ことを特徴とする擬似広帯域音声信号生成方法。
【請求項15】
請求項1乃至7のいずれかに記載の擬似広帯域音声信号生成装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図10】
image rotate

【図11】
image rotate