説明

音声処理装置および方法、並びにプログラム

【課題】音声信号のゲイン増幅を行なう場合に、音質の劣化を抑制する。
【解決手段】入力信号の各周波数帯域のゲインをゲイン設定値に基づいて調整するイコライザ処理を行なう場合に、ゲイン設定値から求まる入力減衰量だけ入力信号を減衰させ、減衰された入力信号に対してイコライザ処理を行なう。また、予め用意された一般的な音楽信号から求められた各周波数帯域の重み係数と、ゲイン設定値とに基づいて、イコライザ処理による入力信号のゲインの増幅量が推定され、その推定値と入力減衰量との差分がゲイン補正量として算出される。さらに、実際にイコライザ処理された入力信号がゲイン補正量だけ増幅されるように、入力信号に対して非線形増幅処理が行なわれ、出力信号とされる。本技術は、音声処理装置に適用することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本技術は音声処理装置および方法、並びにプログラムに関し、特に、音声信号のゲイン増幅を行なう場合に、音質の劣化を抑制することができるようにした音声処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
従来、等価器(イコライザ)を用いて、音楽信号の各周波数帯域のゲインを操作することが一般的に行なわれている。その際、特定の周波数帯域のゲインを増幅させることにより、等価器から出力される信号、すなわちゲイン操作された音楽信号の振幅が記録レンジを超えてしまい、結果として聴感上、不快なクリップ歪みが生じることがある。
【0003】
このようなクリップ歪みを低減させる技術として、プリゲイン制御処理とオートゲイン制御処理が知られている。
【0004】
プリゲイン制御処理では、予めクリップされるゲイン量が想定され、そのゲイン量に基づいて音楽信号が減衰されてから、音楽信号の等価器への入力が行なわれる。このとき、音楽信号の減衰量は、ユーザが手動で減衰つまみを操作することで決定される。
【0005】
また、オートゲイン制御処理では、等価器による音楽信号のゲイン操作でクリップが生じないように、等価器への入力直前、または等価器からの出力直後に、適応的に音楽信号のゲイン制御が行なわれる。すなわち、クリップ歪みが発生する区間では、信号の振幅が記録レンジを超えないように、音楽信号に対して強制的に信号波形の変形が行なわれる。
【0006】
例えば、図1の上側に示すように、矢印Q11に示す波形の音楽信号が等価器11に入力されて、特定周波数帯域のゲイン調整が行なわれ、矢印Q12に示す波形の音楽信号が出力として得られたとする。矢印Q12に示す波形では、振幅が増幅され過ぎたため波形の一部、すなわち点線で示される部分がクリップされて波形に歪みが生じている。このようなクリップ歪みが生じると、音楽信号の再生時に音がつぶれてしまい、音質が劣化してしまうことになる。
【0007】
そこで、プリゲイン制御処理やオートゲイン制御処理を行なう装置では、図中、下側に示すように等価器11の前段に減衰回路12が設けられ、矢印Q21に示す波形の処理対象となる音楽信号が減衰回路12に入力される。減衰回路12で音楽信号に対する減衰処理が行なわれると、矢印Q22に示すようにゲインが減衰された波形の音楽信号が得られ、この音楽信号が等価器11に供給されてゲイン調整が行なわれる。
【0008】
そして等価器11による音楽信号のゲイン調整により、矢印Q23に示す波形の音楽信号が出力として得られる。このようにして得られる音楽信号のゲインは、等価器11によりゲインが過剰に増幅されてしまう分だけ、予め減衰回路12で減衰されているので、クリップ歪みの発生を抑制することができる。
【0009】
また、クリップ歪みを低減させる技術として、異なる周波数帯域のピーキングフィルタを直列に接続するものもある(例えば、特許文献1参照)。この技術では、より後段においてより高い周波数のピーキングフィルタにより信号に対するフィルタ処理が行なわれるので、信号のクリップにより発生した歪みの高調波成分が後段のフィルタで増長されにくくなっている。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開平8−23250号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかしながら、上述した技術では、音楽信号のゲイン増幅を行う場合に生じる音質の劣化を充分に抑制することが困難であった。
【0012】
例えば、プリゲイン制御処理では、ユーザが減衰つまみを感覚的に操作してゲインの減衰量を調整する必要があるため、最適な減衰量を指定することが困難であり、最適な減衰量も楽曲ごとに異なるので操作が煩わしく、不便であった。ユーザにより指定される減衰量が適切でないと、音楽信号にクリップ歪みが生じたり、音楽信号の振幅が小さくなり過ぎたりしてしまうことになる。
【0013】
また、オートゲイン制御処理では、音楽信号の振幅変化によりゲインの減衰量が自動的に調整されるので、ユーザがいちいち適切な減衰量を指定する必要はないが、クリップが生じる区間では強制的にゲインの減衰、つまり信号波形の変形が行なわれてしまう。そのため、信号波形の変形が行なわれた区間と、行なわれていない区間とが生じて音楽信号に不自然なゲイン変動が発生することになり、再生される音楽信号は聴感上、不安定なものとなってユーザに不快感を与えてしまう。
【0014】
本技術は、このような状況に鑑みてなされたものであり、音声信号のゲイン増幅を行なう場合に、音質の劣化を抑制することができるようにするものである。
【課題を解決するための手段】
【0015】
本技術の一側面の音声処理装置は、イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出部と、前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出部と、前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出部と、前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰部と、前記ゲイン設定値に基づいて、前記入力ゲイン減衰部により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理部と、前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正部とを備える。
【0016】
音声処理装置には、予め用意された音声信号の周波数のエネルギ分布に基づいて、前記重み係数を算出する係数算出部をさらに設けることができる。
【0017】
前記係数算出部には、各前記周波数帯域について、前記予め用意された音声信号の前記周波数帯域のゲインを所定の値だけ増幅させた場合に変化する前記予め用意された音声信号のエネルギ変化量を求めさせ、各前記周波数帯域の前記エネルギ変化量の和と、特定周波数帯域の前記エネルギ変化量の比に基づいて、前記特定周波数帯域の前記重み係数を算出させることができる。
【0018】
前記推定ゲイン増幅量算出部には、前記重み係数が乗算された前記ゲイン設定値の和を前記推定ゲイン増幅量として算出させることができる。
【0019】
前記ゲイン補正量算出部には、前記入力減衰量と前記推定ゲイン増幅量との差分を求めることで前記ゲイン補正量を算出させることができる。
【0020】
前記ゲイン補正部には、前記音声信号のゲインが増幅されるように、前記ゲイン補正量に基づいて前記音声信号に対する非線形増幅処理を行なわせることができる。
【0021】
前記ゲイン補正部には、前記ゲイン補正量のうちの所定量だけ前記音声信号のゲインが増幅されるように、前記音声信号に対する線形増幅処理を行なった後、前記ゲイン補正量から前記所定量だけ減算した量だけ、前記線形増幅処理後の前記音声信号のゲインが増幅されるように、前記音声信号に対する前記非線形増幅処理を行なわせることができる。
【0022】
本技術の一側面の音声処理方法またはプログラムは、イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出ステップと、前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出ステップと、前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出ステップと、前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰ステップと、前記ゲイン設定値に基づいて、前記入力ゲイン減衰ステップの処理により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理ステップと、前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正ステップとを含む。
【0023】
本技術の一側面においては、イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量が算出され、前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量が算出され、前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量が算出され、前記入力減衰量に基づいて前記音声信号が減衰され、前記ゲイン設定値に基づいて、減衰された前記音声信号に対する前記イコライザ処理が行なわれて、前記音声信号の各前記周波数帯域のゲインが調整され、前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインが補正される。
【発明の効果】
【0024】
本技術の一側面によれば、音質の劣化を抑制することができる。
【図面の簡単な説明】
【0025】
【図1】従来のイコライザ処理について説明する図である。
【図2】本技術を適用したイコライザ処理について説明する図である。
【図3】入力減衰量の算出について説明する図である。
【図4】周波数帯域ごとの重み係数の算出について説明する図である。
【図5】本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
【図6】音声処理について説明するフローチャートである。
【図7】コンピュータの構成例を示す図である。
【発明を実施するための形態】
【0026】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0027】
〈第1の実施の形態〉
[本技術の概要]
まず、本技術の概要について説明する。本技術は、音楽信号等の音声信号に対して等価器によるイコライザ処理を行なう際に、イコライザ処理の前後において適切に音声信号のゲイン調整を行なうことで、クリップ歪み等による音質の劣化を抑制するものである。なお、以下、処理対象となる音声信号は、楽曲の信号、つまり音楽信号であるものとし、処理対象の音楽信号を入力信号と称する。また、入力信号に対してイコライザ処理等が施され、最終的に得られた音声信号を出力信号と称することとする。
【0028】
本技術を適用した音声処理装置では、図2に示すように、入力信号が入力されると、入力信号に対する減衰処理が行なわれ、減衰処理された入力信号に対してイコライザ処理が施される。そして、イコライザ処理された入力信号に対して、ゲイン補正処理が行われて出力信号が生成される。
【0029】
なお、図2において横方向は入力信号に対して行なわれる各処理の順序を示しており、縦方向は入力信号の振幅の大きさを示している。また、矢印U11乃至矢印U14のそれぞれは、入力信号の振幅、減衰処理された入力信号の振幅、イコライザ処理された入力信号の振幅、およびゲイン補正処理後の入力信号、つまり出力信号の振幅を示している。
【0030】
図2の例では、まず矢印U11に示す振幅の入力信号に対して、入力減衰量G_ATNに基づいて減衰処理が行なわれ、矢印U12に示す振幅の入力信号が得られる。
【0031】
ここで、入力減衰量G_ATNは、入力信号に対するイコライザ処理により増幅される、入力信号の大まかなゲイン量を示している。
【0032】
例えば、入力信号に対するイコライザ処理では、周波数帯域ごとにユーザにより指定されたゲイン設定値に基づいて、入力信号の各周波数帯域の成分に対するゲイン調整が行なわれる。所定の周波数帯域F(但し、1≦k≦N)のゲイン設定値は、入力信号の周波数帯域Fの成分のゲインの増幅量を示す値であり、イコライザ処理では、入力信号の各周波数帯域の成分のゲインが、それらの周波数帯域のゲイン設定値の分だけ増幅される。
【0033】
入力減衰量G_ATNは、ユーザにより指定された各周波数帯域のゲイン設定値に基づいて算出され、より詳細には、イコライザ処理による入力信号の各周波数帯域成分のゲイン増幅量の推定値のうちの最大値を示している。
【0034】
また、減衰処理後、矢印U12に示す振幅の入力信号に対して、ユーザにより設定されたゲイン設定値に基づいてイコライザ処理が施されると、矢印U13に示す振幅の入力信号が得られる。この入力信号の振幅(ゲイン)は、イコライザ処理前の入力信号と比べて、矢印U13に示す振幅と矢印U12に示す振幅の差の分だけ増幅されている。
【0035】
音声処理装置では、イコライザ処理で増幅されるゲイン量の推定値、すなわち入力信号全体のエネルギの増幅量の推定値である推定ゲイン増幅量G_ESTが、周波数帯域Fごとの重み係数CRkとゲイン設定値EQとに基づいて、イコライザ処理前に予め算出される。
【0036】
ここで、各周波数帯域Fの重み係数CRkは、例えば一般的な音楽信号(以下、モデル音楽信号とも称する)の各周波数のエネルギ分布の統計量から推定により算出されるものである。この重み係数CRkの値は、ゲイン設定値EQによるゲイン調整がモデル音楽信号全体のエネルギの増幅に対して大きく寄与するほど、大きくなる。
【0037】
音声処理装置では、このようにして算出された推定ゲイン増幅量G_ESTと入力減衰量G_ATNの絶対値の差分が、イコライザ処理された入力信号に対して行なわれるゲイン補正処理時のゲイン補正量G_CMPとして求められる。そして、ゲイン補正量G_CMPに基づいて、イコライザ処理後の矢印U13に示す振幅の入力信号に対してゲイン補正処理が行なわれ、矢印U14に示す振幅の出力信号が生成される。
【0038】
ゲイン補正量G_CMPは、入力減衰量G_ATNと推定ゲイン増幅量G_ESTの差分であるから、ゲイン補正処理では入力信号の振幅(ゲイン)が、音声処理装置に入力された入力信号の振幅とほぼ同じになるように増幅されることになる。図2においても、矢印U14に示される出力信号の振幅は、矢印U11に示される入力信号の振幅と同じ大きさとなっており、入力信号とほぼ同じゲインの出力信号が得られることが分かる。
【0039】
以上のように、音声処理装置では、クリップ歪みの発生を抑制するために、入力信号に対する減衰処理が行なわれ、その結果得られた信号に対してイコライザ処理が行なわれる。そして、イコライザ処理により得られた信号に対してゲイン補正処理が行なわれ、出力信号とされる。
【0040】
これにより、イコライザ処理によるゲイン増幅特性を反映しながら、ゲイン増幅にともない発生するクリップ歪みを抑制することができ、歪み感のない音声の再生が可能となる。また、一般的な音声信号の各周波数のエネルギの分布に基づいて固定的に重み係数CRkを求め、その重み係数CRkが用いられて算出されたゲイン補正量G_CMPによりゲイン補正を行なうことで、従来のオートゲイン制御処理で生じるような不快な音圧の変動が発生しないようにすることができ、音質を向上させることができる。
【0041】
[入力減衰量の算出について]
次に、以上において説明した、出力信号を生成する音声処理で用いられる入力減衰量G_ATNと推定ゲイン増幅量G_ESTの具体的な算出方法の一例について説明する。
【0042】
まず、入力減衰量G_ATNの算出では、例えば図3に示すように、ユーザにより指定された各周波数帯域Fのゲイン設定値EQに基づいて、それらの周波数帯域Fのゲイン特性が求められる。なお、図3において、図中、横方向は周波数を示しており、縦方向は各周波数のゲインを示している。特に、図中、横方向に並ぶ文字f乃至fは、周波数帯域F乃至Fの中心の周波数を示している。
【0043】
図3の例では、曲線L11乃至曲線L14は、周波数帯域F乃至周波数帯域Fのゲイン特性を示している。
【0044】
具体的には、例えば周波数帯域Fのゲイン特性を示す曲線L11は、周波数帯域Fのゲイン設定値EQに基づいて周波数fのゲインを増幅させたときに生じる、各周波数のゲインの増幅量を示している。ここで、例えば周波数帯域Fのゲイン設定値EQが、周波数帯域Fの中心の周波数fのゲインを増幅させる量であるとすると、曲線L11の周波数fにおける値は、ゲイン設定値EQとなる。
【0045】
曲線L11は、周波数帯域Fに隣接する周波数帯域Fの周波数の位置においても正の値を有しており、各周波数帯域のゲイン設定値によるゲイン増幅は、他の周波数帯域のゲインにも影響を与えることが分かる。
【0046】
いま、周波数帯域F(但し、1≦m≦N)のゲイン設定値による周波数fのゲイン増幅により、周波数帯域F(但し、1≦k≦N)の中心の周波数fが影響を受けて増幅されるゲインの量をゲイン増幅量Gkmと呼ぶこととする。ゲイン増幅量Gkmは、周波数帯域Fのゲイン設定値EQから求めることができる。
【0047】
この場合、周波数帯域ごとに指定されたゲイン設定値に基づいてイコライザ処理を行なって、各周波数帯域のゲインを増幅させると、周波数fのゲインは各ゲイン増幅量Gkmの総和、つまりゲイン増幅量Gk1乃至GkNの和の分だけ増幅することになる。以下、ゲイン増幅量Gkmの総和により求められる周波数fのゲインの増幅量を、ゲイン増幅量G(k)とも称することとする。
【0048】
図3では、各矢印G(1)乃至G(4)が、周波数f乃至f(周波数帯域F乃至F)のゲイン増幅量G(1)乃至G(4)を表している。例えば、周波数fに注目すると、ゲイン増幅量G(2)に対する寄与率は、周波数fのゲイン増幅量G22が最も高くなっていることが分かる。また、周波数fを含む周波数帯域Fに隣接する周波数帯域Fおよび周波数帯域Fによるゲイン増幅量G21およびゲイン増幅量G23のゲイン増幅量G(2)への寄与率も他の周波数帯域のゲイン増幅量と比べて高いことが分かる。
【0049】
このようにして、各周波数帯域Fについてゲイン増幅量G(k)が算出されると、これらのゲイン増幅量G(k)に基づいて次式(1)が計算され、入力減衰量G_ATNが算出される。
【0050】
G_ATN=−MAX(ΣGkm) ・・・(1)
【0051】
なお、式(1)においてΣGkmは、ゲイン増幅量Gkm(但し、1≦m≦N)の総和を示している。つまり、ΣGkmはゲイン増幅量G(k)を示している。また、式(1)において、MAX(ΣGkm)は、ゲイン増幅量G(k)(但し、1≦k≦N)のうちの最大値を出力する関数を示している。したがって、入力減衰量G_ATNは、各周波数帯域のゲイン増幅量G(k)のうちの最大値に「−1」を乗算することにより求められる。
【0052】
以上のように、ゲイン設定値に基づいてイコライザ処理を行なったときに増幅する各周波数帯域のゲインの増幅量が推定により求められ、それらのゲイン増幅量の推定値の最大値の符号を反転させて得られる値が入力減衰量G_ATNとされる。なお、入力減衰量G_ATNは、イコライザ処理により増幅される入力信号全体のエネルギ(ゲイン)量の大まかな推定値が得られる方法であれば、上述した例に限らず、どのような方法で算出されてもよい。
【0053】
[推定ゲイン増幅量の算出について]
また、推定ゲイン増幅量G_ESTは、上述したように周波数帯域Fの重み係数CRkとゲイン設定値EQとから算出される。具体的には、推定ゲイン増幅量G_ESTは次式(2)に示すように、重み係数CRkが乗算された各ゲイン設定値EQの和を求めることにより算出される。
【0054】
G_EST=(CR×EQ)+(CR×EQ)+・・・+(CR×EQ) ・・・(2)
【0055】
推定ゲイン増幅量G_ESTの算出に用いられる重み係数CRk(但し、1≦k≦N)は、音声信号(モデル音楽信号)の周波数帯域Fのゲインを1dBだけ増幅させたときに変化する、音声信号全体のエネルギの量、つまり音声信号全体のゲイン増幅量を示している。
【0056】
したがって、重み係数CRkが乗算されたゲイン設定値EQは、ゲイン設定値EQにより周波数帯域Fのゲインを増幅させたときに生じる音声信号全体のゲイン増幅量となる。推定ゲイン増幅量G_ESTは、周波数帯域ごとに求めた、周波数帯域のゲイン調整により生じる音声信号全体のゲイン増幅量の総和であるから、イコライザ処理により増幅される音声信号全体のゲインの増幅量の推定値ということができる。
【0057】
なお、各周波数帯域Fの重み係数CRkは、上述したように、例えばモデル音楽信号の各周波数のエネルギ分布の統計量から推定により算出される。
【0058】
具体的には、例えば図4の左側に示すエネルギ分布のモデル音楽信号が予め用意されているとする。なお、図4において、横軸は周波数を示しており、縦軸は振幅(エネルギ)を示している。
【0059】
図4において曲線MD11は、モデル音楽信号の各周波数の振幅を示している。この曲線MD11から、モデル音楽信号、つまり一般的な音楽信号には、低い周波数の成分がより多く含まれ、高い周波数の成分はあまり含まれていないことが分かる。したがって、同じゲイン設定値で各周波数のゲインを増幅させても、モデル音楽信号全体のエネルギの増幅に対する寄与率は、高い周波数よりも低い周波数のほうが高いことが分かる。そこで、本技術では、モデル音楽信号全体のエネルギの増幅に対する寄与率がより高い周波数帯域Fの重みがより大きくなるように、重み係数CRkが算出される。
【0060】
例えば、まず矢印C1乃至矢印CNに示すように、モデル音楽信号の周波数帯域F乃至Fのゲインを+AdBだけ増幅させた場合を考え、そのときのモデル音楽信号全体のエネルギの増幅量であるエネルギ変化量Gk(但し、1≦k≦N)が算出される。
【0061】
すなわち、エネルギ変化量Gkは、モデル音楽信号の周波数帯域Fのゲインを+AdBだけ増幅させた場合におけるモデル音楽信号全体のエネルギの変化量を示している。なお、ここでいうモデル音楽信号全体のエネルギとは、例えばモデル音楽信号の各サンプルのサンプル値の二乗平均平方根(RMS(Root Mean Square))などである。
【0062】
また、矢印CAに示すように、モデル音楽信号の各周波数帯域F乃至Fのゲインをそれぞれ+AdBだけ増幅させた場合を考え、そのときのモデル音楽信号全体のエネルギ変化量GAが算出される。
【0063】
このようにしてエネルギ変化量Gkとエネルギ変化量GAが得られると、次式(3)の計算が行なわれ、周波数帯域Fの重み係数CRkが算出される。
【0064】
CRk=GA×(Gk/SUM(G1:GN))/A ・・・(3)
【0065】
なお、式(3)において、Aは各周波数帯域のゲインの増幅量を示しており、SUM(G1:GN)は、エネルギ変化量G1乃至エネルギ変化量GNの総和を示している。
【0066】
したがって、周波数帯域Fの重み係数CRkは、エネルギ変化量Gkを各周波数帯域のエネルギ変化量の総和で除算したものにエネルギ変化量GAを乗算し、さらにその結果得られた値を増幅量Aで除算することで得られる。
【0067】
このように、モデル音楽信号の各周波数のエネルギ分布に基づいて、周波数帯域ごとの重み係数CRkを求めることで、イコライザ処理による処理対象の信号全体のゲイン増幅量をより高精度に予測することができる。
【0068】
[音声処理装置の構成例]
次に、以上において説明した処理を行なう音声処理装置の具体的な実施の形態について説明する。図5は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
【0069】
図5の音声処理装置41は、係数算出部51、ゲイン設定値保持部52、入力減衰量算出回路53、推定ゲイン増幅量算出回路54、ゲイン補正量算出回路55、入力ゲイン減衰回路56、等価器57、およびゲイン補正回路58から構成される。
【0070】
係数算出部51は、予め記録しているモデル音楽信号に基づいて、各周波数帯域の重み係数CRkを算出し、推定ゲイン増幅量算出回路54に供給する。ゲイン設定値保持部52は、ユーザの入力操作に応じて供給されたゲイン設定値を一時的に保持するとともに、ゲイン設定値を入力減衰量算出回路53、推定ゲイン増幅量算出回路54、および等価器57に供給する。
【0071】
入力減衰量算出回路53は、ゲイン設定値保持部52から供給されたゲイン設定値に基づいて入力減衰量G_ATNを算出し、ゲイン補正量算出回路55、および入力ゲイン減衰回路56に供給する。推定ゲイン増幅量算出回路54は、係数算出部51からの重み係数と、ゲイン設定値保持部52からのゲイン設定値とに基づいて推定ゲイン増幅量G_ESTを算出し、ゲイン補正量算出回路55に供給する。
【0072】
ゲイン補正量算出回路55は、推定ゲイン増幅量算出回路54からの推定ゲイン増幅量と、入力減衰量算出回路53からの入力減衰量とに基づいてゲイン補正量G_CMPを算出し、ゲイン補正回路58に供給する。
【0073】
入力ゲイン減衰回路56は、入力減衰量算出回路53から供給された入力減衰量に基づいて、供給された入力信号のゲインを減衰させ、等価器57に供給する。等価器57は、ゲイン設定値保持部52から供給されたゲイン設定値に基づいて、入力ゲイン減衰回路56からの入力信号に対してイコライザ処理を施し、ゲイン補正回路58に供給する。
【0074】
ゲイン補正回路58は、ゲイン補正量算出回路55から供給されたゲイン補正量に基づいて、等価器57から供給された入力信号に対するゲイン補正を行い、その結果得られた出力信号を出力する。ゲイン補正回路58は、線形増幅回路71と非線形増幅回路72を備えている。
【0075】
線形増幅回路71は、等価器57から供給された入力信号に対して線形増幅処理を施し、非線形増幅回路72に供給する。非線形増幅回路72は、線形増幅回路71から供給された入力信号に対して非線形増幅処理を施し、その結果得られた出力信号を出力する。
【0076】
[音声処理の説明]
このような音声処理装置41に処理対象となる入力信号が供給され、入力信号に対するゲイン調整が指示されると、音声処理装置41は音声処理を行って、入力信号を出力信号に変換し、出力する。以下、図6のフローチャートを参照して、音声処理装置41による音声処理について説明する。
【0077】
ステップS11において、係数算出部51は、予め記録しているモデル音楽信号に基づいて上述した式(3)の計算を行い、各周波数帯域の重み係数CRkを算出するとともに、得られた重み係数を推定ゲイン増幅量算出回路54に供給する。
【0078】
なお、重み係数が予め算出されて係数算出部51に記録されておくようにしてもよい。そのような場合、係数算出部51は、記録している重み係数を読み出して、推定ゲイン増幅量算出回路54に供給する。
【0079】
ステップS12において、入力減衰量算出回路53は、ゲイン設定値保持部52から供給されたゲイン設定値に基づいて上述した式(1)を計算することで入力減衰量G_ATNを算出し、ゲイン補正量算出回路55、および入力ゲイン減衰回路56に供給する。
【0080】
ステップS13において、推定ゲイン増幅量算出回路54は、係数算出部51からの重み係数CRkと、ゲイン設定値保持部52からのゲイン設定値EQとに基づいて上述した式(2)を計算し、推定ゲイン増幅量G_ESTを算出する。推定ゲイン増幅量算出回路54は、算出した推定ゲイン増幅量をゲイン補正量算出回路55に供給する。
【0081】
ステップS14において、ゲイン補正量算出回路55は、推定ゲイン増幅量算出回路54からの推定ゲイン増幅量と、入力減衰量算出回路53からの入力減衰量との差分を求めることでゲイン補正量G_CMPを算出し、ゲイン補正回路58に供給する。より詳細には、推定ゲイン増幅量の絶対値と入力減衰量の絶対値との差分がゲイン補正量とされる。
【0082】
以上の処理により、ユーザが指定したゲイン設定値に対して、適切な入力減衰量G_ATN、推定ゲイン増幅量G_EST、およびゲイン補正量G_CMPが算出される。
【0083】
ステップS15において、音声処理装置41は、処理を終了するか否かを判定する。例えば、供給された入力信号の全てのサンプルについてイコライザ処理を行い、出力信号の全てのサンプルが生成された場合、処理を終了すると判定される。すなわち、入力信号の全サンプルに対する処理が行われた場合、処理を終了すると判定される。
【0084】
ステップS15において、まだ処理を終了しないと判定された場合、ステップS16において、音声処理装置41は、ユーザによりゲイン設定値が変更されたか否かを判定する。例えば、ゲイン設定値保持部52に新たなゲイン設定値が供給された場合、ゲイン設定値が変更されたと判定される。
【0085】
ステップS16において、ゲイン設定値が変更されたと判定された場合、処理はステップS11に戻り、上述した処理が繰り返される。すなわち、新たに指定されたゲイン設定値に対して、適切な入力減衰量、推定ゲイン増幅量、およびゲイン補正量が算出される。
【0086】
これに対して、ステップS16において、ゲイン設定値が変更されていないと判定された場合、処理はステップS17に進む。
【0087】
ステップS17において、入力ゲイン減衰回路56は、入力減衰量算出回路53から供給された入力減衰量G_ATNだけ、供給された入力信号のゲインを減衰させ、等価器57に供給する。
【0088】
ステップS18において、等価器57は、ゲイン設定値保持部52から供給されたゲイン設定値に基づいて、入力ゲイン減衰回路56からの入力信号に対するイコライザ処理を行ない、イコライザ処理された入力信号を線形増幅回路71に供給する。イコライザ処理では、入力信号の各周波数帯域のゲインが、ゲイン設定値の分だけ増幅される。
【0089】
ステップS19において、線形増幅回路71は、等価器57から供給された入力信号に対して線形増幅処理を施し、非線形増幅回路72に供給する。
【0090】
例えばゲイン補正回路58は、ゲイン補正量算出回路55から供給されたゲイン補正量G_CMPを、所定の割合で線形増幅回路71と非線形増幅回路72に分配する。線形増幅回路71は、ゲイン補正量G_CMPのうちの線形増幅回路71に対して分配された分だけ、等価器57からの入力信号のゲインが増幅されるように、入力信号の振幅を線形に増幅させ、非線形増幅回路72に供給する。すなわち、入力信号に対する線形振幅変換が行なわれる。
【0091】
ステップS20において、非線形増幅回路72は、線形増幅回路71から供給された入力信号に対して非線形増幅処理を施し、その結果得られた出力信号を出力する。
【0092】
具体的には、非線形増幅回路72は、ゲイン補正量G_CMPのうちの非線形増幅回路72に対して分配された分だけ、線形増幅回路71からの入力信号のゲインが増幅されるように、入力信号の振幅を非線形に増幅させ、出力信号とする。すなわち、入力信号に対する非線形振幅変換が行なわれる。ここで例えば、ゲイン補正量G_CMPのうちの線形増幅処理に分配された補正量がαであるとすると、ゲイン補正量G_CMPから補正量αが減算されて得られる値が、非線形増幅処理に分配された補正量となる。
【0093】
入力信号に対する非線形増幅処理が行なわれると、その結果得られた出力信号は、入力信号に近い振幅まで増幅された信号となり、クリップ歪みの発生が抑制される。
【0094】
なお、入力信号に対する非線形増幅処理での増幅特性は、出力信号のクリップ歪みが生じにくくなるような増幅特性とされる。例えば、入力信号に対して実際にイコライザ処理を施したときの入力信号のゲイン増幅量が、推定ゲイン増幅量G_ESTよりも大きくなる場合には、入力信号に対して線形ゲイン増幅処理のみを行なってゲイン補正量だけゲインを増幅させると、出力信号にクリップ歪みが生じてしまう。しかしながら、線形増幅処理後、入力信号に対して非線形増幅処理を行なって3次高調波を発生させれば、クリップ歪みが低減された出力信号を得ることができる。
【0095】
このように、入力信号に対して線形増幅処理を行なってから非線形増幅処理を行い、合計してゲイン補正量G_CMPだけ入力信号のゲインが増幅されるようにすることで、出力信号の波形の歪みを抑制し、高音質な音声を得ることができる。
【0096】
なお、ここでは入力信号に対して、線形増幅処理と非線形増幅処理の両方の処理が施されると説明したが、何れか一方の処理のみが入力信号に対して行なわれるようにしてもよい。また、線形増幅処理と非線形増幅処理に対するゲイン補正量G_CMPの分配は、予め定められた比で行なわれるようにしてもよいし、入力信号の特性等に基づいてゲイン補正量の分配比が定められるようにしてもよい。
【0097】
ステップS20において出力信号が生成されると、処理はステップS15に戻り、上述した処理が繰り返される。すなわち、入力信号の未処理のサンプルに対する処理が行われ、出力信号が生成される。
【0098】
また、入力信号の全てのサンプルに対する処理が行なわれ、ステップS15において処理を終了すると判定された場合、音声処理は終了する。
【0099】
以上のように、音声処理装置41は、予め用意されたモデル音楽信号と、ユーザにより指定されたゲイン設定値とから、入力減衰量G_ATNやゲイン補正量G_CMPを算出する。そして、音声処理装置41は、入力信号を入力減衰量だけ減衰させてからイコライザ処理を行い、その結果得られた信号に対して線形増幅処理と非線形増幅処理を行なうことで、ゲイン補正量だけ信号のゲインを増幅させて出力信号とする。
【0100】
このように入力減衰量だけ減衰させてからイコライザ処理を行い、イコライザ処理後にゲイン補正量だけ入力信号を増幅させることで、クリップ歪みの発生を防止するとともに、入力信号に近い振幅の出力信号を得ることができ、音質の劣化を抑制することができる。
【0101】
特に、音声処理装置41では、推定ゲイン増幅量G_ESTはゲイン設定値により一意に求められ、ユーザによりゲイン設定値が変更されない限り、1つの楽曲を通して同じ入力減衰量G_ATNとゲイン補正量G_CMPが固定的に用いられる。換言すれば、音声処理装置41では、従来のオートゲイン制御処理のように、入力信号の振幅の変動に依存した強制的な振幅補正は行なわれない。したがって、出力信号に不自然な振幅変動が生じることがなく、ユーザに聴感上の不快感を与えてしまうこともない。
【0102】
なお、重み係数の算出に用いるモデル音楽信号の各周波数のエネルギ分布は、複数の楽曲の音楽信号に基づいて求められてもよい。そのような場合、例えば、それらの音楽信号の各周波数のエネルギの代表値が求められ、得られた各周波数の代表値の分布がモデル音楽信号の各周波数のエネルギ分布とされる。
【0103】
また、各楽曲について、楽曲の音楽信号の周波数のエネルギ分布を求め、そのようにして得られたエネルギ分布を、その楽曲の音楽信号を入力信号とする場合における、モデル音楽信号の周波数のエネルギ分布として用いるようにしてもよい。この場合、処理対象となる入力信号自体のエネルギ分布を用いるので、上述した代表値を求める場合と比べて、より適正な推定ゲイン増幅量G_ESTを得ることができるようになる。これにより、後段のゲイン補正処理において、推定ゲイン増幅量G_ESTの不足による出力ゲインの低下や、非線形増幅処理による出力信号の波形の変形を低減することができ、音質を向上させることができる。
【0104】
さらに、単一の楽曲内でも、音楽信号の振幅が大きくクリップが生じ易い区間がある場合には、そのような区間を抽出し、抽出した区間の信号の各周波数のエネルギ分布を、その楽曲の音楽信号を入力信号とする場合における、モデル音楽信号の周波数のエネルギ分布として用いるようにしてもよい。この場合、単一の楽曲全体の信号を用いる場合と比べて、クリップ歪みが発生する可能性が高い区間に対して、より適正な推定ゲイン増幅量を求めることができるようになる。
【0105】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0106】
図7は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0107】
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
【0108】
バス204には、さらに、入出力インターフェース205が接続されている。入出力インターフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記録部208、ネットワークインターフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
【0109】
以上のように構成されるコンピュータでは、CPU201が、例えば、記録部208に記録されているプログラムを、入出力インターフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
【0110】
コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【0111】
そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インターフェース205を介して、記録部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記録部208にインストールすることができる。その他、プログラムは、ROM202や記録部208に、あらかじめインストールしておくことができる。
【0112】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0113】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0114】
さらに、本技術は、以下の構成とすることも可能である。
【0115】
[1]
イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出部と、
前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出部と、
前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出部と、
前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰部と、
前記ゲイン設定値に基づいて、前記入力ゲイン減衰部により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理部と、
前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正部と
を備える音声処理装置。
[2]
予め用意された音声信号の周波数のエネルギ分布に基づいて、前記重み係数を算出する係数算出部をさらに備える
[1]に記載の音声処理装置。
[3]
前記係数算出部は、各前記周波数帯域について、前記予め用意された音声信号の前記周波数帯域のゲインを所定の値だけ増幅させた場合に変化する前記予め用意された音声信号のエネルギ変化量を求め、各前記周波数帯域の前記エネルギ変化量の和と、特定周波数帯域の前記エネルギ変化量の比に基づいて、前記特定周波数帯域の前記重み係数を算出する
[2]に記載の音声処理装置。
[4]
前記推定ゲイン増幅量算出部は、前記重み係数が乗算された前記ゲイン設定値の和を前記推定ゲイン増幅量として算出する
[1]乃至[3]の何れかに記載の音声処理装置。
[5]
前記ゲイン補正量算出部は、前記入力減衰量と前記推定ゲイン増幅量との差分を求めることで前記ゲイン補正量を算出する
[1]乃至[4]の何れかに記載の音声処理装置。
[6]
前記ゲイン補正部は、前記音声信号のゲインが増幅されるように、前記ゲイン補正量に基づいて前記音声信号に対する非線形増幅処理を行なう
[1]乃至[5]の何れかに記載の音声処理装置。
[7]
前記ゲイン補正部は、前記ゲイン補正量のうちの所定量だけ前記音声信号のゲインが増幅されるように、前記音声信号に対する線形増幅処理を行なった後、前記ゲイン補正量から前記所定量だけ減算した量だけ、前記線形増幅処理後の前記音声信号のゲインが増幅されるように、前記音声信号に対する前記非線形増幅処理を行なう
[6]に記載の音声処理装置。
【符号の説明】
【0116】
41 音声処理装置, 51 係数算出部, 53 入力減衰量算出回路, 54 推定ゲイン増幅量算出回路, 55 ゲイン補正量算出回路, 56 入力ゲイン減衰回路, 57 等価器, 71 線形増幅回路, 72 非線形増幅回路

【特許請求の範囲】
【請求項1】
イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出部と、
前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出部と、
前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出部と、
前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰部と、
前記ゲイン設定値に基づいて、前記入力ゲイン減衰部により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理部と、
前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正部と
を備える音声処理装置。
【請求項2】
予め用意された音声信号の周波数のエネルギ分布に基づいて、前記重み係数を算出する係数算出部をさらに備える
請求項1に記載の音声処理装置。
【請求項3】
前記係数算出部は、各前記周波数帯域について、前記予め用意された音声信号の前記周波数帯域のゲインを所定の値だけ増幅させた場合に変化する前記予め用意された音声信号のエネルギ変化量を求め、各前記周波数帯域の前記エネルギ変化量の和と、特定周波数帯域の前記エネルギ変化量の比に基づいて、前記特定周波数帯域の前記重み係数を算出する
請求項2に記載の音声処理装置。
【請求項4】
前記推定ゲイン増幅量算出部は、前記重み係数が乗算された前記ゲイン設定値の和を前記推定ゲイン増幅量として算出する
請求項3に記載の音声処理装置。
【請求項5】
前記ゲイン補正量算出部は、前記入力減衰量と前記推定ゲイン増幅量との差分を求めることで前記ゲイン補正量を算出する
請求項4に記載の音声処理装置。
【請求項6】
前記ゲイン補正部は、前記音声信号のゲインが増幅されるように、前記ゲイン補正量に基づいて前記音声信号に対する非線形増幅処理を行なう
請求項5に記載の音声処理装置。
【請求項7】
前記ゲイン補正部は、前記ゲイン補正量のうちの所定量だけ前記音声信号のゲインが増幅されるように、前記音声信号に対する線形増幅処理を行なった後、前記ゲイン補正量から前記所定量だけ減算した量だけ、前記線形増幅処理後の前記音声信号のゲインが増幅されるように、前記音声信号に対する前記非線形増幅処理を行なう
請求項6に記載の音声処理装置。
【請求項8】
イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出ステップと、
前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出ステップと、
前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出ステップと、
前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰ステップと、
前記ゲイン設定値に基づいて、前記入力ゲイン減衰ステップの処理により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理ステップと、
前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正ステップと
を含む音声処理方法。
【請求項9】
イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出ステップと、
前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出ステップと、
前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出ステップと、
前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰ステップと、
前記ゲイン設定値に基づいて、前記入力ゲイン減衰ステップの処理により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理ステップと、
前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正ステップと
を含む処理をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−65952(P2013−65952A)
【公開日】平成25年4月11日(2013.4.11)
【国際特許分類】
【出願番号】特願2011−202168(P2011−202168)
【出願日】平成23年9月15日(2011.9.15)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】