説明

音声強調装置

【課題】音声強調装置において、音声品質を落とさずに音声品質良い状態のまま音声の強調を行う音声強調装置を実現する。
【解決手段】周波数毎の受話音声の成分と周囲騒音の成分比を算出するSNR算出手段と、SNR算出手段の算出結果と帯域分割情報を用い受話音声の主観的な了解性の向上に寄与する帯域の強調量を算出する第1の帯域の強調量算出手段と、第1の帯域の強調量算出手段の算出結果を用い主観的な明るさの向上に寄与する帯域の強調量を算出する第2の帯域の強調量算出手段と、第1の帯域の強調量産出手段と第2の帯域の強調量産出手段の強調量算出結果及び帯域分割情報を用いて音声スペクトルを強調加工する音声スペクトル加工手段を含む構成を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声伝送システムにおいて、周囲騒音が大きい環境で会話する場合に、受話音が聞き取りにくくなることを防ぐために、利用者が受話音声を聞き取りやすくなるように受話音声を強調する、音声信号の強調方式および装置に関する。
【背景技術】
【0002】
既存の音声の強調処理としては、音声信号の特徴を用い母音の識別特性に影響する受話音声のスペクトルの複数のピークであるフォルマントを周囲騒音の大きさに応じて強調する技術(例えば、特許文献1参照)や、受話音声と周囲騒音のSNRに応じて受話音声を強調する技術(例えば、特許文献2参照)が知られている。
【特許文献1】特許第4018571号
【特許文献2】特開2000−349893号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記背景技術(特許文献1又は特許文献2)で受話音声を強調した場合、低域と高域の大きさのバランスがくずれ、強調後の音声に籠もり感が発生(低域が大きすぎる)したり、キンキン感が発生(高域が大きすぎる)し、音声品質を落とさずに音声の強調が行えず、十分に音声が聞き取りやすくならない。
【課題を解決するための手段】
【0004】
周波数毎の受話音声の成分(Signal)と周囲騒音の成分(Noise)比を算出するSNR算出手段と、SNR算出手段の算出結果と予め求めておいた受話音声の主観的な了解性の向上に寄与する帯域及び受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を用い受話音声の主観的な了解性の向上に寄与する帯域の強調量を算出する第1の帯域の強調量算出手段と、第1の帯域の強調量算出手段の算出結果を用い受話音声の主観的な明るさの向上に寄与する帯域の強調量を算出する第2の帯域の強調量算出手段と、第1の帯域の強調量産出手段と第2の帯域の強調量産出手段の強調量算出結果及び予め求めておいた受話音声の主観的な了解性の向上に寄与する帯域及び受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を用いて音声スペクトルを強調加工する音声スペクトル加工手段を含む構成を備える。
【0005】
本構成により、SNR算出手段によって音声と周囲騒音によって聞こえにくくなった度合いを算出し、第1の帯域の強調量算出手段によって音声の主観的な了解性を十分に向上させるための第1の帯域の強調量を算出し、第2の帯域の強調量算出手段によって第1の帯域を強調した際に、音声の明るさが十分に保たれるように第2の帯域の強調量を算出し、スペクトル加工手段によって第1の帯域の強調量と第2の帯域の強調量から、各周波数帯域に強調処理を施して強調音声のスペクトルを算出する。
【発明の効果】
【0006】
本発明によれば、周囲騒音の影響で受話音が聞こえにくくなった際に、音声の主観的な了解性と明るさの両方で十分な品質を持つ強調音声を生成できる。
これにより、従来技術の課題であった強調による籠もり感(強調の結果、受話音声の主観的な了解性の向上に寄与する帯域の強調の大きさに対して受話音声の主観的な明るさの向上に寄与する帯域の強調の大きさが小さすぎるために、強調音声の明るさが不足する)や、キンキン感(強調の結果、受話音声の主観的な了解性の向上に寄与する帯域の強調の大きさ大きさに対して受話音声の主観的な明るさの向上に寄与する帯域の強調の大きさが大きすぎるために、強調音声の明るさが過剰となる)を解決して聞こえやすい強調音声を生成できる。
【発明を実施するための最良の形態】
【0007】
以下図を参照して実施形態の詳細について説明する。
[実施例1]
図1は、本発明の実施例の構成を示す説明図であり、1および2は周波数分析手段、3はSNR算出手段、4は第1の帯域の強調量算出手段、5は第2の帯域の強調量算出手段、6は音声スペクトル加工手段、7は合成手段を示している。
【0008】
以下図1の構成について音声信号の処理順に沿って説明する。各構成の詳細動作については後述する。
【0009】
まず、周波数分析手段1は、周囲騒音を入力し、周囲騒音のスペクトルを出力する。
【0010】
また、周波数分析手段2は、受話音声を入力し、受話音声のスペクトルを出力する。
【0011】
SNR算出手段3は、周波数分析手段1及び2から受話音声のスペクトルと周囲騒音のスペクトルを入力し、SNRを算出し出力する。
【0012】
第1の帯域の強調量算出手段4は、SNR算出手段から出力されたSNRと予め求めておいた受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、受話音声の主観的な了解性の向上に寄与する帯域についての強調量を算出し第1の帯域の強調量として出力する。
【0013】
第2の帯域の強調量算出手段5は、第1の帯域の強調量を入力し、受話音声の主観的な明るさの向上に寄与する帯域についての強調量を算出し第2の帯域の強調量として出力する。
【0014】
音声スペクトル加工手段6は、受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報と第1の帯域の強調量と第2の帯域の強調量を入力し、強調音声のスペクトルを出力する。
【0015】
合成手段7は、音声スペクトル加工手段6から出力された強調音声のスペクトルを入力し、強調音声を出力する。
【0016】
以上のような処理の流れによって、受話音声の強調処理が施される。
【0017】
各構成要素の処理の詳細を以下に説明する。
【0018】
[周波数分析手段1及び2]は、入力される信号である周囲騒音又は受話音声に対して、フーリエ変換などの時間周波数変換処理によって周囲騒音又は音声のスペクトルの算出を行う。
【0019】
[SNR算出手段3]は、入力された周囲騒音のスペクトル(周囲騒音の成分(Noise))及び音声のスペクトル(周波数毎の受話音声の成分(Signal))とから下記の式でSNRを算出する。
【0020】
SNR(i)=S(i)−N(i)
i: 周波数のインデックス(周波数のインデックスとは、時間周波数変換を行った 際の帯域の番号を示す)
SNR(i): i番目の周波数のSNR(dB)
S(i): i番目の周波数の受話音声成分の大きさ(dB)
N (i): i番目の周波数の周囲騒音成分の大きさ(dB)

尚、SNR算出の際に、周波数によって主観的な大きさが変る効果を導入した上で算出しても良い。
【0021】
具体的には、算出したSNRに対して周波数による主観的な大きさの係数をかけて補正する。周波数による主観的な大きさの係数は、音の大きさの等感曲線などの既知の情報を用いて算出する。
【0022】
[第1の帯域の強調量算出手段4]は、SNR算出手段から出力されたSNRと予め求めておいた受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、以下の処理により第1の帯域の強調量を算出する。
【0023】
(1)第1の帯域の平均SNRを算出する。
【0024】
【数1】

【0025】
LSNR: 第1の帯域の平均SNR(dB)
i:周波数のインデックス
SNR(i): i番目の周波数のSNR(dB)
ls:第1の帯域の下限周波数のインデックス
le:第1の帯域の上限周波数のインデックス

ls、leは帯域分割情報(低域と高域の境界周波数のインデックスIb)と入力信号の帯域
幅を用いて下記の通りに算出する。
【0026】
ls =入力信号の帯域幅下限周波数のインデックス
le = Ib

(2)第1の帯域の平均SNRを強調量テーブルに当てはめて第1の帯域の強調量を算出。
【0027】
第1の帯域の強調量を算出するテーブルを図6に示す。
【0028】
LE: 第1の帯域の強調量(dB)
LSNR: 第1の帯域の平均SNR (dB)
LE MAX: 第1の帯域の強調量の上限(dB)
LE MIN: 第1の帯域の強調量の下限(dB)
LSNR MAX: 第1の帯域の強調量を上限とする第1の帯域の平均SNR (dB)
LSNR MIN: 第1の帯域の強調量を下限とする第1の帯域の平均SNR (dB)
テーブルの各パラメータの取りうる値の範囲は以下の通り。
【0029】
LE MAX: 0〜50dB(dB)、第1の帯域の平均SNRが一定以下の場合に、最大限以上の 強調を行わないように設けた上限値。
【0030】
LE MIN: 0〜10dB(dB)、第1の帯域の平均SNRが一定以上の場合に、最小限以下の 強調を行わないように設けた下限値。
【0031】
但し、LE MIN < LE MAXとなるように設定する。
【0032】
LSNR MAX: 0〜50dB(dB)、第1の帯域の音声が近端騒音に対して大きく、第1の帯 域の強調量を最小限に設定して良いと考えられる第1の帯域の平均SNR。
【0033】
LSNR MIN: -50〜50dB(dB)、第1の帯域の音声が近端騒音に対して小さく、第1の 帯域の強調量を最大限に設定して良いと考えられる第1の帯域の平均SNR。
【0034】
但し、LSNR MIN < LSNR MAXとなるように設定する。
【0035】

[第2の帯域の強調量算出手段5]は、第1の帯域の強調量を入力し、図7に示すテー ブルを用いて以下の通り第2の帯域の強調量を算出する。
【0036】
【数2】

【0037】
HE: 第2の帯域の強調量(dB)
LE: 第1の帯域の強調量(dB)
HE MAX: 第2の帯域の強調量の上限(dB)
HE MIN: 第2の帯域の強調量の下限(dB)
LE MAX: 第2の帯域の強調量を上限とする第1の帯域の強調量(dB)
LE MIN: 第2の帯域の強調量を下限とする第1の帯域の強調量(dB)

テーブルの各パラメータの取りうる値の範囲は以下の通り。
【0038】
LE MAX: 0〜50dB(dB)、第1の帯域の平均SNRが一定以下の場合に、最大限以上の 強調を行わないように設けた上限値。
【0039】
LE MIN: 0〜10dB(dB)、第1の帯域の平均SNRが一定以上の場合に、最小限以下の 強調を行わないように設けた下限値。
【0040】
但し、LE MIN< LE MAXとなるように設定する。(以上は図12と同様)
HE MAX: 0〜50dB(dB)、第2の帯域の強調量を、第1の帯域の強調量に基づいて定め
る際の上限値。第1の帯域の強調量が一定以上の場合に、第2の帯域の強調量が上限以
上とならないように設けた上限値。
【0041】
HE MIN: 0〜50dB(dB)、第2の帯域の強調量を、第1の帯域の強調量に基づいて定め
る際の下限値。第1の帯域の強調量が一定以下の場合に、第2の帯域の強調量が下限以
下とならないように設けた上限値。
【0042】
但し、HE MIN < HE MAXとなるように設定する。
【0043】
[音声スペクトル加工手段6]は、周波数分析手段2から出力された音声スペクトルと 、第1の帯域の強調量,第2の帯域の強調量及び帯域分割情報を入力し、以下の処理 により音声スペクトルの強調量を算出し、強調処理を行う。
【0044】
まず、音声スペクトル加工手段が行う、各周波数の強調量算出の実施例を説明する。
【0045】
(1)[音声スペクトル加工手段が行う各周波数の強調量算出の具体例1]
各周波数の強調量を図9に示すテーブルで算出する。
【0046】
【数3】

【0047】
EMP(i): 各周波数の強調量(dB)
i:周波数のインデックス
LE: 第1の帯域の強調量 (dB)
HE: 第2の帯域の強調量 (dB)
l1s: 第1の帯域の下限インデックス
l1e: 第1の帯域の上限インデックス
h1s: 第2の帯域の下限インデックス
h1e: 第2の帯域の上限インデックス

l1s、l1e 、h1s、h1eは帯域分割情報(第1の帯域と第2の帯域の境界周波数のインデッ クスIb)と入力信号の帯域幅を用いて下記の通りに算出する。
【0048】
l1s =入力信号の帯域幅下限周波数のインデックス
l1e = Ib
h1s = Ib
h1e =入力信号の帯域幅上限周波数のインデックス
ψ、ζ:正の数(1〜0.5×ind max)
ind max: 周波数のインデックスの最大値

ψ、ζは、周波数の境界で強調量に不連続が起こらないように設けた帯域の幅を決め るための数値である。
【0049】
(2)[音声スペクトル加工手段が行う各周波数の強調量算出の具体例2]
各周波数の強調量を算出するためのテーブルを図10に示す。
【0050】
【数4】

【0051】
EMP(i): 各周波数の強調量(dB)
i:周波数のインデックス
LE: 第1の帯域の強調量 (dB)
HE: 第2の帯域の強調量 (dB)
EMP MAX:強調量上限 (dB)
l2s: 第1の帯域の周波数の下限インデックス
l2e: 第1の帯域の周波数の上限インデックス
h2s: 第2の帯域の周波数の下限インデックス h2s=l2e
h2e: 第2の帯域の周波数の上限インデックス

h2s、h2e、l2s、l2eは帯域分割情報(第1の帯域と第2の帯域の境界周波数のインデッ
クスIb)と入力信号の帯域幅を用いて下記の通りに算出する。
【0052】
l2s =入力信号の帯域幅下限周波数のインデックス
h2e = Ib
l2s = Ib
h2e =入力信号の帯域幅上限周波数のインデックス

次に、音声スペクトル加工手段が行う各周波数のスペクトルの加工の実施例を示す。
【0053】
[音声スペクトル加工手段が行う各周波数のスペクトルの加工の具体例]
まず、音声スペクトル加工手段は、各周波数の強調量EMP(i)を用いて、各周波数のス
ペクトルに適用する係数emp coef(i)を算出する。
【0054】
【数5】

【0055】
次に、emp coef(i)を各周波数のスペクトルの実部と虚部に各周波数のスペクトルの
倍率emp coef(i)をかけることで、スペクトルを加工する。
【0056】
【数6】

【0057】
EMP(i): 各周波数の強調量(dB)
i:周波数のインデックス
SPE re(i): 各周波数のスペクトルの実部
SPE im (i): 各周波数のスペクトルの虚部
ESPE re(i): 各周波数のスペクトルの実部
ESPE im (i): 各周波数の強調したスペクトルの虚部
emp coef (i): 各周波数のスペクトルの倍率

[合成手段7]は音声スペクトル加工手段6から出力された強調音声のスペクトルを入 力し、強調音声のスペクトルをフーリエ逆変換などの周波数時間変換処理によって時間 領域に変換することによって強調音声を生成し出力する。

以上各構成要素の処理により本実施例で周囲騒音の影響で受話音が聞こえにくくなった際に、音声の主観的な了解性と主観的な明るさの両方で十分な品質を持つ強調音声を生成することが可能となります。

[実施例2]
図2は、本発明の実施例2の構成を示す説明図であり、(実施例1同一の構成には同一符号を付与)1および2は周波数分析手段、3はSNR算出手段、4は第1の帯域の強調量算出手段、5’は第2の帯域の強調量算出手段、6は音声スペクトル加工手段、7は合成手段、8は音声の明るさ算出主段を示している。
【0058】
以下図2の構成について音声信号の処理順に沿って説明する。各構成の詳細動作については後述する。
【0059】
まず、周波数分析手段1は、周囲騒音を入力し、周囲騒音のスペクトルを出力する。
【0060】
また、周波数分析手段2は、受話音声を入力し、受話音声のスペクトルを出力する。
【0061】
音声の明るさ算出手段8は、周波数分析手段2から出力された受話音声のスペクトルと受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、音声の明るさを示す情報を出力する。
【0062】
SNR算出手段3は、周波数分析手段1及び2から受話音声のスペクトルと周囲騒音のスペクトルを入力し、SNRを算出し出力する。
【0063】
第1の帯域の強調量算出手段4は、SNR算出手段から出力されたSNRと予め求めておいた受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、受話音声の主観的な了解性の向上に寄与する帯域についての強調量を算出し第1の帯域の強調量として出力する。
【0064】
第2の帯域の強調量算出手段5’は、第1の帯域の強調量と音声の明るさ算出手段8から出力された音声の明るさを示す情報を入力し、受話音声の主観的な明るさの向上に寄与する帯域についての強調量を算出し第2の帯域の強調量として出力する。
【0065】
音声スペクトル加工手段6は、受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報と第1の帯域の強調量と第2の帯域の強調量を入力し、強調音声のスペクトルを出力する。
【0066】
合成手段7は、音声スペクトル加工手段6から出力された強調音声のスペクトルを入力し、強調音声を出力する。
【0067】
以上のような処理の流れによって、受話音声の強調処理が施される。
【0068】
各構成要素の処理で実施例1と異なる構成についての詳細を以下に説明する。

[音声の明るさ算出手段8]は、受話音声のスペクトルと受話音声の主観的な了解性の 向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割 情報を入力し、以下の処理により音声の明るさを示す情報を生成し出力する。
【0069】
【数7】

【0070】
C: 音声の明るさ(dB)
H: 受話音声の第1の帯域のパワー (dB)
L: 受話音声の第2の帯域のパワー(dB)
i:周波数のインデックス
S(i): i番目の周波数の受話音声成分の大きさ(dB)
l3s: 第1の帯域の下限周波数のインデックス
l3e: 第1の帯域の上限周波数のインデックス
h3s: 第2の帯域の下限周波数のインデックス
h3e: 第2の帯域の上限周波数のインデックス

h3s、h3e、l3s、l3eは帯域分割情報(低域と高域の境界周波数のインデックスIb)と入
力信号の帯域幅を用いて下記の通りに算出する。
【0071】
h3s =入力信号の帯域幅下限周波数のインデックス
h3e = Ib
l3s = Ib -1
l3e =入力信号の帯域幅上限周波数のインデックス

尚、明るさ算出の際に、周波数によって主観的な大きさが変る効果を導入した上で算 出しても良い。
【0072】
具体的には、H,Lを算出する際に、S(i)に対して周波数による主観的な大きさの係数 をかけて補正する。周波数による主観的な大きさの係数は、音の大きさの等感曲線など
の既知の情報を用いて算出する。

[第2の帯域の強調量算出手段5’]は、第1の帯域の強調量及び音声の明るさを示す 情報を入力し、図7に示すテーブルを用いて以下の通り第2の帯域の強調量を算出す
る。
【0073】
実施例1における第2の帯域の強調量算出手段の実施例と同様に第2の帯域の強調量HE を算出する。
【0074】
算出したHEを図8に示すテーブルを用いて修正する。
【0075】
【数8】

【0076】
HE'=HE*
算出したHE'を改めて第2の帯域の強調量HEとする。
【0077】
HE: 第2の帯域の強調量(dB)
HE’: 音声の明るさを用いて修正した第2の帯域の強調量(dB)
COEF: 第2の帯域の強調量を修正するための係数
COEF MAX: 第2の帯域の強調量を修正するための係数の上限
COEF MIN: 第2の帯域の強調量を修正するための係数の下限
C MAX: 第2の帯域の強調量を修正するための係数を下限とする音声の明るさ(dB)
C MIN: 第2の帯域の強調量を修正するための係数を上限とする音声の明るさ(dB)

テーブルの各パラメータの取りうる値の範囲を以下に示す。
【0078】
COEF MAX: 0〜1、音声の明るさが一定以上の場合に、第2の帯域の強調量HEを補正
するための係数が、上限以上とならないように設けた上限値。
【0079】
COEF MIN: 0〜1、音声の明るさが一定以下の場合に、第2の帯域の強調量HEを補正
するための係数が、下限以下とならないように設けた下限値。
【0080】
但し、COEF MIN < COEF MAXとなるように設定する。
【0081】
C MAX: -50〜50(dB) 、第2の帯域の強調量の補正係数を、音声の明るさに基づいて 定める際の、音声の明るさの上限値。
【0082】
C MIN: -90〜0(dB) 、第2の帯域の強調量の補正係数を、音声の明るさに基づいて 定める際の、音声の明るさの下限値。
【0083】
但し、C MIN < C MAXとなるように設定する。

本実施例2では、実施例1に対して音声の明るさ算出手段を追加し、音声の明るさを算出することで、第2の帯域の強調量算出手段5’で音声の明るさを加えて第2の帯域の強調量を算出できるため、音声の明るさが大きく第2の帯域の強調量を大きくするとキンキン感が起こりやすくなる際には第2の帯域の強調量を小さく調節し、逆に音声の明るさが小さく第2の帯域の強調量を小さくすると籠もり感が起こりやすくなる際には第2の帯域の強調量を大きく調節することで、籠もり感やキンキン感をさらに起こりにくくすることができる。

[実施例3]
図3は、本発明の実施例3の構成を示す説明図であり、(実施例1及び実施例と2同一の構成には同一符号を付与)1は周波数分析手段、9は音声スペクトル推定手段、10は騒音スペクトル推定手段、11はNNR算出手段、3はSNR算出手段、4は第1の帯域の強調量算出手段、5は第2の帯域の強調量算出手段、6'は音声スペクトル加工手段、7は合成手段を示している。
【0084】
以下図の構成について音声信号の処理順に沿って処理内容を説明する。各構成の詳細動作については後述する。
【0085】
まず、周波数分析手段1は、周囲騒音を入力し、周囲騒音のスペクトルを出力する。
【0086】
音声スペクトル推定手段9は、受話音声を入力し、受話音声に重畳した背景騒音を除去した受話音声のスペクトル生成し出力する。
【0087】
騒音スペクトル推定手段10は、受話音声を入力し、受話音声に重畳した背景騒音のスペクトルを生成し出力する。
【0088】
NNR算出手段11は、周波数分析手段1から出力された周囲騒音のスペクトルと騒音スペクトル推定手段10から出力された受話音声の背景騒音スペクトルを入力し、周囲騒音と音声の重畳背景騒音の成分比であるNNRを算出し出力する。
【0089】
SNR算出手段3は、周波数分析手段1から出力された周囲騒音のスペクトルと、音声スペクトル推定手段9から出力された背景雑音が除去された音声スペクトルを入力し、SNRを算出し出力する。
【0090】
第1の帯域の強調量算出手段4は、SNR算出手段から出力されたSNRと予め求めておいた受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、受話音声の主観的な了解性の向上に寄与する帯域についての強調量を算出し第1の帯域の強調量として出力する。
【0091】
第2の帯域の強調量算出手段5は、第1の帯域の強調量を入力し、受話音声の主観的な明るさの向上に寄与する帯域についての強調量を算出し第2の帯域の強調量として出力する。
【0092】
音声スペクトル加工手段6は、受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報と第1の帯域の強調量,第2の帯域の強調量、NNR及び音声スペクトルを入力し、強調音声のスペクトルを出力する。
【0093】
合成手段7は、音声スペクトル加工手段6から出力された強調音声のスペクトルを入力し、強調音声を出力する。
【0094】
以上のような処理の流れによって、受話音声の強調処理が施される。
【0095】
各構成要素の処理で実施例1及び実施例2と異なる構成について詳細を以下に説明する。
【0096】

[音声スペクトル推定手段9]及び[騒音スペクトル推定手段10]は受話音声を入力 し、受話音声のスペクトルと受話音声に重畳される背景騒音のスペクトルを算出する。
【0097】
具体的な算出方法として、公知のノイズサプレッション技術(参考資料:特開2005-165021)によって行うことが可能である。
【0098】
処理の一例としては、雑音が重畳された音声信号の入力に対して、分析を行い、スペクトル振幅(=振幅スペクトル)の算出を行い、算出されたスペクトル振幅を用いて雑音が重畳された入力音声信号のうちで雑音を除く成分、すなわち純粋音声信号に対応すべき情報である音声スペクトルを推定する。
【0099】
また、雑音スペクトルも同様に推定する。

[NNR算出手段11]は、周囲騒音のスペクトルと受話音声の背景騒音スペクトルを入 力し、以下の式により周囲騒音と音声の重畳背景騒音の成分比であるNNRを算出し出力
する。
【0100】
NNR(i)= N (i) − N'(i)
i: 周波数のインデックス
NNR (i): i番目の周波数のNNR (dB)
N (i): i番目の周波数のパワースペクトル(dB)
N' (i): i番目の受話音声の背景騒音のパワースペクトル(dB)
ここで、周波数のインデックスとはフーリエ変換でスペクトルを算出した際の帯 域の番号である。

尚、NNRの際に、周波数によって主観的な大きさが変る効果を導入した上で算出して も良い。
【0101】
具体的には、算出したNNR(i)に、周波数による主観的な大きさの係数をかけて補正す る。周波数による主観的な大きさの係数は、音の大きさの等感曲線などの既知の情報を 用いて算出する。

[音声スペクトル加工手段6']は、周波数分析手段2から出力された音声スペクトル と、第1の帯域の強調量,第2の帯域の強調量,NNR及び帯域分割情報を入力し、以下
の処理により音声スペクトルの強調量を算出し、強調処理を行う。
【0102】
音声スペクトル加工手段が行う、各周波数の強調量算出の実施例を説明する。
【0103】
まず、[音声スペクトル加工手段6]と同様に各周波数の強調量EMP(i)を算出する。
【0104】
音声スペクトル加工手段が行う、各周波数の強調量算出の実施例を説明する。
【0105】
次に、各周波数の強調量をNNRを用いて補正する。
【0106】
受話音を強調した結果の周囲騒音と受話音の背景騒音の比率NNRが閾値を下回らない
ように強調量を補正する。
【0107】
MOD EMP(i)=EMP(i) EMP NNR(i)≦TH NNR
MOD EMP(i)= NNR(i)-TH NNR EMP NNR(i)>TH NNR

EMP(i): 各周波数の強調量(dB)
MOD EMP(i): 修正した各周波数の強調量(dB)
NNR(i): 各周波数のNNR(dB)
TH NNR: NNRの下限(dB)

上記式のパラメータの取りうる値の範囲は以下の通り。
【0108】
TH NNR: -50〜50dB(dB)、強調により、受話音声に重畳した騒音が耳障りにならな いように設けたNNRの下限。

次に、音声スペクトル加工手段は、各周波数の強調量MOD EMP(i)を用いて、各周波数
のスペクトルに適用する係数emp coef(i)を算出する。
【0109】
【数9】

【0110】
次に、emp coef(i)を各周波数のスペクトルの実部と虚部に各周波数のスペクトルの
倍率emp coef(i)をかけることで、スペクトルを加工する。
【0111】
【数10】

【0112】
MOD EMP(i): 各周波数の強調量(dB)
i:周波数のインデックス
SPE re(i): 各周波数のスペクトルの実部
SPE im (i): 各周波数のスペクトルの虚部
ESPE re(i): 各周波数のスペクトルの実部
ESPE im (i): 各周波数の強調したスペクトルの虚部
emp coef (i): 各周波数のスペクトルの倍率

本実施例3では、実施例1に対してNNR算出手段を追加し、周囲騒音と音声の重畳背景騒音の成分比であるNNR算出することで、第二の帯域の強調量算出手段5’でNNRを加えて第二の帯域の強調量を算出できるため、強調によって音声の背景騒音が大きくなりすぎないように強調量を制御できる。

[実施例4]
図4は、本発明の実施例4の構成を示す説明図であり、(実施例1乃至実施例3と2同一の構成には同一符号を付与)1は周波数分析手段、9は音声スペクトル推定手段、10は騒音スペクトル推定手段、11はNNR算出手段、8は音声の明るさ算出手段、3はSNR算出手段、4は第1の帯域の強調量算出手段、5'は第2の帯域の強調量算出手段、6'は音声スペクトル加工手段、7は合成手段を示している。
【0113】
以下図の構成について音声信号の処理順に沿って処理内容を説明する。各構成の詳細動作については後述する。
【0114】
まず、周波数分析手段1は、周囲騒音を入力し、周囲騒音のスペクトルを出力する。
【0115】
音声スペクトル推定手段9は、受話音声を入力し、受話音声に重畳した背景騒音を除去した受話音声のスペクトル生成し出力する。
【0116】
騒音スペクトル推定手段10は、受話音声を入力し、受話音声に重畳した背景騒音のスペクトルを生成し出力する。
【0117】
NNR算出手段11は、周波数分析手段1から出力された周囲騒音のスペクトルと騒音スペクトル推定手段10から出力された受話音声の背景騒音スペクトルを入力し、周囲騒音と音声の重畳背景騒音の成分比であるNNRを算出し出力する。
【0118】
音声の明るさ算出手段8は、周波数分析手段2から出力された受話音声のスペクトルと受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、音声の明るさを示す情報を出力する。
【0119】
SNR算出手段3は、周波数分析手段1から出力された周囲騒音のスペクトルと、音声スペクトル推定手段9から出力された背景雑音が除去された音声スペクトルを入力し、SNRを算出し出力する。
【0120】
第1の帯域の強調量算出手段4は、SNR算出手段から出力されたSNRと予め求めておいた受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を入力し、受話音声の主観的な了解性の向上に寄与する帯域についての強調量を算出し第1の帯域の強調量として出力する。
【0121】
第2の帯域の強調量算出手段5'は、第1の帯域の強調量と音声の明るさ情報を入力し、受話音声の主観的な明るさの向上に寄与する帯域についての強調量を算出し第2の帯域の強調量として出力する。
【0122】
音声スペクトル加工手段6'は、受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報と第1の帯域の強調量,第2の帯域の強調量,NNR及び音声スペクトルを入力し、強調音声のスペクトルを出力する。
【0123】
合成手段7は、音声スペクトル加工手段6から出力された強調音声のスペクトルを入力し、強調音声を出力する。
【0124】
以上のような処理の流れによって、受話音声の強調処理が施される。
【0125】
本実施例の構成要件は実施例1に対する実施例2及び実施例3の変更点を合わせた実施例であり、個々の構成の機能については、実施例1乃至実施例3にて説明した通りである。

[実施例5]
本実施例5は、実施例4に対して音声強調装置内にて受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を算出する構成を追加した例である。追加される構成としては、受話音声を入力しピッチ周波数を算出して出力するピッチ周波数算出手段12と、ピッチ周波数と音声の明るさ情報を入力し、受話音声の主観的な了解性の向上に寄与する帯域と受話音声の主観的な明るさの向上に寄与する帯域を示す帯域分割情報を生成する帯域分割情報算出手段13を追加した構成である。
【0126】
音声強調の処理としては、帯域分割情報を構成内部で生成しその帯域分割情報を使用する以外は他の実施例4と同様の処理となる。
【0127】
本実施例5で追加された構成についての詳細を以下に詳細に説明する。
【0128】
[ピッチ周波数算出手段12]では、受話音声を入力し、下記の式に従ってピッチ周波 数が算出される。
【0129】
【数11】

【0130】
pitch= freq/a max

x:入力信号
M:相関係数を算出する区間の長さ(サンプル)
a: 相関係数を算出する信号の開始位置
pitch:ピッチ周波数(Hz)
corr(a):ずらし位置がaの場合の相関係数
a max: 最大相関係数に対応するa
i:信号のインデックス(サンプル)
freq:サンプリング周波数(Hz)

[帯域情報算出手段13]ではピッチ周波数と音声の明るさ情報を入力し、以下の方法 で帯域分割情報を生成する。
【0131】
(1)[帯域情報算出手段13の具体例1]
具体例1では、以下の順で帯域分割情報を算出する。
【0132】
(a)受話音声のピッチ周波数を算出する。
【0133】
(b)帯域分割情報を算出する。
【0134】
算出方法の詳細は以下の通り。
【0135】
第一の帯域と第二の帯域の境界周波数のインデックスIbを下記の式で算出する。Is とpsは予め、基準となる値を設定する。ピッチ周波数が高いほど第二の帯域を強調す るとキンキンしやすくなるため、ピッチ周波数が基準値よりも大きくなるほどIbを大 きくする。これによりピッチ周波数が高いほど高域の下限周波数が大きくなり、強く強 調をかける高域の帯域がせばまるため、強調によるキンキン感を防ぐことができる。
【0136】
Ib=Is+α(p-ps)
Is:低域と高域の境界周波数のインデックスの基準値
Ib:低域と高域の境界周波数のインデックス
p: 受話音声のピッチ周波数
ps: 受話音声のピッチ周波数の基準値(50〜500Hz)
α: 正の数()

パラメータは下記の通りに設定する。
【0137】
ps: 50〜500Hz、平均的な声の高さとする。
【0138】
α: 0〜1、受話音声の平均的な声の高さからのずれによってIbを決める際の、
ピッチ周波数の寄与率。
【0139】

(2)[帯域情報算出手段13の具体例2]
具体例2では、以下の順で帯域分割情報を算出する。
【0140】
(a)受話音声のパワースペクトルの傾きを算出する。
【0141】
(b)帯域分割情報を算出する。
【0142】
算出方法の詳細は以下の通り。
【0143】
低域と高域の境界周波数のインデックスIbを下記の式で算出する。Isとqsは予め、基 準となる値を設定する。受話音声のパワースペクトルの傾きが小さいほど第二の帯域を 強調するとキンキンしやすくなるため、受話音声のパワースペクトルの傾きが基準値よ りも小さくなるほどIbを大きくする。これにより受話音声のパワースペクトルの傾きが 小さいほど第二の帯域の下限周波数が大きくなり、第二の帯域の帯域がせばまるため、 第二の帯域を強調することによるキンキン感を防ぐことが出来る。
【0144】
Ib=Is+β(q-qs)
Is:低域と高域の境界周波数のインデックスの基準値
Ib:低域と高域の境界周波数のインデックス
q: 受話音声のパワースペクトルの傾き
qs: 受話音声のパワースペクトルの傾きの基準値
β: 負の数

パラメータは下記の通りに設定する。
【0145】
qs: 50〜500Hz、平均的な声の高さとする。
【0146】
β: -100〜0、受話音声の平均的なパワースペクトルの傾きからのずれによって Ibを決める際の、受話音声のパワースペクトルの傾きの寄与率。
【0147】

(3)[帯域情報算出手段13の具体例3]
具体例3では、以下の順で帯域分割情報を算出する。
【0148】
(a)受話音声のピッチ周波数を算出する。
【0149】
(b)受話音声のパワースペクトルの傾きを算出する。
【0150】
(c)帯域分割情報を算出する。
【0151】
算出方法の詳細は以下の通り。
【0152】
低域と高域の境界周波数のインデックスIbを下記の式で算出する。Isとpsとqsは予
め、基準となる値を設定する。受話音声のピッチ周波数が高いほど、受話音声のパワー スペクトルの傾きが小さいほど第二の帯域を強調するとキンキンしやすくなるため、受 話音声のピッチ周波数基準値よりも高くなるほど、受話音声のパワースペクトルの傾き が基準値よりも小さくなるほどIbを大きくする。これにより受話音声のピッチ周波数が 高いほど、受話音声のパワースペクトルの傾きが小さいほど第二の帯域の下限周波数が 大きくなり、第二の帯域がせばまるため、第二の帯域の強調によるキンキン感を防ぐこ とができる。
Ib=Is+α(p-ps) +β(q-qs)。
【0153】
Is:低域と高域の境界周波数のインデックスの基準値
Ib:低域と高域の境界周波数のインデックス
p: 受話音声のピッチ周波数
ps: 受話音声のピッチ周波数の基準値
α: 正の数
q: 受話音声のパワースペクトルの傾き
qs: 受話音声のパワースペクトルの傾きの基準値
β: 負の数

パラメータの値は、本実施例の具体例1乃至3と同様とする。
【0154】
上記帯域情報算出手段13の具体例1乃至3で用いた「パワースペクトルの傾き」は、下記の通りに算出される。
【0155】
(1) スペクトルから下記の式でパワースペクトルを算出する。
【0156】
PSP(i)=10log10(SP re(i) *SP re(i)+ SP im(i) *SP im(i))
PSP(i): パワースペクトル
i:周波数のインデックス
SP re(i): スペクトルの実部
SP im(i): スペクトルの虚部
(2)パワースペクトルの傾きを算出する。
【0157】
各周波数インデックス毎のパワースペクトルを(i, PSP(i))で表わし、最小二乗法で
一次関数を当てはめた際の傾きとして算出する。

上記実施例5で説明した構成要件の追加については、一例として実施例4に追加する形で説明したが、実施例1乃至実施例3の何れに追加しても同様に受話音声から帯域分割情報を生成することが可能である。
【0158】
以上の通り、実施例5では実施例1乃至実施例4の効果に加え、受話音声から帯域分割情報算出手段によって帯域分割情報を算出することで、音声によって第一の帯域と第二の帯域を制御できるため、音声に応じた適切な音声強調制御が可能となる。
【0159】
尚、上記実施例1乃至実施例4にて用いた帯域分割情報は、受話音声の主観的な了解性の向上に寄与する帯域及び受話音声の主観的な明るさの向上に寄与する帯域として、統計的に求めることが可能であり、求められた結果を帯域分割情報として使用することも可能である。
【0160】
また、第1帯域の強調手段及び第2帯域の強調手段として、予め帯域分割情報により指定される帯域のみを強調するように設定も可能であり、その場合は帯域分割情報の入力経路は不要となり、上記実施例1乃至実施例4と同様の効果となる。
【図面の簡単な説明】
【0161】
【図1】本発明の実施例1の説明図。
【図2】本発明の実施例2の説明図。
【図3】本発明の実施例3の説明図。
【図4】本発明の実施例4の説明図。
【図5】本発明の実施例5の説明図。
【図6】第1の帯域の強調量算出テーブル
【図7】第2の帯域の強調量算出テーブル
【図8】第2の帯域の強調量の修正用テーブル
【図9】各周波数の強調量算出用テーブルの実施例1
【図10】各周波数の強調量算出用テーブルの実施例2
【符号の説明】
【0162】
1 周波数分析手段
2 周波数分析手段
3 SNR算出手段
4 第1の帯域の強調量算出手段
5,5’ 第2の帯域の強調量算出手段
6,6’ 音声スペクトル加工手段
7 合成手段
8 音声の明るさ算出主段
9 音声スペクトル推定手段
10 騒音スペクトル推定手段
11 NNR算出手段
12 ピッチ周波数算出手段
13 帯域分割情報算出手段




【特許請求の範囲】
【請求項1】
受話音声と周囲騒音の成分比であるSNRを算出するSNR算出手段と、
予め求められた受話音声の主観的な了解性の向上に寄与する帯域と主観的な明るさの向上に寄与する帯域を示す帯域分割情報と前記SNR算出手段で算出されたSNRから、受話音声の主観的な了解性の向上に寄与する帯域の強調量を算出する第1帯域の強調量算出手段と、
前記第1帯域の強調量算出手段にて算出した第1帯域の強調量から、主観的な明るさの向上に寄与する帯域の強調量を算出する第2帯域の強調量算出手段と、
前記第1帯域の強調量算出結果及び第2の帯域の強調量算出結果と予め求められた受話音声の主観的な了解性の向上に寄与する帯域と主観的な明るさの向上に寄与する帯域を示す帯域分割情報とを用い、受信音声のスペクトルを加工するスペクトル加工手段を備え、
ることを特徴とする音声強調装置。
【請求項2】
受話音声と周囲騒音の成分比であるSNRを算出するSNR算出手段と、
受話音声のピッチ周波数と音声のパワースペクトルの傾きの少なくとも一つから音声の明るさを算出する音声の明るさ算出手段と、
予め求められた受話音声の主観的な了解性の向上に寄与する帯域と主観的な明るさの向上に寄与する帯域を示す帯域分割情報と前記SNR算出手段で算出されたSNRから受話音声が周囲騒音にマスクされた際の受話音声の主観的な了解性の向上に寄与する帯域の強調量を算出する第1帯域の強調量算出手段と、
前記第1帯域の強調量算出手段にて算出した第1帯域の強調量と前記音声の明るさ算出手段にて算出された音声の明るさから、主観的な明るさの向上に寄与する帯域の強調量を算出する第2帯域の強調量算出手段と、
前記第1帯域の強調量算出結果及び第2の帯域の強調量算出結果を用い、受信音声のスペクトルを加工するスペクトル加工手段を備え、
ることを特徴とする音声強調装置。
【請求項3】
音声と周囲騒音の成分比であるSNRを算出するSNR算出手段と、
前記周囲騒音と音声の重畳背景騒音の成分比であるNNRを算出するNNR算出手段と、
予め求められた受話音声の主観的な了解性の向上に寄与する帯域と主観的な明るさの向上に寄与する帯域を示す帯域分割情報と前記SNR算出手段で算出されたSNRから受話音声が周囲騒音にマスクされた際の受話音声の主観的な了解性の向上に寄与する帯域の強調量を算出する第1帯域の強調量算出手段と、
前記第1帯域の強調量算出手段にて算出した第1帯域の強調量とNNR算出手段にて算出されたNNRから、主観的な明るさの向上に寄与する帯域の強調量を算出する第2帯域の強調量算出手段と、
前記第1帯域の強調量算出結果及び第2の帯域の強調量算出結果を用い、受信音声のスペクトルを加工するスペクトル加工手段を備え、
ることを特徴とする音声強調装置。
【請求項4】
音声と周囲騒音の成分比であるSNRを算出するSNR算出手段と、
音声のピッチ周波数と音声のパワースペクトルの傾きの少なくとも一つから音声の明るさを算出する音声の明るさ算出手段と、
前記周囲騒音と音声の重畳背景騒音の成分比であるNNRを算出するNNR算出手段と、
前記SNR算出手段で算出されたSNRから受話音声が周囲騒音にマスクされた際の受話音声の主観的な了解性の向上に寄与する帯域の強調量を算出する第1帯域の強調量算出手段と、
前記第1帯域の強調量算出手段にて算出した第1帯域の強調量と前記NNR算出手段にて算出されたNNRと前記音声の明るさ算出手段にて算出された音声の明るさから、主観的な明るさの向上に寄与する帯域の強調量を算出する第2帯域の強調量算出手段と、
前記第1帯域の強調量算出結果及び第2の帯域の強調量算出結果を用い、受信音声のスペクトルを加工するスペクトル加工手段を備え、
ることを特徴とする音声強調装置。
【請求項5】
音声のピッチ周波数と音声の高域寄与度の少なくとも一つから、受話音声が周囲騒音にマスクされた際の受話音声の主観的な了解性の向上に寄与する帯域と主観的な明るさの向上に寄与する帯域の帯域分割情報を算出する帯域分割情報算出手段を備えることを特徴とする請求項1乃至4記載の音声強調装置。
【請求項6】
前記、受話音声のピッチ周波数と音声のパワースペクトルの傾きの少なくとも一つから音声の明るさを算出する音声の明るさ算出手段は、周波数による主観的な音の大きさが変る効果を考慮して算出することを特徴とする、請求項2乃至4乃至5記載の音声強調装置。
【請求項7】
前記周囲騒音と音声の重畳背景騒音の成分比であるNNRを算出するNNR算出手段は、周波数による主観的な音の大きさが変る効果を考慮して算出することを特徴とする、請求項3乃至6記載の音声強調装置。
【請求項8】
前記、受話音声と周囲騒音の成分比であるSNRを算出するSNR算出手段は、周波数による主観的な音の大きさが変る効果を考慮して算出することを特徴とする、請求項1乃至7記載の音声強調装置。
【請求項9】
前記、受話音声と周囲騒音の成分比であるSNRを算出するSNR算出手段は、周波数による主観的な音の大きさが変る効果を考慮して算出することを特徴とする、請求項1乃至7記載の音声強調装置。
【請求項10】
前記、受話音声の主観的な了解性の向上に寄与する帯域は、上限周波数が3000Hz以下であることを特徴とする、請求項1乃至9記載の音声強調装置。
【請求項11】
前記、受話音声の主観的な明るさの向上に寄与する帯域は、下限周波数が500Hz以上であることを特徴とする、請求項1乃至10記載の音声強調装置。
【請求項12】
受話音声と周囲騒音の成分比であるSNRを算出するSNR算出手段と、
前記SNR算出手段で算出されたSNRから、受話音声の主観的な了解性の向上に寄与する帯域の強調量を算出する第1帯域の強調量算出手段と、
前記第1帯域の強調量算出手段にて算出した第1帯域の強調量から、主観的な明るさの向上に寄与する帯域の強調量を算出する第2帯域の強調量算出手段と、
前記第1帯域の強調量算出結果及び第2の帯域の強調量算出結果を用い、受信音声のスペクトルを加工するスペクトル加工手段を備え、
ることを特徴とする音声強調装置。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate