説明

音声強調装置とその方法とプログラム

【課題】音量と声質を変化させることなく音声信号の音声の明瞭度を向上させることができる音声強調装置とその方法とプログラムを提供する。
【解決手段】音声分析部は、音声信号を入力として、当該音声信号をpサンプル間隔で分析を行い、上記pサンプルごとの基本周波数f(i)と、非周期性指標A(i,f)と、スペクトルパワーP(i,f)を出力する。そして、非周期性指標変換部は、所定の周波数範囲の非周期性指標の値A(i,f)を、周波数の増加に対して小さくなる変換後非周期性指標A′(i,f)と当該変換後非周期性指標A′(i,f)の最小の変換後非周期性指標A′(i,f)とに変換して出力する。音声合成部は、基本周波数f(i)とスペクトルパワーP(i,f)と変換後非周期性指標A′(i,f)とを用いて音声合成音を合成する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、周囲に背景雑音がある環境において、音声を聞き取り易くする音声強調装置とその方法とプログラムに関する。
【背景技術】
【0002】
近年、音声通信端末、音声合成技術などの開発・普及により、様々な場所で音声を聴取する機会が増えた。このような音声聴取は静かな場所だけではなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境で聴取する場合が多い。このため、周囲の雑音によって音声が聞き取り難くなる問題がある。
【0003】
雑音環境下での音声を聞き取り易くするために、最も簡単な方法は、雑音に応じて音量を大きくする方法である。しかし、音量を大きくし過ぎると、スピーカへの入力が過大となり、音声が歪んでしまい、かえって音質が劣化する場合がある。そこで、周波数スペクトルの特定の帯域のみを強調して音声を聞き易くする方法が従来より検討されている。
【0004】
その方法の一つとして、音声の周波数スペクトルのピーク部分であるフォルマント(formant)を強調することで、音声の明瞭度を改善する考えが知られている(特許文献1)。図12に、特許文献1に開示された考えを示す。図12は、音声強調前後の音声のパワーと周波数との関係を示す図である。
【0005】
音声の音韻性は、このフォルマントの位置によって特徴付けられることが分かっており、このフォルマント部分のみを強調することで、音量を過大に上げることなく、音声の明瞭度を改善することができる(図12(b)の強調後の特性を参照)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第4219898号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
音声のスペクトルパワー(周波数スペクトルの密度分布)は聴覚的に話者を判別するための声質と密接な関係があることが知られている。しかし、従来の方法では、フォルマントが存在する帯域のみを強調することにより、スペクトルパワーが変化してしまい、声質が変化してしまう課題がある。
【0008】
この発明は、このような課題に鑑みてなされたものであり、音量及び声質を変化させずに音声の明瞭度を向上させる音声強調装置と、その方法とプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
この発明の音声強調装置は、音声分析部と、非周期性指標変換部と、音声合成部と、を具備する。音声分析部は、音声信号s(t)を入力として、当該音声信号をpサンプル間隔で分析を行い、pサンプルごとの基本周波数f(i)と、非周期性指標A(i,f)と、スペクトルパワーP(i,f)を出力する。非周期性指標変換部は、所定の周波数範囲F〜Fの非周期性指標の値A(i,f)を、周波数の増加に対して小さくなる変換後非周期性指標A′(i,f)と、当該所定の周波数Fよりも大きな周波数では上記小さくなる変換後非周期性指標A′(i,f)の最小の変換後非周期性指標A′(i,f)とに変換して出力する。音声合成部は、基本周波数f(i)とスペクトルパワーP(i,f)と変換後非周期性指標A′(i,f)とを入力として音声合成音s′(t)を合成する。
【発明の効果】
【0010】
この発明の音声強調装置は、音声信号の所定の周波数範囲の非周期性指標A(i,f)の値を、周波数の増加に対して減少させた変換後非周期性指標A′(i,f)を用いて音声合成し、スペクトルパワーP(i,f)は変化させないため、音量と声質を変化させることなく音声信号の音声の明瞭度を向上させることができる。
【図面の簡単な説明】
【0011】
【図1】非周期性指標A(i,f)と音声の明瞭度スコアとの関係を示す図。
【図2】この発明の音声強調装置100の機能構成例を示す図。
【図3】音声強調装置100の動作フローを示す図。
【図4】音声波形s(t)の一例を示す図。
【図5】音声波形s(t)の基本周波数の一例を示す図。
【図6】図4に示す音声波形s(t)を分析して求めた基本周波数f(i)を示す図。
【図7】変換関数E(f)の一例を示す図。
【図8】変換関数定義手段21の動作フローを示す図。
【図9】加算手段22の動作フローを示す図。
【図10】図4に示す音声波形s(t)を音声強調装置100で音声強調した音声を、分析した変換後非周期性指標A′(i,f)を示す図。
【図11】図4に示す音声波形s(t)を分析した非周期性指標A(i,f)を示す図。
【図12】特許文献1に開示された音声強調の考えを示す図。
【発明を実施するための形態】
【0012】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには
同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の考えについて説明する。
【0013】
〔この発明の考え方〕
人の声は、声帯の周期的な振動に基づく音と、声帯から口唇、及び鼻孔までの呼気の乱流による周期的な振動を伴わない音との混合音であることが知られている。この人の声を成す2つの音の混合比は、非周期性指標A(i,f)で表すことができる(参考文献:河原英紀、“聴覚の情景分析が生んだ高品質VOCODER:STRAIGHT”日本音響学会誌、54巻、7号、pp.521-526(1998.7))。
【0014】
非周期性指標A(i,f)は、音声を周波数スペクトルの周期的成分(声帯の振動)と非周期的成分(呼気の乱流)の和と見なしたとき、帯域毎の非周期成分の割合を表す特徴量である。音声の明瞭度を向上させる目的で、この非周期性指標A(i,f)に着目して雑音下における音声の聞き易さを評価する実験を行った。雑音環境としては、白色雑音、人ごみの騒音、電車の通過音を、それぞれ別々に用いて評価を行い、それぞれの結果を平均して音声の聞き易さを求めた。
【0015】
図1に、非周期性指標と音声の明瞭度スコアとの関係を示す。横軸は、主観評価で得られた音声の聞こえ易さを5段階のスコアで表す。1は全く聞き取れない。5は全てはっきりと聞き取れる。である。縦軸は、非周期性指標A(i,f)を[dB]で表す。
【0016】
0〜1KHzの範囲の非周期性指標と明瞭度スコアとの相関を示す◆は、両者の間にほとんど相関が無いことを示している。1kHz以上の周波数における非周期性指標と明瞭度スコアとの相関を示す■,▲,×,*は、高い負の相関があることを示している。表1に相関係数を示す。
【0017】
【表1】

【0018】
1〜8kHzの帯域で相関係数が大きい。つまり、周波数帯域が1kHz以上の範囲において、非周期性指標A(i,f)を減少させることで、音声が聞き易くなることが分かる。
【0019】
この発明は、この新しい知見に基づいて音声の明瞭度を向上させる音声強調方法とその装置を実現するものである。
【実施例1】
【0020】
図2に、この発明の音声強調装置100の機能構成例を示す。図3にその動作フローを示す。音声強調装置100は、音声分析部10と、非周期性指標変換部20と、音声合成部30と、を具備する。音声強調装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0021】
音声分析部10は、音声信号s(t)を入力として、当該音声信号s(t)をpサンプル間隔で分析を行い、pサンプルごとの基本周波数f(i)と、非周期性指標A(i,f)と、スペクトルパワーP(i,f)を出力する(ステップS10)。音声分析部10は、基本周波数分析手段11と、非周期性指標分析手段12と、スペクトルパワー分析手段13と、で構成される。図4に、サンプリング周波数16[kHz]でサンプリングした音声信号s(t)の一例を示す。図4の横軸はサンプル時刻t、縦軸は振幅s(t)である。
【0022】
i(i=0,1,…,[(T-1)/p]、Tはサンプル数)は、pサンプル間隔で分析した場合の分析番号(フレーム番号)であり、t=ipである。また、fは(f=0,1,…,N-1)は、0からナイキスト周波数までの周波数帯域をN分割したうちの、(f/N)・(f/2)[Hz]以上、((f+1)/N)・(f/2)[Hz]未満の周波数帯域を表す番号(帯域番号)である。例えば、サンプリング周波数fを16[kHz]としたときのナイキスト周波数8[kHz]を、N=512個の帯域に分割する場合、帯域番号0番の周波数範囲は0〜15.625[Hz]、帯域番号1番は15.626〜31.25[Hz]、帯域番号512番の周波数範囲は7984.375〜8000[Hz]である。
【0023】
基本周波数f(i)は、声の高さを表す特徴量であり、音声波形の周期をτ[秒]としたときに、その逆数1/τ[Hz]が基本周波数となる。図5に、図4に示した音声波形s(t)を時間方向に拡大して見た基本周波数f(i)の一例を示す。図5の横軸は時間[ms]、縦軸は音声振幅である。図6に、図4に示した音声信号s(t)を分析して求めた基本周波数f(i)を示す。図6の横軸はフレーム番号i、縦軸は基本周波数f(i)[Hz]であり、フレーム毎の声の高さを表す。図6に示す基本周波数f(i)は、128[Hz]〜230[Hz]程度に分布している。
【0024】
非周期性指標A(i,f)は、周波数スペクトルを周期成分と非周期成分の和と見なしたとき、帯域毎の非周期成分の割合を表す。スペクトルパワーP(i,f)は、それぞれの帯域の周波数スペクトルの強さを表す。なお、音声分析部10は公知技術で構成できる。
【0025】
非周期性指標変換部20は、所定の周波数範囲F〜Fの非周期性指標の値A(i,f)と、その所定の周波数Fよりも大きな周波数では小さくなる変換後非周期性指標A′(i,f)の最小の変換後非周期性指標A′(i,f)と、を出力する(ステップS20)。ここで最小の変換後非周期性指標A′(i,f)とは、例えば周波数範囲F〜Fにおいて周波数の増加に対して一定の傾きで小さくなる変換後非周期性指標A′(i,f)の最小値のことであり、周波数Fの変換後非周期性指標A′(i,f)の値である。
【0026】
非周期性指標変換部20は、変換係数定義手段21と、加算手段22と、を備える。
【0027】
変換係数定義手段21は、所定の周波数範囲F〜Fの(N・F/f/2)以上、(N・F/f/2)未満の帯域番号fの周波数f′の上記非周期性指標A(i,f)の値を、所定の周波数f<FにおいてE(f)=0、所定の周波数範囲F≦f≦FにおいてE(f)=−γ{(f′−F)/(F−F)}、所定の周波数範囲F<fにおいてE(f)=−γという関係で小さくする変換関数E(f)を定義する。ここでγは減衰量(γ>0)、f′は帯域番号fで表される実際の周波数である(式(1))。
【0028】
【数1】

【0029】
はサンプリング周波数、Nは周波数帯域の分割数である。変換関数E(f)は、例えば、F=1000[Hz]、F=2000[Hz]として、f′<1000[Hz]のときE(f)=0、1000[Hz]≦f′≦2000 [Hz]のときE(f)=−γ{(f′−1000)/1000}、f′>2000[Hz]のときはE(f)=−γとする。
【0030】
図7に、変換関数E(f)の一例を示す。図7の横軸は、縦軸は変換関数E(f)[dB]である。
【0031】
図7に示す例は、小さくする変換係数E(f)を、例えばF=1000[Hz]、F=2000[Hz]で定義したものである。変換関数E(f)を、例えば式(2)で定義する。
【0032】
【数2】

【0033】
変換関数E(f)は、周波数が高くなるとマイナス方向に絶対値が大きくなる関数である。この変換関数E(f)の値を、非周期性指標A(i,f)に加算することで、非周期性指標A(i,f)を周波数の増加に対して減少させることができる。
【0034】
変換関数定義手段21の動作を、図8に示す動作フローを参照して更に詳しく説明する。変換関数定義手段21は、帯域番号fの示す実際の周波数f′ごとに変換関数E(f)の値を計算する処理を全ての帯域番号fについて行う。帯域番号fの示す実際の周波数f′は式(1)で計算する(ステップS211)。周波数f′がF[Hz]未満の場合(ステップS212のYes)、変換関数E(f)の値はE(f)=0とする(ステップS217)。
【0035】
周波数f′がF[Hz]以上、F[Hz]以下の場合(ステップS213)は、式(2)で変換関数E(f)の値を求める(ステップS215)。周波数f′がF[Hz]より大きい場合は、変換関数E(f)の値はE(f)=−γとする(ステップS216)。ステップS211〜S216の処理は、全ての帯域番号fについて行われる(ステップS210〜S217のループ)。以上の動作によって、図7に示した変換関数E(f)の値が計算される。減衰量γは、図1に示した相関関係から5[dB]〜15[dB]の値にすると良い。
【0036】
加算手段22は、音声分析部10が出力する非周期性指標A(i,f)に、変換関数定義手段21で計算された変換関数E(f)の値を加算する(ステップS22)。図9に、加算手段22の動作フローを示す。加算手段22は、全てのフレーム番号iにおいて、変換関数定義手段21で計算された変換関数E(f)の値を、音声分析部10が出力する非周期性指標A(i,f)に加算する(ステップS222)。この加算処理は、全てのフレーム番号i(iのループ)の全ての帯域番号f(fのループ)について行われる。
【0037】
図10に、非周期性指標変換部20で処理した変換後非周期性指標A′(i,f)を示す。図10の横軸はフレーム番号i、縦軸は帯域周波数の帯域番号fである。図10は、本来はスペクトルの大きさをグレースケールで表すものであるが、作図の都合上、約−30[dB]以下を黒で表現している。図10は、所定の周波数範囲F〜FをF=1000[Hz]、F=2000[Hz]、減衰量γ=15[dB]とした例である。周波数1[kHz]に対応する帯域番号f=64以上の範囲の変換後非周期性指標A′(i,f)が、小さくなっていることが分かる。
【0038】
図11に、非周期性指標変換部20で処理する前の非周期性指標A(i,f)を示す。横軸と縦軸の関係は図10と同じである。図11から明らかなように、非周期性指標変換部20で処理する前の帯域番号f=64以上は大きな値を示している。
【0039】
音声合成部30は、変換後非周期性指標A′(i,f)と、音声分析部10が出力する基本周波数f(i)とスペクトルパワーP(i,f)とを用いて音声合成音を合成する。周波数帯域が1[kHz]以上の所定の範囲において、非周期性指標A(i,f)を、周波数の増加に対して減少させることで、音声が聞き易くなることは、上記した図1に示す新たな知見によって明らかである。よって、この発明の音声強調装置100で強調した音声は、騒音下でも聞き取り易い音声となる。また、スペクトルパワーを変化させないため、話者の声質も変化しない。
【0040】
なお、所定の周波数範囲F〜Fを1000[Hz]〜2000[Hz]として説明したが、この周波数範囲はその前後の凡その周波数範囲でも良い。また、その周波数範囲の変換後非周期性指標A′(i,f)を、式(2)に示すように一定の割合で減少させる例で説明を行ったが、この発明はこの実施例に限定されない。例えば、変換後非周期性指標A′(i,f)の値を、周波数範囲F〜Fの間の飛び飛びの周波数ごとに階段状に減少させても良い。また、変換後非周期性指標A′(i,f)の値を、周波数の増加に対して反比例する関係で設定しても同様の効果を奏する。
【0041】
音声強調装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるように構成してもよい。
【0042】
その場合、その処理内容を記述したプログラムは、コンピュータで読み取り可能な任意の記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリがある。より具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0043】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0044】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアとして実現することとしてもよい。

【特許請求の範囲】
【請求項1】
音声信号s(t)を入力として、当該音声信号をpサンプル間隔で分析を行い、上記pサンプルごとの基本周波数f(i)と、非周期性指標A(i,f)と、スペクトルパワーP(i,f)を出力する音声分析部と、
所定の周波数範囲F〜Fの非周期性指標の値A(i,f)を、周波数の増加に対して小さくなる変換後非周期性指標A′(i,f)と、当該所定の周波数Fよりも大きな周波数では上記小さくなる変換後非周期性指標A′(i,f)の最小の変換後非周期性指標A′(i,f)とに変換して出力する非周期性指標変換部と、
上記基本周波数f(i)と上記スペクトルパワーP(i,f)と上記変換後非周期性指標A′(i,f)とを入力として音声合成音s′(t)を合成する音声合成部と、
を具備する音声強調装置。
【請求項2】
請求項1に記載した音声強調装置において、
上記非周期性指標変換部は、
所定の周波数範囲F〜Fの(N・F/f/2)以上、(N・F/f/2)(f=0,1,…,N-1、fはサンプリング周波数)未満の帯域番号fの周波数f′の上記非周期性指標A(i,f′)の値を、上記所定の周波数範囲F〜Fにおいて、減衰量γとしたときにE=−γ{(f′−F)/(F−F)}の関係で小さくする変換関数E(f)を定義する変換関数定義手段と、
上記周波数分析手段が出力する上記非周期性指標A(i,f)に、上記変換関数E(f)の値を加算する加算手段と、
を備えることを特徴とする音声強調装置。
【請求項3】
請求項1又2に記載の音声強調装置において、
上記所定の周波数範囲F〜Fは、F=1000Hz以上、F=2000Hz以下の範囲であることを特徴とする音声強調装置。
【請求項4】
音声信号s(t)を入力として、当該音声信号をpサンプル間隔で分析を行い、上記pサンプルごとの基本周波数f(i)と、非周期性指標A(i,f)と、スペクトルパワーP(i,f)を出力する音声分析過程と、
所定の周波数範囲F〜Fの非周期性指標の値A(i,f)を、周波数の増加に対して小さくなる変換後非周期性指標A′(i,f)と、当該所定の周波数Fよりも大きな周波数では上記小さくなる変換後非周期性指標A′(i,f)の最小の変換後非周期性指標A′(i,f)とに変換して出力する非周期性指標変換過程と、
上記基本周波数f(i)と上記スペクトルパワーP(i,f)と上記変換後非周期性指標A′(i,f)とを入力として音声合成音s′(t)を合成する音声合成過程と、
を備える音声強調方法。
【請求項5】
請求項4に記載した音声強調方法において、
上記非周期性指標変換過程は、
所定の周波数範囲F〜Fの(N・F/f/2)以上、(N・F/f/2)(f=0,1,…,N-1、fはサンプリング周波数)未満の帯域番号fの周波数f′の上記非周期性指標A(i,f)の値を、上記所定の周波数範囲F〜Fにおいて、減衰量γとしたときにE=−γ{(f′−F)/(F−F)}の関係で小さくする変換関数E(f)を定義する変換関数定義ステップと、
上記周波数分析手段が出力する上記非周期性指標A(i,f)に、上記変換関数E(f)の値を加算する加算ステップと、
を含むことを特徴とする音声強調方法。
【請求項6】
請求項4又5に記載の音声強調方法において、
上記所定の周波数範囲F〜Fは、F=1000Hz以上、F=2000[Hz]以下の範囲であることを特徴とする音声強調方法。
【請求項7】
請求項1乃至3の何れかに記載した音声強調装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図4】
image rotate


【公開番号】特開2013−101255(P2013−101255A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2011−245547(P2011−245547)
【出願日】平成23年11月9日(2011.11.9)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】