説明

明瞭度評価装置、明瞭度評価方法、及び明瞭度評価プログラム

【課題】変調雑音などを用いることなく、入力された発話音声に対する信号分析により発話音声の明瞭度を評価することができるようにする。
【解決手段】処理対象として音声入力部に入力された音声信号を有音部と無音部と分離し、これら有音部と無音部とのそれぞれに対して位相相関分析を行う。そして、これら有音部に対する位相相関分析の結果と無音部に対する位相相関分析の結果との類似度に基づいて発話音声の位相相関指数PCIを求め、この位相相関指数PCIに基づいて発話音声の明瞭度を評価する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話音声の明瞭度を評価する明瞭度評価装置、明瞭度評価方法、及び明瞭度評価プログラムに関し、特に、位相相関分析を用いて発話音声の明瞭度を評価する技術に関する。
【背景技術】
【0002】
従来、発話音声の明瞭度を評価する方法として、MTF−STI(Modulation Transfer Function-Speech Transmission Index)法と呼ばれる手法が知られている。このMTF−STI法は、人が音声を知覚して明瞭に聴き取るには音声波形の帯域別包絡線情報が重要であることに着目し、帯域別包絡線情報を用いて、発話音声の明瞭度を表す明瞭度指数としてMTF−STIを求めるものである。ここで、帯域別包絡線は、聴覚の内耳にある基底膜振動とその神経パルス発生機構から着想を得たものであり、この帯域別包絡線の山谷の特徴が失われるに従って、音声明瞭度は劣化する性質がある。このような包絡線の山谷情報の劣化を、雑音を正弦波で変調した変調雑音を用いて予測することが、STI法の原理である。なお、明瞭度指数MTF−STIを算出する手法の詳細については、例えば、下記非特許文献1に記載されている。
【非特許文献1】小椋靖夫、浜田晴夫、三浦種敏,「音場における音声伝送品質のためのMTFとSTIについて」,日本音響学会誌,1984年,第40巻,第3号
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上述したMTF−STI法では、雑音を正弦波で変調した変調雑音を用いて帯域別包絡線の山谷情報の劣化を予測することを基本としているため、実際の発話音声の明瞭度を正確に評価するには、実験音声による人の試聴試験を繰り返し行って各音節の明瞭度指数を求めることが前提となる。このため、例えば、入力された音声の明瞭度を即座に評価して、それに応じて音声の出力レベルを制御するといったような実用レベルでの応用が難しく、実用性に欠けるという問題があった。
【0004】
本発明は、以上のような従来の実情に鑑みて創案されたものであって、変調雑音などを用いることなく、入力された発話音声に対する信号分析により発話音声の明瞭度を評価することができる明瞭度評価装置、明瞭度評価方法、明瞭度評価プログラムを提供することを目的としている。
【課題を解決するための手段】
【0005】
本発明は、前記目的を達成するために、位相相関分析を用いて発話音声の明瞭度を評価する。具体的には、入力された音声信号を発話音声が含まれる有音部と発話音声が含まれない無音部とに分離し、これら有音部と無音部とのそれぞれに対して位相相関分析を行い、有音部に対する位相相関分析の結果と無音部に対する位相相関分析の結果との類似度に基づき、発話音声の位相相関指数を求める。そして、この求めた位相相関指数に基づいて、入力された音声信号の中の発話音声の明瞭度を評価する。
【発明の効果】
【0006】
本発明によれば、入力された発話音声に対する信号分析により発話音声の明瞭度を評価することができるので、例えば、明瞭度の評価結果に応じて音声の出力レベルを制御するといったような実用レベルでの応用が可能となり、実用性の高い明瞭度評価を実現できる。
【発明を実施するための最良の形態】
【0007】
以下、本発明を適用した明瞭度評価装置の具体的な実施形態について、図面を参照しながら詳細に説明する。
【0008】
本実施形態の明瞭度評価装置は、人が発話する発話音声の明瞭度を評価するものであり、図1に示すように、音声入力部1と、位相相関分析部2と、位相相関指数算出部3と、評価結果出力部4とを備えて構成され、発話音声の位相相関指数PCI(Phase Correlation Index)に基づいてその明瞭度を評価して、評価結果を出力する。なお、このような本実施形態の明瞭度評価装置において、位相相関分析部2としての機能と、位相相関指数算出部3としての機能と、評価結果出力部4としての機能は、例えば、コンピュータで本発明の明瞭度評価プログラムを実行することによって実現されるが、これらの機能をハードウェアで実現するようにしてもよい。
【0009】
音声入力部1は、音声を電気信号に変換するマイクロフォンなどにより実現されるものであり、本実施形態の明瞭度評価装置での処理対象となる音声信号が入力されるものである。ここで、音声信号とは、人が発話する発話音声が含まれる有音部と、このような人の発話音声が含まれない無音部とからなるものである。つまり、自然発話においては、人が音声を発話している合間(発話音声の前後)に背景雑音のみの無音部が存在するが、音声入力部1は、発話音声が含まれる有音部だけでなく、このような有音部の前後に存在する背景雑音のみの無音部も含めた音声信号を、処理対象の音声信号として取得する。
【0010】
位相相関分析部2は、音声入力部1に入力された処理対象の音声信号を有音部と無音部とに分離して、これら有音部と無音部とのそれぞれに対して位相相関分析を行うものである。具体的には、位相相関分析部2は、音声入力部1に入力された音声信号から発話音声が含まれる有音部を時間軸にて切り出すことで、この音声信号を、例えば、有音部とその前後の無音部(以下、前雑音部、後ろ雑音部と呼ぶ。)との3つの部分に分離する。そして、位相相関分析部2は、これら有音部と前雑音部、後ろ雑音部とのそれぞれを帯域分析してサブバンド信号を求め、求めたサブバンド信号に対して位相相関分析を行う。
【0011】
ここで、帯域分析の手法としては、フィルタバンクを用いる手法と、フーリエ変換を用いる手法とが考えられる。フィルタバンクを用いて帯域分析を行う場合、位相相関分析部2は、フィルタバンクを構成する各フィルタの周波数帯域幅を例えば1/4オクターブ幅とする。そして、音声信号から分離された有音部と前雑音部、後ろ雑音部とのそれぞれについて、全帯域信号を1/4オクターブの帯域幅のサブバンドに分割してサブバンド信号を求め、求めたサブバンド信号のそれぞれに対して、或いはそれらのうちの代表的なサブバンド信号に対して位相相関分析を行う。また、位相相関分析部2は、フーリエ変換を用いて帯域分析を行う場合には、音声信号から分離された有音部と前雑音部、後ろ雑音部とのそれぞれについて、全帯域信号をフーリエ変換して位相周波数スペクトルを得る。そして、位相周波数スペクトルを例えば1/4オクターブ幅を有するサブバンドに分割し、サブバンド内の位相スペクトルを用いた位相相関分析を行う。なお、このように帯域分析で得たサブバンド信号に対して位相相関分析を行う際に、分析対象とする周波数間隔は、音声の主要包絡線周波数範囲、具体的には、例えば略20Hz以下の範囲とすることが望ましい。すなわち、各サブバンドの中心周波数から20Hzを超えた広い範囲を分析対象としても中心周波数から大きく離れた部分では分析結果にほとんど差が現れないので、分析対象とする周波数成分の範囲を中心周波数から略20Hz以下の範囲に限定することで分析処理の負荷を減らして、効率的な位相相関分析を行うことができる。
【0012】
位相相関指数算出部3は、位相相関分析部2による有音部に対する位相相関分析の結果と無音部(前雑音部および後ろ雑音部)に対する位相相関分析の結果との類似度に基づき、発話音声の位相相関指数PCIを求めるものである。具体的には、位相相関指数算出部3は、位相相関分析部2によりサブバンド毎に行われた位相相関分析の結果を用い、有音部と無音部との位相相関分析結果の類似度をサブバンド毎に求める。そして、これら各サブバンド毎の有音部と無音部との位相相関分析結果の類似度の平均値を求め、この類似度の平均値に基づいて、処理対象として音声入力部1に入力された音声信号に含まれる発話音声の位相相関指数PCIを算出する。なお、サブバンド毎の有音部と無音部との位相相関分析結果の類似度の平均値を求める際には、各サブバンド信号の重要度に応じた重み付け係数を用いて平均値を求めることが望ましい。
【0013】
ここで、有音部に対する位相相関分析の結果と無音部に対する位相相関分析の結果との類似度は、これらの位相相関分析結果の差分から求めることができる。また、これらの位相相関分析の結果を相互相関係数分析することによっても、位相相関分析の結果の類似度を求めることができる。この位相相関指数算出部3によって算出される位相相関指数PCIは、発話音声の明瞭度と対応関係にあり、位相相関指数PCIの値が高いほど、発話音声の明瞭度が良好であると評価することができる。
【0014】
評価結果出力部4は、位相相関指数算出部3によって算出された発話音声の位相相関指数PCIに基づいて、その発話音声の明瞭度を評価して、評価結果を出力するものである。具体的には、評価結果出力部4は、位相相関指数PCIと明瞭度(%)との関係を示すマップ等を予め記憶しており、位相相関指数算出部3によって発話音声の位相相関指数PCIが算出されると、このマップを参照して発話音声の明瞭度を評価して、その評価結果を出力する。以上のようにして本実施形態の明瞭度評価装置から出力される発話音声の明瞭度の評価結果は、例えば、音声出力装置における音声の出力レベルをその明瞭度に応じて制御するといった用途に有効に利用可能である。
【0015】
以上、本実施形態の明瞭度評価装置の概要について説明したが、次に、本実施形態の明瞭度評価装置により実施される処理について、具体的な例を挙げながら更に詳しく説明する。
【0016】
図2は、本実施形態の明瞭度評価装置において実施される一連の処理の流れを示すフローチャートである。本実施形態の明瞭度評価装置では、この図2のステップS1からステップS8までの処理を経て発話音声の明瞭度を評価し、その評価結果を出力する。
【0017】
まず、ステップS1では、音声入力部1に処理対象となる音声信号が入力される。この音声入力部1に入力される音声信号i(iは評価対象となる音声信号に対して付与される番号)の例を図3に示す。この図3に示す音声信号iは、信号対雑音のエネルギー比(S/N)が30dBの場合の例である。
【0018】
音声入力部1に音声信号iが入力されると、次のステップS2において、位相相関分析部2が、音声入力部1に入力された音声信号iを、図4に示すように、発話音声が含まれる有音部s(i)と、この有音部s(i)よりも時間軸上で前に現れる無音部である前雑音部f(i)と、有音部s(i)よりも時間軸上で後ろに現れる無音部である後ろ雑音部b(i)とに分離する。なお、図4では、図3に示したS/Nが30dBの音声信号iを有音部s(i)と前雑音部f(i)、後ろ雑音部b(i)とに分離する例を図示している。
【0019】
次に、位相相関分析部2は、ステップS3において、ステップS2で音声信号iから分離した有音部s(i)、前雑音部f(i)、後ろ雑音部b(i)のそれぞれに対して、例えば、1/4オクターブ幅の帯域フィルタで構成されるフィルタバンクを用いて帯域分析を行い、有音部s(i)、前雑音部f(i)、後ろ雑音部b(i)それぞれの全帯域信号を1/4オクターブの帯域幅のサブバンドに分割してサブバンド信号を求める。帯域分析の手法はここで挙げる例に限定されるものではない。しかし、1/4オクターブ帯域フィルタは人間の聴覚機能に近い働きを持つことが知られており、1/4オクターブ帯域幅での帯域分析は、音声明瞭度を評価する上での帯域分析の手法の一つとして最適と考えられる。
【0020】
図5は、有音部s(i)、前雑音部f(i)、後ろ雑音部b(i)のそれぞれに対して帯域分析を行った結果求められるサブバンド信号のうちで、分析対象とするサブバンド信号s(i,m)、f(i,m)、b(i,m)の例を示したものである。なお、mは分析対象とするサブバンドに対して付与される帯域番号であり、図5に示す例では、中心周波数が256Hzのサブバンド(帯域番号m=1)と、中心周波数が512Hzのサブバンド(帯域番号m=2)と、中心周波数が1024Hzのサブバンド(帯域番号m=3)と、中心周波数が2048Hzのサブバンド(帯域番号m=4)と、中心周波数が4096Hzのサブバンド(帯域番号m=5)とをそれぞれ分析対象としている。
【0021】
次に、位相相関分析部2は、ステップS4において、ステップS3で求めたサブバンド信号s(i,m)、f(i,m)、b(i,m)に対して位相相関分析を行う。ここでの位相相関分析は、位相周波数特性相関分析と呼ばれるものであり、分析対象となる信号の位相周波数特性から位相相関PC(i,m,k)を下記式(1)により求めるものである。
【数1】

【0022】
この式(1)において、k’は周波数番号を表し、θ(k)は分析対象信号の位相周波数特性を表し、Nは信号長を表している。また、Δθ(k,k’)は、周波数番号k’における位相情報と、周波数番号k+k’における位相情報との差であり、下記式(2)によって表される。したがって、kは位相差を求める2つの周波数の間隔を示すものである。そして、位相相関PC(i,m,k)は、k=0としたときの値を1として周波数間隔kにおける値を示すものである。
【数2】

【0023】
位相相関分析部2は、このような位相相関分析をステップS3で求めたサブバンド信号s(i,m)、f(i,m)、b(i,m)に対して行い、これらサブバンド信号s(i,m)、f(i,m)、b(i,m)毎に、位相相関PCs(i,m,k)、PCf(i,m,k)、PCb(i,m,k)を求める。
【0024】
図6は、図5に示したサブバンド信号s(i,m)、f(i,m)、b(i,m)のうちで、中心周波数が256Hz(m=1)のサブバンド信号に対して位相相関分析を行った結果として得られる位相相関図を示したものである。位相相関分析部2での位相相関分析の結果としては、このような位相相関図が、帯域番号m=2〜5についてもそれぞれ得られることになる。
【0025】
以上のように、位相相関分析部2によって有音部s(i)、前雑音部f(i)、後ろ雑音部b(i)の各サブバンド信号毎の位相相関分析が行われると、次に、ステップS5において、位相相関指数算出部3が、これらサブバンド信号毎の有音部と無音部との位相相関分析結果の差、すなわち図7に示すように、位相相関PCs(i,m,k)と位相相関PCf(i,m,k)との差、および位相相関PCs(i,m,k)と位相相関PCb(i,m,k)との差から、有音部と無音部との位相相関分析結果の類似度d(i,m)を求める。具体的には、この有音部と無音部との位相相関分析結果の類似度d(i,m)は、下記式(3)に示すように、位相相関PCs(i,m,k)と位相相関PCf(i,m,k)との差と、位相相関PCs(i,m,k)と位相相関PCb(i,m,k)との差との2乗和から求めることができる。
【数3】

【0026】
なお、有音部と無音部との位相相関結果の類似度d(i,m)は、以上のように有音部と無音部との位相相関分析結果の差から求める以外にも、有音部に対する位相相関分析の結果と無音部に対する位相相関分析の結果とを相互相関係数分析することによっても求めることができる。
【0027】
次に、位相相関指数算出部3は、ステップS6において、ステップS5で求めたサブバンド信号毎の有音部と無音部との位相相関分析結果の類似度d(i,m)に基づいて、これら類似度d(i,m)の平均値である平均位相相関類似度D(i)を、下記式(4)により求める。
【数4】

【0028】
この式(4)において、W(m)は帯域別重み係数であり、サブバンド信号それぞれの重要度を示す係数である。この帯域別重み係数W(m)は、例えば帯域別重み付け平均値を計算することで求まり、音声明瞭度に重要性が低い周波数帯域では低い値となり、重要な周波数帯域では高い値となる。
【0029】
次に、位相相関指数算出部3は、ステップS7において、ステップS6で求めた平均位相相関類似度D(i)に基づいて、下記式(5)により、処理対象として音声入力部1に入力された音声信号iに含まれる発話音声の位相相関指数PCI(i)を算出する。
【数5】

【0030】
この式(5)において、Dはこれまでの他の発話音声に対する処理で求めた平均位相相関類似度D(i)の平均値であり、ステップS6の平均位相相関類似度D(i)を求める処理が行われる度に更新される値である。この式(5)から分かるように、発話音声の位相相関指数PCI(i)は、平均位相相関類似度D(i)を正規化した値である。
【0031】
以上のように位相相関指数算出部3によって位相相関指数PCI(i)が算出されると、次のステップS8において、評価結果出力部4が、位相相関指数PCI(i)に基づく発話音声の明瞭度の評価を行って、その評価結果を出力する。具体的には、評価結果出力部4は、例えば図8に示すような位相相関指数PCIと明瞭度(%)との関係を示す明瞭度評価マップを記憶しており、位相相関指数算出部3での処理により、処理対象として音声入力部1に入力された音声信号iに含まれる発話音声の位相相関指数PCI(i)が算出されると、このマップを参照して発話音声の明瞭度を評価し、その評価結果を出力する。本実施形態の明瞭度評価装置では、この評価結果出力部4が発話音声の明瞭度の評価結果を出力することで、一連の処理を終了する。
【0032】
以上詳細に説明したように、本実施形態の明瞭度評価装置では、処理対象として音声入力部1に入力された音声信号を位相相関分析部2で有音部と無音部と分離し、これら有音部と無音部とのそれぞれに対して位相相関分析を行う。そして、これら有音部に対する位相相関分析の結果と無音部に対する位相相関分析の結果との類似度に基づいて、位相相関指数算出部3が発話音声の位相相関指数PCIを求め、この位相相関指数PCIに基づいて、評価結果出力部4が発話音声の明瞭度を評価して、その評価結果を出力するようにしている。このように、本実施形態の明瞭度評価装置によれば、処理対象として音声入力部1に入力された音声信号に対する信号分析によりその音声信号に含まれる発話音声の明瞭度を評価することができる。したがって、本実施形態の明瞭度評価装置によれば、例えば、明瞭度の評価結果に応じて音声の出力レベルを制御するといったような実用レベルでの応用が可能となり、実用性の高い明瞭度評価を実現できる。
【0033】
なお、以上説明した明瞭度評価装置は本発明の一適用例であり、本発明が以上の例に限定されるものではなく、本発明に係る技術的思想を逸脱しない範囲であれば具体的な処理内容などにおいて種々の変更が可能であることは勿論である。
【図面の簡単な説明】
【0034】
【図1】本発明を適用した明瞭度評価装置の概略構成を示すブロック図である。
【図2】本発明を適用した明瞭度評価装置において実施される一連の処理の流れを示すフローチャートである。
【図3】本発明を適用した明瞭度評価装置の音声入力部に入力される音声信号の一例を示す図である。
【図4】前記音声信号を有音部、前雑音部、後ろ雑音部に分離する様子を説明する図である。
【図5】前記有音部、前雑音部、後ろ雑音部のそれぞれに対して帯域分析を行った結果求められるサブバンド信号のうちで、分析対象とするサブバンド信号の例を示す図である。
【図6】図5に示したサブバンド信号のうちで、中心周波数が256Hz(m=1)のサブバンド信号に対して位相相関分析を行った結果として得られる位相相関図である。
【図7】サブバンド信号毎の有音部と無音部との位相相関分析結果の差から、有音部と無音部との位相相関分析結果の類似度を求める様子を説明する図である。
【図8】位相相関指数PCIと明瞭度(%)との関係を示す明瞭度評価マップの一例を示す図である。
【符号の説明】
【0035】
1 音声入力部
2 位相相関分析部
3 位相相関指数算出部
4 評価結果出力部

【特許請求の範囲】
【請求項1】
発話音声の明瞭度を評価する明瞭度評価装置であって、
前記発話音声が含まれる有音部と前記発話音声が含まれない無音部とからなる音声信号が入力される音声入力部と、
前記音声信号を前記有音部と前記無音部とに分離して、前記有音部と前記無音部とのそれぞれに対して位相相関分析を行う位相相関分析部と、
前記有音部に対する位相相関分析の結果と前記無音部に対する位相相関分析の結果との類似度に基づき、前記発話音声の位相相関指数を求める位相相関指数算出部とを備え、
前記位相相関指数に基づいて、前記発話音声の明瞭度を評価することを特徴とする明瞭度評価装置。
【請求項2】
位相相関指数算出部は、前記有音部に対する位相相関分析の結果と前記無音部に対する位相相関分析の結果との類似度を、これら位相相関分析の結果の差分から、または、これら位相相関分析の結果を相互相関係数分析することで求めることを特徴とする請求項1に記載の明瞭度評価装置。
【請求項3】
前記位相相関分析部は、前記有音部と前記無音部とをそれぞれ帯域分析してサブバンド信号を求め、当該サブバンド信号に対して位相相関分析を行うことを特徴とする請求項1に記載の明瞭度評価装置。
【請求項4】
前記位相相関分析部は、フィルタバンクを用いて前記帯域分析を行うことを特徴とする請求項3に記載の明瞭度評価装置。
【請求項5】
前記位相相関分析部は、フーリエ変換により前記帯域分析を行うことを特徴とする請求項3に記載の明瞭度評価装置。
【請求項6】
前記位相相関分析部は、前記帯域分析において、前記有音部と前記無音部との全帯域信号を1/4オクターブの周波数帯域幅に分けて前記サブバンド信号を求めることを特徴とする請求項3乃至5の何れかに記載の明瞭度評価装置。
【請求項7】
前記位相相関分析部は、前記サブバンド信号に対して位相相関分析を行う周波数間隔を、略20Hz以下の範囲とすることを特徴とする請求項3乃至6の何れかに記載の明瞭度評価装置。
【請求項8】
前記位相相関指数算出部は、前記各サブバンド毎に前記有音部に対する位相相関分析の結果と前記無音部に対する位相相関分析の結果との類似度を求め、これらサブバンド毎の類似度の平均値を用いて、前記発話音声の位相相関指数を求めることを特徴とする請求項3乃至7の何れかに記載の明瞭度評価装置。
【請求項9】
前記位相相関指数算出部は、前記各サブバンド信号の重要度に応じた重み付け係数を用いて、前記各サブバンド毎の類似度の平均値を求めることを特徴とする請求項8に記載の明瞭度評価装置。
【請求項10】
発話音声の明瞭度を評価する方法であって、
前記発話音声が含まれる有音部と前記発話音声が含まれない無音部とからなる音声信号を前記有音部と前記無音部とに分離して、前記有音部と前記無音部とのそれぞれに対して位相相関分析を行うステップと、
前記有音部に対する位相相関分析の結果と前記無音部に対する位相相関分析の結果との類似度に基づき、前記発話音声の位相相関指数を求めるステップとを有し、
前記位相相関指数に基づいて、前記発話音声の明瞭度を評価することを特徴とする明瞭度評価方法。
【請求項11】
発話音声の明瞭度を評価するためのプログラムであって、
コンピュータに、
前記発話音声が含まれる有音部と前記発話音声が含まれない無音部とからなる音声信号を前記有音部と前記無音部とに分離して、前記有音部と前記無音部とのそれぞれに対して位相相関分析を行う機能と、
前記有音部に対する位相相関分析の結果と前記無音部に対する位相相関分析の結果との類似度に基づき、前記発話音声の位相相関指数を求める機能と、
前記位相相関指数に基づいて、前記発話音声の明瞭度を評価する機能とを実現させることを特徴とする明瞭度評価プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−323265(P2006−323265A)
【公開日】平成18年11月30日(2006.11.30)
【国際特許分類】
【出願番号】特願2005−148005(P2005−148005)
【出願日】平成17年5月20日(2005.5.20)
【出願人】(000003997)日産自動車株式会社 (16,386)
【出願人】(899000068)学校法人早稲田大学 (602)