説明

音声情報識別方法及びその装置

【課題】 音質・声の個人性に関連する狭帯域包絡線の特徴を抽出し、発話内容に依存しない、発声機構の個人差に基づく声質の相違を識別する。
【解決手段】 本発明に係る音声情報識別方法は、複数の話者により個々に入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出し、相関行列辞書を作成する過程と、特定の話者により入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出する過程と、該算出された相関行列と前記相関行列辞書の各相関行列とを識別する過程と、該識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する過程とを含むことを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話内容に依存することなく、発生機構の個人差に基づき、音声を識別する音声情報識別方法及びその装置に関する。
【背景技術】
【0002】
音声の発声機構並びに波形構造は古くから研究が行われ、その結果は音声合成、電話通話品質設計に応用されてきた。これらの研究の多くは、音声の音韻性に着目したパワースペクトラム分析によるものであり、例えば、母音を第一、第二ホルマント周波数比率で識別したり、基本周波数とフォルマント周波数から男・女声を区別したり、300〜3400Hzに電話通話を帯域制限したりするものなどが挙げられる。そして、これらの結果は我々が日常生活で体験している音声コミュニケーションにおける経験的事実とも一致している。
【0003】
また、近年では発話内容だけでなく、声門の動きや声道の微細構造などにも着眼した声質に関わる研究も行われており、話者識別に関する種々の実験が行われている。
【0004】
しかし、これらの実験は主に音声波形の振幅周波数特性を用いた分析結果によるものであり、音声波形は振幅と位相で表現されるにも関わらず、振幅情報に比べて位相情報の解明は遅れている。振幅を周波数領域の情報とすると、位相は時間領域の波形に関連する情報であるから、時間領域の波形を示す包絡線の特徴は位相情報によって表現できると考えられる。
【0005】
そこで、本発明者等は既に音声の位相情報から了解性のある音声合成が可能であることを実証している。その結果、(1)DFTの周波数分析窓長を128ms 以上にすると、振幅情報に比べて位相特性に多くの音声情報が含まれる、(2)さらに窓長を512ms以上にすれば、了解度90%以上の文章音声が位相情報から合成できる、(3)原音声と合成音声の狭帯域包絡線の相互相関が高いほど、合成音声の了解度が上昇することを明らかにした。
【非特許文献1】2002年3月の電子情報通信学会における風間道子、東山三樹夫、山崎芳男による発表論文「包絡線の帯域間相関行列を用いた話者識別」
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明の目的は、音声情報から了解性だけでなく、音質・声の個人性に関連する狭帯域包絡線の特徴を抽出し、発話内容に依存しない、発声機構の個人差に基づく声質の相違を解明することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る音声情報識別方法は、複数の話者により個々に入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出し、相関行列辞書を作成する過程と、特定の話者により入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出する過程と、該算出された相関行列と前記相関行列辞書の各相関行列とを識別する過程と、該識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する過程とを含むことを特徴とする。
【0008】
そして、好ましくは、前記相関行列辞書を作成する過程は、低域において算出された相関行列に基づき低域相関行列辞書を作成する過程と、高域において算出された相関行列に基づき高域相関行列辞書を作成する過程とを含み、前記相関行列を算出する過程は、特定の話者により入力された低域の音声から相関行列を算出する過程と、特定の話者により入力された高域の音声から相関行列を算出する過程とを含み、前記相関行列辞書の各相関行列と識別する過程は、前記特定の話者の低域の音声から算出された相関行列と前記低域相関行列辞書の各相関行列とを識別すると共に、前記特定の話者の高域の音声から算出された相関行列と前記高域相関行列辞書の各相関行列とを識別する過程とを含み、前記話者を識別する過程は、前記低域における識別結果と前記高域における識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する過程を含んでいるのがよい。
【0009】
また、前記相関行列辞書を作成する過程は、低域において算出された相関行列に基づき低域相関行列辞書を作成する過程、又は、高域において算出された相関行列に基づき高域相関行列辞書を作成する過程を含み、前記相関行列を算出する過程は、特定の話者により入力された低域の音声から相関行列を算出する過程、又は、特定の話者により入力された高域の音声から相関行列を算出する過程を含み、前記相関行列辞書の各相関行列と識別する過程は、前記特定の話者の低域の音声から算出された相関行列と前記低域相関行列辞書の各相関行列とを識別すると過程、又は、前記特定の話者の高域の音声から算出された相関行列と前記高域相関行列辞書の各相関行列とを識別する過程とを含み、前記話者を識別する過程は、前記低域における識別結果、又は、前記高域における識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する過程を含んでいてもよい。
【0010】
また、本発明に係る音声情報識別装置は、複数の話者により個々に入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出し、相関行列辞書を作成する手段と、特定の話者により入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出する手段と、該相関行列を算出手段により算出された相関行列と前記相関行列辞書の各相関行列とを識別する手段と、該識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する手段とを備えていることを特徴とする。
【0011】
そして、好ましくは、前記相関行列辞書を作成する手段は、低域において算出された相関行列に基づき低域相関行列辞書を作成する手段と、高域において算出された相関行列に基づき高域相関行列辞書を作成する手段とを備え、前記相関行列を算出する手段は、特定の話者により入力された低域の音声から相関行列を算出する手段と、特定の話者により入力された高域の音声から相関行列を算出する手段とを含み、前記相関行列辞書の各相関行列と識別する手段は、前記特定の話者の低域の音声から算出された相関行列と前記低域相関行列辞書の各相関行列とを識別すると共に、前記特定の話者の高域の音声から算出された相関行列と前記高域相関行列辞書の各相関行列とを識別する手段とを備え、前記話者を識別する手段は、前記低域における識別結果と前記高域における識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する手段を備えているのがよい。
【0012】
また、前記相関行列辞書を作成する手段は、低域において算出された相関行列に基づき低域相関行列辞書を作成する手段、又は、高域において算出された相関行列に基づき高域相関行列辞書を作成する手段を備え、前記相関行列を算出する手段は、特定の話者により入力された低域の音声から相関行列を算出する手段、又は、特定の話者により入力された高域の音声から相関行列を算出する手段を含み、前記相関行列辞書の各相関行列と識別する手段は、前記特定の話者の低域の音声から算出された相関行列と前記低域相関行列辞書の各相関行列とを識別する手段、又は、前記特定の話者の高域の音声から算出された相関行列と前記高域相関行列辞書の各相関行列とを識別する手段を備え、前記話者を識別する手段は、前記低域における識別結果、又は、前記高域における識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する手段を備えていてもよい。
【発明の効果】
【0013】
本発明によれば、発声機構の伝達系に発話内容に依存しない音声特徴があることを確認し、その音声特徴が個人情報を表すことを証明することができ、発話内容に依存することなく、発生機構の個人差に基づき、音声を識別することができる。したがって、有声音・無声音の区別無く、文章単位の波形を対象に分析を行い、発声器官で特色付けられる話者情報を明らかにすることができ、合言葉を必要としない話者識別、さらには話者に意識させない認証の達成に貢献することができる。
【発明を実施するための最良の形態】
【0014】
以下、図面を参照しつつ、本発明の実施の形態について説明する。
【0015】
先ず、図1〜図3により、本発明の実施の形態に係る音声情報識別方法及び音声情報識別装置について説明する。
【0016】
本実施の形態に係る音声情報識別装置1は、音声入力部2と、音声入力部2を介して特定の話者が入力した低域の音声から相関行列を算出する低域相関行列算出手段3と、特定の話者により入力された高域の音声から相関行列を算出する高域相関行列算出手段4と、低域において算出された相関行列に基づき低域相関行列辞書を作成する低域相関行列辞書作成手段5と、高域において算出された相関行列に基づき高域相関行列辞書を作成する高域相関行列辞書作成手段6と、前記特定の話者の低域の音声から算出された相関行列と前記低域相関行列辞書の各相関行列とを識別すると共に、前記特定の話者の高域の音声から算出された相関行列と前記高域相関行列辞書の各相関行列とを識別する識別手段7と、前記低域における識別結果と前記高域における識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別し、その識別結果を出力する話者識別手段8とを備えている。
【0017】
さらに、低域相関行列算出手段3には、音声入力部2を介して特定の話者が入力した音声の低域部分(本実施の形態では、例えば、2,000Hz以下)を抽出する低域フィルター9と、低域フィルター9を通過した音声を1/4オクターブ毎に帯域分割する帯域フィルター10と、半波整流を行なう半波整流器11と、デシベルで包絡線を抽出する包絡線抽出部12と、帯域間相関行列を算出する相関行列算出部13が設けられている。一方、高域相関行列算出手段4には、低域相関行列算出手段3と同様に、特定の話者が入力した音声の高域部分(本実施の形態では、例えば、2,000Hz以上)を抽出する高域フィルター14、高域フィルター14を通過した音声を1/8オクターブ毎に帯域分割する帯域フィルター15、半波整流器16、包絡線抽出部17、相関行列算出部18がそれぞれ設けられている。
【0018】
また、図2に示されているように、低域相関行列辞書作成手段5には、複数話者が入力した音声の低域部分(本実施の形態では、例えば、2,000Hz以下)を抽出する低域フィルター19と、低域フィルター9を通過した音声を1/4オクターブ毎に帯域分割する帯域フィルター20と、半波整流を行なう半波整流器21と、デシベルで包絡線を抽出する包絡線抽出部22と、帯域間相関行列を算出する相関行列算出部23が設けられている。一方、高域相関行列辞書作成手段6には、図3に示されているように、低域相関行列辞書作成手段5と同様に、特定の話者が入力した音声の高域部分(本実施の形態では、例えば、2,000Hz以上)を抽出する高域フィルター24、高域フィルター24を通過した音声を1/8オクターブ毎に帯域分割する帯域フィルター25、半波整流器26、包絡線抽出部27、相関行列算出部28がそれぞれ設けられている。
【0019】
なお、上記した実施の形態では、相関行列算出手段と相関行列辞書作成手段が、それぞれ低域と高域の両方の領域に設けられている場合について説明したが、本発明は、それらが低域と高域のいずれか一方の領域にのみ設けられている場合にも適用可能である。そして、その場合には、低域と高域のいずれか一方の領域において話者識別及び結果出力が行われる。
【実施例】
【0020】
話者識別について、離散フーリエ変換(Discrete
Fourier Transform、以下「DFT」と称す)による周波数軸情報と包絡線を用いた時間軸情報に分けて実験した。実験音声は、男性10人、女性10人が無響室発話した日常的な11文章を用いた。周波数軸情報による実験では、3,000Hz以上と以下には同等の個人情報が含まれることが確認された。時間軸情報を用いた実験では、2,000Hz以上の帯域間相関値に個人情報が含まれることが確認された。両方の実験より、音声の周波数特性上に現れる谷に重要な個人情報があることが確認された。この谷は4,000~7,000Hzに分布し、女声は男声より高い周波数であった。この特性を利用することにより、20人の話者識別実験で95%以上の識別結果が得られた。
【0021】
本実施の形態では、了解性だけでなく、声質・声の個人性に関連する狭帯域包絡線の特徴を抽出することを試みる。本実施の形態においては、先ず、音声の周波数特性の特徴を検討し、次に、周波数・時間領域の両面から話者識別モデル実験を通して、話者情報を確認する。周波数領域の実験では、DFT によって得られる周波数特性を用いる。ここでは、分析時間長や周波数帯域制限を変化させ、声質表現に必要な周波数分解能や重要な周波数帯域を確認する。時間領域の実験では、狭帯域包絡線の帯域間相関行列を用いる。ビムボット(Bimbot)等の行った実験手法を基にして、短時間パワースペクトラムの代わりに音声の時間変動の相関行列を用いる。ここでも周波数帯域制限を用いた話者識別実験を行い、声質が多く含まれる帯域の確認を行う。そして、両実験を通して得られた結果をもとに、波形に現れる声質を追求する。
【0022】
音声信号を声帯振動に代表される音源信号と、声道に代表される伝達系に分けて考える。音声は、音源により基本周波数が決まり、伝達系により調音される。我々は、声門の動きだけでなく、伝達系の人体特徴によっても多くの個人情報が生じると考える。そこで、音声の周波数特性は、先ず音源に起因する基本周波数を取り除くため、母音を1周期毎に切り出して周波数分析を行った。音声サンプルには1男性話者が発声した文章から抽出した母音(‘to’,‘wa’,‘no’)と子音(‘ku’,‘ku’,‘to’,‘ji’,‘ko’)を用いた。この音声は無響室で発声され、48kHzサンプリング周波数で録音されている。切り出された母音の1サイクルはゼロ埋めによって10.7msのフレーム長にそろえ、DFTで周波数特性を分析する。子音は母音と同じフレーム長で切り出して分析を行う。
【0023】
図4に、母音(合計65フレーム)と子音(合計25フレーム)の振幅平均した周波数特性を示す。母音と子音のエネルギー比は4,000Hzあたりにある周波数軸上の谷で反転が生じており、それ以下では母音の、それ以上では子音のエネルギーが大きくなっている。4,000Hz以上の帯域ではエネルギーの差はあるが、母音・子音ともほぼ等しい周波数位置に山谷が観測される。母音と子音の主なる傾きを除いて各々の自己相関からこの周期を求めると、両者とも1,500Hzであった。母音と子音は異なった音源特性であるにも関わらず、動機した周期を持つことから、これらは伝達系の特性を表すと考えられる。図中の太い実線で描かれた母音と子音を合計した周波数特性は、低域からおよそ5,500Hzまでは周波数が高くなるにつれパワーが小さくなり、それ以上の帯域ではほぼフラットな特性となっている。我々は、この図4より、音源や発話内容に依存しない声質特性が存在し、母音と子音のエネルギー反転により生じる周波数特性のトレンドな傾きと、高音域に現れる周期性とに個人性があると仮定した。これらの要因を、周波数領域および時間領域から明確に表現し、話者識別実験を通して個人性の有無を確認する。
【0024】
先ず、周波数領域による話者識別実験では、声道に代表される伝達系の特性に着目する。伝達系の平均周波数特性は、DFTのフレームによる位相変動を音源信号の不規則性に起因するものと考え、同相信号の平均値に対応する振幅スペクトラム平均値で表す。個人情報を明確に表すのに必要な周波数分解能と周波数帯域を確認する。
【0025】
20〜22歳の被験者20人(男性10人、女性10人)の日本語音声を用いた。各被験者は、判定用の10文章と識別用の1文章を発音する。判定用の文章は各被験者において同じ文章であり、識別用文章は被験者の各自の名前とした。各文章はそれぞれ約2秒の長さである。収音は無響室で、サンプリング周波数48kHz、16bitA/Dコンバータを使って録音された。
【0026】
図5のブロックダイアグラムに示すように、振幅スペクトラムはDFTによって求められる。1文章で平均の振幅スペクトラムを算出し、同話者の判定用10文章でさらに平均をしてdBスケールにして、判定用周波数特性とする。識別用周波数特性は、識別用1文章の平均振幅スペクトラムを求めdBスケールにして算出する。
【0027】
実験ではDFTの切り出し窓に5.3, 21.3, 85.3, 682.6msの矩形窓を使用した。このとき、周波数分解能は、それぞれ187.5, 46.9, 11.7,
1.46Hzとなる。
【0028】
1被験者の識別用振幅スペクトラムと20人の判定用振幅スペクトラムとの相関値を求め、最も高い相関値が得られた判定用振幅スペクトラムを持つ話者をこの識別用振幅スペクトラムの話者識別結果とする。実験では、周波数帯域を下限1, 250, 500, 1000, 2000, 4000, 8000Hzから 上限250, 500, 1000, 2000, 4000, 8000, 12,000Hzに分けて行う。さらに、DFTの窓長による差を確認する。
【0029】
図6(a)〜(d)は各々5.3,21.3, 85.3, 682.6msの窓長を使った話者識別結果を示す。図6により、振幅スペクトラムを用いた話者識別実験は時間と周波数の分解能に大きく依存していることがわかる。5.3msの窓長による振幅スペクトラムを用いた話者識別結果(a)は、周波数分解能が荒いため、約60%の正解率しか得られていない。21.3あるいは85.3msの窓長を用いた実験結果(b)(c)は高い正解率が得られ、4000〜8000Hzに帯域制限しても約70%の正解率が得られた。そして、682.6msの窓長による話者識別結果(d)は、1000Hz以上に周波数帯域を制限すると約60%の正解率しか得られなかった。しかし、低域を用いた場合、85%以上の正解率が得られている。これは高い周波数の波長に対してフレーム長が長すぎて、振幅より位相に多くの音声情報が移動したためと考えられる。
【0030】
図7に85.3msの窓長を用いた話者識別結果から、下限周波数を11.7Hzに固定し上限を変化させた場合(LPF)、あるいは上限周波数を12,000Hzに固定し下限周波数を変化させた場合(LPF)を抜粋して併記する。両線はおよそ3,000Hzで、75%の正解率をもって交差している。3,000Hzはおよそ第二ホルマントや子音の主成分の上限周波数である。さらに電話帯域の上限でもあることから、3,000Hz以下に重要な音声情報が含まれるという結果は、電話通話においても話者をほぼ識別できる我々の経験とも一致する。また、3,000Hz以上にも以下と同等の個人情報が含まれるという結果が得られた。
【0031】
振幅スペクトラムによる話者識別実験結果より、伝達系によって個人差が生じる、音声の高音域にも個人情報が含まれることが分かった。次に、時間領域による話者識別実験では、第3ホルマントを境に音声を2分割することとし、第3ホルマントを含まない125〜2,000Hzの低音域と、第3ホルマント以上の帯域である2,000〜11,313Hzの高音域に分けて実験を行った。
【0032】
試験材料としては、振幅スペクトラムによる話者識別実験と同信号を用いた。図8に処理手法を示す。各被験者の判定用文章は、各々において低域(125~2000Hz)は1/4オクターブバンドフィルターで17帯域に、高域(2,000〜11,331Hz)は1/8 オクターブバンドフィルターで21帯域に分ける。分割した各帯域は半波整流をした後、40Hzのローパスフィルターを通して包絡線を得る。ドルルマン(Drullman)は人間の聴覚の特性から1/4オクターブバンドの狭帯域を使用したが、本実験では2,000Hz以上の帯域では第三ホルマントの幅を想定して1/8オクターブバンドの狭帯域を用いた。フィルタはthe IIR filter bank
(fourth-order Butterworth, Mat-Lab signal-tool box “butter”)を使用した。
【0033】
次に、各文章の包絡線による帯域間相関行列、低域(17×17)、高域(21×21)を求める。ビムボット(Bimbot)等はDFTで求めた声の周波数特性を24帯域に分け、dBスケールにして、各帯域間の2次元統計を使って話者識別実験を行った。我々は周波数特性の時間変動にも個人性があると推測するため、周波数特性の代わりに、包絡線のdB値を用いた。各帯域の包絡線の平均値を除去して相関値の算出することにより、周波数特性の相対値の時間変動を用いた2次元統計である帯域間相関行列となる。各被験者の判定用10文章の基準帯域間相関行列を、周波数帯域別に平均を行い、各被験者の判定用相関行列とする。
【0034】
被験者の識別用文章のテスト帯域間相関行列を求め、このテスト帯域間相関行列と先の判定用相関行列の行列間相関値を求め、評価値とする。同処理は被験者20人すべての判定用相関行列について行われ、1識別用文章に対して20の評価結果が得られる。ここで、最も大きな評価値が得られた被験者がこの識別用文章の第一候補の話者となる。
【0035】
図9に低音域、図10に高音域の被験者20人の判定用相関行列を示す。図9、10の被験者A〜Jは男性、被験者K〜Tは女性の話者の判定用相関行列を示す。低音域の判定用相関行列は500Hzあたりで男女の差がはっきりと表れ、女性の特性は500Hzで相関の低下が生じている。これは、基本周波数やホルマントの幅などの男女差が影響していると考えられる。それに対し、高音域は性差より個人差が確認できる。
【0036】
この判定用相関行列を用いて話者識別実験を行った結果、低音域では20人中11人正解、55%の正解率であった。高音域では20人中19人正解し、95%の正解率が得られた。第二候補も含めると100%の正解率が得られた。図11、12に実験に用いた判定用文章による低域、高域の帯域間相関行列の分散を70dBのダイナミックレンジで示す。各図とも、(a)は話者分散、(b)は文章分散を示す。
【0037】
低域の帯域相関行列の分散は、文章分散図に若干分散が高い帯域がみられる。それに対し高域の帯域間相関行列では、話者分散図に分散の高い帯域が明確に現れている。この高い分散を持つ帯域によって識別がなされると想定されるところから、低域では文章識別、高域では話者識別に優位であるといえる。
【0038】
図13,14に本実験で使用した帯域間相関行列から一定条件のもとに話者・文章を無作為に抜粋した2文章の帯域間相関の相関値をヒストグラムで示す。低域を用いたヒストグラムである図13の(a)〜(c)は男女の区別なく抜粋して求めたヒストグラム、(d)〜(f)は性別に分けてから抜粋して求めたヒストグラムを示す。異なった被験者で同一文章の結果を示す(b)は頻度分布に2つの山が現れているが、性別に分けた(e)のヒストグラムでは高い相関値が得られる頻度に山が集まった。これは、低域では文章識別より性識別のほうが優位であることを示す。さらに(d)〜(f)を比較すると、(e)が最も高い相関値が得られた頻度が多かった。このことから2,000Hz 以下の包絡線には個人情報より文章内容の情報が多く含まれていることがわかる。これに対して高帯域による図14では、(a)の同一話者の場合、文章が異なっても高い相関値が得られる頻度が高いことを示した。そして被験者が異なれば例え同じ文章であっても、帯域間相関の相関値は低くなる頻度が多いことがわかった。
【0039】
図15(a)に低域制限(HPF)、高域制限(LPF)を行ったときの話者識別結果を示す。両結果は5,000Hz付近で50%の正解率で交点を示した。これより2,000〜5,000Hzと5,000〜11,313Hzに同等の話者情報が含まれることがわかった。(b)はHPF、LPFを使用して1行列毎に話者識別を行った結果を、(c)は(b)に対応する行列の分散をdBスケールで示している。
【0040】
このように、3,000Hz以上の振幅スペクトル、2,000Hz以上の狭帯域包絡線の帯域間類似度に個人差があることが証明できた。次に、2,000Hz以上の包絡線相関行列に含まれる話者情報を、帯域別にさらに評価することを試みる。そこで相関行列の(a)行要素、(b)三角行列要素、(c)小行列要素に分割して話者情報を解析する。これにより、周波数帯域に加えて、話者情報を表すもっとも重要な行列要素が明らかになる。
【0041】
(a) 相関行列の行分析
図16(a)は、相関行列の行要素による話者識別結果を求めたものである。図16(a)の実線は、話者識別に使用する相関行列要素を、2,000Hzを基準とし他の帯域との相関を表す1行21列から一行ずつ拡大したときの話者識別結果を示す。よって、最終行要素(11,313Hzと他の帯域との相関)まで拡大すると、相関行列全体を使用した結果となる。同図の点線は一行ずつの相関行列要素のみで話者識別を実施した結果を示す。一行ずつ拡大したときの話者識別の正解率は4,000Hz以上から上昇している。それに対し、一行あたりの正解率は全体的に基準とする周波数高くなるにつれ正解率が減少していく傾向が見られる。しかし、6727Hzで高い正解率が得られている。
【0042】
(b) 相関行列の三角行列分析
相関行列は対象行列であるため、上下いずれかの三角行列によって表される。ここでは三角行列の対角項要素に着目して話者情報を評価する。それぞれの包絡線の周波数帯域に順番に番号をつけたとき、上記の対角要素は帯域番号の間隔がnである帯域間の相関を示す要素である。図16(b)は対角要素ごとに、話者識別実験を行った結果である。実線、点線は図16(a)と同様である。Nが大きくなるにつれ話者識別に使われる要素が減るにも関わらず、7〜9−帯域離れた相関を示す対角要素が高い正解率を示した。本実験では1/8オクターブバンドごとに包絡線を用いているため、9帯域離れた二帯域の中心周波数は1オクターブ間の相関を示している。図17に高い正解率が得られた7〜9−帯域間隔の相関値表す三角相関行列の要素を示す。図中‘*’印は最も低い相関値を示す。図17からわかるように、全ての男性ならびにL,M,RとSを除く女声の相関行列に、相関が極端に低下する「相関の谷(図中*)」が見られる。これらの「相関の谷」は、中心周波数4756 から6727Hzの5帯域と各々7〜9帯域低い周波数帯域との相関値に多く分布していた。性別では、10人の男性の内7人が4756、5187Hzに、6人の女性の内4人が6727Hzに「相関値の谷」がみられた。6727Hzは図16(a)で観測された話者識別の正解率が高い帯域と一致する。
【0043】
(c) 5帯域別話者識別(相関行列の小行列分散)
音声の個人性を分析する帯域を制限すると、相関行列の小行列が得られる。ここでは、話者情報を含む周波数帯域を、相関行列の小行列に着目して分析を行った。図17に示される「相関値の谷」の分布を参考に、帯域幅を5帯域として話者識別実験を行った。図18に帯域制限した小行列による話者識別実験結果を男女別に示す。(a)の男声の話者識別結果は各帯域と3,000〜7,000Hzの帯域との相関値を使った識別で高い識別結果が得られた。これは、「相関値の谷」の分布と一致する。それに対し、(b)の女声の場合、250Hz以上の帯域と7,000Hz 以上の帯域との相関値との識別結果で高い識別結果が得られた。この男女の差は、「相関値の谷」が女声において明確に現れないことも原因のひとつと考えられる。これは、女性の声門のルースな締まりや開放周期の長さなど音源に起因する事象と一致するものと考えられる。
【0044】
図19に上述した話者識別実験で使用した21.3msの窓長で算出した振幅スペクトラムに「相関の谷」の中心周波数を併記する。どの被験者においても「相関の谷」は周波数特性のトレンドな傾きの変換点と一致するように捉えられる。よって、この「相関値の谷」は、上述した母音と子音のエネルギー反転する周波数と関連が深いと考えられる。また、「相関値の谷」以上の高い周波数には個人性がみられ、数人の話者においては周期性を持った変動が現れている。これが、上記において得られた3,000Hz以上に含まれる個人情報の要素と言える。ここで2上記結果とあわせて検討すると、「相関値の谷」より低い周波数は母音の特性と一致し、高い周波数は子音の特性と一致して尚且つ母音の特性も含まれていることとなる。よって、「相関値の谷」を含む高い周波数帯域を対象とした話者識別実験で得られる高い正解率は、話者の伝達系の特性によって識別されたものと考えられる。
【0045】
以上述べたように、音声の周波数領域、時間領域に着目した話者識別実験を行い、音声に含まれる個人情報の検出が行われた。DFTを使った周波数領域による話者識別実験結果は、分析窓長に依存し、21.3, 85.3msの窓長を用いた周波数特性で高い話者識別正解率が得られた。帯域制限をした識別結果により、3,000Hz以上と以下に同等の個人情報が含まれることがわかった。時間領域による話者識別実験では、狭帯域包絡線の帯域間相関行列を用いて行われた。その結果、2000Hz以下の帯域には個人情報より性差や文章情報が多く含まれ、2,000Hz以上の帯域には個人情報が多く含まれることがわかった。20人の話者による話者識別実験では95%の正解率を得られ、第二候補の識別結果を含めると100%の正解率であった。狭帯域包絡線で得られる帯域間相関行列が話者識別実験の正解率に大きく寄与した帯域を観察すると、ほかの帯域との相関値が低い「相関値の谷」があることがわかった。この帯域は周波数特性上にも観測され、母音のエネルギーと子音のエネルギーが入れ替わる帯域付近であった。話者識別において、この「相関値の谷」を含む帯域により正解率が上昇することがわかった。また、この特性は女声より男声に顕著に現れた。
【図面の簡単な説明】
【0046】
【図1】本発明の実施の形態に係る音声情報識別方法及びその装置を示すブロック図である。
【図2】本発明の実施の形態に係る音声情報識別方法及びその装置を示すブロック図である。
【図3】本発明の実施の形態に係る音声情報識別方法及びその装置を示すブロック図である。
【図4】本発明の実施の形態において、母音と子音の振幅平均した周波数特性を示す図である。
【図5】本発明の実施の形態において、音声スペクトルを使用する話者識別方法を示すブロック図である。
【図6】本発明の実施の形態において、(a)は5.3msの窓長を使った話者識別結果を示し、(b)は21.3msの窓長を使った話者識別結果を示し、(c)は85.3msの窓長を使った話者識別結果を示し、(d)は682.6msの窓長を使った話者識別結果を示す。
【図7】本発明の実施の形態において、音声スペクトルを使用する話者識別方法を示すブロック図である。
【図8】本発明の実施の形態において、狭帯域包絡線を使用する話者識別方法を示すブロック図である。
【図9】本発明の実施の形態において、低音域の被験者(a)〜(t)20人の判定用相関行列を示す図であり、被験者(a)〜(j)は男性、被験者(k)〜(t)は女性の話者の判定用相関行列を示している。
【図10】本発明の実施の形態において、低音域の被験者(a)〜(t)20人の判定用相関行列を示す図であり、被験者(a)〜(j)は男性、被験者(k)〜(t)は女性の話者の判定用相関行列を示している。
【図11】本発明の実施の形態において、判定用文章による低域、高域の帯域間相関行列の分散を70dBのダイナミックレンジで示す図であり、(a)は話者分散、(b)は文章分散を示している。
【図12】本発明の実施の形態において、判定用文章による低域、高域の帯域間相関行列の分散を70dBのダイナミックレンジで示す図であり、(a)は話者分散、(b)は文章分散を示している。
【図13】本発明の実施の形態において、帯域間相関行列から一定条件の基に話者・文章を無作為に抜粋した2文章の帯域間相関の相関値を示す図であり、(a)は同一の被験者で900組の異なる文章の場合、(b)は異なる被験者で900組の同一文章の場合、(c)は異なる被験者で900組の異なる文章の場合、(d)は同一の性別の同一の被験者で900組の異なる文章の場合、(e)は同一の性別の同一の被験者で900組の同一の文章の場合、(f)は同一の性別の異なる被験者で900組の異なる文章の場合を示している。
【図14】本発明の実施の形態において、帯域間相関行列から一定条件の基に話者・文章を無作為に抜粋した2文章の帯域間相関の相関値を示す図であり、(a)は同一の被験者で900組の異なる文章の場合、(b)は異なる被験者で900組の同一文章の場合、(c)は異なる被験者で900組の異なる文章の場合を示している。
【図15】本発明の実施の形態において、(a)は低域制限(HPF),高域制限(LPF)を行なった時の話者識別率を示す図であり、(b)はHPF,LPFを使用して1列毎に話者識別を行なった結果を示す図であり、(c)は(b)に対応する行列の分散をdBスケールで示す図である。
【図16】本発明の実施の形態において、(a)は相関行列の行要素による話者識別結果を示す図であり、(b)は対角要素ごとに話者識別実験を行なった結果を示す図である。
【図17】本発明の実施の形態において、(a)〜(t)20人の1/8オクターブ中心周波数間の相関を示す図であり、被験者(a)〜(j)は男性、被験者(k)〜(t)は女性の話者の場合を示している。
【図18】本発明の実施の形態において、帯域制限した小行列による話者識別実験の結果を示す図であり、(a)は男性の場合、(b)は女性の場合を示す。
【図19】本発明の実施の形態において、周波数とパワースペクトルの関係を示す図であり、(a)は男性の場合、(b)は女性の場合を示す。
【符号の説明】
【0047】
1 懇請情報識別装置
3 低域相関行列算出手段
4 高域相関行列算出手段
5 低域相関行列辞書作成手段
6 高域相関行列辞書作成手段
7 識別手段
8 話者識別手段

【特許請求の範囲】
【請求項1】
複数の話者により個々に入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出し、相関行列辞書を作成する過程と、
特定の話者により入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出する過程と、
該算出された相関行列と前記相関行列辞書の各相関行列とを識別する過程と、
該識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する過程と、
を含むことを特徴とする音声情報識別方法。
【請求項2】
前記相関行列辞書を作成する過程は、低域において算出された相関行列に基づき低域相関行列辞書を作成する過程と、高域において算出された相関行列に基づき高域相関行列辞書を作成する過程とを含み、
前記相関行列を算出する過程は、特定の話者により入力された低域の音声から相関行列を算出する過程と、特定の話者により入力された高域の音声から相関行列を算出する過程とを含み、
前記相関行列辞書の各相関行列と識別する過程は、前記特定の話者の低域の音声から算出された相関行列と前記低域相関行列辞書の各相関行列とを識別すると共に、前記特定の話者の高域の音声から算出された相関行列と前記高域相関行列辞書の各相関行列とを識別する過程とを含み、
前記話者を識別する過程は、前記低域における識別結果と前記高域における識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する過程を含んでいる請求項1に記載の音声情報識別方法。
【請求項3】
前記相関行列辞書を作成する過程は、低域において算出された相関行列に基づき低域相関行列辞書を作成する過程、又は、高域において算出された相関行列に基づき高域相関行列辞書を作成する過程を含み、
前記相関行列を算出する過程は、特定の話者により入力された低域の音声から相関行列を算出する過程、又は、特定の話者により入力された高域の音声から相関行列を算出する過程を含み、
前記相関行列辞書の各相関行列と識別する過程は、前記特定の話者の低域の音声から算出された相関行列と前記低域相関行列辞書の各相関行列とを識別すると過程、又は、前記特定の話者の高域の音声から算出された相関行列と前記高域相関行列辞書の各相関行列とを識別する過程とを含み、
前記話者を識別する過程は、前記低域における識別結果、又は、前記高域における識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する過程を含んでいる請求項1に記載の音声情報識別方法。
【請求項4】
複数の話者により個々に入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出し、相関行列辞書を作成する手段と、
特定の話者により入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出する手段と、
該相関行列を算出手段により算出された相関行列と前記相関行列辞書の各相関行列とを識別する手段と、
該識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する手段と、
を備えていることを特徴とする音声情報識別装置。
【請求項5】
前記相関行列辞書を作成する手段は、低域において算出された相関行列に基づき低域相関行列辞書を作成する手段と、高域において算出された相関行列に基づき高域相関行列辞書を作成する手段とを備え、
前記相関行列を算出する手段は、特定の話者により入力された低域の音声から相関行列を算出する手段と、特定の話者により入力された高域の音声から相関行列を算出する手段とを含み、
前記相関行列辞書の各相関行列と識別する手段は、前記特定の話者の低域の音声から算出された相関行列と前記低域相関行列辞書の各相関行列とを識別すると共に、前記特定の話者の高域の音声から算出された相関行列と前記高域相関行列辞書の各相関行列とを識別する手段とを備え、
前記話者を識別する手段は、前記低域における識別結果と前記高域における識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する手段を備えている請求項3に記載の音声情報識別装置。
【請求項6】
前記相関行列辞書を作成する手段は、低域において算出された相関行列に基づき低域相関行列辞書を作成する手段、又は、高域において算出された相関行列に基づき高域相関行列辞書を作成する手段を備え、
前記相関行列を算出する手段は、特定の話者により入力された低域の音声から相関行列を算出する手段、又は、特定の話者により入力された高域の音声から相関行列を算出する手段を含み、
前記相関行列辞書の各相関行列と識別する手段は、前記特定の話者の低域の音声から算出された相関行列と前記低域相関行列辞書の各相関行列とを識別する手段、又は、前記特定の話者の高域の音声から算出された相関行列と前記高域相関行列辞書の各相関行列とを識別する手段を備え、
前記話者を識別する手段は、前記低域における識別結果、又は、前記高域における識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する手段を備えている請求項3に記載の音声情報識別装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2006−221081(P2006−221081A)
【公開日】平成18年8月24日(2006.8.24)
【国際特許分類】
【出願番号】特願2005−36428(P2005−36428)
【出願日】平成17年2月14日(2005.2.14)
【出願人】(899000068)学校法人早稲田大学 (602)
【Fターム(参考)】