説明

音声処理装置およびプログラム

【課題】高精度な話者認識を実現し得る特徴量を提案する。
【解決手段】特徴抽出部32は、音声信号Vのうち所定の周波数fcを上回る成分について自己相関数列AVを特徴量FVとして算定する。自己相関数列AVは、音声信号Vの自己相関値a(m)の系列(時系列)である。記憶装置24は、参照用の自己相関数列AREFを記憶する。話者認識部34は、音声信号Vの自己相関数列AVと参照用の自己相関数列AREFとの比較で話者認識を実行する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号を処理する技術に関する。
【背景技術】
【0002】
音声信号から抽出された特徴量を利用した話者認識の技術が従来から提案されている。例えば、特許文献1には、音声信号を時間軸上で区分した複数の区間の各々から抽出された平均パワースペクトルやMFCC(mel-frequency cepstral coefficient)を利用して、各区間を話者毎に分類する技術が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−20458号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、平均パワースペクトルやMFCCを利用する構成では、充分に高精度な話者認識を実現できない可能性もある。したがって、高精度な話者認識を実現できる新規な特徴量が従来から強く要望および期待されている。以上の事情を背景として、本発明は、高精度な話者認識を実現し得る特徴量を提案することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の第1の態様に係る音声処理装置は、音声信号の自己相関数列を算定する特徴抽出手段と、自己相関数列を特徴量として話者認識を実行する話者認識手段とを具備する。以上の形態においては、音声信号の自己相関数列が話者認識の特徴量として利用されるから、高精度な話者認識を実現することが可能である。
【0006】
音声信号のうち高域側の成分ほど発話の内容に応じた自己相関数列の変動が抑制されるという傾向がある。したがって、発話の内容に影響されない高精度な話者認識を実現するという観点からすると、音声信号のうち所定の周波数を上回る成分について自己相関数列を算定する構成が格別に好適である。
【0007】
ところで、複数の音声信号の類否(相関の有無)の判定には、例えば、各音声信号の特徴量の相関を示す相関係数(相互相関)が利用される。しかし、特徴量を規定する数値列が表す分布(スペクトルや時間波形など)における強度の相違は相関係数に必ずしも反映されない。例えば、周波数が共通で振幅が相違する複数の正弦波の相関係数は、周波数および振幅の双方が共通する(すなわち、波形が完全に合致する)複数の正弦波の相関係数と同じ数値(最大値)となる。したがって、発声者を高精度に区別できない場合がある。
【0008】
以上の課題を解決するために、本発明の第2の態様に係る音声処理装置は、複数の数値の系列で表わされる特徴量を音声信号から抽出する特徴抽出手段と、複数の数値の系列で表わされる参照用の特徴量を記憶する記憶手段と、特徴抽出手段が抽出した特徴量と参照用の特徴量との各々における対応する位置に、相異なる数値を含む補助成分を付加する成分付加手段と、補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定手段と、類否指標値を利用して話者認識を実行する認識処理手段とを具備する。以上の態様においては、音声信号の特徴量と参照用の特徴量とが共通の補助成分の付加後に比較されるから、音声信号の特徴量の各数値の系列が参照用の特徴量の各数値の系列の定数倍であるような関係が成立する場合でも、音声信号の特徴量と参照用の特徴量との相違を類否指標値にて顕在化することが可能である。したがって、高精度な話者認識が可能である。
【0009】
なお、特許文献1の技術においては、音声信号を区分した複数の区間から2個の区間を選択する複数の組合せについて特徴量の類否を判定するから、音声信号の各区間を実時間的に発声者毎に分類することは困難である。そこで、本発明の第3の態様に係る音声処理装置は、音声信号を複数の区間に区分する音声区分手段と、音声信号の各区間について特徴量を抽出する特徴抽出手段と、参照用の特徴量を記憶する記憶手段と、各区間の特徴量を利用して複数の区間の各々を発声者毎の集合に分類する話者認識手段とを具備し、話者認識手段は、特徴抽出手段が算定した一の区間の特徴量について、記憶手段が記憶する参照用の特徴量との類否を示す類否指標値と、既存の集合に分類された1以上の区間に対応する特徴量との類否を示す類否指標値とを算定する指標算定手段と、一の区間の特徴量が、参照用の特徴量に類似する場合に、一の区間を新規な集合に分類し、既存の集合の特徴量に類似する場合に、一の区間を既存の集合に分類する認識処理手段とを含む。以上の態様においては、音声信号を区分した1個の区間の特徴量を参照用の特徴量および既存の集合の特徴量と比較することで各区間が発声者毎の集合に分類されるから、音声信号の全部の区間は各区間の分類に必要ない。したがって、音声信号の各区間を実時間的に分類できる(すなわち、音声信号の各区間が供給されるたびに当該区間を何れかの集合に分類できる)という利点がある。
【0010】
第3の態様に係る音声処理装置の具体例において、認識処理手段は、一の区間の特徴量が参照用の特徴量に類似する場合であっても、既存の集合の特徴量との類否指標値が所定の閾値に対して類似側の数値である場合には、一の区間を当該既存の集合に分類する。以上の態様によれば、発声者が共通する複数の区間が別個の集合に分類される可能性が低減されるという利点がある。また、認識処理手段は、一の区間の特徴量が記既存の集合の特徴量に類似する場合であっても、既存の集合の特徴量との類否指標値が所定の閾値に対して非類似側の数値である場合には、一の区間を新規な集合に分類する。以上の態様によれば、発声者が異なる複数の区間が共通の集合に分類される可能性が低減されるという利点がある。
【0011】
なお、「類否指標値が所定の閾値に対して類似側の数値である場合」には、各特徴量が類似するほど増加するように定義された類否指標値が所定の閾値を上回る場合と、各特徴量が類似するほど減少するように定義された類否指標値が所定の閾値を下回る場合とが包含される。同様に、「類否指標値が所定の閾値に対して非類似側の数値である場合」には、各特徴量が類似するほど増加するように定義された類否指標値が所定の閾値を下回る場合と、各特徴量が類似するほど減少するように定義された類否指標値が所定の閾値を上回る場合とが包含される。
【0012】
第1の態様と第2の態様と第3の態様とから選択された2以上の態様は任意に併合される。例えば、第2の態様および第3の態様における特徴量は本来的には任意ではあるが、第1の態様の自己相関数列を第2の態様および第3の態様における特徴量として採用することが可能である。また、第2の態様における成分付加手段を第1の態様や第3の態様に付加した構成も採用される。
【0013】
本出願内の「話者認識」は、音声信号の音声の発声者が正規の登録者に該当するか否かを判定する話者認証(話者照合)と、音声信号の音声の発声者を識別する話者識別とを包括する概念である。話者識別は、音声信号の音声の発声者が複数の登録者の何れに該当するのかを判定する処理と、複数の発声者が存在する状況で収録された音声の各区間が何れの発声者の音声に該当するのかを判定する処理(更には各区間を発声者毎に分類する処理)とを包含する。以上のように定義された話者認識の概念に含まれる何れの処理にも、本発明(第1の態様から第3の態様)を適用することが可能である。もっとも、話者認識以外の処理に対する本発明の適用の可能性を排除する趣旨ではない。
【0014】
以上の各態様に係る音声処理装置は、音声信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。例えば、本発明の第1の態様に係るプログラムは、音声信号の自己相関数列を算定する特徴抽出処理と、自己相関数列を特徴量として利用した話者認識処理とをコンピュータに実行させる。
【0015】
第2の態様に係るプログラムは、複数の数値の系列で表わされる特徴量を音声信号から抽出する特徴抽出処理と、特徴抽出処理で抽出した特徴量と複数の数値の系列で表わされる参照用の特徴量との各々における対応する位置に、相異なる数値を含む補助成分を付加する成分付加処理と、補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定処理と、類否指標値を利用した話者認識処理とをコンピュータに実行させる。また、第3の態様に係るプログラムは、音声信号を複数の区間に区分する音声区分処理と、音声信号の各区間について特徴量を抽出する特徴抽出処理と、各区間の特徴量を利用して複数の区間の各々を発声者毎の集合に分類する話者認識処理とをコンピュータに実行させるプログラムであって、話者認識処理が、特徴抽出処理で算定した一の区間の特徴量について、参照用の特徴量との類否を示す類否指標値と、既存の集合に分類された1以上の区間に対応する特徴量との類否を示す類否指標値とを算定する指標算定処理と、一の区間の特徴量が、参照用の特徴量に類似する場合に、一の区間を新規な集合に分類し、既存の集合の特徴量に類似する場合に、一の区間を既存の集合に分類する認識処理とを含む。
【0016】
以上の各態様に係るプログラムによれば、本発明の各態様に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0017】
【図1】本発明の第1実施形態に係る音声処理装置のブロック図である。
【図2】音声信号(低域側の成分)の自己相関数列を発声者毎に示すグラフである。
【図3】音声信号(高域側の成分)の自己相関数列を発声者毎に示すグラフである。
【図4】特徴抽出部のブロック図である。
【図5】2種類の波形と相関係数との関係を説明するための概念図である。
【図6】2種類の波形に補助成分を付加した場合の相関係数を説明するための概念図である。
【図7】第2実施形態に係る音声処理装置のブロック図である。
【図8】第3実施形態に係る音声処理装置のブロック図である。
【図9】音声信号の区分について説明するための概念図である。
【図10】話者認識部の動作のフローチャートである。
【発明を実施するための形態】
【0018】
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100Aのブロック図である。図1に示すように、音声処理装置100Aには、信号供給装置12と出力装置14とが接続される。信号供給装置12は、音声の時間軸上の波形を表す音声信号Vを音声処理装置100Aに供給する。例えば、周囲の音声を収音して音声信号Vを生成する収音機器や、各種の記録媒体から音声信号Vを取得する再生装置や、通信網から音声信号Vを受信する通信装置が、信号供給装置12として利用される。
【0019】
音声処理装置100Aは、音声信号Vを利用した話者認識を実行する装置(話者認識装置)である。具体的には、音声処理装置100Aが実行する話者認識は、音声信号Vの音声の発声者が複数の登録者の何れに該当するのかを判定する話者識別である。出力装置14は、音声処理装置100Aによる話者認識(話者識別)の結果を画像や音声で出力する。例えば表示装置や印刷装置や放音機器(スピーカやヘッドホン)が出力装置14として利用される。
【0020】
図1に示すように、音声処理装置100Aは、演算処理装置22と記憶装置24とを含んで構成されるコンピュータシステムである。記憶装置24は、演算処理装置22が実行するプログラム26や演算処理装置22が使用するデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置24として任意に採用される。
【0021】
演算処理装置22は、記憶装置24に格納されたプログラム26を実行することで、音声信号Vの話者認識を実行するための複数の機能(特徴抽出部32,話者認識部34)を実現する。なお、演算処理装置22の各要素を複数の装置(集積回路)に分散的に搭載した構成や、音声信号Vの処理に専用される電子回路(DSP)が各要素を実現する構成も採用される。
【0022】
図1の特徴抽出部32は、音声信号Vの特徴量FVを抽出する。具体的には、特徴抽出部32は、音声信号Vの自己相関数列AVを特徴量FVとして生成する。自己相関数列AVは、音声信号Vの自己相関値a(m)の系列(時系列)に相当する。記号mは、音声信号Vに対する自身の時間軸上の移動量(時間差)を示す整数である。
【0023】
図2および図3は、試験的に採取された音声信号Vの自己相関数列AV(自己相関関数)を、3人の発声者S(SA〜SC)の各々について図示したグラフである。図2には、音声信号Vの低域側(1.5kHz以下)の成分の自己相関数列AVが図示され、図3には、音声信号Vの高域側(2kHz〜7.8kHz)の成分の自己相関数列AVが図示されている。図2および図3の各グラフにおける横軸は、音声信号Vの時間軸上の移動量(自身との時間差)を意味し、縦軸は、自己相関値a(m)を意味する。各発声者Sのグラフには、発話の内容が異なる複数の音声信号Vの自己相関数列AVが併記されている。
【0024】
図2や図3から把握されるように、自己相関数列AVには、発声者に固有で発話の内容に依存しない特徴が現れる。したがって、音声信号Vの話者認識のための特徴量として自己相関数列AVを利用することが可能である。ただし、図2に例示した低域側の成分には、図3に例示した高域側の成分と比較すると、発話の内容に起因した自己相関値a(m)の変動が発生し易い。高精度な話者認識のためには発話の内容に独立な特徴量(例えば、発声者の声道の共振特性を反映した特徴量)が要望されるから、話者認識用の特徴量としては、音声信号Vのうち所定の周波数を上回る成分の自己相関数列AVが格別に好適である。
【0025】
図4は、図1の特徴抽出部32の具体的なブロック図である。図4の低域抑圧部51は、音声信号Vのうち所定の周波数fcを下回る成分を抑圧するフィルタ(ハイパスフィルタ)である。低域抑圧部51による処理後の音声信号Vを対象とした話者認識にて所望の精度が実現される程度に、発話の内容に起因した自己相関値a(m)の変動が抑制されるように、周波数fcは実験的または統計的に選定される。具体的には、1.5kHz以上かつ2.0kHz以下の範囲内の数値が周波数fcとして好適である。
【0026】
時間-周波数変換部52は、低域抑圧部51による処理後の音声信号V(例えば2.0kHz〜7.8kHzの成分)を時間軸上で区分した複数のフレームの各々について周波数スペクトルQを生成する。周波数スペクトルQの生成には、高速フーリエ変換などの公知の技術が任意に採用される。パワー算定部53は、周波数スペクトル(振幅スペクトル)Qの絶対値の自乗をパワースペクトル|Q|2として算定する。平均部54は、パワー算定部53が算定したパワースペクトル|Q|2を複数のフレームについて平均(または加算)することで平均パワースペクトル(平均周波数特性)Pを生成する。平均パワースペクトルPの算定に使用されるパワースペクトル|Q|2のフレームの個数や位置は任意である。
【0027】
周波数-時間変換部55は、平均部54が生成した平均パワースペクトルPに逆フーリエ変換を実行する。Wiener-Khintchineの定理から、平均パワースペクトルPに逆フーリエ変換を実行した時間領域の数値列が自己相関数列AVに相当する。具体的には、周波数-時間変換部55は、以下の数式(1)の演算(逆フーリエ変換)で各自己相関値a(m)を算定する。なお、数式(1)の記号kは、周波数軸上に離散的に設定された複数の周波数(周波数ビン)の何れかを指定する整数であり、数式(1)の記号p(k)は、平均パワースペクトルPのうち記号kが示す周波数での強度(パワー)を意味する。
【数1】

【0028】
図1に示すように、記憶装置24には、特徴量FVと同種の参照用の特徴量FREF(辞書)が、相異なる複数の登録者の各々の音声について事前に格納される。具体的には、自己相関数列AVと同様の方法で登録者毎に生成された自己相関数列AREFが特徴量FREFとして記憶装置24に格納される。なお、自己相関数列AREFの生成には特徴抽出部32を流用できるが、音声処理装置100Aとは別個の装置で登録者毎に生成して記憶装置24に格納する方法も採用される。自己相関数列AVを構成する自己相関値a(m)の個数と参照用の自己相関数列AREFを構成する自己相関値a(m)の個数とは共通する。
【0029】
話者認識部34は、特徴抽出部32が抽出した特徴量FV(自己相関数列AV)と記憶装置24に格納された各特徴量FREF(自己相関数列AREF)とを比較することで話者認識を実行する。図1に示すように、話者認識部34は、指標算定部42と認識処理部44とを含んで構成される。指標算定部42は、音声信号Vの自己相関数列AVと参照用の自己相関数列AREFとの類否(特徴量FVと特徴量FREFとの相関)を示す類否指標値Rを、記憶装置24に格納された複数の自己相関数列AREFの各々について算定する。具体的には、話者認識部34は、以下の数式(2)で定義される相関係数Corを類否指標値Rとして算定する。
【0030】
【数2】

相関係数Corは、数値d1(i)の系列と数値d2(i)の系列との相関を示す数値である(iは整数)。数式(2)の記号d1_aveは、複数の数値d1(i)の平均値を意味し、数式(2)の記号d2_aveは、複数の数値d2(i)の平均値を意味する。数式(2)から理解されるように、数値d1(i)の系列と数値d2(i)の系列とが類似するほど(すなわち各系列が示す波形の相関が高いほど)、相関係数Corは大きい数値となり、両者が完全に合致する場合に最大値「1」となる。

【0031】
図1の指標算定部42は、自己相関数列AVの各自己相関値a(m)を数式(2)の各数値d1(i)に代入するとともに自己相関数列AREFの各自己相関値a(m)を数式(2)の各数値d2(i)に代入したときの相関係数Corを類否指標値Rとして算定する。したがって、自己相関数列AVと自己相関数列AREFとが類似するほど類否指標値Rは大きい数値となる。
【0032】
図1の認識処理部44は、指標算定部42が自己相関数列AREF毎(登録者毎)に算定した類否指標値Rを利用した話者識別を実行する。具体的には、認識処理部44は、複数の登録者のうち自己相関数列AVと自己相関数列AREFとの類否指標値Rが最大となる登録者を特定する。すなわち、音声信号Vの音声の発声者(未知)が複数の登録者のなかから識別される。認識処理部44による識別の結果は出力装置14から出力される。
【0033】
以上の形態においては、音声信号Vの自己相関数列AVが話者認識の特徴量FVとして利用されるから、高精度な話者認識を実現することが可能である。また、音声信号Vのうち周波数fcを上回る成分(すなわち、発話の内容に起因した自己相関値a(m)の変動が少ない成分)の自己相関数列AVが話者認識に適用されるから、発話の内容に拘わらず高精度な話者認識が可能であるという格別の効果が実現される。
【0034】
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。第2実施形態においては、類否指標値Rの算定の対象が第1実施形態とは相違する。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
【0035】
図5および図6は、第2実施形態にて類否指標値Rを算定する方法の原理を説明するための概念図である。図5には、周波数が共通で振幅が相違する2種類の波形(WA,WB)が図示されている。波形WAを表す数値列(数値d1(i)の系列)と波形WBを表す数値列(数値d2(i)の系列)とから数式(2)で算定される相関係数Corは、波形WAと波形WBとで振幅が相違するにも拘わらず、両者の合致を意味する最大値「1」となる。したがって、相関係数Corからは波形WAと波形WBとを区別できない。
【0036】
他方、図6は、波形WAおよび波形WBの各々における相対応する位置に共通の成分(以下「補助成分」という)Wpを付加した場合が図示されている。図6の例示では、波形WAおよび波形WBの各々の直後に補助成分Wpが付加されている。補助成分Wpは、強度が変動する成分(非直流成分)である。具体的には、強度が周期的に変動する波形の成分(例えば正弦波成分)が補助成分Wpとして好適に採用される。なお、図6においては、補助成分Wpの振幅が波形WAの振幅を上回るとともに波形WBの振幅を下回り、かつ、補助成分Wpの周波数が波形WAおよび波形WBの周波数を上回る場合を例示したが、補助成分Wpの振幅や周波数は任意に変更される。
【0037】
波形WAに補助成分Wpを付加した波形WApを表す数値列(数値d1(i)の系列)と、波形WBに補助成分Wpを付加した波形WBpを表す数値列(数値d2(i)の系列)とから数式(2)で算定される相関係数Corは、最大値「1」を下回る数値(例えば0.9)となる。すなわち、共通の補助成分Wpを付加することで、波形WAと波形WBとの相違(振幅の相違)を相関係数Corにて顕在化させることが可能である。他方、波形WAと波形WBとが完全に合致するならば、補助成分Wpの付加後も波形は当然に合致するから、相関係数Corは最大値となる。第2実施形態においては、以上の原理を利用して、音声信号Vの特徴量FV(自己相関数列AV)と参照用の特徴量FREF(自己相関数列AREF)との相違を顕在化させる。
【0038】
図7は、第2実施形態に係る音声処理装置100Bのブロック図である。図7に示すように、音声処理装置100Bは、第1実施形態の音声処理装置100Aに成分付加部36を追加した構成である。成分付加部36は、特徴抽出部32が生成した自己相関数列AVと記憶装置24に格納された複数の自己相関数列AREFの各々とに対して共通の補助成分Wpを付加する。補助成分Wpは、相異なる数値を含む複数の数値wの系列(例えば正弦波の強度の時系列)として設定される。
【0039】
図7の指標算定部42は、補助成分Wpを付加した自己相関数列AVと補助成分Wpを付加した参照用の自己相関数列AREFとの類否指標値Rを、記憶装置24に格納された複数の自己相関数列AREFの各々について算定する。具体的には、指標算定部42は、自己相関数列AVの各自己相関値a(m)と補助成分Wpの各数値wとを数式(2)の各数値d1(i)に代入するとともに、自己相関数列AREFの各自己相関値a(m)と補助成分Wpの各数値wとを数式(2)の各数値d2(i)に代入することで、自己相関数列AVと自己相関数列AREFとの類否指標値R(相関係数Cor)を算定する。認識処理部44による話者認識の方法は第1実施形態と同様である。
【0040】
第2実施形態においては、共通の補助成分Wpを付加した自己相関数列AVと自己相関数列AREFとの比較で話者認識が実行されるから、補助成分Wpを付加しない第1実施形態と比較すると、自己相関数列AVと自己相関数列AREFとの相違を顕在化させることが可能である。したがって、第1実施形態よりも高精度な話者認識が実現されるという利点がある。
【0041】
<C:第3実施形態>
次に、本発明の第3実施形態について説明する。話者認識のひとつの態様である話者識別は、音声の発声者が複数の登録者の何れであるのかを判定する処理と、複数の発声者が存在する状況で収録された音声の各区間が何れの発声者の音声に該当するのかを判定する処理とに大別される。第1実施形態や第2実施形態では前者の話者識別を例示したが、第3実施形態では後者の話者識別を例示する。なお、以下では第1実施形態の構成を基礎として第3実施形態を説明するが、第2実施形態における成分付加部36を第3実施形態に追加することも当然に可能である。
【0042】
図8は、第3実施形態に係る音声処理装置100Cのブロック図である。図8に示すように、音声処理装置100Cは、第1実施形態の音声処理装置100Aに音声区分部38を追加するとともに、第1実施形態の認識処理部44を認識処理部46に置換した構成である。複数の発声者が存在する状況(例えば複数の参加者が存在する会議)で収録された音声信号Vが信号供給装置12から音声処理装置100Cに供給される。
【0043】
音声区分部38は、音声信号Vを時間軸上で複数の区間(ブロック)Bに区分する。各区間Bは、ひとりの発声者が連続して発生した可能性が高いと推定される期間である。各区間Bには固有の識別子Ibが付与される。音声処理装置100Cは、音声信号Vの各区間Bが何れの発声者の音声に該当するのかを判定する。
【0044】
通常の発話(特に会議における発言)には、発話の開始点から音量が徐々に増加するとともに途中の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。そこで、音声区分部38は、図9に示すように、音声信号Vの波形の包絡線(エンベロープ)Eに現れる複数の谷部Dの各々を境界として音声信号Vを複数の区間Bに区分する。以上の構成によれば、例えばひとりの発声者による発声の最後の部分と別の発声者による発生の先頭の部分とが重複する場合や、複数の発声者が間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間Bに区分することが可能である。もっとも、音声信号Vを複数の区間Bに区分する方法は本発明において任意である。
【0045】
特徴抽出部32は、音声信号Vの複数の区間Bの各々について特徴量FV(自己相関数列AV)を算定する。他方、記憶装置24は、代表的な複数種の声質の音声(サンプル)の各々について特徴量FVと同種の特徴量FREF(自己相関数列AREF)を辞書として記憶する。すなわち、第1実施形態や第2実施形態では、音声信号Vの発声者の候補となる複数の登録者の特徴量FREFを事前に生成して記憶装置24に格納したが、第3実施形態では、音声信号Vの発声者の特徴量FREFが記憶装置24に格納されるわけではない。
【0046】
図8の話者認識部34は、音声信号Vの各区間Bの特徴量FVを利用して複数の区間Bの各々を発声者毎の集合(クラスタ)CLj(jは自然数)に分類する。区間Bの分類は、各区間Bの特徴量FVを特徴抽出部32が算定するたびに実時間的に実行される。図8に示すように、話者認識部34による分類の結果に応じて集合CLj毎の記憶領域Mj(M1,M2,……)が記憶装置24に設定される。集合CLjの記憶領域Mjには、集合CLjに分類された各区間Bの識別子Ibおよび当該区間B内の音声信号Vと、集合CLjに分類された各区間Bの特徴量FVに応じた特徴量FCとが記憶される。集合CLjの特徴量FCは、例えば、集合CLjに分類された1以上の区間Bの特徴量FVの平均値である。
【0047】
図10は、話者認識部34の動作のフローチャートである。図10に示すように、音声信号Vの最初の区間Bを取得すると(ステップS1)、認識処理部46は、当該区間Bを新規な集合CL1に分類する(ステップS2)。すなわち、認識処理部46は、ステップS1で取得した区間Bの識別子Ibと音声信号Vと特徴量FV(特徴量FC)とを、記憶装置24の記憶領域M1に格納する。
【0048】
次の区間B(以下「対象区間B」という)を取得すると(ステップS3)、指標算定部42は、対象区間Bの特徴量FVと参照用の特徴量FREFとの類否指標値Rを、記憶装置24に格納された複数の特徴量FREFの各々について算定する(ステップS4)。更に、指標算定部42は、対象区間Bの特徴量FVと既存の集合(すなわち、認識処理部46が1以上の区間Bを過去に分類した集合)CLjの特徴量FCとの類否指標値Rを算定する(ステップS5)。
【0049】
図10の処理を開始した直後のステップS5では、最初の区間Bが集合CL1に分類された段階に過ぎないから、認識処理部46は、集合CL1の特徴量FCについてのみ特徴量FVとの類否指標値Rが算定される。他方、図10の処理が進行して複数の集合CLjが生成された段階では、認識処理部46は、集合CLjの特徴量FCと対象区間Bの特徴量FVとの類否指標値Rを複数の集合CLjの各々についてステップS5で算定する。なお、ステップS4やステップS5における類否指標値Rの算定の方法は第1実施形態と同様である。また、ステップS4およびステップS5の順序は逆転され得る。
【0050】
認識処理部46は、ステップS4およびステップS5にて算定した複数の類否指標値Rのなかの最大値が、参照用の特徴量FREFの類否指標値R(ステップS4)と、既存の集合CLの特徴量FVの類否指標値R(ステップS5)との何れに該当するのかを判定する(ステップS6)。
【0051】
参照用の特徴量FREFとの類否指標値Rが最大値である場合(S6:YES)、認識処理部46は、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとの類否指標値R(ステップS5)のなかの最大値Rmax1が所定の閾値RTH1を上回るか否か(すなわち、両者が充分に類似するか否か)を判定する(ステップS7)。ステップS7の結果が否定である場合(すなわち、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとが類似しない場合)、認識処理部46は、対象区間Bを新規な集合CLjに分類する(ステップS10)。すなわち、認識処理部46は、対象区間Bの識別子Ibと音声信号Vと特徴量FV(特徴量FC)とを集合CLjの記憶領域Mjに格納する。
【0052】
他方、ステップS7の結果が肯定である場合(すなわち、対象区間Bの特徴量FVが、参照用の特徴量FREFに類似するけれども、既存の集合CLjの特徴量FCにも充分に類似する場合)、認識処理部46は、既存の集合CLjのうちステップS5で算定した類否指標値Rが最大となる集合CLjに対象区間Bを分類する(ステップS8)。具体的には、認識処理部46は、対象区間Bの識別子Ibと音声信号Vとを既存の集合CLjの記憶領域Mjに追加するとともに、当該集合CLjの特徴量FCを、対象区間Bの特徴量FVに応じた数値(例えば、集合CLjに過去に分類された各区間Bの特徴量FVと対象区間Bの特徴量FVとの平均値)に更新する。以上の説明から理解されるように、対象区間Bの発声者と既存の集合CLj内の区間Bの発声者とが共通すると充分に高い確度で判断できる場合に限って両者間の類否指標値Rが閾値RTH1を上回るように、ステップS7で適用される閾値RTH1は実験的または統計的に設定される。
【0053】
既存の集合CLjの特徴量FCとの類否指標値Rが最大値であるとステップS6で判定した場合(S6:NO)、認識処理部46は、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとの類否指標値R(ステップS5)のなかの最大値Rmax2が、所定の閾値RTH2を下回るか否か(すなわち、両者が充分に相違するか否か)を判定する(ステップS9)。ステップS9の結果が否定である場合(すなわち、対象区間Bの特徴量FVと集合CLjの特徴量FCとが類似する場合)、認識処理部46は、既存の集合CLjのうちステップS5で算定した類否指標値Rが最大となる集合CLjに対象区間Bを分類する(ステップS8)。ステップS8の処理は前述の通りである。
【0054】
他方、ステップS9の結果が肯定である場合(すなわち、対象区間Bの特徴量FVが参照用の特徴量FREFおよび既存の集合CLjの特徴量FCの何れにも類似しない場合)、認識処理部46は、対象区間Bを新規な集合CLjに分類する(ステップS10)。ステップS10の処理は前述の通りである。
【0055】
ステップS8またはステップS10の処理を実行すると、話者認識部34は、話者認識を終了するか否かを判定する(ステップS11)。話者認識の終了の指示が利用者から付与された場合や音声信号Vの全部の区間Bの分類が完了した場合に、認識処理部46は話者認識を終了する(S11:YES)。他方、話者認識を終了しない場合、話者認識部34は、処理をステップS3に移行し、次に取得する区間Bを新たな対象区間BとしてステップS4以降の処理を実行する。したがって、音声信号Vの複数の区間Bのうち特徴量FVが類似する各区間B(すなわち、発声者が共通すると判断できる区間B)が共通の集合CLjに分類される。以上の説明から理解されるように、対象区間Bの発声者と既存の集合CLj内の区間Bの発声者とが相違すると充分に高い確度で判断できる場合に限って両者間の類否指標値Rが閾値RTH2を下回るように、ステップS9で適用される閾値RTH2は実験的または統計的に設定される。
【0056】
認識処理部46による分類の結果は出力装置14から出力される。例えば、会議の議事録が出力装置14から画像として出力される。議事録には、音声信号Vの区間B毎に、当該区間Bが分類された集合CLjの識別子(発声者の識別子)と、当該区間B内の音声信号Vの音声認識で特定された文字列(すなわち、発言の内容)とが、時系列に配列される。
【0057】
以上の形態においては、音声信号Vを区分した1個の区間Bの特徴量FVを参照用の特徴量FREFおよび既存の集合CLjの特徴量FCと比較することで各区間Bが発声者毎の集合CLjに分類されるから、音声信号Vの全部の区間Bは1個の区間Bの分類に必要ない。したがって、音声信号Vの各区間Bを実時間的に分類できるという利点がある。なお、参照用の特徴量FREFを記憶装置24に格納せずに、既存の各集合CLjの特徴量FCと区間Bの特徴量FVとの類否指標値Rを閾値と比較することで各区間Bを発声者毎に分類する構成(以下「対比例」という)も想定される。しかし、対比例のもとでは、類否の判断の基準となる閾値を適切に選定することが困難であるという問題がある。他方、第3実施形態においては、既存の集合CLjの特徴量FCに対する類否指標値Rと参照用の特徴量FREFに対する類否指標値Rとの大小に応じて各区間Bの分類が実行されるから、対比例における閾値の設定は問題にならないという利点がある。
【0058】
さらに、以上の形態においては、対象区間Bの特徴量FVが参照用の特徴量FREFに最も類似する場合であっても、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとの類否指標値Rが閾値RTH1を上回るほどに両者が類似する場合には、対象区間Bが当該集合CLjに分類される。したがって、共通の発声者が発声した複数の区間Bが別の集合CLjに分類される可能性が低減されるという利点がある。また、対象区間Bの特徴量FVが既存の集合CLjの特徴量FCに最も類似する場合であっても、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとの類否指標値Rが閾値RTH2を下回るほどに両者が相違する場合、対象区間Bは当該集合CLjには分類されない、したがって、別の発声者が発声した複数の区間Bが同じ集合CLjに分類される可能性が低減されるという利点がある。
【0059】
<D:変形例>
以上に例示した各形態は様々に変形され得る。変形の具体的な態様を以下に例示する。なお、以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0060】
(1)変形例1
第1実施形態では平均パワースペクトルPの逆フーリエ変換で自己相関数列AVを算定したが、時間領域の演算で音声信号Vから自己相関数列AVを算定する構成も採用される。ただし、周波数領域の演算で自己相関数列AVを算定する第1実施形態によれば、特徴抽出部32による演算量が削減されるという利点がある。また、低域抑圧部51の位置は任意に変更される。例えば、時間-周波数変換部52の後段に低域抑圧部51を配置して周波数スペクトルQのうちの低域側の成分を抑圧する構成も採用される。もっとも、低域抑圧部51は本発明において必須ではない。すなわち、音声信号Vのうちの低域側の成分の自己相関数列AVにも発声者に固有の特徴は現れるから、低域抑圧部51を省略した構成(すなわち、音声信号Vの全帯域を対象として自己相関数列AVを算定する構成)であっても、話者認識に利用できる自己相関数列AV(特徴量FV)を算定することは可能である。
【0061】
(2)変形例2
以上の各形態においては自己相関数列(AV,AREF)を特徴量(FV,FREF,FC)として例示したが、第2実施形態や第3実施形態における特徴量(FV,FREF,FC)の種類は任意に変更される。例えば、音声の平均パワースペクトルP(周波数スペクトルQの絶対値の自乗の平均値)や、周波数スペクトルQから算定されるケプストラムの複数のフレームにわたる平均(平均ケプストラム)を特徴量(FV,FREF,FC)として利用することが可能である。
【0062】
また、類否指標値Rは数式(2)の相関係数Corに限定されず、特徴量FVや特徴量FREFの種類に応じた適切な類否指標値Rが選定される。例えば、特徴量FVおよび特徴量FREFとして平均ケプストラムを利用した構成では、特徴量FVと特徴量FREFとの差分(第3実施形態では更に特徴量FVと特徴量FCとの差分)が類否指標値Rとして算定される。なお、平均パワースペクトルPを特徴量FVや特徴量FREFとして利用した構成では、数式(2)の相関係数Corが類否指標値として利用される。また、特徴量FVや特徴量FREFの種類によっては、距離や尤度を類否指標値Rとして算定する構成も好適である。
【0063】
以上のように類否指標値Rの定義は任意である。また、類否指標値Rの大小と特徴量FVおよび特徴量FREFとの類否との関係は類否指標値Rの定義に応じて定まる。すなわち、以上の各形態においては特徴量FVと特徴量FREFとが類似するほど類否指標値Rが大きい数値となるように類否指標値Rを定義したが、特徴量FVと特徴量FREFとが類似するほど類否指標値Rが小さい数値となるように類否指標値Rを定義した構成(例えば、特徴量FVと特徴量FREFとの距離を類否指標値Rとした構成)も採用される。
【0064】
(3)変形例3
第2実施形態における特徴量(FV,FREF)として平均パワースペクトルPを採用した場合、成分付加部36は、音声信号Vの平均パワースペクトルPV(特徴量FV)と、各登録者の音声の平均パワースペクトルPREF(特徴量FREF)との各々に共通の補助成分Wpを付加する。指標算定部42は、平均パワースペクトルPVにおける周波数毎の強度(パワー)の数値と補助成分Wpの各数値とを数式(2)の各数値d1(i)に代入するとともに、平均パワースペクトルPREFにおける周波数毎の強度の数値と補助成分Wpの各数値とを数式(2)の各数値d2(i)に代入したときの相関係数Corを類否指標値Rとして算定する。
【0065】
また、補助成分Wpを付加する位置は適宜に変更される。例えば、特徴量FV(自己相関数列AVや平均パワースペクトルPV)と特徴量FREF(自己相関数列AREFや平均パワースペクトルPREF)の各々における先頭や途中の位置に補助成分Wpを付加または挿入する構成でも、第2実施形態と同様の効果が実現される。つまり、特徴量FVと特徴量FREFとにおける相対応する位置(両者における同じ位置)に補助成分Wpを付加する構成が本発明においては好適であるが、特徴量FVや特徴量FREFにおける補助成分Wpの具体的な位置は不問である。更に、補助成分Wpが示す波形も任意である。すなわち、補助成分Wpが示す波形に拘わらず、共通の補助成分Wpを特徴量FVと特徴量FREFとに付加することで第2実施形態と同様の効果が実現される。
【0066】
以上の説明から理解されるように、第2実施形態における成分付加部36は、特徴抽出部32が抽出した特徴量FVおよび特徴量FREFの各々を示す数値列(自己相関数列や平均パワースペクトルを構成する数値の集合)に共通の補助成分Wp(典型的には非直流成分)を付加する要素として包括される。
【0067】
(4)変形例4
以上の各形態においては話者識別を例示したが、第1実施形態の音声処理装置100Aや第2実施形態の音声処理装置100Bは、音声信号Vの音声の発声者が正規の登録者に該当するか否かを判定する話者認証(話者照合)にも利用される。例えば、正規の登録者の音声から抽出された特徴量FREF(例えば自己相関数列AREF)が記憶装置24に格納され、指標算定部42は、音声信号Vから抽出された特徴量FV(例えば自己相関数列AV)と登録者の特徴量FREFとの類否指標値Rを算定する。認識処理部44は、類否指標値Rの大小に応じて音声信号Vの音声の発声者の正当性を判定する。具体的には、認識処理部44は、類否指標値Rが所定の閾値を上回る場合(特徴量FVと特徴量FREFとが類似する場合)には発声者の正当性を認証し、類否指標値Rが閾値を下回る場合には認証を否定する。
【0068】
(5)変形例5
以上の各形態においては1種類の特徴量FVを利用したが、相異なる複数種の特徴量の組合せを特徴量FV(さらには特徴量FREF)として話者認識に利用する構成も好適である。例えば、自己相関数列AVと平均パワースペクトルPと平均ケプストラムとから選択された2種以上の特徴量の組合せを特徴抽出部32が特徴量FVとして抽出する。指標算定部42は、特徴量FVの特徴量毎に参照用の特徴量FREFとの類否指標値を算定するとともに各特徴量の類否指標値の加重和を話者認識用の類否指標値Rとして算定する。以上の構成によれば、特徴量FVと特徴量FREFとの類否の判断に音声の様々な観点(性質)が反映されるから、1種類の特徴量を利用する場合と比較して高精度な話者認識が実現されるという利点がある。また、各特徴量の類否指標値の加重和が類否指標値Rとして話者認識に利用されるから、特定の特徴量を他の特徴量に対して優先させるといった操作が可能である。
【符号の説明】
【0069】
100A,100B,100C……音声処理装置、12……信号供給装置、14……出力装置、22……演算処理装置、24……記憶装置、26……プログラム、32……特徴抽出部、34……話者認識部、36……成分付加部、38……音声区分部、42……指標算定部、44……認識処理部、46……認識処理部、51……低域抑圧部、52……時間-周波数変換部、53……パワー算定部、54……平均部、55……周波数-時間変換部。


【特許請求の範囲】
【請求項1】
音声信号の自己相関数列を算定する特徴抽出手段と、
前記自己相関数列を特徴量として話者認識を実行する話者認識手段と
を具備する音声処理装置。
【請求項2】
前記特徴抽出手段は、前記音声信号のうち所定の周波数を上回る成分について自己相関数列を算定する
請求項1の音声処理装置。
【請求項3】
参照用の自己相関数列を記憶する記憶手段と、
前記特徴抽出手段が算定した自己相関数列と前記参照用の自己相関数列との各々における対応する位置に、相異なる数値を含む共通の補助成分を付加する成分付加手段とを具備し、
前記話者認識手段は、前記補助成分の付加後の各自己相関数列の類否を示す類否指標値を算定する指標算定手段と、
前記類否指標値を利用して話者認識を実行する認識処理手段とを含む
請求項1または請求項2の音声処理装置。
【請求項4】
音声信号を複数の区間に区分する音声区分手段を具備し、
前記音声抽出手段は、前記各区間について自己相関数列を算定し、
前記話者認識手段は、前記各区間の自己相関数列を利用して前記複数の区間の各々を発声者毎の集合に分類する
請求項1から請求項3の何れかの音声処理装置。
【請求項5】
参照用の自己相関数列を記憶する記憶手段を具備し、
前記話者認識手段は、
前記特徴抽出手段が算定した一の区間の自己相関数列について、前記記憶手段が記憶する参照用の自己相関数列との類否を示す類否指標値と、既存の集合に分類された1以上の区間に対応する自己相関数列との類否を示す類否指標値とを算定する指標算定手段と、
前記一の区間の自己相関数列が、前記参照用の自己相関数列に類似する場合に、前記一の区間を新規な集合に分類し、前記既存の集合の自己相関数列に類似する場合に、前記一の区間を前記既存の集合に分類する認識処理手段を含む
請求項4の音声処理装置。
【請求項6】
前記認識処理手段は、前記一の区間の自己相関数列が参照用の自己相関数列に類似する場合であっても、前記既存の集合の自己相関数列との類否指標値が所定の閾値に対して類似側の数値である場合には、前記一の区間を当該既存の集合に分類する
請求項5の音声処理装置。
【請求項7】
前記認識処理手段は、前記一の区間の自己相関数列が前記既存の集合の自己相関数列に類似する場合であっても、前記既存の集合の自己相関数列との類否指標値が所定の閾値に対して非類似側の数値である場合には、前記一の区間を新規な集合に分類する
請求項5または請求項6の何れかの音声処理装置。
【請求項8】
音声信号の自己相関数列を算定する特徴抽出処理と、
前記自己相関数列を特徴量として利用した話者認識処理と
をコンピュータに実行させるプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−276697(P2010−276697A)
【公開日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願番号】特願2009−126598(P2009−126598)
【出願日】平成21年5月26日(2009.5.26)
【出願人】(899000068)学校法人早稲田大学 (602)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】