説明

音声信号処理装置及びプログラム

【課題】音声信号処理装置において、高精度な音声−非音声識別手段を実現する。
【解決手段】入力信号と音声モデルとの照合により音声性スコアを算出する手段を設け、さらに入力信号のSNRを推定する手段を設け、推定SNRを用いて前記音声性スコアを補正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声符号化装置や音声認識装置などの音声信号処理装置や音声信号処理システムに関し、特に入力信号から音声信号と非音声信号を識別する音声-非音声判別技術に属する。
【背景技術】
【0002】
音声符号化装置においては入力信号の内、音声信号部分については音声信号であることを仮定した符号化が行なわれ、背景騒音などの非音声部分については符号化を行なわずに予め決められた信号を送るといった処理が行なわれている。不必要な符号化処理を省くことにより、省電力化が期待されるし、また、音声でない部分を音声と仮定して符号化処理を行なうと、誤った符号化処理に基づく品質劣化等の問題が生ずる。また、音声認識装置においては、前処理として入力信号の中から音声信号部分のみを取り出す音声検出処理が行なわれるのが一般的である。音声認識装置は取り出された音声信号部分に対して音声認識処理を行なう。非音声部分に対しては音声認識処理を施さないようにすることにより、環境ノイズ信号などによる誤動作を防ぐことができる。
【0003】
このように、入力信号の中から音声信号部分と非音声信号部分を識別する技術は音声符号化装置や音声認識装置等の音声信号処理装置にとって重要な要素技術となる。音声信号と非音声信号を識別する技術としては、最も簡単な方法としては入力信号のパワーレベルの閾値判定による方法などがある。しかしながら、このような方法では、背景騒音のある環境における性能が不十分であり、この解決策として幾つかの手法が提案されている。例えば、電話通信における呼び出し音、トーン信号、話中音などを音声信号と誤認識することを防ぐために信号の相関性の判定と信号の継続時間の判定を利用するもの(例えば、特許文献1)。また、雑音環境下での音声検出性能を向上させるために、無声音区間に関する学習ベクトルと有声音区間に関する学習ベクトルを予め用意し、これと入力信号の特徴ベクトルの内積をとり、その内積値の閾値判定をすることにより背景雑音を子音と誤識別することを防ぐ技術もある(例えば、特許文献2)。
【0004】
【特許文献1】特開2001−282266号公報
【0005】
【特許文献2】特開2002−91467号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
上記従来技術の内、特許文献1のような手法では、音声と非音声の識別をするに当たり、非音声として扱っている対象が電話通信におけるトーン信号や話中音、呼び出し音など電話通信に特有の周期性の高い機械音に限られており、その他の様々な環境音、例えば物を叩く音、物を擦る音、さらには家庭内で生ずる様々な生活環境音、例えば流しの音、掃除機の音といった非音声信号に対する考慮はされていなかった。
【0007】
また、特許文献2のような手法では、入力信号を無声音、有声音、非音声という3つの大分類で考えており、この大分類によって分離が良いような入力信号を扱う場合には問題ないが、上記に述べた生活環境音に代表されるような様々な環境音を非音声として考えた場合、例えば楽器の音や、ベルの音など有声音特性としては音声信号に類似した非音声信号も各種存在するので、音声と非音声の識別が十分にできない。また、背景騒音が大きい環境下では、有声音についてもSN比が低くなるとともに有声性が低下し、音声と非音声の区別がつきにくくなる問題があった。
【課題を解決するための手段】
【0008】
本発明では上記問題を解決するために、音声信号には必ず母音成分が含まれるという特徴を利用し、入力信号の中から母音信号を検出する手段を設け、母音信号が検出された場合には音声信号であると判断し、入力信号中に母音信号が検出されない場合には非音声であると判断することを特徴とする。さらに、本発明では入力信号のSN比を推定する手段を設け、上記母音信号を検出する手段が、前記推定されたSN比の値の情報を用いるように構成したことを特徴とする。
【発明の効果】
【0009】
本発明の構成によれば、生活環境音、例えば流しの音や掃除機の音、楽器の音などを始めとした広範囲の非音声を非音声として識別することができ、高精度な音声/非音声識別が可能となる。さらに、本発明の構成によれば、入力信号のSN比が低くなった場合にも、高精度な音声/非音声識別が可能となる。
【発明を実施するための最良の形態】
【0010】
本発明の実施の形態について、図面を用いて説明する。
図1は本発明の音声信号処理装置の構成を示すブロック図である。信号入力部11から取り込まれた入力信号は信号分析部12において一定時間間隔毎に特徴ベクトルに変換され、出力される。音声-非音声識別部13では、信号分析部12から出力された特徴ベクトルを入力し、該信号が音声であるか非音声であるかの識別を行なう。該信号が音声である場合にはスイッチ14を操作し、信号分析部12の出力が音声信号処理部15にわたるようにする。一方、音声-非音声識別部13にて、該信号が非音声と識別された場合にはスイッチ14を操作して、信号分析部12の出力が音声信号処理部15にわたらないようにする。以上により、音声信号処理部15には音声と判断された場合にのみ入力信号が入力され、非音声と判断された場合には音声信号処理部15には入力信号がわたされない。なお、音声信号処理部15の処理には、音声符号化処理や音声認識処理など一般的な音声信号処理を用いることができる。
【0011】
次に、図1の中の音声-非音声識別部13の処理の詳細を図2を用いて説明する。図2は音声-非音声識別部13の構成を示すブロック図である。音声-非音声識別部13に入力された特徴ベクトルは母音モデル照合部21において、母音モデル22と照合され、その照合結果を用いて音声性スコア計算部23において、音声性スコアが計算される。音声性スコアとは入力信号が音声であるらしい程度を表すスコアである。すなわち、音声性スコアが大きいほど入力信号は音声らしいということになる。音声モデル照合結果を用いて音声性スコアを計算する方法は様々な方法が考えられる。例えば、5母音(「あ」「い」「う」「え」「お」)のモデル照合結果の内、最大値を与える照合スコアを時間軸方向に累積した上で、時間長で正規化するといった計算方法などが考えられる。前記、「最大値」のかわりに「最大値−最小値」を用いる方法も考えられる。
【0012】
このようにして音声性スコア計算部23で得られた音声性スコアに対して閾値判定処理部24にて閾値判定し、予め定めた閾値より大きい場合には入力信号を音声であると判定し、閾値より小さい場合には入力信号が非音声であると判定する。以上により、入力信号が音声であるか非音声であるかの識別が可能となる。本願では音声信号には必ず母音成分が含まれるという特徴を利用し、入力信号の中から母音モデルを用いて入力信号に母音が含まれるか否かで音声であるかを判断する。このように本願では母音成分の存在を元に音声であるかの判定を行なっており、日本語に限らず外国語に対しても音声であるか非音声であるかの識別が可能となる。
【0013】
次に図2の音声-非音声識別部13の中で用いている母音モデルの作成方法について、図3を用いて説明する。図3は母音モデルの作成方法を示すブロック図である。図3では母音モデルに限定せず、一般の音声モデルの作成方法を説明している。一般に音声モデルを作成するに当たっては大量の音声データベースが必要になる。例えば、男女各数百名が発声した数百文などを音声データベースとして用いる。図3の音声データベース32として、このような音声データベースを用意する。音声モデル作成に当たっては、音声データベース32の発話内容がわかっている必要があり、これを発話データベース31として用意する。音声データベース32中の全音声データは音声分析部33で音声分析され、特徴ベクトルに変換された上、音声モデル学習部34に入力される。音声モデル学習部34では音声分析部33から入力された特徴ベクトルと発話内容データベース31の発話内容の対応関係をとった上で、各種音声(各音韻)毎の統計的モデル(HiddenMarkovModel)を作成し、音声モデル35として出力する。ここで、統計モデルといっているのは具体的には各種音声(各音韻)毎に、特徴ベクトルの平均値や標準偏差の値などの統計量を保持したものである。なお、音声モデルの具体的な作成するに当たっては、ForwardBackwordアルゴリズムなどを用いればよい。アルゴリズムの詳細については、例えば、社団法人電子情報通信学会編、中川聖一著、“確率モデルによる音声認識”等を参照されたい。
【0014】
次に、図4を用いて、音声-非音声識別部13の他の実施例の構成を説明する。
図4はSNR推定部を備えた音声-非音声識別部の構成を示すブロック図である。母音モデル照合部21、母音モデル22、音声性スコア計算部23については図2の場合と同じである。図2と異なる部分についてのみ説明する。図2と異なるのは、新たにSNR推定部41と音声性スコア補正部45を設け、SNR推定部41から得られた推定SNRを用いて、音声性スコアを補正するようにしことである。信号分析部12から得られた特徴ベクトルは、母音モデル照合部21と平行してSNR推定部41にも入力される。母音モデル照合部21では図2の場合と同様に特徴ベクトルと母音モデルとを照合し、その照合結果を音声性スコア計算部23にわたす。音声性スコア計算部23では、母音照合結果を用いて、前記説明したように音声性スコアを計算する。
【0015】
これと平行して、SNR推定部41では入力された特徴ベクトルから入力信号のSNRを推定する。SNR推定部41で推定された推定SNRは音声性スコア補正部45に入力される。音声性スコア補正部45では、音声性スコア計算部23から入力された音声性スコアに対して、推定SNRを用いて補正を行なう。補正の具体的処理は、例えば、推定SNRを用いて音声性スコアを正規化するという処理を行なえばよい。この場合、補正スコア=音声性スコア/推定SNR となる。この場合、推定SNRが低い場合と高い場合で比べると、推定SNRが高い場合には補正スコアは低めに、推定SNRが低い場合には補正スコアは高目となり、SNRが低い場合にも音声性を検出する能力が高くなる。なお、音声性スコアの補正方法は他にも色々考えられる。例えば、推定SNRで正規化するのではなく、推定SNRを引くといった補正手段も考えられる。このように推定SNRを用いて音声性スコアを補正することにより、SNRの悪い状況下でも高精度な音声-非音声識別の実現が可能となる。
【0016】
次に、SNR推定部41の構成方法について、図5を用いて説明する。図5はSNR推定部41の構成を示すブロック図である。信号入力部51から入力された入力信号は信号分析部12で一定時間間隔毎に特徴ベクトルに変換される。信号分析部12から出力された特徴ベクトルはSNRモデル照合部53に入力され、SNRモデル55に格納された各種SNRのモデルと照合され、各種SNRモデルとの照合値が得られる。なお、各種SNRモデルというのは各種のSNR毎に音声信号の特徴ベクトルの統計量を保持したモデルである、例えば、5dB間隔で0dB、5dB、10dB、15dBといった形で各SNR毎にモデルを用意する。各種SNRモデルとの照合結果はSNR判定部54に送られ、SNR判定部54にて推定SNRを求める。SNR判定部54における推定SNRを求める処理は、色々な方法が考えられるが、例えばSNRモデル照合部53にて最大値となったSNRモデルのSNRを推定SNRとするといった方法が考えられる。
【0017】
次に、SNRモデル55の作成方法について図6を用いて説明する。図6はSNRモデルの作成方法を示すブロック図である。あらかじめ、大量の音声データベース62と雑音データベース61を用意する。信号重畳部63では音声データベース62の中の音声信号と雑音データベース61の中の雑音信号を様々な比率で混合し、複数のSNRの信号を作成する。このようにして作られた適当なSNRの信号は信号分析部12にて特徴ベクトルに変換される。SNRモデル学習部65では信号分析部12から得られた多数のSNRの信号の特徴ベクトルをもとに、各種SNRについてSNRモデルを作成し、SNRモデル55に格納する。SNRモデル学習部65での具体的な処理内容は、例えば、K-meansクラスタリングを用い、それぞれのSNR毎に適当なサイズ(例えば256)のコードブックを作成するような処理とすれば良い。
【0018】
なお、本発明はコンピュータに読み込まれることで実行されるプログラムによる実施も可能である。ソフトウェアで実施する場合のフローチャートを図7に示す。以下、図7のフローチャートに従ってソフトウェアで図4記載の本願実施例を実施する場合の処理を説明する。本処理では信号入力(701)のステップから信号終了判定の処理(711)までの一連の処理を所定時間間隔、例えば10msの一定間隔で実行する。まず、信号入力ステップ(701)にて一定時間間隔、例えば10ms分の音響信号を取り込む。次に信号分析ステップ(702)において前記取り込まれた音響信号の分析を行う。ここで分析とは音響信号の周波数成分を分析する処理であり、フィルタバンク解析やフーリエ解析、ケプストラム解析など様々な手法が考えられる。いずれの手法を用いるにしても、信号分析の結果、一定時間分の音響信号が周波数特性を表わす特徴ベクトルに変換される。
【0019】
次に前記特徴ベクトルはSNR推定ステップ(703)においてSNRモデル(704)と照合され、最も類似しているSNRモデルの持つSNRが推定SNRとして保持される。次に母音モデル照合ステップ(705)において、前記特徴ベクトルが母音モデル(706)と照合され、各母音モデルとの照合値が計算される。次に音声性スコア計算ステップ(707)において、前記各母音モデルとの照合値に基づいて音声性スコアが計算され、さらに音声性スコア補正ステップ(708)において、前記推定SNRを用いて前記音声性スコアの補正を行う。次に判定処理ステップ(709)において前記補正された音声性スコアが閾値以上であるか否かを判定し、閾値以上の場合には音声符号化や音声認識などの音声信号処理(710)を行ない、閾値以下の場合には特に処理を行わずに信号終了判定ステップ(711)に進む。信号終了判定ステップでは音響信号の終了の判定を行ない、音響信号が終了したと判定された場合には処理全体を終了し、音響信号が継続している場合には信号入力ステップ(701)に戻って上記一点の処理を繰り返す。尚、SNR推定部を有しない図2記載の実施例の場合にはこのステップは省略する。又、ステップ703,705の順序が逆でも良い。以上の処理フローに従うことにより、SNRの悪い雑音環境下でも高精度な音声-非音声識別の実現が可能となり、非音声に対しては処理を施さず、音声に対してのみ処理を施すような音声信号処理装置が実現できる。
【図面の簡単な説明】
【0020】
【図1】本発明の音声信号処理装置の構成を示すブロック図。
【図2】図1の中の音声-非音声識別部の構成を示すブロック図。
【図3】図2の中の母音モデルの作成方法を示すブロック図。
【図4】SNR推定部を備えた音声-非音声識別部の構成を示すブロック図。
【図5】SNR推定部の構成を示すブロック図。
【図6】SNR推定部にて用いるSNRモデルの作成方法を示すブロック図。
【図7】本発明の音声信号処理装置の処理フローを示すフローチャート。
【符号の説明】
【0021】
11・・・信号入力部、12・・・信号分析部、13・・・音声非音声識別部
14・・・スイッチ、15・・・音声信号処理部
21・・・母音モデル照合部、22・・・母音モデル、23・・・音声性スコア計算部
24・・・閾値判定処理部、31・・・発声内容データベース
32・・・音声データベース、33・・・音声分析部、34・・・音声モデル学習部
35・・・音声モデル、41・・・SNR推定部、45・・・音声性スコア補正部
53・・・SNRモデル照合部、54・・・SNR判定、55・・・SNRモデル
61・・・雑音データベース、62・・・音声データベース、63・・・信号重畳部
65・・・SNRモデル学習部。

【特許請求の範囲】
【請求項1】
入力された信号を分析して、特徴ベクトルの時系列を出力し、前記特徴ベクトルに対して、音声であるか非音声であるかの判定を記録される母音モデルとの照合結果に基づいて行ない、音声であると判定された特徴ベクトル時系列部分に対して信号処理を施すようにしたことを特徴とする音声信号処理装置。
【請求項2】
上記母音モデルは、音声の種類毎の統計的モデルであることを特徴とする請求項1記載の音声信号処理装置。
【請求項3】
前記特徴ベクトルからSNRを推定する手段を設け、該推定されたSNRも用いて前記音声であるか非音声であるかの判定をするようにしたことを特徴とする、請求項1又は2に記載の音声信号処理装置。
【請求項4】
音声信号入力を受け、
記憶されるSNRモデルを用いて上記入力された音声信号のSNRを推定し、
記憶される母音モデルを用いて上記入力された音声信号の音声性スコアを求め、
上記音声性スコアを上記推定されたSNRを用いて補正し、
上記補正された音声性スコアに基づいて音声であるかを判定する音声信号処理方法をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2006−71956(P2006−71956A)
【公開日】平成18年3月16日(2006.3.16)
【国際特許分類】
【出願番号】特願2004−255060(P2004−255060)
【出願日】平成16年9月2日(2004.9.2)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】