音声信号処理装置及びプログラム

【課題】音声信号処理装置において、高精度な音声−非音声識別手段を実現する。
【解決手段】入力信号と音声モデルとの照合により音声性スコアを算出する手段を設け、さらに入力信号のＳＮＲを推定する手段を設け、推定ＳＮＲを用いて前記音声性スコアを補正する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声符号化装置や音声認識装置などの音声信号処理装置や音声信号処理システムに関し、特に入力信号から音声信号と非音声信号を識別する音声-非音声判別技術に属する。
【背景技術】
【０００２】
音声符号化装置においては入力信号の内、音声信号部分については音声信号であることを仮定した符号化が行なわれ、背景騒音などの非音声部分については符号化を行なわずに予め決められた信号を送るといった処理が行なわれている。不必要な符号化処理を省くことにより、省電力化が期待されるし、また、音声でない部分を音声と仮定して符号化処理を行なうと、誤った符号化処理に基づく品質劣化等の問題が生ずる。また、音声認識装置においては、前処理として入力信号の中から音声信号部分のみを取り出す音声検出処理が行なわれるのが一般的である。音声認識装置は取り出された音声信号部分に対して音声認識処理を行なう。非音声部分に対しては音声認識処理を施さないようにすることにより、環境ノイズ信号などによる誤動作を防ぐことができる。
【０００３】
このように、入力信号の中から音声信号部分と非音声信号部分を識別する技術は音声符号化装置や音声認識装置等の音声信号処理装置にとって重要な要素技術となる。音声信号と非音声信号を識別する技術としては、最も簡単な方法としては入力信号のパワーレベルの閾値判定による方法などがある。しかしながら、このような方法では、背景騒音のある環境における性能が不十分であり、この解決策として幾つかの手法が提案されている。例えば、電話通信における呼び出し音、トーン信号、話中音などを音声信号と誤認識することを防ぐために信号の相関性の判定と信号の継続時間の判定を利用するもの（例えば、特許文献１）。また、雑音環境下での音声検出性能を向上させるために、無声音区間に関する学習ベクトルと有声音区間に関する学習ベクトルを予め用意し、これと入力信号の特徴ベクトルの内積をとり、その内積値の閾値判定をすることにより背景雑音を子音と誤識別することを防ぐ技術もある（例えば、特許文献２）。
【０００４】
【特許文献１】特開２００１−２８２２６６号公報
【０００５】
【特許文献２】特開２００２−９１４６７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
上記従来技術の内、特許文献１のような手法では、音声と非音声の識別をするに当たり、非音声として扱っている対象が電話通信におけるトーン信号や話中音、呼び出し音など電話通信に特有の周期性の高い機械音に限られており、その他の様々な環境音、例えば物を叩く音、物を擦る音、さらには家庭内で生ずる様々な生活環境音、例えば流しの音、掃除機の音といった非音声信号に対する考慮はされていなかった。
【０００７】
また、特許文献２のような手法では、入力信号を無声音、有声音、非音声という３つの大分類で考えており、この大分類によって分離が良いような入力信号を扱う場合には問題ないが、上記に述べた生活環境音に代表されるような様々な環境音を非音声として考えた場合、例えば楽器の音や、ベルの音など有声音特性としては音声信号に類似した非音声信号も各種存在するので、音声と非音声の識別が十分にできない。また、背景騒音が大きい環境下では、有声音についてもＳＮ比が低くなるとともに有声性が低下し、音声と非音声の区別がつきにくくなる問題があった。
【課題を解決するための手段】
【０００８】
本発明では上記問題を解決するために、音声信号には必ず母音成分が含まれるという特徴を利用し、入力信号の中から母音信号を検出する手段を設け、母音信号が検出された場合には音声信号であると判断し、入力信号中に母音信号が検出されない場合には非音声であると判断することを特徴とする。さらに、本発明では入力信号のＳＮ比を推定する手段を設け、上記母音信号を検出する手段が、前記推定されたＳＮ比の値の情報を用いるように構成したことを特徴とする。
【発明の効果】
【０００９】
本発明の構成によれば、生活環境音、例えば流しの音や掃除機の音、楽器の音などを始めとした広範囲の非音声を非音声として識別することができ、高精度な音声／非音声識別が可能となる。さらに、本発明の構成によれば、入力信号のＳＮ比が低くなった場合にも、高精度な音声／非音声識別が可能となる。
【発明を実施するための最良の形態】
【００１０】
本発明の実施の形態について、図面を用いて説明する。
図１は本発明の音声信号処理装置の構成を示すブロック図である。信号入力部１１から取り込まれた入力信号は信号分析部１２において一定時間間隔毎に特徴ベクトルに変換され、出力される。音声-非音声識別部１３では、信号分析部１２から出力された特徴ベクトルを入力し、該信号が音声であるか非音声であるかの識別を行なう。該信号が音声である場合にはスイッチ１４を操作し、信号分析部１２の出力が音声信号処理部１５にわたるようにする。一方、音声-非音声識別部１３にて、該信号が非音声と識別された場合にはスイッチ１４を操作して、信号分析部１２の出力が音声信号処理部１５にわたらないようにする。以上により、音声信号処理部１５には音声と判断された場合にのみ入力信号が入力され、非音声と判断された場合には音声信号処理部１５には入力信号がわたされない。なお、音声信号処理部１５の処理には、音声符号化処理や音声認識処理など一般的な音声信号処理を用いることができる。
【００１１】
次に、図１の中の音声-非音声識別部１３の処理の詳細を図２を用いて説明する。図２は音声-非音声識別部１３の構成を示すブロック図である。音声-非音声識別部１３に入力された特徴ベクトルは母音モデル照合部２１において、母音モデル２２と照合され、その照合結果を用いて音声性スコア計算部２３において、音声性スコアが計算される。音声性スコアとは入力信号が音声であるらしい程度を表すスコアである。すなわち、音声性スコアが大きいほど入力信号は音声らしいということになる。音声モデル照合結果を用いて音声性スコアを計算する方法は様々な方法が考えられる。例えば、５母音（「あ」「い」「う」「え」「お」）のモデル照合結果の内、最大値を与える照合スコアを時間軸方向に累積した上で、時間長で正規化するといった計算方法などが考えられる。前記、「最大値」のかわりに「最大値−最小値」を用いる方法も考えられる。
【００１２】
このようにして音声性スコア計算部２３で得られた音声性スコアに対して閾値判定処理部２４にて閾値判定し、予め定めた閾値より大きい場合には入力信号を音声であると判定し、閾値より小さい場合には入力信号が非音声であると判定する。以上により、入力信号が音声であるか非音声であるかの識別が可能となる。本願では音声信号には必ず母音成分が含まれるという特徴を利用し、入力信号の中から母音モデルを用いて入力信号に母音が含まれるか否かで音声であるかを判断する。このように本願では母音成分の存在を元に音声であるかの判定を行なっており、日本語に限らず外国語に対しても音声であるか非音声であるかの識別が可能となる。
【００１３】
次に図２の音声-非音声識別部１３の中で用いている母音モデルの作成方法について、図３を用いて説明する。図３は母音モデルの作成方法を示すブロック図である。図３では母音モデルに限定せず、一般の音声モデルの作成方法を説明している。一般に音声モデルを作成するに当たっては大量の音声データベースが必要になる。例えば、男女各数百名が発声した数百文などを音声データベースとして用いる。図３の音声データベース３２として、このような音声データベースを用意する。音声モデル作成に当たっては、音声データベース３２の発話内容がわかっている必要があり、これを発話データベース３１として用意する。音声データベース３２中の全音声データは音声分析部３３で音声分析され、特徴ベクトルに変換された上、音声モデル学習部３４に入力される。音声モデル学習部３４では音声分析部３３から入力された特徴ベクトルと発話内容データベース３１の発話内容の対応関係をとった上で、各種音声（各音韻）毎の統計的モデル（HiddenMarkovModel）を作成し、音声モデル３５として出力する。ここで、統計モデルといっているのは具体的には各種音声（各音韻）毎に、特徴ベクトルの平均値や標準偏差の値などの統計量を保持したものである。なお、音声モデルの具体的な作成するに当たっては、ForwardBackwordアルゴリズムなどを用いればよい。アルゴリズムの詳細については、例えば、社団法人電子情報通信学会編、中川聖一著、“確率モデルによる音声認識”等を参照されたい。
【００１４】
次に、図４を用いて、音声-非音声識別部１３の他の実施例の構成を説明する。
図４はＳＮＲ推定部を備えた音声-非音声識別部の構成を示すブロック図である。母音モデル照合部２１、母音モデル２２、音声性スコア計算部２３については図２の場合と同じである。図２と異なる部分についてのみ説明する。図２と異なるのは、新たにＳＮＲ推定部４１と音声性スコア補正部４５を設け、ＳＮＲ推定部４１から得られた推定ＳＮＲを用いて、音声性スコアを補正するようにしことである。信号分析部１２から得られた特徴ベクトルは、母音モデル照合部２１と平行してＳＮＲ推定部４１にも入力される。母音モデル照合部２１では図２の場合と同様に特徴ベクトルと母音モデルとを照合し、その照合結果を音声性スコア計算部２３にわたす。音声性スコア計算部２３では、母音照合結果を用いて、前記説明したように音声性スコアを計算する。
【００１５】
これと平行して、ＳＮＲ推定部４１では入力された特徴ベクトルから入力信号のＳＮＲを推定する。ＳＮＲ推定部４１で推定された推定ＳＮＲは音声性スコア補正部４５に入力される。音声性スコア補正部４５では、音声性スコア計算部２３から入力された音声性スコアに対して、推定ＳＮＲを用いて補正を行なう。補正の具体的処理は、例えば、推定ＳＮＲを用いて音声性スコアを正規化するという処理を行なえばよい。この場合、補正スコア＝音声性スコア／推定ＳＮＲとなる。この場合、推定ＳＮＲが低い場合と高い場合で比べると、推定ＳＮＲが高い場合には補正スコアは低めに、推定ＳＮＲが低い場合には補正スコアは高目となり、ＳＮＲが低い場合にも音声性を検出する能力が高くなる。なお、音声性スコアの補正方法は他にも色々考えられる。例えば、推定ＳＮＲで正規化するのではなく、推定ＳＮＲを引くといった補正手段も考えられる。このように推定ＳＮＲを用いて音声性スコアを補正することにより、ＳＮＲの悪い状況下でも高精度な音声-非音声識別の実現が可能となる。
【００１６】
次に、ＳＮＲ推定部４１の構成方法について、図５を用いて説明する。図５はＳＮＲ推定部４１の構成を示すブロック図である。信号入力部５１から入力された入力信号は信号分析部１２で一定時間間隔毎に特徴ベクトルに変換される。信号分析部１２から出力された特徴ベクトルはＳＮＲモデル照合部５３に入力され、ＳＮＲモデル５５に格納された各種ＳＮＲのモデルと照合され、各種ＳＮＲモデルとの照合値が得られる。なお、各種ＳＮＲモデルというのは各種のＳＮＲ毎に音声信号の特徴ベクトルの統計量を保持したモデルである、例えば、５ｄＢ間隔で０ｄＢ、５ｄＢ、１０ｄＢ、１５ｄＢといった形で各ＳＮＲ毎にモデルを用意する。各種ＳＮＲモデルとの照合結果はＳＮＲ判定部５４に送られ、ＳＮＲ判定部５４にて推定ＳＮＲを求める。ＳＮＲ判定部５４における推定ＳＮＲを求める処理は、色々な方法が考えられるが、例えばＳＮＲモデル照合部５３にて最大値となったＳＮＲモデルのＳＮＲを推定ＳＮＲとするといった方法が考えられる。
【００１７】
次に、ＳＮＲモデル５５の作成方法について図６を用いて説明する。図６はＳＮＲモデルの作成方法を示すブロック図である。あらかじめ、大量の音声データベース６２と雑音データベース６１を用意する。信号重畳部６３では音声データベース６２の中の音声信号と雑音データベース６１の中の雑音信号を様々な比率で混合し、複数のＳＮＲの信号を作成する。このようにして作られた適当なＳＮＲの信号は信号分析部１２にて特徴ベクトルに変換される。ＳＮＲモデル学習部６５では信号分析部１２から得られた多数のＳＮＲの信号の特徴ベクトルをもとに、各種ＳＮＲについてＳＮＲモデルを作成し、ＳＮＲモデル５５に格納する。ＳＮＲモデル学習部６５での具体的な処理内容は、例えば、K-meansクラスタリングを用い、それぞれのＳＮＲ毎に適当なサイズ（例えば２５６）のコードブックを作成するような処理とすれば良い。
【００１８】
なお、本発明はコンピュータに読み込まれることで実行されるプログラムによる実施も可能である。ソフトウェアで実施する場合のフローチャートを図７に示す。以下、図７のフローチャートに従ってソフトウェアで図４記載の本願実施例を実施する場合の処理を説明する。本処理では信号入力（７０１）のステップから信号終了判定の処理（７１１）までの一連の処理を所定時間間隔、例えば１０ｍｓの一定間隔で実行する。まず、信号入力ステップ（７０１）にて一定時間間隔、例えば１０ｍｓ分の音響信号を取り込む。次に信号分析ステップ（７０２）において前記取り込まれた音響信号の分析を行う。ここで分析とは音響信号の周波数成分を分析する処理であり、フィルタバンク解析やフーリエ解析、ケプストラム解析など様々な手法が考えられる。いずれの手法を用いるにしても、信号分析の結果、一定時間分の音響信号が周波数特性を表わす特徴ベクトルに変換される。
【００１９】
次に前記特徴ベクトルはＳＮＲ推定ステップ（７０３）においてＳＮＲモデル（７０４）と照合され、最も類似しているＳＮＲモデルの持つＳＮＲが推定ＳＮＲとして保持される。次に母音モデル照合ステップ（７０５）において、前記特徴ベクトルが母音モデル（７０６）と照合され、各母音モデルとの照合値が計算される。次に音声性スコア計算ステップ（７０７）において、前記各母音モデルとの照合値に基づいて音声性スコアが計算され、さらに音声性スコア補正ステップ（７０８）において、前記推定ＳＮＲを用いて前記音声性スコアの補正を行う。次に判定処理ステップ（７０９）において前記補正された音声性スコアが閾値以上であるか否かを判定し、閾値以上の場合には音声符号化や音声認識などの音声信号処理（７１０）を行ない、閾値以下の場合には特に処理を行わずに信号終了判定ステップ（７１１）に進む。信号終了判定ステップでは音響信号の終了の判定を行ない、音響信号が終了したと判定された場合には処理全体を終了し、音響信号が継続している場合には信号入力ステップ（７０１）に戻って上記一点の処理を繰り返す。尚、ＳＮＲ推定部を有しない図２記載の実施例の場合にはこのステップは省略する。又、ステップ７０３，７０５の順序が逆でも良い。以上の処理フローに従うことにより、ＳＮＲの悪い雑音環境下でも高精度な音声-非音声識別の実現が可能となり、非音声に対しては処理を施さず、音声に対してのみ処理を施すような音声信号処理装置が実現できる。
【図面の簡単な説明】
【００２０】
【図１】本発明の音声信号処理装置の構成を示すブロック図。
【図２】図１の中の音声-非音声識別部の構成を示すブロック図。
【図３】図２の中の母音モデルの作成方法を示すブロック図。
【図４】ＳＮＲ推定部を備えた音声-非音声識別部の構成を示すブロック図。
【図５】ＳＮＲ推定部の構成を示すブロック図。
【図６】ＳＮＲ推定部にて用いるＳＮＲモデルの作成方法を示すブロック図。
【図７】本発明の音声信号処理装置の処理フローを示すフローチャート。
【符号の説明】
【００２１】
１１・・・信号入力部、１２・・・信号分析部、１３・・・音声非音声識別部
１４・・・スイッチ、１５・・・音声信号処理部
２１・・・母音モデル照合部、２２・・・母音モデル、２３・・・音声性スコア計算部
２４・・・閾値判定処理部、３１・・・発声内容データベース
３２・・・音声データベース、３３・・・音声分析部、３４・・・音声モデル学習部
３５・・・音声モデル、４１・・・ＳＮＲ推定部、４５・・・音声性スコア補正部
５３・・・ＳＮＲモデル照合部、５４・・・ＳＮＲ判定、５５・・・ＳＮＲモデル
６１・・・雑音データベース、６２・・・音声データベース、６３・・・信号重畳部
６５・・・ＳＮＲモデル学習部。

【特許請求の範囲】
【請求項１】
入力された信号を分析して、特徴ベクトルの時系列を出力し、前記特徴ベクトルに対して、音声であるか非音声であるかの判定を記録される母音モデルとの照合結果に基づいて行ない、音声であると判定された特徴ベクトル時系列部分に対して信号処理を施すようにしたことを特徴とする音声信号処理装置。
【請求項２】
上記母音モデルは、音声の種類毎の統計的モデルであることを特徴とする請求項１記載の音声信号処理装置。
【請求項３】
前記特徴ベクトルからＳＮＲを推定する手段を設け、該推定されたＳＮＲも用いて前記音声であるか非音声であるかの判定をするようにしたことを特徴とする、請求項１又は２に記載の音声信号処理装置。
【請求項４】
音声信号入力を受け、
記憶されるＳＮＲモデルを用いて上記入力された音声信号のＳＮＲを推定し、
記憶される母音モデルを用いて上記入力された音声信号の音声性スコアを求め、
上記音声性スコアを上記推定されたＳＮＲを用いて補正し、
上記補正された音声性スコアに基づいて音声であるかを判定する音声信号処理方法をコンピュータに実行させるためのプログラム。

【図１】