説明

音声処理装置および音声処理方法

【課題】入力信号におけるノイズ成分と音声成分とを識別する。
【解決手段】音声処理装置110は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部120と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部122と、スペクトルパターンから、ピークを有するピークスペクトルを検出するピーク検出部124と、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する倍音判定部126と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力信号におけるノイズ成分と音声成分とを識別する音声処理装置および音声処理方法に関する。
【背景技術】
【0002】
音声を収音して生成した信号である入力信号には、音声が含まれる音声区間と、会話の合間や息継ぎ等により音声が含まれない非音声区間がある。例えば、音声認識装置では、音声区間と非音声区間とを特定することで、音声の認識率の向上、および、音声認識処理の効率化を図っている。また、携帯電話や無線機等を利用した移動体通信では、音声区間と非音声区間で、入力信号の符号化処理を切り換えることにより、音質を維持しつつ、圧縮率や転送効率を高めることができる。移動体通信では、リアルタイム性が要求されるため、音声区間の判定処理による遅延を抑えることが望まれる。
【0003】
このような遅延を抑えた音声区間の判定処理として、例えば、入力信号のフレームにケプストラム法を用いて倍音成分を最も多く含む基本波を示す情報である調波情報を導出し、その調波情報と、そのフレームのエネルギーが閾値以上か否かを示すパワー情報とがそれぞれ音声の特徴を示すか否かで音声区間を検出したり(例えば、特許文献1)、周波数領域に展開されたスペクトルの自己相関を導出し、その相関の高さから音声区間を検出したりする技術(例えば、特許文献2)が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−294537号公報
【特許文献2】特開2009−69425号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、上述した特許文献1、2等の従来の音声区間の検出技術は、ノイズが比較的低い環境では有効であるが、ノイズが大きくなると、入力信号のフレームの周波数分布の平坦さ(ピークの頻度)、ピッチ(音高)等の音声の性質が、ノイズに埋もれてしまい、音声区間の誤検出が生じ易くなる。また、ケプストラム法は、フーリエ変換を2回も行う必要があり、周波数領域上の処理負荷が高いため電力消費が多くなる。そのため、特に、移動体通信のようにバッテリ駆動を前提とする場合、ケプストラム法を用いると、電力消費を賄うため、バッテリの容量を大きくする必要があり、高コスト化や大型化を招いてしまう。
【0006】
さらに、入力信号に、音声のように周期性を有するノイズを含む場合、音声の周期性に基づいて音声の特徴を検出する従来の手段では、ノイズを音声と判定してしまい誤検出が生じる場合がある。
【0007】
そこで本発明は、このような課題に鑑み、入力信号におけるノイズ成分と音声成分とを識別することが可能な、音声処理装置および音声処理方法を提供することを目的としている。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明の音声処理装置は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部と、スペクトルパターンから、ピークを有するピークスペクトルを検出するピーク検出部と、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する倍音判定部と、を備えることを特徴とする。
【0009】
ピーク検出部は、予め定められた本数のスペクトルのエネルギーの総和と、隣接する予め定められた本数のスペクトルのエネルギーの総和とのエネルギー比が予め定められた閾値を超えると、予め定められた本数のスペクトルのうち、予め定められた規則に基づく1または複数のスペクトルをピークスペクトルとしてもよい。
【0010】
倍音判定部は、複数のスペクトル毎のエネルギーによって重み付けされた重心周波数に基づいて倍音スペクトルを判定してもよい。
【0011】
予め定められた本数のスペクトル全体の周波数帯域は、100Hz未満の周波数帯域であってもよい。
【0012】
スペクトル生成部は、33Hz未満の周波数分解能でスペクトルパターンを生成してもよい。
【0013】
スペクトル生成部は、200Hzから2000Hzの範囲のスペクトルパターンを生成してもよい。
【0014】
スペクトルパターンのうち、ピークスペクトルのうち倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、減衰されたスペクトルパターンに基づいて、フレーム化入力信号が音声であるか否かを判定する音声判定部と、をさらに備えてもよい。
【0015】
スペクトルパターンのうち、ピークスペクトルから倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、減衰されたスペクトルパターンに基づいてノイズ成分を削減するノイズ削減部と、をさらに備えてもよい。
【0016】
上記課題を解決するために、本発明の音声処理方法は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成し、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成し、スペクトルパターンから、ピークを有するピークスペクトルを検出し、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定することを特徴とする。
【0017】
上述した音声処理装置における技術的思想に対応する構成要素やその説明は、当該音声処理方法にも適用可能である。
【発明の効果】
【0018】
以上説明したように本発明では、入力信号におけるノイズ成分と音声成分とを識別することが可能となる。
【図面の簡単な説明】
【0019】
【図1】周期性を有するノイズ信号の周波数特性図である。
【図2】周期性を有するノイズ信号と音声信号とを含む入力信号の周波数特性図である。
【図3】図2に示す入力信号のうち、音声成分のみを抽出した周波数特性図である。
【図4】音声処理装置の概略的な機能を示した機能ブロック図である。
【図5】総和エネルギーの導出を説明するための説明図である。
【図6】重心周波数を説明するための説明図である。
【図7】音声処理方法の処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0020】
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書及び図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。
【0021】
従来の音声区間の検出技術では、音声に対して、音声を収音する対象となる範囲におけるノイズである周囲ノイズ(雑音)が大きくなると、音声特性の検出が困難になり、音声区間の誤検出が生じてしまう場合がある。例えば、交通量の多い交差点、作業中の工事現場、および操業中の工場内等において、携帯電話や無線機等の移動体通信機器を用いて会話する場合、音声区間の判定が正しく行われないことがある。そのため、音声符号化処理において、音声区間を非音声区間と誤判定して、音声区間の入力信号の情報を圧縮し過ぎたり、非音声区間を音声区間と誤判定して効率的な符号化がなされなかったりして、音質の劣化を招き会話に支障をきたすことがあった。また、符号化回路を用いない場合であっても、ノイズキャンセル等の機能を有する移動体通信機器において、音声であるか否かの誤判定が生じると、正常にノイズをキャンセルできず、受話側が非常に聞き取り難い状況になることもあった。
【0022】
特に、入力信号に、音声のように周期性を有するノイズを含む場合、音声の周期性に基づいて音声の特徴を検出する従来の手段では、ノイズを音声と判定してしまう誤検出が生じる場合がある。例えば、音声とノイズが双方含まれるフレームでは音声のみの場合と比較して音声信号の自己相関値が低くなり、本来音声と判定されるべきところ、非音声であると判定されてしまったり、周期性を有するノイズのみのフレームではそのノイズの周期性から音声であると誤判定されてしまったりするおそれがある。
【0023】
図1は、周期性を有するノイズ信号の周波数特性図である。ここでは、走行中のレーシングカーの騒音(ノイズ)を例に挙げている。図1に示すようなノイズ信号は、音声信号ではないにも関わらず、周期性を有するピークスペクトル100が存在するため音声と誤判定される可能性がある。
【0024】
図2は、周期性を有するノイズ信号と音声信号とを含む入力信号の周波数特性図であり、図3は、図2に示す入力信号のうち、音声成分のみを抽出した周波数特性図である。図2と図3を比較して理解できるように、図2の入力信号には、周期性を有するノイズ信号のピークスペクトル102と周期性を有する音声信号のピークスペクトル104とが含まれている。これらのピークスペクトルは、いずれもエネルギーが高く、エネルギーのみでは互いを区別するのは難しい。また、ノイズ信号のピークスペクトル102と音声信号のピークスペクトル104のそれぞれは周期性を有しているものの、両者は非同期であるため、時間領域または周波数領域のどちらの領域においても、自己相関値のピークは緩やかになり、自己相関値を用いても音声の検出精度が悪化する。
【0025】
さらに、移動体通信のようにバッテリ駆動を前提とするシステムでは、低消費電力であることが望まれる。特に、デジタル無線では、遅延の少なさ、低処理負荷、エネルギーが高レベルなノイズの抑制が求められる。しかし、従来から用いられているケプストラム法は、比較的処理負荷が大きく電力消費が多くなってしまい、高コスト化や大型化を招く。
【0026】
そこで、本実施形態では、周期性を有するノイズが含まれる場合であっても、ノイズ成分を抑制することが可能な音声処理装置について詳述し、続いて、その音声処理装置を用いた音声処理方法について説明する。
【0027】
(音声処理装置110)
図4は、音声処理装置110の概略的な構成を説明するための機能ブロック図である。音声処理装置110は、フレーム化部120と、スペクトル生成部122と、ピーク検出部124と、倍音判定部126と、ノイズ減衰部128と、音声判定部130と、ノイズ削減部132とを含んで構成される。
【0028】
フレーム化部120は、収音装置200が、音声を収音しデジタル信号に変換した入力信号を、予め定められた時間幅を有するフレーム単位(所定サンプル数長)で順次切り出し、フレーム単位の入力信号(以下、単に「フレーム化入力信号」という)を生成する。また、収音装置200から入力される入力信号がアナログ信号である場合、フレーム化部120の前段にADコンバーターを配置しデジタル信号に変換するとしてもよい。そして、フレーム化部120は、生成したフレーム化入力信号を順次、スペクトル生成部122に送信する。
【0029】
スペクトル生成部122は、フレーム化部120から受信したフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に亘って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFT(Fast Fourier Transform)やDCT(Discrete Cosine Transform)等の直交変換法を用いるとよい。
【0030】
この実施形態において、スペクトル生成部122は、200Hzから2000Hzの範囲のスペクトルパターンを生成する。
【0031】
音声の特徴を示すスペクトルであるフォルマントが他の周波数帯域よりも比較的検出し易い200Hzから1000Hz付近の周波数帯域を観察し、1000Hzの倍に当たる2000Hzを倍音検出対象の周波数帯域の上限とする。また、検出対象の周波数帯域の下限は、ノイズ成分の影響が大きくフォルマントを効率よく抽出できない200Hz未満を除き200Hzとする。ただし、200Hzや2000Hzといった境界付近の周波数を中心とする周波数帯域を分析するため、境界の前後約50Hzの周波数信号を含めた周波数分析を行うものとする。音声の第1フォルマント(基音)は、男女によって差はあるものの大凡100Hzから500Hzの間に分布する。周波数が大凡100Hzの低域では一般的にノイズのエネルギー成分が大きく音声信号が検出できない可能性がある。仮に男性で声が低く第1フォルマントの周波数が約100Hzであり、ノイズに埋もれてしまっている場合でも、第2、第3フォルマントは、比較的ノイズが小さい周波数帯域に生じるので検出し易く、フォルマントの検出が可能となる。かかる構成により、ピーク検出部124は、比較的フォルマントを検出し易い周波数帯域に絞って効率的に処理を遂行できる。
【0032】
ピーク検出部124は、スペクトルパターンのうち、連続する複数のスペクトル、本実施形態においては、3つのスペクトルのエネルギーを加算して、複数のスペクトルのエネルギーの総和(以下、総和エネルギーと称す)を導出する。ピーク検出部124は、スペクトルを1つ分ずつシフトしながら、順次、総和エネルギーを導出する。
【0033】
図5は、総和エネルギーの導出を説明するための説明図である。図5では、入力信号の周波数特性を模式的に示す。ピーク検出部124は、任意のスペクトル250aとそのスペクトル250aにスペクトル生成部122で生成されたスペクトルパターン上で隣接する前後のスペクトル250b、250cの総和エネルギーを導出する。次に、ピーク検出部124は、スペクトル250cとその前後のスペクトル250a、250dの総和エネルギーを導出する。このようにして、ピーク検出部124は、スペクトルパターンの周波数の範囲全体に亘って、中心のスペクトルを1つ分ずつシフトしながら、3つのスペクトルのエネルギーの総和を導出する。
【0034】
そして、ピーク検出部124は、総和エネルギーを導出した後、判定対象の複数のスペクトル260aの総和エネルギーと、判定対象の複数のスペクトル260aに隣接する複数のスペクトル260bの総和エネルギーとのエネルギー比を導出する。ピーク検出部124は、総和エネルギーについては、スペクトルを1つ分ずつシフトして2つのスペクトルが常に重複するように導出したが、エネルギー比については、判定対象の複数のスペクトル260aと、判定対象の複数のスペクトル260aに隣接する複数のスペクトル260bとが同一のスペクトルを有さないように比較する。
【0035】
ピーク検出部124は、導出したエネルギー比と予め定められた閾値とを比較し、導出したエネルギー比が予め定められた閾値以上の場合には、判定対象の複数のスペクトル260aをピークパターンとし、判定対象の複数のスペクトル260aの予め定められた規則に基づく1または複数のスペクトル(例えば250a)をピークスペクトルとして検出する。
【0036】
音声の主要なスペクトル(第1フォルマントから第4または第5フォルマントまで)はノイズの影響がある場合でも瞬間的(フレーム単位に相当)に見れば数dBから約10dB程度のエネルギーを持つため、例えば、ノイズ成分より6dB高いスペクトルを検出できるように、閾値を2としたり、12dB高いスペクトルを検出できるように、閾値を4としたりするとよい。以下の数式1に一般的なdB換算式を示す。
【数1】

…(数式1)
Ratio_E:エネルギー比(dB)
E_peak:対象の総和エネルギー
E_neighbor:隣接する総和エネルギー
【0037】
このように、ピーク検出部124は、判定対象の複数のスペクトルのエネルギーの総和と、判定対象の複数のスペクトルに隣接する複数のスペクトルのエネルギーの総和とのエネルギー比が予め定められた閾値を超えると、隣接する複数のスペクトルとのエネルギー総和の比が閾値を超えた複数のスペクトルをピークパターンとし、ピークパターンのうち予め定められた規則に基づく1または複数のスペクトル、本実施形態においては1つのスペクトルをピークスペクトルとする。なお、判定対象のスペクトルは、予め定められた本数であればよく、例えば、複数ではなく、1本であってもよい。
【0038】
ここで、予め定められた規則は、例えば、複数のスペクトルが奇数の場合、複数のスペクトルのうち、周波数が中心となるスペクトルやそのスペクトルに隣接するスペクトルを選択するという規則であったり、複数のスペクトルが偶数の場合、複数のスペクトルのうち、周波数が中心に最も近い2つのスペクトルのいずれか一方や両方、その両方のスペクトルに隣接するスペクトルを選択するという規則であったりしてもよい。また、複数のスペクトル(例えば、260a)のうち、すべてのスペクトル(例えば、250a、250b、250c)をまとめて1つのピークスペクトルとして検出してもよい。
【0039】
音声は声帯の振動を伴うため、ピークがある程度の帯域幅を有する、所謂揺らぎ成分が生じ、中心周波数をピークとしながらそのエネルギー成分が隣接するスペクトルにも存在することとなる。そのため、その前後のスペクトルにも、音声のエネルギー成分が含まれている可能性が高い。一方、周期性を有するノイズには、倍音構造ではあるものの音声のような揺らぎ成分を有さない、例えば、サイレン、エンジン音、突発的な打撃音などがある。このような揺らぎ成分を有さないノイズは、1つのスペクトルのみでは音声信号とエネルギー差が生じない場合もあるが、隣接するスペクトルのエネルギーを加算すると、同様に隣接するスペクトルのエネルギーを加算した音声と比較して、相対的にエネルギー成分は低くなる。ピーク検出部124が隣接する総和エネルギーを比較対象とすることで、揺らぎ成分の有無にも基づいて音声とノイズを識別でき、音声を適切に検出することが可能となる。
【0040】
ピーク検出部124がエネルギーの総和を算出する予め定められた本数のスペクトル全体の周波数帯域は、100Hz未満の周波数帯域である。
【0041】
ピーク検出部124がエネルギーの総和を算出する予め定められた本数のスペクトル全体の周波数帯域幅を広くすると、周波数分解能が悪化し倍音判定が困難になる。したがって複数のスペクトル全体の周波数帯域幅は狭い程よいが、あまり狭くすると測定に要するコストが高くなる。本実施形態の倍音判定では、基音が大凡200Hz以上の周波数となるフォルマントを検出できればよい。そのため、ピーク検出部124がエネルギーの総和を算出する予め定められた本数のスペクトル全体の周波数帯域を200Hzの半分である100Hz未満とすることで、効率的にフォルマントを検出できる。この値は後述の周波数分解能の推奨値に基づいた隣接するスペクトルを含めたスペクトル全体の周波数帯域幅に相当する。
【0042】
ピーク検出部124で判定されたピークスペクトルは、倍音判定部126に送られる。倍音判定部126は、ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する。
【0043】
一般的に、音声のスペクトルは倍音構造を有すると言われている。そのため、倍音構造となっていないピークスペクトルは、ノイズ成分とみなすことができる。倍音判定部126は、ピークスペクトルが倍音スペクトルか否かを判定することで音声信号であるかノイズ成分であるかを判定できる。そのため、本実施形態の音声処理装置110は、入力された入力信号が、周期性を有するノイズが比較的多い環境において収音された、周期性を有するノイズが含まれる入力信号であっても、音声成分とノイズ成分を精度よく識別することができる。
【0044】
倍音判定部126は、ピークスペクトルの中心となる周波数に基づいて倍音スペクトルを判定してもよいが、本実施形態において、倍音判定部126は、ピークスペクトルの周辺の帯域を含めた複数のスペクトル毎のエネルギーによって重み付けされた重心周波数に基づいて倍音スペクトルを判定する。倍音判定部126は、ピーク検出部124が検出したピークスペクトルについて、倍音構造を有するか否か(倍音スペクトルであるか否か)を判定するために、ピークスペクトルの正確な代表周波数を導出する。倍音判定部126は、以下の数式2に基づいて、総和エネルギーを導出した複数のスペクトル(数式2におけるSpectrum(N−j)〜Spectrmu(N+j))を用いて、その複数のスペクトル全体の周波数帯域内のエネルギーの割合で重み付けを行い、重心となる周波数である重心周波数を導出し代表周波数とする。
【数2】

…(数式2)
Freq(N):Specrum(N)を中心とする帯域から求めた重心周波数
E_r(i):Spectrum(N−j)〜Spectrum(N+j)におけるエネルギー量を占める割合
Spec_freq(i):Spectrum(i)の周波数代表値(中心周波数)
N:スペクトルの位置を示すナンバー
j:Spectrum(N)を中心とした帯域に含まれる前後のスペクトル数
【0045】
図6は、重心周波数を説明するための説明図である。図6では、入力信号の周波数特性を模式的に示す。ここでは、スペクトル270a〜270cは、周期性を有し揺らぎ成分を持ったフォルマントに対応する音声のスペクトルであり、スペクトル272a〜272cは、揺らぎ成分を持たず周期性を有するノイズのスペクトルであるものとする。
【0046】
図6に示すように、音声のスペクトル270a〜270cは、揺らぎ成分を有するため、中心のスペクトル270aの前後のスペクトル270b、270cも比較的高いエネルギーを有する。そのため、倍音判定部126は、周波数分解能が低く、1つのピークスペクトルのみでは真のピーク位置を特定し難い場合であっても、上述した数式2に基づいて重心周波数280aを導出することで、複数のサンプルによって最もエネルギーが高い、スペクトルパターンの包括線の山に相当するスペクトル(以下、単に「山に相当するスペクトル」と称す)の頂点となる周波数を高精度に推定できる。
【0047】
一方、揺らぎ成分を持たないノイズのスペクトル272a〜272cは、中心のスペクトル272aのみが比較的高いエネルギーを有し、その前後のスペクトル272b、272cのエネルギーは、近傍のスペクトルのエネルギーと変わらない。そのため、上述した数式2に基づいて重心周波数280bを導出しても、中心のスペクトル272aの周波数とほとんど同じ値となってしまい、周波数分解能によっては導出される周波数の真のピーク位置からの誤差が大きくなる。従って、ピークスペクトルの重心周波数280bを導出して倍音になっているか判定することで、揺らぎ成分を持たないノイズのスペクトル272a〜272cの場合は倍音構造の誤差範囲に入らないこととなる。すなわち、ノイズのスペクトルについては倍音関係が成り立っていないと判定されることとなる。
【0048】
倍音判定部126は、導出した重心周波数を、低域から順次抽出し、抽出した重心周波数より高域のすべての重心周波数とそれぞれ倍音関係が成り立つか否かを判定し、抽出した重心周波数と倍音関係が成り立つ重心周波数が予め定められた数(以下、第1所定数と称す)以上、存在する場合、その重心周波数を導出したピークスペクトル(倍音スペクトル)を音声のスペクトルとみなす。また、倍音関係が成り立つ重心周波数が第1所定数未満であったスペクトルは、音声でないすなわち、ノイズのスペクトルとみなすことができる。
【0049】
ここで、倍音判定部126は、周波数分解能の半分程度の周波数のずれは誤差範囲とする。このような許容する誤差範囲を設けることで、ノイズ成分の影響や、音声の揺らぎの影響を判定結果に反映する。
【0050】
倍音判定部126は、倍音構造が成り立っているか否かを、抽出した低域の重心周波数の倍数にあたる周波数において、許容される誤差範囲に入っているか否かで判断する。すなわち、上述した揺らぎ成分の有無によって、音声のスペクトルはノイズのスペクトルと比較して正確にピーク位置が把握されるので、倍音構造と判定されやすい。したがって倍音判定によって非倍音を排除できる場合がある。
【0051】
倍音判定部126で判定された結果は、ノイズ減衰部128に送られる。ノイズ減衰部128は、ピークパターンから倍音スペクトルを除いたパターンに対応するエネルギーを減衰する。すなわち、ノイズ減衰部128は、ピークスペクトルのうち、ノイズとみなすことができるピークスペクトルの成分を抑制する。例えば、ノイズ減衰部128は、ノイズとみなすことができるピークスペクトルを中心とする複数(例えば3つ)のスペクトル全体のエネルギーを減衰する。具体的に、ノイズ減衰部128は、ノイズとみなすことができるピークスペクトルのエネルギーを、スペクトルパターンの包括線の谷に相当するスペクトル(以下、単に「谷に相当するスペクトル」と称す)のうち、そのピークスペクトルの周波数に近い帯域の平均エネルギーと同程度になるようにするとよい。この平均エネルギーは定常的なノイズのエネルギーに相当するとみなすことができ、ノイズ減衰部128は、この平均エネルギーを用いることで、ノイズとみなすことができるピークスペクトルのエネルギーを過度に減衰させてしまい音声の音質を低下させてしまう事態を回避することが可能となる。
【0052】
音声判定部130は、ピークスペクトルのうち、ノイズとみなすことができるピークスペクトルに対応するスペクトルのエネルギーが減衰されたスペクトルパターンに基づいて、フレーム化入力信号が音声であるか否かを判定し、判定結果を外部装置に出力する。
【0053】
このように、ノイズ減衰部128がノイズとみなすことができるピークスペクトルのエネルギーを減衰した後、音声判定部130が音声判定の処理を行うことで、周期性を有するノイズの影響を低減し、精度よく音声判定の処理を行うことができる。例えば、外部装置である符号化回路では、音声判定部130の音声判定結果を用いて、音声区間と非音声区間で、入力信号の符号化処理を切り換え、音質を維持しつつ、圧縮率や転送効率を高めることができる。
【0054】
エネルギー減衰されたスペクトルパターンは、ノイズ減衰部128からノイズ削減部132に対しても送られる。ノイズ削減部132は、例えば、スペクトラム・サブトラクション法等の手段を用いて、ノイズ減衰部132から出力されたピークパターンからノイズ成分を削減し、ノイズ成分を削減したスペクトルパターンを時間領域の信号に変換し、出力信号として外部装置に出力する。削減量は上述のように周囲のノイズ成分と同レベルとなるように調整することで、周波数逆変換後の量子化ノイズを抑える事ができ音質劣化に与える影響を少なくすることができる。
【0055】
このように、予めノイズ減衰部128でノイズとみなすことができるピークスペクトルのエネルギーを減衰した後、ノイズ削減部132がノイズ成分の削減処理を行うため、周期性を有するノイズの影響を抑制し、ノイズ削減の精度を向上することができる。本実施形態の音声処理装置110は、上述した、ノイズ減衰部128と、音声判定部130またはノイズ削減部132を備えるため、例えば、携帯電話や無線機等の移動体通信機器に搭載することで、音声の明瞭性を向上することが可能となる。
【0056】
上述したように、倍音判定部126は、ピークスペクトルが倍音スペクトルか否かを判定することでノイズ成分か否かを判定できる。従って、入力された入力信号が、周期性を有するノイズが比較的多い環境において収音された、周期性を有するノイズが含まれる入力信号であっても、音声成分とノイズ成分を精度よく識別することができる。
【0057】
また、ノイズ減衰部128は、この周期性を有するノイズ成分を抑制することができ、例えば、音声認識に用いる音声区間判定処理の精度が向上する。また、音声処理装置110は、音声強調処理、ノイズリダクション等のノイズ抑制処理を行う機能を備えることで、本実施形態の周期性を有するノイズ成分を抑制する機能を効果的に応用できる。そのため、音声処理装置110は、例えば、大きな遅延が許容されない移動体通信や、その他、ノイズの影響により実用性に乏しかった環境下においても、音声を明瞭化することができ、音声分析や情報伝達を行う機器への応用が可能となる。
【0058】
(音声処理方法)
次に、上述した音声処理装置110を用いて入力信号を分析する音声処理方法を説明する。
【0059】
図7は、音声処理方法の全体的な流れを示したフローチャートである。入力信号の入力がある場合(S300におけるYES)、フレーム化部120は、音声処理装置110が取得したデジタル入力信号を、所定のフレーム単位で順次切り出し、フレーム化入力信号を生成する(S302)。そして、スペクトル生成部122は、フレーム化部120から受信したフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換してスペクトルパターンを生成する(S304)。
【0060】
このとき、スペクトル生成部122は、33Hz未満の周波数分解能でスペクトルパターンを生成する。換言すれば、周波数分解能の推奨値は、33Hz未満となる。
【0061】
すなわち、山に相当するスペクトルと、その近傍にある、谷に相当するスペクトルとのエネルギー比で、フォルマントを検出するためには、周波数上で見た音声における標準的なフォルマントの間隔の半分以下の周波数分解能が必要となる。例えば、標準的な男性の声の場合に多い、第1フォルマントが200Hz程度とするならば、倍音は400Hz、600Hzに現れる。従って、これらのフォルマントを検出するには、山と谷を判別可能な100Hz程度の帯域幅で観察するとよい。
【0062】
例えば、ピーク検出部124が隣接する3つのスペクトルの総和を比較してピークスペクトルを検出する場合、倍音構造と揺らぎ成分を有す音声と、倍音構造は有するが揺らぎ成分を有さないノイズとの識別を容易とするためには、ピークスペクトルのうち、ノイズ成分は1つのスペクトルに相当する周波数帯域(すなわち周波数分解能)に包含でき、音声成分は3つのスペクトルに相当する周波数帯域に包含できるとよい。ノイズのピークスペクトルは狭い帯域幅に含まれることが多いため、周波数分解能を33Hz未満とし、さらに複数のスペクトルをまとめて音声スペクトルのエネルギーとすることで、ノイズのスペクトルの持つエネルギーを相対的に低くする効果があり、音声のスペクトルを高精度に検出できる。
【0063】
具体的に、ピーク検出部124が、200Hzから400Hzまでの帯域についてピークスペクトルを検出する処理に着目して説明する。例えば、250Hzから350Hzを谷に相当するスペクトルの帯域、150Hzから250Hz、および350Hzから450Hzを山に相当するスペクトルの帯域としてエネルギー比を求めれば音声のスペクトルのピークを検出できる。すなわち、複数のスペクトル全体の帯域幅は、100Hz程度でよいことになる。
【0064】
したがって、ピーク検出部124が隣接する3つのスペクトルの総和を比較してピークスペクトルを検出する場合、周波数分解能は100Hzの1/3に当たる約33Hz以下とするとよい。検出対象とするフォルマントの基音の周波数を200Hzより高い周波数帯域とすればさらに周波数分解能を下げる(スペクトルの帯域幅を広くとる)ことも可能である。
【0065】
続いて、ピーク検出部124は、スペクトルパターンのうち、連続する複数のスペクトルのエネルギーを加算して、複数のスペクトルの総和エネルギーを導出する(S306)。ピーク検出部124は、スペクトルパターンの周波数の範囲のすべてのスペクトルについて、総和エネルギーを導出したか否かを判定し(S308)、まだ総和エネルギーを導出していないスペクトルがあれば(S308におけるNO)、総和エネルギー導出ステップS306に戻る。そして、ピーク検出部124は、スペクトルを1つ分ずつシフトしながら、順次、総和エネルギーを導出する。
【0066】
すべてのスペクトルについて総和エネルギーを導出すると(S308におけるYES)、ピーク検出部124は、判定対象の複数のスペクトルの総和エネルギーと、判定対象の複数のスペクトルに隣接する複数のスペクトルの総和エネルギーとのエネルギー比を導出する(S310)。
【0067】
そして、ピーク検出部124は、導出したエネルギー比が閾値を超えているか否かを判定する(S312)。エネルギー比が第1閾値を超えていると(S312におけるYES)、ピーク検出部124は、判定対象の複数のスペクトルをピークパターンとし、判定対象の複数のスペクトルのうち1つをピークスペクトルとして検出する(S314)。第1閾値は例えば、上述したように山と谷のスペクトルのエネルギー比(Rait E)12dBとするが、扱いやすいようにエネルギー比(E peak/E neighbor)で考えると、第1閾値は4とする。ここで、判定対象の複数のスペクトルと判定対象の複数のスペクトルに隣接する複数のスペクトルとは、図5を用いて説明したように隣接しつつも重複しない。
【0068】
ピーク検出部124は、すべてのスペクトルについて、ピークスペクトルへの選定を終了したか否かを判定する(S316)。すべてのスペクトルについて、ピークスペクトルへの選定を終了していない場合(S316におけるNO)、エネルギー比導出ステップS310に戻る。すべてのスペクトルについて、ピークスペクトルへの選定を終了すると(S316におけるYES)、倍音判定部126は、ピーク判定部124で選定されたピークスペクトルについて、上述した数式2に基づいて、重心周波数を導出して代表周波数とする(S318)。
【0069】
続いて、倍音判定部126は、導出した重心周波数に基づいて、ピークスペクトルそれぞれが、倍音スペクトルか否か、すなわち、倍音構造を有するか否かを判定する(S320)。ここでは、倍音検出手段として、例えば、2通りの手段を例にあげる。
【0070】
1例目は、すべてのピークスペクトルから総和エネルギーが高い順に予め定められた数のピークスペクトルを抽出して倍音判定を行う手段である。代表周波数が400Hz以上の代表周波数として導出されたピークスペクトルは、倍音にあたる可能性がある。このため、倍音判定部126は、その周波数の1/3倍、1/2倍、2倍音、3倍、・・・の周波数に相当する帯域に、他のピークスペクトルが存在するか否かを判定する。そして、倍音判定部126は、1箇所のピークスペクトルに対して複数(例えば、3箇所以上)の倍音とみなされるピークスペクトルが存在すると、それら一連のピークスペクトルを音声のスペクトルとみなし、以降の倍音判定処理の対象から除外する。
【0071】
また、エネルギー成分が高いピークスペクトルの代表周波数が600Hz以上であれば、3倍音(またはその前後の倍音)の可能性があり、同様に800Hz以上であれば4倍音(またはその前後の倍音)の可能性がある。したがって、ピークパターンのうち、代表周波数が高いピークスペクトルほど、その代表周波数を整数で除算した周波数を代表周波数とするピークスペクトルの存在の判定処理を、除算する整数の範囲を拡大して行う。
【0072】
この例では、総和エネルギーが高い順に倍音判定を行うが、一度、倍音構造を有すると判定されたピークスペクトルは、以降の倍音判定においては判定対象から除外されるため、総和エネルギーが高い、上位の例えば3つ程度のピークスペクトルについて倍音判定を行えば、大凡音声のスペクトルを検出し終える。
【0073】
2例目は、すべてのピークスペクトルから代表周波数が低い順に予め定められた数のピークスペクトルを、抽出して倍音判定を行う手段である。1例目では、代表周波数が例えば約300Hzから600Hz程度の中域の場合、中域の代表周波数に対して低域にも高域にも倍音関係のスペクトルが存在する可能性があるため、どちらも判定しなければならなかったが、2例目では、倍音判定部126は、すべてのピークスペクトルのうち、代表周波数が低いピークスペクトルについて、倍音判定を行うため、その代表周波数の倍音に相当する代表周波数の存在を判定すればよい。ただし、フォルマントのエネルギーは低域の方が高い傾向にあるものの、周囲のノイズに対して必ず高いエネルギーを有するとは限らないため、より確実に倍音判定を行うために、倍音判定部126は、初めに抽出するピークスペクトルの数を1例目より多くするとよい。
【0074】
この倍音判定処理において、倍音判定部126は、周波数の許容する誤差幅を、最大で周波数分解能の半分とし、その範囲であれば倍音関係にあると判定する。
【0075】
そして、倍音判定部126は、倍音関係となるピークスペクトルが第1所定数未満であれば、そのピークスペクトルを、倍音スペクトルではない、すなわち、ノイズとみなすことができるスペクトルと判定する。
【0076】
ノイズ減衰部128は、ピークパターンから倍音スペクトルを除いたパターンに対応するピークスペクトルのエネルギーを減衰する。すなわち、ノイズ減衰部128は、ピークスペクトルのうち、ノイズとみなすことができるピークスペクトルの成分を抑制する(S322)。
【0077】
音声判定部130は、ピークパターンのうち、ノイズとみなすことができるピークスペクトルに対応するスペクトルのエネルギーが減衰されたスペクトルパターンに基づいて、フレーム化入力信号が音声であるか否かを判定し、判定結果を外部装置に出力する(S324)。
【0078】
ノイズ削減部132は、ピークパターンのうち、ノイズとみなすことができるピークスペクトルに対応するスペクトルのエネルギーが減衰されたスペクトルパターンに基づいてノイズ成分を削減し、ノイズ成分を削減したスペクトルパターンを時間領域の信号に変換し、出力信号として外部装置に出力する(S326)。
【0079】
以上説明した音声処理方法によれば、周期性を有するノイズが含まれる場合であっても、ノイズを識別し、ノイズ環境下における様々な音声システムの信頼性および品質を確保できる。
【0080】
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明はかかる実施形態に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【0081】
なお、本明細書の音声処理方法における各工程は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいはサブルーチンによる処理を含んでもよい。
【産業上の利用可能性】
【0082】
本発明は、入力信号におけるノイズ成分と音声成分とを識別する音声処理装置および音声処理方法に利用することができる。
【符号の説明】
【0083】
110 …音声処理装置
120 …フレーム化部
122 …スペクトル生成部
124 …ピーク検出部
126 …倍音判定部
128 …ノイズ減衰部
130 …音声判定部
132 …ノイズ削減部

【特許請求の範囲】
【請求項1】
入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部と、
前記フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部と、
前記スペクトルパターンから、ピークを有するピークスペクトルを検出するピーク検出部と、
前記ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定する倍音判定部と、
を備えることを特徴とする音声処理装置。
【請求項2】
前記ピーク検出部は、予め定められた本数のスペクトルのエネルギーの総和と、隣接する前記予め定められた本数のスペクトルのエネルギーの総和とのエネルギー比が予め定められた閾値を超えると、前記予め定められた本数のスペクトルのうち、予め定められた規則に基づく1または複数のスペクトルをピークスペクトルとすることを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記倍音判定部は、複数のスペクトル毎のエネルギーによって重み付けされた重心周波数に基づいて倍音スペクトルを判定することを特徴とする請求項2に記載の音声処理装置。
【請求項4】
前記予め定められた本数のスペクトル全体の周波数帯域は、100Hz未満の周波数帯域であることを特徴とする請求項2または3に記載の音声処理装置。
【請求項5】
前記スペクトル生成部は、33Hz未満の周波数分解能でスペクトルパターンを生成することを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
【請求項6】
前記スペクトル生成部は、200Hzから2000Hzの範囲のスペクトルパターンを生成することを特徴とする請求項1から5のいずれか1項に記載の音声処理装置。
【請求項7】
前記スペクトルパターンのうち、前記ピークスペクトルのうち前記倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、
減衰された前記スペクトルパターンに基づいて、前記フレーム化入力信号が音声であるか否かを判定する音声判定部と、
をさらに備えることを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。
【請求項8】
前記スペクトルパターンのうち、前記ピークスペクトルから前記倍音スペクトルを除いたスペクトルに対応するエネルギーを減衰するノイズ減衰部と、
減衰された前記スペクトルパターンに基づいてノイズ成分を削減するノイズ削減部と、
をさらに備えることを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。
【請求項9】
入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成し、
前記フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成し、
前記スペクトルパターンから、ピークを有するピークスペクトルを検出し、
前記ピークスペクトルのうち、基音と倍音の関係となる倍音構造である倍音スペクトルを判定することを特徴とする音声処理方法。

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−133346(P2012−133346A)
【公開日】平成24年7月12日(2012.7.12)
【国際特許分類】
【出願番号】特願2011−260036(P2011−260036)
【出願日】平成23年11月29日(2011.11.29)
【出願人】(308036402)株式会社JVCケンウッド (1,152)