説明

音声処理装置

【課題】発話音声及び騒音が混在する環境において得られる音声信号を適正に処理することのできる「音声処理装置」を提供することである。
【解決手段】利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅する増幅手段12と、増幅手段12での増幅を経た音声信号を処理する音声処理手段120とを有する音声処理装置であって、利用者の発話に際して増幅手段13での増幅を経た音声信号のピーク値を検出する音声ピーク値検出手段130と、ピーク値検出手段130にて検出される音声信号のピーク値の統計的分布を表わす音声ピーク値分布情報を生成する手段140と、前記音声ピーク値分布情報と予め定めた基準ピーク値範囲内とに基づいて増幅手段12に設定すべきゲイン値を決定するゲイン値決定手段150とを有する構成となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅し、その増幅を経た音声信号を音声認識処理等の所定の手法に従って処理する音声処理装置に関する。
【背景技術】
【0002】
従来、利用者の発話に応答してマイクから出力される音声信号を音声認識アルゴリズムに従って処理することにより発話音声を認識する音声認識装置(音声処理装置)がある。この種の音声処理装置では、マイクから出力される音声信号が設定されたゲイン値(増幅率値)に基づいて増幅され、その増幅を経た音声信号が音声認識エンジン(音声処理手段)に供される。そして、音声認識エンジンに供される音声信号のレベルが所定レベルを越えた際の認識率の低下を防止するため、その音声信号のレベルを所定レベル内に調整するAGC(Automatic Gain Control)回路を設けることが一般的に知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−117585号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、音声認識装置等の音声処理装置を車載機器のヒューマンインタフェース(HI)として利用することが考えられる。この場合、車室に設置されたマイクから乗員(利用者)の発話音声が取り込まれるようになるが、そのマイクには、利用者の発話音声のほか、自車両の走行ノイズ、エアコンの動作音、不定期的な対向車の走行ノイズ等、種々の騒音が入力することになる。
【0005】
前述した従来一般的に用いられるAGC回路は、認識すべき発話音声の音声信号レベルを調整するには適しているが、様々な騒音や目的とする発話音声が混在する音声信号レベルの調整には必ずしも適したものとはなっていない。このような様々な騒音や目的とする発話音声が混在する音声信号は、まずその全体としてあるレベル、例えば、音声認識エンジンでの処理に適したレベルに調整することが重要である。
【0006】
本発明は、このような事情に鑑みてなされたもので、発話音声及び騒音が混在する環境において得られる音声信号を適正に処理することのできる音声処理装置を提供するものである。
【課題を解決するための手段】
【0007】
本発明に係る音声処理装置は、利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅する増幅手段と、該増幅手段での増幅を経た音声信号を所定の手法に従って処理する音声処理手段とを有する音声処理装置であって、前記利用者の発話に際して前記増幅手段での増幅を経た音声信号のピーク値を検出する音声ピーク値検出手段と、前記ピーク値検出手段にて検出される音声信号のピーク値の統計的分布を表わす音声ピーク値分布情報を生成する手段と、前記音声ピーク値分布情報と予め定めた基準ピーク値範囲とに基づいて前記増幅手段に設定すべきゲイン値を決定するゲイン値決定手段とを有する構成となる。
【0008】
このような構成により、利用者の発話に際して増幅手段での増幅を経た音声信号のピーク値が検出され、その音声信号のピーク値の統計的分布を表す音声ピーク値分布情報が生成される。そして、その音声ピーク値分布情報と基準ピーク値範囲とに基づいて増幅手段でのゲイン値が決定される。例えば、音声ピーク値分布情報にて表わされる音声信号のピーク値の分布範囲が基準ピーク値範囲に近づくように前記増幅手段でのゲイン値を決定することができる。
【0009】
前記音声信号のピーク値の統計的分布は、検出された音声信号のピーク値の分布であって、音声信号の各ピーク値の検出された度数分布を表し得るものである。また、基準ピーク値範囲は、増幅を経た音声信号を処理する音声処理手段において適正に処理される音声信号のピーク値の範囲に基づいて決めることができる。
【0010】
また、本発明に係る音声処理装置において、前記音声ピーク値検出手段にて検出される音声信号のピーク値が前記基準ピーク値範囲内にあるか否かを判定する判定手段と、前記検出された音声信号のピーク値が前記基準ピーク値範囲内にあると判定されたときに、前記ゲイン値決定手段は、前記音声ピーク値分布情報と前記基準ピーク値範囲とに基づいて新たなゲイン値を決定することなく、既に設定されているゲイン値を維持するように構成することができる。
【0011】
このような構成により、検出される音声信号のピーク値が基準ピーク値範囲内にある場合、適正な音声信号レベルであるとして、増幅手段のゲイン値が維持されるようになる。
【0012】
また、本発明に係る音声処理装置において、前記ゲイン値決定手段は、前記音声ピーク値分布情報にて表わされるピーク値分布範囲の幅が前記基準ピーク値範囲の幅以下であるか否かを判定するピーク値範囲判定手段を有し、前記ピーク値分布範囲の幅が前記基準値ピーク値範囲の幅以下であると判定された場合に、ピーク値分布範囲の各ピーク値を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値を決定するように構成することができる。
【0013】
このような構成により、増幅を経た今までの音声信号のピーク値の統計的分布の範囲(ピーク値分布範囲)の幅が基準ピーク値範囲の幅以下の場合、今までの音声信号のピーク値の統計的分布の範囲(ピーク値分布範囲)を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて決定されたゲイン値にて音声信号が増幅されるので、新たにマイクから出力されて増幅手段での増幅を経た音声信号のピーク値のより多くのものが前記基準ピーク値範囲内に収まるようになり得る。
【0014】
更に、本発明に係る音声処理装置において、前記音声ピーク値分布情報を、前記基準ピーク値範囲に収められた前記ピーク値分布範囲の音声信号のピーク値の統計的分布を表すように更新する第1音声ピーク値分布情報更新手段を有するように構成することができる。
【0015】
このような構成により、今まで検出されている音声信号のピーク値の統計的分布を表す音声ピーク値分布情報が、新たなゲイン値に基づいて増幅された音声信号のピーク値の統計的分布を表すものに更新することができるようになる。
【0016】
また、本発明に係る音声処理装置において、前記ゲイン値決定手段は、前記ピーク値分布範囲の中間のピーク値と、前記基準ピーク値範囲の中間のピーク値との差分を前記ゲイン値の変化分として前記ゲイン値を決定するように構成することができる。
【0017】
このような構成により、ピーク値分布範囲が基準ピーク値範囲の中央に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値が決定されるようになる。
【0018】
また、本発明に係る音声処理装置において、前記ゲイン値決定手段は、前記ピーク値分布範囲の幅が前記基準ピーク値範囲の幅以下ではないと判定されたときに、前記ピーク値分布範囲から、前記基準ピーク値範囲の幅以下の幅で、各ピーク値の度数の総数が最大となる範囲である検出ピーク値主要範囲を決める主要範囲決定手段と、前記検出ピーク値主要範囲の各ピーク値を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値を決定するように構成することができる。
【0019】
このような構成により、増幅を経た今までの音声信号のピーク値の統計的分布の範囲(ピーク値分布範囲)の幅が基準ピーク値範囲の幅以下とならない場合、その今までの音声信号のピーク値の統計的分布の範囲(ピーク値分布範囲)のうち基準ピーク値範囲の幅以下の幅で各ピーク値の度数の総数が最大となる範囲(検出ピーク値主要範囲)を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて決定されたゲイン値にて音声信号が増幅されるようになるので、新たにマイクから出力されて増幅手段での増幅を経た音声信号のピーク値のより多くのものが前記基準ピーク値範囲内に収まるようになり得る。
【0020】
更に、本発明に係る音声処理装置において、前記音声ピーク値分布情報を、前記基準ピーク値範囲に収められた前記検出ピーク値主要範囲を含む音声ピーク値分布範囲の音声信号のピーク値の統計的分布を表すように更新する第2音声ピーク値分布情報更新手段を有するように構成することができる。
【0021】
このような構成により、今まで検出されている音声信号のピーク値の統計的分布を表す音声ピーク値分布情報が、新たなゲイン値に基づいて増幅された音声信号のピーク値の統計的分布を表すものに更新することができるようになる。
【0022】
また、本発明に係る音声処理装置において、前記ゲイン値決定手段は、前記検出ピーク値主要範囲の境界のピーク値と、前記基準ピーク値範囲の対応する境界のピーク値との差分を前記ゲイン値の変化分として前記ゲイン値を決定するように構成することができる。
【0023】
このような構成により、ピーク値分布範囲における検出ピーク値主要範囲の境界が基準ピーク値の対応する境界と合致させるに必要なゲイン値の変化分に基づいて前記ゲイン値が決定されるようになる。
【0024】
また、本発明に係る音声処理装置において、前記主要範囲決定手段は、前記ピーク値分布範囲から、前記基準ピーク値範囲の幅と同じ幅で、各ピーク値の度数の総数が最大となる範囲を検出ピーク値主要範囲として決定するように構成することができる。
【0025】
このような構成により、増幅を経た今までの音声信号のピーク値の統計的分布の範囲(ピーク値分布範囲)のうち基準ピーク値範囲の幅と同じ幅で各ピーク値の度数の総数が最大となる範囲(検出ピーク値主要範囲)を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて決定されたゲイン値にて音声信号が増幅されるようになるので、新たにマイクから出力されて増幅手段での増幅を経た音声信号のピーク値のより多くのものもまた前記基準ピーク値範囲内になり得る。
【0026】
更に、本発明に係る音声処理装置において、前記音声ピーク値検出手段は、前記利用者の発話に際して前記増幅手段での増幅を経た音声信号レベルをサンプルするサンプリング手段と、該サンプリング手段にてサンプルされた音声信号レベルに基づいて前記音声信号のピーク値を決定するピーク値決定手段とを有し、前記サンプリング手段は、音声信号レベルが所定値を超えるときに、サンプリングする音声信号レベルを前記所定値に制限するものであって、前記ピーク値決定手段は、サンプリングされた音声信号レベルに前記所定値が含まれる場合、サンプリングされた音声信号レベルに基づいて前記音声信号のピーク値を推定するピーク値推定手段を有するように構成することができる。
【0027】
このような構成により、サンプリング手段にてサンプルされる音声信号レベルが所定値に制限されても、本来検出されるべき音声信号のピーク値が推定されるので、その推定された音声信号のピーク値を用いてより的確なゲイン値を決定することができるようになる。
【0028】
前述した前記音声ピーク値分布情報は、検出された音声信号の各ピーク値の度数を表わすヒストグラムを含み得る。
【発明の効果】
【0029】
本発明に係る音声処理装置によれば、利用者の発話に際して増幅手段での増幅を経た音声信号のピーク値の統計的分布を表す音声ピーク値分布情報と予め定めた基準ピーク値範囲とに基づいて、増幅手段でのゲイン値が決定されるので、様々な騒音や目的とする発話音声が混在する音声信号が全体として前記基準ピーク値範囲に調整できるようになり、その結果、発話音声及び騒音が混在する環境において得られる音声信号を適正に処理することのできるようになる。
【図面の簡単な説明】
【0030】
【図1】本発明の実施の一形態に係る音声処理装置の構成を示すブロック図である。
【図2】音声処理装置の基本的な処理の流れを示すフローチャートである。
【図3】図2に示す処理におけるピーク値算出処理の具体的な流れを示すフローチャートである。
【図4】ピーク値の推定手法を表す図である。
【図5A】図2に示す処理におけるゲイン算出処理の具体的な流れを示すフローチャート(その1)である。
【図5B】図2に示す処理におけるゲイン算出処理の具体的な流れを示すフローチャート(その2)である。
【図6】検出された音声信号のピーク値の統計的分布を表すヒストグラムの例を示す図である。
【図7】図6に示すヒストグラムを、そのピーク値分布範囲が音声認識エンジンのダイナミックレンジ(基準ピーク値範囲)に収まるように移動させた状態を示す図である。
【図8】検出された音声信号のピーク値の統計的分布を表すヒストグラムの他の例を示す図である。
【図9】図8に示すヒストグラムにおける検出ピーク値主要範囲を決めるための検討範囲を示す図である。
【図10】図8に示すヒストグラムにおける検出ピーク値主要範囲が音声認識エンジンのダイナミックレンジ(基準ピーク値範囲)内に収まるように前記ヒストグラムを移動させた状態を示す図である。
【図11】ユーザ毎に決められたゲイン値と音声信号のピーク値の組とを表す表を示す図である。
【発明を実施するための形態】
【0031】
本発明の実施の形態について、図面を用いて説明する。
【0032】
本発明の実施の一形態に係る音声処理装置は、図1に示すように構成される。この音声処理装置は、例えば、車載機器のヒューマンインタフェース(HI)として用いられる音声認識装置である。
【0033】
図1において、この音声認識装置は、処理ユニット10、マイク11、マイクアンプ12及びA/D変換器13を備えている。マイク11は、車室内に設置され、利用者(乗員)の発話に際して入力する音声に対応した音声信号を出力する。マイクアンプ12は、マイク11からの音声信号を設定されたゲイン値(増幅率)に基づいて増幅する。A/D変換器13は、マイクアンプ12の増幅を経た音声信号をデジタル値(デジタル音声信号)に変換する。処理ユニット10は、A/D変換器13からのデジタル音声信号を音声データとして取り込む。
【0034】
処理ユニット10は、例えば、CPUを含むコンピュータユニットであって、音声データ格納部(音声バッファ)110、音声認識エンジン120(音声処理手段)、ピーク値算出処理部130(音声ピーク値検出手段)、ヒストグラム算出処理部140(音声ピーク値分布情報を生成する手段)、及びゲイン算出処理部150(ゲイン値決定手段)を有している。音声データ格納部110は、利用者が発話した際に処理ユニット10がA/D変換器13から取り込む音声データを格納する。音声認識エンジン120は、音声データ格納部110から読み出される音声データを所定の音声認識アルゴリズムに従って処理し、利用者の発話音声に対する認識データを生成する。
【0035】
ピーク値算出処理部130は、データ最大振幅算出部131、過大入力判定部132及び突出量推定部133を有している。データ最大振幅算出部131は、音声データ格納部110に格納された音声データ(音声信号レベルを表す)を所定時間間隔にてサンプリングし、そのサンプリングされた音声信号レベル(振幅)に基づいて当該音声データの最大振幅値、即ち、ピーク値を決定する。データ最大振幅演算部131の出力ビット数は有限であり、決定されるピーク値は、その有限ビット数にて表される所定値に制限される。過大入力判定部132は、データ最大振幅演算部131の符号ビットを除く出力ビットが全て「1」(フル・ビット)となってデータ最大振幅演算部131の出力が所定値に制限されたか否か、即ち、過大な音声入力があったか否かを判定する。突出量推定部133は、過大入力判定部132によってデータ最大振幅演算部131の出力が所定値に制限されたとの判定がなされたときに、ピーク値の制限値である前記所定値とその所定値を超える実際のピーク値との差(突出量)を推定する。
【0036】
ヒストグラム算出処理部140は、発話ピーク値格納部141及びヒストグラム算出部142を有している。発話ピーク値格納部141は、利用者の発話毎にピーク値算出処理部130にて得られる音声データのピーク値を格納する。ヒストグラム算出部142は、発話ピーク値格納部141に格納された既に得られている音声データのピーク値の統計的分布を表すヒストグラム(音声ピーク値分布情報)を生成する。ゲイン算出部150は、レンジ内判定部151及びゲイン更新部152を有している。レンジ内判定部151は、ヒストグラム算出部140にて生成されたヒストグラムにて表されるピーク値の分布範囲の幅が、音声認識エンジン120のダイナミックレンジ(基準ピーク値範囲)の幅より小さいか否かを判定する。ゲイン更新部152は、レンジ内判定部151での判定結果に応じた手法に従ってマイクアンプ12に設定すべきゲイン値を更新する。また、レンジ内判定部151は、ピーク値算出処理部130にて得られたピーク値が音声認識エンジン120のダイナミックレンジに含まれるか否かも判定しており、ゲイン更新部152は、その判定結果に応じてゲイン値の更新を行うか否かを決定している。
【0037】
上述したような構成の音声認識装置における処理ユニット10は、図2に示す手順に従って処理を実行して、マイクアンプ12に設定すべきゲイン値を調整する。
【0038】
図2において、処理ユニット10は、マイクアンプ12に対するゲイン値を初期値に設定する(S1)。この音声認識装置の最初の使用時には、工場出荷時に設定された所定の値が初期値として設定され、また、この音声認識装置が既に車載機器の一部として利用されている場合には、前回の利用に際して最終的に設定されたゲイン値が初期値として設定される。マイクアンプ12に対するゲイン値の初期値が設定されると、処理ユニット10は、トークスイッチが操作されたか否かを判定する(S2)。この音声認識装置では、利用者はトークスイッチを操作して発話を行う。すると、発話音声に対応してマイク11から出力される音声信号がマイクアンプ12によって前記初期値に設定されたゲイン値に基づいて増幅され、その増幅を経た音声信号がA/D変換器13を介して音声データとして処理ユニット10に取り込まれる。
【0039】
前記トークスイッチの操作がなされたと判定すると(S2でYES)、処理ユニット10は、取り込んだ音声データを音声データ格納部110に格納するとともに音声認識エンジン120に供給する(S3)。音声認識エンジン120は供給される音声データに基づいて利用者の発話が終わったか否かを判定しており、処理ユニット10は、その発話終了についての判定結果が音声認識エンジン120により得られるか否かを判定する(S4)。処理ユニット10では、音声認識エンジン120から発話終了についての判定結果が得られるまで(S4)、発話音声に対応する音声データの音声データ格納部110への格納及び音声認識エンジン120への供給(S3)が継続される。
【0040】
音声認識エンジン120から発話終了についての判定結果が得られると(S4でYES)、処理ユニット10において、ピーク値算出処理部130が今回取り込んだ音声データから発話音声のピーク値Ymを算出する(S5)。ピーク値算出処理部130は、図3に示す手順に従って処理(ピーク値算出処理)を実行する。
【0041】
図3において、ピーク値算出処理部130は、音声認識エンジン120から発話開始サンプル点nsと、発話終了サンプル点neとを発話位置情報として取得する(S51)。この発話位置情報を取得したピーク値算出処理部130では、データ最大振幅算出部131が音声データ格納部110に格納された音声データを前記発話開始サンプル点nsから所定時間間隔にてサンプリングしてサンプリング値y(n)を得るとともに、過大入力判定部132がそのサンプリング値y(n)がフル・ビットで表わされる値であるか否かを判定する(S52)。フル・ビットであるとの判定がなされると(S52でYES)、過大なレベルの音声入力があったとしてそのサンプル点n(サンプルタイミングを表わす)が保存される(S53)。
【0042】
データ最大振幅算出部131は、得られたサンプリング値y(n)がその時点での最大値Ymより大きいか否かを判定し(S54)、そのサンプリング値y(n)が最大値Ymより大きい場合(S54でYES)、そのサンプリング値y(n)を新たな最大値Ymとする(S55)。そして、データ最大振幅算出部131は、過大入力判定部132とともに、最終サンプル点neについての処理が終了するまで(S56)、各サンプル点nについて上述した処理(S52、S53、S54、S55)を繰り返し実行する。
【0043】
ピーク値算出処理部130は、最終サンプル点neについての処理が終了すると(S56でYES)、過大入力判定部132での過大な入力レベルであるとの判定結果に基づいて保存されたサンプル点が連続して複数点あるか否かを判定する(S57)。そのようなサンプル点が連続して複数点保存されていなければ(S57でNO)、パラメータ(サンプリング値y(n)、発話開始サンプル点ns、及び発話終了サンプル点ne)を初期化して処理が終了される(S60)。そして、その終了時点で設定されている最大値Ymが当該発話音声を表わす音声信号のピーク値としてヒストグラム算出処理部140及びゲイン算出部150に送られる。
【0044】
一方、前述した保存サンプル点が連続して複数点ある場合(S57でYES)、突出量推定部133が突出量推定処理を実行する(S58)。この突出量推定処理は、図4に示すように、制限されたサンプリング値である前記所定値(符号付き16ビットでフル・ビットに相当する"32768")とその所定値を超える実際の真値との差(突出量)α(dB)を推定する。具体的には、フル・ビットで表わされる制限値に対応して保存された複数のサンプリング点(ni+2、・・・、ni+9)の開始点ni+2での制限値(サンプリング値)を通るサンプリング値列の近似直線と、終点ni+9での制限値(サンプリング値)を通るサンプリング値列の近似直線との交点が算出され、その交点の位置(値)とフル・ビットで表わされる制限値との差が突出量αとして算出される。そして、その交点の値が当該音声信号の真値の推定値となる。このようにして算出された真値の推定値の中で、最大となる値が当該音声信号のピーク値の推定値Ysとなる。
【0045】
なお、ピーク値の推定値Ysを求める方法として、2つの直線の交点から求める方法以外に、スプライン補間を用いる方法や、DFTを用いる方法も考えられる。
【0046】
前述した突出量推定部133での突出量推定処理が終了すると、この処理にて推定されたピーク値Ysがその時点での最大値Ymより大きい場合に、最大値Ymがその推定値Ysの値に更新される。その後、前述したパラメータの初期化がなされ(S60)、その時点で設定されている最大値Ymが当該発話音声を表わす音声信号のピーク値としてヒストグラム算出処理部140及びゲイン算出部150に送られる。
【0047】
図2に戻って、前述したようにして発話音声を表わす音声信号のピーク値Ymが得られると(S5)、処理ユニット10において、ヒストグラム算出処理部140がピーク値算出処理部130から送られるピーク値Ymに基づいてヒストグラムHを更新する(S6)。具体的には、前述したようにしてピーク値算出処理部130からのピーク値Ymが発話ピーク値格納部141に格納され、そのピーク値Ymと今まで発話ピーク値格納部141に格納されていたピーク値に基づいてヒストグラム算出部142がヒストグラムHを生成する。
【0048】
例えば、図6に示すように、フル・ビットのピーク値に対応する0dBまでのレベル範囲において、今回検出された音声信号のピーク値Ymが範囲「−16dB〜−14dB」に含まれる場合、範囲「−14dB〜−12dB」でのピーク値の度数が7、範囲「−12dB〜−10dB」でのピーク値の度数が8、範囲「−10dB〜−8dB」でのピーク値の度数が6となる(他の範囲でのピーク値の度数は0)ヒストグラムHm-1が、それに加えて、範囲「−16dB〜−14dB」でのピーク値の度数が1となるヒストグラムHmに更新される。また、例えば、図8に示すように、今回検出された音声信号のピーク値Ymが同様に範囲「−16dB〜−14dB」に含まれる場合、範囲「−22dB〜−20dB」でのピーク値の度数が1、範囲「−20dB〜−18dB」でのピーク値の度数が5、範囲「−18dB〜−16dB」でのピーク値の度数が8、範囲「−16dB〜−14dB」でのピーク値の度数が5、範囲「−14dB〜−12dB」でのピーク値の度数が7、範囲「−12dB〜−10dB」でのピーク値の度数が8、範囲「−10dB〜−8dB」でのピーク値の度数が7、範囲「−8dB〜−6dB」でのピーク値の度数が6、範囲「−6dB〜−4dB」でのピーク値の度数が4、範囲「−4dB〜−2dB」でのピーク値の度数が3となる(他の範囲でのピーク値の度数は0)ヒストグラムHm-1が、範囲「−16dB〜−14dB」でのピーク値の度数が6に変えられたヒストグラムHmに更新される。
【0049】
上述したように検出される音声信号のピーク値の統計的分布を表わすヒストグラムが更新(生成)されると、処理ユニット10では、ゲイン算出処理部150がゲイン算出の処理(S7)を実行する。このゲイン算出の具体的な処理手順は、図5A及び5Bに示される。
【0050】
図5Aにおいて、ゲイン算出処理部150は、ゲイン計算に必要なデータ、具体的には、ピーク値算出処理部130にて算出された今回のピーク値Ymと、ヒストグラム算出処理部140にて算出されたヒストグラムHに係る情報を取り込む(S71)。そして、レンジ内判定部151は、取り込んだピーク値Ymが音声認識エンジン120のダイナミックレンジ(最大値Dmax、最小値Dmin)を逸脱しているか否かを判定する(S72)。なお、このダイナミックレンジは、音声認識エンジン120で音声信号が適正に音声認識処理され得る振幅レベルの範囲である。レンジ内判定部151にて前記ピーク値Ymが音声認識エンジン120のダイナミックレンジを逸脱していないとの判定がなされると(S72でNO)、現在設定されているゲイン値で増幅される音声信号のレベルは適正な範囲内にあるとして、ゲイン更新部152は、マイクアンプ12に既に設定されているゲイン値(Gnow)を維持する(Gnew=Gnow)(S73)。そして、ゲイン算出の処理が終了する(図5B参照)。
【0051】
一方、レンジ内判定部151にて前記検出されたピーク値Ymが音声認識エンジン120のダイナミックレンジから逸脱しているとの判定がなされると(S72でYES)、ゲイン算出処理部150では、引き続き図5Bに示す手順に従った処理が実行される。
【0052】
図5Bにおいて、ゲイン更新部152は、ヒストグラム算出処理部140から取り込んだヒストグラムH(図6、図8参照)から分布するピーク値の最大値Ymaxと最小値Yminとを算出する。次いで、ゲイン更新部152は、音声認識エンジン120のダイナミックレンジの幅(Dmax−Dmin)を算出するとともに、前記ヒストグラムにおいて音声信号のピーク値の分布する幅(Ymax−Ymin)を算出する(S75)。ゲイン更新部152は、ヒストグラムにおけるピーク値の分布範囲の幅(Ymax−Ymin)が音声認識エンジン120のダイナミックレンジの幅(Dmax−Dmin)以下であるか否かを判定する(S76)。ヒストグラムにおけるピーク値の分布範囲の幅(Ymax−Ymin)が前記ダイナミックレンジの幅(Dmax−Dmin)以下であると判定された場合(S76でYES)、ゲイン更新部152は、ヒストグラムにおける各ピーク値を前記ダイナミックレンジ内に収めるために必要なゲイン値の変化分を算出し、その変化分に基づいてマイクアンプ12に現在設定されているゲイン値(Gnow)から更新すべき新たなゲイン値(Gnew)を算出する(S77、S78)。
【0053】
具体的には、ヒストグラムにおけるピーク値の分布範囲の中間値Ymid及び音声認識エンジン120のダイナミックレンジの中間値Dmidのそれぞれが算出され(S77)、ヒストグラムにおけるピーク値の分布範囲の中間値Ymidがダイナミックレンジの中間値Dmidに合致するようにヒストグラムを移動させるために必要なゲイン値の変化分(Dmid−Ymid)が算出さる。そして、そのゲイン値の変化分(Dmin−Ymin)に基づいて新たなゲイン値Gnewが、
Gnew =Gnow+(Dmid−Ymid)
に従って演算される(S78)。
【0054】
例えば、図6に示すように、今回検出されたピーク値Ymを加味して得られたヒストグラムにおけるピーク値の分布範囲「Ymin=(−16dB)〜Ymax(−8dB)」の幅(Ymax−Ymin=8dB)が、音声認識エンジン120のダイナミックレンジ(Dmin=(−14dB)〜Dmax=(−6dB))の幅(Dmax−Dmin=8dB)と同じ(以下)場合、図7に示すように、ヒストグラムにおけるピーク値の分布範囲の中間値Ymid=−12dBがダイナミックレンジの中間値Dmid=−10dBに合致するように、ヒストグラムを移動させるために必要なゲイン値の変化分(Dmid−Ymid=2dB)に基づいて、新たなゲイン値Gnewが、
Gnew=Gnow +2dB
に従って算出される。即ち、マイクアンプ12のゲイン値が2dBだけ増加される。これは、ヒストグラムで表わされるピーク値の統計的分布範囲が、全体として音声認識エンジン120のダイナミックレンジより2dBだけ低い側に寄っているので、今後その音声信号のピーク値の統計的分布(ヒストグラム)範囲が前記ダイナミックレンジに収まるようにするため、マイクアンプ12のゲイン値が2dBだけ増加されるものである。
【0055】
その後、ヒストグラム算出処理部140における発話ピーク値格納部141に格納されている今までの音声信号のピーク値のそれぞれがそのゲイン値の変化分(例えば、+2dB)だけ変化させられる(第1音声ピーク値分布情報更新手段:S81)。即ち、音声信号のピーク値のヒストグラムHが、音声認識エンジン120のダイナミックレンジ(基準ピーク値範囲)に収められるように更新される。具体的には、図6に示すヒストグラムHmが音声認識エンジン120のダイナミックレンジ(Dmax、Dmin)に収められるように、図7に示すヒストグラムHmに更新される。これにより、更新後のヒストグラムHm(図7参照)が、新たなゲイン値(2dB増加)に基づいて増幅された音声信号のピーク値のヒストグラムを表わすものとなる。
【0056】
一方、ヒストグラムにおけるピーク値の分布範囲の幅(Ymax−Ymin)が前記ダイナミックレンジの幅(Dmax−Dmin)より大きいと判定された場合(S76でNO)、ゲイン更新部152は、そのヒストグラムにおけるピーク値の分布範囲において、音声認識エンジン120のダイナミックレンジと同じ幅であって、それに含まれる各ピーク値の総度数が最大となる範囲(以下、検出ピーク値主要範囲)を算出する(S79)。具体的には、図8に示すような音声信号のピーク値のヒストグラムが得られている場合、そのヒストグラムにおいて、図9に示すように、今回検出された音声信号のピーク値Ym(−16dB〜−14dB)を含み、前記ダイナミックレンジと同じ幅の範囲S1、S2、S3、S4が設定される。そして、各範囲S1、S2、S3、S4に含まれる各ピーク値の度数の総数が算出される。例えば、範囲S1の総度数は「28(=6+7+8+7)」となり、範囲S2の総度数は「29(=8+6+7+8)」となり、範囲S3の総度数は「26(=5+8+6+7)」となり、そして、範囲S4の総度数は「20(=1+5+8+6)」となる。各範囲S1〜S4から総度数が最大となる範囲S2が検出ピーク値主要範囲の候補として決められる。更に、音声認識エンジン120のダイナミックレンジと同じ範囲となるヒストグラムの範囲Sm-1についての総度数「28(=7+8+7+6)」が算出される。なお、このダイナミックレンジと同じ範囲となるヒストグラムの範囲Sm-1は、前回の発話において検出ピーク値主要範囲として決められたものである。
【0057】
前記検出ピーク値主要範囲の候補として決められた範囲S2の総度数と、ダイナミックレンジと同じ範囲となる範囲Sm-1の総度数とが比較され、その範囲S2の総度数がダイナミックレンジと同じ範囲となる範囲Sm-1の総度数以上であれば、当該範囲S2が新たな検出ピーク値主要範囲Smとして決められる。
【0058】
次に、ゲイン更新部152は、前記検出ピーク値主要範囲(S2)の各ピーク値を音声認識エンジン120のダイナミックレンジの範囲に収めるに必要なゲイン値の変化分に基づいてマイクアンプ12に現在設定されているゲイン値(Gnow)から更新すべき新たなゲイン値(Gnew)を算出する(S80)。
【0059】
具体的には、ヒストグラムにおいて決められた前記検出ピーク値主要範囲(S2)の最小値Rmin(−18dB)が音声認識エンジン120のダイナミックレンジの最小値Dmin(−14dB)に合致するように、前記検出ピーク値主要範囲(S2)を移動させるために必要なゲイン値の変化分(Dmin−Rmin)が算出される。そして、そのゲイン値の変化分(Dmin−Rmin)に基づいて新たなゲイン値Gnewが、
Gnew =Gnow+(Dmin−Rmin)
に従って演算される。
【0060】
例えば、図9に示す検出ピーク値主要範囲S2の最小値Rmin=−18dBが、音声認識エンジン120のダイナミックレンジの最小値Dmin=−14dBに合致するように前記検出主要範囲S2(ヒストグラム)を移動させるために必要なゲイン値の変化分(Dmid−Rmin=4dB)に基づいて、新たなゲイン値Gnewが、
Gnew =Gnow +4dB
に従って算出される。即ち、マイクアンプ12のゲイン値が4dBだけ増加される。これは、ヒストグラムにおいて総度数が大きく主要となる範囲(検出ピーク値主要範囲)が、全体として音声認識エンジン120のダイナミックレンジより4dBだけ低い側に寄っているので、今後その音声信号のピーク値の統計的分布(ヒストグラム)範囲が前記ダイナミックレンジに収まるようにするため、マイクアンプ12のゲイン値が4dBだけ増加されるものである。
【0061】
その後、ヒストグラム算出処理部140における発話ピーク値格納部141に格納されている今までの音声信号のピーク値のそれぞれがそのゲイン値の変化分(例えば、+4dB)だけ変化させられる(第2音声ピーク値分布情報更新手段:S81)。即ち、音声信号のピーク値のヒストグラムHにおける検出ピーク値主要範囲が、音声認識エンジン120のダイナミックレンジ(基準ピーク値範囲)に収められるように更新される。具体的には、図8及び図9に示すヒストグラムHmが、その検出ピーク値主要範囲が音声認識エンジン120のダイナミックレンジ(Dmax、Dmin)に収められるように、図10に示すヒストグラムHmに更新される。これにより、更新後のヒストグラムHm(図10参照)が、新たなゲイン値(4dB増加)に基づいて増幅された音声信号のピーク値のヒストグラムを表わすものとなる。
【0062】
以上のようにして、マイクアンプ12に設定すべきゲイン値Gnewが決められると、図2に戻って、そのゲイン値がマイクアンプ12に次回の発話用のゲイン値として設定される(S8)。その後、処理ユニット10は、トークスイッチが操作される毎、即ち、利用者からの発話がなされる毎に、同様の処理によってマイクアンプ12に設定されるゲイン値の更新がなされる。
【0063】
前述したような音声認識装置によれば、利用者の発話に際してマイクアンプ12での増幅を経た音声信号のピーク値の統計的分布を表すヒストグラムと音声認識エンジン120のダイナミックレンジとに基づいて、マイクアンプ12でのゲイン値が決定されるので、様々な騒音や目的とする発話音声が混在する音声信号が統計的に最も高くなる割合で前記音声認識エンジン120のダイナミックレンジ内に調整できるようになり、その結果、発話音声及び騒音が混在する環境において得られる音声信号を適正に音声認識処理することができるようになる。
【0064】
なお、前述した音声認識装置において、例えば、図11に示すように、利用者(ユーザ)毎に、マイクアンプ12に設定されるゲイン値と、取り込まれた音声信号のピーク値の組とを管理することもできる。この場合、図2に示す処理における初期値設定の処理(S1参照)では、発話する利用者に対応したゲイン値Gnowが初期値として設定される。また、初期のヒストグラムは、その発話する利用者に対応したピーク値の組を用いて作成することができる(S6参照)。このような音声認識装置は、複数の人にて利用される車両で用いられる車載機器に搭載されるものとして好適である。
【0065】
また、前述した音声認識装置では、発話毎に逐次ゲイン値の更新を行うようにしていたが、これに限らず、所定回数の発話がなされる毎に、その間に取り込まれた音声データに基づいてゲイン値の更新処理を行うようにしてもよい。更に、発話を重ねるほどに過去の発話でのピーク値の影響を弱める重み(1未満の忘却係数)を度数に乗ずるようにしてもよい。
【0066】
本件発明は、音声認識装置だけに限られることなく、人の発話を音声信号に変換して処理する一般的な音声処理装置に適用することが可能である。
【産業上の利用可能性】
【0067】
以上、説明したように、本発明に係る音声処理装置は、発話音声及び騒音が混在する環境において得られる音声信号を適正に処理することのできるという効果を有し、利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅し、その増幅を経た音声信号を音声認識処理等の所定の手法に従って処理する音声処理装置にとして有用である。
【符号の説明】
【0068】
10 処理ユニット
11 マイク
12 マイクアンプ(増幅手段)
13 A/D変換器
110 音声データ格納部
120 音声認識エンジン(音声処理手段)
130 ピーク値算出処理部
131 データ最大振幅算出部
132 過大入力判定部
133 突出量推定部
140 ヒストグラム算出処理部
141 発話ピーク値格納部
142 ヒストグラム算出部
150 ゲイン算出部
151 レンジ内判定部
152 ゲイン更新部

【特許請求の範囲】
【請求項1】
利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅する増幅手段と、該増幅手段での増幅を経た音声信号を所定の手法に従って処理する音声処理手段とを有する音声処理装置であって、
前記利用者の発話に際して前記増幅手段での増幅を経た音声信号のピーク値を検出する音声ピーク値検出手段と、
前記ピーク値検出手段にて検出される音声信号のピーク値の統計的分布を表わす音声ピーク値分布情報を生成する手段と、
前記音声ピーク値分布情報と予め定めた基準ピーク値範囲とに基づいて前記増幅手段に設定すべきゲイン値を決定するゲイン値決定手段とを有する音声処理装置。
【請求項2】
前記音声ピーク値検出手段にて検出される音声信号のピーク値が前記基準ピーク値範囲内にあるか否かを判定する判定手段と、
前記検出された音声信号のピーク値が前記基準ピーク値範囲内にあると判定されたときに、前記ゲイン値決定手段は、前記音声ピーク値分布情報と前記基準ピーク値範囲とに基づいて新たなゲイン値を決定することなく、既に設定されているゲイン値を維持する請求項1記載の音声処理装置。
【請求項3】
前記ゲイン値決定手段は、前記音声ピーク値分布情報にて表わされるピーク値分布範囲の幅が前記基準ピーク値範囲の幅以下であるか否かを判定するピーク値範囲判定手段を有し、
前記ピーク値分布範囲の幅が前記基準値ピーク値範囲の幅以下であると判定された場合に、ピーク値分布範囲の各ピーク値を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値を決定する請求項1または2記載の音声処理装置。
【請求項4】
前記音声ピーク値分布情報を、前記基準ピーク値範囲に納められた前記ピーク値分布範囲の音声信号のピーク値の統計的分布を表すように更新する第1音声ピーク値分布情報更新手段を有する請求項3記載の音声処理装置。
【請求項5】
前記ゲイン値決定手段は、前記ピーク値分布範囲の中間のピーク値と、前記基準ピーク値範囲の中間のピーク値との差分を前記ゲイン値の変化分として前記ゲイン値を決定する請求項3または4記載の音声処理装置。
【請求項6】
前記ゲイン値決定手段は、前記ピーク値分布範囲の幅が前記基準ピーク値範囲の幅以下ではないと判定されたときに、前記ピーク値分布範囲から、前記基準ピーク値範囲の幅以下の幅で、各ピーク値の度数の総数が最大となる範囲である検出ピーク値主要範囲を決める主要範囲決定手段と、
前記検出ピーク値主要範囲の各ピーク値を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値を決定する請求項3乃至5のいずれかに記載の音声処理装置。
【請求項7】
前記音声ピーク値分布情報を、前記基準ピーク値範囲に収められた前記検出ピーク値主要範囲を含むピーク値分布範囲の音声信号のピーク値の統計的分布を表すように更新する第2音声ピーク値分布情報更新手段を有する請求項6記載の音声処理装置。
【請求項8】
前記ゲイン値決定手段は、前記検出ピーク値主要範囲の境界のピーク値と、前記基準ピーク値範囲の対応する境界のピーク値との差分を前記ゲイン値の変化分として前記ゲイン値を決定する請求項6または7記載の音声処理装置。
【請求項9】
前記主要範囲決定手段は、前記ピーク値分布範囲から、前記基準ピーク値範囲の幅と同じ幅で、各ピーク値の度数の総数が最大となる範囲を検出ピーク値主要範囲として決定する請求項6乃至8のいずれかに記載の音声処理装置。
【請求項10】
前記音声ピーク値検出手段は、前記利用者の発話に際して前記増幅手段での増幅を経た音声信号レベルをサンプルするサンプリング手段と、
該サンプリング手段にてサンプルされた音声信号レベルに基づいて前記音声信号のピーク値を決定するピーク値決定手段とを有し、
前記サンプリング手段は、音声信号レベルが所定値を超えるときに、サンプリングする音声信号レベルを前記所定値に制限するものであって、
前記ピーク値決定手段は、サンプリングされた音声信号レベルに前記所定値が含まれる場合、サンプリングされた音声信号レベルに基づいて前記音声信号のピーク値を推定するピーク値推定手段を有する請求項1乃至9のいずれかに記載の音声処理装置。
【請求項11】
前記音声ピーク値分布情報は、検出された音声信号の各ピーク値の度数を表わすヒストグラムを含む請求項1乃至10のいずれかに記載の音声処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2010−251937(P2010−251937A)
【公開日】平成22年11月4日(2010.11.4)
【国際特許分類】
【出願番号】特願2009−97652(P2009−97652)
【出願日】平成21年4月14日(2009.4.14)
【出願人】(000101732)アルパイン株式会社 (2,424)
【Fターム(参考)】