音声処理装置

【課題】発話音声及び騒音が混在する環境において得られる音声信号を適正に処理することのできる「音声処理装置」を提供することである。
【解決手段】利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅する増幅手段１２と、増幅手段１２での増幅を経た音声信号を処理する音声処理手段１２０とを有する音声処理装置であって、利用者の発話に際して増幅手段１３での増幅を経た音声信号のピーク値を検出する音声ピーク値検出手段１３０と、ピーク値検出手段１３０にて検出される音声信号のピーク値の統計的分布を表わす音声ピーク値分布情報を生成する手段１４０と、前記音声ピーク値分布情報と予め定めた基準ピーク値範囲内とに基づいて増幅手段１２に設定すべきゲイン値を決定するゲイン値決定手段１５０とを有する構成となる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅し、その増幅を経た音声信号を音声認識処理等の所定の手法に従って処理する音声処理装置に関する。
【背景技術】
【０００２】
従来、利用者の発話に応答してマイクから出力される音声信号を音声認識アルゴリズムに従って処理することにより発話音声を認識する音声認識装置（音声処理装置）がある。この種の音声処理装置では、マイクから出力される音声信号が設定されたゲイン値（増幅率値）に基づいて増幅され、その増幅を経た音声信号が音声認識エンジン（音声処理手段）に供される。そして、音声認識エンジンに供される音声信号のレベルが所定レベルを越えた際の認識率の低下を防止するため、その音声信号のレベルを所定レベル内に調整するＡＧＣ（Automatic Gain Control）回路を設けることが一般的に知られている（例えば、特許文献１参照）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００１−１１７５８５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ところで、音声認識装置等の音声処理装置を車載機器のヒューマンインタフェース（ＨＩ）として利用することが考えられる。この場合、車室に設置されたマイクから乗員（利用者）の発話音声が取り込まれるようになるが、そのマイクには、利用者の発話音声のほか、自車両の走行ノイズ、エアコンの動作音、不定期的な対向車の走行ノイズ等、種々の騒音が入力することになる。
【０００５】
前述した従来一般的に用いられるＡＧＣ回路は、認識すべき発話音声の音声信号レベルを調整するには適しているが、様々な騒音や目的とする発話音声が混在する音声信号レベルの調整には必ずしも適したものとはなっていない。このような様々な騒音や目的とする発話音声が混在する音声信号は、まずその全体としてあるレベル、例えば、音声認識エンジンでの処理に適したレベルに調整することが重要である。
【０００６】
本発明は、このような事情に鑑みてなされたもので、発話音声及び騒音が混在する環境において得られる音声信号を適正に処理することのできる音声処理装置を提供するものである。
【課題を解決するための手段】
【０００７】
本発明に係る音声処理装置は、利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅する増幅手段と、該増幅手段での増幅を経た音声信号を所定の手法に従って処理する音声処理手段とを有する音声処理装置であって、前記利用者の発話に際して前記増幅手段での増幅を経た音声信号のピーク値を検出する音声ピーク値検出手段と、前記ピーク値検出手段にて検出される音声信号のピーク値の統計的分布を表わす音声ピーク値分布情報を生成する手段と、前記音声ピーク値分布情報と予め定めた基準ピーク値範囲とに基づいて前記増幅手段に設定すべきゲイン値を決定するゲイン値決定手段とを有する構成となる。
【０００８】
このような構成により、利用者の発話に際して増幅手段での増幅を経た音声信号のピーク値が検出され、その音声信号のピーク値の統計的分布を表す音声ピーク値分布情報が生成される。そして、その音声ピーク値分布情報と基準ピーク値範囲とに基づいて増幅手段でのゲイン値が決定される。例えば、音声ピーク値分布情報にて表わされる音声信号のピーク値の分布範囲が基準ピーク値範囲に近づくように前記増幅手段でのゲイン値を決定することができる。
【０００９】
前記音声信号のピーク値の統計的分布は、検出された音声信号のピーク値の分布であって、音声信号の各ピーク値の検出された度数分布を表し得るものである。また、基準ピーク値範囲は、増幅を経た音声信号を処理する音声処理手段において適正に処理される音声信号のピーク値の範囲に基づいて決めることができる。
【００１０】
また、本発明に係る音声処理装置において、前記音声ピーク値検出手段にて検出される音声信号のピーク値が前記基準ピーク値範囲内にあるか否かを判定する判定手段と、前記検出された音声信号のピーク値が前記基準ピーク値範囲内にあると判定されたときに、前記ゲイン値決定手段は、前記音声ピーク値分布情報と前記基準ピーク値範囲とに基づいて新たなゲイン値を決定することなく、既に設定されているゲイン値を維持するように構成することができる。
【００１１】
このような構成により、検出される音声信号のピーク値が基準ピーク値範囲内にある場合、適正な音声信号レベルであるとして、増幅手段のゲイン値が維持されるようになる。
【００１２】
また、本発明に係る音声処理装置において、前記ゲイン値決定手段は、前記音声ピーク値分布情報にて表わされるピーク値分布範囲の幅が前記基準ピーク値範囲の幅以下であるか否かを判定するピーク値範囲判定手段を有し、前記ピーク値分布範囲の幅が前記基準値ピーク値範囲の幅以下であると判定された場合に、ピーク値分布範囲の各ピーク値を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値を決定するように構成することができる。
【００１３】
このような構成により、増幅を経た今までの音声信号のピーク値の統計的分布の範囲（ピーク値分布範囲）の幅が基準ピーク値範囲の幅以下の場合、今までの音声信号のピーク値の統計的分布の範囲（ピーク値分布範囲）を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて決定されたゲイン値にて音声信号が増幅されるので、新たにマイクから出力されて増幅手段での増幅を経た音声信号のピーク値のより多くのものが前記基準ピーク値範囲内に収まるようになり得る。
【００１４】
更に、本発明に係る音声処理装置において、前記音声ピーク値分布情報を、前記基準ピーク値範囲に収められた前記ピーク値分布範囲の音声信号のピーク値の統計的分布を表すように更新する第１音声ピーク値分布情報更新手段を有するように構成することができる。
【００１５】
このような構成により、今まで検出されている音声信号のピーク値の統計的分布を表す音声ピーク値分布情報が、新たなゲイン値に基づいて増幅された音声信号のピーク値の統計的分布を表すものに更新することができるようになる。
【００１６】
また、本発明に係る音声処理装置において、前記ゲイン値決定手段は、前記ピーク値分布範囲の中間のピーク値と、前記基準ピーク値範囲の中間のピーク値との差分を前記ゲイン値の変化分として前記ゲイン値を決定するように構成することができる。
【００１７】
このような構成により、ピーク値分布範囲が基準ピーク値範囲の中央に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値が決定されるようになる。
【００１８】
また、本発明に係る音声処理装置において、前記ゲイン値決定手段は、前記ピーク値分布範囲の幅が前記基準ピーク値範囲の幅以下ではないと判定されたときに、前記ピーク値分布範囲から、前記基準ピーク値範囲の幅以下の幅で、各ピーク値の度数の総数が最大となる範囲である検出ピーク値主要範囲を決める主要範囲決定手段と、前記検出ピーク値主要範囲の各ピーク値を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値を決定するように構成することができる。
【００１９】
このような構成により、増幅を経た今までの音声信号のピーク値の統計的分布の範囲（ピーク値分布範囲）の幅が基準ピーク値範囲の幅以下とならない場合、その今までの音声信号のピーク値の統計的分布の範囲（ピーク値分布範囲）のうち基準ピーク値範囲の幅以下の幅で各ピーク値の度数の総数が最大となる範囲（検出ピーク値主要範囲）を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて決定されたゲイン値にて音声信号が増幅されるようになるので、新たにマイクから出力されて増幅手段での増幅を経た音声信号のピーク値のより多くのものが前記基準ピーク値範囲内に収まるようになり得る。
【００２０】
更に、本発明に係る音声処理装置において、前記音声ピーク値分布情報を、前記基準ピーク値範囲に収められた前記検出ピーク値主要範囲を含む音声ピーク値分布範囲の音声信号のピーク値の統計的分布を表すように更新する第２音声ピーク値分布情報更新手段を有するように構成することができる。
【００２１】
このような構成により、今まで検出されている音声信号のピーク値の統計的分布を表す音声ピーク値分布情報が、新たなゲイン値に基づいて増幅された音声信号のピーク値の統計的分布を表すものに更新することができるようになる。
【００２２】
また、本発明に係る音声処理装置において、前記ゲイン値決定手段は、前記検出ピーク値主要範囲の境界のピーク値と、前記基準ピーク値範囲の対応する境界のピーク値との差分を前記ゲイン値の変化分として前記ゲイン値を決定するように構成することができる。
【００２３】
このような構成により、ピーク値分布範囲における検出ピーク値主要範囲の境界が基準ピーク値の対応する境界と合致させるに必要なゲイン値の変化分に基づいて前記ゲイン値が決定されるようになる。
【００２４】
また、本発明に係る音声処理装置において、前記主要範囲決定手段は、前記ピーク値分布範囲から、前記基準ピーク値範囲の幅と同じ幅で、各ピーク値の度数の総数が最大となる範囲を検出ピーク値主要範囲として決定するように構成することができる。
【００２５】
このような構成により、増幅を経た今までの音声信号のピーク値の統計的分布の範囲（ピーク値分布範囲）のうち基準ピーク値範囲の幅と同じ幅で各ピーク値の度数の総数が最大となる範囲（検出ピーク値主要範囲）を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて決定されたゲイン値にて音声信号が増幅されるようになるので、新たにマイクから出力されて増幅手段での増幅を経た音声信号のピーク値のより多くのものもまた前記基準ピーク値範囲内になり得る。
【００２６】
更に、本発明に係る音声処理装置において、前記音声ピーク値検出手段は、前記利用者の発話に際して前記増幅手段での増幅を経た音声信号レベルをサンプルするサンプリング手段と、該サンプリング手段にてサンプルされた音声信号レベルに基づいて前記音声信号のピーク値を決定するピーク値決定手段とを有し、前記サンプリング手段は、音声信号レベルが所定値を超えるときに、サンプリングする音声信号レベルを前記所定値に制限するものであって、前記ピーク値決定手段は、サンプリングされた音声信号レベルに前記所定値が含まれる場合、サンプリングされた音声信号レベルに基づいて前記音声信号のピーク値を推定するピーク値推定手段を有するように構成することができる。
【００２７】
このような構成により、サンプリング手段にてサンプルされる音声信号レベルが所定値に制限されても、本来検出されるべき音声信号のピーク値が推定されるので、その推定された音声信号のピーク値を用いてより的確なゲイン値を決定することができるようになる。
【００２８】
前述した前記音声ピーク値分布情報は、検出された音声信号の各ピーク値の度数を表わすヒストグラムを含み得る。
【発明の効果】
【００２９】
本発明に係る音声処理装置によれば、利用者の発話に際して増幅手段での増幅を経た音声信号のピーク値の統計的分布を表す音声ピーク値分布情報と予め定めた基準ピーク値範囲とに基づいて、増幅手段でのゲイン値が決定されるので、様々な騒音や目的とする発話音声が混在する音声信号が全体として前記基準ピーク値範囲に調整できるようになり、その結果、発話音声及び騒音が混在する環境において得られる音声信号を適正に処理することのできるようになる。
【図面の簡単な説明】
【００３０】
【図１】本発明の実施の一形態に係る音声処理装置の構成を示すブロック図である。
【図２】音声処理装置の基本的な処理の流れを示すフローチャートである。
【図３】図２に示す処理におけるピーク値算出処理の具体的な流れを示すフローチャートである。
【図４】ピーク値の推定手法を表す図である。
【図５Ａ】図２に示す処理におけるゲイン算出処理の具体的な流れを示すフローチャート（その１）である。
【図５Ｂ】図２に示す処理におけるゲイン算出処理の具体的な流れを示すフローチャート（その２）である。
【図６】検出された音声信号のピーク値の統計的分布を表すヒストグラムの例を示す図である。
【図７】図６に示すヒストグラムを、そのピーク値分布範囲が音声認識エンジンのダイナミックレンジ（基準ピーク値範囲）に収まるように移動させた状態を示す図である。
【図８】検出された音声信号のピーク値の統計的分布を表すヒストグラムの他の例を示す図である。
【図９】図８に示すヒストグラムにおける検出ピーク値主要範囲を決めるための検討範囲を示す図である。
【図１０】図８に示すヒストグラムにおける検出ピーク値主要範囲が音声認識エンジンのダイナミックレンジ（基準ピーク値範囲）内に収まるように前記ヒストグラムを移動させた状態を示す図である。
【図１１】ユーザ毎に決められたゲイン値と音声信号のピーク値の組とを表す表を示す図である。
【発明を実施するための形態】
【００３１】
本発明の実施の形態について、図面を用いて説明する。
【００３２】
本発明の実施の一形態に係る音声処理装置は、図１に示すように構成される。この音声処理装置は、例えば、車載機器のヒューマンインタフェース（ＨＩ）として用いられる音声認識装置である。
【００３３】
図１において、この音声認識装置は、処理ユニット１０、マイク１１、マイクアンプ１２及びＡ／Ｄ変換器１３を備えている。マイク１１は、車室内に設置され、利用者（乗員）の発話に際して入力する音声に対応した音声信号を出力する。マイクアンプ１２は、マイク１１からの音声信号を設定されたゲイン値（増幅率）に基づいて増幅する。Ａ／Ｄ変換器１３は、マイクアンプ１２の増幅を経た音声信号をデジタル値（デジタル音声信号）に変換する。処理ユニット１０は、Ａ／Ｄ変換器１３からのデジタル音声信号を音声データとして取り込む。
【００３４】
処理ユニット１０は、例えば、ＣＰＵを含むコンピュータユニットであって、音声データ格納部（音声バッファ）１１０、音声認識エンジン１２０（音声処理手段）、ピーク値算出処理部１３０（音声ピーク値検出手段）、ヒストグラム算出処理部１４０（音声ピーク値分布情報を生成する手段）、及びゲイン算出処理部１５０（ゲイン値決定手段）を有している。音声データ格納部１１０は、利用者が発話した際に処理ユニット１０がＡ／Ｄ変換器１３から取り込む音声データを格納する。音声認識エンジン１２０は、音声データ格納部１１０から読み出される音声データを所定の音声認識アルゴリズムに従って処理し、利用者の発話音声に対する認識データを生成する。
【００３５】
ピーク値算出処理部１３０は、データ最大振幅算出部１３１、過大入力判定部１３２及び突出量推定部１３３を有している。データ最大振幅算出部１３１は、音声データ格納部１１０に格納された音声データ（音声信号レベルを表す）を所定時間間隔にてサンプリングし、そのサンプリングされた音声信号レベル（振幅）に基づいて当該音声データの最大振幅値、即ち、ピーク値を決定する。データ最大振幅演算部１３１の出力ビット数は有限であり、決定されるピーク値は、その有限ビット数にて表される所定値に制限される。過大入力判定部１３２は、データ最大振幅演算部１３１の符号ビットを除く出力ビットが全て「１」（フル・ビット）となってデータ最大振幅演算部１３１の出力が所定値に制限されたか否か、即ち、過大な音声入力があったか否かを判定する。突出量推定部１３３は、過大入力判定部１３２によってデータ最大振幅演算部１３１の出力が所定値に制限されたとの判定がなされたときに、ピーク値の制限値である前記所定値とその所定値を超える実際のピーク値との差（突出量）を推定する。
【００３６】
ヒストグラム算出処理部１４０は、発話ピーク値格納部１４１及びヒストグラム算出部１４２を有している。発話ピーク値格納部１４１は、利用者の発話毎にピーク値算出処理部１３０にて得られる音声データのピーク値を格納する。ヒストグラム算出部１４２は、発話ピーク値格納部１４１に格納された既に得られている音声データのピーク値の統計的分布を表すヒストグラム（音声ピーク値分布情報）を生成する。ゲイン算出部１５０は、レンジ内判定部１５１及びゲイン更新部１５２を有している。レンジ内判定部１５１は、ヒストグラム算出部１４０にて生成されたヒストグラムにて表されるピーク値の分布範囲の幅が、音声認識エンジン１２０のダイナミックレンジ（基準ピーク値範囲）の幅より小さいか否かを判定する。ゲイン更新部１５２は、レンジ内判定部１５１での判定結果に応じた手法に従ってマイクアンプ１２に設定すべきゲイン値を更新する。また、レンジ内判定部１５１は、ピーク値算出処理部１３０にて得られたピーク値が音声認識エンジン１２０のダイナミックレンジに含まれるか否かも判定しており、ゲイン更新部１５２は、その判定結果に応じてゲイン値の更新を行うか否かを決定している。
【００３７】
上述したような構成の音声認識装置における処理ユニット１０は、図２に示す手順に従って処理を実行して、マイクアンプ１２に設定すべきゲイン値を調整する。
【００３８】
図２において、処理ユニット１０は、マイクアンプ１２に対するゲイン値を初期値に設定する（Ｓ１）。この音声認識装置の最初の使用時には、工場出荷時に設定された所定の値が初期値として設定され、また、この音声認識装置が既に車載機器の一部として利用されている場合には、前回の利用に際して最終的に設定されたゲイン値が初期値として設定される。マイクアンプ１２に対するゲイン値の初期値が設定されると、処理ユニット１０は、トークスイッチが操作されたか否かを判定する（Ｓ２）。この音声認識装置では、利用者はトークスイッチを操作して発話を行う。すると、発話音声に対応してマイク１１から出力される音声信号がマイクアンプ１２によって前記初期値に設定されたゲイン値に基づいて増幅され、その増幅を経た音声信号がＡ／Ｄ変換器１３を介して音声データとして処理ユニット１０に取り込まれる。
【００３９】
前記トークスイッチの操作がなされたと判定すると（Ｓ２でＹＥＳ）、処理ユニット１０は、取り込んだ音声データを音声データ格納部１１０に格納するとともに音声認識エンジン１２０に供給する（Ｓ３）。音声認識エンジン１２０は供給される音声データに基づいて利用者の発話が終わったか否かを判定しており、処理ユニット１０は、その発話終了についての判定結果が音声認識エンジン１２０により得られるか否かを判定する（Ｓ４）。処理ユニット１０では、音声認識エンジン１２０から発話終了についての判定結果が得られるまで（Ｓ４）、発話音声に対応する音声データの音声データ格納部１１０への格納及び音声認識エンジン１２０への供給（Ｓ３）が継続される。
【００４０】
音声認識エンジン１２０から発話終了についての判定結果が得られると（Ｓ４でＹＥＳ）、処理ユニット１０において、ピーク値算出処理部１３０が今回取り込んだ音声データから発話音声のピーク値Ｙｍを算出する（Ｓ５）。ピーク値算出処理部１３０は、図３に示す手順に従って処理（ピーク値算出処理）を実行する。
【００４１】
図３において、ピーク値算出処理部１３０は、音声認識エンジン１２０から発話開始サンプル点ｎｓと、発話終了サンプル点ｎｅとを発話位置情報として取得する（Ｓ５１）。この発話位置情報を取得したピーク値算出処理部１３０では、データ最大振幅算出部１３１が音声データ格納部１１０に格納された音声データを前記発話開始サンプル点ｎｓから所定時間間隔にてサンプリングしてサンプリング値ｙ（ｎ）を得るとともに、過大入力判定部１３２がそのサンプリング値ｙ（ｎ）がフル・ビットで表わされる値であるか否かを判定する（Ｓ５２）。フル・ビットであるとの判定がなされると（Ｓ５２でＹＥＳ）、過大なレベルの音声入力があったとしてそのサンプル点ｎ（サンプルタイミングを表わす）が保存される（Ｓ５３）。
【００４２】
データ最大振幅算出部１３１は、得られたサンプリング値ｙ（ｎ）がその時点での最大値Ｙｍより大きいか否かを判定し（Ｓ５４）、そのサンプリング値ｙ（ｎ）が最大値Ｙｍより大きい場合（Ｓ５４でＹＥＳ）、そのサンプリング値ｙ（ｎ）を新たな最大値Ｙｍとする（Ｓ５５）。そして、データ最大振幅算出部１３１は、過大入力判定部１３２とともに、最終サンプル点ｎｅについての処理が終了するまで（Ｓ５６）、各サンプル点ｎについて上述した処理（Ｓ５２、Ｓ５３、Ｓ５４、Ｓ５５）を繰り返し実行する。
【００４３】
ピーク値算出処理部１３０は、最終サンプル点ｎｅについての処理が終了すると（Ｓ５６でＹＥＳ）、過大入力判定部１３２での過大な入力レベルであるとの判定結果に基づいて保存されたサンプル点が連続して複数点あるか否かを判定する（Ｓ５７）。そのようなサンプル点が連続して複数点保存されていなければ（Ｓ５７でＮＯ）、パラメータ（サンプリング値ｙ（ｎ）、発話開始サンプル点ｎｓ、及び発話終了サンプル点ｎｅ）を初期化して処理が終了される（Ｓ６０）。そして、その終了時点で設定されている最大値Ｙｍが当該発話音声を表わす音声信号のピーク値としてヒストグラム算出処理部１４０及びゲイン算出部１５０に送られる。
【００４４】
一方、前述した保存サンプル点が連続して複数点ある場合（Ｓ５７でＹＥＳ）、突出量推定部１３３が突出量推定処理を実行する（Ｓ５８）。この突出量推定処理は、図４に示すように、制限されたサンプリング値である前記所定値（符号付き１６ビットでフル・ビットに相当する"32768"）とその所定値を超える実際の真値との差（突出量）α（ｄＢ）を推定する。具体的には、フル・ビットで表わされる制限値に対応して保存された複数のサンプリング点（ｎi+2、・・・、ｎi+9）の開始点ｎi+2での制限値（サンプリング値）を通るサンプリング値列の近似直線と、終点ｎi+9での制限値（サンプリング値）を通るサンプリング値列の近似直線との交点が算出され、その交点の位置（値）とフル・ビットで表わされる制限値との差が突出量αとして算出される。そして、その交点の値が当該音声信号の真値の推定値となる。このようにして算出された真値の推定値の中で、最大となる値が当該音声信号のピーク値の推定値Ｙｓとなる。
【００４５】
なお、ピーク値の推定値Ｙｓを求める方法として、２つの直線の交点から求める方法以外に、スプライン補間を用いる方法や、ＤＦＴを用いる方法も考えられる。
【００４６】
前述した突出量推定部１３３での突出量推定処理が終了すると、この処理にて推定されたピーク値Ｙｓがその時点での最大値Ｙｍより大きい場合に、最大値Ｙｍがその推定値Ｙｓの値に更新される。その後、前述したパラメータの初期化がなされ（Ｓ６０）、その時点で設定されている最大値Ｙｍが当該発話音声を表わす音声信号のピーク値としてヒストグラム算出処理部１４０及びゲイン算出部１５０に送られる。
【００４７】
図２に戻って、前述したようにして発話音声を表わす音声信号のピーク値Ｙｍが得られると（Ｓ５）、処理ユニット１０において、ヒストグラム算出処理部１４０がピーク値算出処理部１３０から送られるピーク値Ｙｍに基づいてヒストグラムＨを更新する（Ｓ６）。具体的には、前述したようにしてピーク値算出処理部１３０からのピーク値Ｙｍが発話ピーク値格納部１４１に格納され、そのピーク値Ｙｍと今まで発話ピーク値格納部１４１に格納されていたピーク値に基づいてヒストグラム算出部１４２がヒストグラムＨを生成する。
【００４８】
例えば、図６に示すように、フル・ビットのピーク値に対応する０ｄＢまでのレベル範囲において、今回検出された音声信号のピーク値Ｙｍが範囲「−１６ｄＢ〜−１４ｄＢ」に含まれる場合、範囲「−１４ｄＢ〜−１２ｄＢ」でのピーク値の度数が７、範囲「−１２ｄＢ〜−１０ｄＢ」でのピーク値の度数が８、範囲「−１０ｄＢ〜−８ｄＢ」でのピーク値の度数が６となる（他の範囲でのピーク値の度数は０）ヒストグラムＨ_m-1が、それに加えて、範囲「−１６ｄＢ〜−１４ｄＢ」でのピーク値の度数が１となるヒストグラムＨ_mに更新される。また、例えば、図８に示すように、今回検出された音声信号のピーク値Ｙｍが同様に範囲「−１６ｄＢ〜−１４ｄＢ」に含まれる場合、範囲「−２２ｄＢ〜−２０ｄＢ」でのピーク値の度数が１、範囲「−２０ｄＢ〜−１８ｄＢ」でのピーク値の度数が５、範囲「−１８ｄＢ〜−１６ｄＢ」でのピーク値の度数が８、範囲「−１６ｄＢ〜−１４ｄＢ」でのピーク値の度数が５、範囲「−１４ｄＢ〜−１２ｄＢ」でのピーク値の度数が７、範囲「−１２ｄＢ〜−１０ｄＢ」でのピーク値の度数が８、範囲「−１０ｄＢ〜−８ｄＢ」でのピーク値の度数が７、範囲「−８ｄＢ〜−６ｄＢ」でのピーク値の度数が６、範囲「−６ｄＢ〜−４ｄＢ」でのピーク値の度数が４、範囲「−４ｄＢ〜−２ｄＢ」でのピーク値の度数が３となる（他の範囲でのピーク値の度数は０）ヒストグラムＨ_m-1が、範囲「−１６ｄＢ〜−１４ｄＢ」でのピーク値の度数が６に変えられたヒストグラムＨ_mに更新される。
【００４９】
上述したように検出される音声信号のピーク値の統計的分布を表わすヒストグラムが更新（生成）されると、処理ユニット１０では、ゲイン算出処理部１５０がゲイン算出の処理（Ｓ７）を実行する。このゲイン算出の具体的な処理手順は、図５Ａ及び５Ｂに示される。
【００５０】
図５Ａにおいて、ゲイン算出処理部１５０は、ゲイン計算に必要なデータ、具体的には、ピーク値算出処理部１３０にて算出された今回のピーク値Ｙｍと、ヒストグラム算出処理部１４０にて算出されたヒストグラムＨに係る情報を取り込む（Ｓ７１）。そして、レンジ内判定部１５１は、取り込んだピーク値Ｙｍが音声認識エンジン１２０のダイナミックレンジ（最大値Ｄmax、最小値Ｄmin）を逸脱しているか否かを判定する（Ｓ７２）。なお、このダイナミックレンジは、音声認識エンジン１２０で音声信号が適正に音声認識処理され得る振幅レベルの範囲である。レンジ内判定部１５１にて前記ピーク値Ｙｍが音声認識エンジン１２０のダイナミックレンジを逸脱していないとの判定がなされると（Ｓ７２でＮＯ）、現在設定されているゲイン値で増幅される音声信号のレベルは適正な範囲内にあるとして、ゲイン更新部１５２は、マイクアンプ１２に既に設定されているゲイン値（Ｇnow）を維持する（Ｇnew＝Ｇnow）（Ｓ７３）。そして、ゲイン算出の処理が終了する（図５Ｂ参照）。
【００５１】
一方、レンジ内判定部１５１にて前記検出されたピーク値Ｙｍが音声認識エンジン１２０のダイナミックレンジから逸脱しているとの判定がなされると（Ｓ７２でＹＥＳ）、ゲイン算出処理部１５０では、引き続き図５Ｂに示す手順に従った処理が実行される。
【００５２】
図５Ｂにおいて、ゲイン更新部１５２は、ヒストグラム算出処理部１４０から取り込んだヒストグラムＨ（図６、図８参照）から分布するピーク値の最大値Ｙmaxと最小値Ｙminとを算出する。次いで、ゲイン更新部１５２は、音声認識エンジン１２０のダイナミックレンジの幅（Ｄmax−Ｄmin）を算出するとともに、前記ヒストグラムにおいて音声信号のピーク値の分布する幅（Ｙmax−Ｙmin）を算出する（Ｓ７５）。ゲイン更新部１５２は、ヒストグラムにおけるピーク値の分布範囲の幅（Ｙmax−Ｙmin）が音声認識エンジン１２０のダイナミックレンジの幅（Ｄmax−Ｄmin）以下であるか否かを判定する（Ｓ７６）。ヒストグラムにおけるピーク値の分布範囲の幅（Ｙmax−Ｙmin）が前記ダイナミックレンジの幅（Ｄmax−Ｄmin）以下であると判定された場合（Ｓ７６でＹＥＳ）、ゲイン更新部１５２は、ヒストグラムにおける各ピーク値を前記ダイナミックレンジ内に収めるために必要なゲイン値の変化分を算出し、その変化分に基づいてマイクアンプ１２に現在設定されているゲイン値（Ｇnow）から更新すべき新たなゲイン値（Ｇnew）を算出する（Ｓ７７、Ｓ７８）。
【００５３】
具体的には、ヒストグラムにおけるピーク値の分布範囲の中間値Ｙmid及び音声認識エンジン１２０のダイナミックレンジの中間値Ｄmidのそれぞれが算出され（Ｓ７７）、ヒストグラムにおけるピーク値の分布範囲の中間値Ｙmidがダイナミックレンジの中間値Ｄmidに合致するようにヒストグラムを移動させるために必要なゲイン値の変化分（Ｄmid−Ｙmid）が算出さる。そして、そのゲイン値の変化分（Ｄmin−Ｙmin）に基づいて新たなゲイン値Ｇnewが、
Ｇnew ＝Ｇnow＋（Ｄmid−Ｙmid）
に従って演算される（Ｓ７８）。
【００５４】
例えば、図６に示すように、今回検出されたピーク値Ｙｍを加味して得られたヒストグラムにおけるピーク値の分布範囲「Ｙmin＝（−１６ｄＢ）〜Ｙmax（−８ｄＢ）」の幅（Ｙmax−Ｙmin＝８ｄＢ）が、音声認識エンジン１２０のダイナミックレンジ（Ｄmin＝（−１４ｄＢ）〜Ｄmax＝（−６ｄＢ））の幅（Ｄmax−Ｄmin=８ｄＢ）と同じ（以下）場合、図７に示すように、ヒストグラムにおけるピーク値の分布範囲の中間値Ｙmid＝−１２ｄＢがダイナミックレンジの中間値Ｄmid＝−１０ｄＢに合致するように、ヒストグラムを移動させるために必要なゲイン値の変化分（Ｄmid−Ｙmid＝２ｄＢ）に基づいて、新たなゲイン値Ｇnewが、
Ｇnew＝Ｇnow ＋２ｄＢ
に従って算出される。即ち、マイクアンプ１２のゲイン値が２ｄＢだけ増加される。これは、ヒストグラムで表わされるピーク値の統計的分布範囲が、全体として音声認識エンジン１２０のダイナミックレンジより２ｄＢだけ低い側に寄っているので、今後その音声信号のピーク値の統計的分布（ヒストグラム）範囲が前記ダイナミックレンジに収まるようにするため、マイクアンプ１２のゲイン値が２ｄＢだけ増加されるものである。
【００５５】
その後、ヒストグラム算出処理部１４０における発話ピーク値格納部１４１に格納されている今までの音声信号のピーク値のそれぞれがそのゲイン値の変化分（例えば、＋２ｄＢ）だけ変化させられる（第1音声ピーク値分布情報更新手段：Ｓ８１）。即ち、音声信号のピーク値のヒストグラムＨが、音声認識エンジン１２０のダイナミックレンジ（基準ピーク値範囲）に収められるように更新される。具体的には、図６に示すヒストグラムＨ_mが音声認識エンジン１２０のダイナミックレンジ（Ｄmax、Ｄmin）に収められるように、図７に示すヒストグラムＨ_mに更新される。これにより、更新後のヒストグラムＨ_m（図７参照）が、新たなゲイン値（２ｄＢ増加）に基づいて増幅された音声信号のピーク値のヒストグラムを表わすものとなる。
【００５６】
一方、ヒストグラムにおけるピーク値の分布範囲の幅（Ｙmax−Ｙmin）が前記ダイナミックレンジの幅（Ｄmax−Ｄmin）より大きいと判定された場合（Ｓ７６でＮＯ）、ゲイン更新部１５２は、そのヒストグラムにおけるピーク値の分布範囲において、音声認識エンジン１２０のダイナミックレンジと同じ幅であって、それに含まれる各ピーク値の総度数が最大となる範囲（以下、検出ピーク値主要範囲）を算出する（Ｓ７９）。具体的には、図８に示すような音声信号のピーク値のヒストグラムが得られている場合、そのヒストグラムにおいて、図９に示すように、今回検出された音声信号のピーク値Ｙｍ（−１６ｄＢ〜−１４ｄＢ）を含み、前記ダイナミックレンジと同じ幅の範囲Ｓ１、Ｓ２、Ｓ３、Ｓ４が設定される。そして、各範囲Ｓ１、Ｓ２、Ｓ３、Ｓ４に含まれる各ピーク値の度数の総数が算出される。例えば、範囲Ｓ１の総度数は「２８（＝６＋７＋８＋７）」となり、範囲Ｓ２の総度数は「２９（＝８＋６＋７＋８）」となり、範囲Ｓ３の総度数は「２６（＝５＋８＋６＋７）」となり、そして、範囲Ｓ４の総度数は「２０（＝１＋５＋８＋６）」となる。各範囲Ｓ１〜Ｓ４から総度数が最大となる範囲Ｓ２が検出ピーク値主要範囲の候補として決められる。更に、音声認識エンジン１２０のダイナミックレンジと同じ範囲となるヒストグラムの範囲Ｓ_m-1についての総度数「２８（＝７＋８＋７＋６）」が算出される。なお、このダイナミックレンジと同じ範囲となるヒストグラムの範囲Ｓ_m-1は、前回の発話において検出ピーク値主要範囲として決められたものである。
【００５７】
前記検出ピーク値主要範囲の候補として決められた範囲Ｓ２の総度数と、ダイナミックレンジと同じ範囲となる範囲Ｓ_m-1の総度数とが比較され、その範囲Ｓ２の総度数がダイナミックレンジと同じ範囲となる範囲Ｓ_m-1の総度数以上であれば、当該範囲Ｓ２が新たな検出ピーク値主要範囲Ｓ_mとして決められる。
【００５８】
次に、ゲイン更新部１５２は、前記検出ピーク値主要範囲（Ｓ２）の各ピーク値を音声認識エンジン１２０のダイナミックレンジの範囲に収めるに必要なゲイン値の変化分に基づいてマイクアンプ１２に現在設定されているゲイン値（Ｇnow）から更新すべき新たなゲイン値（Ｇnew）を算出する（Ｓ８０）。
【００５９】
具体的には、ヒストグラムにおいて決められた前記検出ピーク値主要範囲（Ｓ２）の最小値Ｒmin（−１８ｄＢ）が音声認識エンジン１２０のダイナミックレンジの最小値Ｄmin（−１４ｄＢ）に合致するように、前記検出ピーク値主要範囲（Ｓ２）を移動させるために必要なゲイン値の変化分（Ｄmin−Ｒmin）が算出される。そして、そのゲイン値の変化分（Ｄmin−Ｒmin）に基づいて新たなゲイン値Ｇnewが、
Ｇnew ＝Ｇnow＋（Ｄmin−Ｒmin）
に従って演算される。
【００６０】
例えば、図９に示す検出ピーク値主要範囲Ｓ２の最小値Ｒmin＝−１８ｄＢが、音声認識エンジン１２０のダイナミックレンジの最小値Ｄmin＝−１４ｄＢに合致するように前記検出主要範囲Ｓ２（ヒストグラム）を移動させるために必要なゲイン値の変化分（Ｄmid−Ｒmin＝４ｄＢ）に基づいて、新たなゲイン値Ｇnewが、
Ｇnew ＝Ｇnow ＋４ｄＢ
に従って算出される。即ち、マイクアンプ１２のゲイン値が４ｄＢだけ増加される。これは、ヒストグラムにおいて総度数が大きく主要となる範囲（検出ピーク値主要範囲）が、全体として音声認識エンジン１２０のダイナミックレンジより４ｄＢだけ低い側に寄っているので、今後その音声信号のピーク値の統計的分布（ヒストグラム）範囲が前記ダイナミックレンジに収まるようにするため、マイクアンプ１２のゲイン値が４ｄＢだけ増加されるものである。
【００６１】
その後、ヒストグラム算出処理部１４０における発話ピーク値格納部１４１に格納されている今までの音声信号のピーク値のそれぞれがそのゲイン値の変化分（例えば、＋４ｄＢ）だけ変化させられる（第２音声ピーク値分布情報更新手段：Ｓ８１）。即ち、音声信号のピーク値のヒストグラムＨにおける検出ピーク値主要範囲が、音声認識エンジン１２０のダイナミックレンジ（基準ピーク値範囲）に収められるように更新される。具体的には、図８及び図９に示すヒストグラムＨ_mが、その検出ピーク値主要範囲が音声認識エンジン１２０のダイナミックレンジ（Ｄmax、Ｄmin）に収められるように、図１０に示すヒストグラムＨ_mに更新される。これにより、更新後のヒストグラムＨ_m（図１０参照）が、新たなゲイン値（４ｄＢ増加）に基づいて増幅された音声信号のピーク値のヒストグラムを表わすものとなる。
【００６２】
以上のようにして、マイクアンプ１２に設定すべきゲイン値Ｇnewが決められると、図２に戻って、そのゲイン値がマイクアンプ１２に次回の発話用のゲイン値として設定される（Ｓ８）。その後、処理ユニット１０は、トークスイッチが操作される毎、即ち、利用者からの発話がなされる毎に、同様の処理によってマイクアンプ１２に設定されるゲイン値の更新がなされる。
【００６３】
前述したような音声認識装置によれば、利用者の発話に際してマイクアンプ１２での増幅を経た音声信号のピーク値の統計的分布を表すヒストグラムと音声認識エンジン１２０のダイナミックレンジとに基づいて、マイクアンプ１２でのゲイン値が決定されるので、様々な騒音や目的とする発話音声が混在する音声信号が統計的に最も高くなる割合で前記音声認識エンジン１２０のダイナミックレンジ内に調整できるようになり、その結果、発話音声及び騒音が混在する環境において得られる音声信号を適正に音声認識処理することができるようになる。
【００６４】
なお、前述した音声認識装置において、例えば、図１１に示すように、利用者（ユーザ）毎に、マイクアンプ１２に設定されるゲイン値と、取り込まれた音声信号のピーク値の組とを管理することもできる。この場合、図２に示す処理における初期値設定の処理（Ｓ１参照）では、発話する利用者に対応したゲイン値Ｇnowが初期値として設定される。また、初期のヒストグラムは、その発話する利用者に対応したピーク値の組を用いて作成することができる（Ｓ６参照）。このような音声認識装置は、複数の人にて利用される車両で用いられる車載機器に搭載されるものとして好適である。
【００６５】
また、前述した音声認識装置では、発話毎に逐次ゲイン値の更新を行うようにしていたが、これに限らず、所定回数の発話がなされる毎に、その間に取り込まれた音声データに基づいてゲイン値の更新処理を行うようにしてもよい。更に、発話を重ねるほどに過去の発話でのピーク値の影響を弱める重み（1未満の忘却係数）を度数に乗ずるようにしてもよい。
【００６６】
本件発明は、音声認識装置だけに限られることなく、人の発話を音声信号に変換して処理する一般的な音声処理装置に適用することが可能である。
【産業上の利用可能性】
【００６７】
以上、説明したように、本発明に係る音声処理装置は、発話音声及び騒音が混在する環境において得られる音声信号を適正に処理することのできるという効果を有し、利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅し、その増幅を経た音声信号を音声認識処理等の所定の手法に従って処理する音声処理装置にとして有用である。
【符号の説明】
【００６８】
１０処理ユニット
１１マイク
１２マイクアンプ（増幅手段）
１３Ａ／Ｄ変換器
１１０音声データ格納部
１２０音声認識エンジン（音声処理手段）
１３０ピーク値算出処理部
１３１データ最大振幅算出部
１３２過大入力判定部
１３３突出量推定部
１４０ヒストグラム算出処理部
１４１発話ピーク値格納部
１４２ヒストグラム算出部
１５０ゲイン算出部
１５１レンジ内判定部
１５２ゲイン更新部

【特許請求の範囲】
【請求項１】
利用者の発話に応答してマイクから出力される音声信号を設定されたゲイン値に基づいて増幅する増幅手段と、該増幅手段での増幅を経た音声信号を所定の手法に従って処理する音声処理手段とを有する音声処理装置であって、
前記利用者の発話に際して前記増幅手段での増幅を経た音声信号のピーク値を検出する音声ピーク値検出手段と、
前記ピーク値検出手段にて検出される音声信号のピーク値の統計的分布を表わす音声ピーク値分布情報を生成する手段と、
前記音声ピーク値分布情報と予め定めた基準ピーク値範囲とに基づいて前記増幅手段に設定すべきゲイン値を決定するゲイン値決定手段とを有する音声処理装置。
【請求項２】
前記音声ピーク値検出手段にて検出される音声信号のピーク値が前記基準ピーク値範囲内にあるか否かを判定する判定手段と、
前記検出された音声信号のピーク値が前記基準ピーク値範囲内にあると判定されたときに、前記ゲイン値決定手段は、前記音声ピーク値分布情報と前記基準ピーク値範囲とに基づいて新たなゲイン値を決定することなく、既に設定されているゲイン値を維持する請求項１記載の音声処理装置。
【請求項３】
前記ゲイン値決定手段は、前記音声ピーク値分布情報にて表わされるピーク値分布範囲の幅が前記基準ピーク値範囲の幅以下であるか否かを判定するピーク値範囲判定手段を有し、
前記ピーク値分布範囲の幅が前記基準値ピーク値範囲の幅以下であると判定された場合に、ピーク値分布範囲の各ピーク値を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値を決定する請求項１または２記載の音声処理装置。
【請求項４】
前記音声ピーク値分布情報を、前記基準ピーク値範囲に納められた前記ピーク値分布範囲の音声信号のピーク値の統計的分布を表すように更新する第１音声ピーク値分布情報更新手段を有する請求項３記載の音声処理装置。
【請求項５】
前記ゲイン値決定手段は、前記ピーク値分布範囲の中間のピーク値と、前記基準ピーク値範囲の中間のピーク値との差分を前記ゲイン値の変化分として前記ゲイン値を決定する請求項３または４記載の音声処理装置。
【請求項６】
前記ゲイン値決定手段は、前記ピーク値分布範囲の幅が前記基準ピーク値範囲の幅以下ではないと判定されたときに、前記ピーク値分布範囲から、前記基準ピーク値範囲の幅以下の幅で、各ピーク値の度数の総数が最大となる範囲である検出ピーク値主要範囲を決める主要範囲決定手段と、
前記検出ピーク値主要範囲の各ピーク値を前記基準ピーク値範囲に収めるに必要なゲイン値の変化分に基づいて前記ゲイン値を決定する請求項３乃至５のいずれかに記載の音声処理装置。
【請求項７】
前記音声ピーク値分布情報を、前記基準ピーク値範囲に収められた前記検出ピーク値主要範囲を含むピーク値分布範囲の音声信号のピーク値の統計的分布を表すように更新する第２音声ピーク値分布情報更新手段を有する請求項６記載の音声処理装置。
【請求項８】
前記ゲイン値決定手段は、前記検出ピーク値主要範囲の境界のピーク値と、前記基準ピーク値範囲の対応する境界のピーク値との差分を前記ゲイン値の変化分として前記ゲイン値を決定する請求項６または７記載の音声処理装置。
【請求項９】
前記主要範囲決定手段は、前記ピーク値分布範囲から、前記基準ピーク値範囲の幅と同じ幅で、各ピーク値の度数の総数が最大となる範囲を検出ピーク値主要範囲として決定する請求項６乃至８のいずれかに記載の音声処理装置。
【請求項１０】
前記音声ピーク値検出手段は、前記利用者の発話に際して前記増幅手段での増幅を経た音声信号レベルをサンプルするサンプリング手段と、
該サンプリング手段にてサンプルされた音声信号レベルに基づいて前記音声信号のピーク値を決定するピーク値決定手段とを有し、
前記サンプリング手段は、音声信号レベルが所定値を超えるときに、サンプリングする音声信号レベルを前記所定値に制限するものであって、
前記ピーク値決定手段は、サンプリングされた音声信号レベルに前記所定値が含まれる場合、サンプリングされた音声信号レベルに基づいて前記音声信号のピーク値を推定するピーク値推定手段を有する請求項１乃至９のいずれかに記載の音声処理装置。
【請求項１１】
前記音声ピーク値分布情報は、検出された音声信号の各ピーク値の度数を表わすヒストグラムを含む請求項１乃至１０のいずれかに記載の音声処理装置。

【図１】