説明

入力レベルの自動調整のための音声認識システム及びこれを用いた音声認識方法

【課題】 ユーザが発声した音声を分析し、音声認識期間で音声として認識することができるように、音声入力レベルを自動的及び能動的に調整することができる音声認識システム等を提供する。
【解決手段】 本発明の音声認識システムは、外部から話者の音声を読み取る音声読み取り部220と、読み取られた音声を、音声認識部300から供給される音声入力レベルで受信し、音声認識部300に出力する音声レベル制御部240と、 音声レベル制御部240で出力される音声から音声認識に必要な音声信号期間を検出する音声検出部310と、検出した音声信号期間内の音声信号の有無を、閾値を基準にして判定する音声飽和検出部350と、音声信号期間の音声信号が飽和したと判定されると、音声レベル制御部240が音声を飽和しない状態で受信するように、新たな音声入力レベルを決定し、該新たな音声入力レベル情報を音声レベル制御部240に出力する音声レベル決定部370と、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識システムに関し、より詳しくは、入力される音声の音声信号期間の検出及び飽和の有無に基づいて音声の入力レベルを自動で調整(制御)することができる音声認識システム及びこれを用いた音声認識方法に関する。
【背景技術】
【0002】
一般に、音声認識のシステム或いは方法では、周波数分析技法を用いた様々な分析方法によって、入力される音声の特徴的なベクトル(feature vector)を生成し、当該生成された特徴的なベクトルを音声認識のために利用する。音声認識システム(または方法)は、様々な音声認識技法のうち、入力された音声信号のエネルギーを用いた音声認識技法を広く使用している。
【0003】
音声のエネルギーを用いた音声認識システム(または方法)では、音声認識のために、入力される音声信号のエネルギーを正規化して、当該音声のエネルギー偏差を最小に低減する。このとき、音声認識システムでは、入力された音声信号の特定時点でのエネルギーレベル(又は信号レベル)を個々に確認するようなことは行わない。
【0004】
しかして、従来の音声認識システム(または方法)では、音声信号の入力レベルが非常に低いために音声検出が失敗したり、音声入力レベルが非常に高いために音声の特定の時期の間(期間)で音声入力の解像度(resolution)を逸脱する音声が入力される場合には、音声認識率が低下するおそれがある。しかしながら、従来の音声認識システム(または方法)では、前述のような状況下で音声認識低下を補償することができなかった。
【0005】
すなわち、従来の音声認識システム(または方法)は、入力される音声のレベルに基づいて、当該音声入力レベルを利用可能な範囲のレベルに調整(制御)していなかった。従って、従来の音声認識システム(または方法)では、音声入力レベルが低い場合には音声検出に失敗し、逆に音声入力レベルが高い場合には当該音声の期間で入力信号の飽和現象が発生し、これらが音声認識率を低下させる原因となっていた。
【0006】
図1は、従来の音声認識システムにおいて、音声検出に失敗した場合の結果表示の一例を示す図である。図1には、入力される音声が音声認識期間に設定された範囲よりも低い信号レベルであるために、音声検出を失敗した旨の結果情報10が表示されている。
【0007】
図2は、従来の音声認識システムにおいて、音声検出に失敗した場合の結果表示の他の例を示す図である。図2には、入力される音声が音声認識期間に設定された範囲よりも高い(飽和)信号レベルであるために、音声認識を失敗したことを示す結果情報20が表示されている。
【0008】
図1及び図2に示されるように、音声認識が失敗した場合に、従来の音声認識システムでは、音声認識の失敗理由に応じて、ユーザが直接音声入力レベルを調節することになる。例えば、ユーザは、音声が入力されるマイクとユーザ間の距離を調節したり、入力装置のマイク利得を調節することによって、入力レベルを調整する。
【0009】
ところで、音声認識システムを使用するユーザは、周期的に一定の間隔(インターバル)を置いて使用するというよりは、もっぱら或る時点から開始して数回を連続して使用するので、最初に認識した入力レベルの補正が次の認識に影響を及ぼす可能性が高い。また、1つの音声認識システムを使用するユーザが複数いる場合には、ユーザ毎に音量(すなわち声音の大きさ)と音声入力方式(例えばマイクと話者との距離)が異なる場合が多い。この場合には、ユーザ毎に或いはユーザが変わる度に音声認識システムの音声入力レベルを、当該状況に応じてリアルタイムで調節する必要があるが、従来の音声認識システムでは、個々のユーザが直接手作業でその都度調節しなければならない、という不都合があった。
【発明の開示】
【発明が解決しようとする課題】
【0010】
本発明の目的は、ユーザが発声した音声を分析し、音声認識期間で音声として認識することができ、音声入力レベルを自動的かつ能動的に調整することができる音声認識システム及びこれを用いた音声認識方法を提供することにある。
【0011】
また、本発明の他の目的は、多数の話者または同じ話者により発声される多様な音量及び発声パターンに対応でき、入力される音声の検出率及び認識率を高めることができる音声認識システム及びこれを用いた音声認識方法を提供することにある。
【課題を解決するための手段】
【0012】
前記目的を達成するために、本発明の一態様に係る音声認識システムは、読み取られる音声を、設定された音声入力レベルで受信して出力する音声受信部と、音声受信部によって出力された音声のうち、音声認識に必要な音声信号期間内の音声信号が、設定された閾値を基準として飽和しているか否かに基づいて、前記音声入力レベルを決定し、音声受信部に出力する音声認識部と、を含むことを特徴とする。
【0013】
好ましくは、前記音声認識部は、外部からの話者の音声を読み取る音声読み取り部と、前記読み取られた音声を、前記音声認識部から供給される前記音声入力レベルで受信し、該受信した音声を前記音声認識部に出力する音声レベル制御部と、を含む。
【0014】
好ましくは、音声認識部は、音声受信部より出力される音声から、音声認識に必要な音声信号期間を検出する音声検出部と、前記音声信号期間内の音声信号が飽和しているか否かを、前記閾値を基準として判定する音声飽和検出部と、音声信号期間内の音声信号が飽和していると判定された場合に、音声受信部が音声を飽和しない状態で受信するように、新たな音声入力レベルを決定し、該新たな音声入力レベル情報を前記音声受信部に出力する音声レベル決定部と、を含む。
【0015】
一の実施形態では、音声認識システムは、音声信号期間内の音声信号が飽和していないと判定された場合に、音声検出部により検出された音声信号期間内の音声信号に対して音声認識処理を行う音声補正部をさらに含む。
【0016】
また、前記音声検出部は、音声受信部から入力される音声信号のエネルギー値及びゼロ交差率(Zero Crossing Rate)を用いて前記音声信号期間を検出する。
【0017】
前記音声飽和検出部は、音声信号期間の平均エネルギー値を算出し、該算出された平均エネルギー値が特定の閾値を超えた場合には、前記音声信号期間の音声信号が飽和したものと判定する。
【0018】
前記音声飽和検出部は、音声信号期間を数個乃至数十個の短い期間らに分割し、各期間での音声信号値が音声入力の解像度よりも大きい値である場合には、音声信号期間の音声信号が飽和したものと判定する。
【0019】
前記入力レベル決定部は、音声検出部が音声信号期間の検出に失敗した場合に、新たな音声入力レベルを決定する。
【0020】
前記入力レベル決定部は、音声検出部が音声信号期間の検出を失敗した場合に、現在設定されている音声入力レベル(MicOLD)と設定可能な音声入力レベルの最大値(MicMAX)との中間値を、前記新たな音声入力レベル(MicNEW)として決定する。
【0021】
前記入力レベル決定部は、前記音声飽和検出部で前記音声信号期間の音声信号が飽和したものと判定されると、現在設定されている音声入力レベル(MicOLD)と設定可能な音声入力レベルの最小値(MicMIN)との中間値を、前記新たな音声入力レベル(MicNEW)として決定する。
【0022】
また、本発明の他の態様は、音声認識システムを用いた音声認識方法であって、読み取られる音声を、設定された音声入力レベルで受信して出力する段階と、該出力される音声から音声認識に必要な音声信号期間を検出する段階と、該検出された音声信号期間内の音声信号の飽和の有無を、閾値を基準にして判定する段階と、音声信号期間内の前記音声信号が飽和したものと判定されると、音声を飽和しない状態で受信するための新たな音声入力レベルを決定する段階と、新たな音声入力レベルで音声を読み取って受信する段階と、を含むことを特徴とする。
【0023】
好ましくは、前記検出された音声信号期間内の音声信号が飽和していないものと判定されると、該検出された音声信号期間内の音声信号に対して音声認識処理を行う段階をさらに含む。
【0024】
前記音声信号期間の検出段階では、前記音声信号のエネルギー値及びゼロ交差率(Zero Crossing Rate)を用いて、前記音声信号期間を検出する。
【0025】
前記音声信号の飽和の有無の判定段階では、音声信号期間の平均エネルギー値を算出し、平均エネルギー値が特定の閾値を超えた場合には、音声信号期間内の音声信号が飽和したものと判定する。
【0026】
前記音声信号の飽和の有無の判定段階では、音声信号期間を複数の短い期間らに分け、各期間での音声信号値が音声入力の解像度よりも大きい値である場合に、音声信号期間内の音声信号が飽和したものと判定する。
【0027】
前記新たな音声入力レベルの決定段階では、音声信号期間の検出を失敗した場合に、新たな音声入力レベルを決定する。
【0028】
前記新たな音声入力レベルの決定段階では、音声信号期間の検出段階で音声信号期間の検出を失敗した場合に、現在設定されている音声入力レベル(MicOLD)と設定可能な前記音声入力レベルの最大値(MicMAX)との中間値を、新たな音声入力レベル(MicNEW)として決定する。
【0029】
前記新たな音声入力レベルの決定段階では、音声信号の飽和の有無の判定段階で音声信号期間の音声信号が飽和したものと判定されると、現在設定されている音声入力レベル(MicOLD)と設定可能な音声入力レベルの最小値(MicMIN)との中間値を、新たな音声入力レベル(MicNEW)として決定する。
【発明の効果】
【0030】
本発明によれば、入力された音声信号から音声信号期間が検出されたかの有無、及び検出した音声信号期間における音声信号の飽和の有無に基づいて音声入力レベルを調整することによって、入力される音声信号についての音声検出の失敗率と音声信号の飽和による音声認識率の低下を減少させることが可能となる。
【0031】
また、本発明によれば、音声信号期間の検出が失敗したり、検出した音声信号が飽和状態である場合に、ユーザが直接音声入力レベルを操作することなく、能動的に音声入力レベルを調節することによって、話者毎の多様な音量と発声パターン(マイクと話者間の距離)に適応して、音声検出の失敗率及び音声認識率の低下を抑えることが可能となる。
【発明を実施するための最良の形態】
【0032】
以下、添付図面を参照して、本発明の好適な実施形態を詳細に説明する。なお、図面において、同一の構成要素は、同一の参照符号で示す。また、本発明の要旨を不明確にする公知の機能及び構成についての詳細な説明は省略する。
【0033】
図3は、本発明を適用した音声入力レベルの自動調整を行う音声認識システムの好ましい実施形態を示すブロック図である。
【0034】
図示の音声認識システムは、本発明と関連がない構成を省略し、本発明の主要な構成のみが示されている。この音声認識システムは、単一のシステムとして実現することができ、或いは、クライアント/サーバ形態のネットワークを用いた構造としても実現することができる。
【0035】
図3に示すように、本実施形態の音声認識システムは、音声受信部200及び音声認識部300を有する。
【0036】
音声受信部200は、話者110により発声される音声を読み取り(pick up)、該読み取った音声の信号を音声認識部300に出力する。
【0037】
音声受信部200は、マイク220及び受信レベル制御部240を有する。
【0038】
マイク220は、話者110により発声される音声を読み取り、受信レベル制御部240は、マイク220によって読み取られた音声を、入力される入力レベル情報によって決定されたレベルで受信する。
【0039】
音声認識部300は、音声受信部200から入力される音声信号のうちの音声期間における音声信号の飽和の有無を判定し、該判定結果に基づいて受信レベル制御部240の音声入力レベルを決定し、当該音声期間の音声について補正を行い、該補正後の音声(音声信号)を、実際に使用する音声として認識して、不図示の該当(外部)ブロックに出力する。
【0040】
音声認識部300は、音声検出部(End Point Detector:EPD)310と、音声補正部330と、音声飽和検出部(Saturation Detector)350と、入力レベル決定部370と、を有する。ここで、音声飽和検出部350及び入力レベル決定部370は、音声認識部300に含まれるように構成されることで、単一のシステムで音声受信部200を直接制御することができる。なお、他の実施形態として、音声飽和検出部350及び入力レベル決定部370は、ネットワークに接続されたクライアントコンピュータ内またはサーバ内に実装されることもできる。
【0041】
音声検出部310は、音声受信部200より入力された音声信号から、音声認識に必要な音声信号期間を検出する。音声検出部310は、入力される音声信号から音声認識に必要な実際の音声信号期間を検出する際に、音声信号のエネルギーとゼロ交差率を使用する。
【0042】
音声補正部330は、音声検出部310で検出された音声信号期間の音声に含まれたノイズを低減する補正処理を行った後に、かかる補正処理後の音声(音声信号)を、実際に使用する音声として認識して出力する。
【0043】
音声飽和検出部350は、音声検出部310によって検出された音声信号期間内の音声信号が飽和しているか否かを検出(判定)する。音声飽和検出部350は、入力された音声信号から入力レベル調整を決定するための基準に基づいて、音声信号の飽和を検出する。その方法は、下記の通りである。
【0044】
音声飽和検出部350は、入力される音声信号の平均エネルギーを計算し、該算出された平均エネルギーの値が特定の閾値を超えた場合には、音声信号が飽和したものと判定する。また、音声飽和検出部350は、音声信号期間を数個乃至数十個の短い期間に分割して、各期間での音声信号値が音声入力の解像度より大きい値である場合に、音声信号が飽和したものと判定することとしてもよい。
【0045】
入力レベル決定部370は、音声検出部310により検出された音声信号期間及び音声飽和検出部350で検出された音声飽和状態を参照することによって、受信レベル制御部240で入力する入力レベルの調整の水準(ないし範囲)を決定する。
【0046】
入力レベル決定部370は、音声検出部310が音声信号期間の検出のための音声の終点の検出に失敗した場合や、音声飽和検出部350で音声信号が飽和したものと判定された場合には、音声受信部200の受信レベル制御部240で調整(制御)する音声の入力レベルを決定する。このとき、入力レベル決定部370は、決定した入力レベル情報を、音声入力部200の受信レベル制御部240に伝送する。
【0047】
これにより、受信レベル制御部240は、マイク220で読み取られる話者110の音声を、入力レベル決定部370から供給された入力レベル情報に対応するレベルで受信する。
【0048】
図4は、図3の音声検出部310において、音声信号のエネルギーとゼロ交差率を用いて音声信号期間を検出する原理を説明するための図である。
【0049】
音声検出部310は、音声信号の入力に際して、入力される音声信号のエネルギー及びゼロ交差率を測定する。
【0050】
図4Aは、音声検出部310で測定した音声信号のエネルギー値をサンプル別に示すグラフである。
【0051】
音声検出部310は、上記エネルギー値が上限閾値(Thr.U)を超えた場合に、音声が開始されたと判定し、かつ、その時点(すなわち実際に音声が開始された時点)よりも一定のサンプル期間だけ遡った前の時点から、音声信号期間が開始されたものと判定する。また、このとき、音声検出部310は、エネルギー値が下限閾値(Thr.L)よりも低下するサンプル期間が、予め定義された一定時間持続した場合に、音声信号期間が終了したものと判定する。
【0052】
図4Bは、音声検出部310で算出されたゼロ交差率の値をサンプル別に示すグラフである。
【0053】
音声検出部310は、図4Aに示された音声信号のエネルギー値と共に、図4Bに示されたゼロ交差率を基準にして、音声信号期間を検出する。ここで、ゼロ交差率とは、音声信号のレベルがゼロ点をどれほど多く交差するかを示すものである。音声検出部310は、ゼロ交差率を用いる場合に、現在の音声信号サンプル値とその直前の音声信号のサンプル値との積が負数ならば、ゼロ点を交差したものと判定する。このような基準を有効に用いることができる理由は、音声信号が該当期間内で周期的な期間を必ず含んでおり、また、その周期的な期間のゼロ交差率は、音声がない期間のゼロ交差率に比べて著しく小さいからである。
【0054】
図4Bに示されるように、音声がない期間のゼロ交差率は、閾値(Thr.ZCR)よりも大きく現れることが分かる。反対に、音声期間では、ゼロ交差率が現れないことが分かる。
【0055】
音声検出部310は、音声検出に成功した場合には、検出された音声信号を音声飽和検出部350に転送する。
【0056】
図5は、本発明を適用した音声認識システムを用いた音声認識方法の好ましい実施形態を示すフローチャートである。
【0057】
まず、音声受信部200の受信レベル制御部240は、ユーザの音声を設定された入力レベルで受信し、受信した音声を音声認識部300に出力する(ステップS110)。音声認識部300の音声検出部310は、入力される音声から実際の音声信号期間を検出する(ステップS130)。本実施形態では、音声検出部310は、音声信号のエネルギー及びゼロ交差率を用いて音声信号期間を検出する。
【0058】
音声信号期間の検出に成功した場合には(ステップS150でYES)、音声飽和検出部350は、検出された音声信号を分析し、当該音声の飽和の有無を検出する(ステップS170)。このとき、音声飽和検出部350は、音声が飽和したか否かを判定するために、音声のエネルギーを利用する、或いは音声データ値を利用することができる。具体的には、音声飽和検出部350は、音声信号期間を10〜40msec程度の短い期間に区分(分割)する。このように音声信号期間を短い期間に分割する理由は、時間の推移によって変化する音声信号が、短い期間では静止(Stationary)特性を示すからである。音声信号のエネルギーを用いて音声飽和を検出する場合、音声飽和検出部350は、次の数式1を使用して、短い期間に区分された音声期間内の音声データのエネルギーを計算する。
【0059】
【数1】

:j番目の音声期間の平均エネルギー
N:音声短期間のデータ数(サンプル数)
[n]:j番目の音声期間の音声データ
【0060】
音声飽和検出部350は、算出された音声期間のエネルギー値を、音声信号の飽和と決定できるエネルギーの閾値と比較する。このとき、音声飽和検出部350は、閾値より大きいエネルギーが算出された場合には、入力された音声信号が飽和したものと判定する(ステップS190でYES)。
【0061】
ここで、音声信号の飽和と決定できるエネルギーの閾値は、音声入力の解像度により決定されることができる。例えば、16ビットの解像度を有する音声信号であれば、音声データの範囲は216なので、この値を用いて閾値を計算することができる。
【0062】
次の数式2のように音声信号のデータ値を用いて音声飽和の有無を決定する場合には、音声飽和決定部350は、区分された音声期間で連続した複数個の音声データ値が、解像度により有することができる最大値(MicMAX)と等しい場合に、入力された音声信号が飽和したものと判定する。
【0063】
【数2】

MAX:入力信号の解像度によって設定された最大値(例えば、16Bitの場合)
t:j番目の音声期間での音声データの各位置
L:設定された連続した飽和音声データの数
【0064】
一方、ステップS150で音声検出部310が音声検出を失敗した場合や、或いはステップS190で音声飽和検出部350が音声信号が飽和状態であると判定した場合には、入力レベル決定部370は、音声受信部200で音声を受信する際に適用する新たな入力レベルを決定する(ステップS210)。
【0065】
入力レベルを決定する例としては、次の数式3に表わされるような2つの場合がある。すなわち、第一に、音声検出部310で音声検出に失敗した場合には、入力レベル決定部370は、現在の音声入力レベル(MicOLD)と音声入力レベルの最大値(MicMAX)との中間値を、新たな音声入力レベル(MicNEW)として決定する。第二に、音声飽和検出部350で音声の飽和状態が検出された場合には、入力レベル決定部370は、現在の音声入力レベル(MicOLD)と音声入力レベルの最小値(MicMIN)との中間値を、新たな音声入力レベル(MicNEW)として決定する。
【0066】
【数3】

MicNEW:新たな音声入力レベル
MicOLD:現在の音声入力レベル
MicMAX:入力レベルの最大値
MicMIN:入力レベルの最小値
【0067】
新たな音声入力レベル(MicNEW)が決定されると、入力レベル決定部370は、決定された新たな音声入力レベル情報を受信レベル制御部240に供給する。かかる情報を受信した受信レベル制御部240は、マイク220で読み取られる音声を、新たな音声入力レベルで受信し、該受信した音声を音声検出部310に出力する。
【0068】
一方、ステップS190で、音声信号が飽和状態でないと判定されると、音声補正部330は、音声検出部310で検出された音声信号期間内のノイズを低減し、通常の音声認識処理動作を行う(ステップS230)。
【0069】
以上説明した本発明は、本発明が属する技術の分野における通常の知識を有する者であれば、本発明の技術的思想を逸脱しない範囲内で、様々な置換、変形及び変更が可能であるので、上述した実施形態及び添付図面の内容に限定されるものではない。
【図面の簡単な説明】
【0070】
【図1】従来の音声認識システムにおいて音声の検出に失敗した結果を表示する一例を示す図である。
【図2】従来の音声認識システムで音声検出に失敗した結果を表示する他の例を示す図である。
【図3】本発明の好ましい実施形態を示す図であり、音声入力レベルの自動調整を行う音声認識システムのブロック図である。
【図4】図3の音声検出部において、音声信号のエネルギーとゼロ交差率とを用いて音声信号期間を検出する原理を説明するための図である。
【図5】本発明を適用した音声認識システムを用いた音声認識方法の好ましい実施形態を示すフローチャートである。
【符号の説明】
【0071】
110 話者
200 音声受信部
220 マイク(音声読み取り部)
240 受信レベル制御部(音声レベル制御部)
300 音声認識部
310 音声検出部
330 音声補正部
350 音声飽和検出部
370 入力レベル決定部

【特許請求の範囲】
【請求項1】
読み取られる音声を、設定された音声入力レベルで受信して出力する音声受信部と、
前記音声受信部によって出力された音声のうち、音声認識に必要な音声信号期間内の音声信号が、設定された閾値を基準として飽和しているか否かに基づいて、前記音声入力レベルを決定し、前記音声受信部に出力する音声認識部と、
を含むことを特徴とする音声認識システム。
【請求項2】
前記音声認識部は、
外部からの話者の音声を読み取る音声読み取り部と、
前記読み取られた音声を、前記音声認識部から供給される前記音声入力レベルで受信し、該受信した音声を前記音声認識部に出力する音声レベル制御部と、
を含むことを特徴とする請求項1に記載の音声認識システム。
【請求項3】
前記音声認識部は、
前記音声受信部より出力される音声から、前記音声認識に必要な音声信号期間を検出する音声検出部と、
前記音声信号期間内の音声信号が飽和しているか否かを、前記閾値を基準として判定する音声飽和検出部と、
前記音声信号期間内の音声信号が飽和していると判定された場合に、前記音声受信部が前記音声を飽和しない状態で受信するように、新たな音声入力レベルを決定し、該新たな音声入力レベル情報を前記音声受信部に出力する音声レベル決定部と、
を含むことを特徴とする請求項1に記載の音声認識システム。
【請求項4】
前記音声信号期間内の音声信号が飽和していないと判定された場合に、前記音声検出部により検出された音声信号期間内の音声信号に対して音声認識処理を行う音声補正部をさらに含むこと
を特徴とする請求項3に記載の音声認識システム。
【請求項5】
前記音声検出部は、前記音声受信部から入力される音声信号のエネルギー値及びゼロ交差率(Zero Crossing Rate)を用いて前記音声信号期間を検出すること
を特徴とする請求項3に記載の音声認識システム。
【請求項6】
前記音声飽和検出部は、前記音声信号期間の平均エネルギー値を算出し、該算出された平均エネルギー値が特定の閾値を超えた場合には、前記音声信号期間の音声信号が飽和したものと判定すること
を特徴とする請求項3に記載の音声認識システム。
【請求項7】
前記音声飽和検出部は、前記音声信号期間を数個乃至数十個の短い期間らに分割し、各期間での音声信号値が音声入力の解像度よりも大きい値である場合には、前記音声信号期間の音声信号が飽和したものと判定すること
を特徴とする請求項3に記載の音声認識システム。
【請求項8】
前記入力レベル決定部は、前記音声検出部が前記音声信号期間の検出に失敗した場合に、前記新たな音声入力レベルを決定すること
を特徴とする請求項3に記載の音声認識システム。
【請求項9】
前記入力レベル決定部は、前記音声検出部が前記音声信号期間の検出を失敗した場合に、現在設定されている音声入力レベル(MicOLD)と設定可能な前記音声入力レベルの最大値(MicMAX)との中間値を、前記新たな音声入力レベル(MicNEW)として決定すること
を特徴とする請求項8に記載の音声認識システム。
【請求項10】
前記入力レベル決定部は、前記音声飽和検出部で前記音声信号期間の音声信号が飽和したものと判定されると、現在設定されている音声入力レベル(MicOLD)と設定可能な音声入力レベルの最小値(MicMIN)との中間値を、前記新たな音声入力レベル(MicNEW)として決定すること
を特徴とする請求項8に記載の音声認識システム。
【請求項11】
音声認識システムを用いた音声認識方法であって、
読み取られる音声を、設定された音声入力レベルで受信して出力する段階と、
前記出力される音声から音声認識に必要な音声信号期間を検出する段階と、
前記検出された音声信号期間内の音声信号の飽和の有無を、閾値を基準にして判定する段階と、
前記音声信号期間内の前記音声信号が飽和したものと判定されると、前記音声を飽和しない状態で受信するための新たな音声入力レベルを決定する段階と、
前記新たな音声入力レベルによって前記音声を読み取って受信する段階と、
を含むことを特徴とする音声認識方法。
【請求項12】
前記検出された音声信号期間内の音声信号が飽和していないものと判定されると、該検出された音声信号期間内の音声信号に対して音声認識処理を行う段階をさらに含むこと
を特徴とする請求項11に記載の音声認識方法。
【請求項13】
前記音声信号期間の検出段階では、前記音声信号のエネルギー値及びゼロ交差率(Zero Crossing Rate)を用いて、前記音声信号期間を検出すること
を特徴とする請求項11に記載の音声認識方法。
【請求項14】
前記音声信号の飽和の有無の判定段階では、前記音声信号期間の平均エネルギー値を算出し、前記平均エネルギー値が特定の閾値を超えた場合には、前記音声信号期間内の音声信号が飽和したものと判定すること
を特徴とする請求項11に記載の音声認識方法。
【請求項15】
前記音声信号の飽和の有無の判定段階では、前記音声信号期間を複数の短い期間らに分け、各期間での音声信号値が音声入力の解像度よりも大きい値である場合に、前記音声信号期間内の音声信号が飽和したものと判定すること
を特徴とする請求項11に記載の音声認識方法。
【請求項16】
前記新たな音声入力レベルの決定段階では、前記音声信号期間の検出を失敗した場合に、前記新たな音声入力レベルを決定すること
を特徴とする請求項11に記載の音声認識方法。
【請求項17】
前記新たな音声入力レベルの決定段階では、前記音声信号期間の検出段階で前記音声信号期間の検出を失敗した場合に、現在設定されている音声入力レベル(MicOLD)と設定可能な前記音声入力レベルの最大値(MicMAX)との中間値を、前記新たな音声入力レベル(MicNEW)として決定すること
を特徴とする請求項16に記載の音声認識方法。
【請求項18】
前記新たな音声入力レベルの決定段階では、前記音声信号の飽和の有無の判定段階で前記音声信号期間の音声信号が飽和したものと判定されると、現在設定された音声入力レベル(MicOLD)と設定可能な音声入力レベルの最小値(MicMIN)との中間値を、前記新たな音声入力レベル(MicNEW)として決定すること
を特徴とする請求項16に記載の音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2006−163392(P2006−163392A)
【公開日】平成18年6月22日(2006.6.22)
【国際特許分類】
【出願番号】特願2005−344967(P2005−344967)
【出願日】平成17年11月30日(2005.11.30)
【出願人】(390019839)三星電子株式会社 (8,520)
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】416,Maetan−dong,Yeongtong−gu,Suwon−si Gyeonggi−do,Republic of Korea
【Fターム(参考)】