説明

ロバストな音声分類のための方法および装置

【課題】音声モードを変更し、マルチモードの可変ビットレートのコード化技術の最大の性能を可能にするためのロバストな分類のための音声分類技術を提供する。
【解決手段】音声分類器は、高い割合で音声セグメントを正確に分類し、最低ビットレートでコード化し、より低いビットレートの要件を満たす。高精度の音声分類により、平均のコード化ビットレートはより低くなり、デコードされた音声の品質はより高くなる。音声分類器は、各音声フレーム毎に最大数のパラメータを検討し、各フレーム毎に多数の正確な音声モード分類を生成する。音声分類器は、変化する環境条件下で、多数の音声モードを正確に分類する。音声分類器は、外部の構成要素から分類パラメータを入力し、入力パラメータから内部分類パラメータを生成し、正規化された自己相関係数の関数の閾値を設定し、信号環境に従ってパラメータ解析器を選択し、パラメータを解析し、音声モードを分類する。

【発明の詳細な説明】
【技術分野】
【0001】
開示されている実施形態は、音声処理の分野に関する。とくに、開示されている実施形態は、ロバストな音声分類のための新規で向上した方法および装置に関する。
【背景技術】
【0002】
ディジタル技術による音声伝送は、とくに長距離のディジタル無線電話の応用において普及した。その結果として、チャンネル上で送ることができる最小情報量を判断し、一方で再構成された音声の知覚品質を維持することについての関心が生じた。音声を、単にサンプリングしてディジタル化することによって伝送するとき、従来のアナログ電話の音声品質に達するには、毎秒64キロビット秒(kbps)のデータレートが必要である。しかしながら、適切なコード化、伝送、および受信機における再合成による音声解析を使用することで、データレートを相当に低減することができる。音声解析をより精密に行なうと、データをより適切にコード化することができ、したがってデータレートを低減することができる。
【0003】
人間の音声生成モデルに関係するパラメータを抽出することによって音声を圧縮する技術を用いたデバイスは、音声コーダと呼ばれる。音声コーダは、入来する音声信号を時間ブロック、すなわち解析フレームへ分割する。音声コーダには、一般に、エンコーダおよびデコーダ、すなわちコーデックが構成されている。エンコーダは、入来する音声フレームを解析して、ある特定の関連するパラメータを抽出し、次にパラメータを二値表現へ、すなわちビットの組または二値のデータパケットへ量子化する。データパケットは通信チャンネル上で受信機およびデコーダへ送られる。デコーダは、データパケットを処理し、それらを逆量子化(de-quantize)して、パラメータを生成し、その量子化されたパラメータを使用して、音声フレームを再合成する。
【0004】
音声コーダは、音声に固有の自然冗長の全てを取り除くことによって、ディジタル化された音声信号を低ビットレートの信号へ圧縮する機能を有する。ディジタル圧縮は、入力音声フレームを1組のパラメータで表現して、量子化を用いて、パラメータを1組のビットで表現することによって達成される。入力音声フレームのビット数がNであり、音声コーダによって生成されるデータパケットのビット数がNであるとき、音声コーダによって達成される圧縮係数は、C=N/Nである。課題は、デコードされた音声の高い音声品質を維持する一方で、目標の圧縮係数を達成することである。音声コーダの性能は、(1)音声モデル、すなわち上述の解析および合成プロセスの組合せが、どのくらい適切に働くか、および(2)パラメータ量子化プロセスが、1フレーム当りNビットの目標のビットレートで、どのくらい適切に実行されるかに依存する。したがって、音声モデルは、音声信号の本質、すなわち目標の音声品質を、各フレームごとに少数のパラメータから成る組で捕えることを目的とする。
【0005】
音声コーダは、時間領域コーダとして構成することができ、時間領域コーダでは、高度の時間分解処理を採用して、音声の小さいセグメント(通常は、5ミリ秒(millisecond, ms)のサブフレーム)を一度にコード化することによって、時間領域の音声波形を捕らえることを試みる。この技術において知られている種々のサーチアルゴリズムによって、コードブック空間から、各サブフレームごとに、高精度の表現を得ることができる。その代わりに、音声コーダは周波数領域コーダとして構成されていてもよく、周波数領域コーダでは、入力音声フレームの短時間のスペクトルを1組のパラメータで捕えて(解析)、対応する合成処理を用いて、スペクトルパラメータから音声波形を再生成することを試みる。文献(A. Gersho & R.M. Gray, Vector Quantization and Signal Compression, 1992)に記載されている既知の技術にしたがうと、パラメータ量子化器は、コードベクトルの記憶されている表現を使用してパラメータを表現することによって、パラメータを維持する。
【0006】
周知の時間領域の音声コーダは、コード励起線形予測(Code Excited Linear Predictive, CELP)コーダであり、CELPコーダは、文献(L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453, 1978)に記載されており、本明細書では、これを参考文献として全体的に取り上げている。CELPコーダでは、音声信号内の短時間の相関、すなわち冗長を、線形予測(linear prediction, LP)解析によって取り除き、短時間のフォルマントフィルタの係数を検出する。短時間の予測フィルタを入来する音声フレームへ適用して、LP残差信号を生成し、さらに、これを長時間の予測フィルタのパラメータおよび次の確率コードブックでモデル化して、量子化する。したがって、CELPコーディングでは、時間領域の音声波形をコード化するタスクを、LPの短時間のフィルタ係数をコード化するタスクと、LP残差をコード化するタスクとへ分割する。時間領域コーディングは、固定レート(すなわち、各フレームごとに同数のビット、Nを使用して)か、または可変レート(すなわち、異なるタイプのフレーム内容に対して、異なるビットレートを使用して)で行うことができる。可変レートのコーダでは、使用するビット量を、目標品質を得るのに適したレベルへコーデックパラメータをコード化するのに必要なビット量のみにすることを試みる。例示的な可変レートのCELPコーダは、米国特許第5,414,796号に記載されており、なお、米国特許第5,414,796号は本明細書に開示されている実施形態の譲受人に譲渡され、本明細書において参考文献として全体的に取り上げられている。
【0007】
CELPコーダのような時間領域コーダでは、一般に、1フレーム当りに多数のビットNに依存して、時間領域の音声波形の精度を維持している。このようなコーダでは、1フレーム当りのビット数Nが比較的に多い(例えば、8キロビット秒以上)ときは、優れた音声品質を与える。しかしながら、時間領域コーダは、低ビットレート(4キロビット秒以下)では、使用可能なビット数が制限されることにより、高品質でロバストな性能を保持できない。低ビットレートでは、コードブック空間が制限されることにより、従来の時間領域コーダの波形整合能力は削減されるが、より高いレートの市販のアプリケーションでは、この波形整合能力は正常に展開される。
【0008】
一般に、CELP方式では、短時間予測(short term prediction, STP)フィルタと長時間予測(long term prediction, LTP)フィルタとを使用する。エンコーダにおいて合成による解析(Analysis by Synthesis, AbS)のアプローチを用いて、LTPの遅延および利得と、最良の確率コードブックの利得および指標とを検出する。現在の最新技術のCELPコーダ、例えば強化型可変速コーダ(Enhanced Variable Rate Coder, EVRC)では、ほぼ8キロビット秒のデータレートで良好な品質の合成された音声を実現することができる。
【0009】
無声音が周期性を示さないことも知られている。有声音は、音声の周期性が強く、かつLTPのフィルタリングが重要であるが、従来のCELP方式でLTPフィルタしたものをコード化するのに費やされる帯域幅を、無声音に使用しても、有声音ほど効率的ではない。したがって、無声音のためのより効率的な(すなわち、より低いビットレートの)コーディング方式が望まれている。最も効率的なコーディング方式を選択し、かつ最も低いデータレートを実現するには、正確な音声分類が必要である。
【0010】
より低いビットレートでコード化するために、スペクトル、すなわち周波数領域で音声をコード化するための種々の方法が発展し、例えば、音声信号を、時間にしたがって発展するスペクトルとして解析するといった方法がある。文献(R. J. McAulay & T.F. Quateri, Sinusoidal Coding, in Speech and Synthesis ch.4(W.B. Kleijin & K.K. Paliwal eds., 1995))参照。スペクトルコーダの目的は、時間にしたがって変化する音声波形を精密に模倣するのではなく、各入力音声フレームの短時間の音声スペクトルを1組のスペクトルパラメータでモデル化、すなわち予測することである。次に、スペクトルパラメータをコード化して、出力音声フレームをデコードされたパラメータを使用して生成する。結果の合成された音声は、元の入力音声波形と整合しないが、同様の知覚品質を有する。この技術においてよく知られている周波数領域コーダの例には、マルチバンド励起コーダ(multiband excitation coder, MBE)、シヌソイド変形コーダ(sinusoial transform coder, STC)、および高調波コーダ(harmonic coder, HC)が含まれる。このような周波数領域コーダでは、コンパクトな組のパラメータで高品質のパラメータモデルを与え、低ビットレートで使用可能な少数のビットを使用して、正確に量子化することができる。
【0011】
しかしながら、低ビットレートのコーディングでは、コーディングの分解能が制限される、すなわちコードブック空間が制限されるといった重要な制約が課され、このために単一のコーディング機構の効率が制限され、したがってコーダは、種々の背景の条件の下で、種々のタイプの音声セグメントを等しい精度で表わすことができない。例えば、従来の低ビットレートの周波数領域のコーダでは、音声フレームについての位相情報を送らない。その代わりに、位相情報は、ランダムな人工的に生成された初期位相値および線形補間技術を使用することによって再構成される。例えば、文献(H. Yang et al, Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, in 29 Electric Letters 856-57, May 1993)参照。シヌソイドの振幅が量子化−逆量子化処理により完全に維持されても、位相情報は人工的に生成されるので、周波数領域コーダによって生成される出力音声は、元の入力音声と整列しない(すなわち、主パルスは同期しない)。したがって、閉ループの性能の測度、例えば周波数領域コーダにおける信号対雑音比(signal-to-noise ratio, SNR)または知覚SNRを採用することは、困難であるのが分かる。
【0012】
低ビットレートで音声を効率的にコード化するための1つの効果的な技術には、マルチモードコーディングがある。マルチモードコーディング技術は、開ループモード決定プロセスと組合せて、低レートで音声をコード化するのに用いられている。1つのこのようなマルチモードのコーディング技術は、文献(Amitava Das et al., Multi mode and Variable-Rate Coding of Speech, in Speech Coding and Synhtesis ch.7 (W.B. Kleijin & K.K. Paliwal eds., 1995))に記載されている。従来のマルチモードコーダでは、異なるモード、すなわちコーディング−デコーディングアルゴリズムを、異なるタイプの入力音声フレームへ適用する。各モード、すなわちコーディング−デコーディングプロセスは、一定のタイプの音声セグメント、例えば有声音、無声音、または背景ノイズ(非音声)を最も効率的なやり方で表現するようにカスタマイズされる。このようなマルチモードコーディング技術の成功は、正確なモード決定、すなわち音声の分類に相当に依存している。外部の開ループのモード決定機構では、入力音声フレームを調べて、フレームに何れのモードを適用するかに関して決定する。開ループのモードを決定は、一般に、入力フレームから多数のパラメータを抽出し、ある特定の仮のスペクトル特徴に関するパラメータを評価して、この評価についてのモード決定に基づくことによって行われる。したがって、モード決定は、出力音声の正確な状態、すなわち出力音声が、音声品質または他の性能の測度に関して入力音声にどのくらい近くなるかを、前もって知らなくても行なうことができる。音声コーデックにおける例示的な開ループのモード決定は、米国特許第5,414,796号に記載されており、米国特許第5,414,796号は、本発明の譲受人に譲渡され、本明細書では参考文献として全体的に取り上げられている。
【0013】
マルチモードコーディングは、各フレームに同数のビットNを使用して固定レートで行われるか、または異なるモードに対して異なるビットレートを使用して可変レートで行われる。可変レートのコーディングでは、使用するビット量を、目標の品質を得るのに適したレベルへコーデックパラメータをコード化するのに必要なビット量のみにすることを目的とする。結果として、固定レート、すなわちより高いレートのコーダの音声品質と同じ目標の音声品質を、可変ビットレート(variable-bit-rate, VBR)技術を使用して、平均が相当により低いビットレートで得ることができる。例示的な可変レートの音声コーダは、米国特許第5, 414,796号に記載されている。現在は、中位から低いビットレート(すなわち、2.4ないし4キロビット秒以下の範囲)で動作する高品質の音声コーダを展開するための、研究の関心および強力な販売の必要が急増している。応用領域には、無線電話、衛星通信、インターネット電話、種々のマルチメディア、並びに音声流アプリケーション、すなわち音声メールおよび他の音声記憶システムが含まれる。高容量の必要、およびパケットを損った情況のもとでのロバストな性能への要求が、推進力となっている。別の直接的な推進力として、種々の最近の音声コーディングの標準化への努力が、低レートの音声コーディングアルゴリズムの研究および発展を進めている。低レートの音声コーダでは、許容可能なアプリケーションの帯域幅ごとに、より多くのチャンネル、すなわちユーザを生成する。低レートの音声コーダは、適切なチャンネルコーディングの追加の層と組み合わされて、コーダの仕様の全体的なビット供給に適合し、チャンネルを誤った情況においてロバストな性能を与えることができる。
【0014】
したがって、マルチモードのVBRの音声コーディングは、低ビットレートで音声をコード化するための効率的な機構である。従来のマルチモード方式では、種々の音声セグメント(例えば、無声音、有声音、遷移部)のための効率的なコード化方式の設計、すなわちモードと、背景ノイズ、すなわち無音のためのモードとが必要である。音声コーダの全体的な性能は、モード分類のロバスト性(robustness)と、各モードがどのくらい適切に機能するかに依存する。コーダの平均レートは、無声音、有声音、および他の音声セグメントのための異なるモードのビットレートに依存する。低い平均レートで目標の品質を実現するために、変化する条件のもとで音声モードを正確に判断することが必要である。一般に、有声音および無声音の音声セグメントは、高ビットレートで捕らえられ、背景ノイズおよび無音のセグメントは、相当に低いレートのモードで表現される。1フレームに対して最少数のビットを使用して、高い割合で音声セグメントを正確に捕らえて、コード化するために、マルチモードの可変ビットレートのエンコーダは、正確に音声分類する必要がある。音声分類がより正確に行われると、平均のコード化ビットレートはより低くなり、かつデコードされる音声の品質はより高くなる。孤立の音声フレームに対するパラメータ数を最少にする音声分類技術は、以前より検討されてきたが、音声モード分類の数が少なく、かつ不正確であった。したがって、変化する環境条件のもとで、多数の音声モードを正確に分類して、マルチモードの可変ビットレートのコード化技術の性能を最大にすることができる高性能の音声分類器が必要とされている。
【発明の概要】
【0015】
開示されている実施形態は、ロバストな音声分類技術であって、種々の条件の下で、音声についての多数の特徴パラメータを評価して、種々の音声モードを高精度で分類する技術に関する。したがって、1つの態様では、音声分類方法が開示される。この方法には、外部の構成要素から音声分類器へ分類パラメータを入力して、音声分類器内で、入力パラメータの中の少なくとも1つから、内部の分類パラメータを生成して、正規化された自己相関係数の関数の閾値を設定して、信号環境にしたがってパラメータ解析器を選択して、入力パラメータおよび内部パラメータを解析して、音声モードの分類を生成することが含まれる。
【0016】
別の態様では、音声分類器が開示される。音声分類器には、少なくとも1つの外部入力パラメータから内部分類パラメータを生成するための生成器と、正規化された自己相関係数の関数の閾値を設定して、かつ信号環境にしたがってパラメータ解析器を選択するための正規化された自己相関係数の関数の閾値の生成器と、少なくとも1つの外部入力パラメータと内部パラメータとを解析して、音声モードの分類を生成するためのパラメータ解析器とが構成されている。
【0017】
本発明の特徴、目的、および長所は、別途記載されている詳細な説明を添付の図面と組合せて参照することによって、一致する参照符号により全体的に対応して同定され、より明らかになるであろう。
【図面の簡単な説明】
【0018】
【図1】音声コーダによって各端末において終端する通信チャンネルのブロック図。
【図2】図1に示されているエンコーダによって使用することができるロバストな音声分類器のブロック図。
【図3】ロバストな音声分類器の音声分類ステップを示すフローチャート。
【図4a】音声分類についての開示されている実施形態によって使用される状態図。
【図4b】音声分類についての開示されている実施形態によって使用される状態図。
【図4c】音声分類についての開示されている実施形態によって使用される状態図。
【図5a】音声分類についての開示されている実施形態によって使用される決定表。
【図5b】音声分類についての開示されている実施形態によって使用される決定表。
【図5c】音声分類についての開示されている実施形態によって使用される決定表。
【図6】分類パラメータおよび音声モード値とを有する音声信号についての1つの実施形態の例示的なグラフ。
【発明を実施するための形態】
【0019】
開示されている実施形態では、ボコーダの応用において向上した音声分類を行うための方法および装置を提供する。既に使用可能であったパラメータよりも、より高精度でより多くの音声分類を生成するために、新規な音声パラメータを解析する。新規な決定プロセスは、フレームごとに音声を分類するのに使用される。新規な状態に基づく決定器において、元の入力音声、SNR情報、ノイズを抑圧された出力音声、音声活動情報、線形予測係数(Linear Prediction Coefficient, LPC)解析、および開ループのピッチ推定値から求めたパラメータを使用して、種々の音声モードを正確に分類する。各音声フレームは、過去のフレーム、将来のフレーム、および現在のフレームを解析することによって分類される。開示されている実施形態によって分類することができる音声モードには、過渡部、活動状態の音声への遷移、並びに単語の終端部における有声音、無声音、および無音が含まれる。
【0020】
開示されている実施形態は、周囲のノイズレベルが変化する環境における種々の音声モードのための音声分類技術を示している。音声モードは、最も効率的なやり方でコード化するために、確実で、かつ正確に識別される。
【0021】
図1において、第1のエンコーダ10は、ディジタル化された音声サンプルs(n)を受信し、サンプルs(n)をコード化して、サンプルs(n)は伝送媒体12、すなわち通信チャンネル12上で第1のデコーダ14へ送られる。デコーダ14は、コード化された音声サンプルをデコードして、合成出力音声信号SSYNTH(n)を生成する。反対方向での伝送のために、第2のエンコーダ16は、ディジタル化された音声サンプルs(n)をコード化して、サンプルs(n)は通信チャンネル18上で送られる。第2のデコーダ20は、コード化された音声サンプルを受信して、デコードし、合成出力音声信号SSYNTH(n)を生成する。
【0022】
音声サンプルs(n)は、この技術において知られている種々の方法、例えば、パルスコード変調(pulse code modulation, PCM)、コンパンデッドμ法(companded μ-law)、すなわちA法にしたがって、ディジタル化され、量子化された音声信号を表現している。この技術において知られているように、音声サンプルs(n)は、入力データフレームへまとめられ、各フレームには、所定数のディジタル化された音声サンプルs(n)が構成される。例示的な実施形態では、8キロヘルツのサンプリングレートを採用し、各20ミリ秒のフレームには160のサンプルが構成されている。別途記載する実施形態では、データ伝送レートは、フレームごとに、8キロビット秒(フルレート)から、4キロビット秒(2分の1レート)、2キロビット秒(4分の1レート)、ないし1キロビット秒(8分の1レート)へ変更することができる。その代わりに、他のデータレートを使用してもよい。本明細書に使用されているように、“フルレート”または“高レート”という用語は、一般に、8キロビット秒以上のデータレートを指し、“2分の1レート”または“低レート”という用語は、一般に、4キロビット以下のデータレートを指す。低ビットレートは、比較的に少ない音声情報を含むフレームに対して選択的に用いられるので、データ伝送レートを変更するのが有益である。当業者には分かるように、他のサンプリングレート、フレームサイズ、およびデータ伝送レートを使用してもよい。
【0023】
第1のエンコーダ10および第2のデコーダ20で、第1の音声コーダ、すなわち音声コーデックが構成される。同様に、第2のエンコーダ16および第1のデコーダ14で、第2の音声コーダが構成される。当業者には、音声コーダが、ディジタル信号プロセッサ(digital signal processor, DSP)、特定用途向け集積回路(application-specific integrated circuit, ASIC)、ディスクリートなゲート論理、ファームウエアまたは従来のプログラム可能なソフトウエアモジュール、およびマイクロプロセッサで構成されることが分かるであろう。ソフトウエアモジュールはRAMメモリ、フラッシュメモリ、レジスタ、または当業者には知られている他の形態の書込み可能なメモリ媒体の中に位置する。その代わりに、マイクロプロセッサを、従来のプロセッサ、制御装置、または状態機械に置換してもよい。音声コーディングのために特別に設計されたASICの例は、米国特許第5,727,123号および第5,784,532号に記載されており、米国特許第5,727,123号および第5,784,532号は、本発明の譲受人に譲渡され、本明細書に参考文献として全体的に取り上げられている。
【0024】
図2は、ロバストな音声分類器の例示的な実施形態を示している。1つの実施形態では、図2の音声分類装置は、図1のエンコーダ(10,16)内に位置する。別の実施形態では、ロバストな音声分類器は、スタンドアローン形であって、音声分類モードの出力を、図1のエンコーダ(10,16)のようなデバイスへ供給する。
【0025】
図2では、入力音声は、ノイズ抑圧器(202)へ供給される。入力音声は、一般に、音声信号をアナログからディジタルへ変換することによって生成される。ノイズ抑圧器(202)は、入力音声信号からノイズ成分をフィルタして、ノイズを抑圧された出力音声信号、および現在の出力音声のSNR情報を生成する。SNR情報および出力音声信号は、音声分類器(210)へ入力される。ノイズ抑圧器(202)の出力音声信号は、音声活動検出器(204)、LPC解析器(206)、および開ループピッチ推定器(208)へも入力される。音声分類器(210)は、SNR情報を使用して、周期性の閾値を設定し、ノイズのない音声とノイズのある音声とを区別する。以下では、SNRのパラメータをcurr ns snrと呼ぶ。以下では、出力音声信号をt inと呼ぶ。1つの実施形態において、ノイズ抑圧器(202)が構成されていないか、またはオフにされているときは、SNRパラメータcurr ns snrをデフォルト値に予め設定すべきである。
【0026】
音声活動検出器(204)は、現在の音声についての音声活動情報を音声分類器(210)へ出力する。音声活動情報の出力は、現在の音声が活動状態であるか、または非活動状態であるかを示す。1つの例示的な実施形態では、音声活動情報の出力は二値であり、すなわち活動状態か、または非活動状態である。別の実施形態では、音声活動情報の出力は、多値である。本明細書では、音声活動情報のパラメータをvadと呼ぶ。
【0027】
LPC解析器(206)は、現在の出力音声のLPCの反射係数を音声分類器(210)へ出力する。LPC解析器(206)は、LPC係数のような他のパラメータも出力する。本明細書では、LCPの反射係数のパラメータをreflと呼ぶ。
【0028】
開ループピッチ推定器(208)は、正規化された自己相関係数の関数(Normalized Auto-correlation Coefficient Function, NACF)値およびNACFの周囲のピッチの値を音声分類器(210)へ出力する。本明細書では、NACFのパラメータをnacfと呼び、NACF周囲ピッチのパラメータをnacf at pitchと呼ぶ。より周期的な音声信号は、nacf at pitchのより大きい値を生成する。nacf at pitchの値がより大きくなると、定常音声の出力音声タイプと関係付けられている可能性が高くなる。音声分類器(210)は、nacf at pitchの値の配列を維持する。nacf at pitchは、サブフレームごとに計算される。例示的な実施形態では、1フレームに対して2つのサブフレームを測定することによって、出力音声の各フレームごとに、2つの開ループのピッチ推定値を測定する。nacf at pitchは、各サブフレームごとに、開ループのピッチ推定値から計算される。例示的な実施形態では、nacf at pitchの値の5次元配列(すなわち、nacf at pitch[5])には、2と2分の1の出力音声フレームの値が含まれている。nacf at pitchの配列は、各出力音声フレームごとに更新される。音声分類器(210)では、nacf at pitchのパラメータの配列の新規な使用により、現在、過去、および予見(将来)の信号情報を使用して、より正確で、かつロバストな音声モードを決定することができる。
【0029】
音声分類器(210)は、外部の構成要素から情報を入力されることに加えて、出力音声から、追加の新規なパラメータを内部で生成し、音声モード決定プロセスにおいて使用する。
【0030】
1つの実施形態では、音声分類器(210)は、ゼロ交差レートのパラメータを内部で生成し、以下ではゼロ交差レートのパラメータをzcrと呼ぶ。現在の出力音声のzcrのパラメータは、1音声フレームに対する音声信号内の符号の変化数として定める。信号は非常にランダムであるので、有声音では、zcr値は小さく、一方で無声音(またはノイズ)では、zcr値は大きい。音声分類器(210)は、zcrのパラメータを使用して、有声音および無声音を分類する。
【0031】
1つの実施形態では、音声分類器(210)は、現在のフレームのエネルギーのパラメータを内部で生成し、以下では、これをEと呼ぶ。音声分類器(210)は、Eを使用して、現在のフレームのエネルギーと、過去および将来のフレームのエネルギーとを比較することによって、過渡部の音声を識別することができる。パラメータvEprevは、Eから求められる前のフレームのエネルギーである。
【0032】
1つの実施形態では、音声分類器(210)は、予見フレームのエネルギーのパラメータを内部で生成し、以下では、これをEnextと呼ぶ。Enextには、現在のフレームの一部分からのエネルギー値と、次の出力音声フレームの一部分からのエネルギー値とが含まれる。1つの実施形態では、Enextは、現在のフレームの後半部のエネルギーと、次の出力音声フレームの前半部のエネルギーとを表現する。音声分類器(210)は、Enextを使用して、過渡部の音声を識別する。音声の終端に、次のフレームのエネルギーは、現在のフレームのエネルギーと比較して、著しく低下する。音声分類器(210)は、現在のフレームのエネルギーと次のフレームのエネルギーとを比較して、音声の終端の状態と音声の始端の状態、または上り過渡部の音声モードと下り過渡部の音声モードとを識別することができる。
【0033】
1つの実施形態では、音声分類器(210)は、帯域エネルギー比のパラメータを内部で生成する。ELを0ないし2キロヘルツの低帯域の現在のフレームのエネルギーとし、EHを2ないし4キロヘルツの高帯域の現在のフレームのエネルギーとすると、帯域エネルギー比のパラメータはlog2(EL/EH)として定められる。以下では、帯域エネルギー比のパラメータをbERと呼ぶ。一般に、有声音は低帯域にエネルギーが集中し、一方でノイズの無声音は高帯域にエネルギーが集中するので、音声分類器(210)は、bERのパラメータにより、有声音モードと無声音モードとを識別することができる。
【0034】
1つの実施形態では、音声分類器(210)は、出力音声から、3つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、以下では、これをvEavと呼ぶ。別の実施形態では、vEavは、3つ以外のフレーム数の平均であってもよい。現在の音声モードが、活動状態で有声音であるときは、vEavから、最後の3つの出力音声フレームにおける連続のエネルギーの平均を計算する。最後の3つの出力音声フレームにおけるエネルギーの平均をとることにより、音声分類器(210)は、基本音声モードの決定において、単一フレームのエネルギーの計算値のみよりも、より安定した統計値を得る。音声の停止時に、現在のフレームのエネルギーEは、平均の音声エネルギーvEavと比較して相当に低下することになるので、音声分類器(210)は、vEavを使用して、有声音の終端、すなわち下り過渡部モードを分類する。vEavは、現在のフレームが有声音であるときのみ更新されるか、あるいは無声音または非活動音声の固定値へリセットされる。1つの実施形態では、固定リセット値は、0.01である。
【0035】
1つの実施形態では、音声分類器(210)は、前の3つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、以下では、これをvEprevと呼ぶ。別の実施形態では、vEprevは、3つ以外のフレーム数の平均であってもよい。音声分類器(210)は、vEprevを使用して、過渡部の音声を識別する。現在のフレームのエネルギーは、音声の始端において、前の3つの有声音のフレームの平均エネルギーと比較して、相当に高くなる。音声分類器(210)は、現在のフレームのエネルギーと、前の3つのフレームのエネルギーとを比較して、音声の始端の状態、すなわち上り過渡部の音声モードを識別することができる。同様に、現在のフレームのエネルギーは、有声音の終端において、相当に低下する。したがって、vEprevを使用して、音声の終端における遷移を分類することもできる。
【0036】
1つの実施形態では、音声分類器(210)は、現在のフレームのエネルギー対前の3つのフレームの平均の有声音のエネルギーの比のパラメータを内部で生成することができ、これを10log10(E/vEprev)として定める。別の実施形態では、vEprevは、3つ以外のフレーム数の平均であってもよい。以下では、現在のエネルギー対前の3つのフレームの平均の有声音のエネルギーの比をvERと呼ぶ。vERは、音声が再び始まるときに大きく、かつ有声音の終端において小さいので、音声分類器(210)では、vERを使用して、有声音の始端と有声音の終端、すなわち上り過渡部モードと下り過渡部モードとを分類する。過渡部の音声を分類するときに、vERのパラメータを、vEprevのパラメータと組合せて使用してもよい。
【0037】
1つの実施形態では、音声分類器(210)は、現在のフレームのエネルギー対3つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、これをMIN(20,10log10(E/vEav))と定める。以下では、現在のフレームのエネルギー対3つのフレームの平均の有声音のエネルギーのパラメータをvER2と呼ぶ。音声分類器(210)は、vER2を使用して、有声音の終端において過渡部の音声モードを分類する。
【0038】
1つの実施形態では、音声分類器(210)は、最大のサブフレームのエネルギー指標のパラメータを内部で生成する。音声分類器(210)は、出力音声の現在のフレームをサブフレームへ等しく分割し、各サブフレームの二乗平均根(Root Means Squared, RMS)のエネルギー値を計算する。1つの実施形態では、現在のフレームは10個のサブフレームへ分割される。最大のサブフレームのエネルギー指標のパラメータは、現在のフレーム内の最大のRMSのエネルギー値を有するサブフレーム、すなわち現在のフレームの後半のサブフレームに対する指標である。以下では、最大のサブフレームのエネルギー指標のパラメータをmaxsfe idxと呼ぶ。現在のフレームをサブフレームへ分割し、フレーム内のピークエネルギーの位置、例えば最大のピークエネルギーの位置に関する情報を音声分類器(210)へ供給する。フレームをより多くのサブフレームへ分割することにより、より高い分解能が実現される。無声音または無音の音声モードのエネルギーは一般に安定していて、一方で過渡部の音声モードでは、エネルギーは増加するか、または漸減するので、音声分類器(210)では、maxsfe idxを他のパラメータと共に使用して、過渡部の音声モードを分類する。
【0039】
音声分類器(210)は、コード化構成要素から直接に入力された新規なパラメータと、内部で生成される新規なパラメータとを使用して、以前に可能であったよりも、音声モードをより正確に、かつロバストに分類する。音声分類器(210)は、新規な決定プロセスを、直接に入力されたパラメータおよび内部で生成されたパラメータに適用して、向上した音声分類の結果を生成する。決定プロセスについては、図4aないし4cと5aないし5cとを参照して、別途詳しく記載する。
【0040】
1つの実施形態では、音声分類器(210)によって出力される音声モードには、過渡部、上り過渡部、下り過渡部、有声音、無声音、および無音のモードが含まれる。過渡部モードは有声音であるが、周期性の低い音声であり、フルレートのCELPで最適にコード化される。上り過渡モードは、活動状態の音声の最初の有声音のフレームであり、フルレートのCELPで最適にコード化される。下り過渡部モードは、一般に単語の終端における低エネルギーの有声音であり、2分の1レートのCELPで最適にコード化される。有声音モードは、非常に周期的な有声音であり、主として母音から成る。有声音モードの音声は、フルレート、2分の1レート、4分の1レート、または8分の1レートでコード化される。有声音モードの音声をコード化するためのデータレートは、平均データレート(Average Data Rate, ADR)の要件を満たすように選択される。無声音モードは、主として子音から成り、4分の1レートのノイズ励起線形予測(Noise Excited Linear Prediction, NELP)で最適にコード化される。無音モードは、非活動状態の音声であり、8分の1レートのCELPで最適にコード化される。
【0041】
当業者には、パラメータおよび音声モードが、開示されている実施形態のパラメータおよび音声モードに制限されないことが分かるであろう。開示されている実施形態の技術的範囲から逸脱することなく、追加のパラメータおよび音声モードを採用してもよい。
【0042】
図3は、ロバストな音声分類技術の音声分類ステップについての1つの実施形態を示すフローチャートである。
【0043】
ステップ300では、外部の構成要素から入力された分類パラメータを、ノイズを抑圧された出力音声の各フレームごとに処理される。1つの実施形態では、外部の構成要素から入力された分類パラメータには、ノイズ抑圧器の構成要素から入力されるcurr ns snrとt in、開ループのピッチ推定器の構成要素から入力されるnacf at pitchのパラメータ、および音声活動検出器の構成要素から入力されるvad、およびLPC解析の構成要素から入力されたreflが含まれる。制御フローは、ステップ302へ進む。
【0044】
ステップ302では、外部の構成要素から入力される分類パラメータから、追加の内部で生成されるパラメータを計算する。例示的な実施形態では、t inから、zcr、E、Enext、bER、vEav、vEprev、vER、vER2、およびmaxsfe idxを計算する。各出力音声フレームごとに、内部で生成されるパラメータを計算するとき、制御流はステップ304へ進む。
【0045】
ステップ304では、NACFの閾値を判断し、音声信号の環境にしたがって、パラメータ解析器を選択する。例示的な実施形態では、ステップ300において入力されたcurr ns snrの閾値をSNRの閾値と比較することによって、NACFの閾値を判断する。ノイズ抑圧器から求められるcurr nst snrの情報により、周期性決定閾値の新規な適応制御が得られる。このようにして、音声信号の分類プロセスにおいて、異なる周期性の閾値を異なるレベルのノイズ成分へ適用する。最も適切なnacf、すなわち音声信号のノイズレベルの周期性の閾値を各出力音声フレームごとに選択するとき、音声分類がより正確に決定される。音声信号に対する最も適切な周期性の閾値が判断されると、その音声信号に対する最良のパラメータ解析器を選択することができる。
【0046】
ノイズを含まない音声信号とノイズを含む音声信号とは、周期性において本質的に異なる。ノイズがあるときは、音声は破損されている。音声が破損しているときは、ノイズのない音声信号よりも、周期性の測度、すなわちnacfは、より小さい。したがって、ノイズを含む信号環境を補償するために、nacfの閾値をより小さくし、ノイズを含まない信号の環境では大きくする。開示されている実施形態の新規な音声分類技術では、ノイズレベルに関係なく、全ての環境において周期性の閾値を固定せず、より正確で、かつロバストなモード決定を行う。
【0047】
例示的な実施形態では、curr ns snrの値が、25デシベルのSNRの閾値以上であるときは、ノイズのない音声に対するnacfの閾値を適用する。表1には、ノイズのない音声に対するnacfの閾値の例が定められている。
【表1】

【0048】
例示的な実施形態では、curr ns snrの値が、25デシベルのSNRの閾値よりも小さいときは、ノイズを含む音声に対するnacfの閾値を適用する。表2には、ノイズを含む音声に対するnacfの閾値の例が定められている。
【表2】

【0049】
ノイズを含む音声は、ノイズを含まない音声にノイズを加えたものと同じである。ロバストな音声分類技術では、適応周期性閾値制御を使用すると、ノイズを含まない音声とノイズを含む音声とに対する分類決定が同じになる可能性は、以前に可能であったよりも、より高くなる。各フレームごとにnacfの閾値が設定されているときは、制御フローはステップ306へ進む。
【0050】
ステップ306では、外部の構成要素から入力されるパラメータと、内部で生成されたパラメータとを解析して、音声モードを分類する。状態機械または信号環境にしたがって選択される他の解析方法へパラメータを適用する。例示的な実施形態では、外部の構成要素から入力されるパラメータと、内部で生成されるパラメータとを、状態に基づくモード決定プロセスに適用し、図4aないし4cおよび5aないし5cを参照して詳しく記載する。決定プロセスでは、音声モードを分類する。例示的な実施形態では、過渡部、上り過渡部、下り過渡部、有声音、無声音、または無音の音声モードを分類する。音声モード決定が行われれると、制御フローはステップ308へ進む。
【0051】
ステップ308では、現在のフレームを構成している状態変数および種々のパラメータを更新する。例示的な実施形態では、vEav、vEprev、および現在のフレームの有声音の状態を更新する。次のフレームを分類するために、現在のフレームエネルギーE、nacf at pitch、および現在のフレームの音声モードを更新する。
【0052】
各音声フレームごとに、ステップ300ないし308を繰返す。
【0053】
図4aないし4cは、ロバストな音声分類技術の例示的な実施形態のモード決定プロセスについての実施形態を示している。決定プロセスでは、音声フレームの周期性に基づいて、音声を分類するための状態機械を選択する。決定プロセスでは、各音声フレームごとに、音声フレームの周期性の測度、すなわちnaf at pitchの値を、図3のステップ304において設定されたNACFの閾値と比較することによって、音声フレームの周期性、またはノイズ成分に最もコンパチブルな状態機械を選択する。モード決定プロセスは、音声フレームの周期性のレベルにより状態遷移を制限され、かつ制御され、よりロバストな分類が行われる。
【0054】
図4aは、vadが1であり(音声が活動状態である)、かつnacf at pitchの第3の値(すなわち、nacf at pitch[2]、ゼロ指標)が非常に大きい、すなわちVOICEDTHよりも大きいときに、例示的な実施形態において選択される状態機械についての1つの実施形態を示している。VOICEDTHは、図3のステップ304において定められている。図5aは、各状態によって評価されるパラメータを示している。
【0055】
初期状態は、無音である。vad=0である(すなわち、音声が活動状態でない)ときは、前の状態に関わらず、現在のフレームは、常に無音であると分類される。
【0056】
前の状態が無音であるときは、現在のフレームは、常に、無声音または上り過渡部の何れかであると分類される。nacf at pitch[3]が非常に小さく、zcrが大きく、bERが小さく、かつvERが非常に小さいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは無声音であると分類される。さもなければ、分類は、デフォルトで上り過渡部になる。
【0057】
前の状態が無声音であるときは、現在のフレームは無声音または上り過渡部として分類される。nacfが非常に小さく、nacf at pitch[3]が非常に小さく、nacf at pitch[4]が非常に小さく、zcrが大きく、bERが小さく、vERが非常に小さく、かつEがvEprevよりも小さいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、そのまま無声音であると分類される。さもなければ、分類は、デフォルトで上り過渡部になる。
【0058】
前の状態が有声音であるときは、現在のフレームは無声音、過渡部、下り過渡部、または有声音として分類される。vERが非常に小さく、かつEがvEprevよりも小さいときは、現在のフレームは無声音として分類される。nacf at pitch[1]およびnacf at pitch[3]が小さく、かつEがvEprevの2分の1よりも大きいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部であると分類される。vERが非常に小さく、かつnacf at pitch[3]が中位の値であるときは、現在のフレームは下り過渡部であると分類される。さもなければ、現在の分類は、デフォルトで有声音になる。
【0059】
前の状態が過渡部または上り過渡部であるときは、現在のフレームは、無声音、過渡部、または下り過渡部、または有声音として分類される。vERが非常に小さく、かつEがvEprevよりも小さいときは、現在のフレームは無声音として分類される。nacf at pitch[1]が小さく、nacf at pitch[3]が中位の値であり、nacf at pitch[4]が小さく、かつ前の状態が過渡部でないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。nacf at pitch[3]が中位の値であり、かつEがvEavの0.05倍よりも小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで有声音になる。
【0060】
前のフレームが下り過渡部であるときは、現在のフレームは無声音、過渡部、または下り過渡部として分類される。vERが非常に小さいときは、現在のフレームは無声音として分類される。EがvEprevよりも大きいときは、現在のフレームは過渡部として分類される。さもなければ、現在の分類は、下り過渡部のままである。
【0061】
図4bは、vadが1であり(音声が活動状態である)、かつnacf at pitchの第3の値が非常に小さい、すなわちUNVOICEDTHよりも小さいときの、例示的な実施形態において選択される状態機械についての1つの実施形態を示している。図3のステップ304において、UNVOICEDTHが定められる。図5bは、各状態によって評価されるパラメータを示している。
【0062】
初期状態は無音である。前の状態に関わらず、vad=0である(すなわち、音声が活動状態である)ときは、現在のフレームは、常に無音として分類される。
【0063】
前の状態が無音であるときは、現在のフレームは、無声音または上り過渡部の何れかとして分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が中位の値であり、zcrが非常に小さい値から中位の値であり、bERが大きく、かつvERが中位の値であるときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、上り過渡部であると分類される。さもなければ、分類は、デフォルトで無声音になる。
【0064】
前の状態が無声音であるときは、現在のフレームがは無声音または上り過渡部として分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が中位の値から非常に大きい値であり、zcrが非常に小さいか、または中位であり、vERが小さくなく、bERが大きく、reflが小さく、nacfが中位の値であり、かつEがvEprevよりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、上り過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。さもなければ、分類は、デフォルトで無声音になる。
【0065】
前の状態が無声音、上り過渡部、または過渡部であるときは、現在のフレームは無声音、過渡部、または下り過渡部として分類される。bERがゼロ以下であり、vERが非常に小さく、bERがゼロよりも大きく、かつEがvEprevよりも小さいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは無声音として分類される。bERがゼロよりも大きく、nacf at pitch[2-4]が増加傾向を示し、zcrが大きくなく、vERが小さくなく、reflが小さく、nacf at pitch[3]およびnacfが中位であり、かつbERがゼロ以下であるときか、またはこれらの条件のある特定の組合せが満たされるときは、現在のフレームは過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。bERがゼロよりも大きく、nacf at pitch[3]が中位であり、EがvEprevよりも小さく、zcrが大きくなく、かつvER2が−15よりも小さいときは、現在のフレームは下り過渡部として分類される。
【0066】
前のフレームが下り過渡部であるとき、現在のフレームは無声音、過渡部、または下り過渡部として分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が適度に大きく、vERが小さくなく、かつEがvEprevの2倍よりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。vERが小さくなく、かつzcrが小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで無声音になる。
【0067】
図4cは、vadが1であり(音声が活動状態であり)、かつnacf at pitchの第3の値(すなわち、nacf at pitch[3])が中位であり、すなわちUNVOICEDTHよりも大きく、かつVOICEDTHよりも小さいときの、例示的な実施形態において選択される状態機械についての1つの実施形態を示している。UNVOICEDTHおよびVOICETHは、図3のステップ304において定められる。図5cは、各状態によって評価されるパラメータを示している。
【0068】
初期状態は無音である。vad=0(すなわち、音声は活動状態でない)であるときは、前の状態に関わらず、現在のフレームは、常に、無音として分類される。
【0069】
前の状態が無音であるときは、現在のフレームは、無声音または上り過渡部の何れかとして分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が適度に大きく、zcrが大きくなく、bERが大きく、vERが中位の値であり、zcrが非常に小さく、かつEがvEprevの2倍よりも大きいときか、またはこれらの状態のある特定の組合せが満たされるときは、現在のフレームは上り過渡部として分類される。さもなければ、分類は、デフォルトで無声音になる。
【0070】
前の状態が無声音であるときは、現在のフレームは無声音または上り過渡部として分類される。nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が中位から非常に大きい値であり、zcrが大きくなく、vERが小さくなく、bERが大きく、reflが小さく、EがvEprevよりも大きく、zcrが非常に小さく、nacf小さくなく、maxsfe idxが最後のサブフレームを示し、かつEがvEprevの2倍よりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは上り過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。さもなければ、分類は、デフォルトで無声音になる。
【0071】
前の状態が有声音、上り過渡部、または過渡部であるときは、現在のフレームは、無声音、有声音、過渡部、下り過渡部として分類される。bERがゼロ以下であり、vERが非常に小さく、EnextがEよりも小さく、nacf at pitch[3-4]が非常に小さく、bERがゼロよりも大きく、かつEがvEprevよりも小さいときか、またはこれらの条件のある特定の組合せが満たされるときは、現在のフレームは無声音として分類される。bERがゼロよりも大きく、nacf at pitch[2-4]が増加傾向を示し、zcrが大きくなく、vERが小さくなく、reflが小さく、かつnacf at pitch[3]およびnacfが小さくないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。bERがゼロよりも大きく、nacf at pitch[3]が大きくなく、EがvEprevよりも小さく、zcrが大きくなく、vERが−15よりも小さく、かつvER2が−15よりも小さいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは下り過渡部として分類される。nacf at pitch[2]がLOWVOICEDTHよりも大きく、bERがゼロ以上であり、かつvERが小さくないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは有声音として分類される。
【0072】
現在のフレームが下り過渡部であるときは、現在のフレームは、無声音、過渡部、または下り過渡部として分類される。bERがゼロよりも大きく、nacf at pitch[2-4]が増加傾向を示し、nacf at pitch[3-4]が適度に大きく、vERが小さくなく、かつEがvEprevの2倍よりも大きいときか、またはこれらの状態のある特定の組合せが満たされるときは、現在のフレームは過渡部として分類される。vERが小さくなく、かつzcrが小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで無声音になる。
【0073】
図5aないし5cは、音声分類についての開示されている実施形態によって使用される決定表についての実施形態である。
【0074】
図5aは、1つの実施形態にしたがって、nacf at pitchの第3の値(すなわち、nacf at pitch[2])が非常に大きい、すなわちVOICEDTHよりも大きいときに、各状態によって評価されるパラメータと、状態遷移とを示している。図5aに示されている決定表は、図4aに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている列に示されているように評価されるとき、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。
【0075】
図5bは、1つの実施形態にしたがって、第3の値(nacf at pitch[2])が非常に小さい、すなわちUNVOICEDTHよりも小さいときの、各状態によって評価されるパラメータと、状態遷移とを示している。図5bに示されている決定表は、図4bに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている行に示されているように評価されるとき、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。
【0076】
図5cは、1つの実施形態にしたがって、nacf at pitchの第3の値(すなわち、nacf at pitch[3])が中位であり、すなわちUNVOICEDTHよりも大きいが、VOITHEDTHよりも小さいときに、各状態によって評価されるパラメータと、状態遷移とを示している。図5cに示されている決定表は、図4cに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている列に示されているように評価されるときは、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。
【0077】
図6は、音声信号の、関係付けられているパラメータ値と音声分類とについての例示的な実施形態の時間線のグラフである。
【0078】
当業者には、音声分類器は、DSP、ASIC、ディスクリートなゲート論理、ファームウエアまたは従来のプログラマブルソフトウエアモジュール、およびマイクロプロセッサで構成されていてもよいことが分かるであろう。ソフトウエアモジュールは、RAMメモリ、フラッシュメモリ、レジスタ、またはこの技術において知られている他の形態の書込み可能なメモリ媒体内にあってもよい。その代わりに、マイクロプロセッサを、従来のプロセッサ、制御装置、または状態機械に置換してもよい。
【0079】
好ましい実施形態についてのこれまでの説明は、当業者が本発明を作成または使用できるように与えられている。これらの実施形態に対する種々の変更は、当業者には容易に明らかであり、本明細書において定義されている全体的な原理は、発明の能力を使用することなく、他の実施形態に適用してもよい。したがって、本発明は、本明細書に示されている実施形態に制限されることを意図されずに、本明細書に開示されている原理および新規な特徴にしたがう最も広い範囲にしたがうことを意図される。

【特許請求の範囲】
【請求項1】
音声分類方法であって、
外部の構成要素から音声分類器へ分類パラメータを入力することと、
音声分類器において、入力パラメータの少なくとも1つから、内部分類パラメータを生成することと、
正規化された自己相関係数の関数の閾値を設定して、信号環境にしたがってパラメータ解析器を選択することと、
入力パラメータおよび内部パラメータを解析して、音声モードの分類を生成することとが含まれる音声分類方法。
【請求項2】
入力パラメータには、ノイズを抑圧された音声信号が含まれる請求項1記載の方法。
【請求項3】
入力パラメータには、ノイズを抑圧された音声信号のための信号対雑音比の情報が含まれる請求項1記載の方法。
【請求項4】
入力パラメータには、音声活動情報が含まれる請求項1記載の方法。
【請求項5】
入力パラメータには、線形予測反射係数が含まれる請求項1記載の方法。
【請求項6】
入力パラメータには、正規化された自己相関係数の関数の情報が含まれる請求項1記載の方法。
【請求項7】
入力パラメータには、ピッチ情報における正規化された自己相関係数の関数が含まれる請求項1記載の方法。
【請求項8】
ピッチ情報における正規化された自己相関係数の関数は、値の配列である請求項7記載の方法。
【請求項9】
内部パラメータには、ゼロ交差レートのパラメータが含まれる請求項1記載の方法。
【請求項10】
内部パラメータには、現在のフレームのエネルギーのパラメータが含まれる請求項1記載の方法。
【請求項11】
内部パラメータには、予見フレームのエネルギーのパラメータが含まれる請求項1記載の方法。
【請求項12】
内部パラメータには、帯域エネルギー比のパラメータが含まれる請求項1記載の方法。
【請求項13】
内部パラメータには、3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項1記載の方法。
【請求項14】
内部パラメータには、前の3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項1記載の方法。
【請求項15】
内部パラメータには、現在のフレームのエネルギー対前の3つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項1記載の方法。
【請求項16】
内部パラメータには、現在のフレームのエネルギー対3つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項1記載の方法。
【請求項17】
内部パラメータには、最大のサブフレームのエネルギーの指標のパラメータが含まれる請求項1記載の方法。
【請求項18】
正規化された自己相関係数の関数の閾値を設定することには、信号対雑音比の情報のパラメータと、所定の信号対雑音比の値とを比較することが含まれる請求項1記載の方法。
【請求項19】
解析することには、パラメータを状態機械に適用することが含まれる請求項1記載の方法。
【請求項20】
状態機械には、各音声分類モードの状態が含まれる請求項19記載の方法。
【請求項21】
音声モード分類には、過渡部モードが含まれる請求項1記載の方法。
【請求項22】
音声モード分類には、上り過渡部モードが含まれる請求項1記載の方法。
【請求項23】
音声モード分類には、下り過渡部モードが含まれる請求項1記載の方法。
【請求項24】
音声モード分類には、有声音モードが含まれる請求項1記載の方法。
【請求項25】
音声モード分類には、無声音モードが含まれる請求項1記載の方法。
【請求項26】
音声モード分類には、無音モードが含まれる請求項1記載の方法。
【請求項27】
少なくとも1つのパラメータを更新することがさらに含まれる請求項1記載の方法。
【請求項28】
更新パラメータには、ピッチパラメータにおける正規化された自己相関係数の関数が含まれる請求項27記載の方法。
【請求項29】
更新パラメータには、3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項27記載の方法。
【請求項30】
更新パラメータには、予見フレームのエネルギーのパラメータが含まれる請求項27記載の方法。
【請求項31】
更新パラメータには、前の3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項27記載の方法。
【請求項32】
更新パラメータには、音声活動検出のパラメータが含まれる請求項27記載の方法。
【請求項33】
音声分類器であって、
分類パラメータを生成するための生成器と、
正規化された自己相関係数の関数の閾値を設定し、かつ信号環境にしたがってパラメータ解析器を選択するための正規化された自己相関係数の関数の閾値の生成器と、
少なくとも1つの外部入力パラメータと内部パラメータとを解析して、音声モードを分類するためのパラメータ解析器とが構成されている音声分類器。
【請求項34】
分類パラメータを生成するための生成器が、ノイズを抑圧された音声信号からパラメータを生成する請求項33記載の音声分類器。
【請求項35】
分類パラメータを生成するための生成器が、信号対雑音比の情報からパラメータを生成する請求項33記載の音声分類器。
【請求項36】
分類パラメータを生成するための生成器が、音声活動情報からパラメータを生成する請求項33記載の音声分類器。
【請求項37】
分類パラメータを生成するための生成器が、線形予測反射係数からパラメータを生成する請求項33記載の音声分類器。
【請求項38】
分類パラメータを生成するための生成器が、正規化された自己相関係数の関数の情報からのパラメータを生成する請求項33記載の音声分類器。
【請求項39】
分類パラメータを生成するための生成器が、ピッチ情報における正規化された自己相関係数の関数の情報からパラメータを生成する請求項33記載の音声分類器。
【請求項40】
ピッチ情報における正規化された自己相関係数の関数が、値の配列である請求項39記載の音声分類器。
【請求項41】
生成されたパラメータには、ゼロ交差レートのパラメータが含まれる請求項33記載の音声分類器。
【請求項42】
生成されるパラメータには、現在のフレームのエネルギーのパラメータが含まれる請求項33記載の音声分類器。
【請求項43】
生成されるパラメータには、予見フレームのエネルギーのパラメータが含まれる請求項33記載の音声分類器。
【請求項44】
生成されるパラメータには、帯域エネルギー比のパラメータが含まれる請求項33記載の音声分類器。
【請求項45】
生成されるパラメータには、3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項33記載の音声分類器。
【請求項46】
生成されるパラメータには、前の3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項33記載の音声分類器。
【請求項47】
生成されるパラメータには、現在のフレームのエネルギー対前の3つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項33記載の音声分類器。
【請求項48】
生成されるパラメータには、現在のフレームのエネルギー対3つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項33記載の音声分類器。
【請求項49】
生成されるパラメータには、最大のサブフレームのエネルギー指標のパラメータが含まれる請求項33記載の音声分類器。
【請求項50】
正規化された自己相関係数の関数の閾値を設定することには、信号対雑音比の情報のパラメータと、所定の信号対雑音比の値とを比較することが含まれる請求項33記載の音声分類器。
【請求項51】
解析することには、パラメータを状態機械へ適用することが含まれる請求項33記載の音声分類器。
【請求項52】
状態機械には、各音声分類モードの状態が含まれる請求項51記載の音声分類器。
【請求項53】
音声モードの分類には、過渡部モードが含まれる請求項33記載の音声分類器。
【請求項54】
音声モードの分類には、上り過渡部モードが含まれる請求項33記載の音声分類器。
【請求項55】
音声モードの分類には、下り過渡部モードが含まれる請求項33記載の音声分類器。
【請求項56】
音声モードの分類には、有声音モードが含まれる請求項33記載の音声分類。
【請求項57】
音声モードの分類には、無声音モードが含まれる請求項33記載の音声分類器。
【請求項58】
音声モードの分類には、無音モードが含まれる請求項33記載の音声分類器。
【請求項59】
少なくとも1つのパラメータを更新することがさらに含まれる請求項33記載の音声分類器。
【請求項60】
更新パラメータには、ピッチパラメータにおける正規化された自己相関係数の関数が含まれる請求項59記載の音声分類器。
【請求項61】
更新パラメータには、3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項59記載の音声分類器。
【請求項62】
更新パラメータには、予見フレームのエネルギーのパラメータが含まれる請求項59記載の音声分類器。
【請求項63】
更新パラメータには、前の3つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項59記載の音声分類器。
【請求項64】
更新パラメータには、音声活動検出のパラメータが含まれる請求項59記載の音声分類器。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4a】
image rotate

【図4b】
image rotate

【図4c】
image rotate

【図5a】
image rotate

【図5b】
image rotate

【図5c】
image rotate

【図6】
image rotate


【公開番号】特開2010−176145(P2010−176145A)
【公開日】平成22年8月12日(2010.8.12)
【国際特許分類】
【外国語出願】
【出願番号】特願2010−72646(P2010−72646)
【出願日】平成22年3月26日(2010.3.26)
【分割の表示】特願2002−548711(P2002−548711)の分割
【原出願日】平成13年12月4日(2001.12.4)
【出願人】(595020643)クゥアルコム・インコーポレイテッド (7,166)
【氏名又は名称原語表記】QUALCOMM INCORPORATED