説明

音認識方法及び装置

【課題】雑音環境下における対象音の音区間を検出可能とする音認識方法及び装置の提供。
【解決手段】雑音環境下における周期定常性を持つ対象音の音区間を検出可能とする音認識方法であって、音入力手段によりアナログ音響信号を採取し、フレームによって構成されるデジタル波形信号に変換する第1ステップと、デジタル波形信号をフレーム単位で解析して自己相関関数及び2次自己相関関数を算出する第2ステップと、各フレームについて算出した2次自己相関関数の差分絶対値の和が予め設定した閾値を超える範囲を音区間と判定する第3ステップと、を有することを特徴とする音認識方法およびその装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、雑音環境下における周期定常性を持つ対象音の音区間を検出可能とする音認識方法及び装置に関する。
【背景技術】
【0002】
近年、カーナビゲーションの地名入力、計算機また携帯電話におけるアプリケーションインタフェースとして音声認識システムは身近な技術であるといえる。音声認識システムは計算量また実時間処理の必要性から、ソフトウェアによる計算機上でのシステム構築や応用を目指した検討が活発に行われている。この中で、処理能力の向上に伴い、計算機上で実現されてきた音声認識システムは組込みシステムや近年広まりつつあるスマートフォンなどでも利用可能な技術へと広がりを見せている。この情勢の中で、基礎研究における先導的音声認識システムの開発は今後もソフトウェア実装で行われると推測される。
【0003】
一方、組込みシステムによる音声認識システムは計算機を必要とせず、統計的手法を用いた音声認識システムの実現が可能となった。今後はさらに技術革新が進み、大語彙連続単語認識も組込みシステム上で実現されることは明白である。そのため、音声認識システムは従来のソフトウェアからミドルウェアでの実装へと進展したといえる。このことから、ハードウェア音声認識システムへと技術の広がりが期待できる。
【0004】
ハードウェア音声認識システムは、DSP(Digital Signal Processor)もしくはFPGA(Field-Programmable Gate Array)で構築し、小語彙特定話者認識システムの実現が図られている。これは、マイクロコンピュータの高速化・高精度化とハードウェア実装を行うためのコンパイラ及びシミュレータが整備されてきたことによるものといえる。これに伴い、隠れマルコフモデルを用いた統計的手法による音声認識システムの実装も報告されている。連続分布を用いた隠れマルコフモデルによる音声認識システムの検討では、ソフトウェアとハードウェアで実装したシステムを比較したところ、同精度の認識性能を維持した上で40倍以上の高速化が確認されており(非特許文献1参照)、ハードウェア音声認識システムがソフトウェア実装によるシステムよりも速度面で優れていることが確認されている。
【0005】
発明者は、特許文献1において、高速で音声認識を行うことができる音声認識装置であって、音声波形信号をフレーム単位で解析して音声の特徴量を表す特徴ベクトルを抽出する特徴ベクトル抽出部と、特徴ベクトルを時系列的に複数フレーム分記憶する特徴ベクトル記憶部と、音声認識候補となる複数の音声を記憶する認識候補音声記憶部と、特徴ベクトル記憶部に記憶された複数フレーム分における特徴ベクトルに基づき音声認識候補となる各音声の尤度を算出する第1解析部と、複数フレーム分における特徴ベクトルからフレーム単位あたりの平均特徴ベクトルを算出し当該平均特徴ベクトルから音声認識候補となる音声の尤度を算出する第2解析部と、第1解析部において算出した音声認識候補となる各音声の尤度及び第2解析部において算出した音声認識候補となる各音声の尤度に基づき一つの音声を決定する音声決定部とを備える音声認識装置を提案した。
【0006】
特許文献2には、入力された音を分析して周期性を検出するとともに、入力された音のパワー情報に基づいて音声区間を検出し、これらの2つの検出結果に基づいて、予め定めた音声区間と非音声区間とを判定する規則にしたがって音声区間を検出する音声区間検出装置が提案されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2010-224020号公報
【特許文献2】特開平8-305388号公報
【非特許文献】
【0008】
【非特許文献1】S. J. Melnikoff, S. F. Quigley and M. J. Russell, “Speech Recognition on an FPGA Using and Continuous Hidden Markov Models”, Proceedings of 12th International Conference on Field Programmable Logic and Applications, pp.201-211, 2002.
【発明の開示】
【発明が解決しようとする課題】
【0009】
上述のとおり、ハードウェア音声認識システムにより音声認識の高速化が可能となったが、実利用を踏まえ、雑音環境下における音区間検出が必要とされている。
そこで、本発明は、雑音環境下における対象音の音区間を検出可能とする音認識方法及び装置を提供することを目的とし、特に、雑音環境下における音声認識を可能とする音認識方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
第1の発明は、雑音環境下における周期定常性を持つ対象音の音区間を検出可能とする音認識方法であって、音入力手段によりアナログ音響信号を採取し、フレームによって構成されるデジタル波形信号に変換する第1ステップと、デジタル波形信号をフレーム単位で解析して自己相関関数及び2次自己相関関数を算出する第2ステップと、各フレームについて算出した2次自己相関関数の差分絶対値の和が予め設定した閾値を超える範囲を音区間と判定する第3ステップと、を有することを特徴とする音認識方法である。
第2の発明は、第1の発明において、前記対象音が音声であることを特徴とする。
【0011】
第3の発明は、アナログ音響信号を採取する音入力手段と、音区間を検出する信号処理部と、音の種別を判定する音認識部とを備え、雑音環境下における周期定常性を持つ対象音の音区間を検出可能とする音認識装置であって、信号処理部が、フレームによって構成されるデジタル波形信号に変換する手段と、デジタル波形信号をフレーム単位で解析して自己相関関数及び2次自己相関関数を算出する手段と、各フレームについて算出した2次自己相関関数の差分絶対値の和が予め設定した閾値を超える範囲を音区間と判定する手段と、を有することを特徴とする音認識装置である。
第4の発明は、第3の発明において、前記信号処理部が判定した音区間について、複数チャンネルにおける周波数帯域パワーの割合に基づき母音グループを認識し、認識した母音グループについて、スペクトル距離に基づき母音を判定する音声認識機能を有することを特徴とする。
【発明の効果】
【0012】
本発明によれば、雑音環境下において、周期定常性を持つ対象音の音区間を検出することが可能となる。
また、雑音環境下における音声認識を高精度に行うことが可能となる。
【図面の簡単な説明】
【0013】
【図1】ハードウェア音声認識システムの概念図
【図2】母音/a/の音声信号
【図3】音声の自己相関関数
【図4】音声の2次自己相関関数
【図5】雑音信号
【図6】雑音の自己相関関数
【図7】雑音の2次自己相関関数
【図8】高SNR環境下での母音/a/の雑音化音声
【図9】高SNR環境下での母音/a/の音声区間検出
【図10】低SNR環境下での母音/a/の雑音化音声
【図11】低SNR環境下での母音/a/の音声区間検出
【図12】発声文“ねじ曲げたのだ”の雑音化音声
【図13】発声文“ねじ曲げたのだ”の音声区間検出
【発明を実施するための形態】
【0014】
本発明の音認識装置は、アナログ音響信号を採取する音入力手段と、音区間を検出する信号処理部と、音の種別を判定する音認識部を備えている。この音認識装置は、1フレームもしくは数フレーム程度の信号を用いて音声区間検出や音声認識を行うことにより瞬時処理・瞬時認識が実現可能である。
信号処理部は、フレームによって構成されるデジタル波形信号に変換する手段と、デジタル波形信号をフレーム単位で解析して自己相関関数及び2次自己相関関数を算出する手段と、各フレームについて算出した2次自己相関関数の差分絶対値の和が予め設定した閾値を超える範囲を音区間と判定する手段を有しており、波形信号をフレーム化した瞬間にハードウェア演算で信号処理・音声認識を行うことが可能である。
【0015】
音入力手段としては、代表的にはマイクロフォンが挙げられるが、例えば、骨伝導音をはじめとする体内伝導音などの固体伝搬信号を抽出する加速度ピックアップなどを用いてもよい。音入力手段により採取されたアナログ音響信号は、信号処理部でAD変換されPCM(パルス符号変調)形式の波形信号に変換される。
信号処理部では、あらゆる音源から発せられる周期定常性のある音の音区間を検出することが可能である。代表的には、人が発声した音声が挙げられるが、これに限定されず、例えば、エンジン、モーター、ベル等の機器類からの周期定常性を持つ音を検出することも可能である。
【0016】
本発明は、パソコンを用いてソフトウェア的に実現することもできるが、処理速度の観点からは信号処理部と音認識部を統合したハードウェア音声認識システムにより実現することが好ましい。さらに、ハードウェア音認識システムは、FPGAを用いて構成することが好ましい。FPGAは、AND、ORまたNANDなどの論理素子とフリップフロップなどから構成される集積回路であり、ユーザ独自の論理回路を構成することが可能である。実装手法としては、コンパイラを用いたソフトウェア開発とGUIベースのシミュレータを用いた開発があるが、実施例ではあらかじめシステムのふるまいを確認する必要性があったのでシミュレータ上で開発を行った。
【0017】
本発明は、定常的特性を有する母音や異常音検知などの複雑な認識アルゴリズムを必要としない用途やリアルタイム性が求められる用途に特に適している。また、信号処理部や音認識部を必要に応じてモジュール化できるため、雑音抑圧、音区間検出また特徴抽出などのあらゆる音認識システムのフロントエンド部として用いることができる。
【0018】
以下では、本発明の詳細を実施例により説明するが、本発明は何ら実施例により限定されるものではない。
【実施例】
【0019】
[1]システムの概要
実施例は、音声を処理対象とした、ハードウェア音声認識システムに関する。本実施例のシステムは、周囲雑音の変化や話者交代など遂次状況が変化する環境下で用いられることを前提としているため、得られた信号に対する前処理を行う機能を有している。すなわち、本実施例のシステムは、フロントエンド処理から認識処理までを統合したシステムであり、話者交代に伴う音響モデルやテンプレートの変更などが可能な音声認識システムを提供することができ、また対話システムとしての運用も実現可能である。
【0020】
図1に本実施例で提案するハードウェア音声認識システムの概念図を示す。本実施例の音声認識システムは、信号処理部2及び音声認識部3を有する音声認識装置1と、マイクロフォンからなる音声入力手段4と、出力装置5から構成される。信号処理部2では音声入力手段 4で採取した波形信号を用いて、話者認識、音声区間検出また雑音抑圧など音声認識における前処理を行う。音声認識部3では、信号処理部2から得られた結果を用いて効率の良い音声認識を行う部分であって、フレーム単位での処理を実現し、瞬時処理(リアルタイム処理)が可能である。判定された音声情報は出力装置5に出力される。
【0021】
本実施例では、信号処理部2及び音声認識部3の開発を、すべてLabVIEW(登録商標)を用いて行った。LabVIEW(登録商標)はNational Instruments社が提供する主として計測制御に用いられるグラフィカルプログラミング環境であり、アイコンとワイヤによるフローチャートのような直感的プログラミングを行うことができる。また、多くのハードウェアデバイスとの統合が可能で、高度な解析やデータの可視化が行えるライブラリが内蔵されており、評価、試験、テストなどのシステム開発で必要な検討を行うことができる。本実施例における各検討はシミュレータ上で実装したシステムによる検討結果である。
【0022】
以下では、本実施例の音声認識装置1が備える、雑音環境下における頑健な音声区間検出アルゴリズムを、母音認識の実験例に基づき説明する。音声認識装置1の信号処理部2では2次自己相関関数の差分絶対値の和を用いた雑音環境下における音声区間検出を行い、音声認識部3では周波数帯域パワーの出力とフォルマント周波数の距離比較を用いた2段方式の音声認識の有効性確認を行った。
【0023】
[2]信号処理部2
信号処理部2では、発話区間検出、雑音抑圧など頑健な音声認識を実現するための前処理を行う。以下では、信号間の差分を用いたプリエンファシスと、雑音環境下での頑健な音声区間検出について説明する。
【0024】
[2-1]プリエンファシス
マイクロフォンなどから採取された音声信号は窓関数によりフレーム化される。ここで、フォルマント周波数は高域になるほど信号レベルが減衰するためピークの検出が難しくなるという問題があり、この問題を解決するためにプリエンファシスが行われる。ここで、明瞭化などにおいてはプリエンファシスが有効ではない場合もある。しかし、本実施例の音声認識部3ではスペクトルのピーク検出に用いるため、前処理として信号処理部2でプリエンファシスを行うようにしている。本実施例ではシステムを簡単化するために、時間波形の差分を用いたプリエンファシスを行っている。
【0025】
一般的に、音声処理のプリエンファシスは係数0.97程度を用いて施されており、このパラメータはシステムに対する音声のサンプリング周波数は可変であるにもかかわらず用いられる場合が多い。ここで、サンプリング周波数が変化すれば、離散信号の微分間隔が変化し、異なる周波数特性が得られるところ、厳密にスケーリング係数を求める必要性が無いのであれば、単純な差分を用いれば十分であると考えられる。そこで、本実施例ではシステムの高速化の観点も踏まえ、差分計算を採用した。
【0026】
[2-2]2次自己相関関数を用いた音声区間検出
周囲の雑音環境は常に変化するため、静寂環境下また雑音環境下など環境に依存しないシステムが求められる。そこで、本実施例では2次自己相関関数を用いて音声区間検出を行っている。以下に自己相関関数を求めるための式1を示す。
【0027】
【数1】

【0028】
波形信号x(i)に対して、式1を用いることで自己相関関数R(j)を求めることができる。
図2に男性20歳1名が母音/a/を発声したときの音声信号、図3に音声の自己相関関数、図4に音声の2次自己相関関数を示す。また、図5に雑音信号、図6に雑音の自己相関関数、図7に雑音の2次自己相関関数を示す。
本実施例では音声信号から求めた自己相関関数に対して再度自己相関関数を計算し、2次自己相関関数R’(k)を求める。このようにすることで、自己相関関数では表現しきれない定常性を強調した信号を得ることができる。そして、2次相関関数の差分絶対値の和を発声推定値A(l)として用いることにした。以下に発声推定値を求めるための式2を示す。
【0029】
【数2】

【0030】
静寂環境下であれば無発声時の自己相関関数の振幅値は得られなく、雑音環境下であれば非定常雑音などにより自己相関関数の振幅値は低下する。一方、母音は定常性が高く、自己相関関数の振幅値もそれに伴い高くなる。子音は母音と比較すると自己相関関数の値は低くなるものの、白色雑音のような無相関信号と比較すると高くなると推測できる。よって、静寂環境下及び雑音環境下など問わずに頑健な音声区間検出が簡易的に実現できる。
【0031】
まず、雑音環境下で男性20歳が母音/a/を発声したときの有効性確認を行う。
信号検出のために用いたマイクロフォンはSONY社のECM-31HVC(600Ω)である。白色雑音は、フリーソフト(WaveGene)で生成したものを一般的なマイクで再生して発声時におけるバックグラウンドノイズとした。
図8は高SNR環境下で発声した雑音化音声であり、図9は図8に対して音声区間検出を行った結果である。図9から、0.9秒から1.8秒付近において音声区間を検出できることが確認できる。
図10は図8よりも難易度の高い条件、すなわち低SNR環境下で図8と同じ男性が発声した雑音化音声であり、図11は図10に対して音声区間検出を行った結果である。図11から、0.5秒から1.6秒付近の値が相対的に高くなっていることが確認できる。
音声区間検出では雑音区間と発声区間の相対比較を行うところ、図9,11では発声推定値が雑音区間よりも高い値を示すことから音声区間検出が可能であると判断できる。他の日本語母音(/i/、/u/、/e/及び/o/)についても有効性確認を行ったところ、同様の結果を得ることができた。
【0032】
次に、単音発声した母音ではなく、文節発声を行ったときの有効性確認を行う。
図12は20歳男声が雑音環境下において文節“ねじ曲げたのだ”を発声したときの雑音化音声であり、図13は図12に対して音声区間検出を行った結果である。図13から、母音区間では自己相関関数の値が高く、子音区間では母音と比較すると自己相関関数の値が低いものの発声推定値を得られることを確認できる。これは、雑音と比較して子音区間の周期性が相対的に高く、子音区間でも音声区間検出が可能となることを示している。白色雑音のような不規則性雑音であれば頑健に検出可能であるが、定常雑音では発声推定値が高くなるため性能低下が見込まれる。また一方では、音声に限らず異常音また環境音の検出など様々な所望信号の検出が期待できることが確認された。
【0033】
[3]音声認識部3
本実施例ではハードウェア音声認識システムの利点を生かす手法として、入力フレーム毎に遂次音声認識を行う手法を採用している。この手法を用いることで瞬時にフレーム単位の音声認識が可能で、音質変換のためのフィルタ決定や異常音をフレーム毎に推定できる。本実施例では2段方式の母音認識を用いた認識システムを構築した。
【0034】
音声認識部3の第1パスでは母音グループの認識を行い、認識対象を絞り込む認識を行った。ここでは、フォルマント周波数の存在する帯域を3チャンネルで分割し、そこから得られる帯域パワー毎にパラメータを設定した。公知の式を用いて各チャンネルにおける最大値PLocalMax(i)と最小値PLocalMin(i)で正規化し、周波数帯域パワーにおけるチャンネルiの各出力P(i)を割合Ratio(i)で表現することにより、存在するフォルマント周波数の帯域に違いがあることを確認することができた。
【0035】
音声認識部3の第2パスではグループ内の母音識別を行った。あらかじめ調査したフォルマント周波数のテンプレートを作成し、テンプレートと音声信号から得られたフォルマント周波数の距離比較を行った。ここで、第1及び第2フォルマントの距離にスケールの差があるため、単純な距離比較による判別を行うことが難しいという問題がある。そこで、公知の式を用いてスケーリングの問題を解決し、最終候補を決定することにした。
【0036】
第1パスでは周波数帯域パワーを用いた母音/a/、/u/、/o/群と母音/i/、/e/群の識別を行い、第2パスではスペクトル距離尺度を用いた各グループ内の識別を行った。認識用のテンプレートはあらかじめ20歳男性3名から推定し、この話者3名に1名加えた男性20歳4名で認識実験を行った。各話者は実験室内の静寂環境下で各日本語母音を40セットずつ発声した。このとき、環境音認識も考慮したため、サンプリング周波数を44.1kHzとした。
表1は全話者における認識結果のエラーマトリクス及び母音認識率である。各認識結果から確認できるように、孤立発声した母音に対して約75%程度の認識率が得られることが確認できた。
【0037】
【表1】

【符号の説明】
【0038】
1 音声認識装置
2 信号処理部
3 音声認識部
4 音声入力手段(マイクロフォン)
5 出力装置

【特許請求の範囲】
【請求項1】
雑音環境下における周期定常性を持つ対象音の音区間を検出可能とする音認識方法であって、
音入力手段によりアナログ音響信号を採取し、フレームによって構成されるデジタル波形信号に変換する第1ステップと、デジタル波形信号をフレーム単位で解析して自己相関関数及び2次自己相関関数を算出する第2ステップと、各フレームについて算出した2次自己相関関数の差分絶対値の和が予め設定した閾値を超える範囲を音区間と判定する第3ステップと、を有することを特徴とする音認識方法。
【請求項2】
前記対象音が音声であることを特徴とする請求項1の音区間認識方法。
【請求項3】
アナログ音響信号を採取する音入力手段と、音区間を検出する信号処理部と、音の種別を判定する音認識部とを備え、雑音環境下における周期定常性を持つ対象音の音区間を検出可能とする音認識装置であって、
信号処理部が、フレームによって構成されるデジタル波形信号に変換する手段と、デジタル波形信号をフレーム単位で解析して自己相関関数及び2次自己相関関数を算出する手段と、各フレームについて算出した2次自己相関関数の差分絶対値の和が予め設定した閾値を超える範囲を音区間と判定する手段と、を有することを特徴とする音認識装置。
【請求項4】
前記信号処理部が判定した音区間について、複数チャンネルにおける周波数帯域パワーの割合に基づき母音グループを認識し、認識した母音グループについて、スペクトル距離に基づき母音を判定する音声認識機能を有することを特徴とする請求項4の音認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−220607(P2012−220607A)
【公開日】平成24年11月12日(2012.11.12)
【国際特許分類】
【出願番号】特願2011−84323(P2011−84323)
【出願日】平成23年4月6日(2011.4.6)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成22年12月3日 社団法人電子情報通信学会発行の「平成22年 電子情報通信学会 応用音響研究会講演予稿集」に発表
【出願人】(504237050)独立行政法人国立高等専門学校機構 (656)
【Fターム(参考)】