信号処理方法および装置
【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、従来、自己回帰モデル等の統計的手法やフーリエ変換によって行なわれてきた、時系列データの解析の改良に関する。本発明はたとえば、楽音認識、音声による個人認識、音声認識、建築音響の分析、ならびに音声または音楽の信号分析、符号化、信号分離、および信号強調処理に応用できる。本発明は、また音響信号等に限らず、機械音および地震波等の機械的振動の解析、脳波、心臓拍動音、超音波エコー、および神経細胞信号等の生体信号解析、ならびに一般的な時系列データを収集するためのセンサー信号の解析等にも広範囲に応用される。
【0002】
【従来の技術】従来より、信号処理一般の情報処理の基本として行なわれてきたのは、スペクトログラムつまり「時間−周波数表現」を求めることであった。高速ディジタル変換(たとえば高速フーリエ変換)を使っても、線形予測分析を使っても、求めるものは、ある一時点での周波数表現としてのスペクトルに直接的に対応するベクトルであり、これを時系列で持つことにより、スペクトログラムに相当する表現を用いていることになる。これら表現は、フーリエ変換から始まる信号のスペクトル表現に由来している。たとえば音声信号の特徴のための表現として最もよく用いられているのはサウンドスペクトログラム(sound spectrogram)であろう。サウンドスペクトログラムとは、音声スペクトルの時間的な変化を、濃淡図形表現、等高線表現、またはカラー表示などを用いて見やすく表現したものである。
【0003】スペクトル表現は、波形自体で信号を表現するよりも信号の特徴を良く表現できること、人間の聴覚系は複数の正弦波からなる信号の相対的な位相関係にはあまり敏感でないとされていること、それらを効率的に計算できる計算手法が確立されていること等の特徴を有しており、音声等の情報処理にはちょうど良く整合が取れたために、広く使われるようになった。
【0004】従来はさまざまな信号処理において、ありとあらゆることをもっぱら上記したスペクトル表現で見ることによって極限まで性能向上を図ってきた。しかし、すでに性能向上の限界に近くなっている感がある。たとえば、音声認識装置では一般的に事前に多数の人間の音声による学習が必要である。ところが、多数の大人の男声・女声で学習を行なった音声認識装置に子供の声を入力しても、ほとんど認識されないであろう。これは、基本的には、大人と子供とでは、声道や声帯の物理的大きさが異なるために、それぞれの発する音声のスペクトル構造およびピッチ周期が異なり、その結果それぞれの音声から抽出される特徴ベクトルが異なってくるためである。
【0005】この問題を解決するために、その音声認識装置に多数の子供の声を学習させたり、子供のためだけに特別に準備した音声認識装置を大人と子供とを判別するための装置とともに用意したりする方策がある。しかし、子供の声の大規模データベースは現在は存在していないので、そうした子供専用の音声認識装置を容易に準備することはできない。さらに、仮にそうした子供の声の大規模データベースを手間をかけて構築したとしても、上記したような解決方法はあまり効率的とは言えない。
【0006】
【発明が解決しようとする課題】この問題を本質的に解決するためには、スペクトログラムでは行ないにくい声道や声帯の物理的大きさの正規化が自動的に行なえる表現が不可欠である。ここでは、音声認識だけの例を挙げたが、たとえば楽器の発する音の分析およびエンジン音の分析におけるように、音源の物理的大きさにかかわらず不変な音響的な特徴抽出が必要となる問題はさまざまな局面で出ている。音響信号等に限らず、機械音および地震波等の機械的振動の解析、脳波、心臓拍動音、超音波エコーおよび神経細胞信号等の生体信号解析、一般的な時系列データを収集するためのセンサー信号の解析等、広範囲な分野でこうした問題に対する解決が必要である。
【0007】それゆえに、本発明の目的は、振動源の物理的な大きさに依存しない何らかの表現を利用することによって、上記の例に関連して述べたようなスペクトル表現に由来する本質的な限界を超える信号処理を行なう方法およびそれを利用した装置を提供することである。
【0008】
【課題を解決するための手段】請求項1に記載の発明にかかる信号処理方法は、入力信号をコンピュータにおいてウェーブレット変換するウェーブレット変換ステップと、ウェーブレット変換するステップの出力を、コンピュータにおいて入力信号の周期に同期させてメリン変換することによって信号の特性を抽出する特性抽出ステップとを含む。
【0009】請求項2に記載の発明にかかる信号処理方法は、請求項1に記載の発明の構成に加えて、特性抽出ステップは、ウェーブレット変換ステップによって得たランニングスペクトルに相当する表現を、入力信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するステップと、時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するステップとを含む。
【0010】請求項3に記載の発明にかかる信号処理方法は、請求項1〜請求項2のいずれかに記載の発明の構成に加えて、ウェーブレット変換ステップは、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて入力信号を積分変換するステップと、積分変換された入力信号を半波整流して出力するステップとを含む。請求項4に記載の発明にかかる信号処理方法は、入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現をコンピュータを用いて得るステップと、さらにコンピュータを用いて、対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって信号の特性を抽出するステップとを含む。
【0011】請求項5に記載の発明にかかる信号処理方法は、請求項4に記載の発明の構成に加えて、積分変換により抽出された入力信号の特性をベクトル表現し、さらにこれら表現ベクトルの時系列として入力信号の経時的な特性を表現するステップをさらに含む。
【0012】
【0013】請求項6に記載の発明にかかる信号処理装置は、コンピュータによって処理可能な予め定める形式に変換した入力信号をウェーブレット変換するためのウェーブレット変換手段と、ウェーブレット変換手段の出力を前記入力信号の周期に同期させてメリン変換することによって信号の特性を抽出するための特性抽出手段とを含む。
【0014】請求項7に記載の発明にかかる信号処理装置は、請求項6に記載の発明の構成に加えて、特性抽出手段は、ウェーブレット変換手段によって得たランニングスペクトルに相当する表現を、信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するための手段と、時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するための手段とを含む。
【0015】請求項8に記載の発明にかかる信号処理装置は、請求項6〜請求項7のいずれかに記載の発明の構成に加えて、ウェーブレット変換手段は、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて入力信号を積分変換するための手段と、積分変換された入力信号を半波整流して出力するための手段とを含む。請求項9に記載の発明にかかる信号処理装置は、コンピュータによって処理可能な形式に変換した、入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現を得るための手段と、さらに対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって入力信号の特性を抽出するための手段とを含む。
【0016】請求項10に記載の発明にかかる信号処理装置は、請求項9に記載の発明の構成に加えて、さらに、積分変換により得られた入力信号の特性をベクトル表現し、さらにこれら表現ベクトルの時系列として入力信号の経時的な特性を表現するための手段をさらに含む。
【0017】
【0018】請求項11に記載の発明にかかる信号処理装置は、各々入力信号を受けるように接続された、互いに同一のウェーブレット核関数を持ちそれぞれ別個の周波数を持つウェーブレットにより変換を行なう複数個のウェーブレットフィルタからなるウェーブレットフィルタバンクと、ウェーブレットフィルタバンクの出力を受けるように接続され、ウェーブレットフィルタバンクの出力から、聴覚図形を抽出するための聴覚図形抽出手段と、聴覚図形抽出手段によって抽出された聴覚図形から入力信号の寸法−形状イメージを生成するための寸法−形状イメージ生成手段と、寸法−形状イメージから入力信号の特徴を抽出するための特徴抽出手段とを含む。
【0019】請求項12に記載の発明にかかる信号処理装置は、請求項11に記載の発明の構成に加えて、特徴抽出手段は、寸法−形状イメージに対して、各ウェーブレットフィルタのインパルス応答線に沿ってフーリエ変換を行なうことによりメリンイメージを生成するためのメリンイメージ生成手段を含む。
【0020】請求項13に記載の発明にかかる信号処理装置は、請求項12に記載の発明の構成に加えて、聴覚図形抽出手段は、ウェーブレットフィルタバンクの出力に含まれる周期性を検出することにより、ウェーブレットフィルタバンクの各チャンネルの出力に対して時間ストローブ積分を行ない安定化された聴覚イメージを生成するための時間ストローブ積分手段と、時間ストローブ積分手段の検出した周期性に基づいて、時間ストローブ積分によって得られた安定化聴覚イメージのうちの一周期を聴覚図形として抽出するための安定化聴覚イメージ抽出手段とを含む。
【0021】請求項14に記載の発明にかかる信号処理装置は、請求項13に記載の発明の構成に加えて、安定化聴覚イメージ抽出手段は、安定化聴覚イメージの一番目の周期を聴覚図形として抽出するための手段を含む。
【0022】請求項15に記載の発明にかかる信号処理装置は、請求項13に記載の発明の構成に加えて、安定化聴覚イメージ抽出手段は、安定化聴覚イメージの、二番目の周期を聴覚図形として抽出するための手段を含む。
【0023】請求項16に記載の発明にかかる信号処理装置は、請求項11に記載の発明の構成に加えてさらに、ウェーブレットフィルタバンクの出力を半波整流して聴覚図形抽出手段に与えるための手段を含む。
【0024】
【発明の実施の形態】[発明の背景をなす基本的事項]まず、本発明、特に以下に述べる実施の形態の課題を明確化するために、メリン変換と音響物理とについて述べる。
1.メリン変換メリン(Mellin)変換は、フーリエ変換と同様な積分変換の一種類であり、発明の実施の形態の説明の最後に添付した付録Aに示される式で定義される(森口・宇田川・一松著「数学公式II」岩波書店、1957年刊行、Titchmarsh,"Introduction to the Theory of Fourier Integrals," Oxford U.P., London, 2nd ed.)。付録Aの式(A2)によっても表わされるように、分析する信号の応答が相似形のまま時間的に拡大・縮小しても、メリン変換して得た分布の絶対値は定数倍以外不変となることがメリン変換の重要な特徴である。本願発明では、メリン変換のこの特徴を利用して、たとえば声道の大きさの相違に由来するスペクトル構造の相違およびピッチ周期の相違にもかかわらず、音声認識が行えるような、適切な信号処理を行なう。
2.音響管の物理無損失な音響管を考える。その音響管を伝搬する波の解は、その波を平面波で近似することによって得ることができる。均一の口径の音響管またはホーン形の音響管の解析解は、初頭的な物理の教科書にも書いてあるほどよく知られている。また、音響管の断面積が変化する場合でも、断面積関数を多数の微小な円筒で近似することによって、その音響管内を伝搬する波を数値的に解くことができる。声道をそのような方法で近似して解くことは、音声生成モデルの教科書の教えるところである(例えば、中田著「音声」コロナ社、改定版、1995)。
【0025】さて、その音響管の一端をインパルスで駆動した場合の、他端でのインパルス応答を考える。ここで重要な特徴は、その音響管の大きさを比例的に拡大・縮小した場合、そのインパルス応答波形が時間軸上で拡大・縮小されることである。つまり物理的な音響管の大きさは、そのインパルス応答と直接的に関係している。
【0026】大人の発声したある音韻と子供の発声した同じ音韻とは、それぞれの音響管の大きさが全く違うのにもかかわらず聞き手には同じように聞こえる。音声学の教科書または英語の教科書には、発声される母音(vowel)とそれに対応した調音位置(place of articulation)との対応図が記載されている。しかしそうした対応図には、その縮尺のようなものは記載されていない。そうした対応図は大人でも子供でも、かれらの調音器官の大きさの相違にかかわらず共用できる。つまり、調音器官の大きさの相違にかかわらず、相似的に調音のかまえを似たものにすれば、同じ音韻が発声できる。いいかえれば、声道の物理的な大きさが異なっても、声道断面積関数の相似性を保つことにより同じ音韻が発声できる。
【0027】物理的に声道断面積関数が相似で、その全長が異なる場合、声道のインパルス応答は、時間的に拡大・縮小したものになる。そのため、大人の声に対して子供の声は、声道のインパルス応答が時間軸上で縮小された音響管を音声パルスで駆動したことに相当する。もちろん個人差があるため、以上は理想的な話ではあるが、上記したようなインパルス応答の時間軸上での縮小は、物理的考察に立った子供の音声の特徴の良い第一次近似であるはずである。こうした類推は、音声において妥当であるという理由ばかりでなく、大きさの異なるバイオリン、チェロおよびコントラバスが同じバイオリン族の楽器として類似の音を発生すること、および同じ形状で異なる大きさのエンジンが類似の音を発生することなど、音声以外の事象の観察からも正当化できる。
3.課題の設定もし、上記のような声道のインパルス応答の時間軸上での拡大・縮小に対し不変な内部表現を直接作り出すことができれば、スペクトル分析を行なって抽出の難しい高次ホルマントを利用することにより拡大・縮小の計算を行なって正規化しなくてもよくなり、大人でも子供でも同じ音韻は同じものとして処理することができる。このように時間軸上での波形の拡大および縮小に対して不変な性質を有するという特徴は、上記で示したメリン変換を通して得ることができるメリン表現の特徴に他ならない。すなわち、メリン変換およびメリン表現が、今求められている音声などの信号の解析において従来のスペクトル表現に由来する分析とは本質的に異なる重要性を持つことが分かる。
【0028】ところが、従来はメリン変換は信号処理ではあまり実用的には使用されてこなかった。その理由は、以下で述べるように、メリン変換は「シフト変動」(shift varying)であり、その振幅が「シフト不変」(sihft invariant)なフーリエ変換などに比べて扱いづらかったためである。付録Aの式(A1)からも分かるように、メリン変換では積分の起点(以下ではこれを「解析の原点」と呼ぶ。)が確定している必要があり、この解析の原点が移動するとその結果が異なってくる。これが「シフト変動」という性質である。一方フーリエ変換では(−∞,∞)の範囲で積分をすればよいので、このような積分範囲の移動という問題がない。これが「シフト不変」という性質である。
【0029】メリン変換についての研究に関しては、Umeshらがメリン変換の性質から周波数軸だけの変形を提案している(Umesh, Cohen, and Nelson, "Frequency-warping and speaker-normalization," IEEE Int. Conf. Acoust., Speech Signal Processing (ICASSP-97),1997; Umesh, Cohen, and Nelson,"Improved scale-cepstral analysis in speech," IEEE Int. Conf. Acoust., Speech Signal Processing (ICASSP-98),1998)、またAltesはフーリエ変換とメリン変換との組み合わせを提案している(Altes, "The Fourier-Mellin transform and mammalianhearing," J. Acoust. Soc. Am., 63,pp.174-183, 1978)、またメリン変換の音声認識への応用(Chen, Xu, and Huang, "A novel robust feature of speechsignal based on the Mellin transform for speaker-independent speech recognition," ICASSP ユ98,1998)も提案されている。
【0030】しかしながら、これらはいずれも周波数振幅情報を用いた周波数軸方向へのメリン変換であり、位相情報すなわち時間的な情報の考察がない。したがってこれら論文はいずれも「シフト変動性」を克服するための解析の原点の特定の問題には触れておらず、音に対する安定な時間的な微細構造を保持した表現を求めていない。音の音色の情報は、主にこの微細時間構造に存在すると考えられるので、この情報を保持したまま、物理的な音源寸法を正規化する手法が望まれる。
【0031】現状の音声認識装置等の信号処理の限界を打開するためには、やはり音声や音響振動の本質に迫る優秀な機能を持つメリン変換を、その「シフト変動」であるという欠点を克服して利用することにより信号処理のための計算を正確に行なうことが必要である。本発明、特に以下に記載した実施の形態の方法および装置の目的は、時間的に安定な表現を導出することによりメリン変換を計算可能にしてメリン表現を得ることにある。
【0032】[本発明の原理]以下、本発明、特に以下に述べる発明の実施の形態の構成と動作との原理を明確にするため、発明の基本的思想について述べる。
1.発明の概要上記のメリン変換の「シフト変動」であるという欠点を克服するためには、どの時点においても安定な原点を持つ表現においてメリン変換を実行しなければならない。図1を参照して、本発明での解決法を実現するための一般的な装置は、入力信号1に対して、後述する安定化ウェーブレット変換処理を行なうための安定化ウェーブレット処理部2と、安定化ウェーブレット処理部2から出力される安定化ウェーブレット処理された入力信号に対してメリン変換を行なうためのメリン変換処理部3と、メリン変換処理部3の出力に対してたとえば音声認識、音声の符号化などの信号処理を行なって結果5を出力するための信号処理部4とを含む。安定化ウェーブレット処理部2で行なわれる安定化ウェーブレット変換処理は、入力信号をウェーブレットフィルタバンクを通して時間周波数分析を行なうとともに、解析の原点を定める。安定化ウェーブレット処理部2によって解析の原点を定めることにより、安定化ウェーブレット処理部2の出力に対してメリン変換処理部3でメリン変換を行なうことが可能になる。
【0033】この装置では、入力信号1は、安定化ウェーブレット処理部2によって安定化ウェーブレット変換されて、さらにその出力に対して安定化ウェーブレット処理部2で定められた解析の原点を積分の起点としてメリン変換3が行なわれ、メリン表現が得られる。得られたメリン表現は、音源の寸法や波形の周期性の変動に関して正規化された音声信号の特徴表現である。この表現は、従来の音声分析で主として利用されていたスペクトルや線形予測係数と同様に、ベクトルとしても表すこともできる。したがって、このメリン表現を、従来から用いられてきたありとあらゆる信号処理に対する入力として与えることができ、それらに対応する結果5が得られる。たとえば音声認識装置においては、メリン表現された多数の特徴ベクトルを予め準備しておき、入力された特徴ベクトルとの間で従来と全く同様のマッチングを行なうことにより音声認識を行なうことが可能となり、そのためのハードウェアも従来と同様でよい。
2.ウェーブレット変換図2を参照して、本発明における安定化ウェーブレット変換を計算するための安定化ウェーブレット処理部2は、入力信号6(請求項1の入力信号1と同じであり、通常は周期性を有することが想定されている。)に対してウェーブレット変換を行なうためのフィルタバンクからなるウェーブレット変換処理部7と、ウェーブレット変換処理部7の出力の振幅を対数圧縮または指数圧縮により圧縮するための振幅圧縮部8と、振幅圧縮部8の出力を受けて、周期性を表わす事象を検出して検出出力を発生するための事象検出処理部9と、事象検出処理部9の出力に応答して、前述した通り解析の原点を定めるように振幅圧縮部8の出力波形の時間間隔を安定化させて安定化ウェーブレット変換出力11として出力するための時間間隔安定化処理部10とを含む。
【0034】ウェーブレット変換処理部7で行なわれるウェーブレット変換を定義する式は実施の形態の説明の最後に添付した付録Bの式B1〜B7に示す。ウェーブレット変換は、フーリエ変換における基底関数である正弦波に替えて、ウェーブレット核(「マザーウェーブレット」とも呼ばれる。)と呼ばれる、波形の小片を定める関数を用いる。そしてこのウェーブレット核を時間軸上で拡大、縮小した(互いに周波数が異なる)波形が、解析対象となる波形にどの程度の大きさで含まれるかを調べることにより、解析対象の波形を時間と周波数との二次元に分けて解析することができる。
【0035】フーリエ変換では正弦波を用いている。正弦波は時間軸上で(−∞,∞)の範囲に一様に広がった周期関数である。そのため、フーリエ変換では入力信号のある一部にどの周波数の信号がどの程度存在しているか、という局所的な情報を得ることはできない。それに対してウェーブレット変換では、どの位置に、どの周波数のウェーブレットが、どの程度の大きさで含まれているかという局所的な情報を知ることができる。このため、ウェーブレット変換によって入力信号を時間と周波数との二次元から解析できる。
【0036】またウェーブレット変換では、目的に応じてウェーブレット核を変え、応用ごとに適切な波形のウェーブレット核を用いることができることが知られている。たとえば、Daubechiesのウェーブレット、メキシカンハット、フレンチハット、Shannonのウェーブレット、Haarのウェーブレット、Gaborのウェーブレット、Meyerのウェーブレットなどが知られている。以下に述べる実施の形態では、特定のウェーブレットを用いているが、応用に応じて上記した、およびここにあげていない種々のウェーブレットを用いることが可能である。
【0037】多くの場合周期性を持つ(式B1)入力信号1は、ウェーブレット変換処理部7によりウェーブレット変換され解析される(Combes et al.(Eds.),"Wavelets", Springer-Verlag,Berlin,1989)。ウェーブレット核としては、例えば所定周波数で周波数変調され、ガンマ分布を包絡線として持つガンマチャープ関数(式B2)を選ぶことができる。このガンマチャープ関数は、メリン変換において、最小不確定性の意味で最適な関数であることが知られている(Irino and Patterson,"A time-domain, level-dependent auditory filter: The gammachirp,"J. Acoust. Soc. Am., 101,pp.412-419, 1997)。なお、ウェーブレット核は上記したガンマチャープ関数に限定されるわけではなく、既に述べたように解析においてどの特徴を重視するかに応じて適切な関数により定められる波形を用いることができる。
【0038】ウェーブレット核を時間軸上で伸縮したウェーブレットフィルタ(式B3)の組を用いることによりウェーブレット変換処理部7のフィルタバンクを実現できる。ここでは、最大周波数と帯域幅とが比例する定Q型で、対数周波数軸上で等間隔に配置したフィルタバンクの各フィルタと信号との間で畳み込み積分を行なう(式B4)。
【0039】仮に、外界の信号が、時間的に圧縮または伸長されても、ウェーブレット変換はその出力波形には歪みを与えない。単にその信号の出力がより高い、またはより低い最大周波数のフィルタの位置に移動するだけである。これは、ウェーブレットフィルタ自体が元のウェーブレット核関数を時間軸上で拡大・縮小したもので、いずれも同じフィルタ形状を有するからである。
【0040】得られた各フィルタ出力の振幅値に対しては、図2の振幅圧縮部8で対数圧縮(式B5)または指数圧縮(式B6)が行なわれる。この時、目的に応じ、波形の正負の部分の両方を残す場合と、半波整流して正部分のみを残す場合とのふた通りが考えられる。以下に示す各例では、半波整流した場合を示す。正負の両部分を残す場合も、後の処理は基本的の以下の説明と同じである。
3.メリン変換の前提と安定化ウェーブレット変換既に延べ、式A1からわかるように、メリン変換は必ず解析の原点を特定することが必要で、原点がずれると表現も変わってしまう「シフト変動(shift-varying)」な変換である。メリン変換がシフト変動である、という点が、シフト不変なフーリエ変換に対して不利な点で、これがメリン変換がいままであまり用いられてこなかった理由でもある。しかし、上記のような、物理的大きさの変動に対して耐性があるという音声信号処理にとって魅力ある性質をもっている。したがって、解析の原点を確実かつ安定に決定できれば、シフト変動であるというメリン変換の欠点を克服でき、メリン変換を音声信号処理に有効に利用することが可能となる。本発明はそのための一つの解決策を与える。
【0041】信号は常に時間的に流れているので、ウェーブレット変換を行なった後の「ウェーブレットスペクトル」も時間的に流れる「ランニングスペクトル」に相当する。そのためウェーブレットスペクトルのみからでは解析の原点を決められない。この解析の原点を事象検出処理部9で決定する。以下、事象検出処理部9で行なう処理の詳細について説明する。
【0042】周期信号(式B2)や疑似周期信号の場合、各ウェーブレットフィルタ出力は、1周期に1つの最大値を持つ。本願発明は、音源情報はそうした最大値を固定して見た時の波形として表現されている点に着目する。そのために本願発明では、フィルタ出力の周期性を事象検出処理部9によって検出し、そこを原点にしてメリン変換を取ることにより振幅圧縮部8の出力信号の時間間隔を安定化させる。
【0043】最大値検出の方法については既に報告がされている(Irino and Patterson, "Temporal asymmerty in the auditory sytem, "J.Acoust. Soc. Am., 99, pp.2316-2331, 1996; Patterson and Irino," Modeling temporal asymmerty in theauditory sytem," J.Acoust. Soc. Am., 104, pp.2967-2979, 1998 )。それ以外にもピッチ周期検出に関しては過去から多くの報告がある(たとえばHess, "Pitch Determination of Speech Signals," Springer-Verlag, NY, 1983)。
【0044】本願発明では、各チャンネルにおける最大値の時点を、図2の時間間隔安定化処理部10で行なわれる時間積分の開始時点とする。時間間隔安定化処理部10が行なう時間積分では、ある開始時点から次の開始時点までを1周期として各ウェーブレットフィルタ出力をコピーして、イメージバッファの対応するチャンネルの既に存在する1周期分の表現に一点一点加えあわせることによって新たな表現を生成する。この操作をストローブ時間積分(Patterson, Allerhand and Giguere, "Time-domain modelling of peripheral auditory processing: a modular architecture and a software platform", J.Acoust. Soc. Am., 98,1890-1894, 1995; Patterson and Holdsworth, "Apparatus and methods for the generation of stabilised images from waveforms," United Kingdom Patent: 2232801 (1993), United States Patent: 5,422,977 (1995), European Patent: 0473664 (1995))と呼び、ここまでの操作全体を安定化ウェーブレット変換と呼ぶ。
【0045】安定化ウェーブレット変換によって、次周期の各ウェーブレット出力、次々周期のウェーブレット出力、さらに先の周期のウェーブレットフィルタ出力を構成する各点の値はイメージバッファ内の同じ位置に加算されるため、信号の流れが止まり安定な表現となる。また、この表現では、横軸として一つ前のピークからの時間間隔がとられるため、原点は常に零である。
【0046】周期信号(式B2)や疑似周期信号の安定化ウェーブレット変換(式B7)は、その微細構造に音源情報を保存していて周期的に繰返したパターンになる。ここで、安定化ウェーブレット変換により得られる安定化された時間間隔パターンの1周期分を音源情報図形(式B8)または聴覚図形と呼ぶことにする。この音源情報図形は安定で、開始点が常に決まっているので、シフト変動性の問題を回避して、この上でメリン変換を取ることができる。すなわち、安定化ウェーブレット変換は、メリン変換が音源情報を解析するのに必要な条件を準備したことになる。
4.メリン変換の計算メリン変換は、量子力学で使われるオペレータで表現できることが知られている(Cohen,"The scale transform," IEEE Trans. Acoust. Speech and Signal Processing, 1993; Irino, "An optimal auditory filter," IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 1995; Irino, "A'gammachirp' function as as optimal auditory filter with the Mellin transform," IEEE Int. Conf. Acoust., Speech Signal Processing (ICASSP-96), 1996)。その場合、メリン変換は、Gaborが用いた時間オペレータと周波数オペレータ(Gabor,"Theory of communication," J. IEE (London),93,42-457,1946)との積をとった形式になっている。すなわち、時間と周波数との積がメリン変換にとって重要な概念である。メリン変換を定義する式を、実施の形態の最後に添付した付録Bの式B8〜B12に示す。
【0047】本発明では、原理的には、音源情報図形(式B8)に対して、時間と周波数との積が一定となる等値線(式B9)に沿ってメリン変換(式B10)を行なう。ここで、メリン変換のパラメータPは複素数(式B11)なので、式B10は式B12のように書き換えることができる。これにより、音源情報図形のメリン変換として、横軸を時間間隔と周波数との積、縦軸をメリン変換核の複素変数とした2次元表現を得ることができる。この表現をメリンイメージと呼ぶことにする。
【0048】この表現の上では、音源情報は正規化されていて音源の周期性や物理的大きさの拡大・縮小に対して不変の表現になっている。したがって、従来から提案されている信号処理手法にしたがった信号処理部4に対してこの正規化音源情報を与えることにより、より優れた信号処理が実現できる。
【0049】図3のフローチャートに以上の処理の流れを示す。メリン変換の計算に関しては、さらに詳しく第1の実施の形態において述べる。図3を参照して、波形入力を受けると、これらをウェーブレット変換のフィルタバンクを通すことによりウェーブレット変換の計算が行なわれる。
【0050】ウェーブレット変換の出力から信号周期情報を抽出し、この情報をもとにウェーブレット変換の出力を安定化させ、一つ前のピークからの時間間隔−対数周波数表現の計算を行なうことにより、音源情報図形を得る。
【0051】こうして得られた音源情報図形上の、時間間隔と周波数との積が一定となる線に沿ってメリン変換の計算を行なう。こうして、音源の周期性および物理的大きさの拡大または縮小に対して不変な表現であるメリンイメージが得られる。
5.メリンイメージの時系列前節では、ある一時点の安定化ウェーブレット変換からメリンイメージを計算する方法を示した。信号は時々刻々変化しており、それに対応した安定化ウェーブレット変換から得た音源情報図形も変化する。そこで、ある間隔ごとに音源情報図形を抽出し、それをもとにそれぞれメリンイメージを計算する。このメリンイメージの各々から1つの特徴ベクトルを抽出することができる。すると、スペクトログラムのように、横軸に時間をとり、縦軸にメリンイメージベクトルの軸をとって、メリンイメージベクトルを並べた表現を作ることができる。これは、スペクトログラムとは全く異なるものではあるが、形式的には同じとなるので、従来スペクトログラムを用いてきた信号処理手法にそのまま入力でき、様々な分野に容易に応用することができる。
【0052】[作用・効果]音源の物理的な大きさに依存して、解析する波形が時間的に拡大・縮小しても、メリンイメージのスケール分布は不変である。これは、フーリエスペクトルにはない性質である。また、同時にフーリエスペクルとは表現は異なるものの、メリンイメージベクトルによる表現は、解析の対象となる波形の拡大・縮小以外の違いは明確に表わすことができる。音声の場合は、異なる声道長の発声もメリンイメージベクトルによる表現では同様に扱うことができる。したがって逆にメリンイメージベクトルによる表現を用いて音韻の違いだけを強調することができる。たとえば、メリンイメージベクトルによる表現を用いれば、大人のデータで学習した音声認識装置をそのまま子供の認識に使うことができる可能性がある。これ以外にもメリンイメージベクトルを用いた表現を適用することができる局面は多くあり、音声認識装置等の性能向上が期待できる。さらに、メリンイメージベクトルによる表現を従来より用いられているスペクトル分布と組み合わせて用いることにより、従来の性能を超えた音声信号処理を実現できる。また、対象となる波形は、時系列データであれば何でもかまわないので、音声や音楽といった音響信号ばかりでなく、機械的振動、生体信号、および時系列的な計測データのいずれにも本発明にかかる手法を応用することが可能である。
【0053】以上において、本願発明の実施の形態の基本的手法と、その背景とについて説明した。以下、本願発明の実施の形態について詳細に説明する。
第1の実施の形態図4を参照して、本発明の第1の実施の形態の音声認識装置は、図1に示すものと同様、安定化ウェーブレット処理部2と、メリン変換処理部3と、信号処理部4とを含む。
【0054】安定化ウェーブレット処理部2は、音声信号12を入力として受け、音声信号12に対してウェーブレット変換を行なって周波数分析を行なうための聴覚フィルタバンク13と、聴覚フィルタバンク13の出力に対して、聴神経での神経活性度に類似した出力を得るような変換を行なうための聴神経発火パターン変換部14と、時間積分を制御するために、ある近傍での最大値を検出するための事象検出(ピッチ検出)回路15と、事象検出(ピッチ検出)回路15の出力を合図(ストローブ)として、聴神経発火パターン変換部14の出力する現在の一定区間を取出して前述した時間積分を行なって安定化聴覚イメージを生成し出力するための安定化聴覚イメージ処理部16とを含む。これら各構成要素については後に詳述する。
【0055】メリン変換処理部3は、安定化聴覚イメージ処理部16の出力する安定化聴覚イメージを変形し、新しい表現である寸法−形状イメージを出力するための寸法−形状イメージ処理部17と、寸法−形状イメージ処理部17の出力する寸法−形状イメージからメリンイメージを計算し、メリンイメージベクトルに基づく表現として出力するためのメリンイメージ処理部18とを含む。
【0056】信号処理部4は、メリンイメージ処理部18の出力するメリンイメージベクトルに基づく表現を、予め準備されたテンプレートとマッチングして音声認識し音声認識結果20を出力するための音声認識回路19を含む。
【0057】図4に示す装置において、入力される音声信号12は、メリン変換処理部3によって安定化聴覚イメージ(Stabilized Auditory Image, SAI)に変換される。この安定化聴覚イメージは、安定化ウェーブレット変換2で得られる表現の聴覚版である。安定化聴覚イメージは、寸法−形状イメージ処理部17によって寸法−形状イメージ17に変換され、さらにメリンイメージ処理部18によってメリンイメージ18に変換される。この処理は、メリン変換3に相当する。なお、以下に述べる聴覚イメージモデルをもとにした安定化ウェーブレット−メリン変換を示す式等については実施の形態の説明の最後に添付した付録Cに記載してある。
1.安定化聴覚イメージの構成この節では、安定化ウェーブレット処理部2の各構成要素の動作について述べる。入力される音声信号12は、聴覚フィルタバンク13で周波数分析される。この実施の形態の装置では、聴覚フィルタバンク13の各々の聴覚フィルタは、ガンマ分布関数の包絡線で周波数変調された搬送波を持つガンマチャープ(式C1)で近似できる。また、聴覚フィルタバンク13はおおよそ500Hz以上では最大周波数と帯域幅が比例する定Q型のフィルタとなっている(式C2)。すなわち、聴覚フィルタバンクはガンマチャープ(式C1)を核関数としたウェーブレット変換(式C3、式C4)になっていて、この関数のパラメータは人間の聴覚フィルタを模擬するように設定できる(Irino and Patterson,"A time-domain, level-dependent auditory filter: The gammachirp," J. Acoust. Soc. Am., 101,pp.412-419, 1997)。聴覚フィルタを並べた聴覚フィルタバンク13はIIRフィルタで構成できる(たとえば特開平11−24696号公報、特開平11−119797号公報を参照)。
【0058】聴覚フィルタバンク出力は、聴神経発火パターン変換部14によって聴神経発火パターン(Neural Activity Pattern, NAP)に変換される。具体的には、聴覚フィルタバンク13の出力に対して半波整流が行なわれて、振幅が対数圧縮(式C5)または指数圧縮(式C6)され、さらに適応処理により信号の立ち上がり部分が強調されて、聴神経での神経活性度に類似した出力を得る。
【0059】事象検出(ピッチ検出)回路15は、各チャンネルの活性度を監視して、ある近傍での最大値を検出して、時間積分を制御する。事象検出(ピッチ検出)回路15での処理は例えば以下のようにして行なわれる。まず、活性度を平滑化して包絡線を計算する。得られた包絡線の微分を計算して、その値(包絡線の勾配)が正から負に変化する時点に近い、活性度の一番大きいピーク時点を近傍最大値時点とする(上記Irino and Patterson, 1996)。この近傍最大値は、音声の有声音および定常的な楽器音のように周期性や疑似周期性を持った信号では、定常的に発生する。この近傍最大値を合図(ストローブ)として、神経発火パターンの現在の一定区間を取り出して、聴覚イメージ16のバッファの対応するチャンネルに近傍最大値の時点をそろえて加えることを各区間ごとに繰返し行なうことにより時間積分が行なわれる。こうした積分をストローブ時間積分(Strobed Temporal Integration, STI)と呼ぶ。
【0060】STIの処理は、神経発火パターン(NAP)の時間軸を、直前の近傍最大値を基準とする時間間隔軸に変換する役割を果たしている(式C7)。ストローブ時間積分を聴覚フィルタバンク13の全てのチャンネルについて行なえば、聴覚フィルタバンク13での縦軸(対数周波数軸)の値を保ったまま、安定化された聴覚イメージ16(式C7)が得られる。この安定化された聴覚イメージは、半減期約30msで全体が減衰するようにされており、入力信号がなくなった時点で自然にイメージも消失する。
【0061】安定化聴覚イメージを時間方向に積分することにより、スペクトル的な周辺分布が得られる。このスペクトル的な周辺分布は従来からのスペクトログラムのスペクトルベクトルと類似しているので、聴覚的スペクトログラムを構成でき音声認識にも応用できる(たとえば、上記、Patterson et. al. 1995を参照)。
2.寸法−形状イメージの構成この節では、寸法−形状イメージ処理部17で行なわれる処理の詳細について述べる。安定化聴覚イメージ処理部16から出力される安定化された聴覚イメージは横軸に線形の時間間隔軸、縦軸に対数周波数軸を持った表現になっている。寸法−形状イメージ処理部17では、この表現を変形することによって、新たな表現である寸法−形状イメージを求める。これは次節のメリンイメージ18を容易に計算できるようにする重要な段階である。この処理を行なう寸法−形状イメージ処理部17の詳細を図5のブロック図に示す。また、以下の処理の流れを図6のフローチャートに示す。以下の説明では随時図5および図6の記載を参照する。
【0062】図5を参照して、寸法−形状イメージ処理部17は、安定化聴覚イメージ21に含まれるフィルタ遅れを補正するためのフィルタ遅れ補正部22と、聴覚イメージを全てのチャンネルについて垂直方向に加え合わせて時間間隔軸上の総計活性度を計算するための活性度計算部23と、活性度計算部23によって計算された活性度の大きさに基づいて、聴覚イメージの周期性を検出するための周期性検出部24と、周期性検出部24によって検出された周期性を用い、聴覚イメージの中から後述する聴覚図形を抽出するための聴覚図形抽出部25と、聴覚図形抽出部25によって抽出された聴覚図形の横軸を線形の時間間隔軸から対数の時間間隔軸に変換するための対数時間間隔表現への変換部26と、対数時間間隔表現への変換部26によって横軸が変換された聴覚図形において観察される、直線のインパルス応答線が縦軸と平行な向きとなるように各チャンネルごとに横軸を移動させる処理を行なうインパルス応答分補正部27とを含む。
【0063】聴覚イメージモデル(Auditory Image Model, AIM)
(上記、Patterson et. al. 1995)にしたがって求めた、安定化された聴覚イメージの例としての安定化聴覚イメージ21を図7に示す。図7は、10ms間隔、すなわち周波数100Hz、で発生させたクリック系列音に対する聴覚イメージを2周期強表示している。縦軸は、フィルタの各チャンネルをそれらの最大周波数Hzで表しており、疑似対数周波数軸になっている。横軸は、ストローブ時間積分を開始した近傍最大値の時点からの時間間隔を表わし、ミリ秒単位で表されている。ここでは、時間間隔は線形の軸である。
【0064】図7を参照して、3つある垂直の線に沿った活性度が高い所は、原波形の周期と同じ周期で配置されている。横軸の0msの所は、ストローブ時間積分で近傍最大値の活性度が転写される場所である。この近傍最大値は、周期信号の場合は各々の周期を特定し、また、非周期信号の場合は特徴の開始点を特定する。このようにしてストローブ時間積分は、メリン変換の解析の開始時点、または零点を特定する。
【0065】メリン変換においては、初段の聴覚フィルタバンク13を構成する各々のウェーブレットフィルタが合理的な基準で揃っていること、たとえば、聴覚フィルタの包絡線の立ち上がり時点(式C1での時間t=0の時点)が全てのチャンネルで揃っていることが理論的には望ましい。ところが、ストローブ時間積分では、聴覚フィルタの包絡線の立ち上がり自体を検出できるわけではなく、応答の最大値でストローブをかけるので、包絡線の立ち上がりに対して遅れ時間を生じる。このずれは、図7の垂直の活性度の各密集位置の左側に存在している曲線上の活性度によって見ることができる。このフィルタ分の時間遅れを補正することが処理を分かりやすくする上で望ましい。
【0066】そのための補正を行なうのがフィルタ遅れ補正部22である。この補正を行なうためには、単純に聴覚フィルタの最大周波数の逆数の周期分、各々のチャンネルの活性度を右に移動させてやれば良い(式C8)。図7に対して補正を施した結果の聴覚イメージを図8に示す。これによって、垂直に配置された所は、メリン変換の開始点の良い近似となる。なお、この補正を行なわなくてもメリン変換の出力にそれほど影響がないことが分かっていることについては後述するとおりである。
【0067】前述のように安定化聴覚イメージ処理部16で行なわれるストローブ時間積分(STI)は、周期的な音によって聴神経発火パターン(NAP)にくりかえし生じる時間間隔パターンを安定させて、図7の時間間隔で0、10、20の所で示されるように聴覚イメージ(SAI)の中で垂直の方向に活性度が集中する所を生じさせる。図7を参照して明らかなように、この垂直活性度線はもとの信号の周期と同じ間隔で、聴覚イメージをいくつかの類似した区間に分割している。この一つの区間を、音源信号に対応する聴覚図形(AuditoryFigure, AF) (式C9)と呼ぶことにする。
【0068】活性度計算部23は、この聴覚イメージを各々のチャンネル全てについて垂直方向に加え合わせて、時間間隔軸上の分布の総計活性度を計算する。周期性検出部24は、この活性度の大きさによりパターンの周期性を決定できる。この周期性情報を用いることにより、聴覚図形抽出部25はフィルタ分の補正を行なった聴覚イメージ(図8、フィルタ遅れ22で補正した結果に相当)中から聴覚イメージの1周期分に相当する聴覚図形を抽出できる。
【0069】聴覚図形抽出部25によって抽出された聴覚図形は横軸として線形の時間間隔軸を有する。この横軸の時間間隔を対数変換すると後の処理を容易に行なうことができる。対数時間間隔表現への変換部26がこの対数変換を行なう。すなわち対数時間間隔表現への変換部26は、聴覚図形の横軸を対数時間間隔軸に変換する(式C10)。この変換により、図9に示すように聴覚フィルタのインパルス応答に相当する聴覚図形中の曲線群を、500Hz以上ではほぼ平行で規則的に並んだ直線群に変換することができる。図9は、図8内の最も左側の聴覚図形を対数時間間隔軸にスプライン補間を用いて変換した図である。
【0070】図9を参照して、この直線のインパルス応答線はいずれも負の勾配を持ち、聴覚図形の対角線と同様に傾いている。この表現は、横軸に対数時間間隔を、縦軸に対数周波数を、それぞれ持っており、メリン変換を容易に計算できるような形になっている。
【0071】メリン変換の計算と音源情報を示す表現をわかりやすくするために、図9の対数時間間隔聴覚図形(式C10)のインパルス応答線が縦軸と平行な線(横軸に対して垂直となるので、以下これを「垂線」と呼ぶこととする。)になるように補正して図10を得る(式C11)。この補正は対数時間間隔表現への変換部26によって行なわれるものであり、各チャンネルごとに、最大周波数の対数に比例した分だけ右方向に対数時間間隔軸を移動することに相当する。図10での新しい横軸は、時間間隔とチャンネル最大周波数との積h(式B9)の対数で表わされている。縦軸は従来と同様対数軸表示の最大周波数である。
【0072】図10を参照して、一番左の点線の垂線は、時間間隔とチャンネル最大周波数との積hが1となる聴覚図形内の位置を示している。また、図10ではhの値が1〜5に対応する垂線が破線で引いてあるが、そのいずれの上にも活性度が集中している。すなわち、図1010に示される表現においては全てのウェーブレットフィルタのインパルス応答は、hの値が整数となる垂線上に集中しており、したがってこの表現がウェーブレットフィルタの拡大・縮小に依存しないことがわかる。これを容易に理解できるようにするため、横軸をhの線形軸に直すと図11が得られる。
【0073】なお、図11に示される例では、対数変換を用いないで直接図8の聴覚イメージから活性度を求めたため、h=0に対応する垂線上の活性度も示されている。この処理を行なうためには、図8に示される聴覚イメージにおいて、各チャンネルの最大周波数に比例したサンプリング周波数でそれぞれの活性度の再サンプリングを行ない、そのサンプル点をそのまま2次元上に並べればよいだけである。
【0074】前節で述べたとおり、この表現においては、ウェーブレットフィルタはどのチャンネルでも同じ表現になっているので、音源が相似でその結果波形がウェーブレット的に拡大・縮小されている場合には、常に同じ形状の表現が得られる。波形の拡大・縮小は、この表現においては垂直の周波数軸の方向への、活性度の分布の単なる平行移動という形で表される。したがって、音源の大きさと形状との双方に関する情報を表現しているという意味で、この表現を寸法−形状イメージ(Size-Shape Image, SSI)と呼ぶことにする。後で述べるように、この表現は母音の聴覚図形を表現する時に特に有効である。以上の処理の流れが図6のフローチャートに示されたものである。
【0075】図10・図11の寸法−形状イメージにおける聴覚図形は、図7の聴覚イメージの一番左の聴覚図形から上記の一連の手続きによって求められたものである。しかし、必ずしも一番左の聴覚図形でなくてもかまわず、2番目の聴覚図形でも良いし、どの信号のどの1周期分を表現する聴覚図形(式C9)でも手続きを進める上では問題ない。
【0076】ただし、この例のような単純なクリック音系列の場合にはどこを選んでも同じであるが、音声や楽音等に雑音が付加された場合にはむしろ2番目の聴覚図形を選んだ方が信号のみの成分を抽出するには有利である。これは、雑音と信号の成分の両方が1番目の聴覚図形に集中するためである。
【0077】寸法−形状イメージの横軸のh軸に沿った周辺分布は、各チャンネルで形状が同じウェーブレットフィルタのインパルス応答が主になるので、インパルス周辺分布(ImpulseProfile)と呼ぶことにする(式C12)。これに対して縦軸に沿ったものは、聴覚スペクトル周辺分布(Spectral Profile)である(式C13)。インパルス周辺分布は、従来からのスペクトルベクトルとは異なる音源情報を持っている。各周辺分布はある一時点における寸法−形状イメージを代表するベクトルであるので、たとえば一定間隔ごと(たとえば、5〜30ms程度ごと)にこれらのベクトルを計算して時系列としてスペクトログラムの形式に並べれば、音声認識に応用できるようになる。この表現は、寸法−形状イメージスペクトログラムと呼ぶことができよう。
3.メリンイメージの構成この節では、寸法−形状イメージ処理部17から出力された寸法−形状イメージから、メリンイメージ処理部18がメリンイメージを求める理由と処理過程を述べ、このメリンイメージが図1のメリン変換処理部3から出力されるメリンイメージに相当することを示す。
【0078】寸法−形状イメージ処理部17の出力する寸法−形状イメージは、聴覚ウェーブレットフィルタの応答が分布のほとんどを占めている。クリック系列音以外が入力された時にこれらのインパルス応答線の右側に出力されたであろう音源情報は相対的に小さくしか表現されない。我々が抽出したいのは音源情報自体であるので、何らかの手段で聴覚フィルタ情報を何らかの逆畳み込み法で取り除きたい。このために、この寸法−形状イメージの各hごとに垂直ベクトルをフーリエ変換してその空間周波数成分の振幅で各ベクトルを表すことを考える。寸法−形状イメージ内の聴覚ウェーブレットフィルタ情報は図10からもわかるように、各チャンネルであまり変化しないことから、空間周波数が極めて低い所にその情報が集中するであろう。これに対し、クリック系統音以外の音源からの音情報は、ウェーブレットフィルタを強制的に励振して色々な周波数に別々のリンギングを起こすので、空間周波数が比較的高い所に出てくるであろう。これにより、音源情報をウェーブレットフィルタ自体の情報から分離することができる。
【0079】この計算は、インパルス周辺分布の式C12の中にある荷重関数W(αfb,h)を式C14で示される対数周波数上で定義される荷重付き複素正弦波に置き換えることによって実現できる。このとき空間角周波数c/2πをパラメータとして導入してW(αfb,h,c)とし、式C12に代入することによって、2次元表現の式C15を得ることができる。式C15から得られる出力MI(h,c)をメリンイメージ(Mellin Image)18と呼ぶことにする。この時横軸は、寸法−形状イメージと同じhで、縦軸はフーリエ変換の空間周波数c/2πである。寸法−形状イメージにおける垂直方向への平行移動は、フーリエ変換を通すと単なる位相の変化となって振幅情報は不変である。また、寸法−形状イメージにおいては、すでに音源の周期性は取り除かれていて、h軸方向は大きさ不変である。したがって、このメリンイメージによって表現された聴覚図形は、音源の大きさや音源励振の周期性に依存しない音源の形状情報を表現していることになる。
【0080】クリック系列音の寸法−形状イメージの図1111から求めたメリンイメージを図12に示す。図12から分かるように、このクリック系列音のメリンイメージにおいては、非常に低い空間周波数にのみ活性度が集中していて、高い周波数の所にはほとんど活性度がない。これは、上述のとおりクリック音が寸法−形状イメージの中では垂線上に低周波数のチャンネル以外ほぼ平坦な活性度しか生じさせないことを反映している。そもそもウェーブレットフィルタのインパルス応答をどのチャンネルでも同じ形となるように正規化したのが寸法−形状イメージであるので、理論的には、単一のクリックのみが入力された場合、空間周波数が零の所にのみ振幅値が存在する。
4.メリンイメージとメリン変換の対応づけ減衰振動波や母音の解析の例に移る前に、メリンイメージ処理部18の出力として得られる、本例での周波数領域での積分で表されるメリンイメージ(式C15)と、基本的な説明として述べた時間間隔領域での積分で表されるメリン変換処理部3から出力されるメリンイメージ(式B10)との関係を考える。時間間隔と最大周波数との積が一定という基本的な制約条件(式B9)の対数をとると式C16となり、その微分から式C17が得られる。式C15にこの関係を代入して式C10、式C11を利用すると式C18が得られる。これは、定数以外、式B10と同様な時間間隔領域での積分の式になっている。この事実は、メリンイメージ処理部18の出力として得られる、本例での周波数領域での積分で表されるメリンイメージ(式C15)と、基本的な説明として述べた時間間隔領域での積分で表されるメリン変換処理部3から出力されるメリンイメージ(式B10)とが同じであることを示している。
5.減衰振動波の聴覚イメージ・寸法−形状イメージ・メリンイメージ繰返しのある指数減衰正弦波の聴覚イメージを図13に示す。この指数減衰正弦波は、2msの半減期の指数包絡線を持ち、2kHzの周波数の正弦波の搬送波を持ち、繰返し周波数は100Hzである。このパラメータを持つ減衰正弦波は単一ホルマントの母音に類似している。繰返される立ち上がりの部分は、クリックに似た応答を周波数領域で2kHzから離れた所で垂線上の活性度として生じさせていて、2つの垂直活性度の間隔は信号の周期性を示している。図13の聴覚イメージからは、2kHzの領域では、減衰包絡を持つ共振によって、応答が強調されて伸びていることがわかる。これは、音声を含む自然界の音では共通に見られる特徴である。
【0081】この減衰正弦波の聴覚図形の寸法−形状イメージを図14に示す。2kHzから離れた所の活性度は図11のクリック系列音の場合とあまり変わらない。しかし、2kHz周辺のチャンネルでは、活性度は高いhの値まで伸びており、hの値が増えるにつれて次第に隣接活性度の列の傾きが増していることがわかる。このことは、2kHzのチャンネル以外のチャンネルでの瞬時周波数がウェーブレットフィルタの周波数すなわち各チャンネルのフィルタの搬送波周波数になっているわけでないことを示している。
【0082】この減衰正弦波のメリンイメージを図15に示す。立ち上がりの部分はクリック的なのでクリック系列音の場合(図11)と同様に空間周波数が非常に低い所に活性度が集中する。寸法−形状イメージの2kHz領域の共振に関係する活性度は、メリンイメージ上ではさらに垂直の帯状の活性領域を増やしていて、hが大きい部分で広い空間周波数の応答があることを示している。帯状活性領域の幅はhが大きくなるにつれ広くなり、これは、微細構造において観測される隣接する活性度の間の傾きがhの増大につれて大きくなっていることに対応している。これは単一共振または単一ホルマントの音源の特徴である。
【0083】減衰正弦波のメリンイメージの帯状構造のうちこれ以外のパラメータを持つものは、搬送波の周波数・包絡線の半減期・信号の繰返し周波数によってあまり変化しない。すなわち、上記した帯状構造の相違によって、寸法や繰返し周波数と独立に音源の形状の情報を取り出していることになる。垂直の帯状領域の強さや広がりは減衰正弦波の半減期の増加とともにゆるやかに増加する。次節では、例をさらに拡張し、声道断面積関数を用いて合成した母音について同様な解析を行なう。
6.4種類の母音'a'の聴覚イメージ・寸法−形状イメージ・メリンイメージ寸法−形状イメージとメリンイメージとの、音源の寸法に対する不変特性を示すために、4種類の合成母音の'a'を作成した。この合成母音はひとりの男性の声道断面積関数(Yang C-S and Kasuya, H.(1995)."Dimension differeces inthe vocal tract shapes measure from MR images across boy, female and male subjects," J. Acoust. Soc. Jpn (E), 16, pp.41-44.)を使って声道モデルから合成した母音である。この声道形状の特徴を寸法−形状イメージ・メリンイメージで抽出することを考える。
【0084】4種類のうちの1組2音声は、その声道断面積関数をそのまま用い、異なる2周波数100Hzと160Hzとの声帯パルスで励振したものである。これらの聴覚イメージを図16と図17に示す。声道の共振は、聴覚イメージ上での共振領域での応答の伸びとして見ることができる。これこそ音声学で呼ぶホルマントである。第2・第3ホルマントは、おおよそ1000Hzと2200Hzとに中心周波数を持っている。図中の垂直活性度の集中位置は図17の方が図16よりも互いに近くなっているが、声帯振動周波数によってはホルマントの位置は変化していないことが分かる。
【0085】2組目の2音声は、上記で用いた同じ声道断面積関数を相似に保ったまま、声道の長さを2/3に縮小して合成した場合である。声帯振動周波数は前と同様100Hzと160Hzである。これらの母音の聴覚イメージを図18と図19に示す。これらの図同士では第2・第3ホルマントは同じ位置にあるが、元の図16と図17の場合と比べると、3/2倍の周波数1500Hzと3300Hzとにそれぞれ移動している。これは、声道長が短くなったためである。垂直活性度の位置は、図16と図18、図17と図19でそれぞれ同じになっている。
【0086】これらの4母音の寸法−形状イメージを図2020〜図23に聴覚イメージの順番どおりに示す。これらの聴覚図形では、聴覚図形の左にある声帯パルスに対する応答と右側に伸びるホルマントとの区別が強調されている。元々の長い声道からの音声の情報のパターン(図20と図21)は基本的には同じになる。しかし、波形上の繰返し周波数によって決まる聴覚図形の右側の境界の位置だけは互いに異なり、高いピッチの図21の方が範囲が狭い。同様に、短い声道の母音(図22と図2323)の寸法−形状イメージでも両者のパターンは同じで、やはり右側の境界の位置だけが異なる。
【0087】さらに、長い声道と短い声道での寸法−形状イメージを比べると、下から4つのホルマントの応答パターンがそれぞれ非常に類似していることがわかる。異なるのは、長い声道の図20と図21とのパターンにくらべて短い声道の図22と図23とのパターンは周波数の上方に平行移動している点である。長い声道の図20R>0と図21の寸法−形状イメージで見える第5・第6ホルマントは、図22と図23とでは上限周波数6000Hzの上に同じ量だけ移動してしまって見えなくなっているが、図の周波数範囲を上方に広げれば見えるようになる。
【0088】これらの4母音のメリンイメージを図24〜図27に聴覚イメージや寸法−形状イメージの順番どおりに示す。メリンイメージの縦軸はメリン係数c/2πで、これは寸法−形状イメージの垂直方向に対する空間周波数に相当し、100Hzから6000Hzまでの範囲での1周期が空間周波数1に対応する。あるhの値に対するメリンイメージの値は、寸法−形状イメージの垂直方向に複素正弦波を用いて積分した後の絶対値で、空間周波数と活性度の分布とに最も合致するものが大きくなる。
【0089】図20〜図23を参照して、母音'a'の寸法−形状イメージのhの整数の5ぐらいまでは、声帯パルスの応答が4サイクル/周波数範囲以下の低い空間周波数に活性度が見られる。hが2以上になると、ホルマントが寸法−形状イメージ中の別々の帯に値が大きい所として現れる。hが2から8に増えると最も良く整合する周波数が6から18程度と、値が大きいところが出てくる。hが8以上では、寸法−形状イメージでみると一つしかホルマントがなく、それによってメリンイメージに幅広い帯状活性領域ができることがわかる。これが、これらの4母音'a'のメリンイメージを示す図20〜図2323での、共通特性でもっとも特徴的である。
7.日本語の5母音'a,i,u,e,o'の寸法−形状イメージとメリンイメージ寸法−形状イメージとメリンイメージとにおいて、異なる母音がどのように表現されるか示すために、日本語5母音の組を解析した。同一の声道モデルで同一の男性話者であるが、異なる声道断面積関数(上記Yang and Kasuya, 1995)を使って異なる5母音を合成した。すべて、計測通りの声道断面積・声道長を用いて、100Hzの声帯パルスで駆動することにより合成した。5母音'a, e, i,o, u'についてこの順番で、聴覚イメージを図28〜図32、寸法−形状イメージを図33〜図37R>7、メリンイメージを図38〜図42に、それぞれ示す。
【0090】聴覚イメージと寸法−形状イメージとを比べると、時間間隔軸の対数変換が、ホルマントの強調の仕方を変化させていることがわかる。たとえば、母音'a'(図28)においては、第2ホルマントの共振の継続長が第4ホルマントに対して3倍くらい長くなっている。しかし、寸法−形状イメージ(図33)においては時間周波数積の軸hに対して第2ホルマントの共振の継続長が第4ホルマントに対して同程度からやや短くなっている。このような表現の変換がなければ、メリン変換を周波数軸に対し直接取っても高次のホルマントの役割はほとんど見えなくなるであろう。寸法−形状イメージにおけるチャンネルの補正が、ウェーブレットインパルス応答と音源の性質による応答とを分けるのに有効に働いている。
【0091】まず、前節で説明した'a'(図33と図38R>8)と'e'(図34と図39)との寸法−形状イメージとメリンイメージとを比較する。'e'(図34)の寸法−形状イメージの中の高次ホルマントは'a'のものよりも集まっていて、高いh値まで伸びている。これにより、'e'メリンイメージは'a'メリンイメージと異なり、空間周波数c/2πが低い4のあたりと12〜16あたりで値が大きく、さらにhの高い所までその値が伸びている。
【0092】母音'i'(図35と図40)では、'e'と同様高次ホルマントが群をなしているがさらに集中している。これが、hの2〜6でのc/2πが8あたりの値の大きい所を生じさせている。hが4以上ではc/2πが15〜20くらいに活性領域が移動している。さらに、'i'の寸法−形状イメージでの共振領域の伸びからもわかるように、15以上の高いhの値まで幅広い帯状領域が広がっている。
【0093】'o'の寸法−形状イメージ(図36)では、第1・第2ホルマントの組と残りの3ホルマントの組との間(1200Hz〜2800Hz程度)に大きな周波数の隔たりがある。これにより、図41の'o'のメリンイメージではc/2πが4以下の活性度はあまり大きくない。第1ホルマントがある範囲、すなわち図36でhが5までの範囲で、c/2πが5〜8くらいの所で第1と第2ホルマントの間隔を反映している活性度があるが、第1ホルマントが消えるとc/2πが12〜20くらいでの高次ホルマントの間隔を反映する活性度が主になる。継続して続く高次ホルマントの群はhが高い所での低い空間周波数の拡散した活性度に反映して、他の母音との違いを示している。
【0094】母音'u'(図37と図42)は、他の母音と比べ単純で、ホルマントの共振帯域幅が広いために、寸法−形状イメージやメリンイメージでのhの値の大きい所まで活性度が伸びていない。これが、この母音の特徴を表しているのであろうが、それゆえhやc/2πが大きい所での区別しやすい特徴を失っている。hが2〜5の範囲ではc/2πが7あたりで強い活性度があり、hが4〜5の範囲では13くらいにある。帯状領域はhが10以上にほとんど存在せず、他の母音では'a'に近い。
【0095】このように、各々の母音のメリンイメージは特徴的に異なり、これらの相違からそれぞれの違いを容易に抽出できる。
8.音声認識装置前節までで、音源が同じ形状ではほぼ同じになり、異なる場合は特徴的に異なるという、メリンイメージの優れた特徴を示してきた。このようなメリンイメージの情報を用いると、優れた音声認識装置を実現できる。たとえば、メリンイメージの縦軸方向または横軸方向に向かって活性度を加えあわせると、それぞれ1次元ベクトルの周辺分布が得られる。これらのベクトルの両方または片方を一列に並べて1次元ベクトルとすれば、聴覚イメージのある一時点における特徴を表わす特徴ベクトルとなる。
【0096】この特徴ベクトルを聴覚イメージのたとえば一定間隔ごと(たとえば、5〜30ms程度ごと)に計算して、順次縦軸に並べてスペクトログラムの形式にすれば、メリンイメージスペクトログラムとでも呼べる表現が得られる。前述の寸法−形状イメージスペクトログラムと合わせても、現在広く使われている音声認識回路19(図4)にそのまま入力できる。各々の周辺分布は一時点の音源情報を代表するベクトルで、従来の振幅スペクトルより豊かな情報量を持っている。これにより、従来より優れた音声認識結果20を得られる。これが本発明の最大の長所である。
第2の実施の形態図43は、声道の大きさの違う大人・子供にかかわらず応用できる、他言語の練習または障害からのリハビリテーション用の発声練習装置に本発明を適用した実施の形態の装置を示す。この装置は、入力される音声を電気信号に変換するためのマイクロホン29と、マイクロホン29の出力する電気信号を増幅するための増幅器30と、増幅器30によって増幅された電気信号をアナログ/デジタル変換するためのA−D変換器31と、A−D変換器31から出力されるデジタル信号を受けて音声信号処理を行なうためのプログラムを実行する汎用コンピュータ32と、汎用コンピュータ32の出力に基づいて音韻、単語文字、特徴量を表示するための音韻・単語文字・特徴量表示装置33と、汎用コンピュータ32の出力するデジタルの音声信号をアナログ信号に変換するためのD−A変換器34と、D−A変換器34によってアナログ信号に変換された音声信号を増幅するための増幅器35と、増幅器35から与えられる音声信号を音声に変換するためのスピーカまたはヘッドホン36とを含む。
【0097】マイクロホン29の出力する、音声を表わす電気信号は増幅器30およびA−D変換器31を通って汎用コンピュータ32に入力される。汎用コンピュータ32は、後述するような処理をこの電気信号に対して行ない、その結果を表わす信号を音韻・単語文字・特徴量表示装置33およびD−A変換器34に与える。汎用コンピュータ32の出力は、音韻・単語文字・特徴量表示装置33により視覚的に提示され、また、D−A変換器34・増幅器35を通してスピーカまたはヘッドホン36によって聴覚的に提示される。
【0098】この汎用コンピュータでは、図44のフローチャートに従った処理が行なわれる。まず、既に説明した安定化ウェーブレット変換が行なわれる。その情報を用いて、ピッチ周波数・寸法−形状イメージ・メリンイメージが並列的に計算される。
【0099】寸法−形状イメージの計算では、話者の声道長に関する情報が計算され、メリンイメージでは声道長を正規化した表現が算出される。それらをあらかじめ蓄積されている標準テンプレートと比較することにより、話者がしゃべった音韻や文字列を判断してそれを視覚提示情報として出力したり、話者の声道長やピッチ情報に合わせた合成音として聴覚提示情報として出力したりする。
【0100】発声練習装置として用いるために、練習問題の生成等の教示情報からも視覚・聴覚提示ができるようになっている。これにより、標準テンプレートを大人でも子供でもすべての場合に用意する必要がないにもかかわらず正確な音韻判断ができるので、効率的な練習のための装置として有効である。
第3の実施の形態図45は、大きさの違う青果・果物・食物の品質の自動選別器に本発明を応用した実施の形態である。この自動選別器は、選別の対象となる物体に対して音波を照射するためのスピーカ37、増幅器38およびD−A変換器39と、選別する品物から戻ってくる音波を受信するためのマイクロホン40と、マイクロホン40の出力を増幅するための増幅器41と、増幅器41の出力をデジタル信号に変換するためのA−D変換器42と、A−D変換器42から与えられる信号に対して後述する処理を行なうためのコンピュータ43と、コンピュータ43から出力される制御信号にしたがって品物の選別を行なうための品質等級分別装置44と、コンピュータ43の出力する情報を表示するための表示装置45と、コンピュータ43の出力にしたがって警告を発するためのアラーム装置46とを含む。
【0101】コンピュータ43で行なわれる処理を図46R>6に示す。コンピュータ43はスピーカ37から品物に向けて発射される音声のための送信信号の生成を行ない、D−A変換器39に与える。コンピュータ43はさらに、出力信号の生成パラメータと、スピーカ37から発生された音声に応答して品物により反射され、マイクロホン40、増幅器41およびA−D変換器42を介して電気信号に変換されてコンピュータ43に与えられた受信信号とに基づいて、安定化ウェーブレット変換、寸法−形状イメージ、メリンイメージの計算を実行して、品物の大きさに依存しない、品物の内部状態に関する表現を得る。コンピュータ43は、得られた表現と、あらかじめ蓄積してある標準テンプレートとを比較することにより、品物の品質等級を決定して、その決定結果を出力する。出力と標準テンプレートとのずれが所定の値よりも大きい場合には、コンピュータ43は品物に欠陥があると判断して表示装置45およびアラーム装置46による診断結果の出力を行なう。
【0102】この実施の形態の装置により、ばらつきがある品物の大きさに依存せず、その内部状態だけに依存した有効な選別ができるようになる。このシステムは、上記のような品物だけではなく、身体の診断、鉄や金属製品、陶磁器等の製品の欠陥判断にも適用できる。
第4の実施の形態この第4の実施の形態の装置は、基本的には第3の実施の形態と同じ構成を有し、コンピュータで計算されたイメージを表示するための表示装置45(モニタ等)をさらに含む。この表示装置45により、大きさを正規化した表現を視覚的に提示する手段が得られ、人間が対象物の特性を直接判断できるようになる。また、欠陥判断をしてアラームを鳴らす装置46を設ければ、装置の欠陥を自動診断できるようになる。これにより第3の実施の形態だけではない、ソナー信号の処理一般に本発明を応用することができる。
【0103】本発明の応用としては、他にもさまざまなものが考えられる。たとえば、本発明によって対象物の大きさに依存しない表現が得られるため、建築の分野においては、コンサートホールのミニチュアモデルで計測を行なえば、建設後のコンサートホールの音響特性を予測できる。建築構造物自体の音波による老朽化診断も挙げられる。また、水中でのソナー信号の解析への応用も可能となる。
第5の実施の形態図47は、様々な大きさのエンジンの故障診断に本発明を適用した第5の実施の形態である。自動車・船舶等のエンジンに取り付けた振動センサかマイクロホン47の出力信号を増幅器41、A−D変換器42を通してコンピュータ50に入力する。コンピュータ50によって欠陥や故障の判断が行なわれその情報の表示装置51、アラーム装置52、エンジンの制御装置53が制御される。また直接イメージ出力する装置54も付けられる。
【0104】このコンピュータ50では、図48で示される処理が行なわれている。図48を参照して、入力された準周期的な信号に基づいて、安定化ウェーブレット変換が行なわれ、その結果から寸法−形状イメージ、およびメリンイメージが計算される。これらイメージと、あらかじめ蓄積してある標準テンプレートとを比較することにより、エンジンの状態を診断して結果を出力する。この時、結果として欠陥の有無という2値的な信号が得らるようにすれば、この信号で欠陥・故障表示装置やアラーム装置を制御することができる。これに対し、標準パターンとの距離尺度をあらかじめ決定しておいて、どれくらい類似しているかの距離を計算して連続量として出力することもできる。この情報はエンジンの回転等の異常の度合いを示すことになるのでエンジンの制御装置を制御する信号として用いることができる。また、直接イメージを出力すれば人間が視覚的に故障判断を行なうこともできる。
【0105】エンジンの形状は同じでも、排気量は目的に応じて変わる。同じエンジンの族ではたとえその寸法が異なっていても本発明を用いると同じ表現を用いることによりその状態を判断できる。したがって本発明によるエンジン状態の判断装置は、種々の大きさのエンジンについて、有効に共通の故障原因などを判定することができる。
【0106】さらには、建築物に取り付けたセンサからの出力を用いれば、建築物の欠陥診断にも応用でき、地震波の信号を用いれば、震源の大きさに依存しない共通の特徴をみつけることができる。また、本発明によれば、人工物であるか自然物であるか、またはどのような物理系により測定された信号かにかかわらず、信号源からの信号であれば何を入力としてもよい。例えば、心臓拍動音や脳波信号等の生体信号をピックアップすれば、その身体や頭の大きさに依存しない表現が得られるので、良好な診断結果を出すこともできる。
【0107】以上のようにこの発明による安定化ウェーブレット−メリン変換によれば、基本的に音源の物理的な大きさに依存しない信号表現(例えば音声の場合、男性・女性・子供によって異なる声道長を正規化した表現)、または、時系列データの場合には自己相似性(フラクタル性)を正規化した表現が得られる。すなわち、大きな部分を構成する一部分がもとの大きな部分と共通の構成を持っている事象については、大きな部分とそれを構成する小さな部分との双方について同じ表現が得られるということである。これは従来の自己回帰モデルやスペクトル分析では行ないづらかったことで、従来の時系列データ処理の限界を超えうる信号処理が可能となる。また、この過程で正規化できない要素は逆に分離できるので音声であれば個人認証等に有効に活用できる。このように音源の物理的大きさや自己相似性の正規化が必要となる信号処理に広く利用できる。
【0108】今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0109】以下は説明中で引用した付録である。
【0110】
【数1】
【0111】
【数2】
【0112】
【数3】
【0113】
【数4】
【図面の簡単な説明】
【図1】 この発明の原理を説明する概略ブロック図である。
【図2】 図1の安定化ウェーブレット処理部2のブロック図である。
【図3】 図1および図2に関連するフローチャートである。
【図4】 この発明の第1の実施の形態の音声認識装置の概略ブロック図である。
【図5】 図4の事象検出(ピッチ検出)回路15および安定化聴覚イメージ処理部16のブロック図である。
【図6】 図4および図5に関連するフローチャートである。
【図7】 クリック系列音の安定化聴覚イメージの例を示す図である。
【図8】 図7からフィルタの遅れに相当する分だけ補正した安定化聴覚イメージを示す図である。
【図9】 図8の横軸の時間間隔軸を対数変換して表示した安定化聴覚イメージを示す図である。
【図10】 すべてのチャンネルでウェーブレットフィルタのインパルス応答が縦方向にそろうように補正した安定化聴覚イメージを示す図である。
【図11】 図10に示される安定化聴覚イメージを、横軸の時間間隔周波数積hが線形軸となるように変換して表した図である。
【図12】 クリック系列音のメリンイメージを示す図である。
【図13】 指数減衰正弦波の聴覚イメージを示す図である。
【図14】 指数減衰正弦波の寸法−形状イメージを示す図である。
【図15】 指数減衰正弦波のメリンイメージを示す図である。
【図16】 測定した男性話者の声道断面積関数を用いて声道モデルより合成した日本語母音'a'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図17】 図16と同じ条件だが、声帯パルスの繰返し周波数160Hzで合成した、日本語母音'a'の聴覚イメージを示す図である。
【図18】 図16の声道断面積関数に対して声道長を2/3に縮小して、声道モデルより合成した日本語母音'a'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図19】 図18と同じ条件だが、声帯パルスの繰返し周波数160Hzで合成した、日本語母音'a'の聴覚イメージを示す図である。
【図20】 図16に対する寸法−形状イメージを示す図である。
【図21】 図17に対する寸法−形状イメージを示す図である。
【図22】 図18に対する寸法−形状イメージを示す図である。
【図23】 図19に対する寸法−形状イメージを示す図である。
【図24】 図16に対するメリンイメージを示す図である。
【図25】 図17に対するメリンイメージを示す図である
【図26】 図18に対するメリンイメージを示す図である。
【図27】 図19に対するメリンイメージを示す図である。
【図28】 測定した声道断面積関数を用いて声道モデルより合成した日本語母音'a'の聴覚イメージ(声帯パルスの繰返し周波数100Hz。)を示す、図16と同一の図である。
【図29】 図28と同じ男性話者で測定した'e'の声道断面積関数を用いて声道モデルより合成した日本語母音'e'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図30】 図28と同じ男性話者で測定した'i'の声道断面積関数を用いて声道モデルより合成した日本語母音'i'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図31】 図28と同じ男性話者で測定した'o'の声道断面積関数を用いて声道モデルより合成した日本語母音'o'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図32】 図28と同じ男性話者で測定した'u'の声道断面積関数を用いて声道モデルより合成した日本語母音'u'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図33】 図28に対する寸法−形状イメージを示す図である。
【図34】 図29に対する寸法−形状イメージを示す図である。
【図35】 図30に対する寸法−形状イメージを示す図である。
【図36】 図31に対する寸法−形状イメージを示す図である。
【図37】 図32に対する寸法−形状イメージを示す図である。
【図38】 図28に対するメリンイメージを示す図である。
【図39】 図29に対するメリンイメージを示す図である。
【図40】 図30に対するメリンイメージを示す図である。
【図41】 図31に対するメリンイメージを示す図である。
【図42】 図32に対するメリンイメージを示す図である。
【図43】 第2の実施の形態の発声練習装置のブロック図である。
【図44】 第2の実施の形態の汎用コンピュータが行なっている処理のフローチャートである。
【図45】 第3の実施の形態の品物品質等級分別装置および第4の実施の形態のソナーシステムのブロック図である。
【図46】 第3の実施の形態・第4の実施の形態のコンピュータが行なっている処理のフローチャートである。
【図47】 第5の実施の形態のエンジン故障診断装置のブロック図である。
【図48】 第5の実施の形態のコンピュータが行なっている処理のフローチャートである。
【符号の説明】
2 安定化ウェーブレット変換処理部、3 メリン変換処理部、4 信号処理部、7 ウェーブレット変換部、8 振幅圧縮部、9 事象検出処理部、10時間間隔安定化処理部、13 聴覚フィルタバンク、14 聴神経発火パターン変換部、15 事象検出回路、16 安定化聴覚イメージ処理部、17 寸法−形状イメージ処理部、18 メリンイメージ処理部、19 音声認識回路、 22 フィルタ遅れ補正部、25 聴覚図形抽出部、26 対数時間間隔表現への変換部、27 インパルス応答分補正部。
【0001】
【発明の属する技術分野】この発明は、従来、自己回帰モデル等の統計的手法やフーリエ変換によって行なわれてきた、時系列データの解析の改良に関する。本発明はたとえば、楽音認識、音声による個人認識、音声認識、建築音響の分析、ならびに音声または音楽の信号分析、符号化、信号分離、および信号強調処理に応用できる。本発明は、また音響信号等に限らず、機械音および地震波等の機械的振動の解析、脳波、心臓拍動音、超音波エコー、および神経細胞信号等の生体信号解析、ならびに一般的な時系列データを収集するためのセンサー信号の解析等にも広範囲に応用される。
【0002】
【従来の技術】従来より、信号処理一般の情報処理の基本として行なわれてきたのは、スペクトログラムつまり「時間−周波数表現」を求めることであった。高速ディジタル変換(たとえば高速フーリエ変換)を使っても、線形予測分析を使っても、求めるものは、ある一時点での周波数表現としてのスペクトルに直接的に対応するベクトルであり、これを時系列で持つことにより、スペクトログラムに相当する表現を用いていることになる。これら表現は、フーリエ変換から始まる信号のスペクトル表現に由来している。たとえば音声信号の特徴のための表現として最もよく用いられているのはサウンドスペクトログラム(sound spectrogram)であろう。サウンドスペクトログラムとは、音声スペクトルの時間的な変化を、濃淡図形表現、等高線表現、またはカラー表示などを用いて見やすく表現したものである。
【0003】スペクトル表現は、波形自体で信号を表現するよりも信号の特徴を良く表現できること、人間の聴覚系は複数の正弦波からなる信号の相対的な位相関係にはあまり敏感でないとされていること、それらを効率的に計算できる計算手法が確立されていること等の特徴を有しており、音声等の情報処理にはちょうど良く整合が取れたために、広く使われるようになった。
【0004】従来はさまざまな信号処理において、ありとあらゆることをもっぱら上記したスペクトル表現で見ることによって極限まで性能向上を図ってきた。しかし、すでに性能向上の限界に近くなっている感がある。たとえば、音声認識装置では一般的に事前に多数の人間の音声による学習が必要である。ところが、多数の大人の男声・女声で学習を行なった音声認識装置に子供の声を入力しても、ほとんど認識されないであろう。これは、基本的には、大人と子供とでは、声道や声帯の物理的大きさが異なるために、それぞれの発する音声のスペクトル構造およびピッチ周期が異なり、その結果それぞれの音声から抽出される特徴ベクトルが異なってくるためである。
【0005】この問題を解決するために、その音声認識装置に多数の子供の声を学習させたり、子供のためだけに特別に準備した音声認識装置を大人と子供とを判別するための装置とともに用意したりする方策がある。しかし、子供の声の大規模データベースは現在は存在していないので、そうした子供専用の音声認識装置を容易に準備することはできない。さらに、仮にそうした子供の声の大規模データベースを手間をかけて構築したとしても、上記したような解決方法はあまり効率的とは言えない。
【0006】
【発明が解決しようとする課題】この問題を本質的に解決するためには、スペクトログラムでは行ないにくい声道や声帯の物理的大きさの正規化が自動的に行なえる表現が不可欠である。ここでは、音声認識だけの例を挙げたが、たとえば楽器の発する音の分析およびエンジン音の分析におけるように、音源の物理的大きさにかかわらず不変な音響的な特徴抽出が必要となる問題はさまざまな局面で出ている。音響信号等に限らず、機械音および地震波等の機械的振動の解析、脳波、心臓拍動音、超音波エコーおよび神経細胞信号等の生体信号解析、一般的な時系列データを収集するためのセンサー信号の解析等、広範囲な分野でこうした問題に対する解決が必要である。
【0007】それゆえに、本発明の目的は、振動源の物理的な大きさに依存しない何らかの表現を利用することによって、上記の例に関連して述べたようなスペクトル表現に由来する本質的な限界を超える信号処理を行なう方法およびそれを利用した装置を提供することである。
【0008】
【課題を解決するための手段】請求項1に記載の発明にかかる信号処理方法は、入力信号をコンピュータにおいてウェーブレット変換するウェーブレット変換ステップと、ウェーブレット変換するステップの出力を、コンピュータにおいて入力信号の周期に同期させてメリン変換することによって信号の特性を抽出する特性抽出ステップとを含む。
【0009】請求項2に記載の発明にかかる信号処理方法は、請求項1に記載の発明の構成に加えて、特性抽出ステップは、ウェーブレット変換ステップによって得たランニングスペクトルに相当する表現を、入力信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するステップと、時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するステップとを含む。
【0010】請求項3に記載の発明にかかる信号処理方法は、請求項1〜請求項2のいずれかに記載の発明の構成に加えて、ウェーブレット変換ステップは、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて入力信号を積分変換するステップと、積分変換された入力信号を半波整流して出力するステップとを含む。請求項4に記載の発明にかかる信号処理方法は、入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現をコンピュータを用いて得るステップと、さらにコンピュータを用いて、対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって信号の特性を抽出するステップとを含む。
【0011】請求項5に記載の発明にかかる信号処理方法は、請求項4に記載の発明の構成に加えて、積分変換により抽出された入力信号の特性をベクトル表現し、さらにこれら表現ベクトルの時系列として入力信号の経時的な特性を表現するステップをさらに含む。
【0012】
【0013】請求項6に記載の発明にかかる信号処理装置は、コンピュータによって処理可能な予め定める形式に変換した入力信号をウェーブレット変換するためのウェーブレット変換手段と、ウェーブレット変換手段の出力を前記入力信号の周期に同期させてメリン変換することによって信号の特性を抽出するための特性抽出手段とを含む。
【0014】請求項7に記載の発明にかかる信号処理装置は、請求項6に記載の発明の構成に加えて、特性抽出手段は、ウェーブレット変換手段によって得たランニングスペクトルに相当する表現を、信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するための手段と、時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するための手段とを含む。
【0015】請求項8に記載の発明にかかる信号処理装置は、請求項6〜請求項7のいずれかに記載の発明の構成に加えて、ウェーブレット変換手段は、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて入力信号を積分変換するための手段と、積分変換された入力信号を半波整流して出力するための手段とを含む。請求項9に記載の発明にかかる信号処理装置は、コンピュータによって処理可能な形式に変換した、入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現を得るための手段と、さらに対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって入力信号の特性を抽出するための手段とを含む。
【0016】請求項10に記載の発明にかかる信号処理装置は、請求項9に記載の発明の構成に加えて、さらに、積分変換により得られた入力信号の特性をベクトル表現し、さらにこれら表現ベクトルの時系列として入力信号の経時的な特性を表現するための手段をさらに含む。
【0017】
【0018】請求項11に記載の発明にかかる信号処理装置は、各々入力信号を受けるように接続された、互いに同一のウェーブレット核関数を持ちそれぞれ別個の周波数を持つウェーブレットにより変換を行なう複数個のウェーブレットフィルタからなるウェーブレットフィルタバンクと、ウェーブレットフィルタバンクの出力を受けるように接続され、ウェーブレットフィルタバンクの出力から、聴覚図形を抽出するための聴覚図形抽出手段と、聴覚図形抽出手段によって抽出された聴覚図形から入力信号の寸法−形状イメージを生成するための寸法−形状イメージ生成手段と、寸法−形状イメージから入力信号の特徴を抽出するための特徴抽出手段とを含む。
【0019】請求項12に記載の発明にかかる信号処理装置は、請求項11に記載の発明の構成に加えて、特徴抽出手段は、寸法−形状イメージに対して、各ウェーブレットフィルタのインパルス応答線に沿ってフーリエ変換を行なうことによりメリンイメージを生成するためのメリンイメージ生成手段を含む。
【0020】請求項13に記載の発明にかかる信号処理装置は、請求項12に記載の発明の構成に加えて、聴覚図形抽出手段は、ウェーブレットフィルタバンクの出力に含まれる周期性を検出することにより、ウェーブレットフィルタバンクの各チャンネルの出力に対して時間ストローブ積分を行ない安定化された聴覚イメージを生成するための時間ストローブ積分手段と、時間ストローブ積分手段の検出した周期性に基づいて、時間ストローブ積分によって得られた安定化聴覚イメージのうちの一周期を聴覚図形として抽出するための安定化聴覚イメージ抽出手段とを含む。
【0021】請求項14に記載の発明にかかる信号処理装置は、請求項13に記載の発明の構成に加えて、安定化聴覚イメージ抽出手段は、安定化聴覚イメージの一番目の周期を聴覚図形として抽出するための手段を含む。
【0022】請求項15に記載の発明にかかる信号処理装置は、請求項13に記載の発明の構成に加えて、安定化聴覚イメージ抽出手段は、安定化聴覚イメージの、二番目の周期を聴覚図形として抽出するための手段を含む。
【0023】請求項16に記載の発明にかかる信号処理装置は、請求項11に記載の発明の構成に加えてさらに、ウェーブレットフィルタバンクの出力を半波整流して聴覚図形抽出手段に与えるための手段を含む。
【0024】
【発明の実施の形態】[発明の背景をなす基本的事項]まず、本発明、特に以下に述べる実施の形態の課題を明確化するために、メリン変換と音響物理とについて述べる。
1.メリン変換メリン(Mellin)変換は、フーリエ変換と同様な積分変換の一種類であり、発明の実施の形態の説明の最後に添付した付録Aに示される式で定義される(森口・宇田川・一松著「数学公式II」岩波書店、1957年刊行、Titchmarsh,"Introduction to the Theory of Fourier Integrals," Oxford U.P., London, 2nd ed.)。付録Aの式(A2)によっても表わされるように、分析する信号の応答が相似形のまま時間的に拡大・縮小しても、メリン変換して得た分布の絶対値は定数倍以外不変となることがメリン変換の重要な特徴である。本願発明では、メリン変換のこの特徴を利用して、たとえば声道の大きさの相違に由来するスペクトル構造の相違およびピッチ周期の相違にもかかわらず、音声認識が行えるような、適切な信号処理を行なう。
2.音響管の物理無損失な音響管を考える。その音響管を伝搬する波の解は、その波を平面波で近似することによって得ることができる。均一の口径の音響管またはホーン形の音響管の解析解は、初頭的な物理の教科書にも書いてあるほどよく知られている。また、音響管の断面積が変化する場合でも、断面積関数を多数の微小な円筒で近似することによって、その音響管内を伝搬する波を数値的に解くことができる。声道をそのような方法で近似して解くことは、音声生成モデルの教科書の教えるところである(例えば、中田著「音声」コロナ社、改定版、1995)。
【0025】さて、その音響管の一端をインパルスで駆動した場合の、他端でのインパルス応答を考える。ここで重要な特徴は、その音響管の大きさを比例的に拡大・縮小した場合、そのインパルス応答波形が時間軸上で拡大・縮小されることである。つまり物理的な音響管の大きさは、そのインパルス応答と直接的に関係している。
【0026】大人の発声したある音韻と子供の発声した同じ音韻とは、それぞれの音響管の大きさが全く違うのにもかかわらず聞き手には同じように聞こえる。音声学の教科書または英語の教科書には、発声される母音(vowel)とそれに対応した調音位置(place of articulation)との対応図が記載されている。しかしそうした対応図には、その縮尺のようなものは記載されていない。そうした対応図は大人でも子供でも、かれらの調音器官の大きさの相違にかかわらず共用できる。つまり、調音器官の大きさの相違にかかわらず、相似的に調音のかまえを似たものにすれば、同じ音韻が発声できる。いいかえれば、声道の物理的な大きさが異なっても、声道断面積関数の相似性を保つことにより同じ音韻が発声できる。
【0027】物理的に声道断面積関数が相似で、その全長が異なる場合、声道のインパルス応答は、時間的に拡大・縮小したものになる。そのため、大人の声に対して子供の声は、声道のインパルス応答が時間軸上で縮小された音響管を音声パルスで駆動したことに相当する。もちろん個人差があるため、以上は理想的な話ではあるが、上記したようなインパルス応答の時間軸上での縮小は、物理的考察に立った子供の音声の特徴の良い第一次近似であるはずである。こうした類推は、音声において妥当であるという理由ばかりでなく、大きさの異なるバイオリン、チェロおよびコントラバスが同じバイオリン族の楽器として類似の音を発生すること、および同じ形状で異なる大きさのエンジンが類似の音を発生することなど、音声以外の事象の観察からも正当化できる。
3.課題の設定もし、上記のような声道のインパルス応答の時間軸上での拡大・縮小に対し不変な内部表現を直接作り出すことができれば、スペクトル分析を行なって抽出の難しい高次ホルマントを利用することにより拡大・縮小の計算を行なって正規化しなくてもよくなり、大人でも子供でも同じ音韻は同じものとして処理することができる。このように時間軸上での波形の拡大および縮小に対して不変な性質を有するという特徴は、上記で示したメリン変換を通して得ることができるメリン表現の特徴に他ならない。すなわち、メリン変換およびメリン表現が、今求められている音声などの信号の解析において従来のスペクトル表現に由来する分析とは本質的に異なる重要性を持つことが分かる。
【0028】ところが、従来はメリン変換は信号処理ではあまり実用的には使用されてこなかった。その理由は、以下で述べるように、メリン変換は「シフト変動」(shift varying)であり、その振幅が「シフト不変」(sihft invariant)なフーリエ変換などに比べて扱いづらかったためである。付録Aの式(A1)からも分かるように、メリン変換では積分の起点(以下ではこれを「解析の原点」と呼ぶ。)が確定している必要があり、この解析の原点が移動するとその結果が異なってくる。これが「シフト変動」という性質である。一方フーリエ変換では(−∞,∞)の範囲で積分をすればよいので、このような積分範囲の移動という問題がない。これが「シフト不変」という性質である。
【0029】メリン変換についての研究に関しては、Umeshらがメリン変換の性質から周波数軸だけの変形を提案している(Umesh, Cohen, and Nelson, "Frequency-warping and speaker-normalization," IEEE Int. Conf. Acoust., Speech Signal Processing (ICASSP-97),1997; Umesh, Cohen, and Nelson,"Improved scale-cepstral analysis in speech," IEEE Int. Conf. Acoust., Speech Signal Processing (ICASSP-98),1998)、またAltesはフーリエ変換とメリン変換との組み合わせを提案している(Altes, "The Fourier-Mellin transform and mammalianhearing," J. Acoust. Soc. Am., 63,pp.174-183, 1978)、またメリン変換の音声認識への応用(Chen, Xu, and Huang, "A novel robust feature of speechsignal based on the Mellin transform for speaker-independent speech recognition," ICASSP ユ98,1998)も提案されている。
【0030】しかしながら、これらはいずれも周波数振幅情報を用いた周波数軸方向へのメリン変換であり、位相情報すなわち時間的な情報の考察がない。したがってこれら論文はいずれも「シフト変動性」を克服するための解析の原点の特定の問題には触れておらず、音に対する安定な時間的な微細構造を保持した表現を求めていない。音の音色の情報は、主にこの微細時間構造に存在すると考えられるので、この情報を保持したまま、物理的な音源寸法を正規化する手法が望まれる。
【0031】現状の音声認識装置等の信号処理の限界を打開するためには、やはり音声や音響振動の本質に迫る優秀な機能を持つメリン変換を、その「シフト変動」であるという欠点を克服して利用することにより信号処理のための計算を正確に行なうことが必要である。本発明、特に以下に記載した実施の形態の方法および装置の目的は、時間的に安定な表現を導出することによりメリン変換を計算可能にしてメリン表現を得ることにある。
【0032】[本発明の原理]以下、本発明、特に以下に述べる発明の実施の形態の構成と動作との原理を明確にするため、発明の基本的思想について述べる。
1.発明の概要上記のメリン変換の「シフト変動」であるという欠点を克服するためには、どの時点においても安定な原点を持つ表現においてメリン変換を実行しなければならない。図1を参照して、本発明での解決法を実現するための一般的な装置は、入力信号1に対して、後述する安定化ウェーブレット変換処理を行なうための安定化ウェーブレット処理部2と、安定化ウェーブレット処理部2から出力される安定化ウェーブレット処理された入力信号に対してメリン変換を行なうためのメリン変換処理部3と、メリン変換処理部3の出力に対してたとえば音声認識、音声の符号化などの信号処理を行なって結果5を出力するための信号処理部4とを含む。安定化ウェーブレット処理部2で行なわれる安定化ウェーブレット変換処理は、入力信号をウェーブレットフィルタバンクを通して時間周波数分析を行なうとともに、解析の原点を定める。安定化ウェーブレット処理部2によって解析の原点を定めることにより、安定化ウェーブレット処理部2の出力に対してメリン変換処理部3でメリン変換を行なうことが可能になる。
【0033】この装置では、入力信号1は、安定化ウェーブレット処理部2によって安定化ウェーブレット変換されて、さらにその出力に対して安定化ウェーブレット処理部2で定められた解析の原点を積分の起点としてメリン変換3が行なわれ、メリン表現が得られる。得られたメリン表現は、音源の寸法や波形の周期性の変動に関して正規化された音声信号の特徴表現である。この表現は、従来の音声分析で主として利用されていたスペクトルや線形予測係数と同様に、ベクトルとしても表すこともできる。したがって、このメリン表現を、従来から用いられてきたありとあらゆる信号処理に対する入力として与えることができ、それらに対応する結果5が得られる。たとえば音声認識装置においては、メリン表現された多数の特徴ベクトルを予め準備しておき、入力された特徴ベクトルとの間で従来と全く同様のマッチングを行なうことにより音声認識を行なうことが可能となり、そのためのハードウェアも従来と同様でよい。
2.ウェーブレット変換図2を参照して、本発明における安定化ウェーブレット変換を計算するための安定化ウェーブレット処理部2は、入力信号6(請求項1の入力信号1と同じであり、通常は周期性を有することが想定されている。)に対してウェーブレット変換を行なうためのフィルタバンクからなるウェーブレット変換処理部7と、ウェーブレット変換処理部7の出力の振幅を対数圧縮または指数圧縮により圧縮するための振幅圧縮部8と、振幅圧縮部8の出力を受けて、周期性を表わす事象を検出して検出出力を発生するための事象検出処理部9と、事象検出処理部9の出力に応答して、前述した通り解析の原点を定めるように振幅圧縮部8の出力波形の時間間隔を安定化させて安定化ウェーブレット変換出力11として出力するための時間間隔安定化処理部10とを含む。
【0034】ウェーブレット変換処理部7で行なわれるウェーブレット変換を定義する式は実施の形態の説明の最後に添付した付録Bの式B1〜B7に示す。ウェーブレット変換は、フーリエ変換における基底関数である正弦波に替えて、ウェーブレット核(「マザーウェーブレット」とも呼ばれる。)と呼ばれる、波形の小片を定める関数を用いる。そしてこのウェーブレット核を時間軸上で拡大、縮小した(互いに周波数が異なる)波形が、解析対象となる波形にどの程度の大きさで含まれるかを調べることにより、解析対象の波形を時間と周波数との二次元に分けて解析することができる。
【0035】フーリエ変換では正弦波を用いている。正弦波は時間軸上で(−∞,∞)の範囲に一様に広がった周期関数である。そのため、フーリエ変換では入力信号のある一部にどの周波数の信号がどの程度存在しているか、という局所的な情報を得ることはできない。それに対してウェーブレット変換では、どの位置に、どの周波数のウェーブレットが、どの程度の大きさで含まれているかという局所的な情報を知ることができる。このため、ウェーブレット変換によって入力信号を時間と周波数との二次元から解析できる。
【0036】またウェーブレット変換では、目的に応じてウェーブレット核を変え、応用ごとに適切な波形のウェーブレット核を用いることができることが知られている。たとえば、Daubechiesのウェーブレット、メキシカンハット、フレンチハット、Shannonのウェーブレット、Haarのウェーブレット、Gaborのウェーブレット、Meyerのウェーブレットなどが知られている。以下に述べる実施の形態では、特定のウェーブレットを用いているが、応用に応じて上記した、およびここにあげていない種々のウェーブレットを用いることが可能である。
【0037】多くの場合周期性を持つ(式B1)入力信号1は、ウェーブレット変換処理部7によりウェーブレット変換され解析される(Combes et al.(Eds.),"Wavelets", Springer-Verlag,Berlin,1989)。ウェーブレット核としては、例えば所定周波数で周波数変調され、ガンマ分布を包絡線として持つガンマチャープ関数(式B2)を選ぶことができる。このガンマチャープ関数は、メリン変換において、最小不確定性の意味で最適な関数であることが知られている(Irino and Patterson,"A time-domain, level-dependent auditory filter: The gammachirp,"J. Acoust. Soc. Am., 101,pp.412-419, 1997)。なお、ウェーブレット核は上記したガンマチャープ関数に限定されるわけではなく、既に述べたように解析においてどの特徴を重視するかに応じて適切な関数により定められる波形を用いることができる。
【0038】ウェーブレット核を時間軸上で伸縮したウェーブレットフィルタ(式B3)の組を用いることによりウェーブレット変換処理部7のフィルタバンクを実現できる。ここでは、最大周波数と帯域幅とが比例する定Q型で、対数周波数軸上で等間隔に配置したフィルタバンクの各フィルタと信号との間で畳み込み積分を行なう(式B4)。
【0039】仮に、外界の信号が、時間的に圧縮または伸長されても、ウェーブレット変換はその出力波形には歪みを与えない。単にその信号の出力がより高い、またはより低い最大周波数のフィルタの位置に移動するだけである。これは、ウェーブレットフィルタ自体が元のウェーブレット核関数を時間軸上で拡大・縮小したもので、いずれも同じフィルタ形状を有するからである。
【0040】得られた各フィルタ出力の振幅値に対しては、図2の振幅圧縮部8で対数圧縮(式B5)または指数圧縮(式B6)が行なわれる。この時、目的に応じ、波形の正負の部分の両方を残す場合と、半波整流して正部分のみを残す場合とのふた通りが考えられる。以下に示す各例では、半波整流した場合を示す。正負の両部分を残す場合も、後の処理は基本的の以下の説明と同じである。
3.メリン変換の前提と安定化ウェーブレット変換既に延べ、式A1からわかるように、メリン変換は必ず解析の原点を特定することが必要で、原点がずれると表現も変わってしまう「シフト変動(shift-varying)」な変換である。メリン変換がシフト変動である、という点が、シフト不変なフーリエ変換に対して不利な点で、これがメリン変換がいままであまり用いられてこなかった理由でもある。しかし、上記のような、物理的大きさの変動に対して耐性があるという音声信号処理にとって魅力ある性質をもっている。したがって、解析の原点を確実かつ安定に決定できれば、シフト変動であるというメリン変換の欠点を克服でき、メリン変換を音声信号処理に有効に利用することが可能となる。本発明はそのための一つの解決策を与える。
【0041】信号は常に時間的に流れているので、ウェーブレット変換を行なった後の「ウェーブレットスペクトル」も時間的に流れる「ランニングスペクトル」に相当する。そのためウェーブレットスペクトルのみからでは解析の原点を決められない。この解析の原点を事象検出処理部9で決定する。以下、事象検出処理部9で行なう処理の詳細について説明する。
【0042】周期信号(式B2)や疑似周期信号の場合、各ウェーブレットフィルタ出力は、1周期に1つの最大値を持つ。本願発明は、音源情報はそうした最大値を固定して見た時の波形として表現されている点に着目する。そのために本願発明では、フィルタ出力の周期性を事象検出処理部9によって検出し、そこを原点にしてメリン変換を取ることにより振幅圧縮部8の出力信号の時間間隔を安定化させる。
【0043】最大値検出の方法については既に報告がされている(Irino and Patterson, "Temporal asymmerty in the auditory sytem, "J.Acoust. Soc. Am., 99, pp.2316-2331, 1996; Patterson and Irino," Modeling temporal asymmerty in theauditory sytem," J.Acoust. Soc. Am., 104, pp.2967-2979, 1998 )。それ以外にもピッチ周期検出に関しては過去から多くの報告がある(たとえばHess, "Pitch Determination of Speech Signals," Springer-Verlag, NY, 1983)。
【0044】本願発明では、各チャンネルにおける最大値の時点を、図2の時間間隔安定化処理部10で行なわれる時間積分の開始時点とする。時間間隔安定化処理部10が行なう時間積分では、ある開始時点から次の開始時点までを1周期として各ウェーブレットフィルタ出力をコピーして、イメージバッファの対応するチャンネルの既に存在する1周期分の表現に一点一点加えあわせることによって新たな表現を生成する。この操作をストローブ時間積分(Patterson, Allerhand and Giguere, "Time-domain modelling of peripheral auditory processing: a modular architecture and a software platform", J.Acoust. Soc. Am., 98,1890-1894, 1995; Patterson and Holdsworth, "Apparatus and methods for the generation of stabilised images from waveforms," United Kingdom Patent: 2232801 (1993), United States Patent: 5,422,977 (1995), European Patent: 0473664 (1995))と呼び、ここまでの操作全体を安定化ウェーブレット変換と呼ぶ。
【0045】安定化ウェーブレット変換によって、次周期の各ウェーブレット出力、次々周期のウェーブレット出力、さらに先の周期のウェーブレットフィルタ出力を構成する各点の値はイメージバッファ内の同じ位置に加算されるため、信号の流れが止まり安定な表現となる。また、この表現では、横軸として一つ前のピークからの時間間隔がとられるため、原点は常に零である。
【0046】周期信号(式B2)や疑似周期信号の安定化ウェーブレット変換(式B7)は、その微細構造に音源情報を保存していて周期的に繰返したパターンになる。ここで、安定化ウェーブレット変換により得られる安定化された時間間隔パターンの1周期分を音源情報図形(式B8)または聴覚図形と呼ぶことにする。この音源情報図形は安定で、開始点が常に決まっているので、シフト変動性の問題を回避して、この上でメリン変換を取ることができる。すなわち、安定化ウェーブレット変換は、メリン変換が音源情報を解析するのに必要な条件を準備したことになる。
4.メリン変換の計算メリン変換は、量子力学で使われるオペレータで表現できることが知られている(Cohen,"The scale transform," IEEE Trans. Acoust. Speech and Signal Processing, 1993; Irino, "An optimal auditory filter," IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 1995; Irino, "A'gammachirp' function as as optimal auditory filter with the Mellin transform," IEEE Int. Conf. Acoust., Speech Signal Processing (ICASSP-96), 1996)。その場合、メリン変換は、Gaborが用いた時間オペレータと周波数オペレータ(Gabor,"Theory of communication," J. IEE (London),93,42-457,1946)との積をとった形式になっている。すなわち、時間と周波数との積がメリン変換にとって重要な概念である。メリン変換を定義する式を、実施の形態の最後に添付した付録Bの式B8〜B12に示す。
【0047】本発明では、原理的には、音源情報図形(式B8)に対して、時間と周波数との積が一定となる等値線(式B9)に沿ってメリン変換(式B10)を行なう。ここで、メリン変換のパラメータPは複素数(式B11)なので、式B10は式B12のように書き換えることができる。これにより、音源情報図形のメリン変換として、横軸を時間間隔と周波数との積、縦軸をメリン変換核の複素変数とした2次元表現を得ることができる。この表現をメリンイメージと呼ぶことにする。
【0048】この表現の上では、音源情報は正規化されていて音源の周期性や物理的大きさの拡大・縮小に対して不変の表現になっている。したがって、従来から提案されている信号処理手法にしたがった信号処理部4に対してこの正規化音源情報を与えることにより、より優れた信号処理が実現できる。
【0049】図3のフローチャートに以上の処理の流れを示す。メリン変換の計算に関しては、さらに詳しく第1の実施の形態において述べる。図3を参照して、波形入力を受けると、これらをウェーブレット変換のフィルタバンクを通すことによりウェーブレット変換の計算が行なわれる。
【0050】ウェーブレット変換の出力から信号周期情報を抽出し、この情報をもとにウェーブレット変換の出力を安定化させ、一つ前のピークからの時間間隔−対数周波数表現の計算を行なうことにより、音源情報図形を得る。
【0051】こうして得られた音源情報図形上の、時間間隔と周波数との積が一定となる線に沿ってメリン変換の計算を行なう。こうして、音源の周期性および物理的大きさの拡大または縮小に対して不変な表現であるメリンイメージが得られる。
5.メリンイメージの時系列前節では、ある一時点の安定化ウェーブレット変換からメリンイメージを計算する方法を示した。信号は時々刻々変化しており、それに対応した安定化ウェーブレット変換から得た音源情報図形も変化する。そこで、ある間隔ごとに音源情報図形を抽出し、それをもとにそれぞれメリンイメージを計算する。このメリンイメージの各々から1つの特徴ベクトルを抽出することができる。すると、スペクトログラムのように、横軸に時間をとり、縦軸にメリンイメージベクトルの軸をとって、メリンイメージベクトルを並べた表現を作ることができる。これは、スペクトログラムとは全く異なるものではあるが、形式的には同じとなるので、従来スペクトログラムを用いてきた信号処理手法にそのまま入力でき、様々な分野に容易に応用することができる。
【0052】[作用・効果]音源の物理的な大きさに依存して、解析する波形が時間的に拡大・縮小しても、メリンイメージのスケール分布は不変である。これは、フーリエスペクトルにはない性質である。また、同時にフーリエスペクルとは表現は異なるものの、メリンイメージベクトルによる表現は、解析の対象となる波形の拡大・縮小以外の違いは明確に表わすことができる。音声の場合は、異なる声道長の発声もメリンイメージベクトルによる表現では同様に扱うことができる。したがって逆にメリンイメージベクトルによる表現を用いて音韻の違いだけを強調することができる。たとえば、メリンイメージベクトルによる表現を用いれば、大人のデータで学習した音声認識装置をそのまま子供の認識に使うことができる可能性がある。これ以外にもメリンイメージベクトルを用いた表現を適用することができる局面は多くあり、音声認識装置等の性能向上が期待できる。さらに、メリンイメージベクトルによる表現を従来より用いられているスペクトル分布と組み合わせて用いることにより、従来の性能を超えた音声信号処理を実現できる。また、対象となる波形は、時系列データであれば何でもかまわないので、音声や音楽といった音響信号ばかりでなく、機械的振動、生体信号、および時系列的な計測データのいずれにも本発明にかかる手法を応用することが可能である。
【0053】以上において、本願発明の実施の形態の基本的手法と、その背景とについて説明した。以下、本願発明の実施の形態について詳細に説明する。
第1の実施の形態図4を参照して、本発明の第1の実施の形態の音声認識装置は、図1に示すものと同様、安定化ウェーブレット処理部2と、メリン変換処理部3と、信号処理部4とを含む。
【0054】安定化ウェーブレット処理部2は、音声信号12を入力として受け、音声信号12に対してウェーブレット変換を行なって周波数分析を行なうための聴覚フィルタバンク13と、聴覚フィルタバンク13の出力に対して、聴神経での神経活性度に類似した出力を得るような変換を行なうための聴神経発火パターン変換部14と、時間積分を制御するために、ある近傍での最大値を検出するための事象検出(ピッチ検出)回路15と、事象検出(ピッチ検出)回路15の出力を合図(ストローブ)として、聴神経発火パターン変換部14の出力する現在の一定区間を取出して前述した時間積分を行なって安定化聴覚イメージを生成し出力するための安定化聴覚イメージ処理部16とを含む。これら各構成要素については後に詳述する。
【0055】メリン変換処理部3は、安定化聴覚イメージ処理部16の出力する安定化聴覚イメージを変形し、新しい表現である寸法−形状イメージを出力するための寸法−形状イメージ処理部17と、寸法−形状イメージ処理部17の出力する寸法−形状イメージからメリンイメージを計算し、メリンイメージベクトルに基づく表現として出力するためのメリンイメージ処理部18とを含む。
【0056】信号処理部4は、メリンイメージ処理部18の出力するメリンイメージベクトルに基づく表現を、予め準備されたテンプレートとマッチングして音声認識し音声認識結果20を出力するための音声認識回路19を含む。
【0057】図4に示す装置において、入力される音声信号12は、メリン変換処理部3によって安定化聴覚イメージ(Stabilized Auditory Image, SAI)に変換される。この安定化聴覚イメージは、安定化ウェーブレット変換2で得られる表現の聴覚版である。安定化聴覚イメージは、寸法−形状イメージ処理部17によって寸法−形状イメージ17に変換され、さらにメリンイメージ処理部18によってメリンイメージ18に変換される。この処理は、メリン変換3に相当する。なお、以下に述べる聴覚イメージモデルをもとにした安定化ウェーブレット−メリン変換を示す式等については実施の形態の説明の最後に添付した付録Cに記載してある。
1.安定化聴覚イメージの構成この節では、安定化ウェーブレット処理部2の各構成要素の動作について述べる。入力される音声信号12は、聴覚フィルタバンク13で周波数分析される。この実施の形態の装置では、聴覚フィルタバンク13の各々の聴覚フィルタは、ガンマ分布関数の包絡線で周波数変調された搬送波を持つガンマチャープ(式C1)で近似できる。また、聴覚フィルタバンク13はおおよそ500Hz以上では最大周波数と帯域幅が比例する定Q型のフィルタとなっている(式C2)。すなわち、聴覚フィルタバンクはガンマチャープ(式C1)を核関数としたウェーブレット変換(式C3、式C4)になっていて、この関数のパラメータは人間の聴覚フィルタを模擬するように設定できる(Irino and Patterson,"A time-domain, level-dependent auditory filter: The gammachirp," J. Acoust. Soc. Am., 101,pp.412-419, 1997)。聴覚フィルタを並べた聴覚フィルタバンク13はIIRフィルタで構成できる(たとえば特開平11−24696号公報、特開平11−119797号公報を参照)。
【0058】聴覚フィルタバンク出力は、聴神経発火パターン変換部14によって聴神経発火パターン(Neural Activity Pattern, NAP)に変換される。具体的には、聴覚フィルタバンク13の出力に対して半波整流が行なわれて、振幅が対数圧縮(式C5)または指数圧縮(式C6)され、さらに適応処理により信号の立ち上がり部分が強調されて、聴神経での神経活性度に類似した出力を得る。
【0059】事象検出(ピッチ検出)回路15は、各チャンネルの活性度を監視して、ある近傍での最大値を検出して、時間積分を制御する。事象検出(ピッチ検出)回路15での処理は例えば以下のようにして行なわれる。まず、活性度を平滑化して包絡線を計算する。得られた包絡線の微分を計算して、その値(包絡線の勾配)が正から負に変化する時点に近い、活性度の一番大きいピーク時点を近傍最大値時点とする(上記Irino and Patterson, 1996)。この近傍最大値は、音声の有声音および定常的な楽器音のように周期性や疑似周期性を持った信号では、定常的に発生する。この近傍最大値を合図(ストローブ)として、神経発火パターンの現在の一定区間を取り出して、聴覚イメージ16のバッファの対応するチャンネルに近傍最大値の時点をそろえて加えることを各区間ごとに繰返し行なうことにより時間積分が行なわれる。こうした積分をストローブ時間積分(Strobed Temporal Integration, STI)と呼ぶ。
【0060】STIの処理は、神経発火パターン(NAP)の時間軸を、直前の近傍最大値を基準とする時間間隔軸に変換する役割を果たしている(式C7)。ストローブ時間積分を聴覚フィルタバンク13の全てのチャンネルについて行なえば、聴覚フィルタバンク13での縦軸(対数周波数軸)の値を保ったまま、安定化された聴覚イメージ16(式C7)が得られる。この安定化された聴覚イメージは、半減期約30msで全体が減衰するようにされており、入力信号がなくなった時点で自然にイメージも消失する。
【0061】安定化聴覚イメージを時間方向に積分することにより、スペクトル的な周辺分布が得られる。このスペクトル的な周辺分布は従来からのスペクトログラムのスペクトルベクトルと類似しているので、聴覚的スペクトログラムを構成でき音声認識にも応用できる(たとえば、上記、Patterson et. al. 1995を参照)。
2.寸法−形状イメージの構成この節では、寸法−形状イメージ処理部17で行なわれる処理の詳細について述べる。安定化聴覚イメージ処理部16から出力される安定化された聴覚イメージは横軸に線形の時間間隔軸、縦軸に対数周波数軸を持った表現になっている。寸法−形状イメージ処理部17では、この表現を変形することによって、新たな表現である寸法−形状イメージを求める。これは次節のメリンイメージ18を容易に計算できるようにする重要な段階である。この処理を行なう寸法−形状イメージ処理部17の詳細を図5のブロック図に示す。また、以下の処理の流れを図6のフローチャートに示す。以下の説明では随時図5および図6の記載を参照する。
【0062】図5を参照して、寸法−形状イメージ処理部17は、安定化聴覚イメージ21に含まれるフィルタ遅れを補正するためのフィルタ遅れ補正部22と、聴覚イメージを全てのチャンネルについて垂直方向に加え合わせて時間間隔軸上の総計活性度を計算するための活性度計算部23と、活性度計算部23によって計算された活性度の大きさに基づいて、聴覚イメージの周期性を検出するための周期性検出部24と、周期性検出部24によって検出された周期性を用い、聴覚イメージの中から後述する聴覚図形を抽出するための聴覚図形抽出部25と、聴覚図形抽出部25によって抽出された聴覚図形の横軸を線形の時間間隔軸から対数の時間間隔軸に変換するための対数時間間隔表現への変換部26と、対数時間間隔表現への変換部26によって横軸が変換された聴覚図形において観察される、直線のインパルス応答線が縦軸と平行な向きとなるように各チャンネルごとに横軸を移動させる処理を行なうインパルス応答分補正部27とを含む。
【0063】聴覚イメージモデル(Auditory Image Model, AIM)
(上記、Patterson et. al. 1995)にしたがって求めた、安定化された聴覚イメージの例としての安定化聴覚イメージ21を図7に示す。図7は、10ms間隔、すなわち周波数100Hz、で発生させたクリック系列音に対する聴覚イメージを2周期強表示している。縦軸は、フィルタの各チャンネルをそれらの最大周波数Hzで表しており、疑似対数周波数軸になっている。横軸は、ストローブ時間積分を開始した近傍最大値の時点からの時間間隔を表わし、ミリ秒単位で表されている。ここでは、時間間隔は線形の軸である。
【0064】図7を参照して、3つある垂直の線に沿った活性度が高い所は、原波形の周期と同じ周期で配置されている。横軸の0msの所は、ストローブ時間積分で近傍最大値の活性度が転写される場所である。この近傍最大値は、周期信号の場合は各々の周期を特定し、また、非周期信号の場合は特徴の開始点を特定する。このようにしてストローブ時間積分は、メリン変換の解析の開始時点、または零点を特定する。
【0065】メリン変換においては、初段の聴覚フィルタバンク13を構成する各々のウェーブレットフィルタが合理的な基準で揃っていること、たとえば、聴覚フィルタの包絡線の立ち上がり時点(式C1での時間t=0の時点)が全てのチャンネルで揃っていることが理論的には望ましい。ところが、ストローブ時間積分では、聴覚フィルタの包絡線の立ち上がり自体を検出できるわけではなく、応答の最大値でストローブをかけるので、包絡線の立ち上がりに対して遅れ時間を生じる。このずれは、図7の垂直の活性度の各密集位置の左側に存在している曲線上の活性度によって見ることができる。このフィルタ分の時間遅れを補正することが処理を分かりやすくする上で望ましい。
【0066】そのための補正を行なうのがフィルタ遅れ補正部22である。この補正を行なうためには、単純に聴覚フィルタの最大周波数の逆数の周期分、各々のチャンネルの活性度を右に移動させてやれば良い(式C8)。図7に対して補正を施した結果の聴覚イメージを図8に示す。これによって、垂直に配置された所は、メリン変換の開始点の良い近似となる。なお、この補正を行なわなくてもメリン変換の出力にそれほど影響がないことが分かっていることについては後述するとおりである。
【0067】前述のように安定化聴覚イメージ処理部16で行なわれるストローブ時間積分(STI)は、周期的な音によって聴神経発火パターン(NAP)にくりかえし生じる時間間隔パターンを安定させて、図7の時間間隔で0、10、20の所で示されるように聴覚イメージ(SAI)の中で垂直の方向に活性度が集中する所を生じさせる。図7を参照して明らかなように、この垂直活性度線はもとの信号の周期と同じ間隔で、聴覚イメージをいくつかの類似した区間に分割している。この一つの区間を、音源信号に対応する聴覚図形(AuditoryFigure, AF) (式C9)と呼ぶことにする。
【0068】活性度計算部23は、この聴覚イメージを各々のチャンネル全てについて垂直方向に加え合わせて、時間間隔軸上の分布の総計活性度を計算する。周期性検出部24は、この活性度の大きさによりパターンの周期性を決定できる。この周期性情報を用いることにより、聴覚図形抽出部25はフィルタ分の補正を行なった聴覚イメージ(図8、フィルタ遅れ22で補正した結果に相当)中から聴覚イメージの1周期分に相当する聴覚図形を抽出できる。
【0069】聴覚図形抽出部25によって抽出された聴覚図形は横軸として線形の時間間隔軸を有する。この横軸の時間間隔を対数変換すると後の処理を容易に行なうことができる。対数時間間隔表現への変換部26がこの対数変換を行なう。すなわち対数時間間隔表現への変換部26は、聴覚図形の横軸を対数時間間隔軸に変換する(式C10)。この変換により、図9に示すように聴覚フィルタのインパルス応答に相当する聴覚図形中の曲線群を、500Hz以上ではほぼ平行で規則的に並んだ直線群に変換することができる。図9は、図8内の最も左側の聴覚図形を対数時間間隔軸にスプライン補間を用いて変換した図である。
【0070】図9を参照して、この直線のインパルス応答線はいずれも負の勾配を持ち、聴覚図形の対角線と同様に傾いている。この表現は、横軸に対数時間間隔を、縦軸に対数周波数を、それぞれ持っており、メリン変換を容易に計算できるような形になっている。
【0071】メリン変換の計算と音源情報を示す表現をわかりやすくするために、図9の対数時間間隔聴覚図形(式C10)のインパルス応答線が縦軸と平行な線(横軸に対して垂直となるので、以下これを「垂線」と呼ぶこととする。)になるように補正して図10を得る(式C11)。この補正は対数時間間隔表現への変換部26によって行なわれるものであり、各チャンネルごとに、最大周波数の対数に比例した分だけ右方向に対数時間間隔軸を移動することに相当する。図10での新しい横軸は、時間間隔とチャンネル最大周波数との積h(式B9)の対数で表わされている。縦軸は従来と同様対数軸表示の最大周波数である。
【0072】図10を参照して、一番左の点線の垂線は、時間間隔とチャンネル最大周波数との積hが1となる聴覚図形内の位置を示している。また、図10ではhの値が1〜5に対応する垂線が破線で引いてあるが、そのいずれの上にも活性度が集中している。すなわち、図1010に示される表現においては全てのウェーブレットフィルタのインパルス応答は、hの値が整数となる垂線上に集中しており、したがってこの表現がウェーブレットフィルタの拡大・縮小に依存しないことがわかる。これを容易に理解できるようにするため、横軸をhの線形軸に直すと図11が得られる。
【0073】なお、図11に示される例では、対数変換を用いないで直接図8の聴覚イメージから活性度を求めたため、h=0に対応する垂線上の活性度も示されている。この処理を行なうためには、図8に示される聴覚イメージにおいて、各チャンネルの最大周波数に比例したサンプリング周波数でそれぞれの活性度の再サンプリングを行ない、そのサンプル点をそのまま2次元上に並べればよいだけである。
【0074】前節で述べたとおり、この表現においては、ウェーブレットフィルタはどのチャンネルでも同じ表現になっているので、音源が相似でその結果波形がウェーブレット的に拡大・縮小されている場合には、常に同じ形状の表現が得られる。波形の拡大・縮小は、この表現においては垂直の周波数軸の方向への、活性度の分布の単なる平行移動という形で表される。したがって、音源の大きさと形状との双方に関する情報を表現しているという意味で、この表現を寸法−形状イメージ(Size-Shape Image, SSI)と呼ぶことにする。後で述べるように、この表現は母音の聴覚図形を表現する時に特に有効である。以上の処理の流れが図6のフローチャートに示されたものである。
【0075】図10・図11の寸法−形状イメージにおける聴覚図形は、図7の聴覚イメージの一番左の聴覚図形から上記の一連の手続きによって求められたものである。しかし、必ずしも一番左の聴覚図形でなくてもかまわず、2番目の聴覚図形でも良いし、どの信号のどの1周期分を表現する聴覚図形(式C9)でも手続きを進める上では問題ない。
【0076】ただし、この例のような単純なクリック音系列の場合にはどこを選んでも同じであるが、音声や楽音等に雑音が付加された場合にはむしろ2番目の聴覚図形を選んだ方が信号のみの成分を抽出するには有利である。これは、雑音と信号の成分の両方が1番目の聴覚図形に集中するためである。
【0077】寸法−形状イメージの横軸のh軸に沿った周辺分布は、各チャンネルで形状が同じウェーブレットフィルタのインパルス応答が主になるので、インパルス周辺分布(ImpulseProfile)と呼ぶことにする(式C12)。これに対して縦軸に沿ったものは、聴覚スペクトル周辺分布(Spectral Profile)である(式C13)。インパルス周辺分布は、従来からのスペクトルベクトルとは異なる音源情報を持っている。各周辺分布はある一時点における寸法−形状イメージを代表するベクトルであるので、たとえば一定間隔ごと(たとえば、5〜30ms程度ごと)にこれらのベクトルを計算して時系列としてスペクトログラムの形式に並べれば、音声認識に応用できるようになる。この表現は、寸法−形状イメージスペクトログラムと呼ぶことができよう。
3.メリンイメージの構成この節では、寸法−形状イメージ処理部17から出力された寸法−形状イメージから、メリンイメージ処理部18がメリンイメージを求める理由と処理過程を述べ、このメリンイメージが図1のメリン変換処理部3から出力されるメリンイメージに相当することを示す。
【0078】寸法−形状イメージ処理部17の出力する寸法−形状イメージは、聴覚ウェーブレットフィルタの応答が分布のほとんどを占めている。クリック系列音以外が入力された時にこれらのインパルス応答線の右側に出力されたであろう音源情報は相対的に小さくしか表現されない。我々が抽出したいのは音源情報自体であるので、何らかの手段で聴覚フィルタ情報を何らかの逆畳み込み法で取り除きたい。このために、この寸法−形状イメージの各hごとに垂直ベクトルをフーリエ変換してその空間周波数成分の振幅で各ベクトルを表すことを考える。寸法−形状イメージ内の聴覚ウェーブレットフィルタ情報は図10からもわかるように、各チャンネルであまり変化しないことから、空間周波数が極めて低い所にその情報が集中するであろう。これに対し、クリック系統音以外の音源からの音情報は、ウェーブレットフィルタを強制的に励振して色々な周波数に別々のリンギングを起こすので、空間周波数が比較的高い所に出てくるであろう。これにより、音源情報をウェーブレットフィルタ自体の情報から分離することができる。
【0079】この計算は、インパルス周辺分布の式C12の中にある荷重関数W(αfb,h)を式C14で示される対数周波数上で定義される荷重付き複素正弦波に置き換えることによって実現できる。このとき空間角周波数c/2πをパラメータとして導入してW(αfb,h,c)とし、式C12に代入することによって、2次元表現の式C15を得ることができる。式C15から得られる出力MI(h,c)をメリンイメージ(Mellin Image)18と呼ぶことにする。この時横軸は、寸法−形状イメージと同じhで、縦軸はフーリエ変換の空間周波数c/2πである。寸法−形状イメージにおける垂直方向への平行移動は、フーリエ変換を通すと単なる位相の変化となって振幅情報は不変である。また、寸法−形状イメージにおいては、すでに音源の周期性は取り除かれていて、h軸方向は大きさ不変である。したがって、このメリンイメージによって表現された聴覚図形は、音源の大きさや音源励振の周期性に依存しない音源の形状情報を表現していることになる。
【0080】クリック系列音の寸法−形状イメージの図1111から求めたメリンイメージを図12に示す。図12から分かるように、このクリック系列音のメリンイメージにおいては、非常に低い空間周波数にのみ活性度が集中していて、高い周波数の所にはほとんど活性度がない。これは、上述のとおりクリック音が寸法−形状イメージの中では垂線上に低周波数のチャンネル以外ほぼ平坦な活性度しか生じさせないことを反映している。そもそもウェーブレットフィルタのインパルス応答をどのチャンネルでも同じ形となるように正規化したのが寸法−形状イメージであるので、理論的には、単一のクリックのみが入力された場合、空間周波数が零の所にのみ振幅値が存在する。
4.メリンイメージとメリン変換の対応づけ減衰振動波や母音の解析の例に移る前に、メリンイメージ処理部18の出力として得られる、本例での周波数領域での積分で表されるメリンイメージ(式C15)と、基本的な説明として述べた時間間隔領域での積分で表されるメリン変換処理部3から出力されるメリンイメージ(式B10)との関係を考える。時間間隔と最大周波数との積が一定という基本的な制約条件(式B9)の対数をとると式C16となり、その微分から式C17が得られる。式C15にこの関係を代入して式C10、式C11を利用すると式C18が得られる。これは、定数以外、式B10と同様な時間間隔領域での積分の式になっている。この事実は、メリンイメージ処理部18の出力として得られる、本例での周波数領域での積分で表されるメリンイメージ(式C15)と、基本的な説明として述べた時間間隔領域での積分で表されるメリン変換処理部3から出力されるメリンイメージ(式B10)とが同じであることを示している。
5.減衰振動波の聴覚イメージ・寸法−形状イメージ・メリンイメージ繰返しのある指数減衰正弦波の聴覚イメージを図13に示す。この指数減衰正弦波は、2msの半減期の指数包絡線を持ち、2kHzの周波数の正弦波の搬送波を持ち、繰返し周波数は100Hzである。このパラメータを持つ減衰正弦波は単一ホルマントの母音に類似している。繰返される立ち上がりの部分は、クリックに似た応答を周波数領域で2kHzから離れた所で垂線上の活性度として生じさせていて、2つの垂直活性度の間隔は信号の周期性を示している。図13の聴覚イメージからは、2kHzの領域では、減衰包絡を持つ共振によって、応答が強調されて伸びていることがわかる。これは、音声を含む自然界の音では共通に見られる特徴である。
【0081】この減衰正弦波の聴覚図形の寸法−形状イメージを図14に示す。2kHzから離れた所の活性度は図11のクリック系列音の場合とあまり変わらない。しかし、2kHz周辺のチャンネルでは、活性度は高いhの値まで伸びており、hの値が増えるにつれて次第に隣接活性度の列の傾きが増していることがわかる。このことは、2kHzのチャンネル以外のチャンネルでの瞬時周波数がウェーブレットフィルタの周波数すなわち各チャンネルのフィルタの搬送波周波数になっているわけでないことを示している。
【0082】この減衰正弦波のメリンイメージを図15に示す。立ち上がりの部分はクリック的なのでクリック系列音の場合(図11)と同様に空間周波数が非常に低い所に活性度が集中する。寸法−形状イメージの2kHz領域の共振に関係する活性度は、メリンイメージ上ではさらに垂直の帯状の活性領域を増やしていて、hが大きい部分で広い空間周波数の応答があることを示している。帯状活性領域の幅はhが大きくなるにつれ広くなり、これは、微細構造において観測される隣接する活性度の間の傾きがhの増大につれて大きくなっていることに対応している。これは単一共振または単一ホルマントの音源の特徴である。
【0083】減衰正弦波のメリンイメージの帯状構造のうちこれ以外のパラメータを持つものは、搬送波の周波数・包絡線の半減期・信号の繰返し周波数によってあまり変化しない。すなわち、上記した帯状構造の相違によって、寸法や繰返し周波数と独立に音源の形状の情報を取り出していることになる。垂直の帯状領域の強さや広がりは減衰正弦波の半減期の増加とともにゆるやかに増加する。次節では、例をさらに拡張し、声道断面積関数を用いて合成した母音について同様な解析を行なう。
6.4種類の母音'a'の聴覚イメージ・寸法−形状イメージ・メリンイメージ寸法−形状イメージとメリンイメージとの、音源の寸法に対する不変特性を示すために、4種類の合成母音の'a'を作成した。この合成母音はひとりの男性の声道断面積関数(Yang C-S and Kasuya, H.(1995)."Dimension differeces inthe vocal tract shapes measure from MR images across boy, female and male subjects," J. Acoust. Soc. Jpn (E), 16, pp.41-44.)を使って声道モデルから合成した母音である。この声道形状の特徴を寸法−形状イメージ・メリンイメージで抽出することを考える。
【0084】4種類のうちの1組2音声は、その声道断面積関数をそのまま用い、異なる2周波数100Hzと160Hzとの声帯パルスで励振したものである。これらの聴覚イメージを図16と図17に示す。声道の共振は、聴覚イメージ上での共振領域での応答の伸びとして見ることができる。これこそ音声学で呼ぶホルマントである。第2・第3ホルマントは、おおよそ1000Hzと2200Hzとに中心周波数を持っている。図中の垂直活性度の集中位置は図17の方が図16よりも互いに近くなっているが、声帯振動周波数によってはホルマントの位置は変化していないことが分かる。
【0085】2組目の2音声は、上記で用いた同じ声道断面積関数を相似に保ったまま、声道の長さを2/3に縮小して合成した場合である。声帯振動周波数は前と同様100Hzと160Hzである。これらの母音の聴覚イメージを図18と図19に示す。これらの図同士では第2・第3ホルマントは同じ位置にあるが、元の図16と図17の場合と比べると、3/2倍の周波数1500Hzと3300Hzとにそれぞれ移動している。これは、声道長が短くなったためである。垂直活性度の位置は、図16と図18、図17と図19でそれぞれ同じになっている。
【0086】これらの4母音の寸法−形状イメージを図2020〜図23に聴覚イメージの順番どおりに示す。これらの聴覚図形では、聴覚図形の左にある声帯パルスに対する応答と右側に伸びるホルマントとの区別が強調されている。元々の長い声道からの音声の情報のパターン(図20と図21)は基本的には同じになる。しかし、波形上の繰返し周波数によって決まる聴覚図形の右側の境界の位置だけは互いに異なり、高いピッチの図21の方が範囲が狭い。同様に、短い声道の母音(図22と図2323)の寸法−形状イメージでも両者のパターンは同じで、やはり右側の境界の位置だけが異なる。
【0087】さらに、長い声道と短い声道での寸法−形状イメージを比べると、下から4つのホルマントの応答パターンがそれぞれ非常に類似していることがわかる。異なるのは、長い声道の図20と図21とのパターンにくらべて短い声道の図22と図23とのパターンは周波数の上方に平行移動している点である。長い声道の図20R>0と図21の寸法−形状イメージで見える第5・第6ホルマントは、図22と図23とでは上限周波数6000Hzの上に同じ量だけ移動してしまって見えなくなっているが、図の周波数範囲を上方に広げれば見えるようになる。
【0088】これらの4母音のメリンイメージを図24〜図27に聴覚イメージや寸法−形状イメージの順番どおりに示す。メリンイメージの縦軸はメリン係数c/2πで、これは寸法−形状イメージの垂直方向に対する空間周波数に相当し、100Hzから6000Hzまでの範囲での1周期が空間周波数1に対応する。あるhの値に対するメリンイメージの値は、寸法−形状イメージの垂直方向に複素正弦波を用いて積分した後の絶対値で、空間周波数と活性度の分布とに最も合致するものが大きくなる。
【0089】図20〜図23を参照して、母音'a'の寸法−形状イメージのhの整数の5ぐらいまでは、声帯パルスの応答が4サイクル/周波数範囲以下の低い空間周波数に活性度が見られる。hが2以上になると、ホルマントが寸法−形状イメージ中の別々の帯に値が大きい所として現れる。hが2から8に増えると最も良く整合する周波数が6から18程度と、値が大きいところが出てくる。hが8以上では、寸法−形状イメージでみると一つしかホルマントがなく、それによってメリンイメージに幅広い帯状活性領域ができることがわかる。これが、これらの4母音'a'のメリンイメージを示す図20〜図2323での、共通特性でもっとも特徴的である。
7.日本語の5母音'a,i,u,e,o'の寸法−形状イメージとメリンイメージ寸法−形状イメージとメリンイメージとにおいて、異なる母音がどのように表現されるか示すために、日本語5母音の組を解析した。同一の声道モデルで同一の男性話者であるが、異なる声道断面積関数(上記Yang and Kasuya, 1995)を使って異なる5母音を合成した。すべて、計測通りの声道断面積・声道長を用いて、100Hzの声帯パルスで駆動することにより合成した。5母音'a, e, i,o, u'についてこの順番で、聴覚イメージを図28〜図32、寸法−形状イメージを図33〜図37R>7、メリンイメージを図38〜図42に、それぞれ示す。
【0090】聴覚イメージと寸法−形状イメージとを比べると、時間間隔軸の対数変換が、ホルマントの強調の仕方を変化させていることがわかる。たとえば、母音'a'(図28)においては、第2ホルマントの共振の継続長が第4ホルマントに対して3倍くらい長くなっている。しかし、寸法−形状イメージ(図33)においては時間周波数積の軸hに対して第2ホルマントの共振の継続長が第4ホルマントに対して同程度からやや短くなっている。このような表現の変換がなければ、メリン変換を周波数軸に対し直接取っても高次のホルマントの役割はほとんど見えなくなるであろう。寸法−形状イメージにおけるチャンネルの補正が、ウェーブレットインパルス応答と音源の性質による応答とを分けるのに有効に働いている。
【0091】まず、前節で説明した'a'(図33と図38R>8)と'e'(図34と図39)との寸法−形状イメージとメリンイメージとを比較する。'e'(図34)の寸法−形状イメージの中の高次ホルマントは'a'のものよりも集まっていて、高いh値まで伸びている。これにより、'e'メリンイメージは'a'メリンイメージと異なり、空間周波数c/2πが低い4のあたりと12〜16あたりで値が大きく、さらにhの高い所までその値が伸びている。
【0092】母音'i'(図35と図40)では、'e'と同様高次ホルマントが群をなしているがさらに集中している。これが、hの2〜6でのc/2πが8あたりの値の大きい所を生じさせている。hが4以上ではc/2πが15〜20くらいに活性領域が移動している。さらに、'i'の寸法−形状イメージでの共振領域の伸びからもわかるように、15以上の高いhの値まで幅広い帯状領域が広がっている。
【0093】'o'の寸法−形状イメージ(図36)では、第1・第2ホルマントの組と残りの3ホルマントの組との間(1200Hz〜2800Hz程度)に大きな周波数の隔たりがある。これにより、図41の'o'のメリンイメージではc/2πが4以下の活性度はあまり大きくない。第1ホルマントがある範囲、すなわち図36でhが5までの範囲で、c/2πが5〜8くらいの所で第1と第2ホルマントの間隔を反映している活性度があるが、第1ホルマントが消えるとc/2πが12〜20くらいでの高次ホルマントの間隔を反映する活性度が主になる。継続して続く高次ホルマントの群はhが高い所での低い空間周波数の拡散した活性度に反映して、他の母音との違いを示している。
【0094】母音'u'(図37と図42)は、他の母音と比べ単純で、ホルマントの共振帯域幅が広いために、寸法−形状イメージやメリンイメージでのhの値の大きい所まで活性度が伸びていない。これが、この母音の特徴を表しているのであろうが、それゆえhやc/2πが大きい所での区別しやすい特徴を失っている。hが2〜5の範囲ではc/2πが7あたりで強い活性度があり、hが4〜5の範囲では13くらいにある。帯状領域はhが10以上にほとんど存在せず、他の母音では'a'に近い。
【0095】このように、各々の母音のメリンイメージは特徴的に異なり、これらの相違からそれぞれの違いを容易に抽出できる。
8.音声認識装置前節までで、音源が同じ形状ではほぼ同じになり、異なる場合は特徴的に異なるという、メリンイメージの優れた特徴を示してきた。このようなメリンイメージの情報を用いると、優れた音声認識装置を実現できる。たとえば、メリンイメージの縦軸方向または横軸方向に向かって活性度を加えあわせると、それぞれ1次元ベクトルの周辺分布が得られる。これらのベクトルの両方または片方を一列に並べて1次元ベクトルとすれば、聴覚イメージのある一時点における特徴を表わす特徴ベクトルとなる。
【0096】この特徴ベクトルを聴覚イメージのたとえば一定間隔ごと(たとえば、5〜30ms程度ごと)に計算して、順次縦軸に並べてスペクトログラムの形式にすれば、メリンイメージスペクトログラムとでも呼べる表現が得られる。前述の寸法−形状イメージスペクトログラムと合わせても、現在広く使われている音声認識回路19(図4)にそのまま入力できる。各々の周辺分布は一時点の音源情報を代表するベクトルで、従来の振幅スペクトルより豊かな情報量を持っている。これにより、従来より優れた音声認識結果20を得られる。これが本発明の最大の長所である。
第2の実施の形態図43は、声道の大きさの違う大人・子供にかかわらず応用できる、他言語の練習または障害からのリハビリテーション用の発声練習装置に本発明を適用した実施の形態の装置を示す。この装置は、入力される音声を電気信号に変換するためのマイクロホン29と、マイクロホン29の出力する電気信号を増幅するための増幅器30と、増幅器30によって増幅された電気信号をアナログ/デジタル変換するためのA−D変換器31と、A−D変換器31から出力されるデジタル信号を受けて音声信号処理を行なうためのプログラムを実行する汎用コンピュータ32と、汎用コンピュータ32の出力に基づいて音韻、単語文字、特徴量を表示するための音韻・単語文字・特徴量表示装置33と、汎用コンピュータ32の出力するデジタルの音声信号をアナログ信号に変換するためのD−A変換器34と、D−A変換器34によってアナログ信号に変換された音声信号を増幅するための増幅器35と、増幅器35から与えられる音声信号を音声に変換するためのスピーカまたはヘッドホン36とを含む。
【0097】マイクロホン29の出力する、音声を表わす電気信号は増幅器30およびA−D変換器31を通って汎用コンピュータ32に入力される。汎用コンピュータ32は、後述するような処理をこの電気信号に対して行ない、その結果を表わす信号を音韻・単語文字・特徴量表示装置33およびD−A変換器34に与える。汎用コンピュータ32の出力は、音韻・単語文字・特徴量表示装置33により視覚的に提示され、また、D−A変換器34・増幅器35を通してスピーカまたはヘッドホン36によって聴覚的に提示される。
【0098】この汎用コンピュータでは、図44のフローチャートに従った処理が行なわれる。まず、既に説明した安定化ウェーブレット変換が行なわれる。その情報を用いて、ピッチ周波数・寸法−形状イメージ・メリンイメージが並列的に計算される。
【0099】寸法−形状イメージの計算では、話者の声道長に関する情報が計算され、メリンイメージでは声道長を正規化した表現が算出される。それらをあらかじめ蓄積されている標準テンプレートと比較することにより、話者がしゃべった音韻や文字列を判断してそれを視覚提示情報として出力したり、話者の声道長やピッチ情報に合わせた合成音として聴覚提示情報として出力したりする。
【0100】発声練習装置として用いるために、練習問題の生成等の教示情報からも視覚・聴覚提示ができるようになっている。これにより、標準テンプレートを大人でも子供でもすべての場合に用意する必要がないにもかかわらず正確な音韻判断ができるので、効率的な練習のための装置として有効である。
第3の実施の形態図45は、大きさの違う青果・果物・食物の品質の自動選別器に本発明を応用した実施の形態である。この自動選別器は、選別の対象となる物体に対して音波を照射するためのスピーカ37、増幅器38およびD−A変換器39と、選別する品物から戻ってくる音波を受信するためのマイクロホン40と、マイクロホン40の出力を増幅するための増幅器41と、増幅器41の出力をデジタル信号に変換するためのA−D変換器42と、A−D変換器42から与えられる信号に対して後述する処理を行なうためのコンピュータ43と、コンピュータ43から出力される制御信号にしたがって品物の選別を行なうための品質等級分別装置44と、コンピュータ43の出力する情報を表示するための表示装置45と、コンピュータ43の出力にしたがって警告を発するためのアラーム装置46とを含む。
【0101】コンピュータ43で行なわれる処理を図46R>6に示す。コンピュータ43はスピーカ37から品物に向けて発射される音声のための送信信号の生成を行ない、D−A変換器39に与える。コンピュータ43はさらに、出力信号の生成パラメータと、スピーカ37から発生された音声に応答して品物により反射され、マイクロホン40、増幅器41およびA−D変換器42を介して電気信号に変換されてコンピュータ43に与えられた受信信号とに基づいて、安定化ウェーブレット変換、寸法−形状イメージ、メリンイメージの計算を実行して、品物の大きさに依存しない、品物の内部状態に関する表現を得る。コンピュータ43は、得られた表現と、あらかじめ蓄積してある標準テンプレートとを比較することにより、品物の品質等級を決定して、その決定結果を出力する。出力と標準テンプレートとのずれが所定の値よりも大きい場合には、コンピュータ43は品物に欠陥があると判断して表示装置45およびアラーム装置46による診断結果の出力を行なう。
【0102】この実施の形態の装置により、ばらつきがある品物の大きさに依存せず、その内部状態だけに依存した有効な選別ができるようになる。このシステムは、上記のような品物だけではなく、身体の診断、鉄や金属製品、陶磁器等の製品の欠陥判断にも適用できる。
第4の実施の形態この第4の実施の形態の装置は、基本的には第3の実施の形態と同じ構成を有し、コンピュータで計算されたイメージを表示するための表示装置45(モニタ等)をさらに含む。この表示装置45により、大きさを正規化した表現を視覚的に提示する手段が得られ、人間が対象物の特性を直接判断できるようになる。また、欠陥判断をしてアラームを鳴らす装置46を設ければ、装置の欠陥を自動診断できるようになる。これにより第3の実施の形態だけではない、ソナー信号の処理一般に本発明を応用することができる。
【0103】本発明の応用としては、他にもさまざまなものが考えられる。たとえば、本発明によって対象物の大きさに依存しない表現が得られるため、建築の分野においては、コンサートホールのミニチュアモデルで計測を行なえば、建設後のコンサートホールの音響特性を予測できる。建築構造物自体の音波による老朽化診断も挙げられる。また、水中でのソナー信号の解析への応用も可能となる。
第5の実施の形態図47は、様々な大きさのエンジンの故障診断に本発明を適用した第5の実施の形態である。自動車・船舶等のエンジンに取り付けた振動センサかマイクロホン47の出力信号を増幅器41、A−D変換器42を通してコンピュータ50に入力する。コンピュータ50によって欠陥や故障の判断が行なわれその情報の表示装置51、アラーム装置52、エンジンの制御装置53が制御される。また直接イメージ出力する装置54も付けられる。
【0104】このコンピュータ50では、図48で示される処理が行なわれている。図48を参照して、入力された準周期的な信号に基づいて、安定化ウェーブレット変換が行なわれ、その結果から寸法−形状イメージ、およびメリンイメージが計算される。これらイメージと、あらかじめ蓄積してある標準テンプレートとを比較することにより、エンジンの状態を診断して結果を出力する。この時、結果として欠陥の有無という2値的な信号が得らるようにすれば、この信号で欠陥・故障表示装置やアラーム装置を制御することができる。これに対し、標準パターンとの距離尺度をあらかじめ決定しておいて、どれくらい類似しているかの距離を計算して連続量として出力することもできる。この情報はエンジンの回転等の異常の度合いを示すことになるのでエンジンの制御装置を制御する信号として用いることができる。また、直接イメージを出力すれば人間が視覚的に故障判断を行なうこともできる。
【0105】エンジンの形状は同じでも、排気量は目的に応じて変わる。同じエンジンの族ではたとえその寸法が異なっていても本発明を用いると同じ表現を用いることによりその状態を判断できる。したがって本発明によるエンジン状態の判断装置は、種々の大きさのエンジンについて、有効に共通の故障原因などを判定することができる。
【0106】さらには、建築物に取り付けたセンサからの出力を用いれば、建築物の欠陥診断にも応用でき、地震波の信号を用いれば、震源の大きさに依存しない共通の特徴をみつけることができる。また、本発明によれば、人工物であるか自然物であるか、またはどのような物理系により測定された信号かにかかわらず、信号源からの信号であれば何を入力としてもよい。例えば、心臓拍動音や脳波信号等の生体信号をピックアップすれば、その身体や頭の大きさに依存しない表現が得られるので、良好な診断結果を出すこともできる。
【0107】以上のようにこの発明による安定化ウェーブレット−メリン変換によれば、基本的に音源の物理的な大きさに依存しない信号表現(例えば音声の場合、男性・女性・子供によって異なる声道長を正規化した表現)、または、時系列データの場合には自己相似性(フラクタル性)を正規化した表現が得られる。すなわち、大きな部分を構成する一部分がもとの大きな部分と共通の構成を持っている事象については、大きな部分とそれを構成する小さな部分との双方について同じ表現が得られるということである。これは従来の自己回帰モデルやスペクトル分析では行ないづらかったことで、従来の時系列データ処理の限界を超えうる信号処理が可能となる。また、この過程で正規化できない要素は逆に分離できるので音声であれば個人認証等に有効に活用できる。このように音源の物理的大きさや自己相似性の正規化が必要となる信号処理に広く利用できる。
【0108】今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0109】以下は説明中で引用した付録である。
【0110】
【数1】
【0111】
【数2】
【0112】
【数3】
【0113】
【数4】
【図面の簡単な説明】
【図1】 この発明の原理を説明する概略ブロック図である。
【図2】 図1の安定化ウェーブレット処理部2のブロック図である。
【図3】 図1および図2に関連するフローチャートである。
【図4】 この発明の第1の実施の形態の音声認識装置の概略ブロック図である。
【図5】 図4の事象検出(ピッチ検出)回路15および安定化聴覚イメージ処理部16のブロック図である。
【図6】 図4および図5に関連するフローチャートである。
【図7】 クリック系列音の安定化聴覚イメージの例を示す図である。
【図8】 図7からフィルタの遅れに相当する分だけ補正した安定化聴覚イメージを示す図である。
【図9】 図8の横軸の時間間隔軸を対数変換して表示した安定化聴覚イメージを示す図である。
【図10】 すべてのチャンネルでウェーブレットフィルタのインパルス応答が縦方向にそろうように補正した安定化聴覚イメージを示す図である。
【図11】 図10に示される安定化聴覚イメージを、横軸の時間間隔周波数積hが線形軸となるように変換して表した図である。
【図12】 クリック系列音のメリンイメージを示す図である。
【図13】 指数減衰正弦波の聴覚イメージを示す図である。
【図14】 指数減衰正弦波の寸法−形状イメージを示す図である。
【図15】 指数減衰正弦波のメリンイメージを示す図である。
【図16】 測定した男性話者の声道断面積関数を用いて声道モデルより合成した日本語母音'a'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図17】 図16と同じ条件だが、声帯パルスの繰返し周波数160Hzで合成した、日本語母音'a'の聴覚イメージを示す図である。
【図18】 図16の声道断面積関数に対して声道長を2/3に縮小して、声道モデルより合成した日本語母音'a'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図19】 図18と同じ条件だが、声帯パルスの繰返し周波数160Hzで合成した、日本語母音'a'の聴覚イメージを示す図である。
【図20】 図16に対する寸法−形状イメージを示す図である。
【図21】 図17に対する寸法−形状イメージを示す図である。
【図22】 図18に対する寸法−形状イメージを示す図である。
【図23】 図19に対する寸法−形状イメージを示す図である。
【図24】 図16に対するメリンイメージを示す図である。
【図25】 図17に対するメリンイメージを示す図である
【図26】 図18に対するメリンイメージを示す図である。
【図27】 図19に対するメリンイメージを示す図である。
【図28】 測定した声道断面積関数を用いて声道モデルより合成した日本語母音'a'の聴覚イメージ(声帯パルスの繰返し周波数100Hz。)を示す、図16と同一の図である。
【図29】 図28と同じ男性話者で測定した'e'の声道断面積関数を用いて声道モデルより合成した日本語母音'e'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図30】 図28と同じ男性話者で測定した'i'の声道断面積関数を用いて声道モデルより合成した日本語母音'i'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図31】 図28と同じ男性話者で測定した'o'の声道断面積関数を用いて声道モデルより合成した日本語母音'o'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図32】 図28と同じ男性話者で測定した'u'の声道断面積関数を用いて声道モデルより合成した日本語母音'u'の聴覚イメージ(声帯パルスの繰返し周波数100Hz)を示す図である。
【図33】 図28に対する寸法−形状イメージを示す図である。
【図34】 図29に対する寸法−形状イメージを示す図である。
【図35】 図30に対する寸法−形状イメージを示す図である。
【図36】 図31に対する寸法−形状イメージを示す図である。
【図37】 図32に対する寸法−形状イメージを示す図である。
【図38】 図28に対するメリンイメージを示す図である。
【図39】 図29に対するメリンイメージを示す図である。
【図40】 図30に対するメリンイメージを示す図である。
【図41】 図31に対するメリンイメージを示す図である。
【図42】 図32に対するメリンイメージを示す図である。
【図43】 第2の実施の形態の発声練習装置のブロック図である。
【図44】 第2の実施の形態の汎用コンピュータが行なっている処理のフローチャートである。
【図45】 第3の実施の形態の品物品質等級分別装置および第4の実施の形態のソナーシステムのブロック図である。
【図46】 第3の実施の形態・第4の実施の形態のコンピュータが行なっている処理のフローチャートである。
【図47】 第5の実施の形態のエンジン故障診断装置のブロック図である。
【図48】 第5の実施の形態のコンピュータが行なっている処理のフローチャートである。
【符号の説明】
2 安定化ウェーブレット変換処理部、3 メリン変換処理部、4 信号処理部、7 ウェーブレット変換部、8 振幅圧縮部、9 事象検出処理部、10時間間隔安定化処理部、13 聴覚フィルタバンク、14 聴神経発火パターン変換部、15 事象検出回路、16 安定化聴覚イメージ処理部、17 寸法−形状イメージ処理部、18 メリンイメージ処理部、19 音声認識回路、 22 フィルタ遅れ補正部、25 聴覚図形抽出部、26 対数時間間隔表現への変換部、27 インパルス応答分補正部。
【特許請求の範囲】
【請求項1】 入力信号をコンピュータにおいてウェーブレット変換するウェーブレット変換ステップと、前記ウェーブレット変換するステップの出力を、コンピュータにおいて前記入力信号の周期に同期させてメリン変換することによって信号の特性を抽出する特性抽出ステップとを含む、信号処理方法。
【請求項2】 前記特性抽出ステップは、前記ウェーブレット変換ステップによって得たランニングスペクトルに相当する表現を、前記入力信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するステップと、前記時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するステップとを含む、請求項1に記載の信号処理方法。
【請求項3】 前記ウェーブレット変換ステップは、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて前記入力信号を積分変換するステップと、前記積分変換された前記入力信号を半波整流して出力するステップとを含む、請求項1〜請求項2のいずれかに記載の信号処理方法。
【請求項4】 入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現をコンピュータを用いて得るステップと、さらにコンピュータを用いて、前記対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって前記入力信号の特性を抽出するステップとを含む、信号処理方法。
【請求項5】 前記積分変換により抽出された前記入力信号の特性をベクトル表現し、さらにこれらベクトルの時系列として前記入力信号の経時的な特性を表現するステップをさらに含む、請求項4に記載の信号処理方法。
【請求項6】 コンピュータによって処理可能な予め定める形式に変換した入力信号をウェーブレット変換するためのウェーブレット変換手段と、前記ウェーブレット変換手段の出力を前記入力信号の周期に同期させてメリン変換することによって信号の特性を抽出するための特性抽出手段とを含む、信号処理装置。
【請求項7】 前記特性抽出手段は、前記ウェーブレット変換手段によって得たランニングスペクトルに相当する表現を、前記信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するための手段と、前記時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するための手段とを含む、請求項6に記載の信号処理装置。
【請求項8】 前記ウェーブレット変換手段は、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて前記入力信号を積分変換するための手段と、前記積分変換された前記入力信号を半波整流して出力するための手段とを含む、請求項6〜請求項7のいずれかに記載の信号処理装置。
【請求項9】 コンピュータによって処理可能な形式に変換した、入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現を得るための手段と、さらに前記対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって前記入力信号の特性を抽出するための手段とを含む、信号処理装置。
【請求項10】 さらに、前記積分変換により得られた前記入力信号の特性をベクトル表現し、さらにこれら表現ベクトルの時系列として前記入力信号の経時的な特性を表現するための手段をさらに含む、請求項9に記載の信号処理装置。
【請求項11】 各々入力信号を受けるように接続された、互いに同一のウェーブレット核関数を持ちそれぞれ別個の周波数を持つウェーブレットにより変換を行なう複数個のウェーブレットフィルタからなるウェーブレットフィルタバンクと、前記ウェーブレットフィルタバンクの出力を受けるように接続され、前記ウェーブレットフィルタバンクの出力から、聴覚図形を抽出するための聴覚図形抽出手段と、前記聴覚図形抽出手段によって抽出された聴覚図形から前記入力信号の寸法−形状イメージを生成するための寸法−形状イメージ生成手段と、前記寸法−形状イメージから前記入力信号の特徴を抽出するための特徴抽出手段とを含む、信号処理装置。
【請求項12】 前記特徴抽出手段は、前記寸法−形状イメージに対して、各前記ウェーブレットフィルタのインパルス応答線に沿ってフーリエ変換を行なうことによりメリンイメージを生成するためのメリンイメージ生成手段を含む、請求項11に記載の信号処理装置。
【請求項13】 前記聴覚図形抽出手段は、前記ウェーブレットフィルタバンクの出力に含まれる周期性を検出することにより、前記ウェーブレットフィルタバンクの各チャンネルの出力に対して時間ストローブ積分を行ない安定化された聴覚イメージを生成するための時間ストローブ積分手段と、前記時間ストローブ積分手段の検出した周期性に基づいて、前記時間ストローブ積分によって得られた安定化された聴覚イメージのうちの一周期を前記聴覚図形として抽出するための安定化聴覚イメージ抽出手段とを含む、請求項12に記載の信号処理装置。
【請求項14】 前記安定化聴覚イメージ抽出手段は、前記安定化聴覚イメージの一番目の周期を前記聴覚図形として抽出するための手段を含む、請求項13に記載の信号処理装置。
【請求項15】 前記安定化聴覚イメージ抽出手段は、前記安定化聴覚イメージの、二番目の周期を前記聴覚図形として抽出するための手段を含む、請求項13に記載の信号処理装置。
【請求項16】 さらに、前記ウェーブレットフィルタバンクの出力を半波整流して前記聴覚図形抽出手段に与えるための手段を含む、請求項11に記載の信号処理装置。
【請求項1】 入力信号をコンピュータにおいてウェーブレット変換するウェーブレット変換ステップと、前記ウェーブレット変換するステップの出力を、コンピュータにおいて前記入力信号の周期に同期させてメリン変換することによって信号の特性を抽出する特性抽出ステップとを含む、信号処理方法。
【請求項2】 前記特性抽出ステップは、前記ウェーブレット変換ステップによって得たランニングスペクトルに相当する表現を、前記入力信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するステップと、前記時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するステップとを含む、請求項1に記載の信号処理方法。
【請求項3】 前記ウェーブレット変換ステップは、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて前記入力信号を積分変換するステップと、前記積分変換された前記入力信号を半波整流して出力するステップとを含む、請求項1〜請求項2のいずれかに記載の信号処理方法。
【請求項4】 入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現をコンピュータを用いて得るステップと、さらにコンピュータを用いて、前記対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって前記入力信号の特性を抽出するステップとを含む、信号処理方法。
【請求項5】 前記積分変換により抽出された前記入力信号の特性をベクトル表現し、さらにこれらベクトルの時系列として前記入力信号の経時的な特性を表現するステップをさらに含む、請求項4に記載の信号処理方法。
【請求項6】 コンピュータによって処理可能な予め定める形式に変換した入力信号をウェーブレット変換するためのウェーブレット変換手段と、前記ウェーブレット変換手段の出力を前記入力信号の周期に同期させてメリン変換することによって信号の特性を抽出するための特性抽出手段とを含む、信号処理装置。
【請求項7】 前記特性抽出手段は、前記ウェーブレット変換手段によって得たランニングスペクトルに相当する表現を、前記信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するための手段と、前記時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するための手段とを含む、請求項6に記載の信号処理装置。
【請求項8】 前記ウェーブレット変換手段は、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて前記入力信号を積分変換するための手段と、前記積分変換された前記入力信号を半波整流して出力するための手段とを含む、請求項6〜請求項7のいずれかに記載の信号処理装置。
【請求項9】 コンピュータによって処理可能な形式に変換した、入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現を得るための手段と、さらに前記対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって前記入力信号の特性を抽出するための手段とを含む、信号処理装置。
【請求項10】 さらに、前記積分変換により得られた前記入力信号の特性をベクトル表現し、さらにこれら表現ベクトルの時系列として前記入力信号の経時的な特性を表現するための手段をさらに含む、請求項9に記載の信号処理装置。
【請求項11】 各々入力信号を受けるように接続された、互いに同一のウェーブレット核関数を持ちそれぞれ別個の周波数を持つウェーブレットにより変換を行なう複数個のウェーブレットフィルタからなるウェーブレットフィルタバンクと、前記ウェーブレットフィルタバンクの出力を受けるように接続され、前記ウェーブレットフィルタバンクの出力から、聴覚図形を抽出するための聴覚図形抽出手段と、前記聴覚図形抽出手段によって抽出された聴覚図形から前記入力信号の寸法−形状イメージを生成するための寸法−形状イメージ生成手段と、前記寸法−形状イメージから前記入力信号の特徴を抽出するための特徴抽出手段とを含む、信号処理装置。
【請求項12】 前記特徴抽出手段は、前記寸法−形状イメージに対して、各前記ウェーブレットフィルタのインパルス応答線に沿ってフーリエ変換を行なうことによりメリンイメージを生成するためのメリンイメージ生成手段を含む、請求項11に記載の信号処理装置。
【請求項13】 前記聴覚図形抽出手段は、前記ウェーブレットフィルタバンクの出力に含まれる周期性を検出することにより、前記ウェーブレットフィルタバンクの各チャンネルの出力に対して時間ストローブ積分を行ない安定化された聴覚イメージを生成するための時間ストローブ積分手段と、前記時間ストローブ積分手段の検出した周期性に基づいて、前記時間ストローブ積分によって得られた安定化された聴覚イメージのうちの一周期を前記聴覚図形として抽出するための安定化聴覚イメージ抽出手段とを含む、請求項12に記載の信号処理装置。
【請求項14】 前記安定化聴覚イメージ抽出手段は、前記安定化聴覚イメージの一番目の周期を前記聴覚図形として抽出するための手段を含む、請求項13に記載の信号処理装置。
【請求項15】 前記安定化聴覚イメージ抽出手段は、前記安定化聴覚イメージの、二番目の周期を前記聴覚図形として抽出するための手段を含む、請求項13に記載の信号処理装置。
【請求項16】 さらに、前記ウェーブレットフィルタバンクの出力を半波整流して前記聴覚図形抽出手段に与えるための手段を含む、請求項11に記載の信号処理装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【図33】
【図34】
【図35】
【図36】
【図37】
【図38】
【図39】
【図40】
【図41】
【図42】
【図43】
【図44】
【図45】
【図48】
【図47】
【図46】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【図33】
【図34】
【図35】
【図36】
【図37】
【図38】
【図39】
【図40】
【図41】
【図42】
【図43】
【図44】
【図45】
【図48】
【図47】
【図46】
【特許番号】特許第3174777号(P3174777)
【登録日】平成13年3月30日(2001.3.30)
【発行日】平成13年6月11日(2001.6.11)
【国際特許分類】
【出願番号】特願2000−15517(P2000−15517)
【出願日】平成12年1月25日(2000.1.25)
【公開番号】特開2000−285104(P2000−285104A)
【公開日】平成12年10月13日(2000.10.13)
【審査請求日】平成12年2月4日(2000.2.4)
【出願人】(592179296)株式会社エイ・ティ・アール人間情報通信研究所 (1)
【出願人】(597166578)メディカル リサーチ カウンシル (60)
【参考文献】
【文献】入野俊夫、「聴覚末梢系の計算理論」、電子情報通信学会技術研究報告,Vol.95、No.140(SP95−40)、p.23−p.30(1995.7)
【文献】森口、宇田川、一松、「岩波 数学公式 ▲II▼ 級数・フーリェ解析」、株式会社岩波書店(1987新装第1刷)、p.307−p.310
【登録日】平成13年3月30日(2001.3.30)
【発行日】平成13年6月11日(2001.6.11)
【国際特許分類】
【出願日】平成12年1月25日(2000.1.25)
【公開番号】特開2000−285104(P2000−285104A)
【公開日】平成12年10月13日(2000.10.13)
【審査請求日】平成12年2月4日(2000.2.4)
【出願人】(592179296)株式会社エイ・ティ・アール人間情報通信研究所 (1)
【出願人】(597166578)メディカル リサーチ カウンシル (60)
【参考文献】
【文献】入野俊夫、「聴覚末梢系の計算理論」、電子情報通信学会技術研究報告,Vol.95、No.140(SP95−40)、p.23−p.30(1995.7)
【文献】森口、宇田川、一松、「岩波 数学公式 ▲II▼ 級数・フーリェ解析」、株式会社岩波書店(1987新装第1刷)、p.307−p.310
[ Back to top ]