信号処理方法および装置

【発明の詳細な説明】
【０００１】
【発明の属する技術分野】この発明は、従来、自己回帰モデル等の統計的手法やフーリエ変換によって行なわれてきた、時系列データの解析の改良に関する。本発明はたとえば、楽音認識、音声による個人認識、音声認識、建築音響の分析、ならびに音声または音楽の信号分析、符号化、信号分離、および信号強調処理に応用できる。本発明は、また音響信号等に限らず、機械音および地震波等の機械的振動の解析、脳波、心臓拍動音、超音波エコー、および神経細胞信号等の生体信号解析、ならびに一般的な時系列データを収集するためのセンサー信号の解析等にも広範囲に応用される。
【０００２】
【従来の技術】従来より、信号処理一般の情報処理の基本として行なわれてきたのは、スペクトログラムつまり「時間−周波数表現」を求めることであった。高速ディジタル変換（たとえば高速フーリエ変換）を使っても、線形予測分析を使っても、求めるものは、ある一時点での周波数表現としてのスペクトルに直接的に対応するベクトルであり、これを時系列で持つことにより、スペクトログラムに相当する表現を用いていることになる。これら表現は、フーリエ変換から始まる信号のスペクトル表現に由来している。たとえば音声信号の特徴のための表現として最もよく用いられているのはサウンドスペクトログラム（sound spectrogram）であろう。サウンドスペクトログラムとは、音声スペクトルの時間的な変化を、濃淡図形表現、等高線表現、またはカラー表示などを用いて見やすく表現したものである。
【０００３】スペクトル表現は、波形自体で信号を表現するよりも信号の特徴を良く表現できること、人間の聴覚系は複数の正弦波からなる信号の相対的な位相関係にはあまり敏感でないとされていること、それらを効率的に計算できる計算手法が確立されていること等の特徴を有しており、音声等の情報処理にはちょうど良く整合が取れたために、広く使われるようになった。
【０００４】従来はさまざまな信号処理において、ありとあらゆることをもっぱら上記したスペクトル表現で見ることによって極限まで性能向上を図ってきた。しかし、すでに性能向上の限界に近くなっている感がある。たとえば、音声認識装置では一般的に事前に多数の人間の音声による学習が必要である。ところが、多数の大人の男声・女声で学習を行なった音声認識装置に子供の声を入力しても、ほとんど認識されないであろう。これは、基本的には、大人と子供とでは、声道や声帯の物理的大きさが異なるために、それぞれの発する音声のスペクトル構造およびピッチ周期が異なり、その結果それぞれの音声から抽出される特徴ベクトルが異なってくるためである。
【０００５】この問題を解決するために、その音声認識装置に多数の子供の声を学習させたり、子供のためだけに特別に準備した音声認識装置を大人と子供とを判別するための装置とともに用意したりする方策がある。しかし、子供の声の大規模データベースは現在は存在していないので、そうした子供専用の音声認識装置を容易に準備することはできない。さらに、仮にそうした子供の声の大規模データベースを手間をかけて構築したとしても、上記したような解決方法はあまり効率的とは言えない。
【０００６】
【発明が解決しようとする課題】この問題を本質的に解決するためには、スペクトログラムでは行ないにくい声道や声帯の物理的大きさの正規化が自動的に行なえる表現が不可欠である。ここでは、音声認識だけの例を挙げたが、たとえば楽器の発する音の分析およびエンジン音の分析におけるように、音源の物理的大きさにかかわらず不変な音響的な特徴抽出が必要となる問題はさまざまな局面で出ている。音響信号等に限らず、機械音および地震波等の機械的振動の解析、脳波、心臓拍動音、超音波エコーおよび神経細胞信号等の生体信号解析、一般的な時系列データを収集するためのセンサー信号の解析等、広範囲な分野でこうした問題に対する解決が必要である。
【０００７】それゆえに、本発明の目的は、振動源の物理的な大きさに依存しない何らかの表現を利用することによって、上記の例に関連して述べたようなスペクトル表現に由来する本質的な限界を超える信号処理を行なう方法およびそれを利用した装置を提供することである。
【０００８】
【課題を解決するための手段】請求項１に記載の発明にかかる信号処理方法は、入力信号をコンピュータにおいてウェーブレット変換するウェーブレット変換ステップと、ウェーブレット変換するステップの出力を、コンピュータにおいて入力信号の周期に同期させてメリン変換することによって信号の特性を抽出する特性抽出ステップとを含む。
【０００９】請求項２に記載の発明にかかる信号処理方法は、請求項１に記載の発明の構成に加えて、特性抽出ステップは、ウェーブレット変換ステップによって得たランニングスペクトルに相当する表現を、入力信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するステップと、時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するステップとを含む。
【００１０】請求項３に記載の発明にかかる信号処理方法は、請求項１〜請求項２のいずれかに記載の発明の構成に加えて、ウェーブレット変換ステップは、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて入力信号を積分変換するステップと、積分変換された入力信号を半波整流して出力するステップとを含む。請求項４に記載の発明にかかる信号処理方法は、入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現をコンピュータを用いて得るステップと、さらにコンピュータを用いて、対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって信号の特性を抽出するステップとを含む。
【００１１】請求項５に記載の発明にかかる信号処理方法は、請求項４に記載の発明の構成に加えて、積分変換により抽出された入力信号の特性をベクトル表現し、さらにこれら表現ベクトルの時系列として入力信号の経時的な特性を表現するステップをさらに含む。
【００１２】
【００１３】請求項６に記載の発明にかかる信号処理装置は、コンピュータによって処理可能な予め定める形式に変換した入力信号をウェーブレット変換するためのウェーブレット変換手段と、ウェーブレット変換手段の出力を前記入力信号の周期に同期させてメリン変換することによって信号の特性を抽出するための特性抽出手段とを含む。
【００１４】請求項７に記載の発明にかかる信号処理装置は、請求項６に記載の発明の構成に加えて、特性抽出手段は、ウェーブレット変換手段によって得たランニングスペクトルに相当する表現を、信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するための手段と、時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するための手段とを含む。
【００１５】請求項８に記載の発明にかかる信号処理装置は、請求項６〜請求項７のいずれかに記載の発明の構成に加えて、ウェーブレット変換手段は、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて入力信号を積分変換するための手段と、積分変換された入力信号を半波整流して出力するための手段とを含む。請求項９に記載の発明にかかる信号処理装置は、コンピュータによって処理可能な形式に変換した、入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現を得るための手段と、さらに対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって入力信号の特性を抽出するための手段とを含む。
【００１６】請求項１０に記載の発明にかかる信号処理装置は、請求項９に記載の発明の構成に加えて、さらに、積分変換により得られた入力信号の特性をベクトル表現し、さらにこれら表現ベクトルの時系列として入力信号の経時的な特性を表現するための手段をさらに含む。
【００１７】
【００１８】請求項１１に記載の発明にかかる信号処理装置は、各々入力信号を受けるように接続された、互いに同一のウェーブレット核関数を持ちそれぞれ別個の周波数を持つウェーブレットにより変換を行なう複数個のウェーブレットフィルタからなるウェーブレットフィルタバンクと、ウェーブレットフィルタバンクの出力を受けるように接続され、ウェーブレットフィルタバンクの出力から、聴覚図形を抽出するための聴覚図形抽出手段と、聴覚図形抽出手段によって抽出された聴覚図形から入力信号の寸法−形状イメージを生成するための寸法−形状イメージ生成手段と、寸法−形状イメージから入力信号の特徴を抽出するための特徴抽出手段とを含む。
【００１９】請求項１２に記載の発明にかかる信号処理装置は、請求項１１に記載の発明の構成に加えて、特徴抽出手段は、寸法−形状イメージに対して、各ウェーブレットフィルタのインパルス応答線に沿ってフーリエ変換を行なうことによりメリンイメージを生成するためのメリンイメージ生成手段を含む。
【００２０】請求項１３に記載の発明にかかる信号処理装置は、請求項１２に記載の発明の構成に加えて、聴覚図形抽出手段は、ウェーブレットフィルタバンクの出力に含まれる周期性を検出することにより、ウェーブレットフィルタバンクの各チャンネルの出力に対して時間ストローブ積分を行ない安定化された聴覚イメージを生成するための時間ストローブ積分手段と、時間ストローブ積分手段の検出した周期性に基づいて、時間ストローブ積分によって得られた安定化聴覚イメージのうちの一周期を聴覚図形として抽出するための安定化聴覚イメージ抽出手段とを含む。
【００２１】請求項１４に記載の発明にかかる信号処理装置は、請求項１３に記載の発明の構成に加えて、安定化聴覚イメージ抽出手段は、安定化聴覚イメージの一番目の周期を聴覚図形として抽出するための手段を含む。
【００２２】請求項１５に記載の発明にかかる信号処理装置は、請求項１３に記載の発明の構成に加えて、安定化聴覚イメージ抽出手段は、安定化聴覚イメージの、二番目の周期を聴覚図形として抽出するための手段を含む。
【００２３】請求項１６に記載の発明にかかる信号処理装置は、請求項１１に記載の発明の構成に加えてさらに、ウェーブレットフィルタバンクの出力を半波整流して聴覚図形抽出手段に与えるための手段を含む。
【００２４】
【発明の実施の形態】［発明の背景をなす基本的事項］まず、本発明、特に以下に述べる実施の形態の課題を明確化するために、メリン変換と音響物理とについて述べる。
１．メリン変換メリン（Mellin）変換は、フーリエ変換と同様な積分変換の一種類であり、発明の実施の形態の説明の最後に添付した付録Ａに示される式で定義される（森口・宇田川・一松著「数学公式II」岩波書店、1957年刊行、Titchmarsh,"Introduction to the Theory of Fourier Integrals," Oxford U.P., London, 2nd ed.）。付録Ａの式（Ａ２）によっても表わされるように、分析する信号の応答が相似形のまま時間的に拡大・縮小しても、メリン変換して得た分布の絶対値は定数倍以外不変となることがメリン変換の重要な特徴である。本願発明では、メリン変換のこの特徴を利用して、たとえば声道の大きさの相違に由来するスペクトル構造の相違およびピッチ周期の相違にもかかわらず、音声認識が行えるような、適切な信号処理を行なう。
２．音響管の物理無損失な音響管を考える。その音響管を伝搬する波の解は、その波を平面波で近似することによって得ることができる。均一の口径の音響管またはホーン形の音響管の解析解は、初頭的な物理の教科書にも書いてあるほどよく知られている。また、音響管の断面積が変化する場合でも、断面積関数を多数の微小な円筒で近似することによって、その音響管内を伝搬する波を数値的に解くことができる。声道をそのような方法で近似して解くことは、音声生成モデルの教科書の教えるところである（例えば、中田著「音声」コロナ社、改定版、1995）。
【００２５】さて、その音響管の一端をインパルスで駆動した場合の、他端でのインパルス応答を考える。ここで重要な特徴は、その音響管の大きさを比例的に拡大・縮小した場合、そのインパルス応答波形が時間軸上で拡大・縮小されることである。つまり物理的な音響管の大きさは、そのインパルス応答と直接的に関係している。
【００２６】大人の発声したある音韻と子供の発声した同じ音韻とは、それぞれの音響管の大きさが全く違うのにもかかわらず聞き手には同じように聞こえる。音声学の教科書または英語の教科書には、発声される母音（vowel）とそれに対応した調音位置（place of articulation）との対応図が記載されている。しかしそうした対応図には、その縮尺のようなものは記載されていない。そうした対応図は大人でも子供でも、かれらの調音器官の大きさの相違にかかわらず共用できる。つまり、調音器官の大きさの相違にかかわらず、相似的に調音のかまえを似たものにすれば、同じ音韻が発声できる。いいかえれば、声道の物理的な大きさが異なっても、声道断面積関数の相似性を保つことにより同じ音韻が発声できる。
【００２７】物理的に声道断面積関数が相似で、その全長が異なる場合、声道のインパルス応答は、時間的に拡大・縮小したものになる。そのため、大人の声に対して子供の声は、声道のインパルス応答が時間軸上で縮小された音響管を音声パルスで駆動したことに相当する。もちろん個人差があるため、以上は理想的な話ではあるが、上記したようなインパルス応答の時間軸上での縮小は、物理的考察に立った子供の音声の特徴の良い第一次近似であるはずである。こうした類推は、音声において妥当であるという理由ばかりでなく、大きさの異なるバイオリン、チェロおよびコントラバスが同じバイオリン族の楽器として類似の音を発生すること、および同じ形状で異なる大きさのエンジンが類似の音を発生することなど、音声以外の事象の観察からも正当化できる。
３．課題の設定もし、上記のような声道のインパルス応答の時間軸上での拡大・縮小に対し不変な内部表現を直接作り出すことができれば、スペクトル分析を行なって抽出の難しい高次ホルマントを利用することにより拡大・縮小の計算を行なって正規化しなくてもよくなり、大人でも子供でも同じ音韻は同じものとして処理することができる。このように時間軸上での波形の拡大および縮小に対して不変な性質を有するという特徴は、上記で示したメリン変換を通して得ることができるメリン表現の特徴に他ならない。すなわち、メリン変換およびメリン表現が、今求められている音声などの信号の解析において従来のスペクトル表現に由来する分析とは本質的に異なる重要性を持つことが分かる。
【００２８】ところが、従来はメリン変換は信号処理ではあまり実用的には使用されてこなかった。その理由は、以下で述べるように、メリン変換は「シフト変動」（shift varying）であり、その振幅が「シフト不変」（sihft invariant）なフーリエ変換などに比べて扱いづらかったためである。付録Ａの式（Ａ１）からも分かるように、メリン変換では積分の起点（以下ではこれを「解析の原点」と呼ぶ。）が確定している必要があり、この解析の原点が移動するとその結果が異なってくる。これが「シフト変動」という性質である。一方フーリエ変換では（−∞，∞）の範囲で積分をすればよいので、このような積分範囲の移動という問題がない。これが「シフト不変」という性質である。
【００２９】メリン変換についての研究に関しては、Umeshらがメリン変換の性質から周波数軸だけの変形を提案している（Umesh, Cohen, and Nelson, "Frequency-warping and speaker-normalization," IEEE Int. Conf. Acoust., Speech Signal Processing （ICASSP-97）,1997; Umesh, Cohen, and Nelson,"Improved scale-cepstral analysis in speech," IEEE Int. Conf. Acoust., Speech Signal Processing （ICASSP-98）,1998）、またAltesはフーリエ変換とメリン変換との組み合わせを提案している（Altes, "The Fourier-Mellin transform and mammalianhearing," J. Acoust. Soc. Am., 63,pp.174-183, 1978）、またメリン変換の音声認識への応用（Chen, Xu, and Huang, "A novel robust feature of speechsignal based on the Mellin transform for speaker-independent speech recognition," ICASSP ユ98,1998）も提案されている。
【００３０】しかしながら、これらはいずれも周波数振幅情報を用いた周波数軸方向へのメリン変換であり、位相情報すなわち時間的な情報の考察がない。したがってこれら論文はいずれも「シフト変動性」を克服するための解析の原点の特定の問題には触れておらず、音に対する安定な時間的な微細構造を保持した表現を求めていない。音の音色の情報は、主にこの微細時間構造に存在すると考えられるので、この情報を保持したまま、物理的な音源寸法を正規化する手法が望まれる。
【００３１】現状の音声認識装置等の信号処理の限界を打開するためには、やはり音声や音響振動の本質に迫る優秀な機能を持つメリン変換を、その「シフト変動」であるという欠点を克服して利用することにより信号処理のための計算を正確に行なうことが必要である。本発明、特に以下に記載した実施の形態の方法および装置の目的は、時間的に安定な表現を導出することによりメリン変換を計算可能にしてメリン表現を得ることにある。
【００３２】［本発明の原理］以下、本発明、特に以下に述べる発明の実施の形態の構成と動作との原理を明確にするため、発明の基本的思想について述べる。
１．発明の概要上記のメリン変換の「シフト変動」であるという欠点を克服するためには、どの時点においても安定な原点を持つ表現においてメリン変換を実行しなければならない。図１を参照して、本発明での解決法を実現するための一般的な装置は、入力信号１に対して、後述する安定化ウェーブレット変換処理を行なうための安定化ウェーブレット処理部２と、安定化ウェーブレット処理部２から出力される安定化ウェーブレット処理された入力信号に対してメリン変換を行なうためのメリン変換処理部３と、メリン変換処理部３の出力に対してたとえば音声認識、音声の符号化などの信号処理を行なって結果５を出力するための信号処理部４とを含む。安定化ウェーブレット処理部２で行なわれる安定化ウェーブレット変換処理は、入力信号をウェーブレットフィルタバンクを通して時間周波数分析を行なうとともに、解析の原点を定める。安定化ウェーブレット処理部２によって解析の原点を定めることにより、安定化ウェーブレット処理部２の出力に対してメリン変換処理部３でメリン変換を行なうことが可能になる。
【００３３】この装置では、入力信号１は、安定化ウェーブレット処理部２によって安定化ウェーブレット変換されて、さらにその出力に対して安定化ウェーブレット処理部２で定められた解析の原点を積分の起点としてメリン変換３が行なわれ、メリン表現が得られる。得られたメリン表現は、音源の寸法や波形の周期性の変動に関して正規化された音声信号の特徴表現である。この表現は、従来の音声分析で主として利用されていたスペクトルや線形予測係数と同様に、ベクトルとしても表すこともできる。したがって、このメリン表現を、従来から用いられてきたありとあらゆる信号処理に対する入力として与えることができ、それらに対応する結果５が得られる。たとえば音声認識装置においては、メリン表現された多数の特徴ベクトルを予め準備しておき、入力された特徴ベクトルとの間で従来と全く同様のマッチングを行なうことにより音声認識を行なうことが可能となり、そのためのハードウェアも従来と同様でよい。
２．ウェーブレット変換図２を参照して、本発明における安定化ウェーブレット変換を計算するための安定化ウェーブレット処理部２は、入力信号６（請求項１の入力信号１と同じであり、通常は周期性を有することが想定されている。）に対してウェーブレット変換を行なうためのフィルタバンクからなるウェーブレット変換処理部７と、ウェーブレット変換処理部７の出力の振幅を対数圧縮または指数圧縮により圧縮するための振幅圧縮部８と、振幅圧縮部８の出力を受けて、周期性を表わす事象を検出して検出出力を発生するための事象検出処理部９と、事象検出処理部９の出力に応答して、前述した通り解析の原点を定めるように振幅圧縮部８の出力波形の時間間隔を安定化させて安定化ウェーブレット変換出力１１として出力するための時間間隔安定化処理部１０とを含む。
【００３４】ウェーブレット変換処理部７で行なわれるウェーブレット変換を定義する式は実施の形態の説明の最後に添付した付録Ｂの式Ｂ１〜Ｂ７に示す。ウェーブレット変換は、フーリエ変換における基底関数である正弦波に替えて、ウェーブレット核（「マザーウェーブレット」とも呼ばれる。）と呼ばれる、波形の小片を定める関数を用いる。そしてこのウェーブレット核を時間軸上で拡大、縮小した（互いに周波数が異なる）波形が、解析対象となる波形にどの程度の大きさで含まれるかを調べることにより、解析対象の波形を時間と周波数との二次元に分けて解析することができる。
【００３５】フーリエ変換では正弦波を用いている。正弦波は時間軸上で（−∞，∞）の範囲に一様に広がった周期関数である。そのため、フーリエ変換では入力信号のある一部にどの周波数の信号がどの程度存在しているか、という局所的な情報を得ることはできない。それに対してウェーブレット変換では、どの位置に、どの周波数のウェーブレットが、どの程度の大きさで含まれているかという局所的な情報を知ることができる。このため、ウェーブレット変換によって入力信号を時間と周波数との二次元から解析できる。
【００３６】またウェーブレット変換では、目的に応じてウェーブレット核を変え、応用ごとに適切な波形のウェーブレット核を用いることができることが知られている。たとえば、Daubechiesのウェーブレット、メキシカンハット、フレンチハット、Shannonのウェーブレット、Haarのウェーブレット、Gaborのウェーブレット、Meyerのウェーブレットなどが知られている。以下に述べる実施の形態では、特定のウェーブレットを用いているが、応用に応じて上記した、およびここにあげていない種々のウェーブレットを用いることが可能である。
【００３７】多くの場合周期性を持つ（式Ｂ１）入力信号１は、ウェーブレット変換処理部７によりウェーブレット変換され解析される（Combes et al.（Eds.）,"Wavelets", Springer-Verlag,Berlin,1989）。ウェーブレット核としては、例えば所定周波数で周波数変調され、ガンマ分布を包絡線として持つガンマチャープ関数（式Ｂ２）を選ぶことができる。このガンマチャープ関数は、メリン変換において、最小不確定性の意味で最適な関数であることが知られている（Irino and Patterson,"A time-domain, level-dependent auditory filter: The gammachirp,"J. Acoust. Soc. Am., 101,pp.412-419, 1997）。なお、ウェーブレット核は上記したガンマチャープ関数に限定されるわけではなく、既に述べたように解析においてどの特徴を重視するかに応じて適切な関数により定められる波形を用いることができる。
【００３８】ウェーブレット核を時間軸上で伸縮したウェーブレットフィルタ（式Ｂ３）の組を用いることによりウェーブレット変換処理部７のフィルタバンクを実現できる。ここでは、最大周波数と帯域幅とが比例する定Ｑ型で、対数周波数軸上で等間隔に配置したフィルタバンクの各フィルタと信号との間で畳み込み積分を行なう（式Ｂ４）。
【００３９】仮に、外界の信号が、時間的に圧縮または伸長されても、ウェーブレット変換はその出力波形には歪みを与えない。単にその信号の出力がより高い、またはより低い最大周波数のフィルタの位置に移動するだけである。これは、ウェーブレットフィルタ自体が元のウェーブレット核関数を時間軸上で拡大・縮小したもので、いずれも同じフィルタ形状を有するからである。
【００４０】得られた各フィルタ出力の振幅値に対しては、図２の振幅圧縮部８で対数圧縮（式Ｂ５）または指数圧縮（式Ｂ６）が行なわれる。この時、目的に応じ、波形の正負の部分の両方を残す場合と、半波整流して正部分のみを残す場合とのふた通りが考えられる。以下に示す各例では、半波整流した場合を示す。正負の両部分を残す場合も、後の処理は基本的の以下の説明と同じである。
３．メリン変換の前提と安定化ウェーブレット変換既に延べ、式Ａ１からわかるように、メリン変換は必ず解析の原点を特定することが必要で、原点がずれると表現も変わってしまう「シフト変動（shift-varying）」な変換である。メリン変換がシフト変動である、という点が、シフト不変なフーリエ変換に対して不利な点で、これがメリン変換がいままであまり用いられてこなかった理由でもある。しかし、上記のような、物理的大きさの変動に対して耐性があるという音声信号処理にとって魅力ある性質をもっている。したがって、解析の原点を確実かつ安定に決定できれば、シフト変動であるというメリン変換の欠点を克服でき、メリン変換を音声信号処理に有効に利用することが可能となる。本発明はそのための一つの解決策を与える。
【００４１】信号は常に時間的に流れているので、ウェーブレット変換を行なった後の「ウェーブレットスペクトル」も時間的に流れる「ランニングスペクトル」に相当する。そのためウェーブレットスペクトルのみからでは解析の原点を決められない。この解析の原点を事象検出処理部９で決定する。以下、事象検出処理部９で行なう処理の詳細について説明する。
【００４２】周期信号（式Ｂ２）や疑似周期信号の場合、各ウェーブレットフィルタ出力は、１周期に１つの最大値を持つ。本願発明は、音源情報はそうした最大値を固定して見た時の波形として表現されている点に着目する。そのために本願発明では、フィルタ出力の周期性を事象検出処理部９によって検出し、そこを原点にしてメリン変換を取ることにより振幅圧縮部８の出力信号の時間間隔を安定化させる。
【００４３】最大値検出の方法については既に報告がされている（Irino and Patterson, "Temporal asymmerty in the auditory sytem, "J.Acoust. Soc. Am., 99, pp.2316-2331, 1996; Patterson and Irino," Modeling temporal asymmerty in theauditory sytem," J.Acoust. Soc. Am., 104, pp.2967-2979, 1998 ）。それ以外にもピッチ周期検出に関しては過去から多くの報告がある（たとえばHess, "Pitch Determination of Speech Signals," Springer-Verlag, NY, 1983）。
【００４４】本願発明では、各チャンネルにおける最大値の時点を、図２の時間間隔安定化処理部１０で行なわれる時間積分の開始時点とする。時間間隔安定化処理部１０が行なう時間積分では、ある開始時点から次の開始時点までを１周期として各ウェーブレットフィルタ出力をコピーして、イメージバッファの対応するチャンネルの既に存在する１周期分の表現に一点一点加えあわせることによって新たな表現を生成する。この操作をストローブ時間積分（Patterson, Allerhand and Giguere, "Time-domain modelling of peripheral auditory processing: a modular architecture and a software platform", J.Acoust. Soc. Am., 98,1890-1894, 1995; Patterson and Holdsworth, "Apparatus and methods for the generation of stabilised images from waveforms," United Kingdom Patent: 2232801 （1993）, United States Patent: 5,422,977 （1995）, European Patent: 0473664 （1995））と呼び、ここまでの操作全体を安定化ウェーブレット変換と呼ぶ。
【００４５】安定化ウェーブレット変換によって、次周期の各ウェーブレット出力、次々周期のウェーブレット出力、さらに先の周期のウェーブレットフィルタ出力を構成する各点の値はイメージバッファ内の同じ位置に加算されるため、信号の流れが止まり安定な表現となる。また、この表現では、横軸として一つ前のピークからの時間間隔がとられるため、原点は常に零である。
【００４６】周期信号（式Ｂ２）や疑似周期信号の安定化ウェーブレット変換（式Ｂ７）は、その微細構造に音源情報を保存していて周期的に繰返したパターンになる。ここで、安定化ウェーブレット変換により得られる安定化された時間間隔パターンの１周期分を音源情報図形（式Ｂ８）または聴覚図形と呼ぶことにする。この音源情報図形は安定で、開始点が常に決まっているので、シフト変動性の問題を回避して、この上でメリン変換を取ることができる。すなわち、安定化ウェーブレット変換は、メリン変換が音源情報を解析するのに必要な条件を準備したことになる。
４．メリン変換の計算メリン変換は、量子力学で使われるオペレータで表現できることが知られている（Cohen,"The scale transform," IEEE Trans. Acoust. Speech and Signal Processing, 1993; Irino, "An optimal auditory filter," IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 1995; Irino, "A'gammachirp' function as as optimal auditory filter with the Mellin transform," IEEE Int. Conf. Acoust., Speech Signal Processing （ICASSP-96）, 1996）。その場合、メリン変換は、Gaborが用いた時間オペレータと周波数オペレータ（Gabor,"Theory of communication," J. IEE （London）,93,42-457,1946）との積をとった形式になっている。すなわち、時間と周波数との積がメリン変換にとって重要な概念である。メリン変換を定義する式を、実施の形態の最後に添付した付録Ｂの式Ｂ８〜Ｂ１２に示す。
【００４７】本発明では、原理的には、音源情報図形（式Ｂ８）に対して、時間と周波数との積が一定となる等値線（式Ｂ９）に沿ってメリン変換（式Ｂ１０）を行なう。ここで、メリン変換のパラメータＰは複素数（式Ｂ１１）なので、式Ｂ１０は式Ｂ１２のように書き換えることができる。これにより、音源情報図形のメリン変換として、横軸を時間間隔と周波数との積、縦軸をメリン変換核の複素変数とした２次元表現を得ることができる。この表現をメリンイメージと呼ぶことにする。
【００４８】この表現の上では、音源情報は正規化されていて音源の周期性や物理的大きさの拡大・縮小に対して不変の表現になっている。したがって、従来から提案されている信号処理手法にしたがった信号処理部４に対してこの正規化音源情報を与えることにより、より優れた信号処理が実現できる。
【００４９】図３のフローチャートに以上の処理の流れを示す。メリン変換の計算に関しては、さらに詳しく第１の実施の形態において述べる。図３を参照して、波形入力を受けると、これらをウェーブレット変換のフィルタバンクを通すことによりウェーブレット変換の計算が行なわれる。
【００５０】ウェーブレット変換の出力から信号周期情報を抽出し、この情報をもとにウェーブレット変換の出力を安定化させ、一つ前のピークからの時間間隔−対数周波数表現の計算を行なうことにより、音源情報図形を得る。
【００５１】こうして得られた音源情報図形上の、時間間隔と周波数との積が一定となる線に沿ってメリン変換の計算を行なう。こうして、音源の周期性および物理的大きさの拡大または縮小に対して不変な表現であるメリンイメージが得られる。
５．メリンイメージの時系列前節では、ある一時点の安定化ウェーブレット変換からメリンイメージを計算する方法を示した。信号は時々刻々変化しており、それに対応した安定化ウェーブレット変換から得た音源情報図形も変化する。そこで、ある間隔ごとに音源情報図形を抽出し、それをもとにそれぞれメリンイメージを計算する。このメリンイメージの各々から１つの特徴ベクトルを抽出することができる。すると、スペクトログラムのように、横軸に時間をとり、縦軸にメリンイメージベクトルの軸をとって、メリンイメージベクトルを並べた表現を作ることができる。これは、スペクトログラムとは全く異なるものではあるが、形式的には同じとなるので、従来スペクトログラムを用いてきた信号処理手法にそのまま入力でき、様々な分野に容易に応用することができる。
【００５２】［作用・効果］音源の物理的な大きさに依存して、解析する波形が時間的に拡大・縮小しても、メリンイメージのスケール分布は不変である。これは、フーリエスペクトルにはない性質である。また、同時にフーリエスペクルとは表現は異なるものの、メリンイメージベクトルによる表現は、解析の対象となる波形の拡大・縮小以外の違いは明確に表わすことができる。音声の場合は、異なる声道長の発声もメリンイメージベクトルによる表現では同様に扱うことができる。したがって逆にメリンイメージベクトルによる表現を用いて音韻の違いだけを強調することができる。たとえば、メリンイメージベクトルによる表現を用いれば、大人のデータで学習した音声認識装置をそのまま子供の認識に使うことができる可能性がある。これ以外にもメリンイメージベクトルを用いた表現を適用することができる局面は多くあり、音声認識装置等の性能向上が期待できる。さらに、メリンイメージベクトルによる表現を従来より用いられているスペクトル分布と組み合わせて用いることにより、従来の性能を超えた音声信号処理を実現できる。また、対象となる波形は、時系列データであれば何でもかまわないので、音声や音楽といった音響信号ばかりでなく、機械的振動、生体信号、および時系列的な計測データのいずれにも本発明にかかる手法を応用することが可能である。
【００５３】以上において、本願発明の実施の形態の基本的手法と、その背景とについて説明した。以下、本願発明の実施の形態について詳細に説明する。
第１の実施の形態図４を参照して、本発明の第１の実施の形態の音声認識装置は、図１に示すものと同様、安定化ウェーブレット処理部２と、メリン変換処理部３と、信号処理部４とを含む。
【００５４】安定化ウェーブレット処理部２は、音声信号１２を入力として受け、音声信号１２に対してウェーブレット変換を行なって周波数分析を行なうための聴覚フィルタバンク１３と、聴覚フィルタバンク１３の出力に対して、聴神経での神経活性度に類似した出力を得るような変換を行なうための聴神経発火パターン変換部１４と、時間積分を制御するために、ある近傍での最大値を検出するための事象検出（ピッチ検出）回路１５と、事象検出（ピッチ検出）回路１５の出力を合図（ストローブ）として、聴神経発火パターン変換部１４の出力する現在の一定区間を取出して前述した時間積分を行なって安定化聴覚イメージを生成し出力するための安定化聴覚イメージ処理部１６とを含む。これら各構成要素については後に詳述する。
【００５５】メリン変換処理部３は、安定化聴覚イメージ処理部１６の出力する安定化聴覚イメージを変形し、新しい表現である寸法−形状イメージを出力するための寸法−形状イメージ処理部１７と、寸法−形状イメージ処理部１７の出力する寸法−形状イメージからメリンイメージを計算し、メリンイメージベクトルに基づく表現として出力するためのメリンイメージ処理部１８とを含む。
【００５６】信号処理部４は、メリンイメージ処理部１８の出力するメリンイメージベクトルに基づく表現を、予め準備されたテンプレートとマッチングして音声認識し音声認識結果２０を出力するための音声認識回路１９を含む。
【００５７】図４に示す装置において、入力される音声信号１２は、メリン変換処理部３によって安定化聴覚イメージ（Stabilized Auditory Image, SAI）に変換される。この安定化聴覚イメージは、安定化ウェーブレット変換２で得られる表現の聴覚版である。安定化聴覚イメージは、寸法−形状イメージ処理部１７によって寸法−形状イメージ１７に変換され、さらにメリンイメージ処理部１８によってメリンイメージ１８に変換される。この処理は、メリン変換３に相当する。なお、以下に述べる聴覚イメージモデルをもとにした安定化ウェーブレット−メリン変換を示す式等については実施の形態の説明の最後に添付した付録Ｃに記載してある。
１．安定化聴覚イメージの構成この節では、安定化ウェーブレット処理部２の各構成要素の動作について述べる。入力される音声信号１２は、聴覚フィルタバンク１３で周波数分析される。この実施の形態の装置では、聴覚フィルタバンク１３の各々の聴覚フィルタは、ガンマ分布関数の包絡線で周波数変調された搬送波を持つガンマチャープ（式Ｃ１）で近似できる。また、聴覚フィルタバンク１３はおおよそ５００Ｈｚ以上では最大周波数と帯域幅が比例する定Ｑ型のフィルタとなっている（式Ｃ２）。すなわち、聴覚フィルタバンクはガンマチャープ（式Ｃ１）を核関数としたウェーブレット変換（式Ｃ３、式Ｃ４）になっていて、この関数のパラメータは人間の聴覚フィルタを模擬するように設定できる（Irino and Patterson,"A time-domain, level-dependent auditory filter: The gammachirp," J. Acoust. Soc. Am., 101,pp.412-419, 1997）。聴覚フィルタを並べた聴覚フィルタバンク１３はIIRフィルタで構成できる（たとえば特開平１１−２４６９６号公報、特開平１１−１１９７９７号公報を参照）。
【００５８】聴覚フィルタバンク出力は、聴神経発火パターン変換部１４によって聴神経発火パターン（Neural Activity Pattern, NAP）に変換される。具体的には、聴覚フィルタバンク１３の出力に対して半波整流が行なわれて、振幅が対数圧縮（式Ｃ５）または指数圧縮（式Ｃ６）され、さらに適応処理により信号の立ち上がり部分が強調されて、聴神経での神経活性度に類似した出力を得る。
【００５９】事象検出（ピッチ検出）回路１５は、各チャンネルの活性度を監視して、ある近傍での最大値を検出して、時間積分を制御する。事象検出（ピッチ検出）回路１５での処理は例えば以下のようにして行なわれる。まず、活性度を平滑化して包絡線を計算する。得られた包絡線の微分を計算して、その値（包絡線の勾配）が正から負に変化する時点に近い、活性度の一番大きいピーク時点を近傍最大値時点とする（上記Irino and Patterson, 1996）。この近傍最大値は、音声の有声音および定常的な楽器音のように周期性や疑似周期性を持った信号では、定常的に発生する。この近傍最大値を合図（ストローブ）として、神経発火パターンの現在の一定区間を取り出して、聴覚イメージ１６のバッファの対応するチャンネルに近傍最大値の時点をそろえて加えることを各区間ごとに繰返し行なうことにより時間積分が行なわれる。こうした積分をストローブ時間積分（Strobed Temporal Integration, STI）と呼ぶ。
【００６０】ＳＴＩの処理は、神経発火パターン（ＮＡＰ）の時間軸を、直前の近傍最大値を基準とする時間間隔軸に変換する役割を果たしている（式Ｃ７）。ストローブ時間積分を聴覚フィルタバンク１３の全てのチャンネルについて行なえば、聴覚フィルタバンク１３での縦軸（対数周波数軸）の値を保ったまま、安定化された聴覚イメージ１６（式Ｃ７）が得られる。この安定化された聴覚イメージは、半減期約３０ｍｓで全体が減衰するようにされており、入力信号がなくなった時点で自然にイメージも消失する。
【００６１】安定化聴覚イメージを時間方向に積分することにより、スペクトル的な周辺分布が得られる。このスペクトル的な周辺分布は従来からのスペクトログラムのスペクトルベクトルと類似しているので、聴覚的スペクトログラムを構成でき音声認識にも応用できる（たとえば、上記、Patterson et. al. 1995を参照）。
２．寸法−形状イメージの構成この節では、寸法−形状イメージ処理部１７で行なわれる処理の詳細について述べる。安定化聴覚イメージ処理部１６から出力される安定化された聴覚イメージは横軸に線形の時間間隔軸、縦軸に対数周波数軸を持った表現になっている。寸法−形状イメージ処理部１７では、この表現を変形することによって、新たな表現である寸法−形状イメージを求める。これは次節のメリンイメージ１８を容易に計算できるようにする重要な段階である。この処理を行なう寸法−形状イメージ処理部１７の詳細を図５のブロック図に示す。また、以下の処理の流れを図６のフローチャートに示す。以下の説明では随時図５および図６の記載を参照する。
【００６２】図５を参照して、寸法−形状イメージ処理部１７は、安定化聴覚イメージ２１に含まれるフィルタ遅れを補正するためのフィルタ遅れ補正部２２と、聴覚イメージを全てのチャンネルについて垂直方向に加え合わせて時間間隔軸上の総計活性度を計算するための活性度計算部２３と、活性度計算部２３によって計算された活性度の大きさに基づいて、聴覚イメージの周期性を検出するための周期性検出部２４と、周期性検出部２４によって検出された周期性を用い、聴覚イメージの中から後述する聴覚図形を抽出するための聴覚図形抽出部２５と、聴覚図形抽出部２５によって抽出された聴覚図形の横軸を線形の時間間隔軸から対数の時間間隔軸に変換するための対数時間間隔表現への変換部２６と、対数時間間隔表現への変換部２６によって横軸が変換された聴覚図形において観察される、直線のインパルス応答線が縦軸と平行な向きとなるように各チャンネルごとに横軸を移動させる処理を行なうインパルス応答分補正部２７とを含む。
【００６３】聴覚イメージモデル（Auditory Image Model, AIM）
（上記、Patterson et. al. 1995）にしたがって求めた、安定化された聴覚イメージの例としての安定化聴覚イメージ２１を図７に示す。図７は、１０ｍｓ間隔、すなわち周波数１００Ｈｚ、で発生させたクリック系列音に対する聴覚イメージを２周期強表示している。縦軸は、フィルタの各チャンネルをそれらの最大周波数Ｈｚで表しており、疑似対数周波数軸になっている。横軸は、ストローブ時間積分を開始した近傍最大値の時点からの時間間隔を表わし、ミリ秒単位で表されている。ここでは、時間間隔は線形の軸である。
【００６４】図７を参照して、３つある垂直の線に沿った活性度が高い所は、原波形の周期と同じ周期で配置されている。横軸の０ｍｓの所は、ストローブ時間積分で近傍最大値の活性度が転写される場所である。この近傍最大値は、周期信号の場合は各々の周期を特定し、また、非周期信号の場合は特徴の開始点を特定する。このようにしてストローブ時間積分は、メリン変換の解析の開始時点、または零点を特定する。
【００６５】メリン変換においては、初段の聴覚フィルタバンク１３を構成する各々のウェーブレットフィルタが合理的な基準で揃っていること、たとえば、聴覚フィルタの包絡線の立ち上がり時点（式Ｃ１での時間ｔ＝０の時点）が全てのチャンネルで揃っていることが理論的には望ましい。ところが、ストローブ時間積分では、聴覚フィルタの包絡線の立ち上がり自体を検出できるわけではなく、応答の最大値でストローブをかけるので、包絡線の立ち上がりに対して遅れ時間を生じる。このずれは、図７の垂直の活性度の各密集位置の左側に存在している曲線上の活性度によって見ることができる。このフィルタ分の時間遅れを補正することが処理を分かりやすくする上で望ましい。
【００６６】そのための補正を行なうのがフィルタ遅れ補正部２２である。この補正を行なうためには、単純に聴覚フィルタの最大周波数の逆数の周期分、各々のチャンネルの活性度を右に移動させてやれば良い（式Ｃ８）。図７に対して補正を施した結果の聴覚イメージを図８に示す。これによって、垂直に配置された所は、メリン変換の開始点の良い近似となる。なお、この補正を行なわなくてもメリン変換の出力にそれほど影響がないことが分かっていることについては後述するとおりである。
【００６７】前述のように安定化聴覚イメージ処理部１６で行なわれるストローブ時間積分（ＳＴＩ）は、周期的な音によって聴神経発火パターン（ＮＡＰ）にくりかえし生じる時間間隔パターンを安定させて、図７の時間間隔で０、１０、２０の所で示されるように聴覚イメージ（ＳＡＩ）の中で垂直の方向に活性度が集中する所を生じさせる。図７を参照して明らかなように、この垂直活性度線はもとの信号の周期と同じ間隔で、聴覚イメージをいくつかの類似した区間に分割している。この一つの区間を、音源信号に対応する聴覚図形（AuditoryFigure, AF）（式Ｃ９）と呼ぶことにする。
【００６８】活性度計算部２３は、この聴覚イメージを各々のチャンネル全てについて垂直方向に加え合わせて、時間間隔軸上の分布の総計活性度を計算する。周期性検出部２４は、この活性度の大きさによりパターンの周期性を決定できる。この周期性情報を用いることにより、聴覚図形抽出部２５はフィルタ分の補正を行なった聴覚イメージ（図８、フィルタ遅れ２２で補正した結果に相当）中から聴覚イメージの１周期分に相当する聴覚図形を抽出できる。
【００６９】聴覚図形抽出部２５によって抽出された聴覚図形は横軸として線形の時間間隔軸を有する。この横軸の時間間隔を対数変換すると後の処理を容易に行なうことができる。対数時間間隔表現への変換部２６がこの対数変換を行なう。すなわち対数時間間隔表現への変換部２６は、聴覚図形の横軸を対数時間間隔軸に変換する（式Ｃ１０）。この変換により、図９に示すように聴覚フィルタのインパルス応答に相当する聴覚図形中の曲線群を、５００Ｈｚ以上ではほぼ平行で規則的に並んだ直線群に変換することができる。図９は、図８内の最も左側の聴覚図形を対数時間間隔軸にスプライン補間を用いて変換した図である。
【００７０】図９を参照して、この直線のインパルス応答線はいずれも負の勾配を持ち、聴覚図形の対角線と同様に傾いている。この表現は、横軸に対数時間間隔を、縦軸に対数周波数を、それぞれ持っており、メリン変換を容易に計算できるような形になっている。
【００７１】メリン変換の計算と音源情報を示す表現をわかりやすくするために、図９の対数時間間隔聴覚図形（式Ｃ１０）のインパルス応答線が縦軸と平行な線（横軸に対して垂直となるので、以下これを「垂線」と呼ぶこととする。）になるように補正して図１０を得る（式Ｃ１１）。この補正は対数時間間隔表現への変換部２６によって行なわれるものであり、各チャンネルごとに、最大周波数の対数に比例した分だけ右方向に対数時間間隔軸を移動することに相当する。図１０での新しい横軸は、時間間隔とチャンネル最大周波数との積ｈ（式Ｂ９）の対数で表わされている。縦軸は従来と同様対数軸表示の最大周波数である。
【００７２】図１０を参照して、一番左の点線の垂線は、時間間隔とチャンネル最大周波数との積ｈが１となる聴覚図形内の位置を示している。また、図１０ではｈの値が１〜５に対応する垂線が破線で引いてあるが、そのいずれの上にも活性度が集中している。すなわち、図１０１０に示される表現においては全てのウェーブレットフィルタのインパルス応答は、ｈの値が整数となる垂線上に集中しており、したがってこの表現がウェーブレットフィルタの拡大・縮小に依存しないことがわかる。これを容易に理解できるようにするため、横軸をｈの線形軸に直すと図１１が得られる。
【００７３】なお、図１１に示される例では、対数変換を用いないで直接図８の聴覚イメージから活性度を求めたため、ｈ＝０に対応する垂線上の活性度も示されている。この処理を行なうためには、図８に示される聴覚イメージにおいて、各チャンネルの最大周波数に比例したサンプリング周波数でそれぞれの活性度の再サンプリングを行ない、そのサンプル点をそのまま２次元上に並べればよいだけである。
【００７４】前節で述べたとおり、この表現においては、ウェーブレットフィルタはどのチャンネルでも同じ表現になっているので、音源が相似でその結果波形がウェーブレット的に拡大・縮小されている場合には、常に同じ形状の表現が得られる。波形の拡大・縮小は、この表現においては垂直の周波数軸の方向への、活性度の分布の単なる平行移動という形で表される。したがって、音源の大きさと形状との双方に関する情報を表現しているという意味で、この表現を寸法−形状イメージ（Size-Shape Image, SSI）と呼ぶことにする。後で述べるように、この表現は母音の聴覚図形を表現する時に特に有効である。以上の処理の流れが図６のフローチャートに示されたものである。
【００７５】図１０・図１１の寸法−形状イメージにおける聴覚図形は、図７の聴覚イメージの一番左の聴覚図形から上記の一連の手続きによって求められたものである。しかし、必ずしも一番左の聴覚図形でなくてもかまわず、２番目の聴覚図形でも良いし、どの信号のどの１周期分を表現する聴覚図形（式Ｃ９）でも手続きを進める上では問題ない。
【００７６】ただし、この例のような単純なクリック音系列の場合にはどこを選んでも同じであるが、音声や楽音等に雑音が付加された場合にはむしろ２番目の聴覚図形を選んだ方が信号のみの成分を抽出するには有利である。これは、雑音と信号の成分の両方が１番目の聴覚図形に集中するためである。
【００７７】寸法−形状イメージの横軸のｈ軸に沿った周辺分布は、各チャンネルで形状が同じウェーブレットフィルタのインパルス応答が主になるので、インパルス周辺分布（ImpulseProfile）と呼ぶことにする（式Ｃ１２）。これに対して縦軸に沿ったものは、聴覚スペクトル周辺分布（Spectral Profile）である（式Ｃ１３）。インパルス周辺分布は、従来からのスペクトルベクトルとは異なる音源情報を持っている。各周辺分布はある一時点における寸法−形状イメージを代表するベクトルであるので、たとえば一定間隔ごと（たとえば、５〜３０ｍｓ程度ごと）にこれらのベクトルを計算して時系列としてスペクトログラムの形式に並べれば、音声認識に応用できるようになる。この表現は、寸法−形状イメージスペクトログラムと呼ぶことができよう。
３．メリンイメージの構成この節では、寸法−形状イメージ処理部１７から出力された寸法−形状イメージから、メリンイメージ処理部１８がメリンイメージを求める理由と処理過程を述べ、このメリンイメージが図１のメリン変換処理部３から出力されるメリンイメージに相当することを示す。
【００７８】寸法−形状イメージ処理部１７の出力する寸法−形状イメージは、聴覚ウェーブレットフィルタの応答が分布のほとんどを占めている。クリック系列音以外が入力された時にこれらのインパルス応答線の右側に出力されたであろう音源情報は相対的に小さくしか表現されない。我々が抽出したいのは音源情報自体であるので、何らかの手段で聴覚フィルタ情報を何らかの逆畳み込み法で取り除きたい。このために、この寸法−形状イメージの各ｈごとに垂直ベクトルをフーリエ変換してその空間周波数成分の振幅で各ベクトルを表すことを考える。寸法−形状イメージ内の聴覚ウェーブレットフィルタ情報は図１０からもわかるように、各チャンネルであまり変化しないことから、空間周波数が極めて低い所にその情報が集中するであろう。これに対し、クリック系統音以外の音源からの音情報は、ウェーブレットフィルタを強制的に励振して色々な周波数に別々のリンギングを起こすので、空間周波数が比較的高い所に出てくるであろう。これにより、音源情報をウェーブレットフィルタ自体の情報から分離することができる。
【００７９】この計算は、インパルス周辺分布の式Ｃ１２の中にある荷重関数W(αf_b,h)を式Ｃ１４で示される対数周波数上で定義される荷重付き複素正弦波に置き換えることによって実現できる。このとき空間角周波数ｃ／２πをパラメータとして導入してW(αf_b,h,c)とし、式Ｃ１２に代入することによって、２次元表現の式Ｃ１５を得ることができる。式Ｃ１５から得られる出力M_I（h,c）をメリンイメージ（Mellin Image）１８と呼ぶことにする。この時横軸は、寸法−形状イメージと同じｈで、縦軸はフーリエ変換の空間周波数ｃ／２πである。寸法−形状イメージにおける垂直方向への平行移動は、フーリエ変換を通すと単なる位相の変化となって振幅情報は不変である。また、寸法−形状イメージにおいては、すでに音源の周期性は取り除かれていて、ｈ軸方向は大きさ不変である。したがって、このメリンイメージによって表現された聴覚図形は、音源の大きさや音源励振の周期性に依存しない音源の形状情報を表現していることになる。
【００８０】クリック系列音の寸法−形状イメージの図１１１１から求めたメリンイメージを図１２に示す。図１２から分かるように、このクリック系列音のメリンイメージにおいては、非常に低い空間周波数にのみ活性度が集中していて、高い周波数の所にはほとんど活性度がない。これは、上述のとおりクリック音が寸法−形状イメージの中では垂線上に低周波数のチャンネル以外ほぼ平坦な活性度しか生じさせないことを反映している。そもそもウェーブレットフィルタのインパルス応答をどのチャンネルでも同じ形となるように正規化したのが寸法−形状イメージであるので、理論的には、単一のクリックのみが入力された場合、空間周波数が零の所にのみ振幅値が存在する。
４．メリンイメージとメリン変換の対応づけ減衰振動波や母音の解析の例に移る前に、メリンイメージ処理部１８の出力として得られる、本例での周波数領域での積分で表されるメリンイメージ（式Ｃ１５）と、基本的な説明として述べた時間間隔領域での積分で表されるメリン変換処理部３から出力されるメリンイメージ（式Ｂ１０）との関係を考える。時間間隔と最大周波数との積が一定という基本的な制約条件（式Ｂ９）の対数をとると式Ｃ１６となり、その微分から式Ｃ１７が得られる。式Ｃ１５にこの関係を代入して式Ｃ１０、式Ｃ１１を利用すると式Ｃ１８が得られる。これは、定数以外、式Ｂ１０と同様な時間間隔領域での積分の式になっている。この事実は、メリンイメージ処理部１８の出力として得られる、本例での周波数領域での積分で表されるメリンイメージ（式Ｃ１５）と、基本的な説明として述べた時間間隔領域での積分で表されるメリン変換処理部３から出力されるメリンイメージ（式Ｂ１０）とが同じであることを示している。
５．減衰振動波の聴覚イメージ・寸法−形状イメージ・メリンイメージ繰返しのある指数減衰正弦波の聴覚イメージを図１３に示す。この指数減衰正弦波は、２ｍｓの半減期の指数包絡線を持ち、２ｋＨｚの周波数の正弦波の搬送波を持ち、繰返し周波数は１００Ｈｚである。このパラメータを持つ減衰正弦波は単一ホルマントの母音に類似している。繰返される立ち上がりの部分は、クリックに似た応答を周波数領域で２ｋＨｚから離れた所で垂線上の活性度として生じさせていて、２つの垂直活性度の間隔は信号の周期性を示している。図１３の聴覚イメージからは、２ｋＨｚの領域では、減衰包絡を持つ共振によって、応答が強調されて伸びていることがわかる。これは、音声を含む自然界の音では共通に見られる特徴である。
【００８１】この減衰正弦波の聴覚図形の寸法−形状イメージを図１４に示す。２ｋＨｚから離れた所の活性度は図１１のクリック系列音の場合とあまり変わらない。しかし、２ｋＨｚ周辺のチャンネルでは、活性度は高いｈの値まで伸びており、ｈの値が増えるにつれて次第に隣接活性度の列の傾きが増していることがわかる。このことは、２ｋＨｚのチャンネル以外のチャンネルでの瞬時周波数がウェーブレットフィルタの周波数すなわち各チャンネルのフィルタの搬送波周波数になっているわけでないことを示している。
【００８２】この減衰正弦波のメリンイメージを図１５に示す。立ち上がりの部分はクリック的なのでクリック系列音の場合（図１１）と同様に空間周波数が非常に低い所に活性度が集中する。寸法−形状イメージの２ｋＨｚ領域の共振に関係する活性度は、メリンイメージ上ではさらに垂直の帯状の活性領域を増やしていて、ｈが大きい部分で広い空間周波数の応答があることを示している。帯状活性領域の幅はｈが大きくなるにつれ広くなり、これは、微細構造において観測される隣接する活性度の間の傾きがｈの増大につれて大きくなっていることに対応している。これは単一共振または単一ホルマントの音源の特徴である。
【００８３】減衰正弦波のメリンイメージの帯状構造のうちこれ以外のパラメータを持つものは、搬送波の周波数・包絡線の半減期・信号の繰返し周波数によってあまり変化しない。すなわち、上記した帯状構造の相違によって、寸法や繰返し周波数と独立に音源の形状の情報を取り出していることになる。垂直の帯状領域の強さや広がりは減衰正弦波の半減期の増加とともにゆるやかに増加する。次節では、例をさらに拡張し、声道断面積関数を用いて合成した母音について同様な解析を行なう。
６．４種類の母音'a'の聴覚イメージ・寸法−形状イメージ・メリンイメージ寸法−形状イメージとメリンイメージとの、音源の寸法に対する不変特性を示すために、４種類の合成母音の'a'を作成した。この合成母音はひとりの男性の声道断面積関数（Yang C-S and Kasuya, H.（1995）."Dimension differeces inthe vocal tract shapes measure from MR images across boy, female and male subjects," J. Acoust. Soc. Jpn （E）, 16, pp.41-44.）を使って声道モデルから合成した母音である。この声道形状の特徴を寸法−形状イメージ・メリンイメージで抽出することを考える。
【００８４】４種類のうちの１組２音声は、その声道断面積関数をそのまま用い、異なる２周波数１００Ｈｚと１６０Ｈｚとの声帯パルスで励振したものである。これらの聴覚イメージを図１６と図１７に示す。声道の共振は、聴覚イメージ上での共振領域での応答の伸びとして見ることができる。これこそ音声学で呼ぶホルマントである。第２・第３ホルマントは、おおよそ１０００Ｈｚと２２００Ｈｚとに中心周波数を持っている。図中の垂直活性度の集中位置は図１７の方が図１６よりも互いに近くなっているが、声帯振動周波数によってはホルマントの位置は変化していないことが分かる。
【００８５】２組目の２音声は、上記で用いた同じ声道断面積関数を相似に保ったまま、声道の長さを２／３に縮小して合成した場合である。声帯振動周波数は前と同様１００Ｈｚと１６０Ｈｚである。これらの母音の聴覚イメージを図１８と図１９に示す。これらの図同士では第２・第３ホルマントは同じ位置にあるが、元の図１６と図１７の場合と比べると、３／２倍の周波数１５００Ｈｚと３３００Ｈｚとにそれぞれ移動している。これは、声道長が短くなったためである。垂直活性度の位置は、図１６と図１８、図１７と図１９でそれぞれ同じになっている。
【００８６】これらの４母音の寸法−形状イメージを図２０２０〜図２３に聴覚イメージの順番どおりに示す。これらの聴覚図形では、聴覚図形の左にある声帯パルスに対する応答と右側に伸びるホルマントとの区別が強調されている。元々の長い声道からの音声の情報のパターン（図２０と図２１）は基本的には同じになる。しかし、波形上の繰返し周波数によって決まる聴覚図形の右側の境界の位置だけは互いに異なり、高いピッチの図２１の方が範囲が狭い。同様に、短い声道の母音（図２２と図２３２３）の寸法−形状イメージでも両者のパターンは同じで、やはり右側の境界の位置だけが異なる。
【００８７】さらに、長い声道と短い声道での寸法−形状イメージを比べると、下から４つのホルマントの応答パターンがそれぞれ非常に類似していることがわかる。異なるのは、長い声道の図２０と図２１とのパターンにくらべて短い声道の図２２と図２３とのパターンは周波数の上方に平行移動している点である。長い声道の図２０R>０と図２１の寸法−形状イメージで見える第５・第６ホルマントは、図２２と図２３とでは上限周波数６０００Ｈｚの上に同じ量だけ移動してしまって見えなくなっているが、図の周波数範囲を上方に広げれば見えるようになる。
【００８８】これらの４母音のメリンイメージを図２４〜図２７に聴覚イメージや寸法−形状イメージの順番どおりに示す。メリンイメージの縦軸はメリン係数ｃ／２πで、これは寸法−形状イメージの垂直方向に対する空間周波数に相当し、１００Ｈｚから６０００Ｈｚまでの範囲での１周期が空間周波数１に対応する。あるｈの値に対するメリンイメージの値は、寸法−形状イメージの垂直方向に複素正弦波を用いて積分した後の絶対値で、空間周波数と活性度の分布とに最も合致するものが大きくなる。
【００８９】図２０〜図２３を参照して、母音'a'の寸法−形状イメージのｈの整数の５ぐらいまでは、声帯パルスの応答が４サイクル／周波数範囲以下の低い空間周波数に活性度が見られる。ｈが２以上になると、ホルマントが寸法−形状イメージ中の別々の帯に値が大きい所として現れる。ｈが２から８に増えると最も良く整合する周波数が６から１８程度と、値が大きいところが出てくる。ｈが８以上では、寸法−形状イメージでみると一つしかホルマントがなく、それによってメリンイメージに幅広い帯状活性領域ができることがわかる。これが、これらの４母音'a'のメリンイメージを示す図２０〜図２３２３での、共通特性でもっとも特徴的である。
７．日本語の５母音'a,i,u,e,o'の寸法−形状イメージとメリンイメージ寸法−形状イメージとメリンイメージとにおいて、異なる母音がどのように表現されるか示すために、日本語５母音の組を解析した。同一の声道モデルで同一の男性話者であるが、異なる声道断面積関数（上記Yang and Kasuya, 1995）を使って異なる５母音を合成した。すべて、計測通りの声道断面積・声道長を用いて、１００Ｈｚの声帯パルスで駆動することにより合成した。５母音'a, e, i,o, u'についてこの順番で、聴覚イメージを図２８〜図３２、寸法−形状イメージを図３３〜図３７R>７、メリンイメージを図３８〜図４２に、それぞれ示す。
【００９０】聴覚イメージと寸法−形状イメージとを比べると、時間間隔軸の対数変換が、ホルマントの強調の仕方を変化させていることがわかる。たとえば、母音'a'（図２８）においては、第２ホルマントの共振の継続長が第４ホルマントに対して３倍くらい長くなっている。しかし、寸法−形状イメージ（図３３）においては時間周波数積の軸ｈに対して第２ホルマントの共振の継続長が第４ホルマントに対して同程度からやや短くなっている。このような表現の変換がなければ、メリン変換を周波数軸に対し直接取っても高次のホルマントの役割はほとんど見えなくなるであろう。寸法−形状イメージにおけるチャンネルの補正が、ウェーブレットインパルス応答と音源の性質による応答とを分けるのに有効に働いている。
【００９１】まず、前節で説明した'a'（図３３と図３８R>８）と'e'（図３４と図３９）との寸法−形状イメージとメリンイメージとを比較する。'e'（図３４）の寸法−形状イメージの中の高次ホルマントは'a'のものよりも集まっていて、高いｈ値まで伸びている。これにより、'e'メリンイメージは'a'メリンイメージと異なり、空間周波数ｃ／２πが低い４のあたりと１２〜１６あたりで値が大きく、さらにｈの高い所までその値が伸びている。
【００９２】母音'i'（図３５と図４０）では、'e'と同様高次ホルマントが群をなしているがさらに集中している。これが、ｈの２〜６でのｃ／２πが８あたりの値の大きい所を生じさせている。ｈが４以上ではｃ／２πが１５〜２０くらいに活性領域が移動している。さらに、'i'の寸法−形状イメージでの共振領域の伸びからもわかるように、１５以上の高いｈの値まで幅広い帯状領域が広がっている。
【００９３】'o'の寸法−形状イメージ（図３６）では、第１・第２ホルマントの組と残りの３ホルマントの組との間（１２００Ｈｚ〜２８００Ｈｚ程度）に大きな周波数の隔たりがある。これにより、図４１の'o'のメリンイメージではｃ／２πが４以下の活性度はあまり大きくない。第１ホルマントがある範囲、すなわち図３６でｈが５までの範囲で、ｃ／２πが５〜８くらいの所で第１と第２ホルマントの間隔を反映している活性度があるが、第１ホルマントが消えるとｃ／２πが１２〜２０くらいでの高次ホルマントの間隔を反映する活性度が主になる。継続して続く高次ホルマントの群はｈが高い所での低い空間周波数の拡散した活性度に反映して、他の母音との違いを示している。
【００９４】母音'u'（図３７と図４２）は、他の母音と比べ単純で、ホルマントの共振帯域幅が広いために、寸法−形状イメージやメリンイメージでのｈの値の大きい所まで活性度が伸びていない。これが、この母音の特徴を表しているのであろうが、それゆえｈやｃ／２πが大きい所での区別しやすい特徴を失っている。ｈが２〜５の範囲ではｃ／２πが７あたりで強い活性度があり、ｈが４〜５の範囲では１３くらいにある。帯状領域はｈが１０以上にほとんど存在せず、他の母音では'a'に近い。
【００９５】このように、各々の母音のメリンイメージは特徴的に異なり、これらの相違からそれぞれの違いを容易に抽出できる。
８．音声認識装置前節までで、音源が同じ形状ではほぼ同じになり、異なる場合は特徴的に異なるという、メリンイメージの優れた特徴を示してきた。このようなメリンイメージの情報を用いると、優れた音声認識装置を実現できる。たとえば、メリンイメージの縦軸方向または横軸方向に向かって活性度を加えあわせると、それぞれ１次元ベクトルの周辺分布が得られる。これらのベクトルの両方または片方を一列に並べて１次元ベクトルとすれば、聴覚イメージのある一時点における特徴を表わす特徴ベクトルとなる。
【００９６】この特徴ベクトルを聴覚イメージのたとえば一定間隔ごと（たとえば、５〜３０ｍｓ程度ごと）に計算して、順次縦軸に並べてスペクトログラムの形式にすれば、メリンイメージスペクトログラムとでも呼べる表現が得られる。前述の寸法−形状イメージスペクトログラムと合わせても、現在広く使われている音声認識回路１９（図４）にそのまま入力できる。各々の周辺分布は一時点の音源情報を代表するベクトルで、従来の振幅スペクトルより豊かな情報量を持っている。これにより、従来より優れた音声認識結果２０を得られる。これが本発明の最大の長所である。
第２の実施の形態図４３は、声道の大きさの違う大人・子供にかかわらず応用できる、他言語の練習または障害からのリハビリテーション用の発声練習装置に本発明を適用した実施の形態の装置を示す。この装置は、入力される音声を電気信号に変換するためのマイクロホン２９と、マイクロホン２９の出力する電気信号を増幅するための増幅器３０と、増幅器３０によって増幅された電気信号をアナログ／デジタル変換するためのＡ−Ｄ変換器３１と、Ａ−Ｄ変換器３１から出力されるデジタル信号を受けて音声信号処理を行なうためのプログラムを実行する汎用コンピュータ３２と、汎用コンピュータ３２の出力に基づいて音韻、単語文字、特徴量を表示するための音韻・単語文字・特徴量表示装置３３と、汎用コンピュータ３２の出力するデジタルの音声信号をアナログ信号に変換するためのＤ−Ａ変換器３４と、Ｄ−Ａ変換器３４によってアナログ信号に変換された音声信号を増幅するための増幅器３５と、増幅器３５から与えられる音声信号を音声に変換するためのスピーカまたはヘッドホン３６とを含む。
【００９７】マイクロホン２９の出力する、音声を表わす電気信号は増幅器３０およびＡ−Ｄ変換器３１を通って汎用コンピュータ３２に入力される。汎用コンピュータ３２は、後述するような処理をこの電気信号に対して行ない、その結果を表わす信号を音韻・単語文字・特徴量表示装置３３およびＤ−Ａ変換器３４に与える。汎用コンピュータ３２の出力は、音韻・単語文字・特徴量表示装置３３により視覚的に提示され、また、Ｄ−Ａ変換器３４・増幅器３５を通してスピーカまたはヘッドホン３６によって聴覚的に提示される。
【００９８】この汎用コンピュータでは、図４４のフローチャートに従った処理が行なわれる。まず、既に説明した安定化ウェーブレット変換が行なわれる。その情報を用いて、ピッチ周波数・寸法−形状イメージ・メリンイメージが並列的に計算される。
【００９９】寸法−形状イメージの計算では、話者の声道長に関する情報が計算され、メリンイメージでは声道長を正規化した表現が算出される。それらをあらかじめ蓄積されている標準テンプレートと比較することにより、話者がしゃべった音韻や文字列を判断してそれを視覚提示情報として出力したり、話者の声道長やピッチ情報に合わせた合成音として聴覚提示情報として出力したりする。
【０１００】発声練習装置として用いるために、練習問題の生成等の教示情報からも視覚・聴覚提示ができるようになっている。これにより、標準テンプレートを大人でも子供でもすべての場合に用意する必要がないにもかかわらず正確な音韻判断ができるので、効率的な練習のための装置として有効である。
第３の実施の形態図４５は、大きさの違う青果・果物・食物の品質の自動選別器に本発明を応用した実施の形態である。この自動選別器は、選別の対象となる物体に対して音波を照射するためのスピーカ３７、増幅器３８およびＤ−Ａ変換器３９と、選別する品物から戻ってくる音波を受信するためのマイクロホン４０と、マイクロホン４０の出力を増幅するための増幅器４１と、増幅器４１の出力をデジタル信号に変換するためのＡ−Ｄ変換器４２と、Ａ−Ｄ変換器４２から与えられる信号に対して後述する処理を行なうためのコンピュータ４３と、コンピュータ４３から出力される制御信号にしたがって品物の選別を行なうための品質等級分別装置４４と、コンピュータ４３の出力する情報を表示するための表示装置４５と、コンピュータ４３の出力にしたがって警告を発するためのアラーム装置４６とを含む。
【０１０１】コンピュータ４３で行なわれる処理を図４６R>６に示す。コンピュータ４３はスピーカ３７から品物に向けて発射される音声のための送信信号の生成を行ない、Ｄ−Ａ変換器３９に与える。コンピュータ４３はさらに、出力信号の生成パラメータと、スピーカ３７から発生された音声に応答して品物により反射され、マイクロホン４０、増幅器４１およびＡ−Ｄ変換器４２を介して電気信号に変換されてコンピュータ４３に与えられた受信信号とに基づいて、安定化ウェーブレット変換、寸法−形状イメージ、メリンイメージの計算を実行して、品物の大きさに依存しない、品物の内部状態に関する表現を得る。コンピュータ４３は、得られた表現と、あらかじめ蓄積してある標準テンプレートとを比較することにより、品物の品質等級を決定して、その決定結果を出力する。出力と標準テンプレートとのずれが所定の値よりも大きい場合には、コンピュータ４３は品物に欠陥があると判断して表示装置４５およびアラーム装置４６による診断結果の出力を行なう。
【０１０２】この実施の形態の装置により、ばらつきがある品物の大きさに依存せず、その内部状態だけに依存した有効な選別ができるようになる。このシステムは、上記のような品物だけではなく、身体の診断、鉄や金属製品、陶磁器等の製品の欠陥判断にも適用できる。
第４の実施の形態この第４の実施の形態の装置は、基本的には第３の実施の形態と同じ構成を有し、コンピュータで計算されたイメージを表示するための表示装置４５（モニタ等）をさらに含む。この表示装置４５により、大きさを正規化した表現を視覚的に提示する手段が得られ、人間が対象物の特性を直接判断できるようになる。また、欠陥判断をしてアラームを鳴らす装置４６を設ければ、装置の欠陥を自動診断できるようになる。これにより第３の実施の形態だけではない、ソナー信号の処理一般に本発明を応用することができる。
【０１０３】本発明の応用としては、他にもさまざまなものが考えられる。たとえば、本発明によって対象物の大きさに依存しない表現が得られるため、建築の分野においては、コンサートホールのミニチュアモデルで計測を行なえば、建設後のコンサートホールの音響特性を予測できる。建築構造物自体の音波による老朽化診断も挙げられる。また、水中でのソナー信号の解析への応用も可能となる。
第５の実施の形態図４７は、様々な大きさのエンジンの故障診断に本発明を適用した第５の実施の形態である。自動車・船舶等のエンジンに取り付けた振動センサかマイクロホン４７の出力信号を増幅器４１、Ａ−Ｄ変換器４２を通してコンピュータ５０に入力する。コンピュータ５０によって欠陥や故障の判断が行なわれその情報の表示装置５１、アラーム装置５２、エンジンの制御装置５３が制御される。また直接イメージ出力する装置５４も付けられる。
【０１０４】このコンピュータ５０では、図４８で示される処理が行なわれている。図４８を参照して、入力された準周期的な信号に基づいて、安定化ウェーブレット変換が行なわれ、その結果から寸法−形状イメージ、およびメリンイメージが計算される。これらイメージと、あらかじめ蓄積してある標準テンプレートとを比較することにより、エンジンの状態を診断して結果を出力する。この時、結果として欠陥の有無という２値的な信号が得らるようにすれば、この信号で欠陥・故障表示装置やアラーム装置を制御することができる。これに対し、標準パターンとの距離尺度をあらかじめ決定しておいて、どれくらい類似しているかの距離を計算して連続量として出力することもできる。この情報はエンジンの回転等の異常の度合いを示すことになるのでエンジンの制御装置を制御する信号として用いることができる。また、直接イメージを出力すれば人間が視覚的に故障判断を行なうこともできる。
【０１０５】エンジンの形状は同じでも、排気量は目的に応じて変わる。同じエンジンの族ではたとえその寸法が異なっていても本発明を用いると同じ表現を用いることによりその状態を判断できる。したがって本発明によるエンジン状態の判断装置は、種々の大きさのエンジンについて、有効に共通の故障原因などを判定することができる。
【０１０６】さらには、建築物に取り付けたセンサからの出力を用いれば、建築物の欠陥診断にも応用でき、地震波の信号を用いれば、震源の大きさに依存しない共通の特徴をみつけることができる。また、本発明によれば、人工物であるか自然物であるか、またはどのような物理系により測定された信号かにかかわらず、信号源からの信号であれば何を入力としてもよい。例えば、心臓拍動音や脳波信号等の生体信号をピックアップすれば、その身体や頭の大きさに依存しない表現が得られるので、良好な診断結果を出すこともできる。
【０１０７】以上のようにこの発明による安定化ウェーブレット−メリン変換によれば、基本的に音源の物理的な大きさに依存しない信号表現（例えば音声の場合、男性・女性・子供によって異なる声道長を正規化した表現）、または、時系列データの場合には自己相似性（フラクタル性）を正規化した表現が得られる。すなわち、大きな部分を構成する一部分がもとの大きな部分と共通の構成を持っている事象については、大きな部分とそれを構成する小さな部分との双方について同じ表現が得られるということである。これは従来の自己回帰モデルやスペクトル分析では行ないづらかったことで、従来の時系列データ処理の限界を超えうる信号処理が可能となる。また、この過程で正規化できない要素は逆に分離できるので音声であれば個人認証等に有効に活用できる。このように音源の物理的大きさや自己相似性の正規化が必要となる信号処理に広く利用できる。
【０１０８】今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【０１０９】以下は説明中で引用した付録である。
【０１１０】
【数１】

【０１１１】
【数２】

【０１１２】
【数３】

【０１１３】
【数４】

【図面の簡単な説明】
【図１】この発明の原理を説明する概略ブロック図である。
【図２】図１の安定化ウェーブレット処理部２のブロック図である。
【図３】図１および図２に関連するフローチャートである。
【図４】この発明の第１の実施の形態の音声認識装置の概略ブロック図である。
【図５】図４の事象検出（ピッチ検出）回路１５および安定化聴覚イメージ処理部１６のブロック図である。
【図６】図４および図５に関連するフローチャートである。
【図７】クリック系列音の安定化聴覚イメージの例を示す図である。
【図８】図７からフィルタの遅れに相当する分だけ補正した安定化聴覚イメージを示す図である。
【図９】図８の横軸の時間間隔軸を対数変換して表示した安定化聴覚イメージを示す図である。
【図１０】すべてのチャンネルでウェーブレットフィルタのインパルス応答が縦方向にそろうように補正した安定化聴覚イメージを示す図である。
【図１１】図１０に示される安定化聴覚イメージを、横軸の時間間隔周波数積ｈが線形軸となるように変換して表した図である。
【図１２】クリック系列音のメリンイメージを示す図である。
【図１３】指数減衰正弦波の聴覚イメージを示す図である。
【図１４】指数減衰正弦波の寸法−形状イメージを示す図である。
【図１５】指数減衰正弦波のメリンイメージを示す図である。
【図１６】測定した男性話者の声道断面積関数を用いて声道モデルより合成した日本語母音'a'の聴覚イメージ（声帯パルスの繰返し周波数１００Ｈｚ）を示す図である。
【図１７】図１６と同じ条件だが、声帯パルスの繰返し周波数１６０Ｈｚで合成した、日本語母音'a'の聴覚イメージを示す図である。
【図１８】図１６の声道断面積関数に対して声道長を２／３に縮小して、声道モデルより合成した日本語母音'a'の聴覚イメージ（声帯パルスの繰返し周波数１００Ｈｚ）を示す図である。
【図１９】図１８と同じ条件だが、声帯パルスの繰返し周波数１６０Ｈｚで合成した、日本語母音'a'の聴覚イメージを示す図である。
【図２０】図１６に対する寸法−形状イメージを示す図である。
【図２１】図１７に対する寸法−形状イメージを示す図である。
【図２２】図１８に対する寸法−形状イメージを示す図である。
【図２３】図１９に対する寸法−形状イメージを示す図である。
【図２４】図１６に対するメリンイメージを示す図である。
【図２５】図１７に対するメリンイメージを示す図である
【図２６】図１８に対するメリンイメージを示す図である。
【図２７】図１９に対するメリンイメージを示す図である。
【図２８】測定した声道断面積関数を用いて声道モデルより合成した日本語母音'a'の聴覚イメージ（声帯パルスの繰返し周波数１００Ｈｚ。）を示す、図１６と同一の図である。
【図２９】図２８と同じ男性話者で測定した'e'の声道断面積関数を用いて声道モデルより合成した日本語母音'e'の聴覚イメージ（声帯パルスの繰返し周波数１００Ｈｚ）を示す図である。
【図３０】図２８と同じ男性話者で測定した'i'の声道断面積関数を用いて声道モデルより合成した日本語母音'i'の聴覚イメージ（声帯パルスの繰返し周波数１００Ｈｚ）を示す図である。
【図３１】図２８と同じ男性話者で測定した'o'の声道断面積関数を用いて声道モデルより合成した日本語母音'o'の聴覚イメージ（声帯パルスの繰返し周波数１００Ｈｚ）を示す図である。
【図３２】図２８と同じ男性話者で測定した'u'の声道断面積関数を用いて声道モデルより合成した日本語母音'u'の聴覚イメージ（声帯パルスの繰返し周波数１００Ｈｚ）を示す図である。
【図３３】図２８に対する寸法−形状イメージを示す図である。
【図３４】図２９に対する寸法−形状イメージを示す図である。
【図３５】図３０に対する寸法−形状イメージを示す図である。
【図３６】図３１に対する寸法−形状イメージを示す図である。
【図３７】図３２に対する寸法−形状イメージを示す図である。
【図３８】図２８に対するメリンイメージを示す図である。
【図３９】図２９に対するメリンイメージを示す図である。
【図４０】図３０に対するメリンイメージを示す図である。
【図４１】図３１に対するメリンイメージを示す図である。
【図４２】図３２に対するメリンイメージを示す図である。
【図４３】第２の実施の形態の発声練習装置のブロック図である。
【図４４】第２の実施の形態の汎用コンピュータが行なっている処理のフローチャートである。
【図４５】第３の実施の形態の品物品質等級分別装置および第４の実施の形態のソナーシステムのブロック図である。
【図４６】第３の実施の形態・第４の実施の形態のコンピュータが行なっている処理のフローチャートである。
【図４７】第５の実施の形態のエンジン故障診断装置のブロック図である。
【図４８】第５の実施の形態のコンピュータが行なっている処理のフローチャートである。
【符号の説明】
２安定化ウェーブレット変換処理部、３メリン変換処理部、４信号処理部、７ウェーブレット変換部、８振幅圧縮部、９事象検出処理部、１０時間間隔安定化処理部、１３聴覚フィルタバンク、１４聴神経発火パターン変換部、１５事象検出回路、１６安定化聴覚イメージ処理部、１７寸法−形状イメージ処理部、１８メリンイメージ処理部、１９音声認識回路、２２フィルタ遅れ補正部、２５聴覚図形抽出部、２６対数時間間隔表現への変換部、２７インパルス応答分補正部。

【特許請求の範囲】
【請求項１】入力信号をコンピュータにおいてウェーブレット変換するウェーブレット変換ステップと、前記ウェーブレット変換するステップの出力を、コンピュータにおいて前記入力信号の周期に同期させてメリン変換することによって信号の特性を抽出する特性抽出ステップとを含む、信号処理方法。
【請求項２】前記特性抽出ステップは、前記ウェーブレット変換ステップによって得たランニングスペクトルに相当する表現を、前記入力信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するステップと、前記時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するステップとを含む、請求項１に記載の信号処理方法。
【請求項３】前記ウェーブレット変換ステップは、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて前記入力信号を積分変換するステップと、前記積分変換された前記入力信号を半波整流して出力するステップとを含む、請求項１〜請求項２のいずれかに記載の信号処理方法。
【請求項４】入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現をコンピュータを用いて得るステップと、さらにコンピュータを用いて、前記対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって前記入力信号の特性を抽出するステップとを含む、信号処理方法。
【請求項５】前記積分変換により抽出された前記入力信号の特性をベクトル表現し、さらにこれらベクトルの時系列として前記入力信号の経時的な特性を表現するステップをさらに含む、請求項４に記載の信号処理方法。
【請求項６】コンピュータによって処理可能な予め定める形式に変換した入力信号をウェーブレット変換するためのウェーブレット変換手段と、前記ウェーブレット変換手段の出力を前記入力信号の周期に同期させてメリン変換することによって信号の特性を抽出するための特性抽出手段とを含む、信号処理装置。
【請求項７】前記特性抽出手段は、前記ウェーブレット変換手段によって得たランニングスペクトルに相当する表現を、前記信号の各周期に同期させて時間的に安定化させて時間間隔−対数周波数表現に変換するための手段と、前記時間間隔−対数周波数表現において、時間間隔と周波数との積または比の値が一定となる線に沿って、メリン変換するための手段とを含む、請求項６に記載の信号処理装置。
【請求項８】前記ウェーブレット変換手段は、人の聴覚フィルタバンクの特性を模擬するように予めパラメータが設定されたウェーブレット変換のための核関数群を用いて前記入力信号を積分変換するための手段と、前記積分変換された前記入力信号を半波整流して出力するための手段とを含む、請求項６〜請求項７のいずれかに記載の信号処理装置。
【請求項９】コンピュータによって処理可能な形式に変換した、入力信号の、原点が特定された時間間隔−対数周波数表現において、時間間隔軸を対数変換した対数時間間隔−対数周波数表現を得るための手段と、さらに前記対数時間間隔−対数周波数表現を時間間隔と周波数との積を横軸に対数周波数を縦軸に持つ新たな表現に変換し、その縦軸方向または横軸方向に沿って積分変換を行なうことによって前記入力信号の特性を抽出するための手段とを含む、信号処理装置。
【請求項１０】さらに、前記積分変換により得られた前記入力信号の特性をベクトル表現し、さらにこれら表現ベクトルの時系列として前記入力信号の経時的な特性を表現するための手段をさらに含む、請求項９に記載の信号処理装置。
【請求項１１】各々入力信号を受けるように接続された、互いに同一のウェーブレット核関数を持ちそれぞれ別個の周波数を持つウェーブレットにより変換を行なう複数個のウェーブレットフィルタからなるウェーブレットフィルタバンクと、前記ウェーブレットフィルタバンクの出力を受けるように接続され、前記ウェーブレットフィルタバンクの出力から、聴覚図形を抽出するための聴覚図形抽出手段と、前記聴覚図形抽出手段によって抽出された聴覚図形から前記入力信号の寸法−形状イメージを生成するための寸法−形状イメージ生成手段と、前記寸法−形状イメージから前記入力信号の特徴を抽出するための特徴抽出手段とを含む、信号処理装置。
【請求項１２】前記特徴抽出手段は、前記寸法−形状イメージに対して、各前記ウェーブレットフィルタのインパルス応答線に沿ってフーリエ変換を行なうことによりメリンイメージを生成するためのメリンイメージ生成手段を含む、請求項１１に記載の信号処理装置。
【請求項１３】前記聴覚図形抽出手段は、前記ウェーブレットフィルタバンクの出力に含まれる周期性を検出することにより、前記ウェーブレットフィルタバンクの各チャンネルの出力に対して時間ストローブ積分を行ない安定化された聴覚イメージを生成するための時間ストローブ積分手段と、前記時間ストローブ積分手段の検出した周期性に基づいて、前記時間ストローブ積分によって得られた安定化された聴覚イメージのうちの一周期を前記聴覚図形として抽出するための安定化聴覚イメージ抽出手段とを含む、請求項１２に記載の信号処理装置。
【請求項１４】前記安定化聴覚イメージ抽出手段は、前記安定化聴覚イメージの一番目の周期を前記聴覚図形として抽出するための手段を含む、請求項１３に記載の信号処理装置。
【請求項１５】前記安定化聴覚イメージ抽出手段は、前記安定化聴覚イメージの、二番目の周期を前記聴覚図形として抽出するための手段を含む、請求項１３に記載の信号処理装置。
【請求項１６】さらに、前記ウェーブレットフィルタバンクの出力を半波整流して前記聴覚図形抽出手段に与えるための手段を含む、請求項１１に記載の信号処理装置。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【図２２】

【図２３】

【図２４】

【図２５】

【図２６】

【図２７】

【図２８】

【図２９】

【図３０】

【図３１】

【図３２】

【図３３】

【図３４】

【図３５】

【図３６】

【図３７】

【図３８】

【図３９】

【図４０】

【図４１】

【図４２】

【図４３】

【図４４】

【図４５】

【図４８】

【図４７】

【図４６】

【特許番号】特許第３１７４７７７号（Ｐ３１７４７７７）
【登録日】平成１３年３月３０日（２００１．３．３０）
【発行日】平成１３年６月１１日（２００１．６．１１）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 複合した数学演算 (567)
        
        フーリエ，ウオルシュまたは類似の領域変換 (124)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声認識のための特徴抽出；認識単位の選択 (203)

【出願番号】特願２０００−１５５１７（Ｐ２０００−１５５１７）
【出願日】平成１２年１月２５日（２０００．１．２５）
【公開番号】特開２０００−２８５１０４（Ｐ２０００−２８５１０４Ａ）
【公開日】平成１２年１０月１３日（２０００．１０．１３）
【審査請求日】平成１２年２月４日（２０００．２．４）
【出願人】（５９２１７９２９６）株式会社エイ・ティ・アール人間情報通信研究所 (1)
【出願人】（５９７１６６５７８）メディカルリサーチカウンシル (60)
【参考文献】
【文献】入野俊夫、「聴覚末梢系の計算理論」、電子情報通信学会技術研究報告，Ｖｏｌ．９５、Ｎｏ．１４０（ＳＰ９５−４０）、ｐ．２３−ｐ．３０（１９９５．７）
【文献】森口、宇田川、一松、「岩波数学公式 ▲ＩＩ▼ 級数・フーリェ解析」、株式会社岩波書店（１９８７新装第１刷）、ｐ．３０７−ｐ．３１０

[ Back to top ]

信号処理方法および装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

信号処理方法および装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク