説明

音信号区間抽出装置及び音信号区間抽出方法

【課題】非定常雑音を含む入力音信号でも、入力信号のパワーに対する閾値を設定したり、複雑な演算処理を行ったりしなくても、正確に音信号区間を抽出する。
【解決手段】音によって発生する振動のアナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換し(ステップ101)、ステップ101で取得したデジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとし(ステップ102)、ステップ102で作成した2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を施して、当該2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出し(ステップ103)、ステップ103で抽出した音信号区間を特定するために、2値画像データにおける塊化された領域の起点と終点とを時系列で検出する(ステップ106)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力される音信号に含まれる雑音成分を除去して所望の音信号の信号区間を抽出する音信号区間抽出装置及び音信号区間抽出方法に関する。
【背景技術】
【0002】
従来から、入力される音信号に含まれる雑音成分を除去して所望の音信号の信号区間を抽出すために、種々の音声区間検出手段が知られている。例えば、人間の発話音声や、機械等から発生する動作音等の正常音の区間を示す信号区間と、正常音以外の雑音の区間を示す雑音区間とを分離するために、入力信号のパワーに対して閾値を設定し、その閾値と入力信号のパワーとを比較して、信号区間と雑音区間とを区別する音声認識装置や音声区間検出装置が知られている(例えば、特許文献1、特許文献2参照。)。
【0003】
また、信号区間と雑音区間とを分離するために、一定時間範囲内で零レベルを交差する回数を基にして入力信号のパワーと比較するための閾値を設定する零交差法(例えば、特許文献3参照。)や、入力音声信号を正規化することによって音声認識率を向上させるための音声スペクトル概形(例えば、特許文献4参照。)、又は信号区間を検出するために音声を捉えるための特徴量(入力信号の周期性情報)として利用する自己相関(例えば、特許文献5参照。)が知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特公昭63−29754号公報
【特許文献2】特開昭58−130395号公報
【特許文献3】特開平5−165496号公報
【特許文献4】特公平1−36959号公報
【特許文献5】特開2007−328228号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載された音声認識装置や特許文献2に記載された音声区間検出装置では、雑音の大きさなどの物理的特徴が時間と共に大きく変動しない、所謂、定常雑音の場合や、信号区間に比べてパワーが比較的小さい雑音の場合に有効であるが、雑音の大きさが時系列で不規則に変動する非定常雑音では閾値を超える場合があるので、雑音区間を信号区間と誤認識する虞があった。
【0006】
これに対して、特許文献3に記載された音声検出装置、特許文献4に記載された音声認識装置、及び特許文献5に記載された信号処理装置は、他の物理的指標を用いることで特許文献1に記載された音声認識装置や特許文献2に記載された音声区間検出装置より信号区間の検出精度を向上させることが可能になるが、複雑な演算処理を行なわなければならないという難点があった。この場合、その演算処理に見合った演算処理装置が必要になる。
【0007】
本発明は、このような従来の難点を解消するためになされたもので、非定常雑音を含む入力音信号でも、入力信号のパワーに対する閾値を設定したり、複雑な演算処理を行ったりしなくても、正確に音信号区間を抽出することができる音信号区間抽出装置及び音信号区間抽出方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上述の目的を達成する本発明の第1の態様である音信号区間抽出装置は、音によって発生する振動を検出してアナログ音信号に変換する音情報検出部と、音情報検出部で検出した音のアナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換する信号入力部と、信号入力部で取得したデジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする画像作成部と、画像作成部で作成した2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行って、当該2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出する収縮処理機能を有する画像処理部と、画像処理部で抽出した音信号区間を特定するために、2値画像データにおける塊化された領域の起点と終点とを時系列で検出する音信号区間判定部とから構成されているものである。
【0009】
本発明の第2の態様は第1の態様である音信号区間抽出装置において、画像処理部は、2値画像データにおける塊化された領域に、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行って、収縮処理機能で行った収縮処理によって一部削除された領域を復元する膨張処理機能を有するものである。
【0010】
本発明の第3の態様は第2の態様である音信号区間抽出装置において、画像処理部は、モルフォロジー演算処理で2値画像データにおける音信号区間の塊化された領域を抽出するものである。
【0011】
また、本発明の第4の態様である音信号区間抽出方法は、音によって発生する振動のアナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換する第1のステップと、第1のステップで取得したデジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする第2のステップと、第2のステップで作成した2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行って、当該2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出する第3のステップと、第3のステップで抽出した音信号区間を特定するために、2値画像データにおける塊化された領域の起点と終点とを時系列で検出する第4のステップとを有するものでる。
【0012】
本発明の第5の態様は第4の態様である音信号区間抽出方法において、第3のステップは、2値画像データにおける塊化された領域に、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行って、収縮処理によって一部削除された領域を復元することを含むものである。
【0013】
このような第1の態様である音信号区間抽出装置及び第4の態様である音信号区間抽出方法は、従来の音声区間検出手段のような信号のパワーやスペクトルの情報などの物理的特徴に基づいて入力される音信号に含まれる雑音成分を除去するのではなく、人が音信号の信号波形から音信号区間の存在を視覚的に捉えることができる視覚情報に基づき、音信号区間を抽出するという従来にはなかった音信号区間抽出手段を提供するものである。具体的には、音信号の信号波形を、人が視覚的に捉えることができる視覚情報にするために、横軸(X軸)が時間、縦軸(Y軸)が軸中央をゼロとして上下方向に正負の振幅値となるグラフで表現する。音信号の信号波形を、このようにグラフ化することで、人は、縦軸の振幅値が上下に大きく、横軸に連続して出現する塊化された領域が音信号区間であると、視覚で判別することになる。
【0014】
第1の態様である音信号区間抽出装置及び第4の態様である音信号区間抽出方法は、この人の視覚による画像認識を応用するもので、音情報検出部で検出した音のアナログ音信号を信号入力部でデジタル音信号に変換して画像作成部に送出し、画像作成部でデジタル音信号に基づき2値画像データを作成する。この2値画像データは、雑音成分を含むデジタル音信号が画像化されているので、この2値画像データを画像処理部の収縮処理機能で収縮処理を行うと、2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出することができる。なお、音信号の雑音成分は非定常雑音でも、振幅値が低くなったり、振幅値が高くても時間軸上の幅が狭くなる細長い領域となったりすることから、雑音成分を含む音信号の2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行うことで、雑音成分を削除して音信号区間を塊化することができる。そして、音信号区間判定部で2値画像データにおける塊化された領域の起点と終点とを時系列で検出することで、非定常雑音を含む入力音信号でも、入力信号のパワーに対する閾値を設定したり、複雑な演算処理を行ったりしなくても、音信号区間を抽出することができる。
【0015】
また、第2の態様である音信号区間抽出装置及び第5の態様である音信号区間抽出方法は、画像処理部の膨張処理機能で、収縮処理機能による収縮処理で2値画像データにおける塊化された領域に、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行うことにより、一部削除された領域を復元することができるので、音信号区間の抽出精度が向上する。
【0016】
また、第3の態様である音信号区間抽出装置は、画像処理部が、モルフォロジー演算処理で2値画像データにおける音信号区間の塊化された領域を抽出することで、収縮処理機能による収縮処理と膨張処理機能による膨張処理とを組み合わせて用いることができる。
【発明の効果】
【0017】
本発明の音信号区間抽出装置及び音信号区間抽出方法によれば、非定常雑音を含む入力音信号でも、入力信号のパワーに対する閾値を設定したり、複雑な演算処理を行ったりしなくても、正確に音信号区間を抽出することができるようになる。
【図面の簡単な説明】
【0018】
【図1】本発明の音信号区間抽出装置における好ましい実施の形態例を示すシステム構成のブロック図である。
【図2】本発明の音信号区間抽出方法における好ましい実施の形態例を示すフローチャートである。
【図3】本発明の音信号区間抽出方法を説明するための図で、(A)は入力音信号の振幅パターン画像、(B)は(A)の振幅パターン画像に対して収縮処理を行った画像、(C)は(B)の画像に対して膨張処理を行った画像である。
【図4】画像の収縮処理及び膨張処理における注目画素と周辺画素との関係を示す説明図である。
【図5】図3の振幅パターン画像と膨張処理を行った画像との関係を示す説明図である。
【発明を実施するための形態】
【0019】
以下、本発明の音信号区間抽出装置及び音信号区間抽出方法を実施するための最良の形態例について、図面を参照して説明する。
【0020】
本発明の音信号区間抽出装置は図1に示すように、音によって発生する振動を検出してアナログ音信号に変換する音情報検出部11と、図示しないA/D変換部を含み、音情報検出部11で検出した音のアナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換する信号入力部12と、信号入力部12で取得したデジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする画像作成部13と、画像作成部13で作成した2値画像データに収縮処理を行う収縮処理機能を有する画像処理部14と、画像処理部14で抽出した音信号区間を特定するために、2値画像データにおける塊化された領域の起点と終点とを時系列で検出する音信号区間判定部15とから構成されている。
【0021】
音情報検出部11は、音によって発生する振動を検出してアナログ音信号に変換することができるマイクロホンや振動センサが該当する。マイクロホンは音が空気の振動によって発生するので、その空気の振動を電気信号に変換することでその空気の振動に応じたアナログの波形を信号入力部12で取得することができる。また、振動センサは、振動を変位、速度、あるいは加速度で定量的に捕らえるもので、測定した物理量を電気信号に変換することでその振動に応じたアナログの波形を信号入力部12で取得することができる。
【0022】
信号入力部12は、デジタル音信号の信号情報を保存するために、例えば、1列目をサンプル点番号、2列目を1列目に対応する振幅値、行を全サンプル個数のN個(N:0,1,2,…,N−1)とするN行2列の行列とする。また、サンプリング周波数Fの値も保存することで、任意サンプル点n(0≦n≦N−1)の時間を、n×(1/F)により算出することが可能となる。したがって、信号情報の行列における1列目は、時間情報を保存していることになる。
【0023】
画像作成部13は、信号情報の行列における1列目のサンプル点を時間軸となるX軸に、2列目の振幅値を信号のパワーとなるY軸に表現した画像作成を行うものである。例えば、任意のサンプル点間n〜n(a,b:0≦a<b,a<b≦N−1)をX軸方向の1画素分とし、そのn〜nの間にある振幅値の平均値や中央値、最大値に相当する値分の画素数をY軸に表現する。このY軸には、Y軸中央より上に正の振幅値を、Y軸中央より下に負の振幅値が表現されることになる。
【0024】
この画像は、振幅値を表現している黒色部分が1、それ以外の背景となる白色部分が0となるような2値画像とする。この場合のX軸方向の画像サイズSは、N/(n−n)となる。Y軸方向の画像サイズSyは、元の振幅値の値をそのまま用いた場合は振幅値の最大値Apと最小値Amを加算した値となるが、任意のサイズにすることも可能である。この画像サイズを任意のサイズにするには、画像の拡大・縮小処理に相当する方程式、Sy=(Ap+Am)×Cが好ましい。この場合、任意のサンプル点間n〜nにある振幅値の平均値や中央値、最大値に相当する値分の画素数もC倍にしてY軸に表現する。ここで、Cは、C>1なら拡大処理、0<C<1ならば縮小処理となる。
なお、ここでは振幅値を線形で表現していたが、これに限らず、非線形で表現してもよい。
【0025】
画像処理部14の収縮処理機能は、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行うものである。この画像の収縮処理は、2値画像における対象物体の輪郭から外側に伸びた画素幅が狭い凸形状の平滑化や、対象物体の背景にある孤立的な点、所謂ごま塩雑音の除去に有効な処理で、注目画素の周辺画素に0が1つ以上あれば、その注目画素を0にする。なお、画素x,yは、収縮処理によって音信号区間の領域が大きく削除されないようにするために、0≦x<Sx−1,0≦y<Sy−1を満足する値とする。周辺画素の範囲は任意であるが、範囲が大き過ぎると信号区間の存在する領域が削除される可能性があることから、最小構成要素となる注目画素に隣接する8画素を用いるのが最良である。つまり、3×3画素の中央を注目画素とし、注目画素が1のとき、その周辺の8画素のうち1つでも0があれば、注目画素を0とする。この収縮処理を、画像作成部13で作成した2値画像データ全体に対して繰り返し実行した場合、値1の領域を徐々に縮めていくことになり、最終的には、面積が小さい領域は消滅し、元々面積が大きい領域だけが画像上に残ることになる。
【0026】
ここで、雑音区間は、振幅値が低いため、画像上の値が1になる部分が小領域となることから、収縮処理により結果的に削除されることになる。また、雑音区間には、振幅値が短い時間長で大きくなる場合も考えられるが、画像上の値が1になる部分は、X軸方向の幅が狭い細長い領域となるため、この領域も結果として収縮処理により削除される。一方、信号区間では、画像上の値1となる部分の面積が大きいため、収縮処理を行っても削除されることはない。この収縮処理は、目的とする音信号区間の存在する領域が抽出できるまで、または、雑音区間の存在する領域が削除されるまで、少なくともk回(k≧1)繰り返して実行される。
【0027】
なお、この画像の収縮処理では画像の形状によっては音信号区間の存在する領域の一部が削除される場合があるので、画像処理部14に画像に膨張処理を行う膨張処理機能をもたせるとよい。この画像処理部14の膨張処理機能は、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行うものである。この画像の膨張処理は、2値画像における対象物体の内部に伸びた画素幅が狭い凹形状の平滑化や、対象物体の内部にある所謂ごま塩雑音の除去に有効な処理で、収縮処理によって一部削除された領域が出現されるまで、画像作成部13で作成した2値画像データ全体に対して少なくともk回(k≧1)繰り返して実行される。なお、音情報の存在しない振幅パターン領域は収縮処理によって削除されるため、膨張処理を行っても元の領域が出現することはない。即ち、膨張処理後に画像に残った値1の領域が、音信号区間の存在する領域となる。このように、画像処理部14の膨張処理機能で、収縮処理機能による収縮処理で2値画像データにおける塊化された領域に、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行うことにより、一部削除された領域を復元することができるので、音信号区間の抽出精度が向上する。
このような画像処理部14の収縮処理及び膨張処理は、モルフォロジー演算処理が好ましい。モルフォロジー演算処理は、収縮処理及び膨張処理を組み合わせて用いることができるからである。
【0028】
音信号区間判定部15は、信号入力部12、画像作成部13及び画像処理部14で音信号区間となる2値画像データにおける塊化された領域が抽出されるので、この塊化された領域の起点と終点とを時系列で検出するだけで、音信号区間を効率的且つ正確に特定することができる。
【0029】
このように構成された音信号区間抽出装置による音信号区間抽出方法について、以下、図1、図2、図3、図4、図5を参照しながら説明する。なお、画像処理部14は収縮処理機能及び膨張処理機能を有しているものとする。
【0030】
音情報検出部11で検出した音のアナログ音信号を信号入力部12でデジタル音信号に変換して画像作成部102に送出し(ステップ101)、画像作成部102でデジタル音信号に基づき2値画像データを作成する(ステップ102)。この2値画像データは図3(A)に示すように、振幅値を表現している黒色部分が1、それ以外の背景となる白色部分が0となるような2値画像となっている。この2値画像データは、雑音成分を含むデジタル音信号が画像化されているので、この2値画像データを画像処理部14の収縮処理機能で収縮処理を行うと(ステップ103)、2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出することができる(ステップ104)。この収縮処理は図4に示すように、3×3画素の中央の画素eを注目画素とし、注目画素eが1のとき、その周辺の8画素a、b、c、d、f、g、h、iのうち1つでも0があれば、注目画素を0とする。なお、ステップ103及びステップ104は雑音区間の存在する領域が削除されるまで、繰り返して実行される。この雑音区間を削除して塊化された領域となる音信号区間は、図3(B)に示すような画像になる。
【0031】
また、画像処理部14は膨張処理機能で、収縮処理機能による収縮処理で2値画像データにおける塊化された領域に膨張処理を行うことにより、一部削除された領域を復元することができる(ステップ105)。この膨張処理は図4に示すように、注目画素eが0のとき、その周辺の8画素a、b、c、d、f、g、h、iのうち1つでも1があれば、注目画素を1とする。なお、ステップ105は収縮処理によって一部削除された領域が出現されるまで、繰り返して実行される。この一部削除された領域が出現した塊化された領域となる音信号区間は、図3(C)に示すような画像となる。
【0032】
このように画像に対して、n回収縮処理を行った後、n回膨張処理を行うオープニング処理を行うのは、入力される音信号の信号波形を2値化した画像では、所謂ごま塩雑音は生じないが、振幅値の大小による凹凸が生じるからである。振幅値がパルス的に大きい箇所であるインパルス雑音が、X軸方向の画素幅が狭くなった凸形状となり、また、塊化された領域となる音信号区間以外の箇所が、Y軸方向の画素幅が狭い領域となる。収縮処理は、これらの雑音を除去することができ、結果的に塊化された領域となる音信号区間のみを画像上に残すことが可能になる。但し、収縮処理によって抽出された塊化された領域となる音信号区間は、収縮した回数分だけ領域のX軸方向の幅が小さくなっているので、その領域の本来のX軸方向の幅に戻すために、収縮処理した回数分だけ膨張処理を行う必要がある。
【0033】
このようにして得られた音信号区間の領域の画像は図5に示すように、信号区間判定部15で2値画像データにおける塊化された領域の起点Aと終点Bとを時系列で検出する(ステップ106)。このように画像処理することで、非定常雑音を含む入力音信号でも、入力信号のパワーに対する閾値を設定したり、複雑な演算処理を行ったりしなくても、塊化された領域となる音信号区間を効率的且つ正確に抽出することができる。
【0034】
このような本発明の音信号区間抽出装置及び音信号区間抽出方法は、従来の音声区間検出手段と併用することで、音信号区間の抽出精度の向上を図ることが可能になる。
また、本発明の音信号区間抽出装置及び音信号区間抽出方法の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、コンピュータで読み出し実行することでも、本発明の目的を達成することができる。
【0035】
これまで本発明について図面に示した特定の実施の形態をもって説明してきたが、本発明は図面に示した実施の形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができることはいうまでもないことである。
【産業上の利用可能性】
【0036】
このような本発明の音信号区間抽出装置及び音信号区間抽出方法は、例えば、機械の異常予兆を早期に発見するために、機械の動作音を分析する際、雑音によって誤認識してしまうことを防ぐことができる。
【符号の説明】
【0037】
1……音信号区間抽出装置
11……音情報検出部
12……信号入力部
13……画像作成部
14……画像処理部
15……音信号区間判定部

【特許請求の範囲】
【請求項1】
音によって発生する振動を検出してアナログ音信号に変換する音情報検出部と、
前記音情報検出部で検出した前記音の前記アナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換する信号入力部と、
前記信号入力部で取得した前記デジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする画像作成部と、
前記画像作成部で作成した前記2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行って、当該2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出する収縮処理機能を有する画像処理部と、
前記画像処理部で抽出した前記音信号区間を特定するために、前記2値画像データにおける前記塊化された領域の起点と終点とを時系列で検出する音信号区間判定部とから構成されていることを特徴とする音信号区間抽出装置。
【請求項2】
前記画像処理部は、前記2値画像データにおける前記塊化された領域に、前記予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行って、前記収縮処理機能で行った前記収縮処理によって一部削除された領域を復元する膨張処理機能を有することを特徴とする請求項1記載の音信号区間抽出装置。
【請求項3】
前記画像処理部は、モルフォロジー演算処理で前記2値画像データにおける前記音信号区間の前記塊化された領域を抽出することを特徴とする請求項2記載の音信号区間抽出装置。
【請求項4】
音によって発生する振動のアナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換する第1のステップと、
前記第1のステップで取得した前記デジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする第2のステップと、
前記第2のステップで作成した前記2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行って、当該2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出する第3のステップと、
前記第3のステップで抽出した前記音信号区間を特定するために、前記2値画像データにおける前記塊化された領域の起点と終点とを時系列で検出する第4のステップとを有することを特徴とする音信号区間抽出方法。
【請求項5】
前記第3のステップは、前記2値画像データにおける前記塊化された領域に、前記予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行って、前記収縮処理によって一部削除された領域を復元することを含むことを特徴とする請求項4記載の音信号区間抽出方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2011−248296(P2011−248296A)
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願番号】特願2010−124299(P2010−124299)
【出願日】平成22年5月31日(2010.5.31)
【出願人】(000157083)関東自動車工業株式会社 (1,164)
【出願人】(507234427)公立大学法人岩手県立大学 (22)