音響信号処理装置及び音声度合算出方法
【課題】 簡単な構成あるいは少ない処理量で音声らしさあるいは音声の度合を求め、入力音響信号から音声部分を分離する。
【解決手段】 ステップS1で入力音響信号をフレーム単位で波形切り出し処理し、ステップS2でフレーム内での半波長の増減割合を算出し、ステップS3でフレーム内でのゼロクロスの割合を算出する。ステップS2での半波長の増減割合は、入力音響信号の波形の登り半波長又は下り半波長について、増減あるいは減増と交互に変化する部分の割合を求めて算出する。ステップS4で上記各ステップS2、S3で算出された各割合を用いて音声の度合を決定する。ステップS5では、ステップS1で切り出されたフレーム毎の音響信号に対して、ステップS4にて得られた音声度合に応じて音声と背景雑音とを分離あるいは強調減衰するような音声処理を行う。
【解決手段】 ステップS1で入力音響信号をフレーム単位で波形切り出し処理し、ステップS2でフレーム内での半波長の増減割合を算出し、ステップS3でフレーム内でのゼロクロスの割合を算出する。ステップS2での半波長の増減割合は、入力音響信号の波形の登り半波長又は下り半波長について、増減あるいは減増と交互に変化する部分の割合を求めて算出する。ステップS4で上記各ステップS2、S3で算出された各割合を用いて音声の度合を決定する。ステップS5では、ステップS1で切り出されたフレーム毎の音響信号に対して、ステップS4にて得られた音声度合に応じて音声と背景雑音とを分離あるいは強調減衰するような音声処理を行う。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、環境雑音や背景雑音等の環境音と音声とを含む入力音響信号から音声を分離したり環境音を減衰し音声を強調するために用いられる音響信号処理装置及び音声度合算出方法に関する。
【背景技術】
【0002】
携帯用電話機や音声認識等の応用において、収音された音響信号あるいは可聴信号に含まれる環境雑音や背景雑音等の雑音(ノイズ)を抑圧し音声成分を強調したり、雑音と音声とを分離することが必要とされている。
【0003】
このような音声と雑音とを分離する従来の技術としては、例えば、特許文献1、2に示すように、複数のマイクロホンを利用して各マイクの受信した音響信号の差から分離をする方法が知られており、また、特許文献3、4に示すように、あるタイミングでそのときの環境音を学習する方法が知られている。また、例えば特許文献5には、一定区間内の最小の平均振幅値をノイズとし、その値との大小関係で環境音と音声の判断を行なう方法が開示されている。
【0004】
【特許文献1】特開2000−81900号公報
【特許文献2】特開平8−79897号公報
【特許文献3】特開2001−42886号公報
【特許文献4】特開2000−222000号公報
【特許文献5】特開2003−70097号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
ところで、上述のような従来技術においては、次のような問題点がある。
【0006】
上記特許文献1、2に示すような複数のマイクロホンを利用する技術の場合には、それぞれのマイク間隔が一定以上離れている必要があり、指向性マイクの場合に、対象の移動に合わせて方向を変える必要がある、といった問題点が挙げられる。
【0007】
また、上記特許文献3、4に示すような環境音を学習するような技術の場合には、学習に必要十分な時間の環境音が必要であり、また汎用性に欠ける、という問題点がある。
【0008】
また、上記特許文献5の技術においては、大きな振幅のノイズに対応できない点と、一定区間内がすべて音声のみまたは環境音のみである場合に判断が困難である点とが問題と考えられる。
【0009】
本発明は、このような従来の実情に鑑みて提案されたものであり、1本のマイクロホンで収音された音響信号や、記録媒体から再生された音響信号を入力として、簡単な構成あるいは少ない処理量で音声らしさあるいは音声の度合を求めることができ、入力音響信号に対して、音声の分離あるいは雑音抑圧・音声強調が容易に行えるような音響信号処理装置及び音声度合算出方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
上述の課題を解決するために、本発明に係る音響信号処理装置は、音声及び環境音を含む入力音響信号の音声の度合を算出する音声度合算出手段と、この音声度合算出手段からの出力に基づき上記入力音響信号を処理する音声処理手段とを有し、上記音声度合算出手段は、上記入力音響信号の波形の波長方向の特徴量に基づいて音声の度合を算出することを特徴とする。
【0011】
ここで、上記波長方向の特徴量は、上記波形の長さの変化、あるいは上記波形のレベル方向の変化であることが挙げられる。
【0012】
上記音声度合算出手段は、上記入力音響信号の所定の時間長単位で切り出されたフレーム単位で音声度合を算出することことが好ましい。
【0013】
また、上記音声度合算出手段は、上記入力音響信号の波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出手段と、上記入力音響信号の波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出手段と、上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力手段とを有して成ることが好ましい。上記半波長増減繰り返し割合算出手段は、上記入力音響信号の波形の登り半波長が増減あるいは減増と交互に変化する部分の割合と、上記入力音響信号の波形の下り半波長が増減あるいは減増と交互に変化する部分の割合とに基づいて半波長の増減の繰り返し割合を算出することが好ましい。
【0014】
次に、本発明に係る音声度合算出方法は、上記目的を達成するため、入力音響信号の波形を所定長さのフレーム単位で切り出す波形切り出し工程と、上記波形切り出し工程により切り出された波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出工程と、上記波形切り出し工程により切り出された波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出工程と、上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力工程とを有することを特徴とする。
【0015】
このような本発明では、入力音響信号をフレーム単位で波形切り出し処理し、フレーム内での半波長の増減割合を算出し、またフレーム内でのゼロクロスの割合を算出し、これらの算出された各割合を用いて音声の度合を決定する。この決定された音声度合に応じて音声と背景雑音とを分離あるいは強調減衰する
を制御する。
【発明の効果】
【0016】
本発明によれば、入力音響信号がモノラル音声でも、環境音を除去して音声のみを分離することができ、また、波形の簡単な特徴量を用いているため、処理が軽くて済み、実時間で処理が可能である。
【発明を実施するための最良の形態】
【0017】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
【0018】
図1は、本発明の実施の形態における音声分離機能を有する音響信号処理装置の構成例を概略的に示すブロック図である。
【0019】
図1に示す音響信号処理装置は、マイクロホンにより音響電気変換された音響信号や記録媒体から再生された音響信号等が入力される音響信号入力部10と、入力音響信号を所定の時間長(フレーム)単位で切り出す波形切り出し部20と、切り出された波形が音声である度合いを算出する音声度合算出部30と、音声度合算出部30から出力された値に基づいて、入力音響信号を処理する音声処理部40とを有して構成されている。音声処理部40では、例えば主として、入力音響信号の音声と環境音(環境雑音や背景雑音等のノイズ)とを分離したり、環境音を減衰し音声を強調するような処理が行われる。
【0020】
図1の音声度合算出部30は、入力音響信号の波形の波長方向の特徴量に基づいて音声の度合を算出するものであり、例えば図2に示すように、切り出されたフレーム毎の波形について、極値点間の半波長の長さが増減を繰り返す割合を算出する半波長増減繰り返し割合算出部31と、切り出された波形内に含まれる半波長のうち、ゼロクロスを有する割合を算出するゼロクロス割合算出部32と、これら半波長増減繰り返し割合算出部31及びゼロクロス割合算出部32から得られる二つの割合から、音声度合を計算し、出力する音声度合出力部33とを有して構成されている。
【0021】
次に、これらの図1、図2に示す構成における各部の動作について、処理手順に従って説明する。
【0022】
先ず、図1の音響信号入力部10にて音響信号を取り込む。この入力音響信号は任意であり、例えばマイクロホンにより収音された音響信号や、テレビジョン放送やラジオ放送等を受信して得られた音響信号や、CD、DVD、カセットテープ、ビデオテープ、半導体メモリカード等の記録媒体を再生して得られた音響信号等が挙げられる。音響信号入力部10からの音響信号は、例えば後段回路部でのディジタル処理に合わせてディジタル信号となっている。
【0023】
次に、波形切り出し部20で、音響信号をある長さに切り分ける。ここで切り出された区間をフレームと呼ぶ。フレーム長は、例えば1000サンプルとすることが挙げられるが、このサンプル数に限定されず、また固定である必要もない。また、前後のフレームの一部をオーバーラップさせるようにしてもよい。
【0024】
波形切り出し部20で切り出されたフレームの音響信号の音声度合を音声度合算出部30で求める。この音声度合算出部30は例えば図2のような構成を有し、フレーム毎の処理は、図3に示すような、極値点間の半波長毎に行なう。この図3において、極小点から極大点までを登り半波長UH、極大点から極小点までを下り半波長DHとする。
【0025】
図2の半波長増減繰り返し割合算出部31では、フレーム内の登り半波長UHのみ、又は下り半波長のみを見て、半波長の長さの変化が増減交互に繰り返されている割合を算出している。すなわち、現在注目しているn番の登り半波長UHnの長さが一つ前のn−1番の登り半波長UHn−1の長さに比べて増加しているか、減少しているかを調べ、この増減が、フレーム内で「増・減・増・減」と交互になっている割合を求める。下り半波長についても同様に「増・減・増・減」と交互になっている割合を求める。二つの割合から、フレーム内の、半波長増減繰り返し割合を決定する。
【0026】
例えば、図4において、登り半波長UHの各長さについて、UH1に比べてUH2が増加し、UH2に比べてUH3が減少し、UH3に比べてUH4が増加し、UH4に比べてUH5が減少している。また、下り半波長DHの各長さについて、DH1に比べてDH2が増加し、DH2に比べてDH3が減少し、DH3に比べてDH4が増加し、DH4に比べてDH5が減少している。半波長増減繰り返し割合算出部31は、このような増減が交互に繰り返し生じている部分のフレーム内の割合を、登り半波長UHと下り半波長DHとについてそれぞれ求め、これらの2つの割合の平均、積、重みつき平均等に基づいて、フレーム内の半波長増減繰り返し割合を決定し、音声度合出力部33に送っている。なお、半波長増減繰り返し割合算出部31のより具体的な構成及び動作については、後で図面を参照しながら説明する。
【0027】
図2のゼロクロス割合算出部32では、フレーム内の半波長の内のゼロクロスを有する半波長の割合を求める。例えば図5において、登り及び下りの各半波長UH1、DH1、UH2、DH2、UH3、DH5はゼロクロスを有しており、DH3、UH4、DH4、UH5はゼロクロスを有していない。この図5の場合には、10の半波長の内のゼロクロスを有する半波長(6つ)の割合そのものは、6/10=0.6、として求められるが、これをフレーム内の全ての半波長に対して行い、後述するように必要に応じて出力調整を行って、フレーム内の半波長の内のゼロクロスを有する半波長の割合を求め、音声度合出力部33に送っている。
【0028】
図2の音声度合出力部33では、半波長増減繰り返し割合算出部31からの割合と、ゼロクロス割合算出部32からの割合とに基づいて、音声の度合いを決定する。例えば、各出力の平均、積、重みつき和などが考えられる。音声度合出力部33からの出力(音声の度合)は、図1の音声度合算出部30からの出力として音声処理部40に送られる。
【0029】
音声合成部40では、波形切り出し部20からの各フレームの音声波形に対して、音声度合算出部30から出力される音声の度合いを用いて音声と背景雑音とを分離あるいは強調減衰するような処理を施し、出力波形とする。例えば、音声度合を倍率として、フレームの音声波形との積を出力するなどの処理が考えられる。
【0030】
以上の手順をフローチャートに近似した形式で図6に示す。この図6において、ステップS1で入力音響信号をフレーム単位で波形切り出し処理し、ステップS2でフレーム内での半波長の増減割合を算出し、ステップS3でフレーム内でのゼロクロスの割合を算出し、ステップS4で上記各ステップS2、S3で算出された各割合を用いて音声の度合を決定する。ステップS5では、ステップS1で切り出されたフレーム毎の音響信号に対して、ステップS4にて得られた音声度合に応じて音声と背景雑音とを分離あるいは強調減衰するような音声処理を行う。
【0031】
ここで、本発明の実施の形態は、入力音響信号の波形が「音声」なのか「環境音(車の走行音や風音、ノイズ)」なのかを区別することを要旨とするものである。すなわち、従来のように、単にレベルの大きさで音声と環境音を区別する手法では、レベルの大きなノイズまで音声と見なしてしまうという欠点があった。そこで、本発明の実施の形態においては、各時刻においてその波形が「音声」なのか「環境音」なのかを「音声らしさ」として数値化することにした。環境音と音声が両方含まれるといったこともあり、どちらかの二値で判定するのは困難であるためである。一定区間内の波形が音声である確率、もしくは波形に含まれる音声波形の割合という意味合いで「音声らしさ」という言葉を使用している。
【0032】
本発明の実施の形態において採用した手法は、母音部分に特化したものである。音声の母音部分は基本周波数とその倍音成分とから構成されるため、波長は定常になる。本発明の実施の形態では、一波長を極大点から次の極大点まで、もしくは極小点から次の極小点までとしている。そのため、一般的に波長の揺ぎを定義するとなればその長さが「常に一定値→揺ぎ無し」、「一定の範囲内で変動→揺ぎあり」ということになる。本発明の実施の形態では、「揺ぎ」とは、この半波長が「増減増減」となっている部分の変化を意味すると共に、音声らしさの基準としての一例としてゼロクロス(もしくは中心点のずれ)に基づく波形のレベル方向の変化を意味している。
【0033】
すなわち、本発明の実施の形態においては、「波長の揺ぎ」、「レベル方向の揺ぎ」の二種類の揺ぎを定義している。それぞれの場合で揺ぎがあるのは以下の場合である。
【0034】
先ず、「波長の揺ぎ」とは、登り半波長、もしくは下り半波長の長さの変化が「増減増減」と交互になっている場合である。次に、「レベル方向の揺ぎ」とは、半波長がゼロクロスしていない場合である。ここで、「レベル方向の揺ぎ」として、半波長のレベル方向の中心点がゼロクロスから離れている場合を採用してもよい。この場合は、図7に示すように、半波長の振幅方向の中心点からのずれ度合A/Bによって「レベル方向の揺ぎ」を求めるようにすることが挙げられる。
【0035】
また、各揺ぎと音声らしさの関係は、「波長の揺ぎ」については揺ぎがあるほど、すなわち、半波長の長さの変化で「増減増減」となっている波長が多いほど、音声である可能性が高い。また、「レベル方向の揺ぎ」については揺ぎが小さいほど、すなわちゼロクロスしていない半波長の割合が小さいほど、あるいは半波長のレベル方向の中心点がゼロクロスに近いほど、音声である可能性が高い。
【0036】
これは、音声信号波形のスペクトルをとると、ある基本周波数の倍数構造を有していることが知られているが、この基本周波数は、一般的に音の高さを表すピッチに相当しており、ピッチ周波数とも称され、例えばピッチ周波数の整数倍の位置にピークが現れる。さらに、音声信号波形における隣り合うピーク間に相当するピッチ周期に対して、実際の波形信号にはこのピッチ周期よりも長い波長の成分も含まれており、特に2倍のピッチ周期の成分も比較的有力に現れている。このような2倍のピッチ周期の成分は、上述した登り半波長、あるいは下り半波長で見ると、長さの変化で増減が交互に繰り返し現れることに相当し、半波長の長さの変化が「増減増減」となっている波長が多いほど、音声である可能性が高くなるものである。なお、これは、人の声(人声)のみならず、楽器音を含む音楽信号のようないわゆる楽音信号の場合にもある程度成立するものであり、本発明の実施の形態は、楽音を含む音声信号と、環境音(ノイズ)とを分離あるいは増強減衰することも可能である。
【0037】
上述したような揺ぎと音声らしさとの関係を表にまとめたものを、図8に示し、また、入力音響信号が音声のみの場合の波形の一例を図9に、環境音が混入した音響信号の波形の一例を図10に、波長の揺ぎがない波形の一例を図11にそれぞれ示している。
【0038】
図8から明らかなように、波長の揺ぎが大きい・多い場合が音声、小さい・少ない場合が環境音にそれぞれ対応し、レベル方向の揺ぎが大きい・多い場合が環境音、小さい・少ない場合が音声にそれぞれ対応している。
【0039】
図9は、入力音響信号の波形の波長の揺ぎが「増減増減」と交互に現れており、音声のみである場合を示し、図10は、ゼロクロスしない部分が多くレベル方向の揺ぎが大きい場合に相当し、入力音響信号に環境音(ノイズ)が混ざっていることを示している。また、図11の波形は、半波長が増加するのみで波長の揺ぎが無いような波形の例を示すものである。
【0040】
次に、音声らしさあるいは音声度合を求めるための半波長増減繰り返し割合算出及びゼロクロス割合算出のより具体的な構成例について、図面を参照しながら説明する。
【0041】
図12は、上記図2の半波長増減繰り返し割合算出部31の具体的な構成例を示すブロック図、図13は、上記図2のゼロクロス割合算出部32の具体的な構成例を示すブロック図である。
【0042】
図12に示す半波長増減繰り返し割合算出部31は、上記図1の波形切り出し部20にてフレーム単位で切り出された音響信号の波形が入力される登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52と、これらの登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52から出力される各割合を統合する半波長増減繰り返し割合統合部53と、この半波長増減繰り返し割合統合部53からの出力値を調整して出力する出力値調整部54とを有して構成されており、この出力値調整部54からの出力が図2の音声度合出力部33に送られる。なお、出力値調整部54は省略してもよい。
【0043】
次に、図12の登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52の動作について、図14を参照しながら説明する。この場合、登り半波長、下り半波長について、同様の処理が行われる。
【0044】
登り半波長増減繰り返し割合算出部51において、先ず、フレーム内の隣り合う3つの登り半波長の長さの変化が「増減」もしくは「減増」と交互になっている組の数をAupとする。フレーム内の全登り半波長数をNupとすると、登り半波長の増減繰り返し割合Rupは、
Rup=Aup/(Nup−2)
で定義される。下り半波長増減繰り返し割合算出部52の下り半波長についても、
Rdown=Adown/(Ndown−2)
で定義される。
【0045】
図14の例では、登り半波長のUH1からUH2が増加、UH2からUH3が減少、UH3からUH4が減少となっており、下り半波長のDH1からDH2が減少、DH2からDH3が増加、DH3からDH4が増加、DH4からDH5が増加となっている。すなわち、UH1〜3の組が「増減」、UH2〜4の組が「減増」、UH3〜5の組が「増減」となり、DH1〜3の組が「減増」となる。従って、図14の例で、RupおよびRdownを計算すると
Rup=Aup/(Nup−2)=2/(5−2)=0.67
Rdown=Adown/(Ndown−2)=1/(5−2)=0.33
となる。
【0046】
このようにして登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52にて求められた登り及び下りの半波長の増減割合Rup及びRdownが半波長増減繰り返し割合統合部53に送られて統合される。この統合方法としては、RupとRdownの積、平均、大きな方の値、小さな方の値等を求めることが挙げられる。半波長増減繰り返し割合統合部53からの出力は、値域を調節する出力値調整部54に送られ、例えば出力値を0.0から1.0の範囲にして出力している。この処理の一例としては、出力値調整部54への入力をin、出力値調整部54からの出力をoutとするとき、
【0047】
【数1】
のようにすることが挙げられる。この式(1)で、THは0以上で1より小さい閾値(0≦TH<1.0)である。増減が交互になる割合の期待値は0.5であるので、THはそれ以上の値が好ましい。なお、この出力値調整部54は省略してもよい。
【0048】
ところで、登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52での計算方法としては、上述したような、切り出されたフレーム内の3つの半波長の長さの変化が「増減」又は「減増」になっている個数を数える方法の他にも種々の方法が考えられる。例えば、「増減」又は「減増」が交互に続いている長さの最大値を求める方法や、「増減」又は「減増」が交互に続いている長さのばらつきを求める方法等が挙げられる。これらの方法について、図15を参照しながら説明する。図15の波形の例において、「増減」又は「減増」が交互に続いている長さとしては、登り半波長について、部分aが「3」、部分bが「2」、部分cが「2」であり、下り半波長について、部分dが「1」、部分eが「4」、部分fが「1」となっている。
【0049】
上記「増減」又は「減増」が交互に続いている長さの最大値を求める方法とは、切り出されたフレーム内の登り半波長、下り半波長毎に、「増減」又は「減増」が交互に続く長さの最大値を求めるものである。例えば図15の波形の例では、増減が交互に続いている長さは、登り半波長が「3」、下り半波長が「4」となる。
【0050】
また、上記「増減」又は「減増」が交互に続いている長さのばらつきを求める方法の例としては、求めるべきばらつきを、登り半波長、下り半波長をそれぞれVup、Vdownとして、以下の式で定義することが挙げられる。
【0051】
Vup=(Aveup/Varup)/(Nup−2)
Vdown=(Avedown/Vardown)/(Ndown−2)
ここでAveは登り、下りそれぞれの増減の繰り返しの長さの平均値、Varは増減の繰り返しの長さの分散、 Nはフレーム内の登り、下り半波長数である。
【0052】
図15の場合には、以下のように計算される。
【0053】
Vup=(2.33/0.22)/(9−2)=1.5
Vdown=(2/2)/(9 − 2)=0.14
ただしこのままでは、出力値が0〜1の範囲に収まらないので、出力値調整部54で調整する必要がある。具体的には以下の式(2)のようなシグモイド関数が挙げられる。
【0054】
【数2】
この式(2)中で、inは出力値調整部54への入力、outは出力値調整部54からの出力、αはパラメータである。
【0055】
次に、図13に示すゼロクロス割合算出部32は、上記図1の波形切り出し部20にてフレーム単位で切り出された音響信号の波形が入力されるゼロクロス割合計算部56と、このゼロクロス割合計算部56からの出力値を調整して出力する出力値調整部57とを有して成っている。出力値調整部57からの出力は、ゼロクロス割合算出部32の出力として、上記図2の音声度合出力部33に送られる。なお、出力値調整部57は省略してもよい。
【0056】
ゼロクロス割合計算部32では、ゼロクロス割合として、
ゼロクロスを有する半波長数/全半波長数
を求め、これをゼロクロス割合出力値として出力値調整部57に送っている。例えば、上述した図5の波形の例では、登り及び下りの各半波長UH1、DH1、UH2、DH2、UH3、DH5はゼロクロスを有しており、DH3、UH4、DH4、UH5はゼロクロスを有していないことから、
ゼロクロスを有する半波長数/全半波長数=6/10=0.6
と計算される。これをフレーム内の全半波長について計算するものである。
【0057】
出力値調整部57では、ゼロクロス割合計算部56にて上記計算を行うことにより求められたゼロクロス割合の出力値を例えば0.0から1.0の範囲に調整して出力する。この処理は、例えば上述した出力値調整部54と同様に、上記式(1)、あるいは式(2)のような計算を行うことが挙げられ、これらの式(1)、(2)において、inは出力値調整部57への入力、outは出力値調整部57からの出力であり、式(2)のαはパラメータである。
【0058】
次に、音響信号の具体的な波形例に対する上記図1、図2、図12、図13に示した構成における各部からの出力波形あるいは出力値について、図16〜図20を参照しながら説明する。
【0059】
先ず図16は、入力音響信号からフィルタによって取り出した800〜2000Hzの周波数帯域の波形を示している。この図16のx軸の単位は[sec]である。この図16に示すような音響信号の波形に対する各部からの出力値を、図17〜図20に示す。これらの図17〜図20は、フレーム長は1000サンプル(約21msec)とし、100サンプル(約2.1msec)ずつフレームをずらしていくことにより得られた出力値を示している。
【0060】
図17は、上記図12の登り半波長増減繰り返し割合算出部51にて求められた登り半波長の繰り返し割合の出力結果(出力値)を示し、図18は、上記図12の下り半波長増減繰り返し割合算出部52にて求められた下り半波長の繰り返し割合の出力結果を示している。また、図19は、上記図13のゼロクロス割合計算部56にて求められたゼロクロス割合の出力結果(出力値)を示している。なお、これらの図17、図18の具体例では、登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52において、例えば切り出されたフレーム内の3つの半波長の長さの変化が「増減」又は「減増」になっている個数を数え、その割合を算出した結果を示しているが、この他、上述したように、「増減」又は「減増」が交互に続いている長さの最大値を求めたり、「増減」又は「減増」が交互に続いている長さのばらつきを求めるようにしてもよい。
【0061】
次に図20は、図1、図2に示す音声度合算出部30からの出力結果(出力値)を示している。この場合、図12の半波長増減繰り返し割合統合部53では、図17及び図18に示す登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52からの各出力値の内の大きい方の値を出力するようにし、出力値調整部54では、上記式(1)のTH=0.6としたものを用いて調整し、半波長増減繰り返し割合算出部31からの出力値としている。また、図13の出力値調整部57では、ゼロクロス割合計算部56からの上記図19に示す出力値に対して、上記式(1)のTH=0.7としたものを用いて調整し、ゼロクロス割合算出部32からの出力値としている。図2の音声度合出力部33では、これらの半波長増減繰り返し割合算出部31からの出力値とゼロクロス割合算出部32からの出力値との積をとって、図20に示すような音声度合算出部30からの出力値としている。
【0062】
上述したような本発明の実施の形態によれば、環境音ノイズが含まれていても、音声のみを分離することができ、モノラル音声でも、環境音が除去できるため、あらゆる音響信号に適用でき、また、簡単な特徴量を用いるため、処理が軽くて済み、実時間で処理が可能である。
【0063】
次に、本発明の他の実施の形態について、図21を参照しながら説明する。この図21の例では、音響信号入力部10から入力された音響信号等を、波形切り出し部20にて一定の時間長(フレーム)単位で切り出した後、帯域分割部60により複数の帯域に分割して、各帯域毎に処理を行うようにしている。すなわち、帯域分割部60では、波形切り出し部20からの音響信号を、複数の周波数帯域FB0〜FBnに分割し、それぞれの周波数帯域FB0〜FBn毎に、音声度合算出部70にて音声度合を算出し、これらの各周波数帯域FB0〜FBnの音声度合に基づいて、音声処理部80で、帯域分割部60からの各周波数帯域FB0〜FBnの信号に対して処理を行い、音声と環境音(ノイズ)とを分離あるいは増強減衰し、各周波数帯域の信号を合成して出力している。音声度合算出部70での各周波数帯域毎の処理は、上記図2、図12、図13と共に説明した処理と同様な処理が行われ、音声度合算出部70には、上記図2、図12、図13と同様な構成が各周波数帯域毎に設けられている。
【0064】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【図面の簡単な説明】
【0065】
【図1】本発明の実施の形態となる音響信号処理装置の概略構成を示すブロック図である。
【図2】本発明の実施の形態に用いられる音声度合算出部の構成例を示すブロック図である。
【図3】音響信号の波形の一例を示す波形図である。
【図4】半波長の増減を説明するための音響信号波形の一例を示す波形図である。
【図5】半波長のゼロクロスを説明するための音響信号波形の一例を示す波形図である。
【図6】本発明の実施の形態の動作を説明するためのフローチャート近似の説明図である。
【図7】半波長のレベル方向の中心点のずれを説明するための波形の一例を示す波形図である。
【図8】揺ぎと音声らしさとの関係を示す図である。
【図9】音声のみの場合の音響信号波形の一例を示す波形図である。
【図10】環境音の混入した音声の場合の音響信号波形の一例を示す波形図である。
【図11】波長の揺ぎが無い場合の音響信号波形の一例を示す波形図である。
【図12】本発明の実施の形態に用いられる半波長増減繰り返し割合算出部の構成例を示すブロック図である。
【図13】本発明の実施の形態に用いられるゼロクロス割合算出部の構成例を示すブロック図である。
【図14】登り半波長及び下り半波長の増減繰り返し割合を説明するための音響信号波形の一例を示す波形図である。
【図15】登り半波長及び下り半波長の増減繰り返し割合の他の計算方法を説明するための音響信号波形の一例を示す波形図である。
【図16】入力音響信号の波形の一例を示す波形図である。
【図17】登り半波長の繰り返し割合の算出結果となる出力値を示す図である。
【図18】下り半波長の繰り返し割合の算出結果となる出力値を示す図である。
【図19】ゼロクロス割合の算出結果となる出力値を示す図である。
【図20】音声度合の算出結果となる出力値を示す図である。
【図21】本発明の他の実施の形態となる音響信号処理装置の概略構成を示すブロック図である。
【符号の説明】
【0066】
10 音響信号入力部、 20 波形切り出し部、 30 音声度合算出部、 31 半波長増減繰り返し割合算出部、 32 ゼロクロス割合算出部、 33 音声度合出力部、 51 登り半波長増減繰り返し割合算出部、 52 下り半波長増減繰り返し割合算出部、 53 半波長増減繰り返し割合統合部、 54,57 出力値調整部、 56 ゼロクロス割合計算部
【技術分野】
【0001】
本発明は、環境雑音や背景雑音等の環境音と音声とを含む入力音響信号から音声を分離したり環境音を減衰し音声を強調するために用いられる音響信号処理装置及び音声度合算出方法に関する。
【背景技術】
【0002】
携帯用電話機や音声認識等の応用において、収音された音響信号あるいは可聴信号に含まれる環境雑音や背景雑音等の雑音(ノイズ)を抑圧し音声成分を強調したり、雑音と音声とを分離することが必要とされている。
【0003】
このような音声と雑音とを分離する従来の技術としては、例えば、特許文献1、2に示すように、複数のマイクロホンを利用して各マイクの受信した音響信号の差から分離をする方法が知られており、また、特許文献3、4に示すように、あるタイミングでそのときの環境音を学習する方法が知られている。また、例えば特許文献5には、一定区間内の最小の平均振幅値をノイズとし、その値との大小関係で環境音と音声の判断を行なう方法が開示されている。
【0004】
【特許文献1】特開2000−81900号公報
【特許文献2】特開平8−79897号公報
【特許文献3】特開2001−42886号公報
【特許文献4】特開2000−222000号公報
【特許文献5】特開2003−70097号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
ところで、上述のような従来技術においては、次のような問題点がある。
【0006】
上記特許文献1、2に示すような複数のマイクロホンを利用する技術の場合には、それぞれのマイク間隔が一定以上離れている必要があり、指向性マイクの場合に、対象の移動に合わせて方向を変える必要がある、といった問題点が挙げられる。
【0007】
また、上記特許文献3、4に示すような環境音を学習するような技術の場合には、学習に必要十分な時間の環境音が必要であり、また汎用性に欠ける、という問題点がある。
【0008】
また、上記特許文献5の技術においては、大きな振幅のノイズに対応できない点と、一定区間内がすべて音声のみまたは環境音のみである場合に判断が困難である点とが問題と考えられる。
【0009】
本発明は、このような従来の実情に鑑みて提案されたものであり、1本のマイクロホンで収音された音響信号や、記録媒体から再生された音響信号を入力として、簡単な構成あるいは少ない処理量で音声らしさあるいは音声の度合を求めることができ、入力音響信号に対して、音声の分離あるいは雑音抑圧・音声強調が容易に行えるような音響信号処理装置及び音声度合算出方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
上述の課題を解決するために、本発明に係る音響信号処理装置は、音声及び環境音を含む入力音響信号の音声の度合を算出する音声度合算出手段と、この音声度合算出手段からの出力に基づき上記入力音響信号を処理する音声処理手段とを有し、上記音声度合算出手段は、上記入力音響信号の波形の波長方向の特徴量に基づいて音声の度合を算出することを特徴とする。
【0011】
ここで、上記波長方向の特徴量は、上記波形の長さの変化、あるいは上記波形のレベル方向の変化であることが挙げられる。
【0012】
上記音声度合算出手段は、上記入力音響信号の所定の時間長単位で切り出されたフレーム単位で音声度合を算出することことが好ましい。
【0013】
また、上記音声度合算出手段は、上記入力音響信号の波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出手段と、上記入力音響信号の波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出手段と、上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力手段とを有して成ることが好ましい。上記半波長増減繰り返し割合算出手段は、上記入力音響信号の波形の登り半波長が増減あるいは減増と交互に変化する部分の割合と、上記入力音響信号の波形の下り半波長が増減あるいは減増と交互に変化する部分の割合とに基づいて半波長の増減の繰り返し割合を算出することが好ましい。
【0014】
次に、本発明に係る音声度合算出方法は、上記目的を達成するため、入力音響信号の波形を所定長さのフレーム単位で切り出す波形切り出し工程と、上記波形切り出し工程により切り出された波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出工程と、上記波形切り出し工程により切り出された波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出工程と、上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力工程とを有することを特徴とする。
【0015】
このような本発明では、入力音響信号をフレーム単位で波形切り出し処理し、フレーム内での半波長の増減割合を算出し、またフレーム内でのゼロクロスの割合を算出し、これらの算出された各割合を用いて音声の度合を決定する。この決定された音声度合に応じて音声と背景雑音とを分離あるいは強調減衰する
を制御する。
【発明の効果】
【0016】
本発明によれば、入力音響信号がモノラル音声でも、環境音を除去して音声のみを分離することができ、また、波形の簡単な特徴量を用いているため、処理が軽くて済み、実時間で処理が可能である。
【発明を実施するための最良の形態】
【0017】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
【0018】
図1は、本発明の実施の形態における音声分離機能を有する音響信号処理装置の構成例を概略的に示すブロック図である。
【0019】
図1に示す音響信号処理装置は、マイクロホンにより音響電気変換された音響信号や記録媒体から再生された音響信号等が入力される音響信号入力部10と、入力音響信号を所定の時間長(フレーム)単位で切り出す波形切り出し部20と、切り出された波形が音声である度合いを算出する音声度合算出部30と、音声度合算出部30から出力された値に基づいて、入力音響信号を処理する音声処理部40とを有して構成されている。音声処理部40では、例えば主として、入力音響信号の音声と環境音(環境雑音や背景雑音等のノイズ)とを分離したり、環境音を減衰し音声を強調するような処理が行われる。
【0020】
図1の音声度合算出部30は、入力音響信号の波形の波長方向の特徴量に基づいて音声の度合を算出するものであり、例えば図2に示すように、切り出されたフレーム毎の波形について、極値点間の半波長の長さが増減を繰り返す割合を算出する半波長増減繰り返し割合算出部31と、切り出された波形内に含まれる半波長のうち、ゼロクロスを有する割合を算出するゼロクロス割合算出部32と、これら半波長増減繰り返し割合算出部31及びゼロクロス割合算出部32から得られる二つの割合から、音声度合を計算し、出力する音声度合出力部33とを有して構成されている。
【0021】
次に、これらの図1、図2に示す構成における各部の動作について、処理手順に従って説明する。
【0022】
先ず、図1の音響信号入力部10にて音響信号を取り込む。この入力音響信号は任意であり、例えばマイクロホンにより収音された音響信号や、テレビジョン放送やラジオ放送等を受信して得られた音響信号や、CD、DVD、カセットテープ、ビデオテープ、半導体メモリカード等の記録媒体を再生して得られた音響信号等が挙げられる。音響信号入力部10からの音響信号は、例えば後段回路部でのディジタル処理に合わせてディジタル信号となっている。
【0023】
次に、波形切り出し部20で、音響信号をある長さに切り分ける。ここで切り出された区間をフレームと呼ぶ。フレーム長は、例えば1000サンプルとすることが挙げられるが、このサンプル数に限定されず、また固定である必要もない。また、前後のフレームの一部をオーバーラップさせるようにしてもよい。
【0024】
波形切り出し部20で切り出されたフレームの音響信号の音声度合を音声度合算出部30で求める。この音声度合算出部30は例えば図2のような構成を有し、フレーム毎の処理は、図3に示すような、極値点間の半波長毎に行なう。この図3において、極小点から極大点までを登り半波長UH、極大点から極小点までを下り半波長DHとする。
【0025】
図2の半波長増減繰り返し割合算出部31では、フレーム内の登り半波長UHのみ、又は下り半波長のみを見て、半波長の長さの変化が増減交互に繰り返されている割合を算出している。すなわち、現在注目しているn番の登り半波長UHnの長さが一つ前のn−1番の登り半波長UHn−1の長さに比べて増加しているか、減少しているかを調べ、この増減が、フレーム内で「増・減・増・減」と交互になっている割合を求める。下り半波長についても同様に「増・減・増・減」と交互になっている割合を求める。二つの割合から、フレーム内の、半波長増減繰り返し割合を決定する。
【0026】
例えば、図4において、登り半波長UHの各長さについて、UH1に比べてUH2が増加し、UH2に比べてUH3が減少し、UH3に比べてUH4が増加し、UH4に比べてUH5が減少している。また、下り半波長DHの各長さについて、DH1に比べてDH2が増加し、DH2に比べてDH3が減少し、DH3に比べてDH4が増加し、DH4に比べてDH5が減少している。半波長増減繰り返し割合算出部31は、このような増減が交互に繰り返し生じている部分のフレーム内の割合を、登り半波長UHと下り半波長DHとについてそれぞれ求め、これらの2つの割合の平均、積、重みつき平均等に基づいて、フレーム内の半波長増減繰り返し割合を決定し、音声度合出力部33に送っている。なお、半波長増減繰り返し割合算出部31のより具体的な構成及び動作については、後で図面を参照しながら説明する。
【0027】
図2のゼロクロス割合算出部32では、フレーム内の半波長の内のゼロクロスを有する半波長の割合を求める。例えば図5において、登り及び下りの各半波長UH1、DH1、UH2、DH2、UH3、DH5はゼロクロスを有しており、DH3、UH4、DH4、UH5はゼロクロスを有していない。この図5の場合には、10の半波長の内のゼロクロスを有する半波長(6つ)の割合そのものは、6/10=0.6、として求められるが、これをフレーム内の全ての半波長に対して行い、後述するように必要に応じて出力調整を行って、フレーム内の半波長の内のゼロクロスを有する半波長の割合を求め、音声度合出力部33に送っている。
【0028】
図2の音声度合出力部33では、半波長増減繰り返し割合算出部31からの割合と、ゼロクロス割合算出部32からの割合とに基づいて、音声の度合いを決定する。例えば、各出力の平均、積、重みつき和などが考えられる。音声度合出力部33からの出力(音声の度合)は、図1の音声度合算出部30からの出力として音声処理部40に送られる。
【0029】
音声合成部40では、波形切り出し部20からの各フレームの音声波形に対して、音声度合算出部30から出力される音声の度合いを用いて音声と背景雑音とを分離あるいは強調減衰するような処理を施し、出力波形とする。例えば、音声度合を倍率として、フレームの音声波形との積を出力するなどの処理が考えられる。
【0030】
以上の手順をフローチャートに近似した形式で図6に示す。この図6において、ステップS1で入力音響信号をフレーム単位で波形切り出し処理し、ステップS2でフレーム内での半波長の増減割合を算出し、ステップS3でフレーム内でのゼロクロスの割合を算出し、ステップS4で上記各ステップS2、S3で算出された各割合を用いて音声の度合を決定する。ステップS5では、ステップS1で切り出されたフレーム毎の音響信号に対して、ステップS4にて得られた音声度合に応じて音声と背景雑音とを分離あるいは強調減衰するような音声処理を行う。
【0031】
ここで、本発明の実施の形態は、入力音響信号の波形が「音声」なのか「環境音(車の走行音や風音、ノイズ)」なのかを区別することを要旨とするものである。すなわち、従来のように、単にレベルの大きさで音声と環境音を区別する手法では、レベルの大きなノイズまで音声と見なしてしまうという欠点があった。そこで、本発明の実施の形態においては、各時刻においてその波形が「音声」なのか「環境音」なのかを「音声らしさ」として数値化することにした。環境音と音声が両方含まれるといったこともあり、どちらかの二値で判定するのは困難であるためである。一定区間内の波形が音声である確率、もしくは波形に含まれる音声波形の割合という意味合いで「音声らしさ」という言葉を使用している。
【0032】
本発明の実施の形態において採用した手法は、母音部分に特化したものである。音声の母音部分は基本周波数とその倍音成分とから構成されるため、波長は定常になる。本発明の実施の形態では、一波長を極大点から次の極大点まで、もしくは極小点から次の極小点までとしている。そのため、一般的に波長の揺ぎを定義するとなればその長さが「常に一定値→揺ぎ無し」、「一定の範囲内で変動→揺ぎあり」ということになる。本発明の実施の形態では、「揺ぎ」とは、この半波長が「増減増減」となっている部分の変化を意味すると共に、音声らしさの基準としての一例としてゼロクロス(もしくは中心点のずれ)に基づく波形のレベル方向の変化を意味している。
【0033】
すなわち、本発明の実施の形態においては、「波長の揺ぎ」、「レベル方向の揺ぎ」の二種類の揺ぎを定義している。それぞれの場合で揺ぎがあるのは以下の場合である。
【0034】
先ず、「波長の揺ぎ」とは、登り半波長、もしくは下り半波長の長さの変化が「増減増減」と交互になっている場合である。次に、「レベル方向の揺ぎ」とは、半波長がゼロクロスしていない場合である。ここで、「レベル方向の揺ぎ」として、半波長のレベル方向の中心点がゼロクロスから離れている場合を採用してもよい。この場合は、図7に示すように、半波長の振幅方向の中心点からのずれ度合A/Bによって「レベル方向の揺ぎ」を求めるようにすることが挙げられる。
【0035】
また、各揺ぎと音声らしさの関係は、「波長の揺ぎ」については揺ぎがあるほど、すなわち、半波長の長さの変化で「増減増減」となっている波長が多いほど、音声である可能性が高い。また、「レベル方向の揺ぎ」については揺ぎが小さいほど、すなわちゼロクロスしていない半波長の割合が小さいほど、あるいは半波長のレベル方向の中心点がゼロクロスに近いほど、音声である可能性が高い。
【0036】
これは、音声信号波形のスペクトルをとると、ある基本周波数の倍数構造を有していることが知られているが、この基本周波数は、一般的に音の高さを表すピッチに相当しており、ピッチ周波数とも称され、例えばピッチ周波数の整数倍の位置にピークが現れる。さらに、音声信号波形における隣り合うピーク間に相当するピッチ周期に対して、実際の波形信号にはこのピッチ周期よりも長い波長の成分も含まれており、特に2倍のピッチ周期の成分も比較的有力に現れている。このような2倍のピッチ周期の成分は、上述した登り半波長、あるいは下り半波長で見ると、長さの変化で増減が交互に繰り返し現れることに相当し、半波長の長さの変化が「増減増減」となっている波長が多いほど、音声である可能性が高くなるものである。なお、これは、人の声(人声)のみならず、楽器音を含む音楽信号のようないわゆる楽音信号の場合にもある程度成立するものであり、本発明の実施の形態は、楽音を含む音声信号と、環境音(ノイズ)とを分離あるいは増強減衰することも可能である。
【0037】
上述したような揺ぎと音声らしさとの関係を表にまとめたものを、図8に示し、また、入力音響信号が音声のみの場合の波形の一例を図9に、環境音が混入した音響信号の波形の一例を図10に、波長の揺ぎがない波形の一例を図11にそれぞれ示している。
【0038】
図8から明らかなように、波長の揺ぎが大きい・多い場合が音声、小さい・少ない場合が環境音にそれぞれ対応し、レベル方向の揺ぎが大きい・多い場合が環境音、小さい・少ない場合が音声にそれぞれ対応している。
【0039】
図9は、入力音響信号の波形の波長の揺ぎが「増減増減」と交互に現れており、音声のみである場合を示し、図10は、ゼロクロスしない部分が多くレベル方向の揺ぎが大きい場合に相当し、入力音響信号に環境音(ノイズ)が混ざっていることを示している。また、図11の波形は、半波長が増加するのみで波長の揺ぎが無いような波形の例を示すものである。
【0040】
次に、音声らしさあるいは音声度合を求めるための半波長増減繰り返し割合算出及びゼロクロス割合算出のより具体的な構成例について、図面を参照しながら説明する。
【0041】
図12は、上記図2の半波長増減繰り返し割合算出部31の具体的な構成例を示すブロック図、図13は、上記図2のゼロクロス割合算出部32の具体的な構成例を示すブロック図である。
【0042】
図12に示す半波長増減繰り返し割合算出部31は、上記図1の波形切り出し部20にてフレーム単位で切り出された音響信号の波形が入力される登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52と、これらの登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52から出力される各割合を統合する半波長増減繰り返し割合統合部53と、この半波長増減繰り返し割合統合部53からの出力値を調整して出力する出力値調整部54とを有して構成されており、この出力値調整部54からの出力が図2の音声度合出力部33に送られる。なお、出力値調整部54は省略してもよい。
【0043】
次に、図12の登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52の動作について、図14を参照しながら説明する。この場合、登り半波長、下り半波長について、同様の処理が行われる。
【0044】
登り半波長増減繰り返し割合算出部51において、先ず、フレーム内の隣り合う3つの登り半波長の長さの変化が「増減」もしくは「減増」と交互になっている組の数をAupとする。フレーム内の全登り半波長数をNupとすると、登り半波長の増減繰り返し割合Rupは、
Rup=Aup/(Nup−2)
で定義される。下り半波長増減繰り返し割合算出部52の下り半波長についても、
Rdown=Adown/(Ndown−2)
で定義される。
【0045】
図14の例では、登り半波長のUH1からUH2が増加、UH2からUH3が減少、UH3からUH4が減少となっており、下り半波長のDH1からDH2が減少、DH2からDH3が増加、DH3からDH4が増加、DH4からDH5が増加となっている。すなわち、UH1〜3の組が「増減」、UH2〜4の組が「減増」、UH3〜5の組が「増減」となり、DH1〜3の組が「減増」となる。従って、図14の例で、RupおよびRdownを計算すると
Rup=Aup/(Nup−2)=2/(5−2)=0.67
Rdown=Adown/(Ndown−2)=1/(5−2)=0.33
となる。
【0046】
このようにして登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52にて求められた登り及び下りの半波長の増減割合Rup及びRdownが半波長増減繰り返し割合統合部53に送られて統合される。この統合方法としては、RupとRdownの積、平均、大きな方の値、小さな方の値等を求めることが挙げられる。半波長増減繰り返し割合統合部53からの出力は、値域を調節する出力値調整部54に送られ、例えば出力値を0.0から1.0の範囲にして出力している。この処理の一例としては、出力値調整部54への入力をin、出力値調整部54からの出力をoutとするとき、
【0047】
【数1】
のようにすることが挙げられる。この式(1)で、THは0以上で1より小さい閾値(0≦TH<1.0)である。増減が交互になる割合の期待値は0.5であるので、THはそれ以上の値が好ましい。なお、この出力値調整部54は省略してもよい。
【0048】
ところで、登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52での計算方法としては、上述したような、切り出されたフレーム内の3つの半波長の長さの変化が「増減」又は「減増」になっている個数を数える方法の他にも種々の方法が考えられる。例えば、「増減」又は「減増」が交互に続いている長さの最大値を求める方法や、「増減」又は「減増」が交互に続いている長さのばらつきを求める方法等が挙げられる。これらの方法について、図15を参照しながら説明する。図15の波形の例において、「増減」又は「減増」が交互に続いている長さとしては、登り半波長について、部分aが「3」、部分bが「2」、部分cが「2」であり、下り半波長について、部分dが「1」、部分eが「4」、部分fが「1」となっている。
【0049】
上記「増減」又は「減増」が交互に続いている長さの最大値を求める方法とは、切り出されたフレーム内の登り半波長、下り半波長毎に、「増減」又は「減増」が交互に続く長さの最大値を求めるものである。例えば図15の波形の例では、増減が交互に続いている長さは、登り半波長が「3」、下り半波長が「4」となる。
【0050】
また、上記「増減」又は「減増」が交互に続いている長さのばらつきを求める方法の例としては、求めるべきばらつきを、登り半波長、下り半波長をそれぞれVup、Vdownとして、以下の式で定義することが挙げられる。
【0051】
Vup=(Aveup/Varup)/(Nup−2)
Vdown=(Avedown/Vardown)/(Ndown−2)
ここでAveは登り、下りそれぞれの増減の繰り返しの長さの平均値、Varは増減の繰り返しの長さの分散、 Nはフレーム内の登り、下り半波長数である。
【0052】
図15の場合には、以下のように計算される。
【0053】
Vup=(2.33/0.22)/(9−2)=1.5
Vdown=(2/2)/(9 − 2)=0.14
ただしこのままでは、出力値が0〜1の範囲に収まらないので、出力値調整部54で調整する必要がある。具体的には以下の式(2)のようなシグモイド関数が挙げられる。
【0054】
【数2】
この式(2)中で、inは出力値調整部54への入力、outは出力値調整部54からの出力、αはパラメータである。
【0055】
次に、図13に示すゼロクロス割合算出部32は、上記図1の波形切り出し部20にてフレーム単位で切り出された音響信号の波形が入力されるゼロクロス割合計算部56と、このゼロクロス割合計算部56からの出力値を調整して出力する出力値調整部57とを有して成っている。出力値調整部57からの出力は、ゼロクロス割合算出部32の出力として、上記図2の音声度合出力部33に送られる。なお、出力値調整部57は省略してもよい。
【0056】
ゼロクロス割合計算部32では、ゼロクロス割合として、
ゼロクロスを有する半波長数/全半波長数
を求め、これをゼロクロス割合出力値として出力値調整部57に送っている。例えば、上述した図5の波形の例では、登り及び下りの各半波長UH1、DH1、UH2、DH2、UH3、DH5はゼロクロスを有しており、DH3、UH4、DH4、UH5はゼロクロスを有していないことから、
ゼロクロスを有する半波長数/全半波長数=6/10=0.6
と計算される。これをフレーム内の全半波長について計算するものである。
【0057】
出力値調整部57では、ゼロクロス割合計算部56にて上記計算を行うことにより求められたゼロクロス割合の出力値を例えば0.0から1.0の範囲に調整して出力する。この処理は、例えば上述した出力値調整部54と同様に、上記式(1)、あるいは式(2)のような計算を行うことが挙げられ、これらの式(1)、(2)において、inは出力値調整部57への入力、outは出力値調整部57からの出力であり、式(2)のαはパラメータである。
【0058】
次に、音響信号の具体的な波形例に対する上記図1、図2、図12、図13に示した構成における各部からの出力波形あるいは出力値について、図16〜図20を参照しながら説明する。
【0059】
先ず図16は、入力音響信号からフィルタによって取り出した800〜2000Hzの周波数帯域の波形を示している。この図16のx軸の単位は[sec]である。この図16に示すような音響信号の波形に対する各部からの出力値を、図17〜図20に示す。これらの図17〜図20は、フレーム長は1000サンプル(約21msec)とし、100サンプル(約2.1msec)ずつフレームをずらしていくことにより得られた出力値を示している。
【0060】
図17は、上記図12の登り半波長増減繰り返し割合算出部51にて求められた登り半波長の繰り返し割合の出力結果(出力値)を示し、図18は、上記図12の下り半波長増減繰り返し割合算出部52にて求められた下り半波長の繰り返し割合の出力結果を示している。また、図19は、上記図13のゼロクロス割合計算部56にて求められたゼロクロス割合の出力結果(出力値)を示している。なお、これらの図17、図18の具体例では、登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52において、例えば切り出されたフレーム内の3つの半波長の長さの変化が「増減」又は「減増」になっている個数を数え、その割合を算出した結果を示しているが、この他、上述したように、「増減」又は「減増」が交互に続いている長さの最大値を求めたり、「増減」又は「減増」が交互に続いている長さのばらつきを求めるようにしてもよい。
【0061】
次に図20は、図1、図2に示す音声度合算出部30からの出力結果(出力値)を示している。この場合、図12の半波長増減繰り返し割合統合部53では、図17及び図18に示す登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52からの各出力値の内の大きい方の値を出力するようにし、出力値調整部54では、上記式(1)のTH=0.6としたものを用いて調整し、半波長増減繰り返し割合算出部31からの出力値としている。また、図13の出力値調整部57では、ゼロクロス割合計算部56からの上記図19に示す出力値に対して、上記式(1)のTH=0.7としたものを用いて調整し、ゼロクロス割合算出部32からの出力値としている。図2の音声度合出力部33では、これらの半波長増減繰り返し割合算出部31からの出力値とゼロクロス割合算出部32からの出力値との積をとって、図20に示すような音声度合算出部30からの出力値としている。
【0062】
上述したような本発明の実施の形態によれば、環境音ノイズが含まれていても、音声のみを分離することができ、モノラル音声でも、環境音が除去できるため、あらゆる音響信号に適用でき、また、簡単な特徴量を用いるため、処理が軽くて済み、実時間で処理が可能である。
【0063】
次に、本発明の他の実施の形態について、図21を参照しながら説明する。この図21の例では、音響信号入力部10から入力された音響信号等を、波形切り出し部20にて一定の時間長(フレーム)単位で切り出した後、帯域分割部60により複数の帯域に分割して、各帯域毎に処理を行うようにしている。すなわち、帯域分割部60では、波形切り出し部20からの音響信号を、複数の周波数帯域FB0〜FBnに分割し、それぞれの周波数帯域FB0〜FBn毎に、音声度合算出部70にて音声度合を算出し、これらの各周波数帯域FB0〜FBnの音声度合に基づいて、音声処理部80で、帯域分割部60からの各周波数帯域FB0〜FBnの信号に対して処理を行い、音声と環境音(ノイズ)とを分離あるいは増強減衰し、各周波数帯域の信号を合成して出力している。音声度合算出部70での各周波数帯域毎の処理は、上記図2、図12、図13と共に説明した処理と同様な処理が行われ、音声度合算出部70には、上記図2、図12、図13と同様な構成が各周波数帯域毎に設けられている。
【0064】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【図面の簡単な説明】
【0065】
【図1】本発明の実施の形態となる音響信号処理装置の概略構成を示すブロック図である。
【図2】本発明の実施の形態に用いられる音声度合算出部の構成例を示すブロック図である。
【図3】音響信号の波形の一例を示す波形図である。
【図4】半波長の増減を説明するための音響信号波形の一例を示す波形図である。
【図5】半波長のゼロクロスを説明するための音響信号波形の一例を示す波形図である。
【図6】本発明の実施の形態の動作を説明するためのフローチャート近似の説明図である。
【図7】半波長のレベル方向の中心点のずれを説明するための波形の一例を示す波形図である。
【図8】揺ぎと音声らしさとの関係を示す図である。
【図9】音声のみの場合の音響信号波形の一例を示す波形図である。
【図10】環境音の混入した音声の場合の音響信号波形の一例を示す波形図である。
【図11】波長の揺ぎが無い場合の音響信号波形の一例を示す波形図である。
【図12】本発明の実施の形態に用いられる半波長増減繰り返し割合算出部の構成例を示すブロック図である。
【図13】本発明の実施の形態に用いられるゼロクロス割合算出部の構成例を示すブロック図である。
【図14】登り半波長及び下り半波長の増減繰り返し割合を説明するための音響信号波形の一例を示す波形図である。
【図15】登り半波長及び下り半波長の増減繰り返し割合の他の計算方法を説明するための音響信号波形の一例を示す波形図である。
【図16】入力音響信号の波形の一例を示す波形図である。
【図17】登り半波長の繰り返し割合の算出結果となる出力値を示す図である。
【図18】下り半波長の繰り返し割合の算出結果となる出力値を示す図である。
【図19】ゼロクロス割合の算出結果となる出力値を示す図である。
【図20】音声度合の算出結果となる出力値を示す図である。
【図21】本発明の他の実施の形態となる音響信号処理装置の概略構成を示すブロック図である。
【符号の説明】
【0066】
10 音響信号入力部、 20 波形切り出し部、 30 音声度合算出部、 31 半波長増減繰り返し割合算出部、 32 ゼロクロス割合算出部、 33 音声度合出力部、 51 登り半波長増減繰り返し割合算出部、 52 下り半波長増減繰り返し割合算出部、 53 半波長増減繰り返し割合統合部、 54,57 出力値調整部、 56 ゼロクロス割合計算部
【特許請求の範囲】
【請求項1】
音声及び環境音を含む入力音響信号の音声の度合を算出する音声度合算出手段と、
この音声度合算出手段からの出力に基づき上記入力音響信号を処理する音声処理手段とを有し、
上記音声度合算出手段は、上記入力音響信号の波形の波長方向の特徴量に基づいて音声の度合を算出することを特徴とする音響信号処理装置。
【請求項2】
上記波長方向の特徴量は、上記波形の長さの変化であることを特徴とする請求項1記載の音響信号処理装置。
【請求項3】
上記波長方向の特徴量は、上記波形のレベル方向の変化であることを特徴とする請求項1記載の音響信号処理装置。
【請求項4】
上記音声度合算出手段は、上記入力音響信号の所定の時間長単位で切り出されたフレーム単位で音声度合を算出することを特徴とする請求項1記載の音響信号処理装置。
【請求項5】
上記音声度合算出手段は、
上記入力音響信号の波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出手段と、
上記入力音響信号の波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出手段と、
上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力手段と
を有して成ることを特徴とする請求項1記載の音響信号処理装置。
【請求項6】
上記半波長増減繰り返し割合算出手段は、上記入力音響信号の波形の登り半波長が増減あるいは減増と交互に変化する部分の割合と、上記入力音響信号の波形の下り半波長が増減あるいは減増と交互に変化する部分の割合とに基づいて半波長の増減の繰り返し割合を算出することを特徴とする請求項5記載の音響信号処理装置。
【請求項7】
上記半波長増減繰り返し割合算出手段には、算出された繰り返し割合の出力値を調整する第1の出力値調整手段が設けられ、
上記ゼロクロス割合算出手段には、算出されたゼロクロス割合の出力値を調整する第2の出力値調整手段が設けられ、
上記第1、第2の出力調整手段により各出力値を調整して上記音声度合出力手段に送ることを特徴とする請求項5記載の音響信号処理装置。
【請求項8】
上記入力音響信号を複数の周波数帯域に分割する帯域分割手段を有し、
上記帯域分割手段により分割された各帯域毎に上記音声度合算出手段により音声の度合を算出し、算出された各帯域の音声の度合に基づいて上記音声処理手段により各帯域毎に処理することを特徴とする請求項1記載の音響信号処理装置。
【請求項9】
入力音響信号の波形を所定長さのフレーム単位で切り出す波形切り出し工程と、
上記波形切り出し工程により切り出された波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出工程と、
上記波形切り出し工程により切り出された波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出工程と、
上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力工程と
を有して成ることを特徴とする音声度合算出方法。
【請求項10】
上記半波長増減繰り返し割合算出工程では、上記入力音響信号の波形の登り半波長が増減あるいは減増と交互に変化する部分の割合と、上記入力音響信号の波形の下り半波長が増減あるいは減増と交互に変化する部分の割合とに基づいて半波長の増減の繰り返し割合を算出することを特徴とする請求項9記載の音声度合算出方法。
【請求項1】
音声及び環境音を含む入力音響信号の音声の度合を算出する音声度合算出手段と、
この音声度合算出手段からの出力に基づき上記入力音響信号を処理する音声処理手段とを有し、
上記音声度合算出手段は、上記入力音響信号の波形の波長方向の特徴量に基づいて音声の度合を算出することを特徴とする音響信号処理装置。
【請求項2】
上記波長方向の特徴量は、上記波形の長さの変化であることを特徴とする請求項1記載の音響信号処理装置。
【請求項3】
上記波長方向の特徴量は、上記波形のレベル方向の変化であることを特徴とする請求項1記載の音響信号処理装置。
【請求項4】
上記音声度合算出手段は、上記入力音響信号の所定の時間長単位で切り出されたフレーム単位で音声度合を算出することを特徴とする請求項1記載の音響信号処理装置。
【請求項5】
上記音声度合算出手段は、
上記入力音響信号の波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出手段と、
上記入力音響信号の波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出手段と、
上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力手段と
を有して成ることを特徴とする請求項1記載の音響信号処理装置。
【請求項6】
上記半波長増減繰り返し割合算出手段は、上記入力音響信号の波形の登り半波長が増減あるいは減増と交互に変化する部分の割合と、上記入力音響信号の波形の下り半波長が増減あるいは減増と交互に変化する部分の割合とに基づいて半波長の増減の繰り返し割合を算出することを特徴とする請求項5記載の音響信号処理装置。
【請求項7】
上記半波長増減繰り返し割合算出手段には、算出された繰り返し割合の出力値を調整する第1の出力値調整手段が設けられ、
上記ゼロクロス割合算出手段には、算出されたゼロクロス割合の出力値を調整する第2の出力値調整手段が設けられ、
上記第1、第2の出力調整手段により各出力値を調整して上記音声度合出力手段に送ることを特徴とする請求項5記載の音響信号処理装置。
【請求項8】
上記入力音響信号を複数の周波数帯域に分割する帯域分割手段を有し、
上記帯域分割手段により分割された各帯域毎に上記音声度合算出手段により音声の度合を算出し、算出された各帯域の音声の度合に基づいて上記音声処理手段により各帯域毎に処理することを特徴とする請求項1記載の音響信号処理装置。
【請求項9】
入力音響信号の波形を所定長さのフレーム単位で切り出す波形切り出し工程と、
上記波形切り出し工程により切り出された波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出工程と、
上記波形切り出し工程により切り出された波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出工程と、
上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力工程と
を有して成ることを特徴とする音声度合算出方法。
【請求項10】
上記半波長増減繰り返し割合算出工程では、上記入力音響信号の波形の登り半波長が増減あるいは減増と交互に変化する部分の割合と、上記入力音響信号の波形の下り半波長が増減あるいは減増と交互に変化する部分の割合とに基づいて半波長の増減の繰り返し割合を算出することを特徴とする請求項9記載の音声度合算出方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【公開番号】特開2006−17940(P2006−17940A)
【公開日】平成18年1月19日(2006.1.19)
【国際特許分類】
【出願番号】特願2004−194646(P2004−194646)
【出願日】平成16年6月30日(2004.6.30)
【出願人】(000002185)ソニー株式会社 (34,172)
【公開日】平成18年1月19日(2006.1.19)
【国際特許分類】
【出願日】平成16年6月30日(2004.6.30)
【出願人】(000002185)ソニー株式会社 (34,172)
[ Back to top ]