説明

音量調整装置、その方法、そのプログラム、その記録媒体

【課題】入力音、参照音の音量を調整したとしても、エコー抑圧部で適切にエコーを抑圧できる。
【解決手段】第1収音部で入力音信号として収音され、当該入力音信号の利得を入力音利得情報を用いて調整することで、調整後入力音信号を出力し、参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力し、調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力し、調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にし、抑圧後入力音信号および調整後参照音信号を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、入力した音声の音量を的に調整する音量調整装置、その方法、プログラム、記録媒体に関する。
【背景技術】
【0002】
入力した音の音量を適切な音量にする音量調整装置は様々ある(例えば、特許文献1に記載)。図1に従来の音量調整装置6、8を電話機に用いた場合の例を示し、図2に図1を簡略化したものを示す。電話機50とハンドセット42とはコード(図示せず)で結ばれているとし、電話機50とハンドセット42との間に音量調整装置6、8は設けられる。この説明では、エコー抑圧装置10を適用した場合を示す。また、図1の前提として、第2音源からの第2音Gが第2収音部4で参照音Qとして収音され、第1音源からの第1音Fと第2音Gが第1収音部2で入力音Pとして収音される。そして、エコー抑圧装置10からエコー抑圧後の信号を出力する(後述するエコー信号を抑圧した信号)場合を説明する。電話機を用いて、自地点の話者と他地点の話者とが通話をしている場合を考えると、第1音源とは他地点の話者の口(音声が発せられる箇所)であり、第2音源とは自地点の話者の口(音声が発せられる箇所)である。第1音、第2音がハンドセットに入力された後に変換された電気信号をそれぞれ第1音信号F(x)、第2音信号G(x)とする。ただしxは時刻とする。第1音F、第1音信号F(x)を実線で示し、第2音G、第2音信号G(x)を破線で示す。ハンドセット42は、送話信号を入力させる送話部46と、受音信号を経由出力させる受聴部44とからなるとする。第2音源からの第2音信号G(x)は、送話信号に変換され送話部46を経由して、第2収音部4で収音されつつ、加算部52に入力され、ネットワーク(図示せず)を経由して、他地点の話者に送話信号を送信される。
【0003】
一方、ネットワークを経由して到達した第1音信号F(x)は加算部52に入力される。加算部52は、第2音信号G(x)にγ(音響・電気系による係数)を乗算したもの(エコー音信号(側音信号))と、第1音信号F(x)と加算する。つまり、加算部52は、F(x)+γG(x)を演算して、第1収音部2に出力する。出力された信号F(x)+γG(x)は、第1収音部2で収音されつつ、受聴部44から再生される。受聴部44で第1音信号F(x)のみを再生するのではなく、F(x)+γG(x)を再生する理由は、聴感上、違和感をなくすために、自身の話した声(つまり、第2音信号G(x)についての音声)を第1音(第1音信号F(x)についての音声)に重畳して受聴部44で再生させている。以下の説明では、入力音Pについての信号を入力音信号P(x)(=F(x)+γG(x))とし、参照音Qについての信号を参照音信号Q(x)(=G(x))とする。
【0004】
第1収音部2よりの入力音信号P(x)は音量調整装置6に入力され、第2収音部4よりの参照音信号Q(x)は音量調整装置8に入力される。音量調整装置6、8はそれぞれ入力音信号P(x)、参照音信号Q(x)の利得(入力音、参照音の音量)を適切な値に調整する。調整後の入力音信号P(x)、調整後の参照音信号Q(x)を入力として、エコー抑圧装置10でエコー音信号を抑圧する。入力音信号P(x)、参照音信号Q(x)の利得(入力音、参照音の音量)を適切な値に調整する理由は、入力音信号P(x)、参照音信号Q(x)の振幅が大きすぎて、入力音信号P(x)、参照音信号Q(x)が歪む場合には、適応フィルタ係数を適切に学習できない等の問題が発生するからである。
【特許文献1】特開昭58−141018号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
上記のような構成にした場合、音量調整装置によって、入力音と参照音の音量がばらばらに調整されるため、音量変更の度にエコー抑圧装置の適応量の再計算が必要になり、その再計算が終わるまでの間、エコーを抑圧できず、エコー抑圧装置からの出力にエコーが残ったままになる。つまり、常に音量調整装置により音量が変化すると、エコーを消去できなくなる。
【0006】
上述では音量調整装置をエコー抑圧装置の前段に設けた例を説明したが、図3に示すように、エコー抑圧装置10の後段に音量調整装置12を設けることもできる。この構成をとることで、上記問題は解決できる。しかし、図3のような構成である場合に、エコー抑圧装置10の入力の際に、入力音の音声波形、参照音の音声波形の少なくとも一方が最大値(エコー抑圧装置10の入力のピーク)を越えて波形が歪むと、エコー抑圧装置では適切にエコーを抑圧できなくなる。
【0007】
本願の目的は、入力音、参照音の音量を変更した場合でもエコーの抑圧を適切に行うことができる音量調整装置、その方法、そのプログラム、その記録媒体を提供するものである。
【課題を解決するための手段】
【0008】
この発明の音量調整装置は、入力音利得調整部と、参照音利得調整部と、エコー抑圧部と、利得計算部と、出力部と、を具備する。入力音利得調整部は、第1音源からの第1音と、第2音源からの第2音が第1収音部で入力音信号として収音され、当該入力音信号の利得を入力音利得情報を用いて調整することで、調整後入力音信号を出力する。参照音利得調整部は、第2音が第2収音部で参照音信号として収音され、当該参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力する。エコー抑圧部は、調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力する。利得計算部は、調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にする。出力部は、抑圧後入力音信号および調整後参照音信号を出力する。
【発明の効果】
【0009】
この発明では、入力音、参照音の音量を調整したとしても、エコー抑圧部で適切にエコーを抑圧できる。
【発明を実施するための最良の形態】
【0010】
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
【実施例1】
【0011】
図4に実施例1の音量調整装置20の機能構成例を示し、図5に音量調整装置20を電話機に適用した場合の機能構成例を示し、図6に処理フローを示す。
音量調整装置20は、入力音利得調整部24と、参照音利得調整部22と、利得計算部26と、エコー抑圧部28と、出力部21と、を有する。また上述のように、第1音源からの音を第1音Fとし、第2音源からの音を第2音Gとする。また、第1音Fと第2音Gとが第1収音部2で電気信号に変換され、入力音信号P(x)として収音されるとし、第2音が第2収音部4で電気信号に変換され参照音信号Q(x)として収音されるとする。ここで、収音部とは例えば、マイクロホンである。収音部として、電話の送話音声と受話音声の一方を又は両方をミックスして取り出すために、電話機と、送受話器又はハンドセットとの間に設置した送受話アダプターを用いてもよい。第1音、第2音についての電気信号である第1音信号、第2音信号をそれぞれF(x)、G(x)とすると、
入力音信号P(x)=F(x)+γG(x)
参照音信号Q(x)=G(x)
となる。ただし、xは時刻である。この実施例1の目的は、エコー抑圧部28で、入力音信号P(x)から重畳されたエコー音信号γG(x)を抑圧し、出力部21で第1音信号F(x)、第2音信号G(x)を出力することを目的とする。また、図7に利得計算部26の機能構成例を主に示したものを示す。図7に示すように、入力音信号、参照音信号について分かれており、入力音信号の処理のために、AD変換手段262、フレーム分割手段264、バッファ266、直流バイアス計算手段268、減算手段270、音量計算手段272、入力音利得調整指示手段274が設けられ、参照音の処理のためにAD変換手段282、フレーム分割手段284、バッファ286、直流バイアス計算手段288、減算手段290、音量計算手段292、入力音利得調整指示手段294が設けられ、そのほか、利得決定手段276が設けられる。入力音信号、参照音信号についてのこれらの構成部は対応するもの同士、統合しても良い。
【0012】
入力音信号P(x)、参照音信号Q(x)はそれぞれ入力音利得調整部24、参照音利得調整部22とに入力される。また、入力音利得調整部24、参照音利得調整部22の前段にAD変換部27を設けて、デジタル信号で処理を行ってもよく、AD変換部27を設けずにアナログ信号で処理を行っても良い。入力音信号P(x)、参照音信号Q(x)はそれぞれ入力音利得調整部24、参照音利得調整部22に入力される。入力音利得調整部24は入力音信号P(x)の利得を入力音利得情報βを用いて調整する(利得を乗算する)ことで、調整後入力音信号P’(x)を出力する(ステップS2)。入力音利得情報βとは入力音信号P(x)に乗算する利得であり、入力音利得情報βは、入力音利得調整指示手段274(後述する)から入力される。調整後入力音P’(x)はエコー抑圧部28に入力される。
【0013】
エコー抑圧部28とは、一般的に使用されているエコー抑圧装置であり、例えば、「北脇信彦 著、「未来ねっと技術シリーズ ディジタル音声・オーディオ技術」電気通信協会、平成11年12月15日初版発行、p218−p255」などに記載されている。エコー抑圧部28の処理内容は後述する。エコー抑圧部28の出力信号は、利得計算部26に入力される。
【0014】
利得計算部26は、調整後参照音信号Q’(x)と抑圧後入力音信号P’’(x)とを用いて、入力音利得情報βと、参照音利得情報βと、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報Ωと、を計算し、適応フィルタ係数αを当該利得調整情報Ωに応じた値にする(ステップS8)。以下、詳細に説明する。
【0015】
利得計算部26中のAD変換手段262は、入力音のアナログ信号を所定のサンプリング周波数で量子化することによりデジタル化して、フレーム分割手段264に送る。フレーム分割手段264は、入力された音を一定の時間長のフレームで分割する。例えば、1フレームの長さを100ms(サンプリング周波数が16kHzである場合にはフレームを構成するサンプル数は1600)とする。このように、フレームの時間長を例えば男性の音声波形及び電源ノイズの基本周期よりも十分長くすることにより、声の高低及び電源ノイズによらず安定して利得調整をすることができる。フレーム化された音信号は、バッファ266に送られる。
【0016】
バッファ266は、予め定めた数1以上の数Aのフレームを一時的に格納する。直流バイアス計算手段268は、バッファ266に格納されたフレーム化された入力音信号を読み込み、その入力音信号の振幅の平均値を長時間観測して計算する。その平均値、すなわち直流成分の値は、減算手段270に送られる。減算手段270は、バッファ266から読み込んだ入力音信号から、直流バイアス計算手段268が計算した直流成分の値を減算して、バイアスのかかっていない入力音信号を生成する。生成された入力音信号は、音量計算手段272に入力される。音量計算手段272は入力音信号の音量を計算するものであり、計算された音量は、入力音利得調整指示手段274に入力される。入力音利得調整指示手段274は、入力音利得調整部24で用いる利得βを求め、入力音利得調整部24へ出力する。音量計算手段272と、入力音利得調整指示手段274との処理内容については公知の技術を用いればよく、求め方の好適例については、実施例2以降で説明する。
【0017】
一方、参照音利得調整部22は参照音Qの音量(参照音信号の振幅レベル)を参照音利得情報βを用いて調整することで、調整後参照音信号Q’(x)を出力する(ステップS4)。出力された調整後参照音信号Q’(x)はAD変換手段282に入力される。そして、参照音利得調整指示手段294は参照音利得調整部22で用いる利得βを求め、参照音利得調整部22へ出力する。処理の詳細は、入力音信号に対して処理と同様であるので、説明を省略する。
【0018】
エコー抑圧部28は、調整後入力音信号P’(x)から調整後参照音信号Q’(x)に適応フィルタ係数αを畳み込んだものを減算することで、エコー音信号が抑圧された抑圧後入力音信号P’’(x)を出力する(ステップS6)。つまり、以下の式の演算が行われる。
P’’(x)=P’(x)−αQ’(x) (1)
ここで、上述のように、
P(x)=F(x)+γG(x)
Q(x)=G(x) (2)
となり、
P’(x)=βP(x)=β(F(x)+γG(x))
Q’(x)=βQ(x)=βG(x) (3)
となる。
式(3)を式(1)に代入すると、
P’’(x)=β(F(x)+γG(x))−αβG(x) (4)
になる。
【0019】
ただし、P’’(x)はエコー抑圧部28から出力される、エコー抑圧後の入力音信号であるとする。上述のように、エコー抑圧部28は、入力音利得調整部24で調整された後の第1音信号βF(x)(以下、「調整後第1音信号」という。)のみを出力しなければならないので、
P’’(x)=βF(x) (5)
とならなければならない。
【0020】
式(5)を式(4)に代入すると、
βF(x)=β(F(x)+γG(x))+αβG(x) (6)
となり、αについて求めると、
α=−βγ/β (7)
となる。
【0021】
利得計算部26は、この式(7)が成り立つ適応フィルタ係数αになるような利得調整情報Ωを生成し、エコー抑圧部28に送信すればよい。
【0022】
利得調整情報Ωの詳細について説明する。式(7)では、γは上述のように、音響・電気系による係数であり定数である。従って、β、βにより利得調整情報Ωは求まる。例えば、電話機を用いた会話をしている利用者が、受話音を聞き取りづらい時に、受話音の音量を上げる場合がある。そのような場合には、第1収音部2で、入力音信号P(x)の利得が上がる。また、入力音利得調整部24や参照音利得調整部22により入力音信号P(x)や参照音信号Q(x)の利得が上がる場合もある。ここで、例えば、入力音利得調整部24で、入力音信号P(x)の利得が4倍になり、参照音利得調整部22で参照音信号Q(x)の利得が2倍になった場合を考える。この場合には、適応フィルタ係数αが変わらなければ、式(4)によりエコー音信号が残ってしまう。エコー音信号の全てを抑圧するためには、式(7)により、β/β=2となり、この場合では適応フィルタ係数αを2倍にしなければならないことが理解されよう。
【0023】
また、入力音信号P(x)の利得が2倍になり、参照音信号Q(x)の利得が4倍になった場合には、適応フィルタ係数αが変わらなければ、式(4)により過大に減算してしまい、出力される信号に参照音の逆位相の信号が現れてしまい、結果として、エコー音として聞こえてしまう。この場合には、式(7)により、β/β=1/2となり、適応フィルタ係数αを1/2倍にしなければならない。
【0024】
また、対数で考えた場合に、βが+6dB変化し、βが+3dB変化した場合にはβ−β=3dBとなり、適応フィルタ係数αを3dB上げなければならない。
【0025】
このように、利得調整情報Ωとは入力音利得情報βが参照音利得情報βと離れている度合いを示すものである。利得決定手段276は、入力音利得情報βの変化量と参照音利得情報βの変化量が実数で表されている場合には、
Ω=入力音利得情報βの変化量/参照音利得情報βの変化量
を演算する。
【0026】
また、利得決定手段276は、入力音利得情報βの変化量と参照音利得情報βの変化量が対数(dB)で表されている場合には、
Ω=入力音利得情報βの変化量−参照音利得情報βの変化量
を演算する。そして、利得決定手段276よりの利得調整情報Ωはエコー抑圧部28へすることで、適応フィルタ係数αを利得調整情報Ωに応じた値にする。
【0027】
また、入力音信号P(x)、調整後入力音信号P’(x)のエコー音信号γG(x)については、遅延差τが存在するので、厳密にいうと、
P(x)=F(x)+γG(x−τ)
P’(x)=β(F(x)+γG(x−τ)) (8)
になる。
【0028】
つまり式(6)は以下のようになる。
βF(x)=β(F(x)+γG(x−τ))+αβG(x−τ’)
−βγG(x−τ)=αβG(x−τ’) (6’)
ただし、τ’はエコー抑圧部28で学習すべき遅延差であるとする。
そして、利得決定手段276が、この式(6’)が成り立つようなα、τ’をエコー抑圧部28が学習するような利得調整情報Ωを生成して、エコー抑圧部28に送信すればよい。
【0029】
出力部21は、抑圧後入力音信号P’’(x)を出力する(ステップS10)。また、出力部21は、抑圧後入力音信号P’’(x)と調整後参照音信号Q’(x)を個別に出力するようにしてもよい。全ての入力音信号、参照音信号の収音が終わるまで上記の処理を続ける(ステップS12)。
【0030】
このように、適応フィルタ係数αを、入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報Ωに応じた値にすることで、入力音や参照音の利得(音量)を調整した場合であっても、エコー音信号を全て消去できる。
【0031】
また、図1に記載のように、従来の音量調整装置8では、入力音に含まれるエコー音音信号に合わせて誤って音量を調整してしまう場合があった。ところが、この実施例1の音量調整装置20の利得計算部26は、調整後参照音信号Q’(x)と抑圧後入力音信号P’’(x)を用いて、入力音利得情報βと、参照音利得情報βと、利得調整情報Ωを求める例を説明した。この構成により、エコー音信号に音量を合わせるといった誤った音量調整を回避できるという顕著な効果を有する。従って、この効果の必要性のない場合は、利得計算部26は、調整後参照音信号Q’(x)と調整後入力音信号P’(x)を用いて、入力音利得情報βと、参照音利得情報βと、利得調整情報Ωを求めるようにしてもよい。
【実施例2】
【0032】
実施例2以降では、入力音利得調整指示手段274、参照音利得調整手段294で求める好適な利得の求める手法を説明する。図8に音量計算手段272、入力音利得調整指示手段274の機能構成例を示す。音量計算手段272は、外形値決定手段2722、終始判定手段2724、有音無音フレーム判定手段2726、有音無音区間判定手段2728を有し、入力音利得調整指示手段274は入力音第1利得調整指示手段2742、入力音第2利得調整指示手段2744(実施例2で説明)、とを有する。入力音利得調整部24は、第1入力音利得調整手段242、第2入力音利得調整手段244(実施例3で説明)とを有する。実施例2〜4では入力音側の処理について説明し、参照音側の処理については同様なので、省略する。実施例2〜4の説明は、「特許出願番号:特願2007−293743号 発明の名称「音量調整装置、方法およびプログラム」」に記載されているが、念のため説明する。
【0033】
減算手段270からの入力音信号は外形値決定手段2722と終始判定手段2724に入力される。終始判定手段2724は、フレームごとの音信号の絶対値の平均値を観測することで、発音の開始時と発音の終了時を判定する。発音の開始時と発音の終了時の音区間のことを、通話区間と定義する。発音の開始時と発音の終了時とは、音が電話等の音声である場合には通話の始端と終端のことである。この場合、発音は、いわゆる通話区間に相当することになる。
【0034】
具体的には、終始判定手段2724内の平均値計算手段(図示せず)は、入力された入力音信号の振幅の絶対値の平均値をフレームごとに計算する。そして、終始判定手段2724が、計算された振幅の絶対値の平均値が予め定められた第7閾値Aよりも大きいかどうかを順次判定して、大きいと判定された場合には発音が開始されたと判定する。計算された振幅の絶対値の平均値が予め定められた第7閾値Aよりも大きいと判定された場合に、その判定された時から一定時間長(例えば0.5秒)遡った時から発音が開始されたと判定してもよい。
【0035】
また、終始判定手段2724は、計算された振幅の絶対値の平均値が、予め定められた第8閾値A(閾値Aは、閾値Aよりも小さい値である。)よりも小さい状態が予め定められた一定時間長続いた場合には、又は、予め定められた数Aのフレームだけ続いた場合には、発音が終了したと判定し、その旨の信号を各構成部に送る。
【0036】
発音が開始された旨の信号を受け取った外形値決定手段2722は、フレームの音の大きさを表す特徴量である外形値をフレームごとに求める。例えば、外形値とは、入力音信号の振幅の絶対値の最大値のことである。換言すると、外形値とは、フレームを構成する複数のサンプルの値の最大値のことである。求められたフレームごとの外形値は、有音無音フレーム判定手段2726、入力音第1利得調整指示手段2742に送られる。図9A、Bに、外形値抽出の具体例を示す。図9Aはバイアスがかかっていない音信号(つまり減算手段270の出力信号)の波形である。図9Bは、図9Aに示した音信号の波形からフレームごとに振幅の絶対値の最大値(外形値)を求めて、図示したものである。
【0037】
再度、図8を参照して説明をする。有音無音フレーム判定手段2726は、外形値と予め定められた第2閾値Aとを比較して、外形値の方が大きければそのフレームを有音フレームと判定し、そうでなければ、そのフレームを無音フレームと判定する。第2閾値Aを、予め定めた値とせずに、例えば、過去10秒間の無音フレームの外形値の最小値の定数倍(例えば3倍)の値として動的に閾値Aを変化させてもよい。フレームが、有音フレームであるか、無音フレームであるかの情報は、有音無音区間判定手段2728に送られる。
【0038】
有音無音区間判定手段2728は、無音フレームが予め定められた第1閾値A(例えば5、時間長にして0.5秒となるように、Aを設定する。)以上連続する場合には、その連続するフレームから構成される音区間を無音区間と判定し、それ以外のフレームから構成される音区間を有音区間と判定する。有音区間、無音区間についての情報は、入力音第1利得調整指示手段2742に送られる。
【0039】
図10に入力音第1利得調整指示手段2742の機能構成例を示す。入力音第1利得調整指示手段2742は、第1音区間抽出手段2802、第1音区間外形値抽出手段2803、第1決定手段2808で構成されている。更に、第1音区間外形値抽出手段2803は、除外手段2804、最大値決定手段2806とで構成されている。有音区間、無音区間についての情報は第1音区間抽出手段2802に入力される。第1音区間抽出手段2802は、上記判定された有音区間が予め定められた時間長A(例えば2秒)よりも長いかどうか、又は、上記判定された有音区間を構成するフレーム数A(例えば20フレーム)が予め定められた数Aよりも大きい場合には、その有音区間を第1音区間とする。入力される音が電話等の音声である場合には、第1音区間はいわゆる発話区間に相当する。発話区間は、人間が一呼吸で発した音の区間のことである。このようにして、第1音区間を抽出することにより、「こんにちは」や「ちょっと質問があるのですが」といった人の感覚に近い長さの音区間を切り出すことができる。図9Bに、第1音区間の抽出の具体例を示す。例えば、この図9B示すように、0.5秒以上の無音区間を使って2秒以上の有音区間のかたまりを第1音区間として抽出する。
【0040】
第1音区間抽出手段2802は、例えば、第1音区間を構成するフレームと、それらのフレームの外形値とに関する情報を、第1音区間外形値抽出手段2803中の除外手段2804に送る。第1音区間を構成するフレームの外形値は、第1音区間抽出手段2802が外形値決定手段2722から受け取ったフレームの外形値の情報を用いる。
【0041】
除外手段2804は、第1音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外する。除外する外形値の数は、第1音区間を構成するフレームの数が多いほど多くするとよい。例えば、第1音区間を構成するフレームの数に予め設定した割合A(例えば10〜30%、今回は20%)をかけて、小数点以下を切り捨て・四捨五入・切り上げた数の外形値を除外する。予め定めた数A10の外形値を除外することにしてもよい。除外されずに残った外形値は、最大値決定手段2806に送られる。
【0042】
最大値決定手段2806は、除外されずに残った外形値の最大値を求め、その最大値を第1音区間の外形値として保存する。第1音区間の外形値は、第1決定手段2808に送られる。
【0043】
第1決定手段2808は、第1音区間の外形値が予め定められた範囲に入るように、入力された音を調整するための情報(以下、第1入力音利得調整情報とする。)を決定して、入力音利得調整部24に送る。例えば、第1決定手段2808に入力のピークが入力される。第1決定手段2808は、入力のピークに予め定められた割合A11(例えば、10%〜25%)をかけた範囲に、第1音区間の外形値が入るように、利得を決定する。
【0044】
なお、第1利得調整情報が決定された場合には、第1利得調整指示手段2742は、バッファ15の遅延分の時間に相当するフレームについて、上記の処理を行わない。
【0045】
図9Cを参照して、具体例を説明する。除外手段2804は、第1音区間を構成するフレームの外形値のうち、外形値が大きい予め定められた数(この例では、7つ)の外形値を除外する。図9Cの白で示した外形値が除外された外形値である。最大値決定手段2806は、第1音区間の外形値として、除外されずに残った外形値のうち最も大きい外形値を選択する。除外されずに残った外形値が図9Cの黒と斜線で示した外形値であり、その最大値である第1音区間の外形値は斜線で示した外形値である。
【0046】
第1音区間の外形値が入るべき予め定められた範囲を3000〜8000とすると、この例では、第1音区間の外形値はその範囲に入っていない。第1決定手段2808は、第1音区間の外形値とその範囲との差分を計算して、第1音区間の外形値がその範囲に入るように利得を決定する。第1音区間の外形値がその範囲に入っている場合には、処理を行わない。なお、予め定められた範囲3000〜8000という値は、量子化ビット数が16ビットの場合の値で、振幅の最大値が2の8乗(32768)の場合の値である。
【0047】
別の具体例を説明する。第1音区間の外形値が入力のピークの5%であり、第1音区間の外形値が入るべき予め定められた範囲が入力のピークの10%〜25%であるとする。この場合、第1決定手段2808は、第1音区間の外形値が入力のピークの10%になるように、利得を決定する。このように、利得調整後の第1音区間の外形値が、予め定められた範囲の上限値又は下限値のうち、利得調整前の第1音区間の外形値と近い方の値と等しくなるように、利得を決定することにより、利得調整量が最も小さくすることができ、音の所定の特徴量の変化を最も小さくすることができる。
【0048】
また、このように、第1音区間の外形値が入るべき予め定められた範囲を設けて、この範囲に第1音区間の外形値が入っている場合には上記の利得の計算を行わないようにすることにより、利得を変更する回数を少なくすることができる。これにより、音の波形が歪む回数を少なくすることができるため、音の所定の特徴量の変化を小さくすることができる。
【0049】
この方法では、「はい」、「あ」、「えー」等の音量が不安定な短い音区間ではなく、「お電話ありがとうございます。」、「ちょっと聞きたいことがあるのですが」等のある程度の長さを持ち音量が安定した音区間を利得調整の基準としている。また、第1音区間を構成する複数のフレームの外形値から、外形値が大きい複数の外形値を除外して、除外されずの残った外形値の最大値を第1音区間の外形値として、その第1音区間の外形値を用いて、利得を調整している。
【0050】
これにより、咳やくしゃみ等の突発的な雑音の影響を受けにくくなり、かつ、対象とする音の振幅の分散の大小によっても利得調整後の音量が入力のピークが超えることがなくなる。
【0051】
上記の例においては、第1音区間を構成するフレームの外形値のうち、大きい方から20%の外形値を除外し、第1音区間の外形値が入るべき予め定められた範囲を入力ピークの10%〜20%としている。これは、実験を行った結果、突発的な雑音を除くと、入力のピークが第1音区間の外形値のおよそ4倍未満であったためである。
【0052】
再度、図8を参照して説明をする。入力音利得調整部24の第1入力音利得調整手段242は、入力音第1利得調整指示手段2742が決定した第1入力音利得情報を用いて、入力された音の音量を調整して出力する。第1入力音利得調整手段242は、新たな第1入力音利得調整情報が入力音第1利得調整指示手段2742から送られてくるまで、既に送られている第1入力音利得情報に基づいて利得調整を行う。
【0053】
このような構成にすることで、頻繁に音量を調整するための利得が変化する場合と比較して、音の所定の特徴量が失われづらくなる。
【実施例3】
【0054】
この実施例3では、第1音区間よりも短い音区間(第2音区間)を基準として、利得調整をする入力音第2利得調整指示手段2744、第2入力音利得調整手段244を有している実施例について説明する。
【0055】
図11に、入力音第2利得調整指示手段2744の説明をする。減算手段270から出力された入力音信号は(図8参照)、入力音第2利得調整指示手段2744の過大入力サンプル数決定手段2746に入力される。過大入力サンプル数決定手段2746は、予め定められた第3閾値A12(例えばサンプル値で表現することができる値の上限の90%の値)よりも大きいサンプルの数(以下、過大入力サンプル数とする。)をフレームごとに決定する。決定されたフレームごとの過大入力サンプル数は、過大入力フレーム決定手段2748と、記憶手段2750とに送られる。
【0056】
過大入力フレーム決定手段2748は、過大入力サンプル数が予め定められた第4閾値A13(1フレームのサンプル数の30%の数)よりも大きいかどうかをフレームごとに決定する。以下、過大入力サンプル数が予め定められた第4閾値A13よりも大きいフレームを、過大入力フレームとする。過大入力フレームについての情報(例えば、過大入力フレームであることを表すフラグ)は、記憶手段2750に送られる。
【0057】
第2音区間過大入力サンプル数決定手段2752は、第1音区間を構成するフレームの数よりも少ない数A14(例えば10、時間長にして1秒)のフレームから構成される音区間を第2音区間として、その第2音区間を構成するフレームについての過大入力サンプル数の総数を計算して、その総数を第2決定手段2756に送る。具体的には、第2音区間が過去10フレームである場合には、記憶手段2750から、過去10フレームの過大入力サンプル数をそれぞれ読み出して、それらを加算することにより、過大入力サンプル数の総数を求める。
【0058】
第2音区間過大入力フレーム数決定手段2754は、第2音区間を構成するフレームの中の過大入力フレームの数を決定して、その数を第2決定手段2756に送る。具体的には、第2音区間が過去10フレームである場合には、記憶手段2750から、過去10フレームの過大入力フレームについての情報を読み込み、過大入力フレームの数を決定する。
【0059】
第2決定手段2756は、過大入力サンプル数の総数が予め定められた第5閾値A15(例えば第2音区間を構成するサンプルの総数の20%の数)よりも大きく、かつ、過大入力フレームの数が予め定められた第6閾値A16(第2音区間が10フレームである場合には、例えば3)よりも大きい場合には、入力された音の音量を所定の音量だけ下げるための情報(以下、第2入力音利得調整情報とする。)を、入力音利得調整部24中の第2入力音利得調整手段244に送る。第2入力音利得調整情報は、具体的な利得の値(例えば0.7、音量にして3dB)等であってもよいし、具体的な数値を伴わない単なる音量を下げる旨を指示する情報であってもよい。
【0060】
入力音利得調整部24の第2入力音利得調整手段244は、第2入力音利得調整情報に基づいて、入力された音の音量を下げる。利得を下げた場合には、第2入力音利得調整手段244は、フレームに短時間利得調整フラグを立て、以降は、バッファ15の遅延分の時間に相当するフレームについて処理を行わない。
【0061】
これにより、発声部分の波形が入力のピークを越えることによって波形が歪むことのない音声を収音できる。
【実施例4】
【0062】
この実施例4では、入力音終了時利得調整手段246を有することにより、終始判定手段2724によって発音の開始が検出された後は、上記のように、入力音第1利得調整指示手段2742、第2利得調整指示手段2744の指示に従って利得が調節される。終始判定手段2724が発音の終了を検出した場合には、発音が終了した旨の情報が、入力音終了時利得調整手段246に送られる。
【0063】
入力音終了時利得調整手段246は、発音が終了した旨の情報を受け取ると、入力音利得調整部24に設定された発音の終了時の利得を読み込んで、入力音終了時利得調整手段246の記憶手段2462に格納する。そして、入力音終了時利得調整手段246は、直近の発音から予め定められた数A17の過去の発音の終了時の利得を記憶手段2462からそれぞれ読み出して、それらの平均値を求め、その平均値を入力音利得調整部24に設定する。
【0064】
入力音利得調整部24から現在の利得の値を得ることができない場合には、入力音終了時利得調整手段246は、以下のようにして利得を入力音利得調整部24に設定する。入力音利得調整部24から現在の利得の値を得ることができない場合とは、例えば、入力音利得調整部24が3dB利得を上げる、3dB利得を下げるというような相対的な利得の指定手段しか持たず、装置の調整範囲を超えた場合や、調整できなかったことを通知する手段を持たない場合のことである。
【0065】
1.入力音第1利得調整指示部2742の指示によっては音量を調整するために利得を変更しなかった場合には、入力音終了時利得調整手段246は何もしない。
2.入力音第1利得調整指示部2742の指示により音量を下げるために利得を下げた場合には、入力音終了時利得調整手段246は現在の利得から予め設定した値A18だけを値を下げた利得を入力音利得調整部24に設定する。
3.入力音第1利得調整指示手段2742の指示により音量を上げるために利得を上げたときには、入力音終了時利得調整手段246は、以下の処理を行う。
3−1.入力音第2利得調整指示手段2744の指示により音量を下げるために利得を下げた場合には、入力音終了時利得調整手段246は何もしない。
3−2.「3−1.」以外の場合には、入力音終了時利得調整手段246は現在の利得から予め設定した値A19だけ値を上げた利得を入力音利得調整部24に設定する。
【0066】
このような方法で、発音の終了時に音量を調整することで、次の発音開始時の音量を適切な値に近づけることができるとともに、話者、マイク位置、声量等の収音環境条件の変化に追随して音量を適切に調整することができる。
入力音第2利得調整指示手段2744及び第2入力音利得調整手段244はなくてもよい。また、終了時利得調整手段246はなくてもよい。
【実施例5】
【0067】
図12、図13に、実施例4におけるコールセンターで音量調整装置140を利用してオペレータとユーザとの会話を録音するシステムを示す。
【0068】
電話機50に接続したヘッドセット43をオペレータが装着し、ユーザと会話をする。ヘッドセット43と電話機50との間に音量調整部20(実施例1〜4で説明した音量調整装置と同一)を有する送受話器分岐アダプタ136を接続して、オーディオ入力又はUSBを使って、その音声をPC137に取り込む。PC137に取り込んだオペレータ、ユーザそれぞれの音声はエコー抑圧部28を通して、側音としてユーザ音声側に入っているオペレータ音声を抑圧する。図13に示すように送受話器分離アダプタにエコー抑圧部28が付いている構成にもできる。
【0069】
エコー抑圧部28から送られたそれぞれの音声をもとに終始判定手段2724で、通話の始端を検出すると、送信側音量調整装置140aは、オペレータ音声の音量を上記説明した音量調整装置20と同様に調整する。また、受信側音量調整装置140bは、ユーザ音声の音量を上記説明した音量調整装置20と同様に調整する。送信側音量調整装置140aと受信側音量調整装置140bはそれぞれ、音量調整部20と終始判定手段2724とを有していないが、送受話器分岐アダプタ136の音量調整部20及びPC137の終始判定手段2724が、送信側音量調整装置140aと受信側音量調整装置140bの音量調整部20及び終始判定手段2724として機能する。それ以外の点では、音量調整装置140と同様である。
【0070】
オペレータ音声はオペレータが同じ間は収音条件がほぼ同じなので数通話で適切な音量に調整することができる。しかし、ユーザ音声は、一通話ごとに電話機、伝送路等が異なる。このため、受信側音量調整装置140bは、入力音終了時利得調整手段246、参照音終了時利得調整手段226による音調調整の指示を行わない。
【0071】
終始判定手段2724が通話の終了を検出すると、音量が調整された音声は録音部139を通して、PC137のディスク150に格納される。
【0072】
<ハードウェア構成>
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0073】
また、上述の構成をコンピュータによって実現する場合、エコー消去装置300が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。
【0074】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0075】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0076】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0077】
また、本実施例で説明したエコー消去装置300は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。
【0078】
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。
【0079】
<ハードウェアとソフトウェアとの協働>
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
音量調整装置20の参照音利得調整部22、入力音利得調整部24、利得計算部26、エコー抑圧部28は、所定のプログラムがCPUに読み込まれ、実行されることによって構築される演算部である。音量調整装置20の記憶部(図示せず)は上記補助記憶装置として機能する。
【図面の簡単な説明】
【0080】
【図1】従来の音量調整装置の適用例を示した図。
【図2】図1を簡略化した図。
【図3】従来の音量調整装置の変形例を示した図。
【図4】本実施例の音量調整装置の機能構成例を示した図。
【図5】本実施例の音量調整装置の適用例を示した図。
【図6】本実施例の音量調整装置の処理フローを示した図。
【図7】本実施例の利得計算部の機能構成例を示した図。
【図8】本実施例の音量計算手段の機能構成例を示した図。
【図9】Aは音信号の波形を例示する図であり、Bは第1音区間を例示する図であり、Cは第1音区間の外形値を例示する図である。
【図10】本実施例の第1利得調整指示手段の機能構成例を示した図。
【図11】本実施例の第2利得調整指示手段の機能構成例を示した図。
【図12】オペレータとユーザの会話を録音するシステムを例示する図。
【図13】オペレータとユーザの会話を録音するシステムの別の形態を例示する図。

【特許請求の範囲】
【請求項1】
第1音源からの第1音と、第2音源からの第2音が第1収音部で入力音信号として収音され、当該入力音信号の利得を入力音利得情報を用いて調整することで、調整後入力音信号を出力する入力音利得調整部と、
第2音が第2収音部で参照音信号として収音され、当該参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力する参照音利得調整部と、
調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力するエコー抑圧部と、
調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にする利得計算部と、
抑圧後入力音信号を出力する出力部と、を具備する音量調整装置。
【請求項2】
請求項1記載の音量調整装置において、
前記出力部は、
抑圧後入力音信号および調整後参照音信号を出力するものであることを特徴とする音量調整装置。
【請求項3】
請求項1または2記載の音量調整装置において、
前記利得計算部は、調整後参照音信号と抑圧後入力音信号とから、入力音利得情報と、参照音利得情報と、利得調整情報とを計算することを特徴とする音量調整装置。
【請求項4】
請求項1〜3何れかに記載の音量調整装置において、
前記利得計算部は、
入力音信号と参照音信号を一定の時間長のフレームで分割するフレーム分割手段と、
フレームに含まれる入力音信号と参照音信号の大きさを表す特徴量である外形値をフレームごとに求める外形値決定手段と、
予め定められた第1閾値以上連続する無音フレームに挟まれ、予め定められた第2閾値以上のフレームから構成された音区間を第1音区間として、第1音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第1音区間の外形値として求める第1音区間外形値抽出手段と、
入力音信号と参照音信号についての、第1音区間の外形値が予め定められた範囲に入るように、第1入力音利得情報と第1参照音利得情報を決定し、出力する第1決定手段と、を有し、
前記参照音利得調整部は、前記第1参照音利得情報を用いて、参照音信号の音量を調整する第1参照音利得調整手段を有し、
前記入力音利得情報調整部は、前記第1入力音利得情報を用いて、入力音信号の音量を調整する第1入力音利得調整手段を有することを特徴とする音量調整装置。
【請求項5】
請求項4に記載された音量調整装置において、
上記フレームの外形値は、そのフレームに含まれるサンプルの値の絶対値の最大値であることを特徴とする音量調整装置。
【請求項6】
請求項4又は5記載された音量調整装置において、
前記利得計算部は、
フレームの外形値が予め定められた第2閾値より大であればそのフレームを有音フレームと判定し、そうでなければそのフレームを無音フレームと判定する有音無音フレーム判定手段と、
前記第1閾値以上連続する無音フレームから構成される音区間を無音区間と判定するとともに、それ以外の音区間を有音区間と判定する有音無音区間判定手段と、
上記判定された有音区間のうち、予め定められた時間長よりも長い有音区間を上記第1音区間とする第1音区間抽出手段とを備えることを特徴とする音量調整装置。
【請求項7】
請求項1〜6何れかに記載の音量調整装置において、
前記利得計算部は、
サンプルの値の絶対値が予め定められた第3閾値より大であるサンプルの数(以下、過大入力サンプル数とする。)をフレームごとに決定する過大入力サンプル数決定手段と、
前記過大入力サンプル数が予め定められた第4閾値より大である(以下、過大入力フレームという。)かどうかをフレームごとに決定する過大入力フレーム決定手段と、
前記第1音区間を構成するフレームの数よりも少ない数のフレームから構成される音区間を第2音区間として、その第2音区間を構成するフレームについての前記決定された過大入力サンプル数の総数が予め定められた第5閾値より大であり、かつ、その第2音区間を構成するフレームの中の過大入力フレームの数が第6閾値より大である場合に、収音された入力音信号と参照音信号の利得を所定量だけ下げるための情報(以下、それぞれ、「第2入力音利得情報」と「第2参照音利得情報」という。)を出力する第2決定手段と、
前記参照音利得調整部は、前記第2参照音利得情報を用いて、参照音信号の音量を調整する第2参照音利得調整手段を有し、
前記入力音利得情報調整部は、前記第2入力音利得情報を用いて、入力音信号の音量を調整する第2入力音利得調整手段を有することを特徴とする音量調整装置。
【請求項8】
請求項1〜7何れかに記載の音量調整装置において、
入力された入力音信号、参照音信号の振幅の絶対値の平均値をフレームごとに求め、予め定められた第7閾値よりも大きい平均値を有するフレームを検出した場合に発音が開始したと判定し、予め定められた第8閾値より小さい平均値を有するフレームが予め定められた数だけ連続して続いた場合に発音が終了したと判定する終始判定手段と、
発音が終了したと判定されたときに、発音終了時の第1入力音利得調整情報及び/又は第2入力音利得調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数の過去の発音の終了時の第1入力音利得調整情報及び/又は第2入力音利得調整情報をその記憶手段から読み出して、それらの平均値を求め、第1入力音利得調整手段及び/又は第2入力音利得調整手段に設定する入力音終了時利得調整手段と、
発音が終了したと判定されたときに、発音終了時の第1参照音利得調整情報及び/又は第2参照音利得調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数の過去の発音の終了時の第1参照音利得調整情報及び/又は第2参照音利得調整情報をその記憶手段から読み出して、それらの平均値を求め、第1参照音利得調整手段及び/又は第2参照音利得調整手段に設定する参照音終了時利得調整手段と、を備えることを特徴とする音量調整装置。
【請求項9】
第1音源からの第1音と、第2音源からの第2音が第1収音過程で入力音信号として収音され、当該入力音信号の利得を入力音利得情報を用いて調整することで、調整後入力音信号を出力する入力音利得調整過程と、
第2音が第2収音過程で参照音信号として収音され、当該参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力する参照音利得調整過程と、
調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力するエコー抑圧過程と、
調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にする利得計算過程と、
抑圧後入力音信号および調整後参照音信号を出力する出力過程と、を具備する音量調整方法。
【請求項10】
請求項1〜8何れかに記載の音量調整装置としてコンピュータを動作させるプログラム。
【請求項11】
請求項10記載のプログラムをコンピュータに実現させるために記録したコンピュータ読み取り可能な記録媒体。




【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2010−124207(P2010−124207A)
【公開日】平成22年6月3日(2010.6.3)
【国際特許分類】
【出願番号】特願2008−295634(P2008−295634)
【出願日】平成20年11月19日(2008.11.19)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】