音量調整装置、その方法、そのプログラム、その記録媒体

【課題】入力音、参照音の音量を調整したとしても、エコー抑圧部で適切にエコーを抑圧できる。
【解決手段】第１収音部で入力音信号として収音され、当該入力音信号の利得を入力音利得情報を用いて調整することで、調整後入力音信号を出力し、参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力し、調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力し、調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にし、抑圧後入力音信号および調整後参照音信号を出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、入力した音声の音量を的に調整する音量調整装置、その方法、プログラム、記録媒体に関する。
【背景技術】
【０００２】
入力した音の音量を適切な音量にする音量調整装置は様々ある（例えば、特許文献１に記載）。図１に従来の音量調整装置６、８を電話機に用いた場合の例を示し、図２に図１を簡略化したものを示す。電話機５０とハンドセット４２とはコード（図示せず）で結ばれているとし、電話機５０とハンドセット４２との間に音量調整装置６、８は設けられる。この説明では、エコー抑圧装置１０を適用した場合を示す。また、図１の前提として、第２音源からの第２音Ｇが第２収音部４で参照音Ｑとして収音され、第１音源からの第１音Ｆと第２音Ｇが第１収音部２で入力音Ｐとして収音される。そして、エコー抑圧装置１０からエコー抑圧後の信号を出力する（後述するエコー信号を抑圧した信号）場合を説明する。電話機を用いて、自地点の話者と他地点の話者とが通話をしている場合を考えると、第１音源とは他地点の話者の口（音声が発せられる箇所）であり、第２音源とは自地点の話者の口（音声が発せられる箇所）である。第１音、第２音がハンドセットに入力された後に変換された電気信号をそれぞれ第１音信号Ｆ（ｘ）、第２音信号Ｇ（ｘ）とする。ただしｘは時刻とする。第１音Ｆ、第１音信号Ｆ（ｘ）を実線で示し、第２音Ｇ、第２音信号Ｇ（ｘ）を破線で示す。ハンドセット４２は、送話信号を入力させる送話部４６と、受音信号を経由出力させる受聴部４４とからなるとする。第２音源からの第２音信号Ｇ（ｘ）は、送話信号に変換され送話部４６を経由して、第２収音部４で収音されつつ、加算部５２に入力され、ネットワーク（図示せず）を経由して、他地点の話者に送話信号を送信される。
【０００３】
一方、ネットワークを経由して到達した第１音信号Ｆ（ｘ）は加算部５２に入力される。加算部５２は、第２音信号Ｇ（ｘ）にγ（音響・電気系による係数）を乗算したもの（エコー音信号（側音信号））と、第１音信号Ｆ（ｘ）と加算する。つまり、加算部５２は、Ｆ（ｘ）＋γＧ（ｘ）を演算して、第１収音部２に出力する。出力された信号Ｆ（ｘ）＋γＧ（ｘ）は、第１収音部２で収音されつつ、受聴部４４から再生される。受聴部４４で第１音信号Ｆ（ｘ）のみを再生するのではなく、Ｆ（ｘ）＋γＧ（ｘ）を再生する理由は、聴感上、違和感をなくすために、自身の話した声（つまり、第２音信号Ｇ（ｘ）についての音声）を第１音（第１音信号Ｆ（ｘ）についての音声）に重畳して受聴部４４で再生させている。以下の説明では、入力音Ｐについての信号を入力音信号Ｐ（ｘ）（＝Ｆ（ｘ）＋γＧ（ｘ））とし、参照音Ｑについての信号を参照音信号Ｑ（ｘ）（＝Ｇ（ｘ））とする。
【０００４】
第１収音部２よりの入力音信号Ｐ（ｘ）は音量調整装置６に入力され、第２収音部４よりの参照音信号Ｑ（ｘ）は音量調整装置８に入力される。音量調整装置６、８はそれぞれ入力音信号Ｐ（ｘ）、参照音信号Ｑ（ｘ）の利得（入力音、参照音の音量）を適切な値に調整する。調整後の入力音信号Ｐ（ｘ）、調整後の参照音信号Ｑ（ｘ）を入力として、エコー抑圧装置１０でエコー音信号を抑圧する。入力音信号Ｐ（ｘ）、参照音信号Ｑ（ｘ）の利得（入力音、参照音の音量）を適切な値に調整する理由は、入力音信号Ｐ（ｘ）、参照音信号Ｑ（ｘ）の振幅が大きすぎて、入力音信号Ｐ（ｘ）、参照音信号Ｑ（ｘ）が歪む場合には、適応フィルタ係数を適切に学習できない等の問題が発生するからである。
【特許文献１】特開昭５８−１４１０１８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
上記のような構成にした場合、音量調整装置によって、入力音と参照音の音量がばらばらに調整されるため、音量変更の度にエコー抑圧装置の適応量の再計算が必要になり、その再計算が終わるまでの間、エコーを抑圧できず、エコー抑圧装置からの出力にエコーが残ったままになる。つまり、常に音量調整装置により音量が変化すると、エコーを消去できなくなる。
【０００６】
上述では音量調整装置をエコー抑圧装置の前段に設けた例を説明したが、図３に示すように、エコー抑圧装置１０の後段に音量調整装置１２を設けることもできる。この構成をとることで、上記問題は解決できる。しかし、図３のような構成である場合に、エコー抑圧装置１０の入力の際に、入力音の音声波形、参照音の音声波形の少なくとも一方が最大値（エコー抑圧装置１０の入力のピーク）を越えて波形が歪むと、エコー抑圧装置では適切にエコーを抑圧できなくなる。
【０００７】
本願の目的は、入力音、参照音の音量を変更した場合でもエコーの抑圧を適切に行うことができる音量調整装置、その方法、そのプログラム、その記録媒体を提供するものである。
【課題を解決するための手段】
【０００８】
この発明の音量調整装置は、入力音利得調整部と、参照音利得調整部と、エコー抑圧部と、利得計算部と、出力部と、を具備する。入力音利得調整部は、第１音源からの第１音と、第２音源からの第２音が第１収音部で入力音信号として収音され、当該入力音信号の利得を入力音利得情報を用いて調整することで、調整後入力音信号を出力する。参照音利得調整部は、第２音が第２収音部で参照音信号として収音され、当該参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力する。エコー抑圧部は、調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力する。利得計算部は、調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にする。出力部は、抑圧後入力音信号および調整後参照音信号を出力する。
【発明の効果】
【０００９】
この発明では、入力音、参照音の音量を調整したとしても、エコー抑圧部で適切にエコーを抑圧できる。
【発明を実施するための最良の形態】
【００１０】
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
【実施例１】
【００１１】
図４に実施例１の音量調整装置２０の機能構成例を示し、図５に音量調整装置２０を電話機に適用した場合の機能構成例を示し、図６に処理フローを示す。
音量調整装置２０は、入力音利得調整部２４と、参照音利得調整部２２と、利得計算部２６と、エコー抑圧部２８と、出力部２１と、を有する。また上述のように、第１音源からの音を第１音Ｆとし、第２音源からの音を第２音Ｇとする。また、第１音Ｆと第２音Ｇとが第１収音部２で電気信号に変換され、入力音信号Ｐ（ｘ）として収音されるとし、第２音が第２収音部４で電気信号に変換され参照音信号Ｑ（ｘ）として収音されるとする。ここで、収音部とは例えば、マイクロホンである。収音部として、電話の送話音声と受話音声の一方を又は両方をミックスして取り出すために、電話機と、送受話器又はハンドセットとの間に設置した送受話アダプターを用いてもよい。第１音、第２音についての電気信号である第１音信号、第２音信号をそれぞれＦ（ｘ）、Ｇ（ｘ）とすると、
入力音信号Ｐ（ｘ）＝Ｆ（ｘ）＋γＧ（ｘ）
参照音信号Ｑ（ｘ）＝Ｇ（ｘ）
となる。ただし、ｘは時刻である。この実施例１の目的は、エコー抑圧部２８で、入力音信号Ｐ（ｘ）から重畳されたエコー音信号γＧ（ｘ）を抑圧し、出力部２１で第１音信号Ｆ（ｘ）、第２音信号Ｇ（ｘ）を出力することを目的とする。また、図７に利得計算部２６の機能構成例を主に示したものを示す。図７に示すように、入力音信号、参照音信号について分かれており、入力音信号の処理のために、ＡＤ変換手段２６２、フレーム分割手段２６４、バッファ２６６、直流バイアス計算手段２６８、減算手段２７０、音量計算手段２７２、入力音利得調整指示手段２７４が設けられ、参照音の処理のためにＡＤ変換手段２８２、フレーム分割手段２８４、バッファ２８６、直流バイアス計算手段２８８、減算手段２９０、音量計算手段２９２、入力音利得調整指示手段２９４が設けられ、そのほか、利得決定手段２７６が設けられる。入力音信号、参照音信号についてのこれらの構成部は対応するもの同士、統合しても良い。
【００１２】
入力音信号Ｐ（ｘ）、参照音信号Ｑ（ｘ）はそれぞれ入力音利得調整部２４、参照音利得調整部２２とに入力される。また、入力音利得調整部２４、参照音利得調整部２２の前段にＡＤ変換部２７を設けて、デジタル信号で処理を行ってもよく、ＡＤ変換部２７を設けずにアナログ信号で処理を行っても良い。入力音信号Ｐ（ｘ）、参照音信号Ｑ（ｘ）はそれぞれ入力音利得調整部２４、参照音利得調整部２２に入力される。入力音利得調整部２４は入力音信号Ｐ（ｘ）の利得を入力音利得情報β_１を用いて調整する（利得を乗算する）ことで、調整後入力音信号Ｐ’（ｘ）を出力する（ステップＳ２）。入力音利得情報β_１とは入力音信号Ｐ（ｘ）に乗算する利得であり、入力音利得情報β_１は、入力音利得調整指示手段２７４（後述する）から入力される。調整後入力音Ｐ’（ｘ）はエコー抑圧部２８に入力される。
【００１３】
エコー抑圧部２８とは、一般的に使用されているエコー抑圧装置であり、例えば、「北脇信彦著、「未来ねっと技術シリーズディジタル音声・オーディオ技術」電気通信協会、平成１１年１２月１５日初版発行、ｐ２１８−ｐ２５５」などに記載されている。エコー抑圧部２８の処理内容は後述する。エコー抑圧部２８の出力信号は、利得計算部２６に入力される。
【００１４】
利得計算部２６は、調整後参照音信号Ｑ’（ｘ）と抑圧後入力音信号Ｐ’’（ｘ）とを用いて、入力音利得情報β_１と、参照音利得情報β_２と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報Ωと、を計算し、適応フィルタ係数αを当該利得調整情報Ωに応じた値にする（ステップＳ８）。以下、詳細に説明する。
【００１５】
利得計算部２６中のＡＤ変換手段２６２は、入力音のアナログ信号を所定のサンプリング周波数で量子化することによりデジタル化して、フレーム分割手段２６４に送る。フレーム分割手段２６４は、入力された音を一定の時間長のフレームで分割する。例えば、１フレームの長さを１００ｍｓ（サンプリング周波数が１６ｋＨｚである場合にはフレームを構成するサンプル数は１６００）とする。このように、フレームの時間長を例えば男性の音声波形及び電源ノイズの基本周期よりも十分長くすることにより、声の高低及び電源ノイズによらず安定して利得調整をすることができる。フレーム化された音信号は、バッファ２６６に送られる。
【００１６】
バッファ２６６は、予め定めた数１以上の数Ａ_１のフレームを一時的に格納する。直流バイアス計算手段２６８は、バッファ２６６に格納されたフレーム化された入力音信号を読み込み、その入力音信号の振幅の平均値を長時間観測して計算する。その平均値、すなわち直流成分の値は、減算手段２７０に送られる。減算手段２７０は、バッファ２６６から読み込んだ入力音信号から、直流バイアス計算手段２６８が計算した直流成分の値を減算して、バイアスのかかっていない入力音信号を生成する。生成された入力音信号は、音量計算手段２７２に入力される。音量計算手段２７２は入力音信号の音量を計算するものであり、計算された音量は、入力音利得調整指示手段２７４に入力される。入力音利得調整指示手段２７４は、入力音利得調整部２４で用いる利得β_１を求め、入力音利得調整部２４へ出力する。音量計算手段２７２と、入力音利得調整指示手段２７４との処理内容については公知の技術を用いればよく、求め方の好適例については、実施例２以降で説明する。
【００１７】
一方、参照音利得調整部２２は参照音Ｑの音量（参照音信号の振幅レベル）を参照音利得情報β_２を用いて調整することで、調整後参照音信号Ｑ’（ｘ）を出力する（ステップＳ４）。出力された調整後参照音信号Ｑ’（ｘ）はＡＤ変換手段２８２に入力される。そして、参照音利得調整指示手段２９４は参照音利得調整部２２で用いる利得β_２を求め、参照音利得調整部２２へ出力する。処理の詳細は、入力音信号に対して処理と同様であるので、説明を省略する。
【００１８】
エコー抑圧部２８は、調整後入力音信号Ｐ’（ｘ）から調整後参照音信号Ｑ’（ｘ）に適応フィルタ係数αを畳み込んだものを減算することで、エコー音信号が抑圧された抑圧後入力音信号Ｐ’’（ｘ）を出力する（ステップＳ６）。つまり、以下の式の演算が行われる。
Ｐ’’（ｘ）＝Ｐ’（ｘ）−αＱ’（ｘ）（１）
ここで、上述のように、
Ｐ（ｘ）＝Ｆ（ｘ）＋γＧ（ｘ）
Ｑ（ｘ）＝Ｇ（ｘ）（２）
となり、
Ｐ’（ｘ）＝β_１Ｐ（ｘ）＝β_１（Ｆ（ｘ）＋γＧ（ｘ））
Ｑ’（ｘ）＝β_２Ｑ（ｘ）＝β_２Ｇ（ｘ）（３）
となる。
式（３）を式（１）に代入すると、
Ｐ’’（ｘ）＝β_１（Ｆ（ｘ）＋γＧ（ｘ））−αβ_２Ｇ（ｘ）（４）
になる。
【００１９】
ただし、Ｐ’’（ｘ）はエコー抑圧部２８から出力される、エコー抑圧後の入力音信号であるとする。上述のように、エコー抑圧部２８は、入力音利得調整部２４で調整された後の第１音信号β_１Ｆ（ｘ）（以下、「調整後第１音信号」という。）のみを出力しなければならないので、
Ｐ’’（ｘ）＝β_１Ｆ（ｘ）（５）
とならなければならない。
【００２０】
式（５）を式（４）に代入すると、
β_１Ｆ（ｘ）＝β_１（Ｆ（ｘ）＋γＧ（ｘ））＋αβ_２Ｇ（ｘ）（６）
となり、αについて求めると、
α＝−β_１γ／β_２（７）
となる。
【００２１】
利得計算部２６は、この式（７）が成り立つ適応フィルタ係数αになるような利得調整情報Ωを生成し、エコー抑圧部２８に送信すればよい。
【００２２】
利得調整情報Ωの詳細について説明する。式（７）では、γは上述のように、音響・電気系による係数であり定数である。従って、β_１、β_２により利得調整情報Ωは求まる。例えば、電話機を用いた会話をしている利用者が、受話音を聞き取りづらい時に、受話音の音量を上げる場合がある。そのような場合には、第１収音部２で、入力音信号Ｐ（ｘ）の利得が上がる。また、入力音利得調整部２４や参照音利得調整部２２により入力音信号Ｐ（ｘ）や参照音信号Ｑ（ｘ）の利得が上がる場合もある。ここで、例えば、入力音利得調整部２４で、入力音信号Ｐ（ｘ）の利得が４倍になり、参照音利得調整部２２で参照音信号Ｑ（ｘ）の利得が２倍になった場合を考える。この場合には、適応フィルタ係数αが変わらなければ、式（４）によりエコー音信号が残ってしまう。エコー音信号の全てを抑圧するためには、式（７）により、β_１／β_２＝２となり、この場合では適応フィルタ係数αを２倍にしなければならないことが理解されよう。
【００２３】
また、入力音信号Ｐ（ｘ）の利得が２倍になり、参照音信号Ｑ（ｘ）の利得が４倍になった場合には、適応フィルタ係数αが変わらなければ、式（４）により過大に減算してしまい、出力される信号に参照音の逆位相の信号が現れてしまい、結果として、エコー音として聞こえてしまう。この場合には、式（７）により、β_１／β_２＝１／２となり、適応フィルタ係数αを１／２倍にしなければならない。
【００２４】
また、対数で考えた場合に、β_１が＋６ｄＢ変化し、β_２が＋３ｄＢ変化した場合にはβ_１−β_２＝３ｄＢとなり、適応フィルタ係数αを３ｄＢ上げなければならない。
【００２５】
このように、利得調整情報Ωとは入力音利得情報β_１が参照音利得情報β_２と離れている度合いを示すものである。利得決定手段２７６は、入力音利得情報β_１の変化量と参照音利得情報β_２の変化量が実数で表されている場合には、
Ω＝入力音利得情報β_１の変化量／参照音利得情報β_２の変化量
を演算する。
【００２６】
また、利得決定手段２７６は、入力音利得情報β_１の変化量と参照音利得情報β_２の変化量が対数（ｄＢ）で表されている場合には、
Ω＝入力音利得情報β_１の変化量−参照音利得情報β_２の変化量
を演算する。そして、利得決定手段２７６よりの利得調整情報Ωはエコー抑圧部２８へすることで、適応フィルタ係数αを利得調整情報Ωに応じた値にする。
【００２７】
また、入力音信号Ｐ（ｘ）、調整後入力音信号Ｐ’（ｘ）のエコー音信号γＧ（ｘ）については、遅延差τが存在するので、厳密にいうと、
Ｐ（ｘ）＝Ｆ（ｘ）＋γＧ（ｘ−τ）
Ｐ’（ｘ）＝β_１（Ｆ（ｘ）＋γＧ（ｘ−τ））（８）
になる。
【００２８】
つまり式（６）は以下のようになる。
β_１Ｆ（ｘ）＝β_１（Ｆ（ｘ）＋γＧ（ｘ−τ））＋αβ_２Ｇ（ｘ−τ’）
−β_１γＧ（ｘ−τ）＝αβ_２Ｇ（ｘ−τ’）（６’）
ただし、τ’はエコー抑圧部２８で学習すべき遅延差であるとする。
そして、利得決定手段２７６が、この式（６’）が成り立つようなα、τ’をエコー抑圧部２８が学習するような利得調整情報Ωを生成して、エコー抑圧部２８に送信すればよい。
【００２９】
出力部２１は、抑圧後入力音信号Ｐ’’（ｘ）を出力する（ステップＳ１０）。また、出力部２１は、抑圧後入力音信号Ｐ’’（ｘ）と調整後参照音信号Ｑ’（ｘ）を個別に出力するようにしてもよい。全ての入力音信号、参照音信号の収音が終わるまで上記の処理を続ける（ステップＳ１２）。
【００３０】
このように、適応フィルタ係数αを、入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報Ωに応じた値にすることで、入力音や参照音の利得（音量）を調整した場合であっても、エコー音信号を全て消去できる。
【００３１】
また、図１に記載のように、従来の音量調整装置８では、入力音に含まれるエコー音音信号に合わせて誤って音量を調整してしまう場合があった。ところが、この実施例１の音量調整装置２０の利得計算部２６は、調整後参照音信号Ｑ’（ｘ）と抑圧後入力音信号Ｐ’’（ｘ）を用いて、入力音利得情報β_１と、参照音利得情報β_２と、利得調整情報Ωを求める例を説明した。この構成により、エコー音信号に音量を合わせるといった誤った音量調整を回避できるという顕著な効果を有する。従って、この効果の必要性のない場合は、利得計算部２６は、調整後参照音信号Ｑ’（ｘ）と調整後入力音信号Ｐ’（ｘ）を用いて、入力音利得情報β_１と、参照音利得情報β_２と、利得調整情報Ωを求めるようにしてもよい。
【実施例２】
【００３２】
実施例２以降では、入力音利得調整指示手段２７４、参照音利得調整手段２９４で求める好適な利得の求める手法を説明する。図８に音量計算手段２７２、入力音利得調整指示手段２７４の機能構成例を示す。音量計算手段２７２は、外形値決定手段２７２２、終始判定手段２７２４、有音無音フレーム判定手段２７２６、有音無音区間判定手段２７２８を有し、入力音利得調整指示手段２７４は入力音第１利得調整指示手段２７４２、入力音第２利得調整指示手段２７４４（実施例２で説明）、とを有する。入力音利得調整部２４は、第１入力音利得調整手段２４２、第２入力音利得調整手段２４４（実施例３で説明）とを有する。実施例２〜４では入力音側の処理について説明し、参照音側の処理については同様なので、省略する。実施例２〜４の説明は、「特許出願番号：特願２００７−２９３７４３号発明の名称「音量調整装置、方法およびプログラム」」に記載されているが、念のため説明する。
【００３３】
減算手段２７０からの入力音信号は外形値決定手段２７２２と終始判定手段２７２４に入力される。終始判定手段２７２４は、フレームごとの音信号の絶対値の平均値を観測することで、発音の開始時と発音の終了時を判定する。発音の開始時と発音の終了時の音区間のことを、通話区間と定義する。発音の開始時と発音の終了時とは、音が電話等の音声である場合には通話の始端と終端のことである。この場合、発音は、いわゆる通話区間に相当することになる。
【００３４】
具体的には、終始判定手段２７２４内の平均値計算手段（図示せず）は、入力された入力音信号の振幅の絶対値の平均値をフレームごとに計算する。そして、終始判定手段２７２４が、計算された振幅の絶対値の平均値が予め定められた第７閾値Ａ_２よりも大きいかどうかを順次判定して、大きいと判定された場合には発音が開始されたと判定する。計算された振幅の絶対値の平均値が予め定められた第７閾値Ａ_２よりも大きいと判定された場合に、その判定された時から一定時間長（例えば０．５秒）遡った時から発音が開始されたと判定してもよい。
【００３５】
また、終始判定手段２７２４は、計算された振幅の絶対値の平均値が、予め定められた第８閾値Ａ_３（閾値Ａ_３は、閾値Ａ_２よりも小さい値である。）よりも小さい状態が予め定められた一定時間長続いた場合には、又は、予め定められた数Ａ_４のフレームだけ続いた場合には、発音が終了したと判定し、その旨の信号を各構成部に送る。
【００３６】
発音が開始された旨の信号を受け取った外形値決定手段２７２２は、フレームの音の大きさを表す特徴量である外形値をフレームごとに求める。例えば、外形値とは、入力音信号の振幅の絶対値の最大値のことである。換言すると、外形値とは、フレームを構成する複数のサンプルの値の最大値のことである。求められたフレームごとの外形値は、有音無音フレーム判定手段２７２６、入力音第１利得調整指示手段２７４２に送られる。図９Ａ、Ｂに、外形値抽出の具体例を示す。図９Ａはバイアスがかかっていない音信号（つまり減算手段２７０の出力信号）の波形である。図９Ｂは、図９Ａに示した音信号の波形からフレームごとに振幅の絶対値の最大値（外形値）を求めて、図示したものである。
【００３７】
再度、図８を参照して説明をする。有音無音フレーム判定手段２７２６は、外形値と予め定められた第２閾値Ａ_５とを比較して、外形値の方が大きければそのフレームを有音フレームと判定し、そうでなければ、そのフレームを無音フレームと判定する。第２閾値Ａ_５を、予め定めた値とせずに、例えば、過去１０秒間の無音フレームの外形値の最小値の定数倍（例えば３倍）の値として動的に閾値Ａ_５を変化させてもよい。フレームが、有音フレームであるか、無音フレームであるかの情報は、有音無音区間判定手段２７２８に送られる。
【００３８】
有音無音区間判定手段２７２８は、無音フレームが予め定められた第１閾値Ａ_６（例えば５、時間長にして０．５秒となるように、Ａ_６を設定する。）以上連続する場合には、その連続するフレームから構成される音区間を無音区間と判定し、それ以外のフレームから構成される音区間を有音区間と判定する。有音区間、無音区間についての情報は、入力音第１利得調整指示手段２７４２に送られる。
【００３９】
図１０に入力音第１利得調整指示手段２７４２の機能構成例を示す。入力音第１利得調整指示手段２７４２は、第１音区間抽出手段２８０２、第１音区間外形値抽出手段２８０３、第１決定手段２８０８で構成されている。更に、第１音区間外形値抽出手段２８０３は、除外手段２８０４、最大値決定手段２８０６とで構成されている。有音区間、無音区間についての情報は第１音区間抽出手段２８０２に入力される。第１音区間抽出手段２８０２は、上記判定された有音区間が予め定められた時間長Ａ_７（例えば２秒）よりも長いかどうか、又は、上記判定された有音区間を構成するフレーム数Ａ_８（例えば２０フレーム）が予め定められた数Ａ_８よりも大きい場合には、その有音区間を第１音区間とする。入力される音が電話等の音声である場合には、第１音区間はいわゆる発話区間に相当する。発話区間は、人間が一呼吸で発した音の区間のことである。このようにして、第１音区間を抽出することにより、「こんにちは」や「ちょっと質問があるのですが」といった人の感覚に近い長さの音区間を切り出すことができる。図９Ｂに、第１音区間の抽出の具体例を示す。例えば、この図９Ｂ示すように、０．５秒以上の無音区間を使って２秒以上の有音区間のかたまりを第１音区間として抽出する。
【００４０】
第１音区間抽出手段２８０２は、例えば、第１音区間を構成するフレームと、それらのフレームの外形値とに関する情報を、第１音区間外形値抽出手段２８０３中の除外手段２８０４に送る。第１音区間を構成するフレームの外形値は、第１音区間抽出手段２８０２が外形値決定手段２７２２から受け取ったフレームの外形値の情報を用いる。
【００４１】
除外手段２８０４は、第１音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外する。除外する外形値の数は、第１音区間を構成するフレームの数が多いほど多くするとよい。例えば、第１音区間を構成するフレームの数に予め設定した割合Ａ_９（例えば１０〜３０％、今回は２０％）をかけて、小数点以下を切り捨て・四捨五入・切り上げた数の外形値を除外する。予め定めた数Ａ_１０の外形値を除外することにしてもよい。除外されずに残った外形値は、最大値決定手段２８０６に送られる。
【００４２】
最大値決定手段２８０６は、除外されずに残った外形値の最大値を求め、その最大値を第１音区間の外形値として保存する。第１音区間の外形値は、第１決定手段２８０８に送られる。
【００４３】
第１決定手段２８０８は、第１音区間の外形値が予め定められた範囲に入るように、入力された音を調整するための情報（以下、第１入力音利得調整情報とする。）を決定して、入力音利得調整部２４に送る。例えば、第１決定手段２８０８に入力のピークが入力される。第１決定手段２８０８は、入力のピークに予め定められた割合Ａ_１１（例えば、１０％〜２５％）をかけた範囲に、第１音区間の外形値が入るように、利得を決定する。
【００４４】
なお、第１利得調整情報が決定された場合には、第１利得調整指示手段２７４２は、バッファ１５の遅延分の時間に相当するフレームについて、上記の処理を行わない。
【００４５】
図９Ｃを参照して、具体例を説明する。除外手段２８０４は、第１音区間を構成するフレームの外形値のうち、外形値が大きい予め定められた数（この例では、７つ）の外形値を除外する。図９Ｃの白で示した外形値が除外された外形値である。最大値決定手段２８０６は、第１音区間の外形値として、除外されずに残った外形値のうち最も大きい外形値を選択する。除外されずに残った外形値が図９Ｃの黒と斜線で示した外形値であり、その最大値である第１音区間の外形値は斜線で示した外形値である。
【００４６】
第１音区間の外形値が入るべき予め定められた範囲を３０００〜８０００とすると、この例では、第１音区間の外形値はその範囲に入っていない。第１決定手段２８０８は、第１音区間の外形値とその範囲との差分を計算して、第１音区間の外形値がその範囲に入るように利得を決定する。第１音区間の外形値がその範囲に入っている場合には、処理を行わない。なお、予め定められた範囲３０００〜８０００という値は、量子化ビット数が１６ビットの場合の値で、振幅の最大値が２の８乗（３２７６８）の場合の値である。
【００４７】
別の具体例を説明する。第１音区間の外形値が入力のピークの５％であり、第１音区間の外形値が入るべき予め定められた範囲が入力のピークの１０％〜２５％であるとする。この場合、第１決定手段２８０８は、第１音区間の外形値が入力のピークの１０％になるように、利得を決定する。このように、利得調整後の第１音区間の外形値が、予め定められた範囲の上限値又は下限値のうち、利得調整前の第１音区間の外形値と近い方の値と等しくなるように、利得を決定することにより、利得調整量が最も小さくすることができ、音の所定の特徴量の変化を最も小さくすることができる。
【００４８】
また、このように、第１音区間の外形値が入るべき予め定められた範囲を設けて、この範囲に第１音区間の外形値が入っている場合には上記の利得の計算を行わないようにすることにより、利得を変更する回数を少なくすることができる。これにより、音の波形が歪む回数を少なくすることができるため、音の所定の特徴量の変化を小さくすることができる。
【００４９】
この方法では、「はい」、「あ」、「えー」等の音量が不安定な短い音区間ではなく、「お電話ありがとうございます。」、「ちょっと聞きたいことがあるのですが」等のある程度の長さを持ち音量が安定した音区間を利得調整の基準としている。また、第１音区間を構成する複数のフレームの外形値から、外形値が大きい複数の外形値を除外して、除外されずの残った外形値の最大値を第１音区間の外形値として、その第１音区間の外形値を用いて、利得を調整している。
【００５０】
これにより、咳やくしゃみ等の突発的な雑音の影響を受けにくくなり、かつ、対象とする音の振幅の分散の大小によっても利得調整後の音量が入力のピークが超えることがなくなる。
【００５１】
上記の例においては、第１音区間を構成するフレームの外形値のうち、大きい方から２０％の外形値を除外し、第１音区間の外形値が入るべき予め定められた範囲を入力ピークの１０％〜２０％としている。これは、実験を行った結果、突発的な雑音を除くと、入力のピークが第１音区間の外形値のおよそ４倍未満であったためである。
【００５２】
再度、図８を参照して説明をする。入力音利得調整部２４の第１入力音利得調整手段２４２は、入力音第１利得調整指示手段２７４２が決定した第１入力音利得情報を用いて、入力された音の音量を調整して出力する。第１入力音利得調整手段２４２は、新たな第１入力音利得調整情報が入力音第１利得調整指示手段２７４２から送られてくるまで、既に送られている第１入力音利得情報に基づいて利得調整を行う。
【００５３】
このような構成にすることで、頻繁に音量を調整するための利得が変化する場合と比較して、音の所定の特徴量が失われづらくなる。
【実施例３】
【００５４】
この実施例３では、第１音区間よりも短い音区間（第２音区間）を基準として、利得調整をする入力音第２利得調整指示手段２７４４、第２入力音利得調整手段２４４を有している実施例について説明する。
【００５５】
図１１に、入力音第２利得調整指示手段２７４４の説明をする。減算手段２７０から出力された入力音信号は（図８参照）、入力音第２利得調整指示手段２７４４の過大入力サンプル数決定手段２７４６に入力される。過大入力サンプル数決定手段２７４６は、予め定められた第３閾値Ａ_１２（例えばサンプル値で表現することができる値の上限の９０％の値）よりも大きいサンプルの数（以下、過大入力サンプル数とする。）をフレームごとに決定する。決定されたフレームごとの過大入力サンプル数は、過大入力フレーム決定手段２７４８と、記憶手段２７５０とに送られる。
【００５６】
過大入力フレーム決定手段２７４８は、過大入力サンプル数が予め定められた第４閾値Ａ_１３（１フレームのサンプル数の３０％の数）よりも大きいかどうかをフレームごとに決定する。以下、過大入力サンプル数が予め定められた第４閾値Ａ_１３よりも大きいフレームを、過大入力フレームとする。過大入力フレームについての情報（例えば、過大入力フレームであることを表すフラグ）は、記憶手段２７５０に送られる。
【００５７】
第２音区間過大入力サンプル数決定手段２７５２は、第１音区間を構成するフレームの数よりも少ない数Ａ_１４（例えば１０、時間長にして１秒）のフレームから構成される音区間を第２音区間として、その第２音区間を構成するフレームについての過大入力サンプル数の総数を計算して、その総数を第２決定手段２７５６に送る。具体的には、第２音区間が過去１０フレームである場合には、記憶手段２７５０から、過去１０フレームの過大入力サンプル数をそれぞれ読み出して、それらを加算することにより、過大入力サンプル数の総数を求める。
【００５８】
第２音区間過大入力フレーム数決定手段２７５４は、第２音区間を構成するフレームの中の過大入力フレームの数を決定して、その数を第２決定手段２７５６に送る。具体的には、第２音区間が過去１０フレームである場合には、記憶手段２７５０から、過去１０フレームの過大入力フレームについての情報を読み込み、過大入力フレームの数を決定する。
【００５９】
第２決定手段２７５６は、過大入力サンプル数の総数が予め定められた第５閾値Ａ_１５（例えば第２音区間を構成するサンプルの総数の２０％の数）よりも大きく、かつ、過大入力フレームの数が予め定められた第６閾値Ａ_１６（第２音区間が１０フレームである場合には、例えば３）よりも大きい場合には、入力された音の音量を所定の音量だけ下げるための情報（以下、第２入力音利得調整情報とする。）を、入力音利得調整部２４中の第２入力音利得調整手段２４４に送る。第２入力音利得調整情報は、具体的な利得の値（例えば０．７、音量にして３ｄＢ）等であってもよいし、具体的な数値を伴わない単なる音量を下げる旨を指示する情報であってもよい。
【００６０】
入力音利得調整部２４の第２入力音利得調整手段２４４は、第２入力音利得調整情報に基づいて、入力された音の音量を下げる。利得を下げた場合には、第２入力音利得調整手段２４４は、フレームに短時間利得調整フラグを立て、以降は、バッファ１５の遅延分の時間に相当するフレームについて処理を行わない。
【００６１】
これにより、発声部分の波形が入力のピークを越えることによって波形が歪むことのない音声を収音できる。
【実施例４】
【００６２】
この実施例４では、入力音終了時利得調整手段２４６を有することにより、終始判定手段２７２４によって発音の開始が検出された後は、上記のように、入力音第１利得調整指示手段２７４２、第２利得調整指示手段２７４４の指示に従って利得が調節される。終始判定手段２７２４が発音の終了を検出した場合には、発音が終了した旨の情報が、入力音終了時利得調整手段２４６に送られる。
【００６３】
入力音終了時利得調整手段２４６は、発音が終了した旨の情報を受け取ると、入力音利得調整部２４に設定された発音の終了時の利得を読み込んで、入力音終了時利得調整手段２４６の記憶手段２４６２に格納する。そして、入力音終了時利得調整手段２４６は、直近の発音から予め定められた数Ａ_１７の過去の発音の終了時の利得を記憶手段２４６２からそれぞれ読み出して、それらの平均値を求め、その平均値を入力音利得調整部２４に設定する。
【００６４】
入力音利得調整部２４から現在の利得の値を得ることができない場合には、入力音終了時利得調整手段２４６は、以下のようにして利得を入力音利得調整部２４に設定する。入力音利得調整部２４から現在の利得の値を得ることができない場合とは、例えば、入力音利得調整部２４が３ｄＢ利得を上げる、３ｄＢ利得を下げるというような相対的な利得の指定手段しか持たず、装置の調整範囲を超えた場合や、調整できなかったことを通知する手段を持たない場合のことである。
【００６５】
１．入力音第１利得調整指示部２７４２の指示によっては音量を調整するために利得を変更しなかった場合には、入力音終了時利得調整手段２４６は何もしない。
２．入力音第１利得調整指示部２７４２の指示により音量を下げるために利得を下げた場合には、入力音終了時利得調整手段２４６は現在の利得から予め設定した値Ａ_１８だけを値を下げた利得を入力音利得調整部２４に設定する。
３．入力音第１利得調整指示手段２７４２の指示により音量を上げるために利得を上げたときには、入力音終了時利得調整手段２４６は、以下の処理を行う。
３−１．入力音第２利得調整指示手段２７４４の指示により音量を下げるために利得を下げた場合には、入力音終了時利得調整手段２４６は何もしない。
３−２．「３−１．」以外の場合には、入力音終了時利得調整手段２４６は現在の利得から予め設定した値Ａ_１９だけ値を上げた利得を入力音利得調整部２４に設定する。
【００６６】
このような方法で、発音の終了時に音量を調整することで、次の発音開始時の音量を適切な値に近づけることができるとともに、話者、マイク位置、声量等の収音環境条件の変化に追随して音量を適切に調整することができる。
入力音第２利得調整指示手段２７４４及び第２入力音利得調整手段２４４はなくてもよい。また、終了時利得調整手段２４６はなくてもよい。
【実施例５】
【００６７】
図１２、図１３に、実施例４におけるコールセンターで音量調整装置１４０を利用してオペレータとユーザとの会話を録音するシステムを示す。
【００６８】
電話機５０に接続したヘッドセット４３をオペレータが装着し、ユーザと会話をする。ヘッドセット４３と電話機５０との間に音量調整部２０（実施例１〜４で説明した音量調整装置と同一）を有する送受話器分岐アダプタ１３６を接続して、オーディオ入力又はＵＳＢを使って、その音声をＰＣ１３７に取り込む。ＰＣ１３７に取り込んだオペレータ、ユーザそれぞれの音声はエコー抑圧部２８を通して、側音としてユーザ音声側に入っているオペレータ音声を抑圧する。図１３に示すように送受話器分離アダプタにエコー抑圧部２８が付いている構成にもできる。
【００６９】
エコー抑圧部２８から送られたそれぞれの音声をもとに終始判定手段２７２４で、通話の始端を検出すると、送信側音量調整装置１４０ａは、オペレータ音声の音量を上記説明した音量調整装置２０と同様に調整する。また、受信側音量調整装置１４０ｂは、ユーザ音声の音量を上記説明した音量調整装置２０と同様に調整する。送信側音量調整装置１４０ａと受信側音量調整装置１４０ｂはそれぞれ、音量調整部２０と終始判定手段２７２４とを有していないが、送受話器分岐アダプタ１３６の音量調整部２０及びＰＣ１３７の終始判定手段２７２４が、送信側音量調整装置１４０ａと受信側音量調整装置１４０ｂの音量調整部２０及び終始判定手段２７２４として機能する。それ以外の点では、音量調整装置１４０と同様である。
【００７０】
オペレータ音声はオペレータが同じ間は収音条件がほぼ同じなので数通話で適切な音量に調整することができる。しかし、ユーザ音声は、一通話ごとに電話機、伝送路等が異なる。このため、受信側音量調整装置１４０ｂは、入力音終了時利得調整手段２４６、参照音終了時利得調整手段２２６による音調調整の指示を行わない。
【００７１】
終始判定手段２７２４が通話の終了を検出すると、音量が調整された音声は録音部１３９を通して、ＰＣ１３７のディスク１５０に格納される。
【００７２】
＜ハードウェア構成＞
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【００７３】
また、上述の構成をコンピュータによって実現する場合、エコー消去装置３００が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。
【００７４】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。
【００７５】
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【００７６】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【００７７】
また、本実施例で説明したエコー消去装置３００は、ＣＰＵ（Central Processing Unit）、入力部、出力部、補助記憶装置、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）及びバスを有している（何れも図示せず）。
【００７８】
ＣＰＵは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、ＲＡＭは、ＳＲＡＭ(Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等である。また、バスは、ＣＰＵ、入力部、出力部、補助記憶装置、ＲＡＭ及びＲＯＭを通信可能に接続している。
【００７９】
＜ハードウェアとソフトウェアとの協働＞
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、ＣＰＵがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
音量調整装置２０の参照音利得調整部２２、入力音利得調整部２４、利得計算部２６、エコー抑圧部２８は、所定のプログラムがＣＰＵに読み込まれ、実行されることによって構築される演算部である。音量調整装置２０の記憶部（図示せず）は上記補助記憶装置として機能する。
【図面の簡単な説明】
【００８０】
【図１】従来の音量調整装置の適用例を示した図。
【図２】図１を簡略化した図。
【図３】従来の音量調整装置の変形例を示した図。
【図４】本実施例の音量調整装置の機能構成例を示した図。
【図５】本実施例の音量調整装置の適用例を示した図。
【図６】本実施例の音量調整装置の処理フローを示した図。
【図７】本実施例の利得計算部の機能構成例を示した図。
【図８】本実施例の音量計算手段の機能構成例を示した図。
【図９】Ａは音信号の波形を例示する図であり、Ｂは第１音区間を例示する図であり、Ｃは第１音区間の外形値を例示する図である。
【図１０】本実施例の第１利得調整指示手段の機能構成例を示した図。
【図１１】本実施例の第２利得調整指示手段の機能構成例を示した図。
【図１２】オペレータとユーザの会話を録音するシステムを例示する図。
【図１３】オペレータとユーザの会話を録音するシステムの別の形態を例示する図。

【特許請求の範囲】
【請求項１】
第１音源からの第１音と、第２音源からの第２音が第１収音部で入力音信号として収音され、当該入力音信号の利得を入力音利得情報を用いて調整することで、調整後入力音信号を出力する入力音利得調整部と、
第２音が第２収音部で参照音信号として収音され、当該参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力する参照音利得調整部と、
調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力するエコー抑圧部と、
調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にする利得計算部と、
抑圧後入力音信号を出力する出力部と、を具備する音量調整装置。
【請求項２】
請求項１記載の音量調整装置において、
前記出力部は、
抑圧後入力音信号および調整後参照音信号を出力するものであることを特徴とする音量調整装置。
【請求項３】
請求項１または２記載の音量調整装置において、
前記利得計算部は、調整後参照音信号と抑圧後入力音信号とから、入力音利得情報と、参照音利得情報と、利得調整情報とを計算することを特徴とする音量調整装置。
【請求項４】
請求項１〜３何れかに記載の音量調整装置において、
前記利得計算部は、
入力音信号と参照音信号を一定の時間長のフレームで分割するフレーム分割手段と、
フレームに含まれる入力音信号と参照音信号の大きさを表す特徴量である外形値をフレームごとに求める外形値決定手段と、
予め定められた第１閾値以上連続する無音フレームに挟まれ、予め定められた第２閾値以上のフレームから構成された音区間を第１音区間として、第１音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第１音区間の外形値として求める第１音区間外形値抽出手段と、
入力音信号と参照音信号についての、第１音区間の外形値が予め定められた範囲に入るように、第１入力音利得情報と第１参照音利得情報を決定し、出力する第１決定手段と、を有し、
前記参照音利得調整部は、前記第１参照音利得情報を用いて、参照音信号の音量を調整する第１参照音利得調整手段を有し、
前記入力音利得情報調整部は、前記第１入力音利得情報を用いて、入力音信号の音量を調整する第１入力音利得調整手段を有することを特徴とする音量調整装置。
【請求項５】
請求項４に記載された音量調整装置において、
上記フレームの外形値は、そのフレームに含まれるサンプルの値の絶対値の最大値であることを特徴とする音量調整装置。
【請求項６】
請求項４又は５記載された音量調整装置において、
前記利得計算部は、
フレームの外形値が予め定められた第２閾値より大であればそのフレームを有音フレームと判定し、そうでなければそのフレームを無音フレームと判定する有音無音フレーム判定手段と、
前記第１閾値以上連続する無音フレームから構成される音区間を無音区間と判定するとともに、それ以外の音区間を有音区間と判定する有音無音区間判定手段と、
上記判定された有音区間のうち、予め定められた時間長よりも長い有音区間を上記第１音区間とする第１音区間抽出手段とを備えることを特徴とする音量調整装置。
【請求項７】
請求項１〜６何れかに記載の音量調整装置において、
前記利得計算部は、
サンプルの値の絶対値が予め定められた第３閾値より大であるサンプルの数（以下、過大入力サンプル数とする。）をフレームごとに決定する過大入力サンプル数決定手段と、
前記過大入力サンプル数が予め定められた第４閾値より大である（以下、過大入力フレームという。）かどうかをフレームごとに決定する過大入力フレーム決定手段と、
前記第１音区間を構成するフレームの数よりも少ない数のフレームから構成される音区間を第２音区間として、その第２音区間を構成するフレームについての前記決定された過大入力サンプル数の総数が予め定められた第５閾値より大であり、かつ、その第２音区間を構成するフレームの中の過大入力フレームの数が第６閾値より大である場合に、収音された入力音信号と参照音信号の利得を所定量だけ下げるための情報（以下、それぞれ、「第２入力音利得情報」と「第２参照音利得情報」という。）を出力する第２決定手段と、
前記参照音利得調整部は、前記第２参照音利得情報を用いて、参照音信号の音量を調整する第２参照音利得調整手段を有し、
前記入力音利得情報調整部は、前記第２入力音利得情報を用いて、入力音信号の音量を調整する第２入力音利得調整手段を有することを特徴とする音量調整装置。
【請求項８】
請求項１〜７何れかに記載の音量調整装置において、
入力された入力音信号、参照音信号の振幅の絶対値の平均値をフレームごとに求め、予め定められた第７閾値よりも大きい平均値を有するフレームを検出した場合に発音が開始したと判定し、予め定められた第８閾値より小さい平均値を有するフレームが予め定められた数だけ連続して続いた場合に発音が終了したと判定する終始判定手段と、
発音が終了したと判定されたときに、発音終了時の第１入力音利得調整情報及び／又は第２入力音利得調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数の過去の発音の終了時の第１入力音利得調整情報及び／又は第２入力音利得調整情報をその記憶手段から読み出して、それらの平均値を求め、第１入力音利得調整手段及び／又は第２入力音利得調整手段に設定する入力音終了時利得調整手段と、
発音が終了したと判定されたときに、発音終了時の第１参照音利得調整情報及び／又は第２参照音利得調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数の過去の発音の終了時の第１参照音利得調整情報及び／又は第２参照音利得調整情報をその記憶手段から読み出して、それらの平均値を求め、第１参照音利得調整手段及び／又は第２参照音利得調整手段に設定する参照音終了時利得調整手段と、を備えることを特徴とする音量調整装置。
【請求項９】
第１音源からの第１音と、第２音源からの第２音が第１収音過程で入力音信号として収音され、当該入力音信号の利得を入力音利得情報を用いて調整することで、調整後入力音信号を出力する入力音利得調整過程と、
第２音が第２収音過程で参照音信号として収音され、当該参照音信号の利得を参照音利得情報を用いて調整することで、調整後参照音信号を出力する参照音利得調整過程と、
調整後入力音信号から、調整後参照音信号に適応フィルタ係数を畳み込んだものを減算することで、抑圧後入力音信号を出力するエコー抑圧過程と、
調整後参照音信号と調整後入力音信号とを用いて、入力音利得情報と、参照音利得情報と、当該入力音利得情報の変化量が当該参照音利得情報の変化量と離れている度合いを示す利得調整情報と、を計算し、前記適応フィルタ係数を当該利得調整情報に応じた値にする利得計算過程と、
抑圧後入力音信号および調整後参照音信号を出力する出力過程と、を具備する音量調整方法。
【請求項１０】
請求項１〜８何れかに記載の音量調整装置としてコンピュータを動作させるプログラム。
【請求項１１】
請求項１０記載のプログラムをコンピュータに実現させるために記録したコンピュータ読み取り可能な記録媒体。

【図１】