説明

音量調整装置、方法及びプログラム

【課題】周波数等の音の所定の特徴量をなるべく変化させないようにしつつ、音量調整を行う技術を提供する。
【解決手段】入力された音を一定の時間長のフレームで分割する。フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求める。予め定められた数B以上連続する無音フレームに挟まれ、予め定められた数B以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める。求まった第一音区間の外形値が予め定められた範囲に入るように、入力された音の音量を調整するための情報(以下、第一音量調整情報とする。)を決定して、出力する第一音量調整指示手段と、出力された第一音量調整情報を用いて入力された音の音量を調整する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識等のために、電話機やマイクロホン等の音入力装置から入力した音の音量を自動的に調整する音量調整装置、方法及びプログラムに関する。
【背景技術】
【0002】
図7を参照して、従来の自動音量調整装置の説明をする。従来の自動音量調整装置は、音楽、音声等の音を人が聞いて聞きやすい音量に調整することを目的としている。
図7の一点鎖線は、自動音量調整装置が出力する音(すなわち自動音量調整された音)が入力される装置の入力のピーク(許容最大値)を表す。
(1)入力された音の音量が入力のピークを超えている場合には、その音量がその入力のピークを超えなくなるまで急いで利得を下げる。
(2)入力された音の短時間(10〜30秒)平均パワーを計算して、その平均パワーが予め設定した平均パワーの目標値に近づくように徐々に利得を上げ下げする。この際、音の短時間パワー(フレームごとのパワー)を計算して有音区間(音のある区間)と無音区間とを識別し、有音区間の音のみを使って平均パワーを計算することにより、音量調節を適切に行うことができる。
【0003】
従来の自動音量調整装置は、上記(1)、(2)の方法を組み合わせて、自動音量調整を行い、入力された大きな音や小さな音を人が聞きやすい一定の音量に常になるように制御している(例えば、特許文献1参照。)。
【特許文献1】特開昭58−141018号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
従来の自動音量調整装置は、利得を上げ下げすることにより、音量を少しずつ常に調整している。このように、入力された音を絶えず調整すると、波形が歪み周波数等の音の所定の特徴量が失われやすいという問題があった。
上記(2)の音量調整方法の具体例を図8を参照して説明をする。例えば、図8に示すように、振幅の分散が小さい音のパワーL1の平均値P1(平均パワーP1)を、平均パワーの目標値Pに近づける。近づけるように調整した後の振幅の分散が小さい音のパワーをL2の符号で示し、その平均値をP2(平均パワーP2)で表す。このとき、振幅の分散が大きい音L3(L3の縦軸は振幅を表す。)が入力された場合には、入力のピークを超えることが断続的に発生し、その入力のピークを超えた部分で音の所定の特徴量が変化してしまうという問題があった。
【0005】
この発明は、対象としている音の所定の特徴量を保ちつつ、その音の音量が所定の音量(入力音のピーク)以下になるように調整する音量調整装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明による音量調整装置は、入力された音を一定の時間長のフレームで分割するフレーム分割手段と、フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、予め定められた数B以上連続する無音フレームに挟まれ、予め定められた数B以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報(以下、第一音量調整情報とする。)を決定して、出力する第一音量調整指示手段と、上記出力された第一音量調整情報を用いて上記入力された音の音量を調整する第一音量調整手段と、を備える。
【発明の効果】
【0007】
音の所定の特徴量を保ちつつ、その音の音量が所定の音量(入力音のピーク)以下にすることができる。
【発明を実施するための最良の形態】
【0008】
図1を参照して、本発明の一実施例である自動音量調整装置1について説明をする。
入力部11から、音が入力される。入力部11は、例えばマイクロホンである。入力部11として、電話の送話音声と受話音声の一方を又は両方をミックスして取り出すために、電話機と、送受話器又はヘッドセットとの間に設置した送受話アダプターを用いてもよい。入力部11から入力された音は電気信号に変換されて、音量調整部12に出力される。
音量調整部12は、後述する音量調整情報に基づいて、入力された音の音量を調整して、出力する。出力された音の一部がAD変換部は入力される。音量調整部12は、アナログでもデジタルでもよい。音量調整部12の処理の詳細については後述する。
【0009】
AD変換部13は、音のアナログ信号を所定のサンプリング周波数で量子化することによりデジタル化して、フレーム分割部14に送る。なお、図1に点線で示すように、音量調整部12の前にAD変換部13を設けてもよい。この場合、音量調整部12は、デジタル式となる。以下、デジタル化された音の信号を、音信号と呼ぶ。
フレーム分割部14は、入力された音を一定の時間長のフレームで分割する。例えば、1フレームの長さを100ms(サンプリング周波数が16kHzである場合にはフレームを構成するサンプル数は1600)とする。このように、フレームの時間長を例えば男性の音声波形及び電源ノイズの基本周期よりも十分長くすることにより、声の高低及び電源ノイズによらず安定して音量調整をすることができる。フレーム化された音信号は、バッファ15に送られる。
【0010】
バッファ15は、予め定めた数1以上の数Aのフレームを一時的に格納する。
直流バイアス計算部16は、バッファ15に格納されたフレーム化された音信号を読み込み、その音信号の振幅の平均値を長時間観測して計算する。その平均値、すなわち直流成分の値は、減算部17に送られる。
減算部17は、バッファ15から読み込んだ音信号から、直流バイアス計算部16が計算した直流成分の値を減算して、バイアスのかかっていない音信号を生成する。生成された音信号は、終始判定部18と、外形値決定部19と、第二音量調整指示部26とに送られる。以下、断りなく音信号といった場合には、このバイアスのかかっていない音信号を意味するものとする。
【0011】
終始判定部18は、フレームごとの音信号の絶対値の平均値を観測することで、発音の開始時と発音の終了時を判定する。発音の開始時と発音の終了時の音区間のことを、発音と定義する。発音の開始時と発音の終了時とは、音が電話等の音声である場合には通話の始端と終端のことである。この場合、発音は、いわゆる通話区間に相当することになる。
具体的には、終始判定部18の平均値計算部181は、入力された音信号の振幅の絶対値の平均値をフレームごとに計算する。そして、終始判定部18が、計算された振幅の絶対値の平均値が予め定められた閾値Aよりも大きいかどうかを順次判定して、大きいと判定された場合には発音が開始されたと判定し、その旨の信号を終了時音量調整部33を含む自動音量調整装置1の各部に送る。計算された振幅の絶対値の平均値が予め定められた閾値Aよりも大きいと判定された場合に、その判定された時から一定時間長(例えば0.5秒)遡った時から発音が開始されたと判定してもよい。
【0012】
また、終始判定部18は、計算された振幅の絶対値の平均値が、予め定められた閾値A(閾値Aは、閾値Aよりも小さい値である。)よりも小さい状態が予め定められた一定時間長続いた場合には、又は、予め定められた数Aのフレームだけ続いた場合には、発音が終了したと判定し、その旨の信号を終了時音量調整部33を含む自動音量調整装置1の各部に送る。
発音が開始された旨の信号を受け取った外形値決定部19は、フレームの音の大きさを表す特徴量である外形値をフレームごとに求める。例えば、外形値とは、音信号の振幅の絶対値の最大値のことである。換言すると、外形値とは、フレームを構成する複数のサンプルの値の最大値のことである。求められたフレームごとの外形値は、有音無音フレーム判定部20、第一音量調整指示部25に送られる。図3A,Bに、外形値抽出の具体例を示す。図3Aはバイアスがかかっていない音信号の波形である。図3Bは、Aに示した音信号の波形からフレームごとに振幅の絶対値の最大値(外形値)を求めて、図示したものである。
【0013】
再度、図1を参照して説明をする。有音無音フレーム判定部20は、外形値と予め定められた閾値Aとを比較して、外形値の方が大きければそのフレームを有音フレームと判定し、そうでなければ、そのフレームを無音フレームと判定する。閾値Aを、予め定めた値とせずに、例えば、過去10秒間の無音フレームの外形値の最小値の定数倍(例えば3倍)の値として動的に閾値Aを変化させてもよい。フレームが、有音フレームであるか、無音フレームであるかの情報は、有音無音区間判定部21に送られる。
有音無音区間判定部21は、無音フレームが予め定められた数A(例えば5、時間長にして0.5秒となるように、Aを設定する。)以上連続する場合には、その連続するフレームから構成される音区間を無音区間と判定し、それ以外のフレームから構成される音区間を有音区間と判定する。有音区間、無音区間についての情報は、第一音量調整指示部25の第一音区間抽出部22に送られる。
【0014】
以下、図2を参照して、第一音量調整指示部25の説明をする。第一音量調整指示部25の第一音区間抽出部22は、上記判定された有音区間が予め定められた時間長A(例えば2秒)よりも長いかどうか、又は、上記判定された有音区間を構成するフレーム数A(例えば20フレーム)が予め定められた数Aよりも大きい場合には、その有音区間を第一音区間とする。入力される音が電話等の音声である場合には、第一音区間はいわゆる発話区間に相当する。発話区間は、人間が一呼吸で発した音の区間のことである。このようにして、第一音区間を抽出することにより、「こんにちは」や「ちょっと質問があるのですが」といった人の感覚に近い長さの音区間を切り出すことができる。図3Bに、第一音区間の抽出の具体例を示す。例えば、この図3B示すように、0.5秒以上の無音区間を使って2秒以上の有音区間のかたまりを第一音区間として抽出する。
【0015】
第一音区間抽出部22は、例えば、第一音区間を構成するフレームと、それらのフレームの外形値とに関する情報を、第一音区間外形値抽出部23に送る。第一音区間を構成するフレームの外形値は、第一音区間抽出部22が外形値決定部19から受け取ったフレームの外形値の情報を用いる。
第一音区間外形値抽出部23の除外部231は、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外する。除外する外形値の数は、第一音区間を構成するフレームの数が多いほど多くするとよい。例えば、第一音区間を構成するフレームの数に予め設定した割合A(例えば10〜30%、今回は20%)をかけて、小数点以下を切り捨て・四捨五入・切り上げた数の外形値を除外する。予め定めた数A10の外形値を除外することにしてもよい。除外されずに残った外形値は、最大値決定部232に送られる。
【0016】
最大値決定部232は、除外されずに残った外形値の最大値を求め、その最大値を第一音区間の外形値として保存する。第一音区間の外形値は、第一利得決定部24に送られる。
第一利得決定部24は、第一音区間の外形値が予め定められた範囲に入るように、入力された音を調整するための情報(以下、第一音量調整情報とする。)を決定して、音量調整部12に送る。例えば、第一利得決定部24に入力のピークが入力される。第一利得決定部24は、入力のピークに予め定められた割合A11(例えば、10%〜25%)をかけた範囲に、第一音区間の外形値が入るように、利得を決定する。この場合、利得が第一音量調整情報となる。
【0017】
なお、第一音量調整情報が決定された場合には、第一音量調整指示部25は、バッファ15の遅延分の時間に相当するフレームについて、上記の処理を行わない。
図3Cを参照して、具体例を説明する。除外部231は、第一音区間を構成するフレームの外形値のうち、外形値が大きい予め定められた数(この例では、7つ)の外形値を除外する。図3Cの白で示した外形値が除外された外形値である。最大値決定部232は、第一音区間の外形値として、除外されずに残った外形値のうち最も大きい外形値を選択する。除外されずに残った外形値が図3Cの黒と射線で示した外形値であり、その最大値である第一音区間の外形値は射線で示した外形値である。
【0018】
第一音区間の外形値が入るべき予め定められた範囲を3000〜8000とすると、この例では、第一音区間の外形値はその範囲に入っていない。第一利得決定部24は、第一音区間の外形値とその範囲との差分を計算して、第一音区間の外形値がその範囲に入るように利得を決定する。第一音区間の外形値がその範囲に入っている場合には、処理を行わない。
別の具体例を説明する。第一音区間の外形値が入力のピークの5%であり、第一音区間の外形値が入るべき予め定められた範囲が入力のピークの10%〜25%であるとする。この場合、第一利得決定部24は、第一音区間の外形値が入力のピークの10%になるように、利得を決定する。このように、音量調整後の第一音区間の外形値が、予め定められた範囲の上限値又は下限値のうち、音量調整前の第一音区間の外形値と近い方の値と等しくなるように、利得を決定することにより、音量調整量が最も小さくすることができ、音の所定の特徴量の変化を最も小さくすることができる。
【0019】
また、このように、第一音区間の外形値が入るべき予め定められた範囲を設けて、この範囲に第一音区間の外形値が入っている場合には上記の利得の計算を行わないようにすることにより、利得を変更する回数を少なくすることができる。これにより、音の波形が歪む回数を少なくすることができるため、音の所定の特徴量の変化を小さくすることができる。
この方法では、「はい」、「あ」、「えー」等の音量が不安定な短い音区間ではなく、「お電話ありがとうございます。」、「ちょっと聞きたいことがあるのですが」等のある程度の長さを持ち音量が安定した音区間を音量調整の基準としている。また、第一音区間を構成する複数のフレームの外形値から、外形値が大きい複数の外形値を除外して、除外されずの残った外形値の最大値を第一音区間の外形値として、その第一音区間の外形値を用いて、利得を調整している。
【0020】
これにより、咳やくしゃみ等の突発的な雑音の影響を受けにくくなり、かつ、対象とする音の振幅の分散の大小によっても音量調整後の音量が入力のピークが超えることがなくなる。
上記の例においては、第一音区間を構成するフレームの外形値のうち、大きい方から20%の外形値を除外し、第一音区間の外形値が入るべき予め定められた範囲を入力ピークの10%〜20%としている。これは、実験を行った結果、突発的な雑音を除くと、入力のピークが第一音区間の外形値のおよそ4倍未満であったためである。
【0021】
再度、図1を参照して説明をする。音量調整部12の第一音量調整部121は、第一音量調整指示部25が決定した第一音量調整情報(例えば利得)を用いて、入力された音の音量を調整して出力する。第一音量調整部121は、新たな第一音量調整情報が第一音量調整指示部25から送られてくるまで、既に送られている第一音量調整情報に基づいて音量調整を行う。
このように、本発明では、従来技術の音量調整装置と比較して長い時間、同じ第一音量調整情報に基づいて音量を調整している。これにより、従来技術のように頻繁に音量を調整するための利得が変化する場合と比較して、音の所定の特徴量が失われづらくなる。
【0022】
下記に述べる、第一音区間よりも短い音区間(第二音区間)を基準として、音量調整をする第二音量調整指示部26、第二音量調整部122を有していてもよい。
図4を参照して、第二音量調整指示部26の説明をする。減算部17から出力された音信号は、第二音量調整指示部26の過大入力サンプル数決定部27に入力される。過大入力サンプル数決定部27は、予め定められた値A12(例えばサンプル値で表現することができる値の上限の90%の値)よりも大きいサンプルの数(以下、過大入力サンプル数とする。)をフレームごとに決定する。決定されたフレームごとの過大入力サンプル数は、過大入力フレーム決定部28と、記憶部29とに送られる。
【0023】
過大入力フレーム決定部28は、過大入力サンプル数が予め定められた数A13(1フレームのサンプル数の30%の数)よりも大きいかどうかをフレームごとに決定する。以下、過大入力サンプル数が予め定められた数A13よりも大きいフレームを、過大入力フレームとする。過大入力フレームについての情報(例えば、過大入力フレームであることを表すフラグ)は、記憶部29に送られる。
第二音区間過大入力サンプル数決定部30は、第一音区間を構成するフレームの数よりも少ない数A14(例えば10、時間長にして1秒)のフレームから構成される音区間を第二音区間として、その第二音区間を構成するフレームについての過大入力サンプル数の総数を計算して、その総数を第二利得決定部32に送る。具体的には、第二音区間が過去10フレームである場合には、記憶部29から、過去10フレームの過大入力サンプル数をそれぞれ読み出して、それらを加算することにより、過大入力サンプル数の総数を求める。
【0024】
第二音区間過大入力フレーム数決定部31は、第二音区間を構成するフレームの中の過大入力フレームの数を決定して、その数を第二利得決定部32に送る。具体的には、第二音区間が過去10フレームである場合には、記憶部29から、過去10フレームの過大入力フレームについての情報を読み込み、過大入力フレームの数を決定する。
第二利得決定部32は、過大入力サンプル数の総数が予め定められた数A15(例えば第二音区間を構成するサンプルの総数の20%の数)よりも大きく、かつ、過大入力フレームの数が予め定められた値A16(第二音区間が10フレームである場合には、例えば3)よりも大きい場合には、入力された音の音量を所定の音量だけ下げるための情報(以下、第二音量調整情報とする。)を、音量調整部12に送る。第二音量調整情報は、具体的な利得の値(例えば0.7、音量にして3dB)等であってもよいし、具体的な数値を伴わない単なる音量を下げる旨を指示する情報であってもよい。
【0025】
音量調整部12の第二音量調整部122は、第二音量調整情報に基づいて、入力された音の音量を下げる。利得を下げた場合には、第二音量調整指示部26は、フレームに短時間音量調整フラグを立て、以降は、バッファ15の遅延分の時間に相当するフレームについて処理を行わない。
これにより、突発的な雑音のうち、比較的短い継続時間長をもった雑音を回避して、利得を下げることにより、音量を下げることができる。
終始判定部18によって発音の開始が検出された後は、上記のように、第一音量調整指示部25、第二音量調整指示部26の指示に従って音量が調節される。終始判定部18が発音の終了を検出した場合には、発音が終了した旨の情報が、終了時音量調整部33に送られる。
【0026】
終了時音量調整部33は、発音が終了した旨の情報を受け取ると、音量調整部12に設定された発音の終了時の利得を読み込んで、終了時音量調整部33の記憶部331に格納する。そして、終了時音量調整部33は、直近の発音から予め定められた数A17の過去の発音の終了時の利得を記憶部331からそれぞれ読み出して、それらの平均値を求め、その平均値を音量調整部12に設定する。
音量調整部12から現在の利得の値を得ることができない場合には、終了時音量調整部33は、以下のようにして利得を音量調整部12に設定する。音量調整部12から現在の利得の値を得ることができない場合とは、例えば、音量調整部12が3dB音量を上げる、3dB音量を下げるというような相対的な利得の指定手段しか持たず、装置の調整範囲を超えた場合や、調整できなかったことを通知する手段を持たない場合のことである。
【0027】
1.第一音量調整指示部25の指示によっては音量を調整するために利得を変更しなかった場合には、終了時音量調整部33は何もしない。
2.第一音量調整指示部25の指示により音量を下げるために利得を下げた場合には、終了時音量調整部33は現在の利得から予め設定した値A18だけを値を下げた利得を音量調整部12に設定する。
3.第一音量調整指示部25の指示により音量を上げるために利得を上げたときには、終了時音量調整部33は、以下の処理を行う。
【0028】
3−1.第二音量調整指示部26の指示により音量を下げるために利得を下げた場合には、終了時音量調整部33は何もしない。
3−2.「3−1.」以外の場合には、終了時音量調整部33は現在の利得から予め設定した値A19だけ値を上げた利得を音量調整部12に設定する。
このような方法で、発音の終了時に音量を調整することで、次の発音開始時の音量を適切な値に近づけることができるとともに、話者、マイク位置、声量等の収音環境条件の変化に追随して音量を適切に調整することができる。
【0029】
図9に例示するように、入力部11から入力された音が、AD変換部13と音量調整部12とにそれぞれ入力され、AD変換部13に入力された音から上記と同様に音量調整情報が決定され、その決定された音量調整情報に基づいて、音量調整部12が音量の調整をしてもよい。
例えば、コールセンターで日ごとにオペレータが席を替わる等の場合には、一定時間同一の収音条件が続くが、日々収音条件が変わる。このような環境では、数通話の短い時間で、それぞれのオペレータの声量、マイク位置などの収音条件に合うように音量を調整することができ、また、オペレータが途中で交替した場合にも、追随して適切に音量を調整できる。
【0030】
第二音量調整指示部26及び第二音量調整部122はなくてもよい。また、終了時音量調整部33がなくてもよい。
図5に、コールセンターで自動音量調整装置1を利用してオペレータとユーザとの会話を録音するシステムを示す。
電話機34に接続したヘッドセット35をオペレータが装着し、ユーザと会話をする。ヘッドセット35と電話機34との間に音量調整部12を有する送受話器分岐アダプタ36を接続して、オーディオ入力又はUSBを使って、その音声をPC37に取り込む。PCに取り込んだオペレータ、ユーザそれぞれの音声はエコーキャンセル部を通して、側音としてユーザ音声側に入っているオペレータ音声を抑圧する。図6に示すように送受話器分離アダプタにエコーキャンセル部38が付いている場合には、このエコーキャンセル部の処理をバイパスする。
【0031】
エコーキャンセル部38から送られたそれぞれの音声をもとに終始判定部18で、通話の始端を検出すると、送信側自動音量調整装置1aは、オペレータ音声の音量を上記説明した自動音量調整装置1と同様に調整する。また、受信側自動音量調整装置1bは、ユーザ音声の音量を上記説明した自動音量調整装置1と同様に調整する。送信側自動音量調整装置1aと受信側自動音量調整装置1bはそれぞれ、音量調整部12と終始判定部18とを有していないが、送受話器分岐アダプタ36の音量調整部12及びPC37の終始判定部18が、送信側自動音量調整装置1aと受信側自動音量調整装置1bの音量調整部12及び終始判定部18として機能する。それ以外の点では、自動音量調整装置1と同様である。
【0032】
オペレータ音声はオペレータが同じ間は収音条件がほぼ同じなので数通話で適切な音量に調整することができる。しかし、ユーザ音声は、一通話ごとに電話機、伝送路等が異なる。このため、受信側自動音量調整装置1bは、終了時音量調整部33による音調調整の指示を行わない。
終始判定部18が通話の終了を検出すると、音量が調整された音声は録音部39を通して、PC37のディスク40に格納される。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0033】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0034】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0035】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【図面の簡単な説明】
【0036】
【図1】本発明の一実施例である自動音量調整装置1の機能構成を例示する図。
【図2】第一音量調整指示部25の機能構成を例示する図。
【図3】Aは音信号の波形を例示する図。Bは第一音区間(発話区間)を例示する図。Cは第一音区間の外形値を例示する図。
【図4】第二音量調整指示部26の機能構成を例示する図。
【図5】オペレータとユーザとの会話を録音するシステムを例示する図。
【図6】オペレータとユーザとの会話を録音するシステムを例示する図。
【図7】従来の自動音量調整を例示する図。
【図8】従来の自動音量調整の問題点を説明するための図。
【図9】自動音量調整装置1’の機能構成を例示する図。
【符号の説明】
【0037】
1 自動音量調整装置
1a 送信側自動音量調整装置
1b 受信側自動音量調整装置
11 入力部
12 音量調整部
13 変換部
14 フレーム分割部
15 バッファ
16 直流バイアス計算部
17 減算部
18 終始判定部
19 外形値決定部
20 有音無音フレーム判定部
21 有音無音区間判定部
22 第一音区間抽出部
23 第一音区間外形値抽出部
24 第一利得決定部
25 第一音量調整指示部
26 第二音量調整指示部
27 過大入力サンプル数決定部
28 過大入力フレーム決定部
29 記憶部
30 第二音区間過大入力サンプル数決定部
31 第二音区間過大入力フレーム数決定部
32 第二利得決定部
33 終了時音量調整部
34 電話機
35 ヘッドセット
36 送受話器分岐アダプタ
38 エコーキャンセル部
39 録音部
40 ディスク
121 第一音量調整部
122 第二音量調整部
181 平均値計算部
231 除外部
232 最大値決定部
331 記憶部

【特許請求の範囲】
【請求項1】
入力された音を一定の時間長のフレームで分割するフレーム分割手段と、
フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定手段と、
予め定められた数B以上連続する無音フレームに挟まれ、予め定められた数B以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定手段と、
上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報(以下、第一音量調整情報とする。)を決定して、出力する第一音量調整指示手段と、
上記出力された第一音量調整情報を用いて上記入力された音の音量を調整する第一音量調整手段と、
を備える音量調整装置。
【請求項2】
請求項1に記載された音量調整装置において、
上記フレームの外形値は、そのフレームに含まれるサンプルの値の絶対値の最大値である、
ことを特徴とする音量調整装置。
【請求項3】
請求項1又は2に記載された音量調整装置において、
フレームの外形値が予め定められた閾値Bより大であればそのフレームを有音フレームと判定し、そうでなければそのフレームを無音フレームと判定する有音無音フレーム判定手段と、
予め定められた数B以上連続する無音フレームから構成される音区間を無音区間と判定するとともに、それ以外の音区間を有音区間と判定する有音無音区間判定手段と、
上記判定された有音区間のうち、予め定められた時間長よりも長い有音区間を上記第一音区間とする第一音区間抽出手段と、
を備えることを特徴とする音量調整装置。
【請求項4】
請求項1から3の何れかに記載された音量調整装置において、
サンプルの値の絶対値が予め定められた閾値Bより大であるサンプルの数(以下、過大入力サンプル数とする。)をフレームごとに決定する過大入力サンプル数決定手段と、
上記過大入力サンプル数が予め定められた数Bより大であるかどうかをフレームごとに決定する過大入力フレーム決定手段と(以下、過大入力サンプル数が予め定められた数Bより大であるフレームを過大入力フレームとする。)、
上記第一音区間を構成するフレームの数よりも少ない数のフレームから構成される音区間を第二音区間として、その第二音区間を構成するフレームについての上記決定された過大入力サンプル数の総数が予め定められた数Bより大であり、かつ、その第二音区間を構成するフレームの中の過大入力フレームの数が予め定められた数Bより大である場合に、上記入力された音の音量を所定の音量だけ下げるための情報(以下、第二音量調整情報とする。)を出力する第二音量調整指示手段と、
上記出力された第二音量調整情報を用いて上記入力された音の音量を下げる第二音量調整手段と、
を備えることを特徴とする音量調整装置。
【請求項5】
請求項1から4の何れかに記載された音量調整装置において、
入力された音の振幅の絶対値の平均値をフレームごとに求める平均値計算手段と、
予め定められた閾値Bよりも大きい平均値を有するフレームを検出した場合に発音が開始したと判定し、予め定められた閾値B10より小さい平均値を有するフレームが予め定められた数B11だけ連続して続いた場合に発音が終了したと判定する終始判定手段と、
発音が終了したと判定されたときに、発音終了時の第一音量調整情報及び/又は第二音量調整情報を記憶手段に記憶すると共に、直近の発音から予め定められた数B12の過去の発音の終了時の第一音量調整情報及び/又は第二音量調整情報をその記憶手段から読み出して、それらの平均値を求め、第一音量調整手段及び/又は第二音量調整手段に設定する終了時音量調整手段と、
を備えることを特徴とする音量調整装置。
【請求項6】
入力された音を一定の時間長のフレームで分割するフレーム分割ステップと、
フレームに含まれる音の大きさを表す特徴量である外形値をフレームごとに求めるフレーム外形値決定ステップと、
予め定められた数B以上連続する無音フレームに挟まれ、予め定められた数B以上のフレームから構成された音区間を第一音区間として、第一音区間を構成する複数のフレームの外形値から、外形値が大きい方から複数の外形値を除外して、除外されずに残った外形値の最大値をその第一音区間の外形値として求める第一音区間外形値決定ステップと、
上記求まった第一音区間の外形値が予め定められた範囲に入るように、上記入力された音の音量を調整するための情報(以下、第一音量調整情報とする。)を決定して、出力する第一音量調整指示ステップと、
上記出力された第一音量調整情報を用いて上記入力された音の音量を調整する第一音量調整ステップと、
を備える音量調整方法。
【請求項7】
請求項1から5の何れかに記載の音量調整装置の各手段としてコンピュータを機能させるための音量調整プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−122204(P2009−122204A)
【公開日】平成21年6月4日(2009.6.4)
【国際特許分類】
【出願番号】特願2007−293743(P2007−293743)
【出願日】平成19年11月12日(2007.11.12)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】