音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
【課題】台詞などの人声が聞きやすくなるようにした音量補正を可能にする装置および方法を提供する。
【解決手段】入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を設ける。声平均レベル検出手段において、入力音声信号中の人声の音声信号の平均レベルを検出する。ゲイン制御信号生成手段において、声平均レベル検出手段で検出された人声の音声信号の平均レベルが、基準レベルとなるように入力音声信号のゲインを制御するゲイン制御信号を生成し、生成したゲイン制御信号を可変ゲイン手段に供給して、入力音声信号のゲインを制御する。
【解決手段】入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を設ける。声平均レベル検出手段において、入力音声信号中の人声の音声信号の平均レベルを検出する。ゲイン制御信号生成手段において、声平均レベル検出手段で検出された人声の音声信号の平均レベルが、基準レベルとなるように入力音声信号のゲインを制御するゲイン制御信号を生成し、生成したゲイン制御信号を可変ゲイン手段に供給して、入力音声信号のゲインを制御する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、例えばテレビ放送受信機などに代表される電子機器の音声出力部に適用して好適な音量補正装置、音量補正方法および音量補正プログラムに関する。
【背景技術】
【0002】
テレビ放送受信機で受信する放送チャンネルを切り替えたときや、AV(Audio−Visual)システムにおいて、AVセンタで複数の入力機器の切り替えがなされたとき、コンテンツ間のレベル差により、出力音量に大きな変化が生じてしてしまうことがある。
【0003】
このような場合、ユーザは、自分が好みの音量にするためには、リモコン等を用いてボリューム操作をして音量調節する必要があり、わずらわしさを感じる場合がある。
【0004】
また、同一コンテンツ内(例えば、同一の放送チャンネル内や同一の放送番組内)においても、コマーシャル(CM)部分やシーンの変化によって、出力音量が変化し、不快に思うことがある。
【0005】
この問題を解決する音量補正方式が従来から種々提案されている。その一例のAGC(Auto Gain Control;自動利得制御)による音量制御方式が広く知られている。
【0006】
図26は、このAGCを用いた音量補正部の構成例を示すブロック図である。この図26の例は、左右2チャンネルの入力音声信号SiLおよびSiRについて音量補正をする場合である。
【0007】
すなわち、この例においては、左右2チャンネルの入力音声信号SiLおよびSiRは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ1Lおよび1Rに供給される。
【0008】
また、左右2チャンネルの入力音声信号SiLおよびSiRは、加算部2で互いに加算される。そして、加算部2からの加算出力信号は、アンプ3にて1/2ゲイン倍された後、平均レベル検出部4に供給され、この平均レベル検出部4で、加算出力信号の平均レベルが検出される。
【0009】
そして、平均レベル検出部4で検出された平均レベルがゲイン制御信号生成部5に供給される。このゲイン制御信号生成部5では、平均レベル検出部4からの平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて両レベルの差がゼロとなるようにするゲイン制御信号を生成し、可変ゲインアンプ1L,1Rに供給する。
【0010】
可変ゲインアンプ1L,1Rは、ゲイン制御信号生成部5からのゲイン制御信号によりゲインが可変制御される。この場合、左右2チャンネルの入力音声信号SiLおよびSiRは、この可変ゲインアンプ1L,1Rにおいて、前記加算部2からの加算出力信号の平均レベルが基準レベルと等しくなるようにゲイン制御される。
【0011】
この結果、可変ゲインアンプ1L,1Rから得られる左右2チャンネルの出力音声信号SoLおよびSoRは、小さな音は大きく、大きな音は小さく抑えられて、自動的に一定レベルの音量になるように補正される。
【0012】
上述したAGCによる音量補正方式の他にも、種々の音量補正方式が提案されている。例えば、特許文献1(特許3321820号公報)には、コンプレッサーを設け、大レベルの音声入力があった場合には、入力レベルに対して出力音声レベルを小さく制御し、音量をある一定の範囲に制御するようにする方式が開示されている。
【0013】
上記の特許文献は、次の通りである。
【特許文献1】特許3321820号公報
【発明の開示】
【発明が解決しようとする課題】
【0014】
ところで、例えばテレビ放送や、記録メディアに記録されている映画コンテンツ等においては、その音声信号中には、人声、BGM(Background Music)、効果音といった多種類の音が含まれている。ユーザが、リモコン等を用いて手動でボリュームコントロールを行う場合、音声信号中の人声のレベルを基準にして、台詞が適切に聞こえるようにレベルの調整操作を行っていることが多い。
【0015】
一方、上述した従来の音量補正方式は、音声信号全体のレベルを監視して音量制御を行う方式である。例えばAGC方式の場合、音声信号全体の平均レベルを基準にして、音量制御(ゲイン制御)を行った場合、音声信号全体としての音量制御がなされ、うるさい音を出さないようにしたり、聞こえなかった小さな音を聞こえるようにしたりすることができる。
【0016】
しかしながら、従来の音量補正方式では、人の声の大きさに着目して聞くと、当該人の声は必ずしも一定のレベルとはならず、台詞が聞き取りやすくなるとは言えない、という問題があった。
【0017】
この発明は、上記の点に鑑みて、台詞などの人声が聞きやすくなるようにした音量補正を可能にする装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0018】
上記の課題を解決するために、第1の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記声平均レベル検出手段で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。
【0019】
この第1の発明によれば、入力音声信号は、当該入力音声信号中の人声の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる台詞などの人声は、一定レベルとなり、聞き易い音量となる。
【0020】
また、第2の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出され声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出された声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。
【0021】
この第2の発明においては、ゲイン制御信号生成手段では、声以外平均レベル検出手段で検出された声以外平均レベルが、声平均レベル検出手段で検出され声平均レベルを、一定基準量以上超えているか否かにより、ゲイン制御信号の生成方法が異なる。
【0022】
すなわち、声以外平均レベルが声平均レベルに対して、一定量以上とはなっていないときには、ゲイン制御信号生成手段は、声平均レベルが、基準レベルとなるように入力音声信号のゲインを制御するゲイン制御信号を生成する。また、声以外平均レベルが、声平均レベルよりも、一定量以上大きいときには、声以外平均レベルが、基準レベルとなるように入力音声信号のゲインを制御するゲイン制御信号を生成する。
【0023】
したがって、第2の発明によれば、声以外平均レベルが声平均レベルに対して、一定量以上とはなっていないときには、入力音声信号は、当該入力音声信号中の人声の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる台詞などの人声は、一定レベルとなり、聞き易い音量となる。
【0024】
また、声以外平均レベルが、声平均レベルよりも、一定量以上大きいときには、入力音声信号は、当該入力音声信号中の人声以外の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる人声の音声信号のレベルに比較して、声以外の音声信号のレベルが、一定量以上大きいときには、声平均レベルが基準レベルとなるようにする制御により、声以外の音声信号レベルが、さらに大きくなるのが防止される。そして、このとき、声以外の音声信号の平均レベルが一定レベルとなるように制御されるので、聞き易い音量となる。
【発明の効果】
【0025】
この発明によれば、入力音声信号は、当該入力音声信号中の人声の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる台詞などの人声のレベルが変動したとしても、人声のレベルは自動的に一定レベルとなり、その音響再生音は、聞き易い音量となる。
【0026】
また、この発明によれば、入力音声信号中に含まれる人声の音声信号のレベルに比較して、声以外の音声信号のレベルが、一定量以上大きいときには、声以外の音声信号の平均レベルが一定レベルとなり、その音響再生音は、聞き易い音量となる。
【発明を実施するための最良の形態】
【0027】
以下、この発明による音量補正装置の実施形態を、図面を参照しながら説明する。以下に説明する音量補正装置の実施形態は、テレビ放送受信機の音声出力部に用いられた場合である。
【0028】
すなわち、図2は、テレビ放送受信機の構成例を示すブロック図である。この図2の例のテレビ放送受信機は、マイクロコンピュータを具備して構成される制御部10を備える。この制御部10には、リモコン受信部11が接続され、このリモコン受信部11でリモコン送信機12からのリモコン信号を受けて、制御部10に伝達する。制御部10は、受信したリモコン信号に応じた処理制御を実行する。
【0029】
制御部10は、テレビ放送受信機の各部に対して制御信号を供給して、テレビ放送信号の受信およびその映像再生および音声再生の処理を実行する。
【0030】
チューナ部13は、制御部10からのユーザのリモコン操作に応じたチャンネル選択制御信号により指定される放送チャンネルの信号を、テレビ放送波信号から選択抽出する。そして、チューナ部13は、選択抽出した放送チャンネルの信号から、映像信号と、音声信号とを復調デコードし、映像信号は映像信号処理部14に供給し、音声信号は、音声信号処理部15に供給する。
【0031】
映像信号処理部14では、制御部10からの制御を受けて、映像信号についての所定の処理をし、その処理後の映像信号を表示制御部16を通じて、例えばLCD(Liquid Crystal Display)からなるディスプレイ17に供給する。これにより、選択された放送チャンネルの放送番組の画像がディスプレイ17に表示される。
【0032】
また、音声信号処理部15では、制御部10からの制御を受けて、音声信号についての所定の処理をする。この実施形態では、音声信号処理部15では、チューナ部13からの音声信号から、左右2チャンネルの音声信号SiLおよびSiRを生成し、その処理後の音声信号SiLおよびSiRを音量補正部18に供給する。
【0033】
音量補正部18は、この実施形態の音量補正装置が適用される部分であり、その入力音声信号SiLおよびSiRは、後述するようにして、音量補正され、出力音声信号SoLおよびSoRとし出力される。そして、この音量補正部18からの出力音声信号SoLおよびSoRが、スピーカ19Lおよび19Rに供給されて、音響再生される。これにより、選択された放送チャンネルの放送番組の音声がスピーカ19Lおよび19Rから放音される。
【0034】
以下、この音量補正部18の場合として、この実施形態の音量補正装置について説明する。
【0035】
[音量補正装置の第1の実施形態]
図1は、この発明の音量補正装置の第1の実施形態としての音量補正部18の全体の構成例を示すブロック図である。
【0036】
この図1に示すように、この実施形態においても、左右2チャンネルの入力音声信号SiLおよびSiRは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ21Lおよび21Rに供給される。
【0037】
また、左右2チャンネルの入力音声信号SiLおよびSiRは、声平均レベル検出部22に供給されて、後述するように、左右2チャンネルの入力音声信号SiLおよびSiRの加算信号中における人声信号の平均レベル(声平均レベル)が検出される。
【0038】
そして、この声平均レベル検出部22で検出された声平均レベルはゲイン制御信号生成部23に供給される。ゲイン制御信号生成部23では、声平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて、両レベルの差がゼロとなるようにするゲイン制御信号を生成して、可変ゲインアンプ21L,21Rに供給する。
【0039】
可変ゲインアンプ21L,21Rは、ゲイン制御信号生成部23からのゲイン制御信号によりゲインが可変制御される。この場合、左右2チャンネルの入力音声信号SiLおよびSiRは、この可変ゲインアンプ21L,21Rにおいて、左右2チャンネルの入力音声信号SiLおよびSiRの加算信号中における声平均レベルが基準レベルと等しくなるようにゲイン制御される。
【0040】
以上のようにして、可変ゲインアンプ1L,1Rは、人の声の平均レベルを基準に自動音量補正される。このため、可変ゲインアンプ1L,1Rから得られる左右2チャンネルの出力音声信号SoLおよびSoRがスピーカ19L,19Rにより音響再生されると、その再生音声は、台詞など人の声の音量レベルが一定となり、人声が聞き取り易くなる。
【0041】
この実施形態では、声平均レベル検出部22は、次のように構成される。
【0042】
先ず、左右2チャンネルの入力音声信号SiLおよびSiRは、加算部31で互いに加算される。この加算部31からの加算出力信号は、アンプ32にて1/2ゲイン倍される。このアンプ32からの加算出力信号Smは、平均レベル検出部33に供給され、この平均レベル検出部33で、加算出力信号Smの平均レベルが検出され、当該平均レベルの信号(平均レベル信号という)Avが出力される。そして、この平均レベル検出部33で検出された加算出力信号Smの平均レベル信号Avは、声平均レベル生成部35に供給される。
【0043】
また、アンプ32からの加算出力信号Smが声区間検出部34に供給されると共に、左右2チャンネルの入力音声信号SiLおよびSiRが、この声区間検出部34に供給される。
【0044】
後述するように、声区間検出部34では、アンプ32からの加算出力信号Sm中において、人声の音声信号が含まれる時間区間である声区間を検出する。また、声区間検出部34では、左右2チャンネルの入力音声信号SiLおよびSiRからも、人声の音声信号が含まれる時間区間である声区間を検出する。
【0045】
この実施形態では、声区間検出部34では、人声信号の特徴量を用いて声区間を検出する。人声信号の特徴量は、複数種が存在する。この実施形態の声区間検出部34では、後述するように、人声信号の複数種の特徴量のそれぞれについて、声区間の検出を行い、その検出結果の論理積を取ることにより、検出した声区間の精度を高めるようにしている。この声区間検出部34は、検出した声区間を示す声区間検出フラグFLGを生成して出力する。そして、声区間検出部34は、声区間検出フラグFLGを声平均レベル生成部35に供給する。
【0046】
[声平均レベル生成部35の構成例]
声平均レベル生成部35は、この実施形態では、図3に示すような構成を備えるものとされる。
【0047】
すなわち、平均レベル検出部33からの平均レベルAvは、選択部351の一方の入力端に供給されると共に、声区間検出フラグFLGが選択信号として選択部351に供給される。この選択部351の出力信号は、積分部352に供給される。そして、この積分部352の出力信号が、選択部351の他方の入力端に供給されると共に、声平均レベル生成部35の出力信号Vavrとして出力される。
【0048】
選択部351は、声区間検出フラグFLGにより、声区間では、平均レベル検出部33からの平均レベル信号Avを選択して積分部352に供給し、声区間以外では、積分部352の出力信号を選択して積分部352に供給する。
【0049】
したがって、積分部352は、声区間では、平均レベル検出部33からの平均レベル信号Avを積分して平均化した信号を生成する。また、積分部352は、声区間以外では、自積分部352の出力レベル信号を維持(ホールド)する。
【0050】
例えば、アンプ32からの加算出力信号Smが、図4(A)に示すようなものであった場合を考える。この図4(A)の加算出力信号Smでは、縦バーで塗り潰した区間が人声が優勢あるいは人声のみの区間であり、声区間検出部34の声区間検出フラグFLGは、図4(B)に示すようなものとなる。
【0051】
したがって、選択部351では、声区間検出フラグFLGにより平均レベル検出部33からの平均レベル信号Avのうちの声区間の信号のみが選択されるが、それは、図4(C)に示すようなものとなる。
【0052】
積分部352では、声区間において、直前の自積分部352の出力(ホールド値)を初期値として、平均レベル検出部33からの平均レベル信号Avのうちの声区間の信号レベルを積分する。そして、声区間以外の区間では、選択部351は、積分部352の出力信号Vavrを選択する状態になるので、積分部352は、声区間の終わりの時点の信号レベルをホールドする。この結果、積分部352の出力信号Vavrは、すなわち、声平均レベル生成部35の出力信号Vavrは、図4(D)に示すようなものとなる。
【0053】
そして、積分部352では、図4(F)に示すように、声検出フラグFLGで示される声区間では、直前の自積分部352の出力(ホールド値)を初期値として積分演算を行って、人声信号レベルの平均値計算を行う。
【0054】
また、積分部352では、図4(E)に示すように、声区間以外の区間では、声区間の終わりの時点の信号レベルをホールドする。
【0055】
以上のようにして得られる声平均レベル生成部35の出力信号Vavrは、人声信号の平均レベルを示すものとなっており、これが、声平均レベル検出部22の出力信号としてゲイン制御信号生成部23に供給される。
【0056】
このゲイン制御信号生成部23では、声平均レベル検出部22からの声平均レベル信号Vavrと、予め定められている基準レベルと比較し、その比較結果としての両レベルの差がゼロとなるようにするゲイン制御信号を生成する。
【0057】
そして、ゲイン制御信号生成部23で生成されたゲイン制御信号は可変ゲインアンプ21L,21Rに供給される。可変ゲインアンプ21L,21Rでは、このゲイン制御信号により、入力音声信号SiLおよびSiRの声平均レベルが、基準レベルとなるようにゲイン制御される。
【0058】
図4の例においては、声平均レベル信号Vavrは、図4(D)に示すようなものとなるので、入力音声信号SiLおよびSiRの声平均レベルが、図4(G)に示すようなレベル補正ゲインによって、基準レベルとなるようにゲイン制御される。
【0059】
その結果、可変ゲインアンプ21L,21Rからの出力音声信号SoLまたはSoRは、図4(H)に示すようにゲイン制御されたものとなる。
【0060】
[声区間検出部34の構成例]
前述したように、声区間検出部34では、人声信号の特徴量に着目して、その入力音声信号Smから人声が含まれる時間区間である声区間を検出する。そして、この実施形態では、声区間検出部34では、人声信号の特徴量は複数種があることに着目して、当該複数種の特徴量のそれぞれについて、声区間の検出を行う。そして、その結果得られる複数個の検出結果の声区間に基づいて、声区間検出フラグFLGを生成して出力することにより、検出した声区間の精度を高めるようにしている。
【0061】
図5に、この実施形態における声区間検出部34の構成例のブロック図を示す。
【0062】
この実施形態では、声区間検出部34は、声周期検出部40と、声帯域集中検出部50、センター定位検出部60、の3つの検出部を備える。この3つの検出部40,50,60は、それぞれ声区間を特定するための人声信号の特徴量の一つを検出する。そして、これら3つの検出部40,50,60の3つの検出出力の論理積をとることによって、声区間検出精度の向上を図るようにしている。以下、3つの検出部40,50,60のそれぞれについて説明する。
【0063】
<声周期検出部40>
人声の信号は、複数の特徴的な周波数成分から構成されるが、ピッチと呼ばれる基本周波数成分のピークが強調された波形的特徴を有し、それが一母音期間継続する。また、基本周波数成分のピークは、一母音ごとに山なりのエンベロープを持って、同一周期で繰り返す。したがって、入力音声信号波形のピークを検出し、この検出したピークの周期の連続性を検出することによって、簡易的に、低負荷処理によって、声の存在する区間を特定することができる。つまり、人声の信号の同一ピーク周期の連続性を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。
【0064】
前記ピークの周期は次第に上昇したり、下降したりといったスロープを持つが、隣接するピーク周期間の差はわずかである。したがって、ある程度の許容誤差範囲で隣り合うピーク周期の同一性を検出することによって、ピーク周期の変動の影響を回避して、人声が存在する声区間を検出することができる。
【0065】
以上のことを踏まえて、この実施形態では、声周期検出部40は、ピーク周期検出部41と、連続同一周期検出部42と、頻度検出部43とで構成される。
【0066】
ピーク周期検出部41は、入力音声信号Smのピークを検出し、その検出したピークの周期を検出する。
【0067】
連続同一周期検出部42は、ピーク周期検出部41で検出されたピークの周期の隣り合うものの同一性を判断し、同一性があるときには、ピークの周期の同一性が連続しているとして検出する。この場合に、連続同一周期検出部42は、ピーク周期が声の帯域の周期範囲のみについて、ピーク周期の隣り合うものの同一性を判断するようにする。例えば、ピーク周期が、およそ1ミリ秒(1ms)から10ミリ秒(10ms)ほどの間にあるときに、前記ピーク周期の隣り合うものの同一性判断を行うようにする。
【0068】
頻度検出部43は、連続同一周期検出部42の出力を、1ピーク周期ずつ遅延したものを3以上の複数個用意し、それら複数個の、例えば多数決を求めることにより、ピーク周期の変動による影響を除去するようにしている。すなわち、ピーク周期が変動した場合、当該変動時点の1〜複数周期分が、連続同一周期検出部42で、連続同一周期の声区間として検出しても良いのにも拘らず、連続同一周期として検出されなくなる場合がある。頻度検出部43では、このような変動による不連続として検出されてしまう1〜複数周期分をなくして、安定した連続同一周期の検出出力が得られるようにする。
【0069】
図6は、声周期検出部40の、より詳細な構成例を示す図である。ピーク周期検出部41は、ピーク検出部411と周期計数カウンタ412とからなる。連続同一周期検出部42は、周期比較部421と、遅延部422とからなる。
【0070】
頻度検出部43は、この例では、連続同一周期検出部42の出力信号を、それぞれ1ピーク周期分ずつ遅延する2個の遅延部431,432と、多数決論理部433とからなる。
【0071】
この声周期検出部40の動作を、図7の音声波形図を参照しながら説明する。すなわち、図7(B)は、図4(A)の合成音声信号Smの一部である図7(A)のうちの、声区間の音声波形を示すものである。
【0072】
ピーク周期検出部41のピーク検出部411は、この図7(A)の入力音声信号Smの、この例では、正側のピーク位置を検出し、その検出時点(検出位置)を示すピーク検出出力Pkを出力する(図7(C)参照)。なお、ピーク検出部411は、例えば、所定のスレッショールド値を超えるピーク値を、ピーク位置として検出する。
【0073】
このピーク検出部411からのピーク検出出力Pkは、周期計数カウンタ412に供給される。周期計数カウンタ412には、人声信号のピーク周期よりも十分に周波数が高いクロックCLKが供給されており、このクロックCLKを、隣り合うピーク検出出力Pkの間でカウントすることにより、ピーク周期を計数する。したがって、周期計測カウンタ412は、ピーク周期をクロックCLKの計数値として出力する。
【0074】
この周期計測カウンタ412からのピーク周期検出出力としての計数値Tcは、連続同一周期検出部42に供給される。
【0075】
連続同一周期検出部42においては、周期計測カウンタ412からのピーク周期検出出力としての計数値Tcは、そのまま周期比較部421に供給されると共に、遅延部422を通じて遅延された後、周期比較部412に供給される。
【0076】
遅延部422は、この例では、ピーク検出出力Pkがクロックとして供給されるラッチ部として構成されており、周期計数カウンタ412からの計数値Tcを、1ピーク周期分遅延させて、周期比較部421に供給するようにする。
【0077】
この例では、周期比較部421では、まず、周期計数カウンタ412からの計数値Tcが、1msから10msまでの間のピーク周期に対応する計数値であるかどうかチェックする。そして、計数値Tcが、1msから10msまでの間のピーク周期に対応する計数値でないときには、周期比較部421は、周期比較を行わずに、この例では、その出力CTをローレベル(「0」)とする。そして、計数値Tcが、1msから10msまでの間のピーク周期に対応する計数値であるときには、周期比較部421は、次のようにして、隣り合う前後のピーク周期の比較演算を行う。
【0078】
すなわち、周期比較部421では、周期計測カウンタ412からの現時点でのピーク周期の計数値Tcpと、その1ピーク周期前のピーク周期の計数値Tcbとを比較し、両ピーク周期が同一であるかどうかを判定する。ここで、周期比較部421では、前後のピーク周期の計数値TcpとTcbとが全く同一である場合のみではなく、同一と見なせるほど両者の差が小さい許容範囲であるときには同一と判定される。同一と判定する差の大きさは、声区間を検出する精度の許容度に応じて予め設定されている。
【0079】
周期比較部421は、この例では、前後のピーク周期の計数値TcpとTcbとが同一であると判定したときにはハイレベル(「1」)、同一ではないと判定されたときにローレベル(「0」)となる連続同一周期検出フラグCT(図7(D)参照)を出力する。
【0080】
この連続同一周期検出フラグCTは、頻度検出部43に供給される。この頻度検出部43は、前述したように、この例では、2個の遅延部431,432と、多数決論理部433で構成される。
【0081】
遅延部431,432は、この例では、ピーク検出出力Pkがクロックとして供給されるラッチ部として構成されており、その入力信号を、それぞれ1ピーク周期分遅延させる。
【0082】
遅延部431は、連続同一周期検出部42からの連続同一周期検出フラグCTを入力信号として受け、この連続同一周期検出フラグCTを1ピーク周期分遅延させた信号CTd1(図7(E)参照)を出力する。
【0083】
また、遅延部432は、遅延部431の出力信号CTd1を受け、この出力信号CTd1を、さらに、1ピーク周期分遅延させた信号CTd2(図7(F)参照)を出力する。
【0084】
そして、連続同一周期検出フラグCTと、その1ピーク周期遅延信号CTd1と、その2ピーク周期遅延信号CTd2との3個の信号は、多数決論理部433に供給される。
【0085】
多数決論理部433は、3個の信号CT、CTd1,CTd2のうち、2個の信号がハイレベル「1」となっているときには「1」、そうでないときには、ローレベル「0」として、声周期検出フラグFLGa(図7(G)参照)を生成して出力する。
【0086】
この頻度検出部43によれば、連続同一周期検出部42で、ピーク周期の変動のために、声区間の一部のピーク周期区間を連続同一周期区間として検出できなかったときにも、その一部のピーク区間を含めた声周期検出フラグFLGaを出力することができる。
【0087】
以上のようにして、声周期検出部40で検出されて得られた声周期検出フラグFLGaは、アンドゲート340に供給される。
【0088】
なお、上述の例では、頻度検出部43では、2個の遅延部を用いて、1ピーク周期分ずつ異なる3個の信号の多数決をとるようにしたが、頻度検出部43では、3個以上の遅延部を用いて、その多数決をとるように構成しても良い。その場合に、多数決としては、単純な多数決ではなく、スレッショールド値を設定して、それを超えた多数決とするようにしても良い。例えば、4個の遅延部を用いて、1ピーク周期分ずつ異なる5個の信号の多数決をとる場合に、3個以上が「1」であれば、声区間検出信号FLGaを「1」とするのではなく、4個以上が「1」であるときにのみ、声区間検出信号FLGaを「1」とするようにしても良い。
【0089】
また、上述の例では、声周期検出部40では、音声波形の正側のピークを検出するようにしたが、負側のピークを検出するようにしても良い。また、正側と負側の両ピークを検出して、その両者の論理和(オア)を用いるようにしても良い。
【0090】
<声帯域集中検出部50>
人声の信号の母音を構成する主成分の周波数帯は、主に100Hzから1kHzといった中域の周波数帯域に多く含まれる。したがって、この100Hzから1kHzという周波数帯域の信号成分が、それ以外の成分に対して大きいところを抽出することによって、人声の存在する区間を特定することができる。つまり、人声の信号の母音を構成する主成分の周波数帯を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。
【0091】
また、暗騒音や炸裂音など、主に人声とは異なる周波数帯域成分を多く持つ信号を除外することができる。なお、この実施形態では、人声の周波数帯域としては、母音の帯域とし、子音部分は除外する。これは、人声の大きさとしては、母音のレベルが主体的に知覚されるためである。
【0092】
この実施形態においては、声帯域集中検出部50は、図5に示すように、バンドパスフィルタ(BPF)51と、バンドエリミネーションフィルタ(BEF)52と、平均レベル検出部53,54と、アンプ55と、比較部56とからなる。
【0093】
バンドパスフィルタ51は、図8(A)に示すように、この例では、100Hzから1kHzの間の人声が含まれる周波数帯域を通過帯域とする通過特性を備えるフィルタとされる。また、バンドエリミネーションフィルタ52は、図8(B)に示すように、100Hzから1kHzの間の人声が含まれる周波数帯域を非通過帯域とする通過特性を備えるフィルタとされる。つまり、バンドエリミネーションフィルタ52は、人声が含まれない周波数帯域を通過帯域とするフィルタである。
【0094】
そして、アンプ32からの左右2チャンネルの入力音声信号SiL,SiRの加算信号Smが、バンドパスフィルタ51およびバンドエリミネーションフィルタ52に供給される。
【0095】
バンドパスフィルタ51からは、加算信号Smから100Hz以上、1kHz以下の人声が含まれる周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部53に供給される。平均レベル検出部53では、加算信号Smの100Hz以上、1kHz以下の周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号BPFavr(図9の実線で示す波形参照)が平均レベル検出部53から出力される。
【0096】
また、バンドエリミネーションフィルタ52からは、加算信号Smのうち、100Hz以下、かつ、1kHz以上の人声が含まれない周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部54に供給される。平均レベル検出部54では、加算信号Smの100Hz以上、1kHz以下の人声が含まれない周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号BEFavr(図9の一点鎖線で示す波形参照)が平均レベル検出部54から出力される。
【0097】
そして、平均レベル検出部53からの平均レベル信号BPFavrがそのまま比較部56に供給されると共に、平均レベル検出部54からの平均レベル信号BEFavrは、アンプ55により重み付けされた後、比較部56に供給される。ここで、アンプ55による重み付けの値は、声区間の検出精度に関与するもので、この例では、アンプ55による重みが大きいほど声区間として検出される区間の長さは短くなる。なお、重み付けは、平均レベル検出部53の出力BPFavrに対して行っても良い。
【0098】
比較部56では、主に声を含む周波数帯域の平均レベル信号BPFavrが、主に声を含まない周波数帯域の平均レベルBEFavrに重みづけしたレベルを上回った場合に、声帯域集中区間を検出したとして、声帯域集中検出フラグFLGbを立てる。この例では、図9に示すように、検出した声帯域集中区間においては、声帯域集中検出フラグFLGbをハイレベル(「1」)にする。
【0099】
以上のようにして、声帯域集中検出部50で検出されて得られた声帯域集中検出フラグFLGbは、アンドゲート340に供給される。
【0100】
なお、以上の説明では、バンドパスフィルタ51と、バンドエリミネーションフィルタ52を使用した。しかし、主に人声を含む周波数帯域の信号と、主に人声を含まない周波数帯域の信号を抽出する手段としては、これに限られるものではなく、ローパスフィルタやハイパスフィルタなどのフィルタを用いて帯域を切り分けてもよい。
【0101】
また、比較部56では、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と、入力信号自身とを、比較しても良い。または、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と入力信号との差分と、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号とを比較しても良い。
【0102】
<センター定位検出部60>
例えばラジオ放送やテレビ放送におけるステレオ放送のコンテンツなどにおいては、人の台詞をもっとも聞き取り易くするために、人の台詞の大半はセンターに定位させているため、人声のあるところでは、定位分布がセンターに集中している。
【0103】
このため、ステレオ音声信号において、センターに定位する信号成分を含む区間を特定することによって、声の存在する区間を特定することができる。つまり、ステレオ音声信号におけるセンター定位成分を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。また、ステレオ音声信号におけるセンター定位成分を抽出することで、左右に広がる音楽信号部分など、センターに定位するボーカル以外の部分を除外できる。
【0104】
センター定位検出部60は、図5に示すように、定位分布検出部61と、センター集中定位検出部62とからなる。そして、左右2チャンネルの入力音声信号SiLおよびSiRが定位分布検出部61に供給され、この定位分布検出部61で入力音声信号の時々刻々と変化する定位分布が検出される。
【0105】
この定位分布検出部61で検出された定位分布の情報がセンター集中定位検出部62に供給され、このセンター集中定位検出部62で、センターに定位する成分が集中している時間区間を検出する。このセンター集中定位検出部62は、センターに定位する成分が集中している時間区間を示すセンター集中定位検出フラグFLGcを出力する。
【0106】
定位分布検出部61は、図10に示すように、帯域制限フィルタ611,612と、定位方向検出部613と、定位方向分布計測部614とを備えて構成される。
【0107】
センター定位分布検出部60に入力された左右2チャンネルの入力音声信号SiLおよびSiRは、それぞれ帯域制限フィルタ611,612において、例えば低域成分等、定位方向をあまり感じない周波数帯域の成分が除去される。
【0108】
そして、帯域制限フィルタ611,612により帯域制限された2チャンネルの入力音声信号SiLおよびSiRは、定位方向検出部613に供給される。定位方向検出部613は、帯域制限された2チャンネルの入力音声信号SiLおよびSiRのそれぞれのレベルの大きさにより、所定の周期毎の定位方向の検出時点における2チャンネルの入力音声信号SiLおよびSiRが持つ定位方向を検出する。
【0109】
すなわち、定位方向検出部613においては、所定のサンプリング周期で、帯域制限された2チャンネルの入力オーディオ信号SiLおよびSiRのそれぞれのレベル(振幅)をサンプリングする。そして、定位方向検出部613においては、この例では、最新サンプリング時点における定位方向を現時点における定位方向として検出するようにする。
【0110】
この場合、定位方向検出部613は、当該最新サンプリング時点における定位方向を、入力音声信号SiLおよびSiRのそれぞれについての、当該最新サンプリング時点のレベルと、それよりも過去のサンプリング時点のレベルとを用いて検出する。
【0111】
2チャンネルの入力音声信号SiLおよびSiRが、デジタルオーディオ信号であれば、前記サンプリング周期は、デジタルオーディオ信号のサンプル周期に等しくすることができる。もっとも、前記サンプリング周期を、デジタルオーディオ信号の1サンプル周期と等しくするのではなく、複数サンプル周期とするようにしてもよい。定位方向検出部613の入力音声信号がアナログ信号である場合には、この定位方向検出部613の入力段において、デジタルオーディオ信号に変換するようにしても良い。
【0112】
この定位方向検出部613における定位方向の検出方法を、図11を参照しながら説明する。図11(A),(B)は、左チャンネルの入力音声信号SiLの振幅をX軸にとり、右チャンネルの入力音声信号SiRの振幅をY軸にとった場合の座標空間を示している。
【0113】
定位方向検出部613では、まず、各サンプリング周期毎の定位方向の検出時点において2チャンネルの入力音声信号SiLおよびSiRのそれぞれのレベルを取得して、それに対応する座標点を、図11(A),(B)の座標空間に、例えばP1,P2,P3,P4のように、プロットしてゆく。この例では、P4が最新の検出時点の座標点であるとする。
【0114】
そして、定位方向検出部613では、y=k・x(kは定数)で表される直線(X軸とY軸との交点Zを通る直線)を、交点Zを中心として±90°回転させたときに、つまり、定数kを変化させたときに、プロットした座標点P1,P2,P3,P4が、どの定数kの直線(どの傾き角度の直線)の一番近くを移動してゆくかを算出する。つまり、定数kを変えた各直線からの各座標点P1,P2,P3,P4までの距離Da1,Da2,Da3,Da4あるいは距離Db1,Db2,Db3,Db4の総和が最も小さい直線の定数kを算出する。
【0115】
そして、定位方向検出部613は、算出した直線の定数kに対応する傾き角度を、検出したい現時点における定位方向とする。図11の例では、X軸、つまり、左チャンネルの定位方向(左方向)の角度を0°として、このX軸に対する角度(以下、定位角度という)θを定位方向として検出することとする。
【0116】
図11(A)の場合の座標点P1,P2,P3,P4の例では、定位角度はθaとして検出され、図11(B)の場合の座標点P1,P2,P3,P4の例では、定位角度はθbとして検出されるものである。
【0117】
なお、この実施形態では、定位方向検出部613においては、現時点(最新サンプリング時点)の2チャンネル入力音声信号のレベルと、過去のサンプリング時点における2チャンネル入力音声信号のレベルとは等しい重みで用いてはいない。この実施形態では、定位方向検出部613においては、現時点に近いサンプリング時点の2チャンネル入力音声信号のレベルほど重みが大きいものとするようにしている。
【0118】
このため、定位方向検出部613では、2チャンネル入力音声信号のレベルのサンプリング値に対して、図12に示すように、現時点(この例では最新サンプリング時点tn)に近いほど、重みが大きくなるように、指数関数曲線の特性を有する時間ウインドーWD1が用いられている。
【0119】
なお、上述の説明では、処理対象信号時点となる現時点を最新サンプリング時点(最新サンプル時点)とした。しかし、入力音声信号SiL,SiRの入力端と、可変ゲインアンプ21Lおよび21Rとの間に所定時間τだけ遅延させる遅延回路を設けて、処理対象となる現時点を、入力音声信号SiL,SiRよりも前記τだけ遅延した時点とすることができる。
【0120】
その場合には、定位方向検出部613では、処理対象信号時点となる現時点よりも後(未来)の2チャンネル入力音声信号SiL,SiRをも用いて、定位方向を検出するようにすることができる。例えば、図11の例で、処理対象信号時点となる現時点がP2やP3の場合とすることができる。
【0121】
そして、その場合には、前述した時間ウインドーWD1の代わりに、図13に示すような指数関数曲線の特性の時間ウインドーWD2が用いられる。この時間ウインドーWD2は、処理対象信号時点となる現時点tpで最も重みが大きく、現時点tpから離れるにつれ、過去および未来の方向に重みが小さくなるような指数関数曲線の特性を有するものである。
【0122】
なお、現時点の2チャンネル入力オーディオ信号のレベルを、過去および/または未来のサンプリング時点における2チャンネル入力音声信号SiL,SiRのレベルを重み付けせずに、そのままの値で用いても良い。
【0123】
以上のようにして、定位方向検出部613では、現時点においては、2チャンネル入力音声信号SiL,SiRが、どの方向からの信号であるかを、定位角度θとして検出することができる。
【0124】
しかしながら、検出した現時点における定位角度θは、1時点における入力オーディオ信号の定位方向を一方向に限定したもので、各方向ごとの信号の強さが反映されていない。そこで、この実施形態では、この点にかんがみ、定位方向検出部613で検出された現時点における2チャンネル入力音声信号SiL,SiRの定位方向の検出結果(定位角度θ)は、定位方向分布計測部614に供給される。
【0125】
定位方向分布計測部614では、予め定められた所定時間区間dに渡って定位方向検出部613で検出された定位角度θの、全方位についての分布を求め、2チャンネル入力音声信号の定位方向が、どの角度方向にどのくらいの割合を持っているかを計測する。
【0126】
この場合、所定時間区間dは、例えば数ミリ秒〜数百ミリ秒、この例では数十ミリ秒に選定されている。そして、この実施形態では、定位方向分布計測部614では、この所定時間区間dにおける定位方向検出部613で検出された定位角度θに対して、定位方向検出部613における重み係数の特性と同様に重み付けをするようにする。
【0127】
すなわち、定位方向分布計測部614では、現時点tp(この例では、tp=tn(最新サンプリング時点))に近づくほど指数関数的に大きくなるような重み付けをする時間ウインドーWD3(図14参照)をかけて重み付けをするようにする。
【0128】
なお、前述したように、入力オーディオ信号に対して遅延時間τを設けるようにして、定位方向検出部613での重み付けのための時間ウインドーを、図13のようにする場合には、定位方向分布計測部614における時間ウインドーも、図13と同様なものとなる。その場合の時間区間dは、現時点tpより未来と過去の両方を含む時間区間となるものである。なお、重み付けをせずに、そのままの値で用いてもよい。
【0129】
図15は、この定位方向分布計測部614で求められた定位角度θの分布である定位方向分布P(θ)の一例を示すもので、横軸にはX軸(左チャンネル定位方向)を基準にした定位角度θをとり、縦軸には各定位角度の出現度(<1)をとったものである。ここで、この実施形態では、定位方向分布P(θ)をすべての定位角度θについて総和を求めたときに1、すなわち、
ΣP(θ)=1
となるように分布が生成される。
【0130】
また、定位角度θと、音声信号の定位方向との関係は、図16に示すようなものとなる。なお、図16に示されている正面方向、左方向、右方向などは、リスナを基準にした方向名である。
【0131】
以上のようにして、定位方向分布計測部614からは、現時点(現サンプリング時点あるいは現サンプル時点;処理対象信号時点)ごとに、図15に示すような定位方向分布P(θ)の情報が得られる。
【0132】
この定位方向分布P(θ)の情報は、センター集中定位検出部62に供給される。センター集中定位検出部62では、定位分布検出部61によって算出された定位方向分布P(θ)に対して、主にセンター方向に重みを置いた重みづけをしたセンター定位分布信号を算出する。
【0133】
左チャンネルの音声信号SiLおよび右チャンネルの音声信号SiRが、例えば図17の(A)および(B)に示すような信号であった場合を考える。この図17(A)および(B)において、等間隔の縦線で塗り潰した部分は、センター定位する人声成分が含まれている区間を示している。
【0134】
この図17の例の場合、センター集中定位検出部62で算出されるセンター定位分布信号は、図17(C)に示すようなものとなる。
【0135】
センター集中定位検出部62では、算出したセンター定位分布信号の値と、予め設定した基準値REFとを比較して、センター定位分布信号の値が基準値REFを超えた区間を、センター定位検出区間として検出する。図17の例では、基準値REFは、0.8(80%)とされている。そして、センター集中定位検出部62は、検出したセンター定位検出区間を示すセンター定位検出フラグFLGcを出力する。
【0136】
こうしてセンター定位検出部62から得られるセンター定位検出フラグFLGcは、アンドゲート340に供給される。
【0137】
なお、センター集中定位成分を検出して、声区間を検出する手法としては、上述した定位分布検出部61とセンター集中定位検出部62とを用いる手法に限られるものではない。例えば、簡易的には、2チャンネルの音声信号SiL、SiRの和としてセンター集中定位信号を抽出し、抽出したセンター集中定位信号が所定の基準値を超えた区間を声区間として検出するようにしても良い。
【0138】
<声区間検出フラグの生成>
アンドゲート340は、声周期検出部40からの声周期検出フラグFLGaと、声帯域集中検出部50からの声帯域集中検出フラグFLGbと、センター定位検出部60からのセンター定位検出フラグFLGcの論理積として、声区間検出フラグFLGを出力する。
【0139】
声周期検出フラグFLGa、声帯域集中検出フラグFLGb、センター定位検出フラグFLGcは、それぞれ、声の区間を検出するための特徴量の存在を示したフラグである。アンドゲート340は、これら3つのフラグFLGa,FLGb,FLGcの論理積をとることによって、人声の区間の検出出力である声区間検出フラグFLGを生成するので、声区間の検出精度を上げることができる。
【0140】
以上説明したようにして、第1の実施形態によれば、入力音声信号のうち、声区間検出フラグFLGにより示される声区間の平均レベルを求め、この平均レベルが基準レベルとなるようにゲイン制御する。したがって、入力音声信号に含まれる台詞など、人声のレベルは、常に一定になるように制御されるので、台詞などが聞き易くなる。
【0141】
なお、上述の第1の実施形態では、声区間検出部34では、人声区間を検出するための3種の特徴量に基づく3つのフラグFLGa,FLGb,FLGcを生成し、その論理積をとることによって、人声の区間の検出出力である声区間検出フラグFLGを生成した。
【0142】
しかし、処理を簡略化する場合には、上記3種の特徴量のいずれか一つに基づいて生成したフラグを、声区間検出フラグFLGとしても良い。また、3種の特徴量のうちの2つを組み合わせて、それら2種の特徴量に基づいて生成されるフラグの論理積をとることにより、声区間検出フラグFLGを生成するようにしてもよい。
【0143】
そして、3種の特徴量のうちのいずれか一つまたは2つを組み合わせを用いる場合において、その選択のための選択操作手段を設けて、ユーザが当該選択操作手段を用いて手動で選択するようにすることができるようにしても、勿論よい。
【0144】
また、声区間検出部34に、さらに、入力音声信号Smのうちの無音を検出する無音検出部を設け、この無音検出部で検出した無音の区間は、声区間検出フラグFLGをマスクして、当該無音区間は声区間としないようにすることもできる。この場合には、信号のない、または暗騒音部分を除外することができるので、声区間の検出精度を、さらに高めることができる。
【0145】
なお、声区間を検出するための声信号についての特徴量としては、上述の3種に限られるものではなく、その他の特徴量を用いることもできることは言うまでもない。
【0146】
[音量補正装置の第2の実施形態]
上述の第1の実施形態では、人声信号の平均レベルが基準レベルとなるように入力音声信号をゲイン制御するので、人声信号の平均レベルが低い場合には、入力音声信号全体のゲインを大きくするように制御する。このため、人声以外の音声成分のレベルが、人声信号のレベルよりも大きく、かつ、両者の差が大きい場合には、人声以外の音声成分の音量が大きくなりすぎる場合がある。また、人声の無いコンテンツの場合にも、人声以外の音の音量が著しく大きくなってしまうことがある。
【0147】
この第2の実施形態は、上記の問題点を改善した例である。以下に示す第2の実施形態は、第1の実施形態と同様に、図2に示したテレビ放送受信機における音量補正部18に適用した場合である。
【0148】
図18は、この第2の実施形態としての音量補正部18の全体の構成例を示すブロック図である。この図18において、図1に示した第1の実施形態の音量補正部18の場合と同一部分には、同一符号を付すこととする。
【0149】
この第2の実施形態においては、前述した第1の実施形態における声レベル検出部22の他に、声以外平均レベル検出部24と、総合レベル生成部25とを設ける。声以外平均レベル検出部24は、後述するようにして、加算信号Smから声以外の信号区間の平均レベルNVavrを生成する。
【0150】
そして、声平均レベル検出部22の出力信号である声平均レベル信号Vavrと、声以外平均レベル検出部24の出力信号である声以外平均レベル信号NVavrとが、総合レベル生成部25に供給される。
【0151】
総合レベル生成部25は、声平均レベル信号Vavrと声以外平均レベル信号NVavrとから、合成レベル信号を生成し、生成した合成レベル信号をゲイン制御信号生成部23に供給する。したがって、この第2の実施形態では、ゲイン制御信号生成部23は、総合レベル生成部25からの合成レベル信号のレベルが、基準レベルとなるようにするゲイン制御信号を生成して、可変ゲインアンプ21L,21Rに供給するようにする。
【0152】
声平均レベル検出部22の構成は、前述したように、第1の実施形態のそれと同一であるので、ここでは、その詳細説明は省略する。
【0153】
<声以外平均レベル検出部24>
声以外平均レベル検出部24は、図18に示すように、無音検出部71と、声以外平均レベル生成部72と、インバータ73と、アンドゲート74とからなる。
【0154】
無音検出部71は、声平均レベル検出部22のアンプ32からの加算音声信号Smを入力信号として受けて、当該加算音声信号Smの無音区間を検出する。そして、無音検出部71は、検出した無音区間を示す無音区間検出フラグSLFGを出力する。この無音検出部71での無音検出の手法は、従来から良く知られている手法を用いることができるので、ここでは、その詳細な構成の説明は省略する。
【0155】
無音検出部71からの無音区間検出フラグSLFGは、図19(B)に示すように、この実施形態では、無音区間ではローレベル(「0」)となり、無音区間以外では、ハイレベル(「1」)となる信号である。無音検出部71からの無音区間検出フラグSLFGは、アンドゲート74に供給される。
【0156】
また、声平均レベル検出部22の声区間検出部34からの声区間検出フラグFLG(図19(A)参照)が、インバータ73を通じて極性反転された後、アンドゲート74に供給される。
【0157】
したがって、このアンドゲート74からは、図19(C)に示すように、無音区間と声区間とを除く声以外区間で、ハイレベルとなる声以外区間検出フラグNFLGが得られる。この声以外区間検出フラグNFLGは、声以外平均レベル生成部72に供給される。また、声平均レベル検出部22の平均レベル検出部33からの加算音声信号Smの平均レベル信号Avが、この声以外平均レベル生成部72に供給される。
【0158】
この声以外平均レベル生成部72は、図3に示した声平均レベル生成部35と全く同様の構成を備えるもので、図20に示すように、選択部721と積分部722とからなる。声以外平均レベル生成部72では、選択部721に供給される選択制御信号が、声区間検出フラグFLGではなく、声以外区間検出フラグNFLGである点が、声平均レベル生成部35とは異なる。
【0159】
これにより、声以外平均レベル生成部72では、声以外区間においては、選択部721から平均レベル信号Avが積分部722に入力され、無音区間および声区間においては、自積分部の出力が選択部721から積分部722に入力される。
【0160】
したがって、声以外区間では、積分部722では、直前の自積分部722の出力(ホールド値)を初期値として、平均レベル検出部33からの平均レベル信号Avのうちの声以外区間の信号レベルを積分して、平均化する。そして、無音区間および声区間においては、積分部722は、声以外区間の終わりの時点の信号レベルをホールドする。
【0161】
この結果、声以外平均レベル生成部72の積分部722の出力信号NVavrは、声以外区間の平均レベルを表わすものとなる。
【0162】
<総合レベル生成部25>
図21に、この実施形態における総合レベル生成部25の構成の一例を示す。
【0163】
この実施形態の総合レベル生成部25は、選択部251と、重み付け用アンプ252と、レベル比較部253とからなる。選択部251の一方の入力端Aには、声平均レベル検出部22からの声平均レベル信号Vavrが供給されると共に、選択部251の他方の入力端Bには、声以外平均レベル検出部からの声以外平均レベル信号NVavrが供給される。
【0164】
また、レベル比較部253には、声平均レベル検出部22からの声平均レベル信号Vavrが重み付け用アンプ252を通じて重み付けされた信号と、声以外平均レベル検出部からの声以外平均レベル信号NVavrが供給される。アンプ252における重みは、人声以外の音声成分のレベルが、それ以上になると、ゲイン制御により音量が大きくなりすぎるとされるレベルに相当するレベルを設定するためのものであり、この例では、2倍(×2)とされる。
【0165】
そして、このレベル比較部253において両信号がレベル比較され、その比較結果出力CMPが、選択部251に、その選択制御信号として供給される。ここで、比較結果出力CMPは、声平均レベル信号Vavrの2倍のレベル値が、声以外平均レベル信号NVavrの値よりも大きいときには、選択部251から一方の入力端A側に入力されている声平均レベル信号Vavrを出力する値、例えば「1」となる。また、比較結果出力CMPは、声以外平均レベル信号NVavrの値が、声平均レベル信号Vavrの2倍のレベル値よりも大きいときには、選択部251から他方の入力端B側に入力されている声以外平均レベル信号NVavrを出力する値、例えば「0」となる。
【0166】
したがって、選択部251からは、声以外平均レベル信号NVavrが、声平均レベル信号Vavrの2倍のレベル値を超えない範囲(NVavr<2Vavr)では、第1の実施形態と同様に声平均レベル信号Vavrが選択されて、ゲイン制御信号生成部23に供給される。これにより、前記範囲(NVavr<2Vavr)では、第1の実施形態と同様にして、声平均レベル信号Vavrが基準レベルとなるように、可変ゲインアンプ21L,21Rがゲイン制御され、常に、台詞など人声が聞き易い状態にレベル制御される。
【0167】
また、声以外平均レベル信号NVavrが、声平均レベル信号Vavrの2倍のレベル値を超える範囲(NVavr≧2Vavr)では、選択部251からは、声以外平均レベル信号NVavrが選択されて、ゲイン制御信号生成部23に供給される。これにより、前記範囲(NVavr≧2Vavr)では、声以外平均レベル信号NVavrが基準レベルとなるように、可変ゲインアンプ21L,21Rがゲイン制御され、声以外の音が異常に大きくなるのが防止される。
【0168】
図18においては、声以外平均レベル信号NVavrと、声平均レベル信号Vavrを重み付けしたものとを比較し、その比較出力により、声以外平均レベル信号NVavrと、声平均レベル信号Vavrとのいずれかをゲイン制御信号生成部23に供給するようにした。
【0169】
しかし、図18の声平均レベル生成部35と、声以外平均レベル生成部72および総合レベル生成部25の構成部分は、図22のように構成することもできる。
【0170】
図22の例においては、図18の例と同様に、声以外平均レベル生成部72が設けられる。また、図22の例においては、声平均レベル生成部35および総合レベル生成部25の代わりに、総合平均レベル生成部26が設けられる。
【0171】
総合平均レベル生成部26は、声平均レベル生成部35と同様に、選択部261と積分部262とを備える。また、総合平均レベル生成部26は、重み付け用アンプ263と、比較部264とを備える。
【0172】
そして、選択部261の入力端Aには、積分部262の出力信号(総合平均レベル信号GVavr)が供給される。そして、選択部261の入力端Bには、声平均レベル検出部33からの平均レベル信号Avが供給されると共に、この選択部261の選択制御端子には、声区間検出フラグFLGが供給される。
【0173】
そして、選択部261で、声区間検出フラグFLGに応じて選択された出力信号が積分部262に供給される。また、積分部262の出力信号は、重み付け用アンプ263により、この例では、2倍のレベルとされた後、比較部264に供給される。比較部264には、声以外平均レベル生成部72の積分部722の出力信号である声以外平均レベル信号NVavrが供給される。
【0174】
また、声以外平均レベル生成部72の積分部722の出力信号である声以外平均レベル信号NVavrが、積分部262に供給されると共に、比較部264の比較結果の出力信号CMPが積分部262に供給される。積分部262では、比較部264の出力信号CMPにより、後述する条件になったときに、保持する積分出力値を、声以外平均レベル生成部72からの声以外平均レベル信号NVavrに変更する処理をする。
【0175】
この図22の例の処理動作について以下に説明する。
【0176】
この図22の例においては、総合平均レベル生成部26と、声以外平均レベル生成部72とにおいては、それぞれ声平均レベル検出部33からの平均レベル信号Avについて、前述したような積分動作を行う。
【0177】
ただし、総合平均レベル生成部26においては、声区間検出フラグFLGで示される声区間では、選択部261から平均レベル信号Avが出力され、積分部262で、総合平均レベルGVavrを初期値とする積分動作がなされる。そして、声区間以外では、選択部261から積分部262の出力信号が出力され、積分部262の出力としては、総合平均レベルGVavrの値が保持(前置ホールド)される。
【0178】
一方、声以外平均レベル生成部72では、声以外検出フラグで示される声以外区間では、選択部721から平均レベル信号Avが出力され、積分部722で、声以外平均レベル信号NVavrを初期値とする積分動作がなされる。そして、声区間では、選択部721から積分部722の出力信号が出力され、積分部262の出力としては、声以外平均レベル信号NVavrの値が保持(前置ホールド)される。
【0179】
そして、比較部264は、アンプ263を通じた総合平均レベル生成部26からの総合平均レベル信号GVavrの2倍の値と、声以外平均レベル生成部72からの声以外平均レベル信号NVavrとを比較し、その比較出力CMPを積分部262に供給する。
【0180】
積分部262は、この比較出力CMPを参照し、声以外平均レベル信号NVavrが、総合平均レベル信号GVavrの2倍のレベル値を超えない範囲(NVavr<2GVavr)か、超える範囲(NVavr≧2GVavr)であるかを判別する。
【0181】
そして、積分部262は、超えない範囲(NVavr<2GVavr)であると判別すると、積分結果を保持する保持部の値は切り替えずに、第1の実施形態と同様に声平均レベル信号Vavrを、総合平均レベル信号GVavrとして生成して出力する処理を行う。
【0182】
すなわち、積分部262は、比較部264からのCMPが、NVavr<2GVavrであることを示す状態であるときには、声以外平均レベル生成部72からの声以外平均レベル信号NVavrは無視して、第1の実施形態と同様の処理を行う。
【0183】
また、積分部262は、超える範囲(NVavr≧2GVavr)であると判別すると、積分結果を保持する保持部の値を、声以外平均レベル信号NVavrに変更する。したがって、前記超える範囲(NVavr≧2GVavr)では、声以外平均レベル信号NVavrが積分部262の出力とされる状態となる。
【0184】
そして、前記超えない範囲(NVavr<2GVavr)に戻ると、積分部262は、比較出力CMPにより、積分結果を保持する保持部の値を、声以外平均レベル信号NVavrにする動作を停止して、選択部261からの出力を積分する処理状態に戻る。
【0185】
この図22の例では、こうして積分部262から得られる出力信号を総合平均レベル信号GVavrとして、ゲイン制御信号生成部23に供給する。ゲイン制御信号生成部23では、この総合平均レベル信号GVavrが基準レベルとなるようなゲイン制御信号を生成する。
【0186】
[他の実施形態および変形例]
以上の実施形態は、入力音声信号について、リアルタイムで声平均レベルや声以外平均レベルを検出して、ゲイン制御するようにした場合である。しかし、この発明は、リアルタイム処理の場合のみに適用されるわけではない。
【0187】
例えば記録媒体に記録された音声信号について、声平均レベルや声以外平均レベルを検出して、ゲイン制御信号を生成して、それを記録信号に対応付けて記録するようにすることもできる。その場合には、再生時には、当該記録されているゲイン制御信号を用いて、再生音声信号を音量制御するようにすることができる。
【0188】
図23は、例えばハードディスクやDVD(Digital Versatile Disc)などの記録媒体に、テレビ放送信号を記録することができる記録再生装置に、この発明を適用した場合のブロック図である。
【0189】
すなわち、この図23の例の記録再生装置80においては、放送記録系81と、再生系82と、レベル補正ゲイン生成部83と、制御部84と、操作部85とを備える。操作部85は、例えばリモコン送受信部からなる。制御部84は、例えばマイクロコンピュータを搭載して構成され、操作部85からの操作入力に応じた制御を、記録再生装置80の各部に対して行う。
【0190】
レベル補正ゲイン生成部83は、上述した図1に示した第1の実施形態を適用した場合であれば、声平均レベル検出部22と、ゲイン制御信号生成部23とからなる。また、上述の図18に示した第2の実施形態を適用した場合であれば、声平均レベル検出部22と、声以外平均レベル検出部24と、総合レベル生成部25と、ゲイン制御信号生成部23とからなる。
【0191】
操作部85を通じてユーザにより記録指示操作があると、制御部84は、放送記録系81を制御して、記録指示された放送番組の記録を実行する。
【0192】
放送記録系81においては、放送受信部811で記録指示された放送番組の放送波信号を受信し、デコード部812に供給する。デコード部812では、この例では、受信信号から映像信号V1と、音声信号A1とがデコードされて出力される。ここで、音声信号A1は、例えば左右2チャンネル音声信号とされる。
【0193】
このデコード部812からの映像信号V1および音声信号A1は、記録エンコード部813で記録エンコードされた後、書き込み部815を通じて記録媒体816に記録される。記録媒体816は、例えばハードディスク装置が用いられる。
【0194】
操作部85には、この例では、記録媒体816に記録されている放送番組コンテンツを指定するためのキーおよびレベル補正ゲイン生成指示キーが設けられている。ユーザにより、記録されている放送番組コンテンツの指定がなされ、レベル補正ゲイン生成指示キーが操作されると、制御部84は、指定された放送番組コンテンツの音声信号についての再生音量を適正にするためのレベル補正ゲイン生成処理を実行するようにする。
【0195】
すなわち、制御部84は、前記レベル補正ゲイン生成指示キーの操作入力に基づき、再生系の読み出し部821と、再生デコード部822と、レベル補正ゲイン生成部83および書き込み部815を動作状態に制御する。
【0196】
そして、制御部84は、読み出し部821を制御して、記録媒体816から指定された放送番組の記録信号を読み出す。読み出し部821は、読み出した記録信号を再生デコード部822に供給する。再生デコード部822は、記録信号を再生デコードして、再生映像信号V2および再生音声信号A2を出力する。
【0197】
この再生デコード部822からの再生音声信号A2は、レベル補正ゲイン生成部83に供給される。このレベル補正ゲイン生成部83では、上述の第1の実施形態または第2の実施形態で説明したようにして、ゲイン制御信号が生成される。
【0198】
そして、レベル補正ゲイン生成部83は、生成したゲイン制御信号を書き込み部815に供給する。書き込み部815は、制御部84の制御を受けながら、レベル補正ゲイン生成部83からのゲイン制御信号を、再生中の記録信号に対応付けて記録媒体816に記録するようにする。
【0199】
次に、操作部85を通じてユーザにより再生指示操作があると、制御部84は、再生系82を制御して、再生指示された放送番組の再生を実行する。
【0200】
すなわち、制御部84は、読み出し部821を制御して、記録媒体816から指定された放送番組の記録信号と、対応付けられて記録されているゲイン制御信号とを読み出す。読み出し部821は、読み出した記録信号を再生デコード部822に供給すると共に、読み出したゲイン制御信号をゲイン制御信号再生部826に供給する。
【0201】
再生デコード部822は、記録信号を再生デコードして、再生映像信号V2および再生音声信号A2を得る。そして、再生映像信号V2を映像信号処理部823を通じ、映像出力端827を通じて出力する。出力端827には、表示装置が接続され、その表示画面に、放送番組の再生映像が映出される。
【0202】
また、再生デコード部822からの再生音声信号は、音声信号処理部824を通じて可変ゲインアンプ825に供給される。
【0203】
一方、ゲイン制御信号再生部826では、読み出し部821からの信号から、ゲイン制御信号が再生される。そして、ゲイン制御信号再生部826は、再生したゲイン制御信号を可変ゲインアンプ825に供給して、そのゲインを制御するようにする。したがって、可変ゲインアンプ825から得られる音声信号は、上述した第1の実施形態および第2の実施形態と同様にして、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。
【0204】
この可変ゲインアンプ825からの再生音声信号は、音声出力端828を通じて、スピーカに供給される。
【0205】
なお、この図23の例においては、レベル補正ゲイン生成部83では、上述した第1の実施形態または第2の実施形態と同様の構成としたが、この図23の例は、リアルタイム処理である必要は無いので、処理時間はかかるが、より高精度の構成とすることもできる。
【0206】
例えば、記録再生装置80が、十分なバッファ容量および処理能力を持った構成である場合には、音声信号の自己相関をとりながら、ピッチ検出をして人声信号が含まれる区間を検出するようにすることもできる。また、FFT(Fast Fourier Transform)によるスペクトル包絡のケプストラム解析を行なうなどして、より、精密に、人声信号が含まれる区間を検出することもできる。
【0207】
なお、以上の例では、音声信号は、左右2チャンネルの場合であったが、声レベル平均検出部22や声以外レベル平均検出部24の入力信号が加算音声信号Smであることから、音量補正対象の音声信号は、モノーラル音声信号であっても良いことは言うまでもない。
【0208】
また、最近は、音声信号は5.1チャンネルのサラウンド音声信号など、3チャンネル以上のマルチチャンネルの場合もある。このようなマルチチャンネルの場合であって、センターチャンネルが存在する場合には、当該センターチャンネルに人声信号が主として含まれるので、このセンターチャンネルの音声信号から、声区間を検出するようにすれば良い。
【0209】
図24は、入力音声信号が5.1チャンネルのサラウンド音声信号である場合における音量補正装置の実施形態の概要を説明するための図である。
【0210】
すなわち、この例においては、前方左右チャンネルの音声信号FLi,FRiは、可変ゲインアンプ921,922に供給される。また、後方左右チャンネルの音声信号RLi,RRiは、可変ゲインアンプ923,924に供給される。また、センターチャンネルの音声信号Ciは、可変ゲインアンプ925に供給される。さらに、低域専用チャンネルの音声信号LFE(Low Frequency Effect)は、可変ゲインアンプ926に供給される。
【0211】
そして、センターチャンネルの音声信号Ciは、また、レベル補正ゲイン生成部91に供給される。このレベル補正ゲイン生成部91は、図23に示したレベル補正ゲイン生成部83と同様の構成を備える。ただし、このレベル補正ゲイン生成部91は、この例では、センターチャンネルの音声信号Ciを加算音声信号Smとして、上述した実施形態の手法のいずれかにより、可変ゲインアンプ921〜926をゲイン制御するゲイン制御信号を生成する。
【0212】
そして、可変ゲインアンプ61〜66のそれぞれから出力音声信号FLo、FRo、RLo、RRo、Co、LFoが得られ、それぞれ用のスピーカにより放音されるようにされる。
【0213】
この図24の例によれば、5.1チャンネルの出力音声信号FLo、FRo、RLo、RRo、Co、LFoのそれぞれが、レベル補正ゲイン生成部91で生成されたゲイン制御信号より、ゲイン制御されたものであるので、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。
【0214】
なお、3チャンネル以上のマルチチャンネルの音声信号が2チャンネルの音声信号にダウンミックスされて、2チャンネルの信号とされる場合には、ダウンミックス後の2チャンネルの音声信号に対してレベル補正ゲイン生成部を設ければよい。
【0215】
図25は、入力音声信号が5.1チャンネルのサラウンド音声信号がダウンミックスされて2チャンネルとされる場合における音量補正装置の実施形態の概要を説明するための図である。
【0216】
すなわち、図25の例においては、5.1チャンネルのサラウンド音声信号FLi、FRi、RLi、RRi、Ci、LFiのそれぞれが、ダウンミックス部93に供給されて、左右2チャンネルの音声信号Li,Riとされる。
【0217】
このダウンミックス部93からの左右2チャンネルの音声信号Li,Riは、それぞれ可変ゲインアンプ951,952に供給されると共に、レベル補正ゲイン生成部94に供給される。
【0218】
このレベル補正ゲイン生成部93は、図23に示したレベル補正ゲイン生成部83と同様の構成を備える。すなわち、このレベル補正ゲイン生成部93は、この例では、左右2チャンネルの音声信号Li,Riから、上述した実施形態の手法のいずれかにより、可変ゲインアンプ951,952のそれぞれをゲイン制御するゲイン制御信号を生成する。
【0219】
この図25の例においても、上述と同様の作用効果を奏する。
【0220】
[その他の変形例]
なお、上述の説明では、声レベル平均検出部22や声以外レベル平均検出部24は、デスクリートの回路部からなるハードウエア構成としたが、DSP(Digital Signal Processor)を用いた構成とすることができる。
【0221】
また、声レベル平均検出部22や声以外レベル平均検出部24は、コンピュータのプログラムによるソフトウエア処理の構成とすることもできることは言うまでもない。その場合には、例えば図2の例においては、声レベル平均検出部22や声以外レベル平均検出部24は、制御部10がソフトウエア処理機能として備える。そして、図2において、点線で示したように、この制御部10からのゲイン制御信号により、音量補正部18が備える可変ゲインアンプをゲイン制御する。
【0222】
なお、音声信号を、デジタル信号処理とするのであれば、可変ゲインアンプを含めた音量補正部18の全てをソフトウエア処理として構成することもできるものである。
【0223】
なお、この発明による音量補正装置が適用される電子機器は、図2に示したテレビ放送受信装置に限られるものではないことは言うまでもない。
【図面の簡単な説明】
【0224】
【図1】この発明による音量補正装置の第1の実施形態を説明するためのブロック図である。
【図2】この発明による音量補正装置が適用される電子機器の例を説明するためのブロック図である。
【図3】図1の実施形態における声平均レベル生成部の構成例を示すブロック図である。
【図4】図3の声平均レベル生成部の構成例の動作説明のために用いる波形図である。
【図5】図1の実施形態における声区間検出部の構成例を示すブロック図である。
【図6】図5の声区間検出部の構成例の一部を説明するためのブロック図である。
【図7】図6の構成例を説明するために用いる波形図である。
【図8】図5の声区間検出部の構成例の他の一部を説明するための周波数特性図である。
【図9】図5の声区間検出部の構成例の他の一部の処理動作を説明するための図である。
【図10】図5の声区間検出部の構成例のさらに他の一部を説明するためのブロック図である。
【図11】図10の構成例の各部を説明するために用いる図である。
【図12】図10の構成例の各部を説明するために用いる図である。
【図13】図10の構成例の各部を説明するために用いる図である。
【図14】図10の構成例の各部を説明するために用いる図である。
【図15】図10の構成例の各部を説明するために用いる図である。
【図16】図10の構成例の各部を説明するために用いる図である。
【図17】図10の構成例の処理動作を説明するために用いる波形図である。
【図18】この発明による音量補正装置の第2の実施形態を説明するためのブロック図である。
【図19】第2の実施形態の動作説明のためのタイミングチャートを示す図である。
【図20】図18の第2の実施形態における声以外平均レベル生成部の構成例を示すブロック図である。
【図21】図18の第2の実施形態における総合レベル生成部の構成例を示すブロック図である。
【図22】この発明による音量補正装置の第2の実施形態の一部の他の構成例を説明するためのブロック図である。
【図23】この発明による音量補正装置が適用される他の電子機器の例を示す図である。
【図24】この発明による音量補正装置の他の実施形態を説明するためのブロック図である。
【図25】この発明による音量補正装置のさらに他の実施形態を説明するためのブロック図である。
【図26】従来の音量補正装置を説明するためのブロック図である。
【符号の説明】
【0225】
21L,21R…可変ゲインアンプ、22…声平均レベル検出部、23…ゲイン制御信号生成部、24…声以外平均レベル検出部、25…総合レベル生成部、26…総合平均レベル生成部、33…平均レベル検出部、34…声区間検出部、35…声平均レベル生成部、72…声以外平均レベル生成部
【技術分野】
【0001】
この発明は、例えばテレビ放送受信機などに代表される電子機器の音声出力部に適用して好適な音量補正装置、音量補正方法および音量補正プログラムに関する。
【背景技術】
【0002】
テレビ放送受信機で受信する放送チャンネルを切り替えたときや、AV(Audio−Visual)システムにおいて、AVセンタで複数の入力機器の切り替えがなされたとき、コンテンツ間のレベル差により、出力音量に大きな変化が生じてしてしまうことがある。
【0003】
このような場合、ユーザは、自分が好みの音量にするためには、リモコン等を用いてボリューム操作をして音量調節する必要があり、わずらわしさを感じる場合がある。
【0004】
また、同一コンテンツ内(例えば、同一の放送チャンネル内や同一の放送番組内)においても、コマーシャル(CM)部分やシーンの変化によって、出力音量が変化し、不快に思うことがある。
【0005】
この問題を解決する音量補正方式が従来から種々提案されている。その一例のAGC(Auto Gain Control;自動利得制御)による音量制御方式が広く知られている。
【0006】
図26は、このAGCを用いた音量補正部の構成例を示すブロック図である。この図26の例は、左右2チャンネルの入力音声信号SiLおよびSiRについて音量補正をする場合である。
【0007】
すなわち、この例においては、左右2チャンネルの入力音声信号SiLおよびSiRは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ1Lおよび1Rに供給される。
【0008】
また、左右2チャンネルの入力音声信号SiLおよびSiRは、加算部2で互いに加算される。そして、加算部2からの加算出力信号は、アンプ3にて1/2ゲイン倍された後、平均レベル検出部4に供給され、この平均レベル検出部4で、加算出力信号の平均レベルが検出される。
【0009】
そして、平均レベル検出部4で検出された平均レベルがゲイン制御信号生成部5に供給される。このゲイン制御信号生成部5では、平均レベル検出部4からの平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて両レベルの差がゼロとなるようにするゲイン制御信号を生成し、可変ゲインアンプ1L,1Rに供給する。
【0010】
可変ゲインアンプ1L,1Rは、ゲイン制御信号生成部5からのゲイン制御信号によりゲインが可変制御される。この場合、左右2チャンネルの入力音声信号SiLおよびSiRは、この可変ゲインアンプ1L,1Rにおいて、前記加算部2からの加算出力信号の平均レベルが基準レベルと等しくなるようにゲイン制御される。
【0011】
この結果、可変ゲインアンプ1L,1Rから得られる左右2チャンネルの出力音声信号SoLおよびSoRは、小さな音は大きく、大きな音は小さく抑えられて、自動的に一定レベルの音量になるように補正される。
【0012】
上述したAGCによる音量補正方式の他にも、種々の音量補正方式が提案されている。例えば、特許文献1(特許3321820号公報)には、コンプレッサーを設け、大レベルの音声入力があった場合には、入力レベルに対して出力音声レベルを小さく制御し、音量をある一定の範囲に制御するようにする方式が開示されている。
【0013】
上記の特許文献は、次の通りである。
【特許文献1】特許3321820号公報
【発明の開示】
【発明が解決しようとする課題】
【0014】
ところで、例えばテレビ放送や、記録メディアに記録されている映画コンテンツ等においては、その音声信号中には、人声、BGM(Background Music)、効果音といった多種類の音が含まれている。ユーザが、リモコン等を用いて手動でボリュームコントロールを行う場合、音声信号中の人声のレベルを基準にして、台詞が適切に聞こえるようにレベルの調整操作を行っていることが多い。
【0015】
一方、上述した従来の音量補正方式は、音声信号全体のレベルを監視して音量制御を行う方式である。例えばAGC方式の場合、音声信号全体の平均レベルを基準にして、音量制御(ゲイン制御)を行った場合、音声信号全体としての音量制御がなされ、うるさい音を出さないようにしたり、聞こえなかった小さな音を聞こえるようにしたりすることができる。
【0016】
しかしながら、従来の音量補正方式では、人の声の大きさに着目して聞くと、当該人の声は必ずしも一定のレベルとはならず、台詞が聞き取りやすくなるとは言えない、という問題があった。
【0017】
この発明は、上記の点に鑑みて、台詞などの人声が聞きやすくなるようにした音量補正を可能にする装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0018】
上記の課題を解決するために、第1の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記声平均レベル検出手段で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。
【0019】
この第1の発明によれば、入力音声信号は、当該入力音声信号中の人声の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる台詞などの人声は、一定レベルとなり、聞き易い音量となる。
【0020】
また、第2の発明は、
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出され声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出された声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置を提供する。
【0021】
この第2の発明においては、ゲイン制御信号生成手段では、声以外平均レベル検出手段で検出された声以外平均レベルが、声平均レベル検出手段で検出され声平均レベルを、一定基準量以上超えているか否かにより、ゲイン制御信号の生成方法が異なる。
【0022】
すなわち、声以外平均レベルが声平均レベルに対して、一定量以上とはなっていないときには、ゲイン制御信号生成手段は、声平均レベルが、基準レベルとなるように入力音声信号のゲインを制御するゲイン制御信号を生成する。また、声以外平均レベルが、声平均レベルよりも、一定量以上大きいときには、声以外平均レベルが、基準レベルとなるように入力音声信号のゲインを制御するゲイン制御信号を生成する。
【0023】
したがって、第2の発明によれば、声以外平均レベルが声平均レベルに対して、一定量以上とはなっていないときには、入力音声信号は、当該入力音声信号中の人声の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる台詞などの人声は、一定レベルとなり、聞き易い音量となる。
【0024】
また、声以外平均レベルが、声平均レベルよりも、一定量以上大きいときには、入力音声信号は、当該入力音声信号中の人声以外の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる人声の音声信号のレベルに比較して、声以外の音声信号のレベルが、一定量以上大きいときには、声平均レベルが基準レベルとなるようにする制御により、声以外の音声信号レベルが、さらに大きくなるのが防止される。そして、このとき、声以外の音声信号の平均レベルが一定レベルとなるように制御されるので、聞き易い音量となる。
【発明の効果】
【0025】
この発明によれば、入力音声信号は、当該入力音声信号中の人声の音声信号の平均レベルが、基準レベルとなるように、可変ゲイン手段においてゲイン制御される。したがって、入力音声信号中に含まれる台詞などの人声のレベルが変動したとしても、人声のレベルは自動的に一定レベルとなり、その音響再生音は、聞き易い音量となる。
【0026】
また、この発明によれば、入力音声信号中に含まれる人声の音声信号のレベルに比較して、声以外の音声信号のレベルが、一定量以上大きいときには、声以外の音声信号の平均レベルが一定レベルとなり、その音響再生音は、聞き易い音量となる。
【発明を実施するための最良の形態】
【0027】
以下、この発明による音量補正装置の実施形態を、図面を参照しながら説明する。以下に説明する音量補正装置の実施形態は、テレビ放送受信機の音声出力部に用いられた場合である。
【0028】
すなわち、図2は、テレビ放送受信機の構成例を示すブロック図である。この図2の例のテレビ放送受信機は、マイクロコンピュータを具備して構成される制御部10を備える。この制御部10には、リモコン受信部11が接続され、このリモコン受信部11でリモコン送信機12からのリモコン信号を受けて、制御部10に伝達する。制御部10は、受信したリモコン信号に応じた処理制御を実行する。
【0029】
制御部10は、テレビ放送受信機の各部に対して制御信号を供給して、テレビ放送信号の受信およびその映像再生および音声再生の処理を実行する。
【0030】
チューナ部13は、制御部10からのユーザのリモコン操作に応じたチャンネル選択制御信号により指定される放送チャンネルの信号を、テレビ放送波信号から選択抽出する。そして、チューナ部13は、選択抽出した放送チャンネルの信号から、映像信号と、音声信号とを復調デコードし、映像信号は映像信号処理部14に供給し、音声信号は、音声信号処理部15に供給する。
【0031】
映像信号処理部14では、制御部10からの制御を受けて、映像信号についての所定の処理をし、その処理後の映像信号を表示制御部16を通じて、例えばLCD(Liquid Crystal Display)からなるディスプレイ17に供給する。これにより、選択された放送チャンネルの放送番組の画像がディスプレイ17に表示される。
【0032】
また、音声信号処理部15では、制御部10からの制御を受けて、音声信号についての所定の処理をする。この実施形態では、音声信号処理部15では、チューナ部13からの音声信号から、左右2チャンネルの音声信号SiLおよびSiRを生成し、その処理後の音声信号SiLおよびSiRを音量補正部18に供給する。
【0033】
音量補正部18は、この実施形態の音量補正装置が適用される部分であり、その入力音声信号SiLおよびSiRは、後述するようにして、音量補正され、出力音声信号SoLおよびSoRとし出力される。そして、この音量補正部18からの出力音声信号SoLおよびSoRが、スピーカ19Lおよび19Rに供給されて、音響再生される。これにより、選択された放送チャンネルの放送番組の音声がスピーカ19Lおよび19Rから放音される。
【0034】
以下、この音量補正部18の場合として、この実施形態の音量補正装置について説明する。
【0035】
[音量補正装置の第1の実施形態]
図1は、この発明の音量補正装置の第1の実施形態としての音量補正部18の全体の構成例を示すブロック図である。
【0036】
この図1に示すように、この実施形態においても、左右2チャンネルの入力音声信号SiLおよびSiRは、それぞれ、ゲイン制御信号によりゲインが可変制御される可変ゲインアンプ21Lおよび21Rに供給される。
【0037】
また、左右2チャンネルの入力音声信号SiLおよびSiRは、声平均レベル検出部22に供給されて、後述するように、左右2チャンネルの入力音声信号SiLおよびSiRの加算信号中における人声信号の平均レベル(声平均レベル)が検出される。
【0038】
そして、この声平均レベル検出部22で検出された声平均レベルはゲイン制御信号生成部23に供給される。ゲイン制御信号生成部23では、声平均レベルと、予め定められている基準レベルと比較し、その比較結果を用いて、両レベルの差がゼロとなるようにするゲイン制御信号を生成して、可変ゲインアンプ21L,21Rに供給する。
【0039】
可変ゲインアンプ21L,21Rは、ゲイン制御信号生成部23からのゲイン制御信号によりゲインが可変制御される。この場合、左右2チャンネルの入力音声信号SiLおよびSiRは、この可変ゲインアンプ21L,21Rにおいて、左右2チャンネルの入力音声信号SiLおよびSiRの加算信号中における声平均レベルが基準レベルと等しくなるようにゲイン制御される。
【0040】
以上のようにして、可変ゲインアンプ1L,1Rは、人の声の平均レベルを基準に自動音量補正される。このため、可変ゲインアンプ1L,1Rから得られる左右2チャンネルの出力音声信号SoLおよびSoRがスピーカ19L,19Rにより音響再生されると、その再生音声は、台詞など人の声の音量レベルが一定となり、人声が聞き取り易くなる。
【0041】
この実施形態では、声平均レベル検出部22は、次のように構成される。
【0042】
先ず、左右2チャンネルの入力音声信号SiLおよびSiRは、加算部31で互いに加算される。この加算部31からの加算出力信号は、アンプ32にて1/2ゲイン倍される。このアンプ32からの加算出力信号Smは、平均レベル検出部33に供給され、この平均レベル検出部33で、加算出力信号Smの平均レベルが検出され、当該平均レベルの信号(平均レベル信号という)Avが出力される。そして、この平均レベル検出部33で検出された加算出力信号Smの平均レベル信号Avは、声平均レベル生成部35に供給される。
【0043】
また、アンプ32からの加算出力信号Smが声区間検出部34に供給されると共に、左右2チャンネルの入力音声信号SiLおよびSiRが、この声区間検出部34に供給される。
【0044】
後述するように、声区間検出部34では、アンプ32からの加算出力信号Sm中において、人声の音声信号が含まれる時間区間である声区間を検出する。また、声区間検出部34では、左右2チャンネルの入力音声信号SiLおよびSiRからも、人声の音声信号が含まれる時間区間である声区間を検出する。
【0045】
この実施形態では、声区間検出部34では、人声信号の特徴量を用いて声区間を検出する。人声信号の特徴量は、複数種が存在する。この実施形態の声区間検出部34では、後述するように、人声信号の複数種の特徴量のそれぞれについて、声区間の検出を行い、その検出結果の論理積を取ることにより、検出した声区間の精度を高めるようにしている。この声区間検出部34は、検出した声区間を示す声区間検出フラグFLGを生成して出力する。そして、声区間検出部34は、声区間検出フラグFLGを声平均レベル生成部35に供給する。
【0046】
[声平均レベル生成部35の構成例]
声平均レベル生成部35は、この実施形態では、図3に示すような構成を備えるものとされる。
【0047】
すなわち、平均レベル検出部33からの平均レベルAvは、選択部351の一方の入力端に供給されると共に、声区間検出フラグFLGが選択信号として選択部351に供給される。この選択部351の出力信号は、積分部352に供給される。そして、この積分部352の出力信号が、選択部351の他方の入力端に供給されると共に、声平均レベル生成部35の出力信号Vavrとして出力される。
【0048】
選択部351は、声区間検出フラグFLGにより、声区間では、平均レベル検出部33からの平均レベル信号Avを選択して積分部352に供給し、声区間以外では、積分部352の出力信号を選択して積分部352に供給する。
【0049】
したがって、積分部352は、声区間では、平均レベル検出部33からの平均レベル信号Avを積分して平均化した信号を生成する。また、積分部352は、声区間以外では、自積分部352の出力レベル信号を維持(ホールド)する。
【0050】
例えば、アンプ32からの加算出力信号Smが、図4(A)に示すようなものであった場合を考える。この図4(A)の加算出力信号Smでは、縦バーで塗り潰した区間が人声が優勢あるいは人声のみの区間であり、声区間検出部34の声区間検出フラグFLGは、図4(B)に示すようなものとなる。
【0051】
したがって、選択部351では、声区間検出フラグFLGにより平均レベル検出部33からの平均レベル信号Avのうちの声区間の信号のみが選択されるが、それは、図4(C)に示すようなものとなる。
【0052】
積分部352では、声区間において、直前の自積分部352の出力(ホールド値)を初期値として、平均レベル検出部33からの平均レベル信号Avのうちの声区間の信号レベルを積分する。そして、声区間以外の区間では、選択部351は、積分部352の出力信号Vavrを選択する状態になるので、積分部352は、声区間の終わりの時点の信号レベルをホールドする。この結果、積分部352の出力信号Vavrは、すなわち、声平均レベル生成部35の出力信号Vavrは、図4(D)に示すようなものとなる。
【0053】
そして、積分部352では、図4(F)に示すように、声検出フラグFLGで示される声区間では、直前の自積分部352の出力(ホールド値)を初期値として積分演算を行って、人声信号レベルの平均値計算を行う。
【0054】
また、積分部352では、図4(E)に示すように、声区間以外の区間では、声区間の終わりの時点の信号レベルをホールドする。
【0055】
以上のようにして得られる声平均レベル生成部35の出力信号Vavrは、人声信号の平均レベルを示すものとなっており、これが、声平均レベル検出部22の出力信号としてゲイン制御信号生成部23に供給される。
【0056】
このゲイン制御信号生成部23では、声平均レベル検出部22からの声平均レベル信号Vavrと、予め定められている基準レベルと比較し、その比較結果としての両レベルの差がゼロとなるようにするゲイン制御信号を生成する。
【0057】
そして、ゲイン制御信号生成部23で生成されたゲイン制御信号は可変ゲインアンプ21L,21Rに供給される。可変ゲインアンプ21L,21Rでは、このゲイン制御信号により、入力音声信号SiLおよびSiRの声平均レベルが、基準レベルとなるようにゲイン制御される。
【0058】
図4の例においては、声平均レベル信号Vavrは、図4(D)に示すようなものとなるので、入力音声信号SiLおよびSiRの声平均レベルが、図4(G)に示すようなレベル補正ゲインによって、基準レベルとなるようにゲイン制御される。
【0059】
その結果、可変ゲインアンプ21L,21Rからの出力音声信号SoLまたはSoRは、図4(H)に示すようにゲイン制御されたものとなる。
【0060】
[声区間検出部34の構成例]
前述したように、声区間検出部34では、人声信号の特徴量に着目して、その入力音声信号Smから人声が含まれる時間区間である声区間を検出する。そして、この実施形態では、声区間検出部34では、人声信号の特徴量は複数種があることに着目して、当該複数種の特徴量のそれぞれについて、声区間の検出を行う。そして、その結果得られる複数個の検出結果の声区間に基づいて、声区間検出フラグFLGを生成して出力することにより、検出した声区間の精度を高めるようにしている。
【0061】
図5に、この実施形態における声区間検出部34の構成例のブロック図を示す。
【0062】
この実施形態では、声区間検出部34は、声周期検出部40と、声帯域集中検出部50、センター定位検出部60、の3つの検出部を備える。この3つの検出部40,50,60は、それぞれ声区間を特定するための人声信号の特徴量の一つを検出する。そして、これら3つの検出部40,50,60の3つの検出出力の論理積をとることによって、声区間検出精度の向上を図るようにしている。以下、3つの検出部40,50,60のそれぞれについて説明する。
【0063】
<声周期検出部40>
人声の信号は、複数の特徴的な周波数成分から構成されるが、ピッチと呼ばれる基本周波数成分のピークが強調された波形的特徴を有し、それが一母音期間継続する。また、基本周波数成分のピークは、一母音ごとに山なりのエンベロープを持って、同一周期で繰り返す。したがって、入力音声信号波形のピークを検出し、この検出したピークの周期の連続性を検出することによって、簡易的に、低負荷処理によって、声の存在する区間を特定することができる。つまり、人声の信号の同一ピーク周期の連続性を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。
【0064】
前記ピークの周期は次第に上昇したり、下降したりといったスロープを持つが、隣接するピーク周期間の差はわずかである。したがって、ある程度の許容誤差範囲で隣り合うピーク周期の同一性を検出することによって、ピーク周期の変動の影響を回避して、人声が存在する声区間を検出することができる。
【0065】
以上のことを踏まえて、この実施形態では、声周期検出部40は、ピーク周期検出部41と、連続同一周期検出部42と、頻度検出部43とで構成される。
【0066】
ピーク周期検出部41は、入力音声信号Smのピークを検出し、その検出したピークの周期を検出する。
【0067】
連続同一周期検出部42は、ピーク周期検出部41で検出されたピークの周期の隣り合うものの同一性を判断し、同一性があるときには、ピークの周期の同一性が連続しているとして検出する。この場合に、連続同一周期検出部42は、ピーク周期が声の帯域の周期範囲のみについて、ピーク周期の隣り合うものの同一性を判断するようにする。例えば、ピーク周期が、およそ1ミリ秒(1ms)から10ミリ秒(10ms)ほどの間にあるときに、前記ピーク周期の隣り合うものの同一性判断を行うようにする。
【0068】
頻度検出部43は、連続同一周期検出部42の出力を、1ピーク周期ずつ遅延したものを3以上の複数個用意し、それら複数個の、例えば多数決を求めることにより、ピーク周期の変動による影響を除去するようにしている。すなわち、ピーク周期が変動した場合、当該変動時点の1〜複数周期分が、連続同一周期検出部42で、連続同一周期の声区間として検出しても良いのにも拘らず、連続同一周期として検出されなくなる場合がある。頻度検出部43では、このような変動による不連続として検出されてしまう1〜複数周期分をなくして、安定した連続同一周期の検出出力が得られるようにする。
【0069】
図6は、声周期検出部40の、より詳細な構成例を示す図である。ピーク周期検出部41は、ピーク検出部411と周期計数カウンタ412とからなる。連続同一周期検出部42は、周期比較部421と、遅延部422とからなる。
【0070】
頻度検出部43は、この例では、連続同一周期検出部42の出力信号を、それぞれ1ピーク周期分ずつ遅延する2個の遅延部431,432と、多数決論理部433とからなる。
【0071】
この声周期検出部40の動作を、図7の音声波形図を参照しながら説明する。すなわち、図7(B)は、図4(A)の合成音声信号Smの一部である図7(A)のうちの、声区間の音声波形を示すものである。
【0072】
ピーク周期検出部41のピーク検出部411は、この図7(A)の入力音声信号Smの、この例では、正側のピーク位置を検出し、その検出時点(検出位置)を示すピーク検出出力Pkを出力する(図7(C)参照)。なお、ピーク検出部411は、例えば、所定のスレッショールド値を超えるピーク値を、ピーク位置として検出する。
【0073】
このピーク検出部411からのピーク検出出力Pkは、周期計数カウンタ412に供給される。周期計数カウンタ412には、人声信号のピーク周期よりも十分に周波数が高いクロックCLKが供給されており、このクロックCLKを、隣り合うピーク検出出力Pkの間でカウントすることにより、ピーク周期を計数する。したがって、周期計測カウンタ412は、ピーク周期をクロックCLKの計数値として出力する。
【0074】
この周期計測カウンタ412からのピーク周期検出出力としての計数値Tcは、連続同一周期検出部42に供給される。
【0075】
連続同一周期検出部42においては、周期計測カウンタ412からのピーク周期検出出力としての計数値Tcは、そのまま周期比較部421に供給されると共に、遅延部422を通じて遅延された後、周期比較部412に供給される。
【0076】
遅延部422は、この例では、ピーク検出出力Pkがクロックとして供給されるラッチ部として構成されており、周期計数カウンタ412からの計数値Tcを、1ピーク周期分遅延させて、周期比較部421に供給するようにする。
【0077】
この例では、周期比較部421では、まず、周期計数カウンタ412からの計数値Tcが、1msから10msまでの間のピーク周期に対応する計数値であるかどうかチェックする。そして、計数値Tcが、1msから10msまでの間のピーク周期に対応する計数値でないときには、周期比較部421は、周期比較を行わずに、この例では、その出力CTをローレベル(「0」)とする。そして、計数値Tcが、1msから10msまでの間のピーク周期に対応する計数値であるときには、周期比較部421は、次のようにして、隣り合う前後のピーク周期の比較演算を行う。
【0078】
すなわち、周期比較部421では、周期計測カウンタ412からの現時点でのピーク周期の計数値Tcpと、その1ピーク周期前のピーク周期の計数値Tcbとを比較し、両ピーク周期が同一であるかどうかを判定する。ここで、周期比較部421では、前後のピーク周期の計数値TcpとTcbとが全く同一である場合のみではなく、同一と見なせるほど両者の差が小さい許容範囲であるときには同一と判定される。同一と判定する差の大きさは、声区間を検出する精度の許容度に応じて予め設定されている。
【0079】
周期比較部421は、この例では、前後のピーク周期の計数値TcpとTcbとが同一であると判定したときにはハイレベル(「1」)、同一ではないと判定されたときにローレベル(「0」)となる連続同一周期検出フラグCT(図7(D)参照)を出力する。
【0080】
この連続同一周期検出フラグCTは、頻度検出部43に供給される。この頻度検出部43は、前述したように、この例では、2個の遅延部431,432と、多数決論理部433で構成される。
【0081】
遅延部431,432は、この例では、ピーク検出出力Pkがクロックとして供給されるラッチ部として構成されており、その入力信号を、それぞれ1ピーク周期分遅延させる。
【0082】
遅延部431は、連続同一周期検出部42からの連続同一周期検出フラグCTを入力信号として受け、この連続同一周期検出フラグCTを1ピーク周期分遅延させた信号CTd1(図7(E)参照)を出力する。
【0083】
また、遅延部432は、遅延部431の出力信号CTd1を受け、この出力信号CTd1を、さらに、1ピーク周期分遅延させた信号CTd2(図7(F)参照)を出力する。
【0084】
そして、連続同一周期検出フラグCTと、その1ピーク周期遅延信号CTd1と、その2ピーク周期遅延信号CTd2との3個の信号は、多数決論理部433に供給される。
【0085】
多数決論理部433は、3個の信号CT、CTd1,CTd2のうち、2個の信号がハイレベル「1」となっているときには「1」、そうでないときには、ローレベル「0」として、声周期検出フラグFLGa(図7(G)参照)を生成して出力する。
【0086】
この頻度検出部43によれば、連続同一周期検出部42で、ピーク周期の変動のために、声区間の一部のピーク周期区間を連続同一周期区間として検出できなかったときにも、その一部のピーク区間を含めた声周期検出フラグFLGaを出力することができる。
【0087】
以上のようにして、声周期検出部40で検出されて得られた声周期検出フラグFLGaは、アンドゲート340に供給される。
【0088】
なお、上述の例では、頻度検出部43では、2個の遅延部を用いて、1ピーク周期分ずつ異なる3個の信号の多数決をとるようにしたが、頻度検出部43では、3個以上の遅延部を用いて、その多数決をとるように構成しても良い。その場合に、多数決としては、単純な多数決ではなく、スレッショールド値を設定して、それを超えた多数決とするようにしても良い。例えば、4個の遅延部を用いて、1ピーク周期分ずつ異なる5個の信号の多数決をとる場合に、3個以上が「1」であれば、声区間検出信号FLGaを「1」とするのではなく、4個以上が「1」であるときにのみ、声区間検出信号FLGaを「1」とするようにしても良い。
【0089】
また、上述の例では、声周期検出部40では、音声波形の正側のピークを検出するようにしたが、負側のピークを検出するようにしても良い。また、正側と負側の両ピークを検出して、その両者の論理和(オア)を用いるようにしても良い。
【0090】
<声帯域集中検出部50>
人声の信号の母音を構成する主成分の周波数帯は、主に100Hzから1kHzといった中域の周波数帯域に多く含まれる。したがって、この100Hzから1kHzという周波数帯域の信号成分が、それ以外の成分に対して大きいところを抽出することによって、人声の存在する区間を特定することができる。つまり、人声の信号の母音を構成する主成分の周波数帯を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。
【0091】
また、暗騒音や炸裂音など、主に人声とは異なる周波数帯域成分を多く持つ信号を除外することができる。なお、この実施形態では、人声の周波数帯域としては、母音の帯域とし、子音部分は除外する。これは、人声の大きさとしては、母音のレベルが主体的に知覚されるためである。
【0092】
この実施形態においては、声帯域集中検出部50は、図5に示すように、バンドパスフィルタ(BPF)51と、バンドエリミネーションフィルタ(BEF)52と、平均レベル検出部53,54と、アンプ55と、比較部56とからなる。
【0093】
バンドパスフィルタ51は、図8(A)に示すように、この例では、100Hzから1kHzの間の人声が含まれる周波数帯域を通過帯域とする通過特性を備えるフィルタとされる。また、バンドエリミネーションフィルタ52は、図8(B)に示すように、100Hzから1kHzの間の人声が含まれる周波数帯域を非通過帯域とする通過特性を備えるフィルタとされる。つまり、バンドエリミネーションフィルタ52は、人声が含まれない周波数帯域を通過帯域とするフィルタである。
【0094】
そして、アンプ32からの左右2チャンネルの入力音声信号SiL,SiRの加算信号Smが、バンドパスフィルタ51およびバンドエリミネーションフィルタ52に供給される。
【0095】
バンドパスフィルタ51からは、加算信号Smから100Hz以上、1kHz以下の人声が含まれる周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部53に供給される。平均レベル検出部53では、加算信号Smの100Hz以上、1kHz以下の周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号BPFavr(図9の実線で示す波形参照)が平均レベル検出部53から出力される。
【0096】
また、バンドエリミネーションフィルタ52からは、加算信号Smのうち、100Hz以下、かつ、1kHz以上の人声が含まれない周波数帯域の信号成分が抽出され、当該信号成分が平均レベル検出部54に供給される。平均レベル検出部54では、加算信号Smの100Hz以上、1kHz以下の人声が含まれない周波数帯域の信号成分の平均レベルが検出され、その検出された平均レベル信号BEFavr(図9の一点鎖線で示す波形参照)が平均レベル検出部54から出力される。
【0097】
そして、平均レベル検出部53からの平均レベル信号BPFavrがそのまま比較部56に供給されると共に、平均レベル検出部54からの平均レベル信号BEFavrは、アンプ55により重み付けされた後、比較部56に供給される。ここで、アンプ55による重み付けの値は、声区間の検出精度に関与するもので、この例では、アンプ55による重みが大きいほど声区間として検出される区間の長さは短くなる。なお、重み付けは、平均レベル検出部53の出力BPFavrに対して行っても良い。
【0098】
比較部56では、主に声を含む周波数帯域の平均レベル信号BPFavrが、主に声を含まない周波数帯域の平均レベルBEFavrに重みづけしたレベルを上回った場合に、声帯域集中区間を検出したとして、声帯域集中検出フラグFLGbを立てる。この例では、図9に示すように、検出した声帯域集中区間においては、声帯域集中検出フラグFLGbをハイレベル(「1」)にする。
【0099】
以上のようにして、声帯域集中検出部50で検出されて得られた声帯域集中検出フラグFLGbは、アンドゲート340に供給される。
【0100】
なお、以上の説明では、バンドパスフィルタ51と、バンドエリミネーションフィルタ52を使用した。しかし、主に人声を含む周波数帯域の信号と、主に人声を含まない周波数帯域の信号を抽出する手段としては、これに限られるものではなく、ローパスフィルタやハイパスフィルタなどのフィルタを用いて帯域を切り分けてもよい。
【0101】
また、比較部56では、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と、入力信号自身とを、比較しても良い。または、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号と入力信号との差分と、主に人声を含む周波数帯域の信号あるいは主に人声を含まない周波数帯域の信号とを比較しても良い。
【0102】
<センター定位検出部60>
例えばラジオ放送やテレビ放送におけるステレオ放送のコンテンツなどにおいては、人の台詞をもっとも聞き取り易くするために、人の台詞の大半はセンターに定位させているため、人声のあるところでは、定位分布がセンターに集中している。
【0103】
このため、ステレオ音声信号において、センターに定位する信号成分を含む区間を特定することによって、声の存在する区間を特定することができる。つまり、ステレオ音声信号におけるセンター定位成分を、声区間を検出するための一つの特徴量として用いて、声区間を検出することができる。また、ステレオ音声信号におけるセンター定位成分を抽出することで、左右に広がる音楽信号部分など、センターに定位するボーカル以外の部分を除外できる。
【0104】
センター定位検出部60は、図5に示すように、定位分布検出部61と、センター集中定位検出部62とからなる。そして、左右2チャンネルの入力音声信号SiLおよびSiRが定位分布検出部61に供給され、この定位分布検出部61で入力音声信号の時々刻々と変化する定位分布が検出される。
【0105】
この定位分布検出部61で検出された定位分布の情報がセンター集中定位検出部62に供給され、このセンター集中定位検出部62で、センターに定位する成分が集中している時間区間を検出する。このセンター集中定位検出部62は、センターに定位する成分が集中している時間区間を示すセンター集中定位検出フラグFLGcを出力する。
【0106】
定位分布検出部61は、図10に示すように、帯域制限フィルタ611,612と、定位方向検出部613と、定位方向分布計測部614とを備えて構成される。
【0107】
センター定位分布検出部60に入力された左右2チャンネルの入力音声信号SiLおよびSiRは、それぞれ帯域制限フィルタ611,612において、例えば低域成分等、定位方向をあまり感じない周波数帯域の成分が除去される。
【0108】
そして、帯域制限フィルタ611,612により帯域制限された2チャンネルの入力音声信号SiLおよびSiRは、定位方向検出部613に供給される。定位方向検出部613は、帯域制限された2チャンネルの入力音声信号SiLおよびSiRのそれぞれのレベルの大きさにより、所定の周期毎の定位方向の検出時点における2チャンネルの入力音声信号SiLおよびSiRが持つ定位方向を検出する。
【0109】
すなわち、定位方向検出部613においては、所定のサンプリング周期で、帯域制限された2チャンネルの入力オーディオ信号SiLおよびSiRのそれぞれのレベル(振幅)をサンプリングする。そして、定位方向検出部613においては、この例では、最新サンプリング時点における定位方向を現時点における定位方向として検出するようにする。
【0110】
この場合、定位方向検出部613は、当該最新サンプリング時点における定位方向を、入力音声信号SiLおよびSiRのそれぞれについての、当該最新サンプリング時点のレベルと、それよりも過去のサンプリング時点のレベルとを用いて検出する。
【0111】
2チャンネルの入力音声信号SiLおよびSiRが、デジタルオーディオ信号であれば、前記サンプリング周期は、デジタルオーディオ信号のサンプル周期に等しくすることができる。もっとも、前記サンプリング周期を、デジタルオーディオ信号の1サンプル周期と等しくするのではなく、複数サンプル周期とするようにしてもよい。定位方向検出部613の入力音声信号がアナログ信号である場合には、この定位方向検出部613の入力段において、デジタルオーディオ信号に変換するようにしても良い。
【0112】
この定位方向検出部613における定位方向の検出方法を、図11を参照しながら説明する。図11(A),(B)は、左チャンネルの入力音声信号SiLの振幅をX軸にとり、右チャンネルの入力音声信号SiRの振幅をY軸にとった場合の座標空間を示している。
【0113】
定位方向検出部613では、まず、各サンプリング周期毎の定位方向の検出時点において2チャンネルの入力音声信号SiLおよびSiRのそれぞれのレベルを取得して、それに対応する座標点を、図11(A),(B)の座標空間に、例えばP1,P2,P3,P4のように、プロットしてゆく。この例では、P4が最新の検出時点の座標点であるとする。
【0114】
そして、定位方向検出部613では、y=k・x(kは定数)で表される直線(X軸とY軸との交点Zを通る直線)を、交点Zを中心として±90°回転させたときに、つまり、定数kを変化させたときに、プロットした座標点P1,P2,P3,P4が、どの定数kの直線(どの傾き角度の直線)の一番近くを移動してゆくかを算出する。つまり、定数kを変えた各直線からの各座標点P1,P2,P3,P4までの距離Da1,Da2,Da3,Da4あるいは距離Db1,Db2,Db3,Db4の総和が最も小さい直線の定数kを算出する。
【0115】
そして、定位方向検出部613は、算出した直線の定数kに対応する傾き角度を、検出したい現時点における定位方向とする。図11の例では、X軸、つまり、左チャンネルの定位方向(左方向)の角度を0°として、このX軸に対する角度(以下、定位角度という)θを定位方向として検出することとする。
【0116】
図11(A)の場合の座標点P1,P2,P3,P4の例では、定位角度はθaとして検出され、図11(B)の場合の座標点P1,P2,P3,P4の例では、定位角度はθbとして検出されるものである。
【0117】
なお、この実施形態では、定位方向検出部613においては、現時点(最新サンプリング時点)の2チャンネル入力音声信号のレベルと、過去のサンプリング時点における2チャンネル入力音声信号のレベルとは等しい重みで用いてはいない。この実施形態では、定位方向検出部613においては、現時点に近いサンプリング時点の2チャンネル入力音声信号のレベルほど重みが大きいものとするようにしている。
【0118】
このため、定位方向検出部613では、2チャンネル入力音声信号のレベルのサンプリング値に対して、図12に示すように、現時点(この例では最新サンプリング時点tn)に近いほど、重みが大きくなるように、指数関数曲線の特性を有する時間ウインドーWD1が用いられている。
【0119】
なお、上述の説明では、処理対象信号時点となる現時点を最新サンプリング時点(最新サンプル時点)とした。しかし、入力音声信号SiL,SiRの入力端と、可変ゲインアンプ21Lおよび21Rとの間に所定時間τだけ遅延させる遅延回路を設けて、処理対象となる現時点を、入力音声信号SiL,SiRよりも前記τだけ遅延した時点とすることができる。
【0120】
その場合には、定位方向検出部613では、処理対象信号時点となる現時点よりも後(未来)の2チャンネル入力音声信号SiL,SiRをも用いて、定位方向を検出するようにすることができる。例えば、図11の例で、処理対象信号時点となる現時点がP2やP3の場合とすることができる。
【0121】
そして、その場合には、前述した時間ウインドーWD1の代わりに、図13に示すような指数関数曲線の特性の時間ウインドーWD2が用いられる。この時間ウインドーWD2は、処理対象信号時点となる現時点tpで最も重みが大きく、現時点tpから離れるにつれ、過去および未来の方向に重みが小さくなるような指数関数曲線の特性を有するものである。
【0122】
なお、現時点の2チャンネル入力オーディオ信号のレベルを、過去および/または未来のサンプリング時点における2チャンネル入力音声信号SiL,SiRのレベルを重み付けせずに、そのままの値で用いても良い。
【0123】
以上のようにして、定位方向検出部613では、現時点においては、2チャンネル入力音声信号SiL,SiRが、どの方向からの信号であるかを、定位角度θとして検出することができる。
【0124】
しかしながら、検出した現時点における定位角度θは、1時点における入力オーディオ信号の定位方向を一方向に限定したもので、各方向ごとの信号の強さが反映されていない。そこで、この実施形態では、この点にかんがみ、定位方向検出部613で検出された現時点における2チャンネル入力音声信号SiL,SiRの定位方向の検出結果(定位角度θ)は、定位方向分布計測部614に供給される。
【0125】
定位方向分布計測部614では、予め定められた所定時間区間dに渡って定位方向検出部613で検出された定位角度θの、全方位についての分布を求め、2チャンネル入力音声信号の定位方向が、どの角度方向にどのくらいの割合を持っているかを計測する。
【0126】
この場合、所定時間区間dは、例えば数ミリ秒〜数百ミリ秒、この例では数十ミリ秒に選定されている。そして、この実施形態では、定位方向分布計測部614では、この所定時間区間dにおける定位方向検出部613で検出された定位角度θに対して、定位方向検出部613における重み係数の特性と同様に重み付けをするようにする。
【0127】
すなわち、定位方向分布計測部614では、現時点tp(この例では、tp=tn(最新サンプリング時点))に近づくほど指数関数的に大きくなるような重み付けをする時間ウインドーWD3(図14参照)をかけて重み付けをするようにする。
【0128】
なお、前述したように、入力オーディオ信号に対して遅延時間τを設けるようにして、定位方向検出部613での重み付けのための時間ウインドーを、図13のようにする場合には、定位方向分布計測部614における時間ウインドーも、図13と同様なものとなる。その場合の時間区間dは、現時点tpより未来と過去の両方を含む時間区間となるものである。なお、重み付けをせずに、そのままの値で用いてもよい。
【0129】
図15は、この定位方向分布計測部614で求められた定位角度θの分布である定位方向分布P(θ)の一例を示すもので、横軸にはX軸(左チャンネル定位方向)を基準にした定位角度θをとり、縦軸には各定位角度の出現度(<1)をとったものである。ここで、この実施形態では、定位方向分布P(θ)をすべての定位角度θについて総和を求めたときに1、すなわち、
ΣP(θ)=1
となるように分布が生成される。
【0130】
また、定位角度θと、音声信号の定位方向との関係は、図16に示すようなものとなる。なお、図16に示されている正面方向、左方向、右方向などは、リスナを基準にした方向名である。
【0131】
以上のようにして、定位方向分布計測部614からは、現時点(現サンプリング時点あるいは現サンプル時点;処理対象信号時点)ごとに、図15に示すような定位方向分布P(θ)の情報が得られる。
【0132】
この定位方向分布P(θ)の情報は、センター集中定位検出部62に供給される。センター集中定位検出部62では、定位分布検出部61によって算出された定位方向分布P(θ)に対して、主にセンター方向に重みを置いた重みづけをしたセンター定位分布信号を算出する。
【0133】
左チャンネルの音声信号SiLおよび右チャンネルの音声信号SiRが、例えば図17の(A)および(B)に示すような信号であった場合を考える。この図17(A)および(B)において、等間隔の縦線で塗り潰した部分は、センター定位する人声成分が含まれている区間を示している。
【0134】
この図17の例の場合、センター集中定位検出部62で算出されるセンター定位分布信号は、図17(C)に示すようなものとなる。
【0135】
センター集中定位検出部62では、算出したセンター定位分布信号の値と、予め設定した基準値REFとを比較して、センター定位分布信号の値が基準値REFを超えた区間を、センター定位検出区間として検出する。図17の例では、基準値REFは、0.8(80%)とされている。そして、センター集中定位検出部62は、検出したセンター定位検出区間を示すセンター定位検出フラグFLGcを出力する。
【0136】
こうしてセンター定位検出部62から得られるセンター定位検出フラグFLGcは、アンドゲート340に供給される。
【0137】
なお、センター集中定位成分を検出して、声区間を検出する手法としては、上述した定位分布検出部61とセンター集中定位検出部62とを用いる手法に限られるものではない。例えば、簡易的には、2チャンネルの音声信号SiL、SiRの和としてセンター集中定位信号を抽出し、抽出したセンター集中定位信号が所定の基準値を超えた区間を声区間として検出するようにしても良い。
【0138】
<声区間検出フラグの生成>
アンドゲート340は、声周期検出部40からの声周期検出フラグFLGaと、声帯域集中検出部50からの声帯域集中検出フラグFLGbと、センター定位検出部60からのセンター定位検出フラグFLGcの論理積として、声区間検出フラグFLGを出力する。
【0139】
声周期検出フラグFLGa、声帯域集中検出フラグFLGb、センター定位検出フラグFLGcは、それぞれ、声の区間を検出するための特徴量の存在を示したフラグである。アンドゲート340は、これら3つのフラグFLGa,FLGb,FLGcの論理積をとることによって、人声の区間の検出出力である声区間検出フラグFLGを生成するので、声区間の検出精度を上げることができる。
【0140】
以上説明したようにして、第1の実施形態によれば、入力音声信号のうち、声区間検出フラグFLGにより示される声区間の平均レベルを求め、この平均レベルが基準レベルとなるようにゲイン制御する。したがって、入力音声信号に含まれる台詞など、人声のレベルは、常に一定になるように制御されるので、台詞などが聞き易くなる。
【0141】
なお、上述の第1の実施形態では、声区間検出部34では、人声区間を検出するための3種の特徴量に基づく3つのフラグFLGa,FLGb,FLGcを生成し、その論理積をとることによって、人声の区間の検出出力である声区間検出フラグFLGを生成した。
【0142】
しかし、処理を簡略化する場合には、上記3種の特徴量のいずれか一つに基づいて生成したフラグを、声区間検出フラグFLGとしても良い。また、3種の特徴量のうちの2つを組み合わせて、それら2種の特徴量に基づいて生成されるフラグの論理積をとることにより、声区間検出フラグFLGを生成するようにしてもよい。
【0143】
そして、3種の特徴量のうちのいずれか一つまたは2つを組み合わせを用いる場合において、その選択のための選択操作手段を設けて、ユーザが当該選択操作手段を用いて手動で選択するようにすることができるようにしても、勿論よい。
【0144】
また、声区間検出部34に、さらに、入力音声信号Smのうちの無音を検出する無音検出部を設け、この無音検出部で検出した無音の区間は、声区間検出フラグFLGをマスクして、当該無音区間は声区間としないようにすることもできる。この場合には、信号のない、または暗騒音部分を除外することができるので、声区間の検出精度を、さらに高めることができる。
【0145】
なお、声区間を検出するための声信号についての特徴量としては、上述の3種に限られるものではなく、その他の特徴量を用いることもできることは言うまでもない。
【0146】
[音量補正装置の第2の実施形態]
上述の第1の実施形態では、人声信号の平均レベルが基準レベルとなるように入力音声信号をゲイン制御するので、人声信号の平均レベルが低い場合には、入力音声信号全体のゲインを大きくするように制御する。このため、人声以外の音声成分のレベルが、人声信号のレベルよりも大きく、かつ、両者の差が大きい場合には、人声以外の音声成分の音量が大きくなりすぎる場合がある。また、人声の無いコンテンツの場合にも、人声以外の音の音量が著しく大きくなってしまうことがある。
【0147】
この第2の実施形態は、上記の問題点を改善した例である。以下に示す第2の実施形態は、第1の実施形態と同様に、図2に示したテレビ放送受信機における音量補正部18に適用した場合である。
【0148】
図18は、この第2の実施形態としての音量補正部18の全体の構成例を示すブロック図である。この図18において、図1に示した第1の実施形態の音量補正部18の場合と同一部分には、同一符号を付すこととする。
【0149】
この第2の実施形態においては、前述した第1の実施形態における声レベル検出部22の他に、声以外平均レベル検出部24と、総合レベル生成部25とを設ける。声以外平均レベル検出部24は、後述するようにして、加算信号Smから声以外の信号区間の平均レベルNVavrを生成する。
【0150】
そして、声平均レベル検出部22の出力信号である声平均レベル信号Vavrと、声以外平均レベル検出部24の出力信号である声以外平均レベル信号NVavrとが、総合レベル生成部25に供給される。
【0151】
総合レベル生成部25は、声平均レベル信号Vavrと声以外平均レベル信号NVavrとから、合成レベル信号を生成し、生成した合成レベル信号をゲイン制御信号生成部23に供給する。したがって、この第2の実施形態では、ゲイン制御信号生成部23は、総合レベル生成部25からの合成レベル信号のレベルが、基準レベルとなるようにするゲイン制御信号を生成して、可変ゲインアンプ21L,21Rに供給するようにする。
【0152】
声平均レベル検出部22の構成は、前述したように、第1の実施形態のそれと同一であるので、ここでは、その詳細説明は省略する。
【0153】
<声以外平均レベル検出部24>
声以外平均レベル検出部24は、図18に示すように、無音検出部71と、声以外平均レベル生成部72と、インバータ73と、アンドゲート74とからなる。
【0154】
無音検出部71は、声平均レベル検出部22のアンプ32からの加算音声信号Smを入力信号として受けて、当該加算音声信号Smの無音区間を検出する。そして、無音検出部71は、検出した無音区間を示す無音区間検出フラグSLFGを出力する。この無音検出部71での無音検出の手法は、従来から良く知られている手法を用いることができるので、ここでは、その詳細な構成の説明は省略する。
【0155】
無音検出部71からの無音区間検出フラグSLFGは、図19(B)に示すように、この実施形態では、無音区間ではローレベル(「0」)となり、無音区間以外では、ハイレベル(「1」)となる信号である。無音検出部71からの無音区間検出フラグSLFGは、アンドゲート74に供給される。
【0156】
また、声平均レベル検出部22の声区間検出部34からの声区間検出フラグFLG(図19(A)参照)が、インバータ73を通じて極性反転された後、アンドゲート74に供給される。
【0157】
したがって、このアンドゲート74からは、図19(C)に示すように、無音区間と声区間とを除く声以外区間で、ハイレベルとなる声以外区間検出フラグNFLGが得られる。この声以外区間検出フラグNFLGは、声以外平均レベル生成部72に供給される。また、声平均レベル検出部22の平均レベル検出部33からの加算音声信号Smの平均レベル信号Avが、この声以外平均レベル生成部72に供給される。
【0158】
この声以外平均レベル生成部72は、図3に示した声平均レベル生成部35と全く同様の構成を備えるもので、図20に示すように、選択部721と積分部722とからなる。声以外平均レベル生成部72では、選択部721に供給される選択制御信号が、声区間検出フラグFLGではなく、声以外区間検出フラグNFLGである点が、声平均レベル生成部35とは異なる。
【0159】
これにより、声以外平均レベル生成部72では、声以外区間においては、選択部721から平均レベル信号Avが積分部722に入力され、無音区間および声区間においては、自積分部の出力が選択部721から積分部722に入力される。
【0160】
したがって、声以外区間では、積分部722では、直前の自積分部722の出力(ホールド値)を初期値として、平均レベル検出部33からの平均レベル信号Avのうちの声以外区間の信号レベルを積分して、平均化する。そして、無音区間および声区間においては、積分部722は、声以外区間の終わりの時点の信号レベルをホールドする。
【0161】
この結果、声以外平均レベル生成部72の積分部722の出力信号NVavrは、声以外区間の平均レベルを表わすものとなる。
【0162】
<総合レベル生成部25>
図21に、この実施形態における総合レベル生成部25の構成の一例を示す。
【0163】
この実施形態の総合レベル生成部25は、選択部251と、重み付け用アンプ252と、レベル比較部253とからなる。選択部251の一方の入力端Aには、声平均レベル検出部22からの声平均レベル信号Vavrが供給されると共に、選択部251の他方の入力端Bには、声以外平均レベル検出部からの声以外平均レベル信号NVavrが供給される。
【0164】
また、レベル比較部253には、声平均レベル検出部22からの声平均レベル信号Vavrが重み付け用アンプ252を通じて重み付けされた信号と、声以外平均レベル検出部からの声以外平均レベル信号NVavrが供給される。アンプ252における重みは、人声以外の音声成分のレベルが、それ以上になると、ゲイン制御により音量が大きくなりすぎるとされるレベルに相当するレベルを設定するためのものであり、この例では、2倍(×2)とされる。
【0165】
そして、このレベル比較部253において両信号がレベル比較され、その比較結果出力CMPが、選択部251に、その選択制御信号として供給される。ここで、比較結果出力CMPは、声平均レベル信号Vavrの2倍のレベル値が、声以外平均レベル信号NVavrの値よりも大きいときには、選択部251から一方の入力端A側に入力されている声平均レベル信号Vavrを出力する値、例えば「1」となる。また、比較結果出力CMPは、声以外平均レベル信号NVavrの値が、声平均レベル信号Vavrの2倍のレベル値よりも大きいときには、選択部251から他方の入力端B側に入力されている声以外平均レベル信号NVavrを出力する値、例えば「0」となる。
【0166】
したがって、選択部251からは、声以外平均レベル信号NVavrが、声平均レベル信号Vavrの2倍のレベル値を超えない範囲(NVavr<2Vavr)では、第1の実施形態と同様に声平均レベル信号Vavrが選択されて、ゲイン制御信号生成部23に供給される。これにより、前記範囲(NVavr<2Vavr)では、第1の実施形態と同様にして、声平均レベル信号Vavrが基準レベルとなるように、可変ゲインアンプ21L,21Rがゲイン制御され、常に、台詞など人声が聞き易い状態にレベル制御される。
【0167】
また、声以外平均レベル信号NVavrが、声平均レベル信号Vavrの2倍のレベル値を超える範囲(NVavr≧2Vavr)では、選択部251からは、声以外平均レベル信号NVavrが選択されて、ゲイン制御信号生成部23に供給される。これにより、前記範囲(NVavr≧2Vavr)では、声以外平均レベル信号NVavrが基準レベルとなるように、可変ゲインアンプ21L,21Rがゲイン制御され、声以外の音が異常に大きくなるのが防止される。
【0168】
図18においては、声以外平均レベル信号NVavrと、声平均レベル信号Vavrを重み付けしたものとを比較し、その比較出力により、声以外平均レベル信号NVavrと、声平均レベル信号Vavrとのいずれかをゲイン制御信号生成部23に供給するようにした。
【0169】
しかし、図18の声平均レベル生成部35と、声以外平均レベル生成部72および総合レベル生成部25の構成部分は、図22のように構成することもできる。
【0170】
図22の例においては、図18の例と同様に、声以外平均レベル生成部72が設けられる。また、図22の例においては、声平均レベル生成部35および総合レベル生成部25の代わりに、総合平均レベル生成部26が設けられる。
【0171】
総合平均レベル生成部26は、声平均レベル生成部35と同様に、選択部261と積分部262とを備える。また、総合平均レベル生成部26は、重み付け用アンプ263と、比較部264とを備える。
【0172】
そして、選択部261の入力端Aには、積分部262の出力信号(総合平均レベル信号GVavr)が供給される。そして、選択部261の入力端Bには、声平均レベル検出部33からの平均レベル信号Avが供給されると共に、この選択部261の選択制御端子には、声区間検出フラグFLGが供給される。
【0173】
そして、選択部261で、声区間検出フラグFLGに応じて選択された出力信号が積分部262に供給される。また、積分部262の出力信号は、重み付け用アンプ263により、この例では、2倍のレベルとされた後、比較部264に供給される。比較部264には、声以外平均レベル生成部72の積分部722の出力信号である声以外平均レベル信号NVavrが供給される。
【0174】
また、声以外平均レベル生成部72の積分部722の出力信号である声以外平均レベル信号NVavrが、積分部262に供給されると共に、比較部264の比較結果の出力信号CMPが積分部262に供給される。積分部262では、比較部264の出力信号CMPにより、後述する条件になったときに、保持する積分出力値を、声以外平均レベル生成部72からの声以外平均レベル信号NVavrに変更する処理をする。
【0175】
この図22の例の処理動作について以下に説明する。
【0176】
この図22の例においては、総合平均レベル生成部26と、声以外平均レベル生成部72とにおいては、それぞれ声平均レベル検出部33からの平均レベル信号Avについて、前述したような積分動作を行う。
【0177】
ただし、総合平均レベル生成部26においては、声区間検出フラグFLGで示される声区間では、選択部261から平均レベル信号Avが出力され、積分部262で、総合平均レベルGVavrを初期値とする積分動作がなされる。そして、声区間以外では、選択部261から積分部262の出力信号が出力され、積分部262の出力としては、総合平均レベルGVavrの値が保持(前置ホールド)される。
【0178】
一方、声以外平均レベル生成部72では、声以外検出フラグで示される声以外区間では、選択部721から平均レベル信号Avが出力され、積分部722で、声以外平均レベル信号NVavrを初期値とする積分動作がなされる。そして、声区間では、選択部721から積分部722の出力信号が出力され、積分部262の出力としては、声以外平均レベル信号NVavrの値が保持(前置ホールド)される。
【0179】
そして、比較部264は、アンプ263を通じた総合平均レベル生成部26からの総合平均レベル信号GVavrの2倍の値と、声以外平均レベル生成部72からの声以外平均レベル信号NVavrとを比較し、その比較出力CMPを積分部262に供給する。
【0180】
積分部262は、この比較出力CMPを参照し、声以外平均レベル信号NVavrが、総合平均レベル信号GVavrの2倍のレベル値を超えない範囲(NVavr<2GVavr)か、超える範囲(NVavr≧2GVavr)であるかを判別する。
【0181】
そして、積分部262は、超えない範囲(NVavr<2GVavr)であると判別すると、積分結果を保持する保持部の値は切り替えずに、第1の実施形態と同様に声平均レベル信号Vavrを、総合平均レベル信号GVavrとして生成して出力する処理を行う。
【0182】
すなわち、積分部262は、比較部264からのCMPが、NVavr<2GVavrであることを示す状態であるときには、声以外平均レベル生成部72からの声以外平均レベル信号NVavrは無視して、第1の実施形態と同様の処理を行う。
【0183】
また、積分部262は、超える範囲(NVavr≧2GVavr)であると判別すると、積分結果を保持する保持部の値を、声以外平均レベル信号NVavrに変更する。したがって、前記超える範囲(NVavr≧2GVavr)では、声以外平均レベル信号NVavrが積分部262の出力とされる状態となる。
【0184】
そして、前記超えない範囲(NVavr<2GVavr)に戻ると、積分部262は、比較出力CMPにより、積分結果を保持する保持部の値を、声以外平均レベル信号NVavrにする動作を停止して、選択部261からの出力を積分する処理状態に戻る。
【0185】
この図22の例では、こうして積分部262から得られる出力信号を総合平均レベル信号GVavrとして、ゲイン制御信号生成部23に供給する。ゲイン制御信号生成部23では、この総合平均レベル信号GVavrが基準レベルとなるようなゲイン制御信号を生成する。
【0186】
[他の実施形態および変形例]
以上の実施形態は、入力音声信号について、リアルタイムで声平均レベルや声以外平均レベルを検出して、ゲイン制御するようにした場合である。しかし、この発明は、リアルタイム処理の場合のみに適用されるわけではない。
【0187】
例えば記録媒体に記録された音声信号について、声平均レベルや声以外平均レベルを検出して、ゲイン制御信号を生成して、それを記録信号に対応付けて記録するようにすることもできる。その場合には、再生時には、当該記録されているゲイン制御信号を用いて、再生音声信号を音量制御するようにすることができる。
【0188】
図23は、例えばハードディスクやDVD(Digital Versatile Disc)などの記録媒体に、テレビ放送信号を記録することができる記録再生装置に、この発明を適用した場合のブロック図である。
【0189】
すなわち、この図23の例の記録再生装置80においては、放送記録系81と、再生系82と、レベル補正ゲイン生成部83と、制御部84と、操作部85とを備える。操作部85は、例えばリモコン送受信部からなる。制御部84は、例えばマイクロコンピュータを搭載して構成され、操作部85からの操作入力に応じた制御を、記録再生装置80の各部に対して行う。
【0190】
レベル補正ゲイン生成部83は、上述した図1に示した第1の実施形態を適用した場合であれば、声平均レベル検出部22と、ゲイン制御信号生成部23とからなる。また、上述の図18に示した第2の実施形態を適用した場合であれば、声平均レベル検出部22と、声以外平均レベル検出部24と、総合レベル生成部25と、ゲイン制御信号生成部23とからなる。
【0191】
操作部85を通じてユーザにより記録指示操作があると、制御部84は、放送記録系81を制御して、記録指示された放送番組の記録を実行する。
【0192】
放送記録系81においては、放送受信部811で記録指示された放送番組の放送波信号を受信し、デコード部812に供給する。デコード部812では、この例では、受信信号から映像信号V1と、音声信号A1とがデコードされて出力される。ここで、音声信号A1は、例えば左右2チャンネル音声信号とされる。
【0193】
このデコード部812からの映像信号V1および音声信号A1は、記録エンコード部813で記録エンコードされた後、書き込み部815を通じて記録媒体816に記録される。記録媒体816は、例えばハードディスク装置が用いられる。
【0194】
操作部85には、この例では、記録媒体816に記録されている放送番組コンテンツを指定するためのキーおよびレベル補正ゲイン生成指示キーが設けられている。ユーザにより、記録されている放送番組コンテンツの指定がなされ、レベル補正ゲイン生成指示キーが操作されると、制御部84は、指定された放送番組コンテンツの音声信号についての再生音量を適正にするためのレベル補正ゲイン生成処理を実行するようにする。
【0195】
すなわち、制御部84は、前記レベル補正ゲイン生成指示キーの操作入力に基づき、再生系の読み出し部821と、再生デコード部822と、レベル補正ゲイン生成部83および書き込み部815を動作状態に制御する。
【0196】
そして、制御部84は、読み出し部821を制御して、記録媒体816から指定された放送番組の記録信号を読み出す。読み出し部821は、読み出した記録信号を再生デコード部822に供給する。再生デコード部822は、記録信号を再生デコードして、再生映像信号V2および再生音声信号A2を出力する。
【0197】
この再生デコード部822からの再生音声信号A2は、レベル補正ゲイン生成部83に供給される。このレベル補正ゲイン生成部83では、上述の第1の実施形態または第2の実施形態で説明したようにして、ゲイン制御信号が生成される。
【0198】
そして、レベル補正ゲイン生成部83は、生成したゲイン制御信号を書き込み部815に供給する。書き込み部815は、制御部84の制御を受けながら、レベル補正ゲイン生成部83からのゲイン制御信号を、再生中の記録信号に対応付けて記録媒体816に記録するようにする。
【0199】
次に、操作部85を通じてユーザにより再生指示操作があると、制御部84は、再生系82を制御して、再生指示された放送番組の再生を実行する。
【0200】
すなわち、制御部84は、読み出し部821を制御して、記録媒体816から指定された放送番組の記録信号と、対応付けられて記録されているゲイン制御信号とを読み出す。読み出し部821は、読み出した記録信号を再生デコード部822に供給すると共に、読み出したゲイン制御信号をゲイン制御信号再生部826に供給する。
【0201】
再生デコード部822は、記録信号を再生デコードして、再生映像信号V2および再生音声信号A2を得る。そして、再生映像信号V2を映像信号処理部823を通じ、映像出力端827を通じて出力する。出力端827には、表示装置が接続され、その表示画面に、放送番組の再生映像が映出される。
【0202】
また、再生デコード部822からの再生音声信号は、音声信号処理部824を通じて可変ゲインアンプ825に供給される。
【0203】
一方、ゲイン制御信号再生部826では、読み出し部821からの信号から、ゲイン制御信号が再生される。そして、ゲイン制御信号再生部826は、再生したゲイン制御信号を可変ゲインアンプ825に供給して、そのゲインを制御するようにする。したがって、可変ゲインアンプ825から得られる音声信号は、上述した第1の実施形態および第2の実施形態と同様にして、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。
【0204】
この可変ゲインアンプ825からの再生音声信号は、音声出力端828を通じて、スピーカに供給される。
【0205】
なお、この図23の例においては、レベル補正ゲイン生成部83では、上述した第1の実施形態または第2の実施形態と同様の構成としたが、この図23の例は、リアルタイム処理である必要は無いので、処理時間はかかるが、より高精度の構成とすることもできる。
【0206】
例えば、記録再生装置80が、十分なバッファ容量および処理能力を持った構成である場合には、音声信号の自己相関をとりながら、ピッチ検出をして人声信号が含まれる区間を検出するようにすることもできる。また、FFT(Fast Fourier Transform)によるスペクトル包絡のケプストラム解析を行なうなどして、より、精密に、人声信号が含まれる区間を検出することもできる。
【0207】
なお、以上の例では、音声信号は、左右2チャンネルの場合であったが、声レベル平均検出部22や声以外レベル平均検出部24の入力信号が加算音声信号Smであることから、音量補正対象の音声信号は、モノーラル音声信号であっても良いことは言うまでもない。
【0208】
また、最近は、音声信号は5.1チャンネルのサラウンド音声信号など、3チャンネル以上のマルチチャンネルの場合もある。このようなマルチチャンネルの場合であって、センターチャンネルが存在する場合には、当該センターチャンネルに人声信号が主として含まれるので、このセンターチャンネルの音声信号から、声区間を検出するようにすれば良い。
【0209】
図24は、入力音声信号が5.1チャンネルのサラウンド音声信号である場合における音量補正装置の実施形態の概要を説明するための図である。
【0210】
すなわち、この例においては、前方左右チャンネルの音声信号FLi,FRiは、可変ゲインアンプ921,922に供給される。また、後方左右チャンネルの音声信号RLi,RRiは、可変ゲインアンプ923,924に供給される。また、センターチャンネルの音声信号Ciは、可変ゲインアンプ925に供給される。さらに、低域専用チャンネルの音声信号LFE(Low Frequency Effect)は、可変ゲインアンプ926に供給される。
【0211】
そして、センターチャンネルの音声信号Ciは、また、レベル補正ゲイン生成部91に供給される。このレベル補正ゲイン生成部91は、図23に示したレベル補正ゲイン生成部83と同様の構成を備える。ただし、このレベル補正ゲイン生成部91は、この例では、センターチャンネルの音声信号Ciを加算音声信号Smとして、上述した実施形態の手法のいずれかにより、可変ゲインアンプ921〜926をゲイン制御するゲイン制御信号を生成する。
【0212】
そして、可変ゲインアンプ61〜66のそれぞれから出力音声信号FLo、FRo、RLo、RRo、Co、LFoが得られ、それぞれ用のスピーカにより放音されるようにされる。
【0213】
この図24の例によれば、5.1チャンネルの出力音声信号FLo、FRo、RLo、RRo、Co、LFoのそれぞれが、レベル補正ゲイン生成部91で生成されたゲイン制御信号より、ゲイン制御されたものであるので、人声が聞き易く、また、人声以外の音声が大きくなってしまうことが無いものとなる。
【0214】
なお、3チャンネル以上のマルチチャンネルの音声信号が2チャンネルの音声信号にダウンミックスされて、2チャンネルの信号とされる場合には、ダウンミックス後の2チャンネルの音声信号に対してレベル補正ゲイン生成部を設ければよい。
【0215】
図25は、入力音声信号が5.1チャンネルのサラウンド音声信号がダウンミックスされて2チャンネルとされる場合における音量補正装置の実施形態の概要を説明するための図である。
【0216】
すなわち、図25の例においては、5.1チャンネルのサラウンド音声信号FLi、FRi、RLi、RRi、Ci、LFiのそれぞれが、ダウンミックス部93に供給されて、左右2チャンネルの音声信号Li,Riとされる。
【0217】
このダウンミックス部93からの左右2チャンネルの音声信号Li,Riは、それぞれ可変ゲインアンプ951,952に供給されると共に、レベル補正ゲイン生成部94に供給される。
【0218】
このレベル補正ゲイン生成部93は、図23に示したレベル補正ゲイン生成部83と同様の構成を備える。すなわち、このレベル補正ゲイン生成部93は、この例では、左右2チャンネルの音声信号Li,Riから、上述した実施形態の手法のいずれかにより、可変ゲインアンプ951,952のそれぞれをゲイン制御するゲイン制御信号を生成する。
【0219】
この図25の例においても、上述と同様の作用効果を奏する。
【0220】
[その他の変形例]
なお、上述の説明では、声レベル平均検出部22や声以外レベル平均検出部24は、デスクリートの回路部からなるハードウエア構成としたが、DSP(Digital Signal Processor)を用いた構成とすることができる。
【0221】
また、声レベル平均検出部22や声以外レベル平均検出部24は、コンピュータのプログラムによるソフトウエア処理の構成とすることもできることは言うまでもない。その場合には、例えば図2の例においては、声レベル平均検出部22や声以外レベル平均検出部24は、制御部10がソフトウエア処理機能として備える。そして、図2において、点線で示したように、この制御部10からのゲイン制御信号により、音量補正部18が備える可変ゲインアンプをゲイン制御する。
【0222】
なお、音声信号を、デジタル信号処理とするのであれば、可変ゲインアンプを含めた音量補正部18の全てをソフトウエア処理として構成することもできるものである。
【0223】
なお、この発明による音量補正装置が適用される電子機器は、図2に示したテレビ放送受信装置に限られるものではないことは言うまでもない。
【図面の簡単な説明】
【0224】
【図1】この発明による音量補正装置の第1の実施形態を説明するためのブロック図である。
【図2】この発明による音量補正装置が適用される電子機器の例を説明するためのブロック図である。
【図3】図1の実施形態における声平均レベル生成部の構成例を示すブロック図である。
【図4】図3の声平均レベル生成部の構成例の動作説明のために用いる波形図である。
【図5】図1の実施形態における声区間検出部の構成例を示すブロック図である。
【図6】図5の声区間検出部の構成例の一部を説明するためのブロック図である。
【図7】図6の構成例を説明するために用いる波形図である。
【図8】図5の声区間検出部の構成例の他の一部を説明するための周波数特性図である。
【図9】図5の声区間検出部の構成例の他の一部の処理動作を説明するための図である。
【図10】図5の声区間検出部の構成例のさらに他の一部を説明するためのブロック図である。
【図11】図10の構成例の各部を説明するために用いる図である。
【図12】図10の構成例の各部を説明するために用いる図である。
【図13】図10の構成例の各部を説明するために用いる図である。
【図14】図10の構成例の各部を説明するために用いる図である。
【図15】図10の構成例の各部を説明するために用いる図である。
【図16】図10の構成例の各部を説明するために用いる図である。
【図17】図10の構成例の処理動作を説明するために用いる波形図である。
【図18】この発明による音量補正装置の第2の実施形態を説明するためのブロック図である。
【図19】第2の実施形態の動作説明のためのタイミングチャートを示す図である。
【図20】図18の第2の実施形態における声以外平均レベル生成部の構成例を示すブロック図である。
【図21】図18の第2の実施形態における総合レベル生成部の構成例を示すブロック図である。
【図22】この発明による音量補正装置の第2の実施形態の一部の他の構成例を説明するためのブロック図である。
【図23】この発明による音量補正装置が適用される他の電子機器の例を示す図である。
【図24】この発明による音量補正装置の他の実施形態を説明するためのブロック図である。
【図25】この発明による音量補正装置のさらに他の実施形態を説明するためのブロック図である。
【図26】従来の音量補正装置を説明するためのブロック図である。
【符号の説明】
【0225】
21L,21R…可変ゲインアンプ、22…声平均レベル検出部、23…ゲイン制御信号生成部、24…声以外平均レベル検出部、25…総合レベル生成部、26…総合平均レベル生成部、33…平均レベル検出部、34…声区間検出部、35…声平均レベル生成部、72…声以外平均レベル生成部
【特許請求の範囲】
【請求項1】
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記声平均レベル検出手段で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置。
【請求項2】
請求項1に記載の音量補正装置において、
前記声平均レベル検出手段は、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出すると共に、当該検出した前記声区間の平均レベルを連続化した連続化平均レベルを生成する声平均レベル生成手段と、
を備え、
前記ゲイン制御信号生成手段は、前記連続化平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成する
音量補正装置。
【請求項3】
請求項2に記載の音量補正装置において、
前記声区間検出手段は、
前記入力音声信号のピーク間の周期を検出するピーク周期検出手段と、
前記ピーク周期検出手段で検出された前記ピーク間の周期を用いて隣接するピーク間の周期の同一性を検出することで、同一周期の連続を検出する同一周期連続検出手段と、
前記同一周期連続検出手段で検出された前記同一周期の連続区間を前記声区間として検出、または前記同一周期の連続の頻度が基準値以上である時間区間を前記声区間として検出する手段と
を備える音量補正装置。
【請求項4】
請求項2に記載の音量補正装置において、
前記声区間検出手段は、
前記入力音声信号から、人声の周波数帯域を含む第1の音声信号を抽出する第1のフィルタ手段と、
前記第1のフィルタ手段からの前記第1の音声信号の平均レベルを検出する第1の平均レベル検出手段と、
前記入力音声信号から、人声の周波数帯域を含まない第2の音声信号を抽出する第2のフィルタ手段と、
前記第2のフィルタ手段からの前記第2の音声信号の平均レベルを検出する第2の平均レベル検出手段と、
前記第1の平均レベル検出手段で検出された平均レベルと前記第2の平均レベル検出手段で検出された平均レベルとのレベル差またはレベル比が、基準値以上である時間区間を前記声区間として検出する手段と、
を備える音量補正装置。
【請求項5】
請求項2に記載の音量補正装置において、
前記入力音声信号は、2チャンネルの音声信号であり、
前記声区間検出手段は、
前記2チャンネルの音声信号からセンター定位分布の割合が基準値以上である時間区間を前記声区間として検出する
音量補正装置。
【請求項6】
請求項2に記載の音量補正装置において、
前記声区間検出手段として、
請求項3、請求項4および請求項5に記載の声区間検出手段のいずれか1つ、または、2つ以上の組み合わせを用いる
音量補正装置。
【請求項7】
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置。
【請求項8】
入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、声平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
前記声平均レベル検出手段が、入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出工程と、
前記ゲイン制御信号生成手段が、前記声平均レベル検出工程で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
を有し、
前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
【請求項9】
入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、声平均レベル検出手段と、声以外平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
前記声平均レベル検出手段が、入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出工程と、
前記声以外平均レベル検出手段が、前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出工程と、
前記ゲイン制御信号生成手段が、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出工程で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
を有し、
前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
【請求項10】
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段、
前記声平均レベル検出手段で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
として機能させる音量補正プログラム。
【請求項11】
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出され声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出された声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
として機能させる音量補正プログラム。
【請求項12】
請求項1〜7のいずれかの音量補正装置を備える電子機器。
【請求項1】
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記声平均レベル検出手段で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置。
【請求項2】
請求項1に記載の音量補正装置において、
前記声平均レベル検出手段は、
前記入力音声信号中に人声の音声信号が含まれる時間区間である声区間を検出する声区間検出手段と、
前記声区間検出手段で検出された前記声区間での前記入力音声信号の平均レベルを検出すると共に、当該検出した前記声区間の平均レベルを連続化した連続化平均レベルを生成する声平均レベル生成手段と、
を備え、
前記ゲイン制御信号生成手段は、前記連続化平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成する
音量補正装置。
【請求項3】
請求項2に記載の音量補正装置において、
前記声区間検出手段は、
前記入力音声信号のピーク間の周期を検出するピーク周期検出手段と、
前記ピーク周期検出手段で検出された前記ピーク間の周期を用いて隣接するピーク間の周期の同一性を検出することで、同一周期の連続を検出する同一周期連続検出手段と、
前記同一周期連続検出手段で検出された前記同一周期の連続区間を前記声区間として検出、または前記同一周期の連続の頻度が基準値以上である時間区間を前記声区間として検出する手段と
を備える音量補正装置。
【請求項4】
請求項2に記載の音量補正装置において、
前記声区間検出手段は、
前記入力音声信号から、人声の周波数帯域を含む第1の音声信号を抽出する第1のフィルタ手段と、
前記第1のフィルタ手段からの前記第1の音声信号の平均レベルを検出する第1の平均レベル検出手段と、
前記入力音声信号から、人声の周波数帯域を含まない第2の音声信号を抽出する第2のフィルタ手段と、
前記第2のフィルタ手段からの前記第2の音声信号の平均レベルを検出する第2の平均レベル検出手段と、
前記第1の平均レベル検出手段で検出された平均レベルと前記第2の平均レベル検出手段で検出された平均レベルとのレベル差またはレベル比が、基準値以上である時間区間を前記声区間として検出する手段と、
を備える音量補正装置。
【請求項5】
請求項2に記載の音量補正装置において、
前記入力音声信号は、2チャンネルの音声信号であり、
前記声区間検出手段は、
前記2チャンネルの音声信号からセンター定位分布の割合が基準値以上である時間区間を前記声区間として検出する
音量補正装置。
【請求項6】
請求項2に記載の音量補正装置において、
前記声区間検出手段として、
請求項3、請求項4および請求項5に記載の声区間検出手段のいずれか1つ、または、2つ以上の組み合わせを用いる
音量補正装置。
【請求項7】
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段と、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段と、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段と、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段と、
を備える音量補正装置。
【請求項8】
入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、声平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
前記声平均レベル検出手段が、入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出工程と、
前記ゲイン制御信号生成手段が、前記声平均レベル検出工程で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
を有し、
前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
【請求項9】
入力音声信号のゲインをゲイン制御信号により制御する可変ゲイン手段と、声平均レベル検出手段と、声以外平均レベル検出手段と、ゲイン制御信号生成手段とを備える音量補正装置における音量補正方法であって、
前記声平均レベル検出手段が、入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出工程と、
前記声以外平均レベル検出手段が、前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出工程と、
前記ゲイン制御信号生成手段が、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出工程で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出工程で検出された声以外平均レベルが、前記声平均レベル検出工程で検出された声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出され声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成するゲイン制御信号生成工程と、
を有し、
前記ゲイン制御信号生成工程で生成された前記ゲイン制御信号により前記可変ゲイン手段をゲイン制御する音量補正方法。
【請求項10】
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段、
前記声平均レベル検出手段で検出された前記人声の音声信号の平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
として機能させる音量補正プログラム。
【請求項11】
入力音声信号のゲインを、ゲイン制御信号により制御する可変ゲイン手段を備える音量補正装置が有するコンピュータを、
前記入力音声信号中の人声の音声信号の平均レベルを検出する声平均レベル検出手段、
前記入力音声信号中の前記人声以外で、かつ、無音以外の音声信号の平均レベルを検出する声以外平均レベル検出手段、
前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出された声平均レベルに対して、一定量以上とはなっていないときには、前記声平均レベル検出手段で検出された前記声平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、前記声以外平均レベル検出手段で検出された声以外平均レベルが、前記声平均レベル検出手段で検出され声平均レベルよりも、一定量以上大きいときには、前記声以外平均レベル検出手段で検出された声以外平均レベルが、基準レベルとなるように前記入力音声信号のゲインを制御する前記ゲイン制御信号を生成し、生成した前記ゲイン制御信号を前記可変ゲイン手段に供給するゲイン制御信号生成手段、
として機能させる音量補正プログラム。
【請求項12】
請求項1〜7のいずれかの音量補正装置を備える電子機器。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【公開番号】特開2010−136080(P2010−136080A)
【公開日】平成22年6月17日(2010.6.17)
【国際特許分類】
【出願番号】特願2008−309704(P2008−309704)
【出願日】平成20年12月4日(2008.12.4)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成22年6月17日(2010.6.17)
【国際特許分類】
【出願日】平成20年12月4日(2008.12.4)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]