説明

音量制御装置、音声制御方法及び電子機器

【課題】 小さい処理量で音量を均一にすることができる技術を提供する。
【解決手段】 入力される信号に振幅の可変制御を施して出力信号を発生するボリュームと、前記入力される信号から前記可変制御の音量設定をする音量制御部とを備えた音量制御装置。また、入力される信号からこの信号に対する振幅の可変制御の音量設定をし、前記入力される信号に前記可変制御を施して出力信号を発生する音量制御方法。また、入力される信号に振幅の可変制御を施して出力信号を発生するボリュームと、前記入力される信号から前記可変制御の音量設定をする音量制御部と、前記出力信号に基づいて音を発生する出力手段とを備えた電子機器。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音量制御装置、音量制御方法及び電子機器に関する。
【背景技術】
【0002】
音量制御において、様々な工夫がされてきている。例えば、特許文献1は、入力信号の短時間平均振幅を用いて、目標振幅との二乗誤差最小になるようにNLMSアルゴリズムでゲイン算出して、信号の音量を均一化するという音量制御手法に関するものである。しかしながらそこでは目標振幅は固定であるため、すべての信号の振幅値が均一化されて目標振幅に近づくため、周波数特性が変化し、音質が変化してしまう課題があった。
【0003】
一方で、非線形な折れ線関数によって入力信号の振幅に応じて振幅を出力する“ダイナミックレンジコントロール”という既知技術が知られている。がこれも、サンプル単位や短い時間単位で振幅を操作する処理であるために、コンテンツ全体の音量を制御できない課題がある。
【0004】
ここに短時間の音量を非線形に制御するなどにより、処理遅延を極力少なく、小さい処理量で、音量を均一にする技術への要望があるが、かかる要望を実現するための手段は知られていない。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特登3588555号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の実施の形態は、小さい処理量で音量を均一にすることができる技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、実施形態によれば音量制御装置は、入力される信号に振幅の可変制御を施して出力信号を発生するボリュームと、前記入力される信号から前記可変制御の音量設定をする音量制御部とを備える。
【図面の簡単な説明】
【0008】
【図1】実施形態にかかる電子機器の外観を模式的に示す図。
【図2】実施形態にかかる電子機器のハードウェア構成の一例を示すブロック構成図。
【図3】同実施形態のオーディオ再生向け全体機能ブロック図(実施例1)。
【図4】同実施形態の音声集音向け全体ブロック機能図。
【図5】同実施形態に用いられる中心機能ブロック図(実施例1)。
【図6】同実施形態の要部の動作を示すフローチャート(実施例1)。
【図7】同実施形態に用いられる目標振幅決定部2Cの説明図。
【図8】同実施形態に用いられる目標振幅決定部2Cの説明図(ユーザボリューム連動)。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して実施形態にかかる電子機器及び制御方法の詳細を説明する。なお、以下の実施形態では、PDAや携帯電話等、ユーザが把持して使用する電子機器を例に説明する。
【0010】
図1は、実施形態にかかる電子機器100の外観を模式的に示す図である。電子機器100は、表示画面を備えた情報処理装置であり、例えばスレート端末(タブレット端末)や電子書籍リーダ、デジタルフォトフレーム等として実現されている。なお、ここでは、X軸、Y軸、Z軸の矢印方向(Z軸では図の正面方向)を正方向としている(以下同様)。
【0011】
電子機器100は、薄い箱状の筐体Bを備え、この筐体Bの上面に表示部110が配置されている。表示部110は、ユーザによってタッチされた表示画面上の位置を検知するタッチパネル(図2、タッチパネル111参照)を備えている。また、筐体Bの正面下部にはユーザが各種操作を行う操作スイッチ等である操作スイッチ190、ユーザの音声を取得するためのマイク210が配置されている。また、筐体Bの正面上部には音声出力を行うためのスピーカ220が配置されている。また、筐体Bの縁には、把持するユーザの圧力を検知する圧力センサ230が配置されている。なお、図示例ではX軸方向の左右の縁に圧力センサ230を備える構成を例示したが、Y軸方向の上下の縁に圧力センサ230を備えてもよい。
【0012】
図2は、実施形態にかかる電子機器100のハードウェア構成の一例を示すブロック図である。図2に示すように、電子機器100は、上述の構成に加え、CPU120、システムコントローラ130、グラフィックスコントローラ140、タッチパネルコントローラ150、加速度センサ160、不揮発性メモリ170、RAM180、音声処理部200、通信部240等を備えている。また音声処理部200には内蔵または外付けのマイク210とスピーカ220とが接続されている。
【0013】
表示部110は、タッチパネル111と、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)等のディスプレイ112とから構成されている。タッチパネル111は、例えばディスプレイ112の表示画面上に配置された当面の座標検出装置から構成されている。タッチパネル111は、例えば筐体Bを把持したユーザの指によってタッチされた表示画面上の位置(タッチ位置)を検知することができる。このタッチパネル111の働きにより、ディスプレイ112の表示画面はいわゆるタッチスクリーンとして機能する。
【0014】
CPU120は、電子機器100の動作を中央制御するプロセッサであり、システムコントローラ130を介して電子機器100の各部を制御する。CPU120は、不揮発性メモリ170からRAM180にロードされる、オペレーティングシステム、各種アプリケーションプログラムを実行することで、後述する各機能部(図3など参照)を実現する。RAM180は、電子機器100のメインメモリとして、CPU120がプログラムを実行する際の作業領域を提供する。
【0015】
システムコントローラ130には、不揮発性メモリ170及びRAM180をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ130は、グラフィックスコントローラ140との通信を実行する機能も有している。また、システムコントローラ130は、通信部240からインターネット等を介して図示せぬ外部のサーバへ音声波形等の音声信号を送信しこの音声波形に対する音声認識の結果を必要によっては受信する機能や、図示せぬ外部のサーバへユーザが選択した音楽情報を送信しこの音楽の再生音を必要によって受信する機能も有している。
【0016】
グラフィックスコントローラ140は、電子機器100のディスプレイモニタとして使用されるディスプレイ112を制御する表示コントローラである。タッチパネルコントローラ150は、タッチパネル111を制御し、ユーザによってタッチされたディスプレイ112の表示画面上のタッチ位置を示す座標データをタッチパネル111から取得する。
【0017】
加速度センサ160は、図1に示す3軸方向(X、Y、Z方向)や、これに各軸周りの回転方向の検出を加えた6軸方向の加速度センサ等であって、電子機器100に対する外部からの加速度の向きと大きさを検出し、CPU120に出力する。具体的に、加速度センサ160は、加速度を検出した軸、向き(回転の場合、回転角度)、及び大きさを含んだ加速度検出信号(傾き情報)をCPU120に出力する。なお、角速度(回転角度)検出のためのジャイロセンサを、加速度センサ160に統合する形態としてもよい。
【0018】
音声処理部200は、オーディオ向け機能の実行時および音声向け機能の実行時に動作する。まずオーディオ向け機能について説明する。オーディオ向け機能としては、オーディオ再生がある。音声処理部200は、CPU120の制御のもとで、不揮発性メモリ170に蓄えられたオーディオコンテンツなどの音楽波形に対してイコライザー等のオーディオ処理を施して生成したオーディオ信号をスピーカ220へ出力し、スピーカ220によるオーディオ再生を行う。次に音声向け機能について説明する。音声向け機能としては、音声録音、音声再生、音声通話、音声報知がある。音声処理部200は、マイク210より入力される音声信号に、デジタル変換、ノイズ除去、エコーキャンセル等の音声処理を施してCPU120へ出力し、音声録音を行う。また、音声処理部200は、CPU120の制御のもとで、イコライザー等の音声処理を施して生成した音声信号をスピーカ220へ出力し、スピーカ220による音声再生を行う。VoIP(Voice over Internet Protocol)などの音声通話では、前述の音声録音と音声再生が同時に処理される。さらに、音声処理部200は、CPU120の制御のもとで、音声合成等の音声処理を施して生成した音声信号をスピーカ220へ出力し、スピーカ220による音声報知を行う機能を有してもよい。この中の音声処理部200の詳細について次に説明する。
【0019】

さて図3は実施形態のオーディオ再生向け全体機能ブロック図である。RAM180に相当するメモリ1からスピーカ220に相当するスピーカ5(左側:5L,右側:5R)に至る音声処理部200を主体とする機能として、音量制御部2とボリューム3(左側:3L,右側:3R)とD/A部4(左側:4L,右側:4R)とユーザボリューム6が図3のように接続された構成となっている。
【0020】
不揮発性メモリ170に相当するメモリ1に格納されたTVや音楽やインターネット動画コンテンツなどのオーディオコンテンツをシステムコントローラ130経由で再生するとする。ここでオーディオコンテンツは入力信号x[n](n=0,1,2,...)となり、48kHzサンプリングのL/Rステレオ信号とする。音量制御部2ではこの入力信号x[n]を解析し、結果算出された音量(ゲイン)をボリューム3に設定し、入力信号に乗じ出力信号y[n]を算出し、D/A部4、スピーカ5から出力される。ユーザボリューム6を用いてユーザが設定するユーザボリューム(ディジタルユーザボリュームに応じて目標振幅を替える)はユーザボリューム情報として、音量制御部2へ入力される。ユーザボリューム6としては、ディスプレイ112に表示される例えばボリューム形状のGUIに対応してタッチパネル111からこのユーザボリューム情報を対話的に入力できるようにすればよい。
【0021】
他の例として、音声信号を集音する音声録音という使い方もある。図4は音声録音向け全体ブロック機能図である。マイク210に相当するマイク7(左側:7L,右側:7R)から入力される音声やノイズはA/D部8(左側:8L,右側:8R)でアナログ/デジタル変換され音声活性検出部9へ導かれる。音量制御部2で音量を制御する対象が人間の声である音声の場合は、事前に音声活性検出部9にて、人の声である音声があるのか否かの情報である音声活性(例えば特開特開2009-251134号、特開2008-83375号、特開2007-114413号を参照)を検知して、そのフラグVAD_FLAG[f]を音量制御部3へ入力する。
【0022】
また他の例として、音声信号を再生する音声再生という使い方もある。この場合、前述のオーディオ再生の使い方と同様に音量制御部2とボリューム3を介してスピーカ5から再生されるが、音量制御部2で音量を制御する入力信号が人間の声であるので、前述の音声録音の使い方と同様に、事前に音声活性検出部9にて、人の声である音声があるのか否かの情報である音声活性を検知して、そのフラグVAD_FLAG[f]を音量制御部3へ入力する。
【0023】

ここで音量制御部2のブロック図を示す(図5)。図6のフローチャートを交えて以下に動作を説明する。
【0024】
まず48kHzサンプリングのL/Rステレオ信号の入力信号x[n]は、処理量軽減のために、16kHzサンプリングのモノラル信号に変換される(2A)。その信号の短時間(例えば5[ms])間隔(以降フレームと呼ぶ)での絶対値での最大振幅max[f] [dB]を算出する(2B,2B1)。短時間最大振幅について、過去の値を忘却するようにし全極型フィルタを構成し、平滑化を行いてmax_smooth[f] [dB]を出力してもよい(2B2)。これにより、dB表記のmax_smooth[f]を振幅値表記に戻してinput_amp[f]が出力される(図6のステップS1)。平均値などではなく最大値を使うことにより、音量制御後の信号がクリップして音質が劣化することを防ぐことができる。例えばインパルス信号を入力しても、音質が劣化することを防ぐことができる。
【0025】
目標振幅決定部(2C)では、目標振幅設定(2C1)、目標振幅算出(2C2)を備える。目標振幅設定(2C1)は、例えば図7のように、事前に設定された各閾値(例えばTERGET_AMP,THRなど)によって、入力振幅input_amp[f]と目標振幅target_amp_var[f]との関係を保持する。目標振幅算出(2C2)では、フレーム毎に異なる入力振幅input_amp[f]からフレーム毎に異なる目標振幅target_amp_var[f]を決定する(図6のステップS2)。また、目標振幅算出(2C2)では、ユーザボリューム6から得るユーザボリューム情報usr_vol_infoに基づいて、図8のように目標振幅を決定してもよい。このようにすることで、ディジタル信号を増幅減衰させるユーザボリュームを併用することができる。(なおユーザボリュームが音量制御部2の後にあると信号がクリップしてしまう。またユーザボリュームが音量制御部2の前にあると音量が均一化してしまいユーザがボリュームを替えられない。)
学習可否判定部(2G)は、ここでは、パワー算出部(2G1)で入力信号x[n]の短時間パワーpow[f]を算出し、パワー平滑化部(2G2)でパワーを平滑化し、学習判定部(2G3)でその平滑化パワーpow_smooth[f]の事前に設定された閾値よりも大きいときのみ、後述するゲイン修正演算をするように判定するフラグlearn_flag[f]を出力する。あるいは、学習判定部(2G3)では、音量制御部2で音量を制御する対象が人間の声である音声の場合は、音声活性検出部9からの出力VAD_FLAG[f]を得て、入力信号x[n]が音声であると判定された区間かつ平滑化パワーpow_smooth[f]の事前に設定された閾値よりも大きいときのみ、後述するゲイン修正演算をするように判定するフラグlearn_flag[f]を出力する。(図6のステップS3)
ゲイン修正演算をするように判定された場合は、以下の処理を実施する。推定値算出部(2D)では、1つ前のフレームでのゲインGain[f-1]を用いて、入力信号x[n]がどのぐらいの大きさになるのかを、input_amp[f]×Gain[f-1]で算出する。
【0026】
より詳しく述べると、課題として低域が多いと音量が聴覚上ふらつくことがあるが、処理量を少なく対処したいので次の段取りで周波数バランス解析(2M1)と振幅補正(2M2)を行いこれらの結果を推定値算出部(2D)は用いる。
【0027】
1)1次か2次のIIRフィルタを使い低域のパワーを算出する。
【0028】
2)零交差数が小さいと低域の成分が多い場合が多く、計算で求めた音量値(振幅)よりも人間が感じる聴覚上の音量が高くなるので振幅を大きめに補正する。
【0029】
次に誤差算出部(2E)において、目標振幅との誤差errorをtarget_amp_var[f] - input_amp[f]×Gain[f-1]で求める(図6のステップS4)。ゲイン修正量算出部(2F)では、目標振幅との二乗誤差最小になるように学習同定法の一つであるNLMS (Normalized Learning Management System)アルゴリズムによって、ゲインの修正量Δ(デルタ)gain[f] = μ × error / ( input_amp[f] + δ) と算出する(図6のステップS5)。ゲイン修正部(2J)では、Gain[f]=Gain[f-1]+△gain[f]で新しいゲインを算出する(図6のステップS6)。なお、μはステップサイズ(またはステップゲイン)を意味し、またδは割り算の分母が0となることを防ぐための小さな正数である。
【0030】
一方で、ゲイン修正演算をしないように判定された場合は、Gain[f]=1(全体としてゲインを大きくする際は、学習しないとき1を保持)あるいは、Gain[f]=Gain[f-1](ゲインを小さくするときは、1つ前の保持)のようにゲインを設定して(図6のステップS10)、S7の処理へ移る。
【0031】
ゲイン初期値(2I)として、Gain[0]=1が格納されており、初期値のみは、これを利用する。初期におけるゲインの膨大化を防ぐことができる。ゲイン制御部(2H)では、まず、errorの絶対値が所定の閾値よりも大きいときには、△gain[f]を小さくしてゲインが変化しないようにする。また、errorがinput_amp[f]と比較して大きいときにも、△gain[f]を小さくしてゲインが変化しないようにする。このようにすることで、突発的にゲインを大きくすることを防ぎ、クリップしにくいようにする。さらにゲイン制御部(2K)で、△gain[f]が+3[dB]以上増幅あるいは-0.25[dB]以上減衰することを防止するようにリミットさせる制約を行う(図6のステップS7)。Gain[f]を求める対象フレームが尽きるまでステップS4からの手順を繰り返す。
【0032】
ゲイン平滑化部(2L)では、このようにして求めたGain[f]はフレーム単位であるので、これをGain[f-1]を用いて、線形補間して、サンプル単位にゲインGain_smooth[n]を算出する(図6のステップS8)。
【0033】
最後にボリューム3にて、入力信号x[n]にゲインGain_smooth[n]を乗じて出力信号y[n]を算出する(図6のステップS9)。ここでは、音量制御部2ではモノラルでゲインを算出して、ステレオ感が変わらないように、L/Rチャネルに同一のゲインを乗算する。
【0034】
以上の実施形態の効果として次の点がある。
【0035】
(1)算出したゲインを入力信号に乗じた後でのクリップ発生を防止することができる。インパルスのような突発信号が入力されてもクリップしにくい。
【0036】
(2)音質の変化を少なくして、コンテンツ全体の音量を制御することができる。
【0037】
(3)ユーザボリュームと連動させて、コンテンツ全体の音量を制御することができる。
【0038】
以上説明した実施例によれば以下の特徴を有する処理を実行することができる。
【0039】
(1)入力信号の短時間最大振幅を用いて(2B)、目標振幅を設定する(2C2)。
【0040】
(2)ディジタルでのユーザボリューム(usr_vol_info)と連動して、目標振幅(TARGET_AMP)を変更する(2C2)。
【0041】
(3)入力信号の短時間最大振幅を用いて(2B)、目標振幅(target_amp_var)との二乗誤差最小になる(2E)ようにNLMSアルゴリズムでゲイン(Gain)を算出する(2D,2F,2J,2K)。
【0042】
(4)目標振幅との誤差の絶対値が大きいとき、ゲインを変化が少ない方に制約(非線形、勾配など)を掛ける(2H)。
【0043】
(5)短時間単位でゲインを算出し(2K)、サンプル単位でゲインを線形補間して(2L)、入力信号に乗じる(3)。
【0044】
本実施形態は、入力信号の短時間最大振幅を用いて、非線形な折れ線関数によって目標振幅を設定し、入力信号の短時間最大振幅を用いて、目標振幅との二乗誤差最小になるようにNLMSアルゴリズムでゲイン算出して、信号の音量を均一化する音量制御方法である。
【0045】
先行技術は平均振幅を用いる方法であるため、ゲインを大きく算出してしまいやすい。比べた実施形態の効果としては、短時間最大振幅を用いることで、算出したゲインを入力信号に乗じた後でのクリップ発生を防止することができる。
【0046】
本実施形態は、入力が小さい場合は出力も相対的に小さく、入力が大きい場合は出力も相対的に大きくするように、目的振幅を動的に変化させるため、音質の変化を少なくして、コンテンツ全体の音量を制御することができる。
【0047】
なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。
【0048】
また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係わる構成要素を適宜組み合わせても良いものである。
【符号の説明】
【0049】
11…音声復号部、12…DA変換器、13…増幅器、14…増幅器、15…AD変換器、16…ユーザ-マイク間距離検出部、17…音声符号部、21…周波数変換部、22…帯域パワー計算部、23…雑音推定部、24…SNR計算部、25…ゲイン算出部、26…ゲイン加重部、27…周波数逆変換部、100…電子機器、110…表示部、120…CPU、130…システムコントローラ、140…グラフィックスコントローラ、150…タッチパネルコントローラ、160…加速度センサ、170…不揮発性メモリ、180…RAM、190…操作スイッチ、200…音声処理部、210…マイク、220…スピーカ、230…圧力センサ、240…通信部、111…タッチパネル、112…ディスプレイ、B…筐体。

【特許請求の範囲】
【請求項1】
入力される信号に振幅の可変制御を施して出力信号を発生するボリュームと、
前記入力される信号から前記可変制御の音量設定をする音量制御部とを
備えた音量制御装置。
【請求項2】
更に外部から目標振幅の情報を入力されるユーザボリュームを備え、このユーザボリュームと連動して前記音量制御部は前記目標振幅を設定または変更する請求項1に記載の音量制御装置。
【請求項3】
前記音量制御部は前記入力される信号の短時間最大振幅と前記目標振幅との誤差を減じるように、学習同定法により音量設定をする請求項1に記載の音量制御装置。
【請求項4】
前記音量制御部は前記誤差の絶対値が大きいとき、前記音量設定の変化が少なくなるように制約を行う請求項3に記載の音量制御装置。
【請求項5】
入力される信号に振幅の可変制御を施して出力信号を発生するボリュームと、
前記入力される信号から前記可変制御の音量設定をする音量制御部と、
前記出力信号に基づいて音を発生する出力手段とを
備えた電子機器。
【請求項6】
入力される信号からこの信号に対する振幅の可変制御の音量設定をし、
前記入力される信号に前記可変制御を施して出力信号を発生する音量制御方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−115593(P2013−115593A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−259633(P2011−259633)
【出願日】平成23年11月28日(2011.11.28)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】