説明

音声処理装置および音声処理プログラム

【課題】定常雑音を含む信号に対する処理において、周波数軸上で処理する技術と比較して処理時間を短縮することを課題とする。
【解決手段】音声処理装置100のゲイン算出部140は、同期減算結果のパワーと、音声入力部110Lにより入力された信号のパワーとを用いて、信号の振幅を抑圧するゲインを算出する。例えば、ゲイン算出部140は、パワー計算部130Lにより計算された信号(inL)のパワー(Power2)から、パワー計算部130Rにより計算された同期減算結果(tmp1)のパワー(Power1)を減算する。そして、ゲイン算出部140は、減算結果(Power21)を信号(inL)のパワー(Power2)で除算した値の平方根を計算することによりゲイン(gain)を算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本願の開示する技術は、音声処理装置および音声処理プログラムに関連する。
【背景技術】
【0002】
近年、ハンズフリーフォンなどに実装することを目的としたマイクアレイなどの音声処理装置が製造されている。ところで、この音声処理装置では、入力音声の中に含まれる定常雑音を抑圧する処理が行われている。定常雑音は、複数の方向から音声処理装置に入力される音声であり、車両を例に挙げれば、走行中のタイヤ音(ロードノイズ)や車室内に装備されたエアコンディショナーの送風音などがこれに該当する。例えば、音を抑圧する技術の一つとして、特定の方向から到来する音を抑圧できる同期減算方式がある。しかし、同期減算方式では、特定の方向から到来する音を抑圧することはできるが、定常雑音のように複数の方向から到来する音を十分に抑圧することは困難である。
【0003】
そこで、音声処理装置は、入力信号を周波数軸上で処理するスペクトルサブトラクション方式を用いた抑圧処理方法を利用している。この抑圧処理方法を用いた場合、音声処理装置は、まず、同期減算処理された入力信号に対して、窓関数を用いた窓掛け処理および高速フーリエ変換を実行することにより、入力信号を位相スペクトルとパワースペクトルとに分解する。そして、音声処理装置は、定常雑音に対応するパワースペクトルを減算した後、位相スペクトルとパワースペクトルとを逆高速フーリエ変換することで、定常雑音が抑圧された信号に戻す。音声処理装置は、この抑圧処理方法を用いることにより、入力信号に含まれる定常雑音に対応する成分の抑圧について良好な結果を得ている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2007/018293号
【特許文献2】特開2003−271191号公報
【非特許文献】
【0005】
【非特許文献1】STEVE F.BOLL,「Suppression of Acousitic Noise in Speech Using Spectral Subtraction」,IEEE TRANSACTIN ON ACOUSTIC,SPEECH AND SIGNAL PROCESSING,VOL.ASSP−27,NO.2 ,APRIL 1979
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した抑圧処理方法は、入力信号を周波数軸上に変換する処理において、入力信号のサンプルが一定数溜まるまで処理を待たなければならない。また、従来の技術は、周波数軸上で入力信号に抑圧処理を施した後に、時間軸上の信号へ変換する際にも、同様の処理時間を要する。したがって、上述した抑圧処理方法を用いて定常雑音の抑圧を実行すると、求められる雑音抑圧の品質にも寄るが、一般的に音声処理装置にて数十ミリ秒の処理遅延を伴う。このため、音声処理装置から、この音声処理装置が実装される装置、例えば、ハンズフリーフォンに対して提供される信号の品質は、通話品質の観点から見た場合に必ずしも高いとはいえない。例えば、音声処理装置からハンズフリーフォンに対する信号の提供は、定常雑音の抑制の際に発生した処理遅延の分だけ遅延することが考えられる。このような場合には、ハンズフリーフォンにおいて再生される信号が遅れる状態となってしまうので、実時間での通話品質が劣化してしまうこととなる。
【0007】
開示の技術は、上記に鑑みてなされたものであって、定常雑音を含む入力信号に対する処理において、周波数軸上で処理する技術と比較して、処理時間を短縮することが可能な音声処理装置および音声処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本願の開示する音声処理装置は、一つの態様において、第一の計算部と、第二の計算部と、算出部と、加工部とを有する。第一の計算部は、第一のマイクおよび第二のマイクのうち、前記第一のマイクが受付けた第一の信号に基づく第一のパワーを計算する。第二の計算部は、前記第二のマイクが受け付けた第二の信号に基づく第二のパワーを計算する。算出部は、前記第一のパワーと前記第二のパワーとの比に基づいてゲインを算出する。加工部は、前記算出部により算出されたゲインを用いて前記第二の信号を加工する。
を有する
【発明の効果】
【0009】
本願の開示する技術の一つの態様によれば、定常雑音を含む信号に対する処理において、周波数軸上で処理する技術と比較して処理時間を短縮することができる。
【図面の簡単な説明】
【0010】
【図1】図1は、実施例1に係る音声処理装置の説明に用いる図である。
【図2】図2は、実施例1に係る音声処理装置の構成を示す機能ブロック図である。
【図3】図3は、実施例1に係る同期減算部の説明に用いる図である。
【図4】図4は、実施例1に係る音声処理装置による処理の流れを示す図である。
【図5】図5は、実施例2に係る音声処理装置の構成を示す機能ブロック図である。
【図6】図6は、実施例2に係る音声処理装置による処理の流れを示す図である。
【図7】図7は、実施例3に係る音声処理装置の構成を示す機能ブロック図である。
【図8】図8は、実施例3に係る音声処理装置による処理の流れを示す図である。
【図9】図9は、実施例3に係る音声処理装置による処理の流れを示す図である。
【図10】図10は、実施例4に係る音声処理装置の構成を示す機能ブロック図である。
【図11】図11は、実施例4に係る音声処理装置による処理の流れを示す図である。
【図12】図12は、実施例1に係る音声処理装置を実装したハンズフリーフォンの構成を示す機能ブロック図である。
【図13】図13は、実施例1に係る音声処理装置を実装したナビゲーション装置の構成の一例を示す機能ブロック図である。
【図14】図14は、音声処理プログラムを実行する電子機器の一例を示す図である。
【発明を実施するための形態】
【0011】
以下に、図面を参照しつつ、本願の開示する音声処理装置および音声処理プログラムの一実施形態について詳細に説明する。なお、本願の開示する音声処理装置および音声処理プログラムの一実施形態として後述する実施例は、本願が開示する技術を限定するものでなく、処理内容に矛盾を生じさせない範囲で適宜組み合わせることができる。
【実施例1】
【0012】
図1を用いて、実施例1に係る音声処理装置について説明する。図1は、実施例1に係る音声処理装置の説明に用いる図である。図1のAおよびBは、定常雑音と、ユーザ音声のように残したい音とが混在しているデジタル信号(以下、信号と表記する)の時間軸上の波形の一例を示す。図1のAは音声処理装置により取得される信号の波形の一例であり、図1のBは音声処理装置から出力される信号の波形の一例である。なお、8キロヘルツサンプリング(8千分の1秒ごとにサンプリング)で取得された1サンプルの信号を16ビットで表した場合、その値の範囲は−32767〜32767となる。図1の縦軸は信号の振幅を表し、横軸は時間を表す。
【0013】
図1に示すSは、信号において定常雑音に対応する箇所を示す。また、図1に示すSは、信号において定常雑音と残したい音とが混在する箇所を示す。
【0014】
実施例1に係る音声処理装置は、図1の点線に示すように、微小等間隔(例えば、8キロヘルツサンプリング)ごとに1サンプルの信号を取得してゲインを算出し、算出したゲインにより信号を加工する。言い換えれば、実施例1に係る音声処理装置によれば、取得した信号ごとに振幅の抑圧幅が異なる。その結果、例えば、図1の「A」と「B」とを見比べれば分かるように、Sの部分では振幅が大きく抑圧された信号が出力され、波形のSの部分では振幅のほとんど変わらない信号が出力される。
【0015】
このように、実施例1に係る音声処理装置は、取得した信号ごとにゲインを算出し、算出したゲインにより信号の振幅を抑圧する。このため、実施例1に係る音声処理装置は、定常雑音を含む信号に対する処理において、周波数軸上で処理する技術と比較して処理時間を短縮できる。
【0016】
また、人は、聴取する音に雑音が含まれていても、傾聴する音の存在が雑音の存在を意識させなくするという聴覚特性を有する。そこで、実施例1に係る音声処理装置は、取得した信号に、ユーザ音声などの残したい音に対応する信号がほとんど含まれない場合、つまり大部分が定常雑音に対応する信号である場合には、信号の振幅をできるだけ小さくする。すなわち、実施例1に係る音声処理装置は、人の聴覚特性に鑑み、雑音が耳障りとなる状況では信号の振幅をできるだけ小さくする。
【0017】
ところで、実施例1に係る音声処理装置は、取得した信号に、残したい音に対応する信号の含まれる割合が高いほど、信号の振幅の抑圧量を小さく制御するものであると言い換えることもできる。すなわち、例えば、ハンズフリーフォンに提供する信号に通話の音に対応する信号が含まれる場合、上述した聴覚特性により、ハンズフリーフォンのユーザは雑音の存在を意識しなくなる状況となる。そこで、実施例1に係る音声処理装置は、取得した信号に、残したい音に対応する信号の含まれる割合が高いほど、信号の振幅の抑圧量を小さくすることで、通話の音をできるだけ抑圧しないようにする。
【0018】
[音声処理装置の構成(実施例1)]
図2は、実施例1に係る音声処理装置の構成を示す機能ブロック図である。図2に示すように、実施例1に係る音声処理装置100は、音声入力部110R、音声入力部110L、同期減算部120、パワー計算部130R、パワー計算部130L、ゲイン算出部140、平滑化部150および掛算部160を有する。
【0019】
音声入力部110Rおよび音声入力部110Lは、例えば、360度全ての方向に対して感度が同等にある無指向性マイクである。音声入力部110Rは、音声処理装置100にて処理される信号のうち、定常雑音などの抑圧したい雑音が到来する領域側に設置される。音声入力部110Lは、音声処理装置100にて処理される信号のうち、ユーザ音声などの残したい音が到来する領域側に設置される。
【0020】
なお、実施例1に係る音声処理装置が、例えば、車両内で使用されるハンズフリーフォンやナビゲーション装置に実装される場合には、音声入力部110Rは助手席側の所定位置に設置されるマイクである。また、音声入力部110Lは運転席側の所定位置に設置されるマイクである。音声入力部110Rにより入力される信号のうち、音声入力部110R側から到来した信号は、抑圧したい雑音(雑音と仮定する音)に対応する信号である。
【0021】
同期減算部120は、音声入力部110R側から到来した信号を強調させた信号を取得することを目的として、音声入力部110Rにより入力された信号から音声入力部110Lにより入力された信号を同期減算する。例えば、同期減算部120は、音声入力部110Rおよび音声入力部110Lにより入力された信号が、所定のサンプリング周波数に従ってデジタルの音声データに変換されるタイミングへ到達するまで待機する。上述したタイミングへ到達すると、同期減算部120は、音声入力部110Rにより入力された信号の音声データ(inR)、および音声入力部110Lにより入力された信号の音声データ(inL)をそれぞれ取得する。
【0022】
ここで、同期減算部120は、音声入力部110Rにより入力された信号から音声入力部110Lにより入力された信号を同期減算する場合、信号を同期させる必要がある。そこで、同期減算部120は、音声入力部110Rおよび音声入力部110Lに同一の音に対する信号が入力される場合に、音速、音声入力部110Rと音声入力部110Lとの設置間隔およびサンプリング周波数に基づいて、どれくらいサンプル数のずれがあるかを計算する。その結果、例えば、音声入力部110Lに入力された信号と同一の音に対応する信号が、音声入力部110Rに1サンプル遅れて入力されることが算出されたと仮定する。この場合には、同期減算部120は、例えば、サンプル番号「t」の信号inR(t)と、サンプル番号「t」から1サンプル前のサンプル番号「t−1」の信号inL(t−1)を取得することとなる。そして、同期減算部120は、サンプル番号「t」の信号inR(t)からサンプル番号「t−1」の信号inL(t−1)を減算する。以下、図3を用いて、同期減算部120により実行させる同期減算結果のイメージを説明する。図3は、実施例1に係る同期減算部の説明に用いる図である。
【0023】
図3に示す「C」は、同期減算を行う前の音声入力部110Rのポーラーパターンの一例を示す。図3に示す「D」は、同期減算が行われた場合の音声入力部110Rのポーラーパターンの一例を示す。例えば、図2に示す音声入力部110Lと音声入力部110Rと結ぶ直線上で、かつ音声入力部110Lの左側の領域で音が発生したものとする。この場合に同期減算が行われると、音声入力部110Rにより入力された信号から、音声入力部110Lの左側の領域で発生した音に対応する信号のみが除去される。言い換えれば、同期減算部120により同期減算が行われる結果、音声入力部110Rは、図3に示す「D」のようなポーラーパターンを有する指向性のマイクと同様の機能を果たすこととなる。このように、同期減算部120は、同期減算処理を行うことにより、音声入力部110Rのような無指向性マイクを、定常雑音などの抑圧したい音が到来する領域側に設置した場合であっても、定常雑音などの抑圧したい音に対応する信号の強調を実現する。
【0024】
図2に戻り、パワー計算部130Rは、同期減算部120による同期減算結果(tmp1)のパワーを計算する。例えば、パワー計算部130Rは、同期減算結果(tmp1)を2乗することによりパワー(Power1)を計算する。なお、パワー計算部130Rは、同一サンプル番号に含まれる各サンプル値から計算した各パワーを正規化したものを採用してもよいし、単に合算したものを採用してもよい。
【0025】
パワー計算部130Lは、音声入力部110Lに入力された信号(inL)のパワーを計算する。例えば、パワー計算部130Lは、信号(inL)の振幅値を2乗することによりパワー(Power2)を計算する。なお、パワー計算部130Lは、同一サンプル番号に含まれる各サンプル値から計算した各パワーを正規化したものを採用してもよいし、単に合算したものを採用してもよい。
【0026】
ゲイン算出部140は、同期減算結果(tmp1)のパワー(Power1)と、信号(inL)のパワー(Power2)とを用いて、信号(inL)の振幅を抑圧するゲイン(gain)を算出する。例えば、ゲイン算出部140は、パワー計算部130Lにより計算された信号(inL)のパワー(Power2)から、パワー計算部130Rにより計算された信号(tmp1)のパワー(Power1)を減算する。そして、ゲイン算出部140は、減算結果「Power21」を信号(inL)のパワー(Power2)で除算した値の平方根を計算することにより、ゲイン(gain)を算出する。ゲイン算出部140により算出されるゲイン(gain)は、例えば、以下の式(1)で表される。
【0027】
gain=(Power21÷Power2)0.5・・・(1)
【0028】
平滑化部150は、ゲイン算出部140により算出されたゲイン(gain)を平滑化する。平滑化部150により平滑化されたゲイン(gain_mem)は、例えば、以下の式(2)で表される。なお、以下の式(2)に示す「α」は、0≦α<1の範囲で平滑化部150により設定される係数である。また、以下の式(2)に示す「gain_mem´」は、処理済みである一つ前のサンプル番号の信号に対する処理において、平滑化部150により平滑化されたゲインである。
【0029】
gain_mem=α×gain_mem´+(1−α)×gain・・・(2)
【0030】
なお、平滑化部150は、ゲイン算出部140により算出されたゲイン(gain)と、一つ前のサンプル番号の信号に対する処理で平滑化されたゲイン(gain_mem´)とに基づいて、上述した式(2)の「α」の値を設定する。例えば、平滑化部150は、ゲイン(gain)が、ゲイン(gain_mem´)よりも4倍程度大きければ、「α」の値として、できるだけ小さな値に設定する。つまり、ゲイン(gain)が、ゲイン(gain_mem´)よりも4倍程度大きければ、定常雑音とは異なる非定常性の高い音声である可能性が高い、言い換えれば、ユーザ音声などの残したい音声である可能性が高い。そこで、平滑化部150は、現状の音声への追従性を高めるように、「α」の値として、できるだけ小さな値に設定する。
【0031】
掛算部160は、平滑化部150により平滑化されたゲイン(gain_mem)を用いて、音声入力部110Lにより入力された信号(inL)を加工する。例えば、掛算部160は、音声入力部110Lにより入力された信号(inL)に対して、平滑化部150により平滑化されたゲイン(gain_mem)を掛算することで、信号(inL)を抑圧して加工する。そして、掛算部160は、抑圧結果(out)を出力する。
【0032】
なお、図2に示す音声処理装置100は、図示は省略しているが、例えば、RAM(Random Access Memory)やフラッシュメモリ(flash memory)などの半導体メモリ素子などの記憶部を有する。また、図2に示す音声処理装置100は、図示は省略しているが、上述した同期減算部120、パワー計算部130R、パワー計算部130L、ゲイン算出部140、平滑化部150および掛算部160などを制御する制御部を有する。この制御部は、電子回路や集積回路に該当する。電子回路や集積回路は、上述した記憶部を用いて、上述した同期減算部120、パワー計算部130R、パワー計算部130L、ゲイン算出部140、平滑化部150および掛算部160により実行される処理を制御する。なお、電子回路としては、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)がある。また、集積回路としては、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などがある。
【0033】
[音声処理装置による処理(実施例1)]
次に、図4を用いて、実施例1に係る音声処理装置100による処理の流れを説明する。図4は、実施例1に係る音声処理装置による処理の流れを示す図である。以下の図4の説明において、「マイク」と表記するものは、上述した音声入力部に該当する。
【0034】
図4に示すように、音声処理装置100は、処理開始判定を実行する(ステップS101)。例えば、音声処理装置100は、処理開始指示の入力の有無などに基づいて処理開始判定を実行する。音声処置装置100内で、処理を開始する旨が判定されなかった場合には(ステップS101,No)、同判定を繰り返し実行する。
【0035】
一方、音声処置装置100内で、処理を開始する旨が判定された場合には(ステップS101,Yes)、同期減算部120は、マイク110Rにより取得された信号(inR(t))のサンプル番号を基準とした同期減算を実行する(ステップS102)。例えば、ステップS102の処理は、以下の式(3)で表すことができる。
【0036】
tmp1(t)=inR(t)−inL(t−1)・・・(3)
【0037】
なお、inR(t)は、マイク110Rにより取得されたサンプル番号「t」の信号(振幅)を示し、inL(t−1)は、マイク110Lにより取得されたサンプル番号「t−1」の信号(振幅)を示し、tmp1(t)は、同期減算後の信号を示す。
【0038】
次に、パワー計算部130Rは、ステップS102による同期減算結果のパワー(Power1(t))を計算する(ステップS103)。例えば、ステップS103の処理は、以下の式(4)で表すことができる。
【0039】
Power1(t)=Σtmp1(t)・・・(4)
【0040】
続いて、パワー計算部130Lは、マイク110Lにより取得された信号のパワー(Power2(t))を計算する(ステップS104)。例えば、ステップS104の処理は、以下の式(5)で表すことができる。
【0041】
Power2(t)=ΣinL(t)・・・(5)
【0042】
なお、inL(t)は、マイク110Lにより取得されたサンプル番号「t」の信号(振幅)を示す。
【0043】
次に、ゲイン算出部140は、ステップS104により得られたパワー(Power2(t))から、ステップS103により得られたパワー(Power1(t))を減算する(ステップS105)。例えば、ステップS105の処理は、以下の式(6)で表すことができる。
【0044】
Power21(t)=Power2(t)−Power1(t)・・・(6)
【0045】
なお、Power21(t)は、ステップS105の処理による減算結果を示す。
【0046】
続いて、ゲイン算出部140は、ステップS105により得られた減算結果(Power21(t))と、ステップS104により得られたパワー(Power2(t))とを用いて、ゲイン(gain(t))を算出する(ステップS106)。ゲイン(gain(t))は、マイク110Lにより取得された信号に含まれる雑音を抑圧するためのゲインである。例えば、ステップS106の処理は、以下の式(7)で表すことができる。
【0047】
gain(t)=(Power21(t)÷Power2(t))0.5・・・(7)
【0048】
次に、平滑化部150は、ステップS106により得られたゲイン(gain(t))を平滑化する(ステップS107)。例えば、ステップS107の処理は、以下の式(8)で表すことができる。
【0049】
gain_mem(t)=α×gain_mem(t−1)+(1−α)×gain(t)・・・(8)
【0050】
なお、gain_mem(t)は、gain(t)を平滑化したゲインを示し、gain_mem´は、1つ前のサンプル番号に対するステップS107の処理結果を示す。
【0051】
続いて、掛算部160は、マイク110Lにより取得された信号(inL(t))に対して、ステップS107により得られたゲイン(gain(t))を掛算して加工した信号(out(t))を出力する(ステップS108)。例えば、ステップS108の処理は、以下の式(9)で表すことができる。
【0052】
out(t)=gain_mem(t)×inL(t)・・・(9)
【0053】
そして、音声処理装置100は、ステップS108の処理を完了すると、上述したステップS102に戻る。また、音声処理装置100は、電源の投入が停止されるか、あるいは処理終了指示があるまで、上述した図4に示すステップS102〜ステップS108までの処理を繰り返し実行する。なお、上述した図4に示す処理は、処理内容に矛盾を生じさせない範囲で適宜処理順序を入れ替えることもできる。
【0054】
[実施例1による効果]
上述してきたように、音声処理装置100は、上述した式(1)や式(7)に示すように、ユーザ音声などの残したい音を抑圧しないように信号の振幅の抑圧量を制御するという簡易な処理により定常雑音の抑圧を図る。よって、定常雑音を含む入力信号に対する処理において、時間軸上での処理が可能となり、周波数軸上で処理する技術と比較して処理遅延を短くできる。
【0055】
また、音声処理装置100は、取得した信号の大部分が定常雑音に対応するものである場合には、人の聴覚特性に鑑み、雑音が耳障りとなる状況では信号の振幅をできるだけ小さくすることで最大限に定常雑音を抑圧する。このため、実施例1によれば、人の聴覚特性を考慮した処理が可能となり、結果としてデバイスに提供される信号の品質を向上できる。
【0056】
また、音声処理装置100は、取得した信号に、ユーザ音声などの残したい音に対応する信号の含まれる割合が高いほど、そのサンプリング番号における信号の振幅の抑圧量を小さくすることで、通話音声が必要以上に小さくならない程度に信号の振幅を抑圧する。このため、実施例1によれば、人の聴覚特性を利用した処理が可能となり、結果としてデバイスに提供される信号の品質を向上できる。
【0057】
また、音声処理装置100は、1サンプル過去の音声に対して利用したゲインを用いて、現サンプルの音声に対するゲインを平滑化する。したがって、1サンプル過去の信号に対して利用したゲインと、上述した図4に示すS106の処理により算出したゲインとが異なることで発生する信号の品質の劣化を防ぐことができる。また、実施例1によれば、ゲインに関し、非定常性の高いユーザ音声への追従性を高めることが可能となり、結果としてデバイスに提供される信号の品質の劣化をできるだけ防ぐことができる。
【0058】
なお、音声処理装置100に、上述した平滑化部150を必ずしも設ける必要はない。例えば、処理遅延の短縮により比重を置く場合には、音声処理装置100の構成から平滑化部150を除外してもよい。
【実施例2】
【0059】
上述した実施例1では、同期減算を行うことにより、定常雑音などの雑音に対応する信号を強調する処理(音声入力部110Rにより入力された信号を強調する処理)を実行する場合を説明した。しかしながら、これに限定されるものではなく、例えば、同期減算を行うことにより、ユーザ音声などの残したい音に対応する信号を強調する処理(音声入力部により入力された内、残したい音に対応する信号を強調する処理)を実行するようにしてもよい。
【0060】
[音声処理装置の構成(実施例2)]
図5は、実施例2に係る音声処理装置の構成を示す機能ブロック図である。図5に示すように、実施例2に係る音声処理装置200は、実施例1に係る音声処理装置100と基本的には同様の構成を有する。すなわち、音声入力部210Rは音声入力部110Rに対応し、音声入力部210Lは音声入力部110Lに対応し、同期減算部220Rは同期減算部120に対応する。また、パワー計算部230Rはパワー計算部130Rに対応し、パワー計算部230Lはパワー計算部130Lに対応し、ゲイン算出部240はゲイン算出部140に対応し、平滑化部250は平滑化部150に対応し、掛算部260は掛算部160に対応する。そして、実施例2に係る音声処理装置200は、同期減算部220Lを新たに有する結果、実施例1に係る音声処理装置100とは以下に説明する点が異なる。
【0061】
同期減算部220Rは、上述した実施例1と同様に、音声入力部210R側から到来した信号を強調させた信号を取得することを目的として、音声入力部210Rにより入力された信号から音声入力部210Lにより入力された信号を同期減算する。音声入力部210Rにより入力された信号は、雑音であると仮定される音の信号である。
【0062】
パワー計算部230Rは、上述した実施例1と同様に、同期減算部220Rによる同期減算結果(tmp1)のパワーを計算する。
【0063】
同期減算部220Lは、音声入力部210L側から到来した信号を強調させた信号を取得することを目的として、音声入力部210Lにより入力された信号から音声入力部210Rにより入力された信号を同期減算する。同期減算部220Lは、同期減算部220Rと基本的に同様の方法で同期減算を行う。同期減算部220Lは、例えば、サンプル番号「t」の信号inL(t)と、サンプル番号「t」から1サンプル前のサンプル番号「t−1」の信号inR(t−1)を取得する。そして、同期減算部220Lは、信号inL(t)から信号inR(t−1)を減算する。
【0064】
パワー算出部230Lは、パワー計算部230Rと基本的に同様の方法で、同期減算部220Lによる同期減算結果(tmp2)のパワーを計算する。例えば、パワー計算部230Lは、同期減算結果(tmp2)を2乗することによりパワー(Power2)を計算する。
【0065】
ゲイン算出部240は、同期減算結果(tmp1)のパワー(Power1)と、同期減算結果(tmp2)のパワー(Power2)とを用いて、同期減算結果(tmp2)を抑圧するゲインを算出する。例えば、ゲイン算出部240は、パワー計算部230Lにより計算された同期減算結果(tmp2)のパワー(Power2)から、パワー計算部230Rにより計算された同期減算結果(tmp1)のパワー(Power1)を減算する。そして、ゲイン算出部240は、減算結果「Power21」を同期減算結果(tmp2)のパワー(Power2)で除算した値の平方根を計算することにより、ゲイン(gain)を算出する。ゲイン算出部240により算出されるゲイン(gain)は、例えば、上述した式(1)と同式で表される。
【0066】
平滑化部250は、上述した実施例1の平滑化部150と同様の方法により、ゲイン算出部240により算出されたゲイン(gain)を平滑化する。
【0067】
掛算部260は、平滑化部250により平滑化されたゲイン(gain_mem)を用いて、同期減算部220Lによる同期減算結果(tmp2)を加工する。すなわち、掛算部260は、同期減算部220Lによる同期減算結果(tmp2)に対して、平滑化部250により平滑化されたゲイン(gain_mem)を掛算することにより、同期減算結果(tmp2)を抑圧して加工する。これにより、同期減算結果(tmp2)内の雑音が抑圧される。そして、掛算部260は、抑圧結果(out)を出力する。
【0068】
[音声処理装置による処理(実施例2)]
次に、図6を用いて、実施例2に係る音声処理装置200による処理の流れを説明する。図6は、実施例2に係る音声処理装置による処理の流れを示す図である。以下の図6の説明において、「マイク」と表記するものは、上述した音声入力部に該当する。
【0069】
図6に示すように、音声処理装置200の制御部などが、処理開始判定を実行する(ステップS201)。例えば、音声処理装置200の制御部などは、処理開始指示の入力の有無などに基づいて処理開始判定を実行する。処理を開始する旨が判定されなかった場合には(ステップS201,No)、音声処置装置200の制御部などが、同判定を繰り返し実行する。
【0070】
一方、音声処置装置200の制御部などにより、処理を開始する旨が判定された場合には(ステップS201,Yes)、同期減算部220Rは、マイク210Rにより取得された信号(inR(t))のサンプル番号を基準とした同期減算を実行する(ステップS202)。例えば、ステップS202の処理は、上述した式(3)で表すことができる。
【0071】
次に、同期減算部220Lは、マイク210Lにより取得された信号(inL(t))を基準とした同期減算を実行する(ステップS203)。例えば、ステップS203の処理は、以下の式(10)で表すことができる。
【0072】
tmp2(t)=inL(t)−inR(t−1)・・・(10)
【0073】
なお、inL(t)は、マイク210Lにより取得されたサンプル番号「t」の信号(振幅)を示し、inR(t−1)は、マイク210Rにより取得されたサンプル番号「t−1」の信号(振幅)を示し、tmp2(t)は、同期減算後の信号を示す。
【0074】
続いて、パワー計算部230Rは、ステップS202による同期減算結果のパワー「Power1(t)」を計算する(ステップS204)。例えば、ステップS204の処理は、上述した式(4)で表すことができる。
【0075】
次に、パワー計算部230Lは、ステップS203による同期減算結果のパワー「Power2(t)」を計算する(ステップS205)。例えば、ステップS205の処理は、以下の式(11)で表すことができる。
【0076】
Power2(t)=Σtmp2(t)・・・(11)
【0077】
続いて、ゲイン算出部240は、ステップS205により得られたパワー(Power2(t))から、ステップS204により得られたパワー(Power1(t))を減算する(ステップS206)。例えば、ステップS206の処理は、上述した式(6)で表すことができる。
【0078】
次に、ゲイン算出部240は、ステップS206により得られた減算結果(Power21(t))と、ステップS205により得られたパワー(Power2(t))とを用いて、ゲイン(gain(t))を算出する(ステップS207)。ゲイン(gain(t))は、ステップS203による同期減算結果を抑圧するためのゲインである。例えば、ステップS207の処理は、上述した式(7)で表すことができる。
【0079】
続いて、平滑化部250は、ステップS207により得られたゲイン(gain(t))を平滑化する(ステップS208)。例えば、ステップS208の処理は、上述した式(8)で表すことができる。
【0080】
次に、掛算部260は、ステップS203により得られた同期減算結果に対して、ステップS208により得られたゲインを掛算した加工した信号(out(t))を出力する(ステップS209)。例えば、ステップS209の処理は、以下の式(12)で表すことができる。
【0081】
out(t)=gain_mem(t)×tmp2(t)・・・(12)
【0082】
そして、音声処理装置200は、ステップS209の処理を完了すると、上述したステップS202に戻る。また、音声処理装置200は、電源の投入が停止されるか、あるいは処理終了指示があるまで、上述した図6に示すステップS202〜ステップS209までの処理を繰り返し実行する。なお、上述した図6に示す処理は、処理内容に矛盾を生じさせない範囲で適宜処理順序を入れ替えることもできる。
【0083】
[実施例2による効果]
上述してきたように、音声処理装置200は、ユーザ音声などの残したい音を強調する処理を行い、この音が強調された信号を用いてゲインを算出する。このため、実施例1によれば、実施例1よりもユーザ音声などの残したい音をより強調でき、結果としてデバイスに提供される信号の品質の劣化を実施例1よりも防ぐことができる。
【実施例3】
【0084】
上述した実施例1および2では、例えば、無指向性マイクである音声入力部のいずれか一方を定常雑音などの抑圧したい音の信号が主に到来する方向に設置し、他方をユーザ音声などの残したい音の信号が主に到来する方向に設置する場合を説明した。しかしながら、これに限定されるものではなく、各音声入力部を、残したい音の信号が到来する別個の方向にそれぞれ設置し、各音声入力部から取得した信号をそれぞれゲインにより抑圧するようにしてもよい。
【0085】
[音声処理装置の構成(実施例3)]
図7は、実施例3に係る音声処理装置の構成を示す機能ブロック図である。図7に示すように、実施例3に係る音声処理装置300は、例えば、図2に示す音声処理装置100の構成を冗長にしたような構成を有する。
【0086】
図7に示すように、音声入力部310Rおよび音声入力部310Lは、例えば、実施例1と同様の無指向性マイクである。音声入力部310Rは、例えば、ユーザAの音声に対応する信号が主に到来する領域側に設置される。音声入力部110Lは、例えば、ユーザAとは異なるユーザBの音声に対応する信号が主に到来する領域側に設置される。
【0087】
同期減算部320Rは、音声入力部310R側から到来した音を強調させた信号を取得することを目的として、音声入力部310Rにより入力された信号から音声入力部310Lにより入力された信号を同期減算する。なお、同期減算部320Rは、上述した実施例1の同期減算部120等と同様の方法により同期減算を実行する。例えば、同期減算部320Rは、音声入力部310Rおよび音声入力部310Lにより入力された信号が、所定のサンプリング周波数に従ってデジタルの信号に変換されるタイミングへの到達を待機する。上述したタイミングへ到達すると、同期減算部320Rは、音声入力部310Rにより入力された信号(inR)、および音声入力部310Lにより入力された信号(inL)をそれぞれ取得する。
【0088】
ここで、同期減算部320Rは、音声入力部310Rにより入力された信号から音声入力部310Lにより入力された信号を同期減算する場合、信号を同期させる必要がある。そこで、同期減算部320Rは、音声入力部310Rおよび音声入力部310Lに同一の音に対応する信号が入力される場合に、音速、音声入力部310Rと音声入力部310Lとの設置間隔およびサンプリング周波数に基づいて、どれくらいサンプル数のずれがあるかを計算する。その結果、例えば、音声入力部310Lに入力された信号と同一の信号が、音声入力部310Rに1サンプル遅れて入力されることが算出されたと仮定する。この場合には、同期減算部320Rは、例えば、サンプル番号「t」の信号inR(t)と、サンプル番号「t」から1サンプル前のサンプル番号「t−1」の信号inL(t−1)を取得することとなる。そして、同期減算部320Rは、サンプル番号「t」の信号inR(t)からサンプル番号「t−1」の信号inL(t−1)を減算する。
【0089】
同期減算部320Lは、同期減算部320Rと同様の方法により、音声入力部310Lにより入力された信号から音声入力部310Rにより入力された信号を同期減算する。例えば、同期減算部320Lは、サンプル番号「t」の信号inL(t)からサンプル番号「t−1」の信号inR(t−1)を減算する。
【0090】
パワー計算部330Rは、上述した実施例1の同期減算部120等と同様の方法により、同期減算部320Rにて実行された同期減算結果(tmp1)のパワーを計算する。例えば、パワー計算部330Rは、同期減算結果(tmp1)を2乗することによりパワー(Power1)を計算する。
【0091】
パワー計算部330Lは、パワー計算部330Rと同様の方法により、同期減算結果(tmp2)のパワーを計算する。例えば、パワー計算部330Lは、同期減算部320Lにて実行された同期減算結果(tmp2)のパワーを計算する。例えば、パワー計算部330Lは、同期減算結果(tmp2)を2乗することによりパワー(Power2)を計算する。
【0092】
ゲイン算出部340Rは、同期減算結果(tmp1)のパワー(Power1)と、同期減算結果(tmp2)のパワー(Power2)とを用いて、同期減算結果(tmp1)を抑圧するゲイン(gain1)を算出する。ゲイン算出部340Rは、上述した実施例1のゲイン算出部140と同様の方法でゲイン(gain1)を算出する。例えば、ゲイン算出部340Rは、パワー計算部330Rにより計算された同期減算結果(tmp1)のパワー(Power1)から、パワー計算部330Lにより計算された同期減算結果(tmp2)のパワー(Power2)を減算する。そして、ゲイン算出部340Rは、減算結果(Power12)を同期減算結果(tmp1)のパワー(Power1)で除算した値の平方根を計算することにより、ゲイン(gain1)を算出する。ゲイン算出部340Rにより算出されるゲイン(gain1)は、例えば、以下の式(13)で表される。
【0093】
gain1=(Power12÷Power1)0.5・・・(13)
【0094】
ゲイン算出部340Lは、同期減算結果(tmp1)のパワー(Power1)と、同期減算結果(tmp2)のパワー(Power2)とを用いて、同期減算結果(tmp2)を抑圧するゲイン(gain2)を算出する。ゲイン算出部340Lは、ゲイン算出部340Rと同様の方法により、ゲイン(gain2)を算出する。例えば、ゲイン算出部340Lは、パワー計算部330Lにより計算された同期減算結果(tmp2)のパワー(Power2)から、パワー計算部330Rにより計算された同期減算結果(tmp1)のパワー(Power1)を減算する。そして、ゲイン算出部340Lは、減算結果(Power21)を同期減算結果(tmp2)のパワー(Power2)で除算した値の平方根を計算することにより、ゲイン(gain2)を算出する。ゲイン算出部340Lにより算出されるゲイン(gain2)は、例えば、以下の式(14)で表される。
【0095】
gain2=(Power21÷Power2)0.5・・・(14)
【0096】
平滑化部350Rは、上述した実施例1の平滑化部150と同様の方法により、ゲイン算出部340Rにより算出されたゲイン(gain1)を平滑化する。平滑化部350Rにより平滑化されたゲイン(gain_mem1)は、例えば、以下の式(15)で表される。
【0097】
gain_mem1=α×gain_mem1´+(1−α)×gain1・・・(15)
【0098】
なお、上述した式(15)に示す「α」は、0≦α<1の範囲で平滑化部350Rにより設定される係数である。また、上述した式(15)に示す「gain_mem´1」は、処理済みである一つ前のサンプル番号の信号に対する処理で平滑化されたゲインである。
【0099】
平滑化部350Lは、上述した平滑化部350Rと同様の方法により、ゲイン算出部340Lにより算出されたゲイン(gain2)を平滑化する。平滑化部350Lにより平滑化されたゲイン(gain_mem2)は、例えば、以下の式(16)で表される。
【0100】
gain_mem2=α×gain_mem2´+(1−α)×gain2・・・(16)
【0101】
なお、上述した式(16)に示す「α」は、0≦α<1の範囲で平滑化部350Lにより設定される係数である。また、上述した式(16)に示す「gain_mem´2」は、処理済みである一つ前のサンプル番号の信号に対する処理で平滑化されたゲインである。
【0102】
掛算部360Rは、上述した実施例1の掛算部160と同様の方法により、平滑化部350Rにより平滑化されたゲイン(gain_mem1)を用いて、同期減算結果(tmp1)を加工する。すなわち、掛算部360Rは、同期減算結果(tmp1)に対して、平滑化部350Rにより平滑化されたゲイン(gain_mem1)掛算することにより、同期減算結果(tmp1)を抑圧して加工する。これにより、同期減算結果(tmp1)内の雑音が抑圧される。そして、掛算部360Rは、抑圧結果(out1)を送出する。
【0103】
掛算部360Lは、上述した掛算部360Rと同様の方法により、平滑化部350Lにより平滑化されたゲイン(gain_mem2)を用いて、同期減算結果(tmp2)を加工する。すなわち、掛算部360Lは、同期減算結果(tmp2)に対して、平滑化部350Lにより平滑化されたゲイン(gain_mem2)を掛算することにより、同期減算結果(tmp2)を抑圧して加工する。これにより、同期減算結果(tmp2)内の雑音が抑圧される。そして、掛算部360Lは、抑圧結果(out2)を送出する。
【0104】
合算部370は、掛算部360Rによる抑圧結果(out1)と掛算部360Lによる抑圧結果(out2)とを合算して出力する。
【0105】
なお、図7に示す音声処理装置300は、図示は省略しているが、例えば、RAM(Random Access Memory)やフラッシュメモリ(flash memory)などの半導体メモリ素子などの記憶部を有する。また、図7に示す音声処理装置300は、上述した各種機能部を制御する制御部を有する。この制御部は、電子回路や集積回路に該当する。電子回路や集積回路は、上述した記憶部を用いて、上述した各種機能部により実行される処理を制御する。なお、電子回路としては、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)がある。また、集積回路としては、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などがある。
【0106】
[音声処理装置による処理(実施例3)]
次に、図8および図9を用いて、実施例3に係る音声処理装置300による処理の流れを説明する。図8および図9は、実施例3に係る音声処理装置による処理の流れを示す図である。以下の図8および図9の説明において、「マイク」と表記するものは、上述した音声入力部に該当する。
【0107】
まず、図8に示すように、音声処理装置300の制御部などが、処理開始判定を実行する(ステップS301)。例えば、音声処理装置300の制御部などは、処理開始指示の入力の有無などに基づいて処理開始判定を実行する。処理を開始する旨が判定さなかった場合には(ステップS301,No)、音声処置装置300の制御部などが、同判定を繰り返し実行する。
【0108】
一方、音声処置装置300の制御部などにより、処理を開始する旨が判定された場合には(ステップS301,Yes)、同期減算部320Rは次のステップS302の処理を実行する。すなわち、同期減算部320Rはマイク310Rにより取得された信号(inR(t))のサンプル番号を基準とした同期減算を実行する(ステップS302)。例えば、ステップS302の処理は、上述した式(3)で表すことができる。
【0109】
次に、同期減算部320Lは、マイク310Lにより取得された信号のサンプル番号を基準とした同期減算を実行する(ステップS303)。例えば、ステップS303の処理は、上述した式(10)で表すことができる。
【0110】
続いて、パワー計算部330Rは、ステップS302により得られた同期減算結果のパワー(Power1(t))を計算する(ステップS304)。例えば、ステップS304の処理は、上述した式(4)で表すことができる。
【0111】
次に、パワー計算部330Lは、ステップS303により得られた同期減算結果のパワー(Power2(t))を計算する(ステップS305)。例えば、ステップS305の処理は、上述した式(11)で表すことができる。
【0112】
続いて、ゲイン算出部340Rは、ステップS304により得られたパワー(Power1(t))から、ステップS305により得られたパワー(Power2(t))を減算する(ステップS306)。例えば、ステップS306の処理は、以下の式(17)で表すことができる。
【0113】
Power12(t)=Power1(t)−Power2(t)・・・(17)
【0114】
なお、Power12(t)は、ステップS306の処理による減算結果を示す。
【0115】
次に、ゲイン算出部340Rは、ステップS306により得られた減算結果(Power12(t))と、ステップS304により得られたパワー(Power1(t))とを用いて、ゲイン(gain1(t))を算出する(ステップS307)。ゲイン(gain1(t))は、ステップS302による同期減算結果を抑圧するためのゲインである。例えば、ステップS307の処理は、以下に示す式(18)で表すことができる。
【0116】
gain1(t)=(Power12(t)÷Power1(t))0.5・・・(18)
【0117】
続いて、平滑化部350Rは、ステップS307により得られたゲインを平滑化する(ステップS308)。例えば、ステップS308の処理は、以下に示す式(19)で表すことができる。
【0118】
gain_mem1(t)=α×gain_mem1(t−1)+(1−α)×gain1(t)・・・(19)
【0119】
次に、掛算部360Rは、ステップS302により得られた同期減算結果に対して、ステップS308により得られたゲインを掛算した信号(out1(t))を送出する(ステップS309)。例えば、ステップS309の処理は、以下の式(20)で表すことができる。
【0120】
out1(t)=gain_mem1(t)×tmp1(t)・・・(20)
【0121】
続いて、図9に示すように、ゲイン算出部340Lは、ステップS305により得られた同期減算結果のパワー(Power2(t))から、ステップS304により得られた同期減算結果のパワー(Power1(t))を減算する(ステップS310)。例えば、ステップS310の処理は、上述した式(6)で表すことができる。
【0122】
次に、ゲイン算出部340Lは、ステップS310により得られた減算結果(Power21(t))と、ステップS305により得られた同期減算結果のパワー(Power2(t))とを用いて、ゲイン(gain2(t))を算出する(ステップS311)。ゲイン(gain2(t))は、ステップS305により得られた同期減算結果を抑圧するためのゲインである。例えば、ステップS307の処理は、以下に示す式(21)で表すことができる。
【0123】
gain2(t)=(Power21(t)÷Power2(t))0.5・・・(21)
【0124】
続いて、平滑化部350Lは、ステップS311により得られたゲインを平滑化する(ステップS312)。例えば、ステップS312の処理は、以下に示す式(22)で表すことができる。
【0125】
gain_mem2(t)=α×gain_mem2(t−1)+(1−α)×gain2(t)・・・(22)
【0126】
次に、掛算部360Lは、ステップS303により得られた同期減算結果に対して、ステップS312により得られたゲインを掛算した信号(out2(t))を送出する(ステップS313)。例えば、ステップS309の処理は、以下の式(23)で表すことができる。
【0127】
out2(t)=gain_mem2(t)×tmp2(t)・・・(23)
【0128】
続いて、合算部370は、ステップS309の信号(out1)とステップS313の信号(out2)とを合算して出力する(ステップS314)。
【0129】
そして、音声処理装置300は、ステップS314の処理を完了すると、上述したステップS302に戻る。また、音声処理装置300は、電源の投入が停止されるか、あるいは処理終了指示があるまで、上述したステップS302〜ステップS314までの処理を繰り返し実行する。なお、上述した図8および図9に示す処理は、処理内容に矛盾を生じさせない範囲で適宜処理順序を入れ替えることもできる。
【0130】
[実施例3による効果]
上述してきたように、音声処理装置300は、各音声入力部を、残したい音が到来する方向に設置し、各音声入力部からの音声をそれぞれゲインにより抑圧する。このため、実施例3によれば、別個の方向に設置された音声入力部からの信号をそれぞれ強調することができ、各音声入力部からの信号がデバイスに提供される信号の品質の劣化をできるだけ防ぐことができる。
【実施例4】
【0131】
上述した実施例では、360度全ての方向に対して感度が同等にある無指向性マイクで集音し、集めた音に対し、目的に合わせて同期減算部により同期減算処理を実行する場合の一実施形態を説明した。しかしながら、これに限定されるものではなく、無指向性マイクや同期減算部の代わりに、指向性マイクを適用してもよい。
【0132】
[音声処理装置の構成(実施例4)]
図10は、実施例4に係る音声処理装置の構成を示す機能ブロック図である。図10に示すように、実施例4に係る音声処理装置400は、例えば、実施例2に係る音声処理装置200と基本的には同様の構成を有する。すなわち、パワー計算部430Rはパワー計算部230Rに対応し、パワー計算部430Lはパワー計算部230Lに対応し、ゲイン算出部440はゲイン算出部240に対応し、平滑化部450は平滑化部250に対応し、掛算部460は掛算部260に対応する。
【0133】
そして、実施例4に係る音声処理装置400は、無指向性マイクである音声入力部210R,210L、および同期減算部220R,220Lの代わりに、指向性マイクである音声入力部410Rおよび音声入力部410Lを用いる点が異なる。なお、以下の実施例4では、音声入力部410Rが、定常雑音などの抑圧したい雑音が主に到来する領域側に設置され、音声入力部410Lが、ユーザ音声などの残したい音が到来する領域側に設置される場合を説明する。以下、図11を用いて、実施例4に係る音声処理装置の処理の流れを説明する。
【0134】
[音声処理装置による処理(実施例4)]
図11を用いて、実施例4に係る音声処理装置400による処理の流れを説明する。図11は、実施例4に係る音声処理装置による処理の流れを示す図である。以下の図11の説明において、「マイク」と表記するものは、上述した音声入力部に該当する。
【0135】
図11に示すように、音声処理装置400の制御部などが、処理開始判定を実行する(ステップS401)。処理を開始する旨が判定さなかった場合には(ステップS401,No)、音声処置装置400の制御部などは同判定を繰り返し実行する。
【0136】
一方、音声処置装置400の制御部などにより、処理を開始する旨が判定された場合には(ステップS401,Yes)、パワー計算部430Rは、次のステップS402の処理を実行する。すなわち、パワー計算部430Rは、マイク410Rにより取得された信号(inR(t)(のパワー(Power1(t))を計算する(ステップS402)。例えば、ステップS402の処理は、以下に示す式(24)で表すことができる。
【0137】
Power1(t)=ΣinR(t)・・・(24)
【0138】
次に、パワー計算部430Lは、マイク410Lにより取得された信号(inL(t))のパワー(Power2(t))を計算する(ステップS403)。例えば、ステップS403の処理は、以下の式(25)で表すことができる。
【0139】
Power2(t)=ΣinL(t)・・・(25)
【0140】
続いて、ゲイン算出部440は、ステップS403により得られたパワーから、ステップS402により得られたパワーを減算する(ステップS404)。例えば、ステップS404の処理は、上述した式(6)で表すことができる。
【0141】
次に、ゲイン算出部440は、ステップS404により得られた減算結果(Power21(t))と、ステップS403により得られたパワー(Power2(t))とを用いて、ゲイン(gain(t))を算出する(ステップS405)。ゲイン(gain(t))は、マイク410Lにより取得された信号に含まれる雑音を抑圧するためのゲインである。例えば、ステップS405の処理は、上述した式(7)で表すことができる。
【0142】
続いて、平滑化部450は、ステップS405により得られたゲイン(gain(t))を平滑化する(ステップS406)。例えば、ステップS406の処理は、上述した式(8)で表すことができる。
【0143】
次に、掛算部460は、マイク410Lにより取得された信号(inL(t))に対して、ステップS406により得られたゲイン(gain(t))を掛算して加工した信号(out(t))を出力する(ステップS407)。例えば、ステップS407の処理は、上述した式(9)で表すことができる。
【0144】
そして、音声処理装置400は、ステップS407の処理を完了すると、上述したステップS402に戻る。また、音声処理装置400は、電源の投入が停止されるか、あるいは処理終了指示があるまで、上述した図12に示すステップS402〜ステップS407までの処理を繰り返し実行する。なお、上述した図12に示す処理は、処理内容に矛盾を生じさせない範囲で適宜処理順序を入れ替えることもできる。
【0145】
[実施例4による効果]
上述してきたように、実施例4によれば、指向性マイクを適用した場合であっても、周波数軸上で処理する技術と比較して処理遅延を短くできる。
【実施例5】
【0146】
以下、本願の開示する音声処理プログラムおよび音声処理装置の他の実施形態を説明する。
【0147】
(1)装置構成等
例えば、図2に示した音声処理装置100の機能ブロックの構成は概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、図2に示したゲイン算出部140と平滑化部150とを機能的または物理的に統合してもよい。このように、音声処理装置100の機能ブロックの全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0148】
(2)他の装置への実装
例えば、上述した実施例に係る音声処理装置を、ハンズフリーフォンやナビゲーション装置などに実装することもできる。例えば、図12にハンズフリーフォンへの実装例を示し、図13にナビゲーション装置への実装例を示す。図12は、実施例1に係る音声処理装置を実装したハンズフリーフォンの構成を示す機能ブロック図である。図13は、実施例1に係る音声処理装置を実装したナビゲーション装置の構成の一例を示す機能ブロック図である。
【0149】
例えば、図12に示すように、上述した実施例に対応する音声処理装置500Aをハンズフリーフォン500に実装し、音声処理装置500Aにて処理された信号を通話処理ユニット500Bに出力するようにしてもよい。また、例えば、図13に示すように、上述した実施例に対応する音声処理装置600Aをナビゲーション装置600に実装し、音声処理装置600Aにて処理された信号をナビゲーション処理ユニット600Bに出力するようにしてもよい。
【0150】
(3)音声処理プログラム
また、上述の実施例にて説明した音声処理装置により実行される各種の処理は、例えば、マイクロプロセッサなどの電子機器で所定のプログラムを実行することによって実現することもできる。
【0151】
そこで、以下では、図14を用いて、上述の実施例にて説明した音声処理装置により実行される処理と同様の機能を実現する音声処理プログラムを実行するコンピュータの一例を説明する。図14は、音声処理プログラムを実行する電子機器の一例を示す図である。
【0152】
図14に示すように、上述の実施例にて説明した音声処理装置により実行される各種処理を実現する電子機器700は、各種演算処理を実行するCPU(Central Processing Unit)710を有する。また、図14に示すように、電子機器700は、信号を取得するための入力インターフェース720や、処理済みの信号を出力する出力インターフェース730を有する。
【0153】
また、図14に示すように、電子機器700は、CPU710により各種処理を実現するためのプログラムやデータ等を記憶するハードディスク装置740と、各種情報を一時記憶するRAM(Random Access Memory)などのメモリ750とを有する。そして、各装置710〜750は、バス760に接続される。
【0154】
なお、CPU710の代わりに、例えば、MPU(Micro Processing Unit)などの電子回路、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路を用いることもできる。また、メモリ750の代わりに、フラッシュメモリ(flash memory)などの半導体メモリ素子を用いることもできる。
【0155】
ハードディスク装置740には、上述の実施例にて説明した音声処理装置の機能と同様の機能を発揮する音声処理プログラム741および音声処理用データ742が記憶されている。なお、この音声処理プログラム741を適宜分散させて、ネットワークを介して通信可能に接続された他のコンピュータの記憶部に記憶させておくこともできる。
【0156】
そして、CPU710が、音声処理プログラム741をハードディスク装置740から読み出してRAMなどのメモリ750に展開することにより、図14に示すように、音声処理プログラム741は音声処理プロセス751として機能する。音声処理プロセス751は、ハードディスク装置740から読み出した音声処理用データ742等の各種データを適宜メモリ750上の自身に割当てられた領域に展開し、この展開した各種データに基づいて各種処理を実行する。
【0157】
なお、音声処理プロセス751は、例えば、図2に示した音声処理装置100の同期減算部120、パワー計算部130R、パワー計算部130L、ゲイン算出部140、平滑化部150および掛算部160にて実行される処理、例えば、図4に示す処理等を含む。
【0158】
なお、音声処理プログラム741については、必ずしも最初からハードディスク装置740に記憶させておく必要はない。例えば、電子機器700によるデータの読み込みや書込みが可能なフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、電子機器700がこれらから各プログラムを読み出して実行するようにしてもよい。
【0159】
さらには、公衆回線、インターネット、LAN、WANなどを介して、電子機器700が実装されたECUに接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておく。そして、電子機器700がこれらから各プログラムを読み出して実行するようにしてもよい。
【0160】
なお、上記の実施例において、パワー計算部130R、パワー計算部230R、パワー計算部330R、パワー計算部430Rは第一の計算部の一例である。また、パワー計算部130L、パワー計算部230L、パワー計算部330L、パワー計算部430Lは第二の計算部の一例である。また、ゲイン算出部140、ゲイン算出部240、ゲイン算出部340R、ゲイン算出部340L、ゲイン算出部440はゲイン算出部の一例である。また、掛算部160、掛算部260、掛算部360R、掛算部360L、掛算部460は加工部の一例である。また、平滑化部150、平滑化部250、平滑化部350R、平滑化部350L、平滑化部450は平滑化部の一例である。
【0161】
上述してきた実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0162】
(付記1)第一のマイクおよび第二のマイクのうち、前記第一のマイクが受付けた第一の信号に基づく第一のパワーを計算する第一の計算部と、
前記第二のマイクが受け付けた第二の信号に基づく第二のパワーを計算する第二の計算部と、
前記第一のパワーと前記第二のパワーとの比に基づいて、ゲインを算出する算出部と、
前記算出部により算出されたゲインを用いて前記第二の信号を加工する加工部と
を有することを特徴とする音声処理装置。
【0163】
(付記2)前記算出部は、前記第二のパワーから前記第一のパワーを減算した値が、該第二のパワーに対して小さいほど、前記第二の信号の振幅を大きく抑圧するゲインを算出することを特徴とする付記1に記載の音声処理装置。
【0164】
(付記3)前記第一のマイクおよび前記第二のマイクが指向性を有さないマイクであって、
前記第一の計算部は、前記第一の信号から前記第二の信号を減算した減算結果に基づいて、前記第一の信号のうち前記第一のマイク側から到来する信号に基づくパワーを前記第一のパワーとして計算し、
前記算出部は、前記第二のパワーから前記第一のパワーを減算した値が、該第二のパワーに対して小さいほど、前記第二の信号の振幅を大きく抑圧するゲインを算出することを特徴とする付記1に記載の音声処理装置。
【0165】
(付記4)前記第二の計算部は、前記第二の信号から前記第一の信号を減算した減算結果に基づいて、前記第二の信号のうち前記第二のマイク側から到来する信号に基づくパワーを前記第二のパワーとして計算することを特徴とする付記3に記載の音声処理装置。
【0166】
(付記5)前記算出部は、前記第一のパワーから前記第二のパワーを減算した値が、該第一のパワーに対して小さいほど、前記第一の信号の振幅を大きく抑圧する他のゲインをさらに算出し、
前記加工部は、前記算出部により算出された前記他のゲインを用いて前記第一の信号を加工することを特徴とする付記4に記載の音声処理装置。
【0167】
(付記6)所定のサンプリング周波数に従った第一のタイミングで前記算出部により算出されたゲインを、前記第一のタイミングよりも一つ前の第二のタイミングで前記算出部により算出されたゲインに応じて平滑化する平滑化部をさらに有し、
前記加工部は、前記平滑化部により平滑化されたゲインを用いて前記第二の信号を加工することを特徴とする付記1〜4のいずれか一つに記載の音声処理装置。
【0168】
(付記7)所定のサンプリング周波数に従った第一のタイミングで前記算出部により算出されたゲインを、前記第一のタイミングよりも一つ前の第二のタイミングで前記算出部により算出されたゲインに応じて平滑化し、前記第一のタイミングで前記算出部により算出された前記他のゲインを、前記第二のタイミングで前記算出部により算出された前記他のゲインに応じて平滑化する平滑化部をさらに有し、
前記加工部は、前記平滑化部により平滑化された前記他のゲインを用いて前記第一の信号を加工することを特徴とする付記5に記載の音声処理装置。
【0169】
(付記8)コンピュータに、
第一のマイクおよび第二のマイクのうち、前記第一のマイクが受付けた第一の信号に基づく第一のパワーを計算し、
前記第二のマイクが受け付けた第二の信号に基づく第二のパワーを計算し、
前記第一のパワーと前記第二のパワーとの比に基づいてゲインを算出し、
算出した前記ゲインを用いて前記第二の信号を加工する
処理を実行させることを特徴とする音声処理プログラム。
【0170】
(付記9)前記ゲインを算出する処理は、前記第二のパワーから前記第一のパワーを減算した値が、該第二のパワーに対して小さいほど、前記第二の信号の振幅を大きく抑圧するゲインを算出することを特徴とする付記8に記載の音声処理プログラム。
【0171】
(付記10)前記第一のマイクおよび前記第二のマイクが指向性を有さないマイクであって、
前記第一のパワーを計算する処理は、前記第一の信号から前記第二の信号を減算した減算結果に基づいて、前記第一の信号のうち前記第一のマイク側から到来する信号に基づくパワーを前記第一のパワーとして計算し、
前記ゲインを算出する処理は、前記第二のパワーから前記第一のパワーを減算した値が、該第二のパワーに対して小さいほど、前記第二の信号の振幅を大きく抑圧するゲインを算出することを特徴とする付記8に記載の音声処理プログラム。
【0172】
(付記11)前記第二のパワーを計算する処理は、前記第二の信号から前記第一の信号を減算した減算結果に基づいて、前記第二の信号のうち前記第二のマイク側から到来する信号に基づくパワーを前記第二のパワーとして計算することを特徴とする付記10に記載の音声処理プログラム。
【0173】
(付記12)前記ゲインを算出する処理は、前記第一のパワーから前記第二のパワーを減算した値が、該第一のパワーに対して小さいほど、前記第一の信号の振幅を大きく抑圧する他のゲインをさらに算出し、
前記コンピュータに、
前記他のゲインを用いて前記第一の信号を加工する処理をさらに実行させることを特徴とする付記11に記載の音声処理プログラム。
【0174】
(付記13)前記コンピュータに、
所定のサンプリング周波数に従った第一のタイミングで算出されたゲインを、前記第一のタイミングよりも一つ前の第二のタイミングで算出されたゲインに応じて平滑化する処理をさらに実行させ、
前記第二の信号を加工する処理は、前記平滑化する処理において平滑化されたゲインを用いて前記第二の信号を加工することを特徴とすることを特徴とする付記8〜11のいずれか一つに記載の音声処理プログラム。
【0175】
(付記14)前記コンピュータに、
所定のサンプリング周波数に従った第一のタイミングで算出されたゲインを、前記第一のタイミングよりも一つ前の第二のタイミングで算出されたゲインに応じて平滑化し、前記第一のタイミングで算出された前記他のゲインを、前記第二のタイミングで算出された前記他のゲインに応じて平滑化し、
前記平滑化する処理において平滑化されたゲインを用いて前記第二の信号を加工し、前記平滑化する処理において平滑化された前記他のゲインを用いて前記第一の信号を加工する
処理をさらに実行させることを特徴とする付記12に記載の音声処理プログラム。
【符号の説明】
【0176】
100 音声処理装置
110R、110L 音声入力部
120 同期減算部
130R、130L パワー計算部
140 ゲイン算出部
150 平滑化部
160 掛算部
200 音声処理装置
210R、210L 音声入力部
220R、220L 同期減算部
230R、230L パワー計算部
240 ゲイン算出部
250 平滑化部
260 掛算部
300 音声処理装置
310R、310L 音声入力部
320R、320L 同期減算部
330R、330L パワー計算部
340R、340L ゲイン算出部
350R、350L 平滑化部
360R、360L 掛算部
370 合算部
400 音声処理装置
410R、410L 音声入力部
430R、430L パワー計算部
440 ゲイン算出部
450 平滑化部
460 掛算部
500 ハンズフリーフォン
500A 音声処理装置
500B 通話処理ユニット
600 ナビゲーション装置
600A 音声処理装置
600B ナビゲーション処理ユニット
700 電子機器
710 CPU
720 入力インターフェース
730 出力インターフェース
740 ハードディスク装置
741 音声処理プログラム
742 音声処理用データ
750 メモリ
751 音声処理プロセス

【特許請求の範囲】
【請求項1】
第一のマイクおよび第二のマイクのうち、前記第一のマイクが受付けた第一の信号に基づく第一のパワーを計算する第一の計算部と、
前記第二のマイクが受け付けた第二の信号に基づく第二のパワーを計算する第二の計算部と、
前記第一のパワーと前記第二のパワーとの比に基づいて、ゲインを算出する算出部と、
前記算出部により算出されたゲインを用いて前記第二の信号を加工する加工部と
を有することを特徴とする音声処理装置。
【請求項2】
前記算出部は、前記第二のパワーから前記第一のパワーを減算した値が、該第二のパワーに対して小さいほど、前記第二の信号の振幅を大きく抑圧するゲインを算出することを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記第一のマイクおよび前記第二のマイクが指向性を有さないマイクであって、
前記第一の計算部は、前記第一の信号から前記第二の信号を減算した減算結果に基づいて、前記第一の信号のうち前記第一のマイク側から到来する信号に基づくパワーを前記第一のパワーとして計算し、
前記算出部は、前記第二のパワーから前記第一のパワーを減算した値が、該第二のパワーに対して小さいほど、前記第二の信号の振幅を大きく抑圧するゲインを算出することを特徴とする請求項1に記載の音声処理装置。
【請求項4】
前記第二の計算部は、前記第二の信号から前記第一の信号を減算した減算結果に基づいて、前記第二の信号のうち前記第二のマイク側から到来する信号に基づくパワーを前記第二のパワーとして計算することを特徴とする請求項3に記載の音声処理装置。
【請求項5】
前記算出部は、前記第一のパワーから前記第二のパワーを減算した値が、該第一のパワーに対して小さいほど、前記第一の信号の振幅を大きく抑圧する他のゲインをさらに算出し、
前記加工部は、前記算出部により算出された前記他のゲインを用いて前記第一の信号を加工することを特徴とする請求項4に記載の音声処理装置。
【請求項6】
所定のサンプリング周波数に従った第一のタイミングで前記算出部により算出されたゲインを、前記第一のタイミングよりも一つ前の第二のタイミングで前記算出部により算出されたゲインに応じて平滑化する平滑化部をさらに有し、
前記加工部は、前記平滑化部により平滑化されたゲインを用いて前記第二の信号を加工することを特徴とする請求項1または3に記載の音声処理装置。
【請求項7】
所定のサンプリング周波数に従った第一のタイミングで前記算出部により算出されたゲインを、前記第一のタイミングよりも一つ前の第二のタイミングで前記算出部により算出されたゲインに応じて平滑化し、前記第一のタイミングで前記算出部により算出された前記他のゲインを、前記第二のタイミングで前記算出部により算出された前記他のゲインに応じて平滑化する平滑化部をさらに有し、
前記加工部は、前記平滑化部により平滑化されたゲインを用いて前記第二の信号を加工し、前記平滑化部により平滑化された前記他のゲインを用いて前記第一の信号を加工することを特徴とする請求項5に記載の音声処理装置。
【請求項8】
コンピュータに、
第一のマイクおよび第二のマイクのうち、前記第一のマイクが受付けた第一の信号に基づく第一のパワーを計算し、
前記第二のマイクが受け付けた第二の信号に基づく第二のパワーを計算し、
前記第一のパワーと前記第二のパワーとの比に基づいてゲインを算出し、
算出した前記ゲインを用いて前記第二の信号を加工する
処理を実行させることを特徴とする音声処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2012−134578(P2012−134578A)
【公開日】平成24年7月12日(2012.7.12)
【国際特許分類】
【出願番号】特願2010−282436(P2010−282436)
【出願日】平成22年12月17日(2010.12.17)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】