音声処理装置、音声処理方法およびプログラム
【課題】音声信号に混合されている複数の音声の音量を補正した音声信号を容易に出力する音声処理装置および音声処理方法を提供する。
【解決手段】互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部110と、音声信号の周波数帯域成分間の位相差に基づいて音声の到来方向を判別する到来方向判別部120と、音声の到来方向に応じて音声信号に対する音量の補正量を導出する音声補正量導出部130と、導出した補正量を用いて音声信号の音量を補正する音量補正実行部140とを備える。
【解決手段】互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部110と、音声信号の周波数帯域成分間の位相差に基づいて音声の到来方向を判別する到来方向判別部120と、音声の到来方向に応じて音声信号に対する音量の補正量を導出する音声補正量導出部130と、導出した補正量を用いて音声信号の音量を補正する音量補正実行部140とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理方法およびプログラムに関する。
【背景技術】
【0002】
従来、複数の発話者からの音声が重畳されている音声信号に基づいて再生される音声には、特定の発話者からの音声が小さく聴取され聞き取りにくいといった課題があった。
このような課題に対し、複数の発話者からの音声が重畳された音声信号を、独立成分分析などの手法を用いて各発話者毎の音声に分離してから、それぞれの音声にたいして音量の補正を行うことが知られている。
【0003】
しかしながら、上記のような独立成分分析などの手法を用いて各発話者毎の音声を分離するためには、高度で複雑かつ多量の演算を必要とするために、汎用の端末装置や音声会議装置といった音声処理機能を有する機器に搭載するには、コストが高くなってしまうとともに消費電力が大きくなってしまうといった問題があった。
【0004】
このような問題に対し、複数のマイクを用いて特定の位置からの音声信号を取得する収音装置によって取得した音声信号の音量を適正に補正する技術が知られている(特許文献1)。
特許文献1に記載の技術では、2つの指向性マイクと1つの無指向性マイクの合わせて3つのマイクを用いて一の収音装置を構成し、この収音装置による音声の収音方向を特定するとともに、収音した音声のレベルを収音方向毎に比較して調整する技術である。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−17343号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1の技術は、2つの指向性マイクと1つの無指向性マイクを必要とし、これらマイクの配置位置に複雑な制約があるため、容易に実現することが困難であるといった問題があった。
また、特許文献1の技術は、一の収音装置の構成として2つの指向性マイクと1つの無指向性マイクのあわせて3つのマイクを用いるため、使用するマイクの個数が多くコストが高くなってしまうとともに、マイクを搭載するために十分な面積を装置内に確保しなければならないといった問題があった。
さらに、特許文献1の技術は、収音装置によって特定される収音方向が所定の方向に限定されるため、複数の音源が収音装置に近接している場合など、音源の方向が特定できない場合があり細かな制御ができないといった問題があった。
【0007】
そこで本発明は、上述の問題を解決すべく、複数の音声が混合されている音声信号に対して、複数の無指向性マイクによって収音して各音声の到来方向を判別するとともに、この音声信号に混合されている複数の音声の音量を補正した音声信号を容易に出力する音声処理装置および音声処理方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上述の目的を達成するために、本発明は、互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部と、この音声信号出力部から出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別部と、この到来方向判別部によって判別された到来方向に応じて前記音声信号に対する音量の補正量を導出する音声補正量導出部と、この音量補正量導出部によって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行部とを備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、音声信号出力部の無指向性マイクロフォンによって収集された音声における所定の周波数帯域成分間の位相差に基づいてこのマイクロフォンによって収集された音声の到来方向を判別し、マイクロフォンによって収集された音声の補正量を到来方向に応じて導出することにより、マイクロフォンによって収集された音声の音量を到来方向に応じて補正することができる。
【0010】
したがって、複数の到来方向からの音声が重畳されている音声信号から、複数の音声間の音量が均等になるように異なる到来方向からの音声の音量を補正することができるため、音声信号に重畳された各音声を聞き取りやすく再生することができる。
また、音声信号に重畳されている複数の音声を分離せずにこの音声信号に重畳されている複数の音声の到来方向別に音声の補正を行うことから、低演算量でかつ容易に音声信号に重畳された各音声の音量の補正を実行することが可能となる。
【図面の簡単な説明】
【0011】
【図1】本発明の第1の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図2】本発明の第1の実施の形態にかかる音声処理装置の動作を示すフローチャートである。
【図3】本発明の第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図4】本発明における音声処理装置と取得する複数の音声との位置関係を概念的に説明する図である。
【図5】音源の位置と無指向性マイクロフォンによって収音される音声信号との関係を概念的に示す図である。
【図6】収音領域と取得した音声信号の音量との関係を概念的に示す図である。
【図7】収音領域と取得した音声信号に対する補正量との関係を概念的に示す図である。
【図8】本発明の第2の実施の形態にかかる音声処理装置の動作を示すフローチャートである。
【図9】本発明の第3の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図10】本発明の第3の実施の形態にかかる音声処理装置における区切位置情報の決定を概念的に説明する図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について、図面を参照し詳細に説明する。
[第1の実施の形態]
本発明における第1の実施の形態にかかる音声処理装置は、異なる到来方向からの複数の音声が重畳された音声信号を複数のマイクロフォンで取得して、これらマイクロフォンで取得した音声信号における任意の周波数帯域成分間の位相差に基づいて判別される音声の到来方向に応じて取得した音声信号の音量を補正する音声処理装置である。
【0013】
本実施の形態にかかる音声処理装置10は、図1に示すように、音声信号出力部110と到来方向判別部120と音量補正量導出部130と音量補正実行部140とから構成されている。
音声信号出力部110は、互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する。
到来方向判別部120は、音声信号出力部110から出力される音声信号の任意の周波数帯域間の位相差に基づいて、音声信号出力部110のマイクロフォンによって収集された音声の到来方向を判別する。
【0014】
音量補正量導出部130は、到来方向判別部120によって判別された音声信号出力部110のマイクロフォンによって収集された音声の到来方向に応じてこのマイクロフォンによって取得された音声信号に対する音量の補正量を導出する。
音量補正実行部140は、音量補正量導出部130によって導出された補正量を用いて音声信号出力部110のマイクロフォンによって取得された音声信号の音量を補正する。
【0015】
なお、本実施の形態にかかる音声処理装置10の各構成要素は、CPUやメモリ、インターフェースからなるコンピュータにコンピュータプログラム(ソフトウエア)をインストールすることによって実現され、上述した音声処理装置10の各種機能は、上記コンピュータの各種ハードウェア資源と上記コンピュータプログラムとが協働することによって実現される。
【0016】
次に、図2を参照して、本実施の形態にかかる音声処理装置10の動作について説明する。
本実施の形態にかかる音声処理装置10は、図2に示すように、音声信号出力部110の複数のマイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を音声信号出力部110にそれぞれを出力させる(S101)。
【0017】
音声信号出力部110から複数のマイクロフォンによってそれぞれ取得された音声信号における任意の周波数帯域成分それぞれが出力されると、到来方向判定部120は、音声信号出力部110から出力された各周波数帯域成分間の位相差に基づいて、マイクロフォンによって収集された音声の到来方向を判別する(S102)。
【0018】
到来方向判定部120によってマイクロフォンによって収集された音声の到来方向を判別すると、音声補正量導出部130は、マイクロフォンによって取得された音声信号に対する音量の補正量を音声の到来方向に応じて導出する(S103)。
音声信号に対する音量の補正量が導出されると、音量補正実行部140は、導出された補正量を用いて音声信号の音量を補正する(S103)。
【0019】
このように、本実施の形態にかかる音声処理装置によれば、音声信号出力部のマイクロフォンによって収集された音声における所定の周波数帯域成分間の位相差に基づいてこのマイクロフォンによって収集された音声の到来方向を判別してマイクロフォンによって収集された音声の補正量を到来方向に応じて導出することにより、マイクロフォンによって収集された音声の音量を到来方向に応じて補正することができる。
したがって、複数の到来方向からの音声が重畳されている音声信号から、複数の音声間の音量が均等になるように異なる到来方向からの音声の音量を補正することができるため、音声信号に重畳された各音声を聞き取りやすく再生することができる。
【0020】
[第2の実施の形態]
図3は、本発明における第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。本実施の形態にかかる音声処理装置は、複数の音声が重畳された音声信号に対する音量の補正を音声の到来方向に応じて実行するものであり、特に、互いに離間して設置された2つの無指向性マイクロフォンによって取得された音声信号に基づいて、この音声信号に重畳された複数の音声の到来方向を判別して音声信号の音量を補正する音声処理装置である。
なお、本実施の形態にかかる音声処理装置の構成要素について、第1の実施の形態において説明した音声処理装置10の構成要素と同様の構成および機能を有するものには、同一の符号を付し、その詳細な説明は省略する。
【0021】
図3に示すように、本実施の形態にかかる音声処理装置20は、音声信号出力部210と到来方向判別部220と音量補正量導出部230と音量補正実行部240とから構成されている。
音声信号出力部210は、2つの無指向性マイクロフォン211−a,221−bを有する収音部211と、収音部211によって取得された音声信号を任意の周波数帯域成分に変換する周波数分析部212とから構成されている。
【0022】
音声信号出力210の収音部211は、無指向性マイクロフォン211−a,211−bを互いに離間して配置し、無指向性マイクロフォン211−a,221−bそれぞれによって取得された音声信号をそれぞれ出力する。
周波数分析部212は、収音部211から出力される無指向性マイクロフォン211−a,211−bそれぞれによって取得された音声信号について、所定の周波数帯域成分を生成し、出力する。ここで、周波数分析部212が出力する音声信号の周波数帯域成分における周波数帯域は、予め設定した周波数帯域とすることができる。例えば、人の声の周波数帯域の範囲内で予め設定した周波数帯域毎の音声信号における周波数帯域成分としても良い。
【0023】
到来方向判定部220は、周波数分析部212から出力される無指向性マイクロフォン211−a,211−bそれぞれによって取得された音声信号の到来方向を、これら音声信号の所定の周波数帯域成分間の位相差に基づいて特定される収音領域毎に判別する。
【0024】
<音声信号の到来方向の判別>
ここで、到来方向判別部220による音声信号の到来方向の判別機能について、具体的に説明する。
図4は、本実施の形態にかかる音声処理装置を搭載した端末Aと、端末Aの2つの無指向性マイクロフォン211−a,211−bによって収音される音声(音源1〜音源3)との位置関係の一例を概念的に示す図である。端末Aは、異なる音源(音源1〜3)による異なる位置から到来する音声を無指向性マイクロフォン211−a,211−bによって収音し、これらマイクで収音した全ての音声、すなわち音源1〜3の音声を含んだ音声信号を出力する。
【0025】
図4に示すように、異なる音源の異なる位置から到来する音声を収音する場合、端末Aの無指向性マイクロフォン211−aによって収音される音源1〜3を含んだ音声信号と無指向性マイクロフォン211−bによって収音される音源1〜3を含んだ音声信号との間には、音源の位置に応じて収音時間のずれが発生している。ここで、音源の位置と2つの無指向性マイクロフォンによって収音される音声信号との関係の概念図を図5に示す。
【0026】
例えば、図5に示すように、音源1からの音声を無指向性マイクロフォン211−aで収音した音声波形と無指向性マイクロフォン211−bで収音した音声波形との間には収音時間差aが、音源3からの音声を無指向性マイクロフォン211−aで収音した音声波形と無指向性マイクロフォン211−bで収音した音声波形との間には収音時間差cが存在している。
このような収音時間差は、無指向性マイクロフォン211−a、211−bと音源との位置関係に応じて発生する。すなわち、無指向性マイクロフォン211−aによって収音される音声のうち、音源1からの音声については、無指向性マイクロフォン211−bよりも無指向性マイクロフォン211−aが音源1に近い位置にあることから無指向性マイクロフォン211−bで収音されるより時間aだけ早く収音され、音源3からの音声については、無指向性マイクロフォン211−bよりも遠い位置にあることから時間cだけ遅れて収音される。
【0027】
一方、音源2からの音声については、無指向性マイクロフォン211−a、211−b共に等距離の位置にあることから、同時に収音され、収音時間のずれは発生していない。
このように、音源の位置に応じて、2つの無指向性マイクロフォンが収音する音声のタイミングには時間差が発生しており、この収音タイミングのずれに基づく2つの無指向性マイクロフォンによって取得された音声信号の位相差によって、音源の位置を特定することができる。
音声到来方向判定部220は、上述の図5を参照した説明のように、無指向性マイクロフォン211−a,211−bのそれぞれによって取得された音声信号のうち、周波数分析部212から出力される各周波数成分間の位相差を抽出することにより、収音部211によって収音された音声の到来方向を判別する。
【0028】
具体的には、例えば、音声到来方向判定部220は、収音領域を3つの領域に分割するように対応付けられた音声信号の位相差の情報を予め記憶している。音声到来方向判定部220は、無指向性マイクロフォン211−a,211−bのそれぞれによって取得された音声信号のうち、周波数分析部212から出力される周波数成分間の抽出した位相差と、予め記憶している収音領域毎に対応付けられた位相差の情報とを比較して、抽出した位相差を有する周波数成分の収音領域を判別する。
すなわち、到来方向判別部220は、収音部211によって取得された音声信号の全ての周波数成分について位相差を抽出して、抽出した位相差と予め記憶している収音領域毎に対応付けられた位相差の情報とを比較することにより、収音部2211によって収音された音声の到来方向を判別する。
【0029】
音量補正量導出部230は、収音部211によって取得された音声信号の到来方向毎に音量の補正量を定めた音量補正係数を導出する。
音量補正量導出部230は、到来方向判定部220によって収音領域が判別された周波数成分の音量レベルに基づいて音声信号の音量レベルを収音領域毎に推定する音量推定部231と、音量推定部231によって推定された音声信号の収音領域毎の音量レベルに基づいて収音部211によって取得された音声信号の音量に対する補正量を収音領域毎に示す音量補正係数を導出する補正係数導出部232とから構成されている。
【0030】
ここで、音量補正量導出部230の音量推定部231による音声信号の収音領域毎の音量レベルの推定機能および補正係数導出部232による音声信号の音量に対する補正量を収音領域毎に示す音量補正係数の導出機能について、具体的に説明する。
【0031】
<音声信号の音量の推定>
音量推定部231は、周波数分析部212から出力される収音部211によって取得された音声信号の各周波数成分毎に音量レベルを算出する。例えば、音量推定部231は、周波数分析部212から出力される音声信号の周波数成分におけるスペクトルのエネルギーに基づいて、この周波数成分の音量レベルを導出することができ、また、音声信号の周波数成分における振幅値(電圧値)に基づいてこの周波数成分の音量レベルを導出しても良い。
【0032】
音量推定部231は、周波数分析部212から出力される音声信号の各周波数成分における音量レベルを算出し、算出した音量レベルとこの音量レベルを有する周波数成分の到来方向とを関連付けて、音声信号の到来方向と各周波数成分における音量との関係を導出する。すなわち、音量推定部231は、音声信号の任意の周波数成分における位相差と音量レベルとの関係を、到来方向判別部220によって判別された収音領域毎に導出する。
音量推定部231は、導出した収音領域と音声信号の各周波数成分における音量レベルとの関係に基づいて、収音領域における最大音量レベルをこの収音領域における音声信号の音量として推定する。
【0033】
具体的には、例えば、音量推定部231によって推定される収音領域毎の音量は、収音領域と音声信号の各周波数成分における音量レベルとの関係の一例である図6中の実線に示すように、3つの収音領域(領域1〜3)における音声信号の周波数成分のうち、領域1における周波数成分の最大音量レベルを領域1の音声信号の音量とし、領域2、3も同様にこれら領域における周波数成分の最大音量レベルをこれら領域の音声信号の音量と推定する。
【0034】
<音量補正係数の導出>
補正係数導出部232は、音量推定部231によって推定された収音領域毎の音声信号の音量に基づいて収音領域毎に所望の音声信号が存在しているか否かを判定し、所望の音声信号が存在している収音領域それぞれの音声信号の音量を均一にするよう補正量を算出し、この補正量を収音領域毎に定めた音量補正係数を導出する。
【0035】
具体的には、例えば、図6に示すように、補正係数導出部232は、音量推定部231によって推定された音声信号の収音領域毎の音量に対して所定の閾値を予め設定する。この閾値より大きい音量を有する音声信号が、収音部211によって取得された所望の音声信号と判定することができる。この閾値は、規定値として予め設定しても良く、また、収音部211によって収音された音声に含まれる周囲雑音の音量を適宜算出して周囲雑音量に応じて定めても良い。
【0036】
図6に示す例では、音量推定部231によって推定された音声信号の収音領域毎の音量のうち、領域1と領域3の音量については閾値を超えており、領域2の音量については閾値を下回っている。すなわち、補正係数推定部232は、収音領域が領域1、領域3からの音声信号には所望の音声信号が存在し、領域2からの音声信号には所望の音声信号が存在していないと判定することができる。
【0037】
収音領域毎に所望の音声信号が存在しているか否かを判定すると、補正係数推定部232は、所望の音声信号が存在している収音領域のうち、最も高い音量の音声信号の収音領域と他の収音領域との音声信号の音量が同一となるよう収音領域毎に音量の補正量を算出する。
例えば、図6に示す例では、補正係数導出部232は、所望の音声信号が存在している領域1と領域3に対し、音量の高い領域1の音声信号の音量に合わせるよう領域3の音声信号の音量に対する補正量を算出する。また、領域2の音声信号に対しては、閾値未満の音量であるため補正を実行しない。
【0038】
すなわち、補正係数導出部232は、領域1と領域2の音声信号の音量に対する補正は行わず、領域3の音声信号の音量を領域1の音声信号の音量と同一となるよう補正する補正量を定めた音量補正係数を導出する。例えば、補正を行わない領域の補正量は1とし、補正を行う領域の補正量sは、s=(領域の最大音量)/(補正領域の音量)とすることができる。図6に示す例における領域3の音声信号の音量に対する補正量sは、s=V1/V3によって算出される。
【0039】
補正係数導出部232は、図6に示した領域1および領域2の音声信号の音量に対する補正量を1、領域3の音声信号の音量に対する補正量をsと定めた音量補正係数を導出する。
補正係数導出部232によって導出される音量補正係数は、補正された音量が過大な音量とならないよう、補正後の音量に制限を加えるとしても良い。例えば、補正後の音量が予め設定した限界値を超えないように音量補正係数を調整するとしても良く、導出する音量補正係数をs・α(0<α<1)として、適宜αを設定することにより補正後の音量を調整するとしても良い。
【0040】
ここで、図7に補正係数導出部232によって導出される音量補正係数の一例を示す。図7に示すように、補正係数導出部232によって導出された図6に示した領域1および領域2の音声信号の音量に対する補正量を1、領域3の音声信号の音量に対する補正量をsと定めた音量補正係数を波線にて示す。図7に示すような波線で示した音量補正係数を各領域の音声信号の音量補正に適応させると、領域2と領域3の境界上の音声信号に対して不連続となる音量補正を実行することとなる。これにより、異音の発生を引き起こす可能性がある。よって、補正係数導出部232は、不連続となる音量補正が発生しないような音量補正係数を導出する。
【0041】
例えば、図7の実線にて示すように、領域2および領域3のそれぞれの区間の中央となる位相差が各領域の補正量となるよう線形補間することで、領域2と領域3の境界上における補正量の不連続点の解消を実現することができる。また、線形補間だけではなく、2次補間などの非線形補間を用いても良く、過去の補正量を用いて平滑化しても良い。
【0042】
音量補正実行部240は、音声信号出力部210から出力される音声信号に音量補正量導出部230によって導出される音量補正係数を反映させ、収音部211によって取得された音声信号の音量を補正する。
具体的には、周波数分析部212によって出力される音声信号の所定の周波数成分と補正係数導出部232によって導出される音量補正係数とを用いて、周波数成分の音量を補正する。例えば、任意の周波数成分Xi(f,t)の音量を音量補正係数Ci(f,t)を用いて補正した周波数成分をYi(f,t)とすると、Yi(f,t)=Xi(f,t)・Ci(f,t)とすることができる。ただし、fは周波数インデックス、tは時間インデックスとする。
【0043】
なお、本実施の形態にかかる音声処理装置20の各構成要素は、CPUやメモリ、インターフェースからなるコンピュータにコンピュータプログラム(ソフトウエア)をインストールすることによって実現され、上述した音声処理装置20の各種機能は、上記コンピュータの各種ハードウェア資源と上記コンピュータプログラムとが協働することによって実現される。
【0044】
次に、本実施の形態にかかる音声処理装置20の音声処理動作について、図8に示すフローチャートを参照して説明する。
図8に示すように、本実施の形態にかかる音声処理装置20は、収音部211に搭載された2つの無指向性マイクロフォン211−a,211−bによって音声を収音する(S201)。
【0045】
2つの無指向性マイクロフォン211−a,211−bそれぞれによって取得された音声信号は、周波数分析部212によって予め設定されている周波数帯域毎の周波数成分にそれぞれ分割されて出力される(S202)。
周波数分析部212から2つの無指向性マイクロフォン211−a,211−bによって取得された音声信号の各周波数成分がそれぞれ出力されると、到来方向判定部220は、所定の周波数帯域毎に出力された周波数成分のうち無指向性マイクロフォン211−aによって取得された音声信号の周波数成分と無指向性マイクロフォン211−bによって取得された音声信号の周波数成分との位相差を抽出する(S203)。
【0046】
所定の周波数帯域毎に周波数成分の位相差を抽出すると、到来方向判定部220は、予め記憶している周波数成分の位相差と収音領域との関係および抽出した位相差に基づいて、収音部211によって取得された音声信号の各周波数成分の到来方向を予め設定された収音領域毎に判別する(S204)。
【0047】
収音部211によって取得された音声信号の各周波数成分の到来方向が収音領域毎に判別されると、音量補正量導出部230は、収音領域毎に音声信号の音量を推定して収音領域毎に音声信号の音量に対する補正量を定めた音量補正係数を導出する(S205)。
【0048】
音量補正量導出部230によって音量補正係数が導出されると、音量補正実行部240は、周波数分析部212から出力される音声信号の各周波数成分と音量補正量導出部230から出力される音量補正係数とを用いて、収音部211によって取得された音声信号の音量を収音領域毎に補正する(S206)。
【0049】
このように、本実施の形態にかかる音声処理装置20は、互いに離間して設置された2つの無指向性マイクロフォンによって収音された音声に対し、所定の周波数帯域毎に分割した周波数成分間の位相差に基づいてこの周波数成分の到来方向を判別し、全ての到来方向からの音声信号の音量が均等になるよう音量の補正量を到来方向毎に導出することにより、複数の音声が重畳されている信号から複数の音声間の音量が均等になるように複数の音声の音量を補正することができる。
したがって、複数の音声が重畳された音声信号のうち、聞き取りづらい特定の音声の音量を補正することができ、聞き取りやすく音声信号を再生することが可能となる。
【0050】
また、本実施の形態にかかる音声処理装置は、無指向性マイクロフォンによって取得された複数の音声が重畳された音声信号に対し、個々の音声に分離せず、所定の周波数帯域毎に分割した周波数成分間の位相差を導出することにより音声信号の到来方向を判別し到来方向毎に音声信号の音量補正を実行することから、独立成分分析などの手法を用いて各音声を分離した後に各音声の音量補正を実行する処理よりも低演算量で且つ容易に複数の音声の音量を補正することができる。
したがって、本実施の形態にかかる音声処理装置を、汎用の端末装置や音声会議装置といった音声処理機能を有する機器に、コストを抑制し且つ消費電力を抑えて搭載することが可能となる。
【0051】
[第3の実施の形態]
図9は、本発明における第3の実施の形態にかかる音声処理装置の構成を示すブロック図である。本実施の形態にかかる音声処理装置は、第2の実施の形態において説明した音声処理装置20の機能に、取得した音声信号の各周波数成分における音量に応じて音声信号の収音領域を適宜設定する機能をさらに加えたものである。
なお、本実施の形態にかかる音声処理装置30の構成および機能について、第2の実施の形態において説明した音声処理装置20と同一の構成および機能を有するものには同一の符号を付し、これらの詳細な説明を省略する。
【0052】
本実施の形態にかかる音声処理装置30は、図9に示すように、互いに離間して設置された2つの無指向性マイクロフォン211−a,211−bによって収音された音声の各周波数成分をそれぞれ出力する音声信号出力部210と、音声信号出力部210から出力される音声の各周波数成分の到来方向を判別する到来方向判定部320と、音声信号出力部210によって取得された音声信号の音量の到来方向に応じた補正量を導出する音量補正量導出部230と、音声信号出力部210によって出力される音声に音量補正量導出部230によって導出される音量の補正量を反映させることにより、音声の音量を補正する音量補正実行部240とから構成されている。
【0053】
上記した本実施の形態にかかる音声処理装置30の構成要素のうち、到来方向判別部320は、音声信号出力部210から出力される音声信号の周波数帯域成分間の位相差におけるこの周波数帯域成分の音量レベルに応じて収音領域を特定する収音領域特定部321をさらに備える。
【0054】
ここで、収音領域特定部321による収音領域の特定機能について、詳細に説明する。
収音領域特定部321は、周波数分析部212から所定の周波数帯域毎に出力される収音部211によって取得された音声信号の周波数成分のうち、無指向性マイクロフォン211−aによって取得された音声信号の周波数成分と無指向性マイクロフォン211−bによって取得された音声信号の周波数成分との位相差を抽出し、音声信号の周波数成分に対し、抽出した位相差と音量レベル(周波数成分におけるスペクトルまたは電圧値)との関係を導出する。
【0055】
図10に、収音領域特定部321が導出する音声信号の周波数成分における位相差と音量レベルとの関係を概念的に説明する図を示す。
収音領域特定部321は、図10に示すように、収音部211によって取得された音声信号の周波数成分毎に、抽出した位相差と音量レベルとを関連付けて記憶し(図10で示す×印)、音声信号の周波数成分における位相差と音量レベルとの関係を導出する。
【0056】
収音領域特定部321は、導出した音声信号の周波数成分における位相差と音量レベルとの関係に基づいて、収音領域を特定する。
具体的には、収音部211によって取得された音声信号の各周波数成分における位相差と音量レベルの関係から、補間により求められる図10の一点波線で示すような位相差と音量レベルの関係を示す曲線を導出する。補間の方法として、スプライン補間を用いても良い。
【0057】
収音領域特定部321は、補間により導出された音声信号の位相差と音量レベルとの関係を示す曲線の山と谷を検出し、谷を示す位相差を収音領域の境界位置と特定する。例えば、図10に示すように、位相差D1が収音領域1と領域2の境界点とし、位相差D2を領域2と領域3の境界点と特定する。
図10の例では、補間の後に谷を検出し、収音領域の境界点として特定するとしたが、演算量を削減するため、補間を実行せず近傍の値を用いて谷を検出し、収音領域の境界点として特定しても良い。
【0058】
収音領域特定部321によって収音領域が特定されると、音声補正量導出部230によって音声信号出力部210によって取得された音声信号の音量の補正量を収音領域毎に導出され、音量補正実行部240によって音声信号の音量の補正が実行される。
【0059】
このように、本実施の形態にかかる音声処理装置によれば、取得した音声信号に応じて収音領域を特定してこの収音領域に応じて音声信号の音量の補正を実行することにより、収音した複数の音声の到来方向に応じて音源の到来方向を適宜特定することができる。
したがって、移動する音源に対しても音量の補正を行うことができるため、高品質な出力音声を生成することが可能となる。
【産業上の利用可能性】
【0060】
音声通話を実行する電話端末およびTV会議システムや、音声録音機能を有するICレコーダなどの録音機器に利用可能である。
【符号の説明】
【0061】
10,20,30…音声処理装置、110,210…音声信号出力部、120,220,320…到来方向判定部、321…収音領域特定部、130,230…音量補正量導出部、231…音量推定部、232…補正係数導出部、140,240…音量補正実行部。
【技術分野】
【0001】
本発明は、音声処理装置、音声処理方法およびプログラムに関する。
【背景技術】
【0002】
従来、複数の発話者からの音声が重畳されている音声信号に基づいて再生される音声には、特定の発話者からの音声が小さく聴取され聞き取りにくいといった課題があった。
このような課題に対し、複数の発話者からの音声が重畳された音声信号を、独立成分分析などの手法を用いて各発話者毎の音声に分離してから、それぞれの音声にたいして音量の補正を行うことが知られている。
【0003】
しかしながら、上記のような独立成分分析などの手法を用いて各発話者毎の音声を分離するためには、高度で複雑かつ多量の演算を必要とするために、汎用の端末装置や音声会議装置といった音声処理機能を有する機器に搭載するには、コストが高くなってしまうとともに消費電力が大きくなってしまうといった問題があった。
【0004】
このような問題に対し、複数のマイクを用いて特定の位置からの音声信号を取得する収音装置によって取得した音声信号の音量を適正に補正する技術が知られている(特許文献1)。
特許文献1に記載の技術では、2つの指向性マイクと1つの無指向性マイクの合わせて3つのマイクを用いて一の収音装置を構成し、この収音装置による音声の収音方向を特定するとともに、収音した音声のレベルを収音方向毎に比較して調整する技術である。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−17343号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1の技術は、2つの指向性マイクと1つの無指向性マイクを必要とし、これらマイクの配置位置に複雑な制約があるため、容易に実現することが困難であるといった問題があった。
また、特許文献1の技術は、一の収音装置の構成として2つの指向性マイクと1つの無指向性マイクのあわせて3つのマイクを用いるため、使用するマイクの個数が多くコストが高くなってしまうとともに、マイクを搭載するために十分な面積を装置内に確保しなければならないといった問題があった。
さらに、特許文献1の技術は、収音装置によって特定される収音方向が所定の方向に限定されるため、複数の音源が収音装置に近接している場合など、音源の方向が特定できない場合があり細かな制御ができないといった問題があった。
【0007】
そこで本発明は、上述の問題を解決すべく、複数の音声が混合されている音声信号に対して、複数の無指向性マイクによって収音して各音声の到来方向を判別するとともに、この音声信号に混合されている複数の音声の音量を補正した音声信号を容易に出力する音声処理装置および音声処理方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上述の目的を達成するために、本発明は、互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部と、この音声信号出力部から出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別部と、この到来方向判別部によって判別された到来方向に応じて前記音声信号に対する音量の補正量を導出する音声補正量導出部と、この音量補正量導出部によって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行部とを備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、音声信号出力部の無指向性マイクロフォンによって収集された音声における所定の周波数帯域成分間の位相差に基づいてこのマイクロフォンによって収集された音声の到来方向を判別し、マイクロフォンによって収集された音声の補正量を到来方向に応じて導出することにより、マイクロフォンによって収集された音声の音量を到来方向に応じて補正することができる。
【0010】
したがって、複数の到来方向からの音声が重畳されている音声信号から、複数の音声間の音量が均等になるように異なる到来方向からの音声の音量を補正することができるため、音声信号に重畳された各音声を聞き取りやすく再生することができる。
また、音声信号に重畳されている複数の音声を分離せずにこの音声信号に重畳されている複数の音声の到来方向別に音声の補正を行うことから、低演算量でかつ容易に音声信号に重畳された各音声の音量の補正を実行することが可能となる。
【図面の簡単な説明】
【0011】
【図1】本発明の第1の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図2】本発明の第1の実施の形態にかかる音声処理装置の動作を示すフローチャートである。
【図3】本発明の第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図4】本発明における音声処理装置と取得する複数の音声との位置関係を概念的に説明する図である。
【図5】音源の位置と無指向性マイクロフォンによって収音される音声信号との関係を概念的に示す図である。
【図6】収音領域と取得した音声信号の音量との関係を概念的に示す図である。
【図7】収音領域と取得した音声信号に対する補正量との関係を概念的に示す図である。
【図8】本発明の第2の実施の形態にかかる音声処理装置の動作を示すフローチャートである。
【図9】本発明の第3の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図10】本発明の第3の実施の形態にかかる音声処理装置における区切位置情報の決定を概念的に説明する図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について、図面を参照し詳細に説明する。
[第1の実施の形態]
本発明における第1の実施の形態にかかる音声処理装置は、異なる到来方向からの複数の音声が重畳された音声信号を複数のマイクロフォンで取得して、これらマイクロフォンで取得した音声信号における任意の周波数帯域成分間の位相差に基づいて判別される音声の到来方向に応じて取得した音声信号の音量を補正する音声処理装置である。
【0013】
本実施の形態にかかる音声処理装置10は、図1に示すように、音声信号出力部110と到来方向判別部120と音量補正量導出部130と音量補正実行部140とから構成されている。
音声信号出力部110は、互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する。
到来方向判別部120は、音声信号出力部110から出力される音声信号の任意の周波数帯域間の位相差に基づいて、音声信号出力部110のマイクロフォンによって収集された音声の到来方向を判別する。
【0014】
音量補正量導出部130は、到来方向判別部120によって判別された音声信号出力部110のマイクロフォンによって収集された音声の到来方向に応じてこのマイクロフォンによって取得された音声信号に対する音量の補正量を導出する。
音量補正実行部140は、音量補正量導出部130によって導出された補正量を用いて音声信号出力部110のマイクロフォンによって取得された音声信号の音量を補正する。
【0015】
なお、本実施の形態にかかる音声処理装置10の各構成要素は、CPUやメモリ、インターフェースからなるコンピュータにコンピュータプログラム(ソフトウエア)をインストールすることによって実現され、上述した音声処理装置10の各種機能は、上記コンピュータの各種ハードウェア資源と上記コンピュータプログラムとが協働することによって実現される。
【0016】
次に、図2を参照して、本実施の形態にかかる音声処理装置10の動作について説明する。
本実施の形態にかかる音声処理装置10は、図2に示すように、音声信号出力部110の複数のマイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を音声信号出力部110にそれぞれを出力させる(S101)。
【0017】
音声信号出力部110から複数のマイクロフォンによってそれぞれ取得された音声信号における任意の周波数帯域成分それぞれが出力されると、到来方向判定部120は、音声信号出力部110から出力された各周波数帯域成分間の位相差に基づいて、マイクロフォンによって収集された音声の到来方向を判別する(S102)。
【0018】
到来方向判定部120によってマイクロフォンによって収集された音声の到来方向を判別すると、音声補正量導出部130は、マイクロフォンによって取得された音声信号に対する音量の補正量を音声の到来方向に応じて導出する(S103)。
音声信号に対する音量の補正量が導出されると、音量補正実行部140は、導出された補正量を用いて音声信号の音量を補正する(S103)。
【0019】
このように、本実施の形態にかかる音声処理装置によれば、音声信号出力部のマイクロフォンによって収集された音声における所定の周波数帯域成分間の位相差に基づいてこのマイクロフォンによって収集された音声の到来方向を判別してマイクロフォンによって収集された音声の補正量を到来方向に応じて導出することにより、マイクロフォンによって収集された音声の音量を到来方向に応じて補正することができる。
したがって、複数の到来方向からの音声が重畳されている音声信号から、複数の音声間の音量が均等になるように異なる到来方向からの音声の音量を補正することができるため、音声信号に重畳された各音声を聞き取りやすく再生することができる。
【0020】
[第2の実施の形態]
図3は、本発明における第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。本実施の形態にかかる音声処理装置は、複数の音声が重畳された音声信号に対する音量の補正を音声の到来方向に応じて実行するものであり、特に、互いに離間して設置された2つの無指向性マイクロフォンによって取得された音声信号に基づいて、この音声信号に重畳された複数の音声の到来方向を判別して音声信号の音量を補正する音声処理装置である。
なお、本実施の形態にかかる音声処理装置の構成要素について、第1の実施の形態において説明した音声処理装置10の構成要素と同様の構成および機能を有するものには、同一の符号を付し、その詳細な説明は省略する。
【0021】
図3に示すように、本実施の形態にかかる音声処理装置20は、音声信号出力部210と到来方向判別部220と音量補正量導出部230と音量補正実行部240とから構成されている。
音声信号出力部210は、2つの無指向性マイクロフォン211−a,221−bを有する収音部211と、収音部211によって取得された音声信号を任意の周波数帯域成分に変換する周波数分析部212とから構成されている。
【0022】
音声信号出力210の収音部211は、無指向性マイクロフォン211−a,211−bを互いに離間して配置し、無指向性マイクロフォン211−a,221−bそれぞれによって取得された音声信号をそれぞれ出力する。
周波数分析部212は、収音部211から出力される無指向性マイクロフォン211−a,211−bそれぞれによって取得された音声信号について、所定の周波数帯域成分を生成し、出力する。ここで、周波数分析部212が出力する音声信号の周波数帯域成分における周波数帯域は、予め設定した周波数帯域とすることができる。例えば、人の声の周波数帯域の範囲内で予め設定した周波数帯域毎の音声信号における周波数帯域成分としても良い。
【0023】
到来方向判定部220は、周波数分析部212から出力される無指向性マイクロフォン211−a,211−bそれぞれによって取得された音声信号の到来方向を、これら音声信号の所定の周波数帯域成分間の位相差に基づいて特定される収音領域毎に判別する。
【0024】
<音声信号の到来方向の判別>
ここで、到来方向判別部220による音声信号の到来方向の判別機能について、具体的に説明する。
図4は、本実施の形態にかかる音声処理装置を搭載した端末Aと、端末Aの2つの無指向性マイクロフォン211−a,211−bによって収音される音声(音源1〜音源3)との位置関係の一例を概念的に示す図である。端末Aは、異なる音源(音源1〜3)による異なる位置から到来する音声を無指向性マイクロフォン211−a,211−bによって収音し、これらマイクで収音した全ての音声、すなわち音源1〜3の音声を含んだ音声信号を出力する。
【0025】
図4に示すように、異なる音源の異なる位置から到来する音声を収音する場合、端末Aの無指向性マイクロフォン211−aによって収音される音源1〜3を含んだ音声信号と無指向性マイクロフォン211−bによって収音される音源1〜3を含んだ音声信号との間には、音源の位置に応じて収音時間のずれが発生している。ここで、音源の位置と2つの無指向性マイクロフォンによって収音される音声信号との関係の概念図を図5に示す。
【0026】
例えば、図5に示すように、音源1からの音声を無指向性マイクロフォン211−aで収音した音声波形と無指向性マイクロフォン211−bで収音した音声波形との間には収音時間差aが、音源3からの音声を無指向性マイクロフォン211−aで収音した音声波形と無指向性マイクロフォン211−bで収音した音声波形との間には収音時間差cが存在している。
このような収音時間差は、無指向性マイクロフォン211−a、211−bと音源との位置関係に応じて発生する。すなわち、無指向性マイクロフォン211−aによって収音される音声のうち、音源1からの音声については、無指向性マイクロフォン211−bよりも無指向性マイクロフォン211−aが音源1に近い位置にあることから無指向性マイクロフォン211−bで収音されるより時間aだけ早く収音され、音源3からの音声については、無指向性マイクロフォン211−bよりも遠い位置にあることから時間cだけ遅れて収音される。
【0027】
一方、音源2からの音声については、無指向性マイクロフォン211−a、211−b共に等距離の位置にあることから、同時に収音され、収音時間のずれは発生していない。
このように、音源の位置に応じて、2つの無指向性マイクロフォンが収音する音声のタイミングには時間差が発生しており、この収音タイミングのずれに基づく2つの無指向性マイクロフォンによって取得された音声信号の位相差によって、音源の位置を特定することができる。
音声到来方向判定部220は、上述の図5を参照した説明のように、無指向性マイクロフォン211−a,211−bのそれぞれによって取得された音声信号のうち、周波数分析部212から出力される各周波数成分間の位相差を抽出することにより、収音部211によって収音された音声の到来方向を判別する。
【0028】
具体的には、例えば、音声到来方向判定部220は、収音領域を3つの領域に分割するように対応付けられた音声信号の位相差の情報を予め記憶している。音声到来方向判定部220は、無指向性マイクロフォン211−a,211−bのそれぞれによって取得された音声信号のうち、周波数分析部212から出力される周波数成分間の抽出した位相差と、予め記憶している収音領域毎に対応付けられた位相差の情報とを比較して、抽出した位相差を有する周波数成分の収音領域を判別する。
すなわち、到来方向判別部220は、収音部211によって取得された音声信号の全ての周波数成分について位相差を抽出して、抽出した位相差と予め記憶している収音領域毎に対応付けられた位相差の情報とを比較することにより、収音部2211によって収音された音声の到来方向を判別する。
【0029】
音量補正量導出部230は、収音部211によって取得された音声信号の到来方向毎に音量の補正量を定めた音量補正係数を導出する。
音量補正量導出部230は、到来方向判定部220によって収音領域が判別された周波数成分の音量レベルに基づいて音声信号の音量レベルを収音領域毎に推定する音量推定部231と、音量推定部231によって推定された音声信号の収音領域毎の音量レベルに基づいて収音部211によって取得された音声信号の音量に対する補正量を収音領域毎に示す音量補正係数を導出する補正係数導出部232とから構成されている。
【0030】
ここで、音量補正量導出部230の音量推定部231による音声信号の収音領域毎の音量レベルの推定機能および補正係数導出部232による音声信号の音量に対する補正量を収音領域毎に示す音量補正係数の導出機能について、具体的に説明する。
【0031】
<音声信号の音量の推定>
音量推定部231は、周波数分析部212から出力される収音部211によって取得された音声信号の各周波数成分毎に音量レベルを算出する。例えば、音量推定部231は、周波数分析部212から出力される音声信号の周波数成分におけるスペクトルのエネルギーに基づいて、この周波数成分の音量レベルを導出することができ、また、音声信号の周波数成分における振幅値(電圧値)に基づいてこの周波数成分の音量レベルを導出しても良い。
【0032】
音量推定部231は、周波数分析部212から出力される音声信号の各周波数成分における音量レベルを算出し、算出した音量レベルとこの音量レベルを有する周波数成分の到来方向とを関連付けて、音声信号の到来方向と各周波数成分における音量との関係を導出する。すなわち、音量推定部231は、音声信号の任意の周波数成分における位相差と音量レベルとの関係を、到来方向判別部220によって判別された収音領域毎に導出する。
音量推定部231は、導出した収音領域と音声信号の各周波数成分における音量レベルとの関係に基づいて、収音領域における最大音量レベルをこの収音領域における音声信号の音量として推定する。
【0033】
具体的には、例えば、音量推定部231によって推定される収音領域毎の音量は、収音領域と音声信号の各周波数成分における音量レベルとの関係の一例である図6中の実線に示すように、3つの収音領域(領域1〜3)における音声信号の周波数成分のうち、領域1における周波数成分の最大音量レベルを領域1の音声信号の音量とし、領域2、3も同様にこれら領域における周波数成分の最大音量レベルをこれら領域の音声信号の音量と推定する。
【0034】
<音量補正係数の導出>
補正係数導出部232は、音量推定部231によって推定された収音領域毎の音声信号の音量に基づいて収音領域毎に所望の音声信号が存在しているか否かを判定し、所望の音声信号が存在している収音領域それぞれの音声信号の音量を均一にするよう補正量を算出し、この補正量を収音領域毎に定めた音量補正係数を導出する。
【0035】
具体的には、例えば、図6に示すように、補正係数導出部232は、音量推定部231によって推定された音声信号の収音領域毎の音量に対して所定の閾値を予め設定する。この閾値より大きい音量を有する音声信号が、収音部211によって取得された所望の音声信号と判定することができる。この閾値は、規定値として予め設定しても良く、また、収音部211によって収音された音声に含まれる周囲雑音の音量を適宜算出して周囲雑音量に応じて定めても良い。
【0036】
図6に示す例では、音量推定部231によって推定された音声信号の収音領域毎の音量のうち、領域1と領域3の音量については閾値を超えており、領域2の音量については閾値を下回っている。すなわち、補正係数推定部232は、収音領域が領域1、領域3からの音声信号には所望の音声信号が存在し、領域2からの音声信号には所望の音声信号が存在していないと判定することができる。
【0037】
収音領域毎に所望の音声信号が存在しているか否かを判定すると、補正係数推定部232は、所望の音声信号が存在している収音領域のうち、最も高い音量の音声信号の収音領域と他の収音領域との音声信号の音量が同一となるよう収音領域毎に音量の補正量を算出する。
例えば、図6に示す例では、補正係数導出部232は、所望の音声信号が存在している領域1と領域3に対し、音量の高い領域1の音声信号の音量に合わせるよう領域3の音声信号の音量に対する補正量を算出する。また、領域2の音声信号に対しては、閾値未満の音量であるため補正を実行しない。
【0038】
すなわち、補正係数導出部232は、領域1と領域2の音声信号の音量に対する補正は行わず、領域3の音声信号の音量を領域1の音声信号の音量と同一となるよう補正する補正量を定めた音量補正係数を導出する。例えば、補正を行わない領域の補正量は1とし、補正を行う領域の補正量sは、s=(領域の最大音量)/(補正領域の音量)とすることができる。図6に示す例における領域3の音声信号の音量に対する補正量sは、s=V1/V3によって算出される。
【0039】
補正係数導出部232は、図6に示した領域1および領域2の音声信号の音量に対する補正量を1、領域3の音声信号の音量に対する補正量をsと定めた音量補正係数を導出する。
補正係数導出部232によって導出される音量補正係数は、補正された音量が過大な音量とならないよう、補正後の音量に制限を加えるとしても良い。例えば、補正後の音量が予め設定した限界値を超えないように音量補正係数を調整するとしても良く、導出する音量補正係数をs・α(0<α<1)として、適宜αを設定することにより補正後の音量を調整するとしても良い。
【0040】
ここで、図7に補正係数導出部232によって導出される音量補正係数の一例を示す。図7に示すように、補正係数導出部232によって導出された図6に示した領域1および領域2の音声信号の音量に対する補正量を1、領域3の音声信号の音量に対する補正量をsと定めた音量補正係数を波線にて示す。図7に示すような波線で示した音量補正係数を各領域の音声信号の音量補正に適応させると、領域2と領域3の境界上の音声信号に対して不連続となる音量補正を実行することとなる。これにより、異音の発生を引き起こす可能性がある。よって、補正係数導出部232は、不連続となる音量補正が発生しないような音量補正係数を導出する。
【0041】
例えば、図7の実線にて示すように、領域2および領域3のそれぞれの区間の中央となる位相差が各領域の補正量となるよう線形補間することで、領域2と領域3の境界上における補正量の不連続点の解消を実現することができる。また、線形補間だけではなく、2次補間などの非線形補間を用いても良く、過去の補正量を用いて平滑化しても良い。
【0042】
音量補正実行部240は、音声信号出力部210から出力される音声信号に音量補正量導出部230によって導出される音量補正係数を反映させ、収音部211によって取得された音声信号の音量を補正する。
具体的には、周波数分析部212によって出力される音声信号の所定の周波数成分と補正係数導出部232によって導出される音量補正係数とを用いて、周波数成分の音量を補正する。例えば、任意の周波数成分Xi(f,t)の音量を音量補正係数Ci(f,t)を用いて補正した周波数成分をYi(f,t)とすると、Yi(f,t)=Xi(f,t)・Ci(f,t)とすることができる。ただし、fは周波数インデックス、tは時間インデックスとする。
【0043】
なお、本実施の形態にかかる音声処理装置20の各構成要素は、CPUやメモリ、インターフェースからなるコンピュータにコンピュータプログラム(ソフトウエア)をインストールすることによって実現され、上述した音声処理装置20の各種機能は、上記コンピュータの各種ハードウェア資源と上記コンピュータプログラムとが協働することによって実現される。
【0044】
次に、本実施の形態にかかる音声処理装置20の音声処理動作について、図8に示すフローチャートを参照して説明する。
図8に示すように、本実施の形態にかかる音声処理装置20は、収音部211に搭載された2つの無指向性マイクロフォン211−a,211−bによって音声を収音する(S201)。
【0045】
2つの無指向性マイクロフォン211−a,211−bそれぞれによって取得された音声信号は、周波数分析部212によって予め設定されている周波数帯域毎の周波数成分にそれぞれ分割されて出力される(S202)。
周波数分析部212から2つの無指向性マイクロフォン211−a,211−bによって取得された音声信号の各周波数成分がそれぞれ出力されると、到来方向判定部220は、所定の周波数帯域毎に出力された周波数成分のうち無指向性マイクロフォン211−aによって取得された音声信号の周波数成分と無指向性マイクロフォン211−bによって取得された音声信号の周波数成分との位相差を抽出する(S203)。
【0046】
所定の周波数帯域毎に周波数成分の位相差を抽出すると、到来方向判定部220は、予め記憶している周波数成分の位相差と収音領域との関係および抽出した位相差に基づいて、収音部211によって取得された音声信号の各周波数成分の到来方向を予め設定された収音領域毎に判別する(S204)。
【0047】
収音部211によって取得された音声信号の各周波数成分の到来方向が収音領域毎に判別されると、音量補正量導出部230は、収音領域毎に音声信号の音量を推定して収音領域毎に音声信号の音量に対する補正量を定めた音量補正係数を導出する(S205)。
【0048】
音量補正量導出部230によって音量補正係数が導出されると、音量補正実行部240は、周波数分析部212から出力される音声信号の各周波数成分と音量補正量導出部230から出力される音量補正係数とを用いて、収音部211によって取得された音声信号の音量を収音領域毎に補正する(S206)。
【0049】
このように、本実施の形態にかかる音声処理装置20は、互いに離間して設置された2つの無指向性マイクロフォンによって収音された音声に対し、所定の周波数帯域毎に分割した周波数成分間の位相差に基づいてこの周波数成分の到来方向を判別し、全ての到来方向からの音声信号の音量が均等になるよう音量の補正量を到来方向毎に導出することにより、複数の音声が重畳されている信号から複数の音声間の音量が均等になるように複数の音声の音量を補正することができる。
したがって、複数の音声が重畳された音声信号のうち、聞き取りづらい特定の音声の音量を補正することができ、聞き取りやすく音声信号を再生することが可能となる。
【0050】
また、本実施の形態にかかる音声処理装置は、無指向性マイクロフォンによって取得された複数の音声が重畳された音声信号に対し、個々の音声に分離せず、所定の周波数帯域毎に分割した周波数成分間の位相差を導出することにより音声信号の到来方向を判別し到来方向毎に音声信号の音量補正を実行することから、独立成分分析などの手法を用いて各音声を分離した後に各音声の音量補正を実行する処理よりも低演算量で且つ容易に複数の音声の音量を補正することができる。
したがって、本実施の形態にかかる音声処理装置を、汎用の端末装置や音声会議装置といった音声処理機能を有する機器に、コストを抑制し且つ消費電力を抑えて搭載することが可能となる。
【0051】
[第3の実施の形態]
図9は、本発明における第3の実施の形態にかかる音声処理装置の構成を示すブロック図である。本実施の形態にかかる音声処理装置は、第2の実施の形態において説明した音声処理装置20の機能に、取得した音声信号の各周波数成分における音量に応じて音声信号の収音領域を適宜設定する機能をさらに加えたものである。
なお、本実施の形態にかかる音声処理装置30の構成および機能について、第2の実施の形態において説明した音声処理装置20と同一の構成および機能を有するものには同一の符号を付し、これらの詳細な説明を省略する。
【0052】
本実施の形態にかかる音声処理装置30は、図9に示すように、互いに離間して設置された2つの無指向性マイクロフォン211−a,211−bによって収音された音声の各周波数成分をそれぞれ出力する音声信号出力部210と、音声信号出力部210から出力される音声の各周波数成分の到来方向を判別する到来方向判定部320と、音声信号出力部210によって取得された音声信号の音量の到来方向に応じた補正量を導出する音量補正量導出部230と、音声信号出力部210によって出力される音声に音量補正量導出部230によって導出される音量の補正量を反映させることにより、音声の音量を補正する音量補正実行部240とから構成されている。
【0053】
上記した本実施の形態にかかる音声処理装置30の構成要素のうち、到来方向判別部320は、音声信号出力部210から出力される音声信号の周波数帯域成分間の位相差におけるこの周波数帯域成分の音量レベルに応じて収音領域を特定する収音領域特定部321をさらに備える。
【0054】
ここで、収音領域特定部321による収音領域の特定機能について、詳細に説明する。
収音領域特定部321は、周波数分析部212から所定の周波数帯域毎に出力される収音部211によって取得された音声信号の周波数成分のうち、無指向性マイクロフォン211−aによって取得された音声信号の周波数成分と無指向性マイクロフォン211−bによって取得された音声信号の周波数成分との位相差を抽出し、音声信号の周波数成分に対し、抽出した位相差と音量レベル(周波数成分におけるスペクトルまたは電圧値)との関係を導出する。
【0055】
図10に、収音領域特定部321が導出する音声信号の周波数成分における位相差と音量レベルとの関係を概念的に説明する図を示す。
収音領域特定部321は、図10に示すように、収音部211によって取得された音声信号の周波数成分毎に、抽出した位相差と音量レベルとを関連付けて記憶し(図10で示す×印)、音声信号の周波数成分における位相差と音量レベルとの関係を導出する。
【0056】
収音領域特定部321は、導出した音声信号の周波数成分における位相差と音量レベルとの関係に基づいて、収音領域を特定する。
具体的には、収音部211によって取得された音声信号の各周波数成分における位相差と音量レベルの関係から、補間により求められる図10の一点波線で示すような位相差と音量レベルの関係を示す曲線を導出する。補間の方法として、スプライン補間を用いても良い。
【0057】
収音領域特定部321は、補間により導出された音声信号の位相差と音量レベルとの関係を示す曲線の山と谷を検出し、谷を示す位相差を収音領域の境界位置と特定する。例えば、図10に示すように、位相差D1が収音領域1と領域2の境界点とし、位相差D2を領域2と領域3の境界点と特定する。
図10の例では、補間の後に谷を検出し、収音領域の境界点として特定するとしたが、演算量を削減するため、補間を実行せず近傍の値を用いて谷を検出し、収音領域の境界点として特定しても良い。
【0058】
収音領域特定部321によって収音領域が特定されると、音声補正量導出部230によって音声信号出力部210によって取得された音声信号の音量の補正量を収音領域毎に導出され、音量補正実行部240によって音声信号の音量の補正が実行される。
【0059】
このように、本実施の形態にかかる音声処理装置によれば、取得した音声信号に応じて収音領域を特定してこの収音領域に応じて音声信号の音量の補正を実行することにより、収音した複数の音声の到来方向に応じて音源の到来方向を適宜特定することができる。
したがって、移動する音源に対しても音量の補正を行うことができるため、高品質な出力音声を生成することが可能となる。
【産業上の利用可能性】
【0060】
音声通話を実行する電話端末およびTV会議システムや、音声録音機能を有するICレコーダなどの録音機器に利用可能である。
【符号の説明】
【0061】
10,20,30…音声処理装置、110,210…音声信号出力部、120,220,320…到来方向判定部、321…収音領域特定部、130,230…音量補正量導出部、231…音量推定部、232…補正係数導出部、140,240…音量補正実行部。
【特許請求の範囲】
【請求項1】
互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部と、
この音声信号出力部から出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別部と、
この到来方向判別部によって判別された到来方向に応じて前記音声信号の音量に対する補正量を導出する音量補正量導出部と、
この音量補正量導出部によって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行部と
を備えることを特徴とする音声処理装置。
【請求項2】
請求項1に記載の音声処理装置において、
前記到来方向判別部は、前記マイクロフォンによって収集される音声の到来方向を前記周波数帯域成分間の位相差に応じて特定される収音領域毎に判別し、
前記音量補正量導出部は、前記到来方向判別部によって前記収音領域を判別された前記周波数帯域成分の音量レベルに基づいて前記音声信号の音量に対する補正量を前記収音領域毎に導出する
ことを特徴とする音声処理装置。
【請求項3】
請求項2に記載の音声処理装置において、
前記到来方向判定部は、前記音声信号出力部から出力される任意の周波数帯域成分間の位相差におけるこの周波数帯域成分の音量レベルに応じて前記収音領域を特定することを特徴とする音声処理装置。
【請求項4】
互いに離して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力ステップと、
この音声信号出力ステップから出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別ステップと、
この到来方向判別ステップによって判別された到来方向に応じて前記音声信号の音量に対する補正量を導出する音量補正量導出ステップと、
この音量補正量導出ステップによって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行ステップと
を備えることを特徴とする音声処理方法。
【請求項5】
請求項4に記載の音声処理方法において、
前記到来方向判別ステップは、前記マイクロフォンによって収集される音声の到来方向を前記周波数帯域成分間の位相差に応じて特定される収音領域毎に判別し、
前記音量補正量導出ステップは、前記到来方向判別ステップによって前記収音領域を判別された前記周波数帯域成分の音量レベルに基づいて前記音声信号の音量に対する補正量を前記収音領域毎に導出する
ことを特徴とする音声処理方法。
【請求項6】
請求項4または5に記載の音声処理方法をコンピュータに実行させることを特徴とする音声処理プログラム。
【請求項1】
互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部と、
この音声信号出力部から出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別部と、
この到来方向判別部によって判別された到来方向に応じて前記音声信号の音量に対する補正量を導出する音量補正量導出部と、
この音量補正量導出部によって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行部と
を備えることを特徴とする音声処理装置。
【請求項2】
請求項1に記載の音声処理装置において、
前記到来方向判別部は、前記マイクロフォンによって収集される音声の到来方向を前記周波数帯域成分間の位相差に応じて特定される収音領域毎に判別し、
前記音量補正量導出部は、前記到来方向判別部によって前記収音領域を判別された前記周波数帯域成分の音量レベルに基づいて前記音声信号の音量に対する補正量を前記収音領域毎に導出する
ことを特徴とする音声処理装置。
【請求項3】
請求項2に記載の音声処理装置において、
前記到来方向判定部は、前記音声信号出力部から出力される任意の周波数帯域成分間の位相差におけるこの周波数帯域成分の音量レベルに応じて前記収音領域を特定することを特徴とする音声処理装置。
【請求項4】
互いに離して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力ステップと、
この音声信号出力ステップから出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別ステップと、
この到来方向判別ステップによって判別された到来方向に応じて前記音声信号の音量に対する補正量を導出する音量補正量導出ステップと、
この音量補正量導出ステップによって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行ステップと
を備えることを特徴とする音声処理方法。
【請求項5】
請求項4に記載の音声処理方法において、
前記到来方向判別ステップは、前記マイクロフォンによって収集される音声の到来方向を前記周波数帯域成分間の位相差に応じて特定される収音領域毎に判別し、
前記音量補正量導出ステップは、前記到来方向判別ステップによって前記収音領域を判別された前記周波数帯域成分の音量レベルに基づいて前記音声信号の音量に対する補正量を前記収音領域毎に導出する
ことを特徴とする音声処理方法。
【請求項6】
請求項4または5に記載の音声処理方法をコンピュータに実行させることを特徴とする音声処理プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2011−205324(P2011−205324A)
【公開日】平成23年10月13日(2011.10.13)
【国際特許分類】
【出願番号】特願2010−69732(P2010−69732)
【出願日】平成22年3月25日(2010.3.25)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】
【公開日】平成23年10月13日(2011.10.13)
【国際特許分類】
【出願日】平成22年3月25日(2010.3.25)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】
[ Back to top ]