音声処理装置、音声処理方法およびプログラム

【課題】音声信号に混合されている複数の音声の音量を補正した音声信号を容易に出力する音声処理装置および音声処理方法を提供する。
【解決手段】互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部110と、音声信号の周波数帯域成分間の位相差に基づいて音声の到来方向を判別する到来方向判別部120と、音声の到来方向に応じて音声信号に対する音量の補正量を導出する音声補正量導出部130と、導出した補正量を用いて音声信号の音量を補正する音量補正実行部140とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声処理装置、音声処理方法およびプログラムに関する。
【背景技術】
【０００２】
従来、複数の発話者からの音声が重畳されている音声信号に基づいて再生される音声には、特定の発話者からの音声が小さく聴取され聞き取りにくいといった課題があった。
このような課題に対し、複数の発話者からの音声が重畳された音声信号を、独立成分分析などの手法を用いて各発話者毎の音声に分離してから、それぞれの音声にたいして音量の補正を行うことが知られている。
【０００３】
しかしながら、上記のような独立成分分析などの手法を用いて各発話者毎の音声を分離するためには、高度で複雑かつ多量の演算を必要とするために、汎用の端末装置や音声会議装置といった音声処理機能を有する機器に搭載するには、コストが高くなってしまうとともに消費電力が大きくなってしまうといった問題があった。
【０００４】
このような問題に対し、複数のマイクを用いて特定の位置からの音声信号を取得する収音装置によって取得した音声信号の音量を適正に補正する技術が知られている（特許文献１）。
特許文献１に記載の技術では、２つの指向性マイクと１つの無指向性マイクの合わせて３つのマイクを用いて一の収音装置を構成し、この収音装置による音声の収音方向を特定するとともに、収音した音声のレベルを収音方向毎に比較して調整する技術である。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００９−１７３４３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、特許文献１の技術は、２つの指向性マイクと１つの無指向性マイクを必要とし、これらマイクの配置位置に複雑な制約があるため、容易に実現することが困難であるといった問題があった。
また、特許文献１の技術は、一の収音装置の構成として２つの指向性マイクと１つの無指向性マイクのあわせて３つのマイクを用いるため、使用するマイクの個数が多くコストが高くなってしまうとともに、マイクを搭載するために十分な面積を装置内に確保しなければならないといった問題があった。
さらに、特許文献１の技術は、収音装置によって特定される収音方向が所定の方向に限定されるため、複数の音源が収音装置に近接している場合など、音源の方向が特定できない場合があり細かな制御ができないといった問題があった。
【０００７】
そこで本発明は、上述の問題を解決すべく、複数の音声が混合されている音声信号に対して、複数の無指向性マイクによって収音して各音声の到来方向を判別するとともに、この音声信号に混合されている複数の音声の音量を補正した音声信号を容易に出力する音声処理装置および音声処理方法を提供することを目的とする。
【課題を解決するための手段】
【０００８】
上述の目的を達成するために、本発明は、互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部と、この音声信号出力部から出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別部と、この到来方向判別部によって判別された到来方向に応じて前記音声信号に対する音量の補正量を導出する音声補正量導出部と、この音量補正量導出部によって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行部とを備えることを特徴とする。
【発明の効果】
【０００９】
本発明によれば、音声信号出力部の無指向性マイクロフォンによって収集された音声における所定の周波数帯域成分間の位相差に基づいてこのマイクロフォンによって収集された音声の到来方向を判別し、マイクロフォンによって収集された音声の補正量を到来方向に応じて導出することにより、マイクロフォンによって収集された音声の音量を到来方向に応じて補正することができる。
【００１０】
したがって、複数の到来方向からの音声が重畳されている音声信号から、複数の音声間の音量が均等になるように異なる到来方向からの音声の音量を補正することができるため、音声信号に重畳された各音声を聞き取りやすく再生することができる。
また、音声信号に重畳されている複数の音声を分離せずにこの音声信号に重畳されている複数の音声の到来方向別に音声の補正を行うことから、低演算量でかつ容易に音声信号に重畳された各音声の音量の補正を実行することが可能となる。
【図面の簡単な説明】
【００１１】
【図１】本発明の第１の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図２】本発明の第１の実施の形態にかかる音声処理装置の動作を示すフローチャートである。
【図３】本発明の第２の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図４】本発明における音声処理装置と取得する複数の音声との位置関係を概念的に説明する図である。
【図５】音源の位置と無指向性マイクロフォンによって収音される音声信号との関係を概念的に示す図である。
【図６】収音領域と取得した音声信号の音量との関係を概念的に示す図である。
【図７】収音領域と取得した音声信号に対する補正量との関係を概念的に示す図である。
【図８】本発明の第２の実施の形態にかかる音声処理装置の動作を示すフローチャートである。
【図９】本発明の第３の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図１０】本発明の第３の実施の形態にかかる音声処理装置における区切位置情報の決定を概念的に説明する図である。
【発明を実施するための形態】
【００１２】
以下、本発明の実施の形態について、図面を参照し詳細に説明する。
［第１の実施の形態］
本発明における第１の実施の形態にかかる音声処理装置は、異なる到来方向からの複数の音声が重畳された音声信号を複数のマイクロフォンで取得して、これらマイクロフォンで取得した音声信号における任意の周波数帯域成分間の位相差に基づいて判別される音声の到来方向に応じて取得した音声信号の音量を補正する音声処理装置である。
【００１３】
本実施の形態にかかる音声処理装置１０は、図１に示すように、音声信号出力部１１０と到来方向判別部１２０と音量補正量導出部１３０と音量補正実行部１４０とから構成されている。
音声信号出力部１１０は、互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する。
到来方向判別部１２０は、音声信号出力部１１０から出力される音声信号の任意の周波数帯域間の位相差に基づいて、音声信号出力部１１０のマイクロフォンによって収集された音声の到来方向を判別する。
【００１４】
音量補正量導出部１３０は、到来方向判別部１２０によって判別された音声信号出力部１１０のマイクロフォンによって収集された音声の到来方向に応じてこのマイクロフォンによって取得された音声信号に対する音量の補正量を導出する。
音量補正実行部１４０は、音量補正量導出部１３０によって導出された補正量を用いて音声信号出力部１１０のマイクロフォンによって取得された音声信号の音量を補正する。
【００１５】
なお、本実施の形態にかかる音声処理装置１０の各構成要素は、ＣＰＵやメモリ、インターフェースからなるコンピュータにコンピュータプログラム（ソフトウエア）をインストールすることによって実現され、上述した音声処理装置１０の各種機能は、上記コンピュータの各種ハードウェア資源と上記コンピュータプログラムとが協働することによって実現される。
【００１６】
次に、図２を参照して、本実施の形態にかかる音声処理装置１０の動作について説明する。
本実施の形態にかかる音声処理装置１０は、図２に示すように、音声信号出力部１１０の複数のマイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を音声信号出力部１１０にそれぞれを出力させる（Ｓ１０１）。
【００１７】
音声信号出力部１１０から複数のマイクロフォンによってそれぞれ取得された音声信号における任意の周波数帯域成分それぞれが出力されると、到来方向判定部１２０は、音声信号出力部１１０から出力された各周波数帯域成分間の位相差に基づいて、マイクロフォンによって収集された音声の到来方向を判別する（Ｓ１０２）。
【００１８】
到来方向判定部１２０によってマイクロフォンによって収集された音声の到来方向を判別すると、音声補正量導出部１３０は、マイクロフォンによって取得された音声信号に対する音量の補正量を音声の到来方向に応じて導出する（Ｓ１０３）。
音声信号に対する音量の補正量が導出されると、音量補正実行部１４０は、導出された補正量を用いて音声信号の音量を補正する（Ｓ１０３）。
【００１９】
このように、本実施の形態にかかる音声処理装置によれば、音声信号出力部のマイクロフォンによって収集された音声における所定の周波数帯域成分間の位相差に基づいてこのマイクロフォンによって収集された音声の到来方向を判別してマイクロフォンによって収集された音声の補正量を到来方向に応じて導出することにより、マイクロフォンによって収集された音声の音量を到来方向に応じて補正することができる。
したがって、複数の到来方向からの音声が重畳されている音声信号から、複数の音声間の音量が均等になるように異なる到来方向からの音声の音量を補正することができるため、音声信号に重畳された各音声を聞き取りやすく再生することができる。
【００２０】
［第２の実施の形態］
図３は、本発明における第２の実施の形態にかかる音声処理装置の構成を示すブロック図である。本実施の形態にかかる音声処理装置は、複数の音声が重畳された音声信号に対する音量の補正を音声の到来方向に応じて実行するものであり、特に、互いに離間して設置された２つの無指向性マイクロフォンによって取得された音声信号に基づいて、この音声信号に重畳された複数の音声の到来方向を判別して音声信号の音量を補正する音声処理装置である。
なお、本実施の形態にかかる音声処理装置の構成要素について、第１の実施の形態において説明した音声処理装置１０の構成要素と同様の構成および機能を有するものには、同一の符号を付し、その詳細な説明は省略する。
【００２１】
図３に示すように、本実施の形態にかかる音声処理装置２０は、音声信号出力部２１０と到来方向判別部２２０と音量補正量導出部２３０と音量補正実行部２４０とから構成されている。
音声信号出力部２１０は、２つの無指向性マイクロフォン２１１−ａ，２２１−ｂを有する収音部２１１と、収音部２１１によって取得された音声信号を任意の周波数帯域成分に変換する周波数分析部２１２とから構成されている。
【００２２】
音声信号出力２１０の収音部２１１は、無指向性マイクロフォン２１１−ａ，２１１−ｂを互いに離間して配置し、無指向性マイクロフォン２１１−ａ，２２１−ｂそれぞれによって取得された音声信号をそれぞれ出力する。
周波数分析部２１２は、収音部２１１から出力される無指向性マイクロフォン２１１−ａ，２１１−ｂそれぞれによって取得された音声信号について、所定の周波数帯域成分を生成し、出力する。ここで、周波数分析部２１２が出力する音声信号の周波数帯域成分における周波数帯域は、予め設定した周波数帯域とすることができる。例えば、人の声の周波数帯域の範囲内で予め設定した周波数帯域毎の音声信号における周波数帯域成分としても良い。
【００２３】
到来方向判定部２２０は、周波数分析部２１２から出力される無指向性マイクロフォン２１１−ａ，２１１−ｂそれぞれによって取得された音声信号の到来方向を、これら音声信号の所定の周波数帯域成分間の位相差に基づいて特定される収音領域毎に判別する。
【００２４】
＜音声信号の到来方向の判別＞
ここで、到来方向判別部２２０による音声信号の到来方向の判別機能について、具体的に説明する。
図４は、本実施の形態にかかる音声処理装置を搭載した端末Ａと、端末Ａの２つの無指向性マイクロフォン２１１−ａ，２１１−ｂによって収音される音声（音源１〜音源３）との位置関係の一例を概念的に示す図である。端末Ａは、異なる音源（音源１〜３）による異なる位置から到来する音声を無指向性マイクロフォン２１１−ａ，２１１−ｂによって収音し、これらマイクで収音した全ての音声、すなわち音源１〜３の音声を含んだ音声信号を出力する。
【００２５】
図４に示すように、異なる音源の異なる位置から到来する音声を収音する場合、端末Ａの無指向性マイクロフォン２１１−ａによって収音される音源１〜３を含んだ音声信号と無指向性マイクロフォン２１１−ｂによって収音される音源１〜３を含んだ音声信号との間には、音源の位置に応じて収音時間のずれが発生している。ここで、音源の位置と２つの無指向性マイクロフォンによって収音される音声信号との関係の概念図を図５に示す。
【００２６】
例えば、図５に示すように、音源１からの音声を無指向性マイクロフォン２１１−ａで収音した音声波形と無指向性マイクロフォン２１１−ｂで収音した音声波形との間には収音時間差ａが、音源３からの音声を無指向性マイクロフォン２１１−ａで収音した音声波形と無指向性マイクロフォン２１１−ｂで収音した音声波形との間には収音時間差ｃが存在している。
このような収音時間差は、無指向性マイクロフォン２１１−ａ、２１１−ｂと音源との位置関係に応じて発生する。すなわち、無指向性マイクロフォン２１１−ａによって収音される音声のうち、音源１からの音声については、無指向性マイクロフォン２１１−ｂよりも無指向性マイクロフォン２１１−ａが音源１に近い位置にあることから無指向性マイクロフォン２１１−ｂで収音されるより時間ａだけ早く収音され、音源３からの音声については、無指向性マイクロフォン２１１−ｂよりも遠い位置にあることから時間ｃだけ遅れて収音される。
【００２７】
一方、音源２からの音声については、無指向性マイクロフォン２１１−ａ、２１１−ｂ共に等距離の位置にあることから、同時に収音され、収音時間のずれは発生していない。
このように、音源の位置に応じて、２つの無指向性マイクロフォンが収音する音声のタイミングには時間差が発生しており、この収音タイミングのずれに基づく２つの無指向性マイクロフォンによって取得された音声信号の位相差によって、音源の位置を特定することができる。
音声到来方向判定部２２０は、上述の図５を参照した説明のように、無指向性マイクロフォン２１１−ａ，２１１−ｂのそれぞれによって取得された音声信号のうち、周波数分析部２１２から出力される各周波数成分間の位相差を抽出することにより、収音部２１１によって収音された音声の到来方向を判別する。
【００２８】
具体的には、例えば、音声到来方向判定部２２０は、収音領域を３つの領域に分割するように対応付けられた音声信号の位相差の情報を予め記憶している。音声到来方向判定部２２０は、無指向性マイクロフォン２１１−ａ，２１１−ｂのそれぞれによって取得された音声信号のうち、周波数分析部２１２から出力される周波数成分間の抽出した位相差と、予め記憶している収音領域毎に対応付けられた位相差の情報とを比較して、抽出した位相差を有する周波数成分の収音領域を判別する。
すなわち、到来方向判別部２２０は、収音部２１１によって取得された音声信号の全ての周波数成分について位相差を抽出して、抽出した位相差と予め記憶している収音領域毎に対応付けられた位相差の情報とを比較することにより、収音部２２１１によって収音された音声の到来方向を判別する。
【００２９】
音量補正量導出部２３０は、収音部２１１によって取得された音声信号の到来方向毎に音量の補正量を定めた音量補正係数を導出する。
音量補正量導出部２３０は、到来方向判定部２２０によって収音領域が判別された周波数成分の音量レベルに基づいて音声信号の音量レベルを収音領域毎に推定する音量推定部２３１と、音量推定部２３１によって推定された音声信号の収音領域毎の音量レベルに基づいて収音部２１１によって取得された音声信号の音量に対する補正量を収音領域毎に示す音量補正係数を導出する補正係数導出部２３２とから構成されている。
【００３０】
ここで、音量補正量導出部２３０の音量推定部２３１による音声信号の収音領域毎の音量レベルの推定機能および補正係数導出部２３２による音声信号の音量に対する補正量を収音領域毎に示す音量補正係数の導出機能について、具体的に説明する。
【００３１】
＜音声信号の音量の推定＞
音量推定部２３１は、周波数分析部２１２から出力される収音部２１１によって取得された音声信号の各周波数成分毎に音量レベルを算出する。例えば、音量推定部２３１は、周波数分析部２１２から出力される音声信号の周波数成分におけるスペクトルのエネルギーに基づいて、この周波数成分の音量レベルを導出することができ、また、音声信号の周波数成分における振幅値（電圧値）に基づいてこの周波数成分の音量レベルを導出しても良い。
【００３２】
音量推定部２３１は、周波数分析部２１２から出力される音声信号の各周波数成分における音量レベルを算出し、算出した音量レベルとこの音量レベルを有する周波数成分の到来方向とを関連付けて、音声信号の到来方向と各周波数成分における音量との関係を導出する。すなわち、音量推定部２３１は、音声信号の任意の周波数成分における位相差と音量レベルとの関係を、到来方向判別部２２０によって判別された収音領域毎に導出する。
音量推定部２３１は、導出した収音領域と音声信号の各周波数成分における音量レベルとの関係に基づいて、収音領域における最大音量レベルをこの収音領域における音声信号の音量として推定する。
【００３３】
具体的には、例えば、音量推定部２３１によって推定される収音領域毎の音量は、収音領域と音声信号の各周波数成分における音量レベルとの関係の一例である図６中の実線に示すように、３つの収音領域（領域１〜３）における音声信号の周波数成分のうち、領域１における周波数成分の最大音量レベルを領域１の音声信号の音量とし、領域２、３も同様にこれら領域における周波数成分の最大音量レベルをこれら領域の音声信号の音量と推定する。
【００３４】
＜音量補正係数の導出＞
補正係数導出部２３２は、音量推定部２３１によって推定された収音領域毎の音声信号の音量に基づいて収音領域毎に所望の音声信号が存在しているか否かを判定し、所望の音声信号が存在している収音領域それぞれの音声信号の音量を均一にするよう補正量を算出し、この補正量を収音領域毎に定めた音量補正係数を導出する。
【００３５】
具体的には、例えば、図６に示すように、補正係数導出部２３２は、音量推定部２３１によって推定された音声信号の収音領域毎の音量に対して所定の閾値を予め設定する。この閾値より大きい音量を有する音声信号が、収音部２１１によって取得された所望の音声信号と判定することができる。この閾値は、規定値として予め設定しても良く、また、収音部２１１によって収音された音声に含まれる周囲雑音の音量を適宜算出して周囲雑音量に応じて定めても良い。
【００３６】
図６に示す例では、音量推定部２３１によって推定された音声信号の収音領域毎の音量のうち、領域１と領域３の音量については閾値を超えており、領域２の音量については閾値を下回っている。すなわち、補正係数推定部２３２は、収音領域が領域１、領域３からの音声信号には所望の音声信号が存在し、領域２からの音声信号には所望の音声信号が存在していないと判定することができる。
【００３７】
収音領域毎に所望の音声信号が存在しているか否かを判定すると、補正係数推定部２３２は、所望の音声信号が存在している収音領域のうち、最も高い音量の音声信号の収音領域と他の収音領域との音声信号の音量が同一となるよう収音領域毎に音量の補正量を算出する。
例えば、図６に示す例では、補正係数導出部２３２は、所望の音声信号が存在している領域１と領域３に対し、音量の高い領域１の音声信号の音量に合わせるよう領域３の音声信号の音量に対する補正量を算出する。また、領域２の音声信号に対しては、閾値未満の音量であるため補正を実行しない。
【００３８】
すなわち、補正係数導出部２３２は、領域１と領域２の音声信号の音量に対する補正は行わず、領域３の音声信号の音量を領域１の音声信号の音量と同一となるよう補正する補正量を定めた音量補正係数を導出する。例えば、補正を行わない領域の補正量は１とし、補正を行う領域の補正量ｓは、ｓ＝（領域の最大音量）／（補正領域の音量）とすることができる。図６に示す例における領域３の音声信号の音量に対する補正量ｓは、ｓ＝Ｖ１／Ｖ３によって算出される。
【００３９】
補正係数導出部２３２は、図６に示した領域１および領域２の音声信号の音量に対する補正量を１、領域３の音声信号の音量に対する補正量をｓと定めた音量補正係数を導出する。
補正係数導出部２３２によって導出される音量補正係数は、補正された音量が過大な音量とならないよう、補正後の音量に制限を加えるとしても良い。例えば、補正後の音量が予め設定した限界値を超えないように音量補正係数を調整するとしても良く、導出する音量補正係数をｓ・α（０＜α＜１）として、適宜αを設定することにより補正後の音量を調整するとしても良い。
【００４０】
ここで、図７に補正係数導出部２３２によって導出される音量補正係数の一例を示す。図７に示すように、補正係数導出部２３２によって導出された図６に示した領域１および領域２の音声信号の音量に対する補正量を１、領域３の音声信号の音量に対する補正量をｓと定めた音量補正係数を波線にて示す。図７に示すような波線で示した音量補正係数を各領域の音声信号の音量補正に適応させると、領域２と領域３の境界上の音声信号に対して不連続となる音量補正を実行することとなる。これにより、異音の発生を引き起こす可能性がある。よって、補正係数導出部２３２は、不連続となる音量補正が発生しないような音量補正係数を導出する。
【００４１】
例えば、図７の実線にて示すように、領域２および領域３のそれぞれの区間の中央となる位相差が各領域の補正量となるよう線形補間することで、領域２と領域３の境界上における補正量の不連続点の解消を実現することができる。また、線形補間だけではなく、２次補間などの非線形補間を用いても良く、過去の補正量を用いて平滑化しても良い。
【００４２】
音量補正実行部２４０は、音声信号出力部２１０から出力される音声信号に音量補正量導出部２３０によって導出される音量補正係数を反映させ、収音部２１１によって取得された音声信号の音量を補正する。
具体的には、周波数分析部２１２によって出力される音声信号の所定の周波数成分と補正係数導出部２３２によって導出される音量補正係数とを用いて、周波数成分の音量を補正する。例えば、任意の周波数成分Ｘ_i(f,t)の音量を音量補正係数Ｃ_i(f,t)を用いて補正した周波数成分をＹ_i(f,t)とすると、Ｙ_i(f,t)＝Ｘ_i(f,t)・Ｃ_i(f,t)とすることができる。ただし、fは周波数インデックス、tは時間インデックスとする。
【００４３】
なお、本実施の形態にかかる音声処理装置２０の各構成要素は、ＣＰＵやメモリ、インターフェースからなるコンピュータにコンピュータプログラム（ソフトウエア）をインストールすることによって実現され、上述した音声処理装置２０の各種機能は、上記コンピュータの各種ハードウェア資源と上記コンピュータプログラムとが協働することによって実現される。
【００４４】
次に、本実施の形態にかかる音声処理装置２０の音声処理動作について、図８に示すフローチャートを参照して説明する。
図８に示すように、本実施の形態にかかる音声処理装置２０は、収音部２１１に搭載された２つの無指向性マイクロフォン２１１−ａ，２１１−ｂによって音声を収音する（Ｓ２０１）。
【００４５】
２つの無指向性マイクロフォン２１１−ａ，２１１−ｂそれぞれによって取得された音声信号は、周波数分析部２１２によって予め設定されている周波数帯域毎の周波数成分にそれぞれ分割されて出力される（Ｓ２０２）。
周波数分析部２１２から２つの無指向性マイクロフォン２１１−ａ，２１１−ｂによって取得された音声信号の各周波数成分がそれぞれ出力されると、到来方向判定部２２０は、所定の周波数帯域毎に出力された周波数成分のうち無指向性マイクロフォン２１１−ａによって取得された音声信号の周波数成分と無指向性マイクロフォン２１１−ｂによって取得された音声信号の周波数成分との位相差を抽出する（Ｓ２０３）。
【００４６】
所定の周波数帯域毎に周波数成分の位相差を抽出すると、到来方向判定部２２０は、予め記憶している周波数成分の位相差と収音領域との関係および抽出した位相差に基づいて、収音部２１１によって取得された音声信号の各周波数成分の到来方向を予め設定された収音領域毎に判別する（Ｓ２０４）。
【００４７】
収音部２１１によって取得された音声信号の各周波数成分の到来方向が収音領域毎に判別されると、音量補正量導出部２３０は、収音領域毎に音声信号の音量を推定して収音領域毎に音声信号の音量に対する補正量を定めた音量補正係数を導出する（Ｓ２０５）。
【００４８】
音量補正量導出部２３０によって音量補正係数が導出されると、音量補正実行部２４０は、周波数分析部２１２から出力される音声信号の各周波数成分と音量補正量導出部２３０から出力される音量補正係数とを用いて、収音部２１１によって取得された音声信号の音量を収音領域毎に補正する（Ｓ２０６）。
【００４９】
このように、本実施の形態にかかる音声処理装置２０は、互いに離間して設置された２つの無指向性マイクロフォンによって収音された音声に対し、所定の周波数帯域毎に分割した周波数成分間の位相差に基づいてこの周波数成分の到来方向を判別し、全ての到来方向からの音声信号の音量が均等になるよう音量の補正量を到来方向毎に導出することにより、複数の音声が重畳されている信号から複数の音声間の音量が均等になるように複数の音声の音量を補正することができる。
したがって、複数の音声が重畳された音声信号のうち、聞き取りづらい特定の音声の音量を補正することができ、聞き取りやすく音声信号を再生することが可能となる。
【００５０】
また、本実施の形態にかかる音声処理装置は、無指向性マイクロフォンによって取得された複数の音声が重畳された音声信号に対し、個々の音声に分離せず、所定の周波数帯域毎に分割した周波数成分間の位相差を導出することにより音声信号の到来方向を判別し到来方向毎に音声信号の音量補正を実行することから、独立成分分析などの手法を用いて各音声を分離した後に各音声の音量補正を実行する処理よりも低演算量で且つ容易に複数の音声の音量を補正することができる。
したがって、本実施の形態にかかる音声処理装置を、汎用の端末装置や音声会議装置といった音声処理機能を有する機器に、コストを抑制し且つ消費電力を抑えて搭載することが可能となる。
【００５１】
［第３の実施の形態］
図９は、本発明における第３の実施の形態にかかる音声処理装置の構成を示すブロック図である。本実施の形態にかかる音声処理装置は、第２の実施の形態において説明した音声処理装置２０の機能に、取得した音声信号の各周波数成分における音量に応じて音声信号の収音領域を適宜設定する機能をさらに加えたものである。
なお、本実施の形態にかかる音声処理装置３０の構成および機能について、第２の実施の形態において説明した音声処理装置２０と同一の構成および機能を有するものには同一の符号を付し、これらの詳細な説明を省略する。
【００５２】
本実施の形態にかかる音声処理装置３０は、図９に示すように、互いに離間して設置された２つの無指向性マイクロフォン２１１−ａ，２１１−ｂによって収音された音声の各周波数成分をそれぞれ出力する音声信号出力部２１０と、音声信号出力部２１０から出力される音声の各周波数成分の到来方向を判別する到来方向判定部３２０と、音声信号出力部２１０によって取得された音声信号の音量の到来方向に応じた補正量を導出する音量補正量導出部２３０と、音声信号出力部２１０によって出力される音声に音量補正量導出部２３０によって導出される音量の補正量を反映させることにより、音声の音量を補正する音量補正実行部２４０とから構成されている。
【００５３】
上記した本実施の形態にかかる音声処理装置３０の構成要素のうち、到来方向判別部３２０は、音声信号出力部２１０から出力される音声信号の周波数帯域成分間の位相差におけるこの周波数帯域成分の音量レベルに応じて収音領域を特定する収音領域特定部３２１をさらに備える。
【００５４】
ここで、収音領域特定部３２１による収音領域の特定機能について、詳細に説明する。
収音領域特定部３２１は、周波数分析部２１２から所定の周波数帯域毎に出力される収音部２１１によって取得された音声信号の周波数成分のうち、無指向性マイクロフォン２１１−ａによって取得された音声信号の周波数成分と無指向性マイクロフォン２１１−ｂによって取得された音声信号の周波数成分との位相差を抽出し、音声信号の周波数成分に対し、抽出した位相差と音量レベル（周波数成分におけるスペクトルまたは電圧値）との関係を導出する。
【００５５】
図１０に、収音領域特定部３２１が導出する音声信号の周波数成分における位相差と音量レベルとの関係を概念的に説明する図を示す。
収音領域特定部３２１は、図１０に示すように、収音部２１１によって取得された音声信号の周波数成分毎に、抽出した位相差と音量レベルとを関連付けて記憶し（図１０で示す×印）、音声信号の周波数成分における位相差と音量レベルとの関係を導出する。
【００５６】
収音領域特定部３２１は、導出した音声信号の周波数成分における位相差と音量レベルとの関係に基づいて、収音領域を特定する。
具体的には、収音部２１１によって取得された音声信号の各周波数成分における位相差と音量レベルの関係から、補間により求められる図１０の一点波線で示すような位相差と音量レベルの関係を示す曲線を導出する。補間の方法として、スプライン補間を用いても良い。
【００５７】
収音領域特定部３２１は、補間により導出された音声信号の位相差と音量レベルとの関係を示す曲線の山と谷を検出し、谷を示す位相差を収音領域の境界位置と特定する。例えば、図１０に示すように、位相差Ｄ１が収音領域１と領域２の境界点とし、位相差Ｄ２を領域２と領域３の境界点と特定する。
図１０の例では、補間の後に谷を検出し、収音領域の境界点として特定するとしたが、演算量を削減するため、補間を実行せず近傍の値を用いて谷を検出し、収音領域の境界点として特定しても良い。
【００５８】
収音領域特定部３２１によって収音領域が特定されると、音声補正量導出部２３０によって音声信号出力部２１０によって取得された音声信号の音量の補正量を収音領域毎に導出され、音量補正実行部２４０によって音声信号の音量の補正が実行される。
【００５９】
このように、本実施の形態にかかる音声処理装置によれば、取得した音声信号に応じて収音領域を特定してこの収音領域に応じて音声信号の音量の補正を実行することにより、収音した複数の音声の到来方向に応じて音源の到来方向を適宜特定することができる。
したがって、移動する音源に対しても音量の補正を行うことができるため、高品質な出力音声を生成することが可能となる。
【産業上の利用可能性】
【００６０】
音声通話を実行する電話端末およびＴＶ会議システムや、音声録音機能を有するＩＣレコーダなどの録音機器に利用可能である。
【符号の説明】
【００６１】
１０，２０，３０…音声処理装置、１１０，２１０…音声信号出力部、１２０，２２０，３２０…到来方向判定部、３２１…収音領域特定部、１３０，２３０…音量補正量導出部、２３１…音量推定部、２３２…補正係数導出部、１４０，２４０…音量補正実行部。

【特許請求の範囲】
【請求項１】
互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部と、
この音声信号出力部から出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別部と、
この到来方向判別部によって判別された到来方向に応じて前記音声信号の音量に対する補正量を導出する音量補正量導出部と、
この音量補正量導出部によって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行部と
を備えることを特徴とする音声処理装置。
【請求項２】
請求項１に記載の音声処理装置において、
前記到来方向判別部は、前記マイクロフォンによって収集される音声の到来方向を前記周波数帯域成分間の位相差に応じて特定される収音領域毎に判別し、
前記音量補正量導出部は、前記到来方向判別部によって前記収音領域を判別された前記周波数帯域成分の音量レベルに基づいて前記音声信号の音量に対する補正量を前記収音領域毎に導出する
ことを特徴とする音声処理装置。
【請求項３】
請求項２に記載の音声処理装置において、
前記到来方向判定部は、前記音声信号出力部から出力される任意の周波数帯域成分間の位相差におけるこの周波数帯域成分の音量レベルに応じて前記収音領域を特定することを特徴とする音声処理装置。
【請求項４】
互いに離して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力ステップと、
この音声信号出力ステップから出力される音声信号の前記周波数帯域成分間の位相差に基づいて前記マイクロフォンによって収集された音声の到来方向を判別する到来方向判別ステップと、
この到来方向判別ステップによって判別された到来方向に応じて前記音声信号の音量に対する補正量を導出する音量補正量導出ステップと、
この音量補正量導出ステップによって導出された前記補正量を用いて前記音声信号の音量を補正する音量補正実行ステップと
を備えることを特徴とする音声処理方法。
【請求項５】
請求項４に記載の音声処理方法において、
前記到来方向判別ステップは、前記マイクロフォンによって収集される音声の到来方向を前記周波数帯域成分間の位相差に応じて特定される収音領域毎に判別し、
前記音量補正量導出ステップは、前記到来方向判別ステップによって前記収音領域を判別された前記周波数帯域成分の音量レベルに基づいて前記音声信号の音量に対する補正量を前記収音領域毎に導出する
ことを特徴とする音声処理方法。
【請求項６】
請求項４または５に記載の音声処理方法をコンピュータに実行させることを特徴とする音声処理プログラム。

【図１】