説明

音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム

【課題】 音源がマイク間の距離に比べて近い場所に位置している場合でも音源数を推定できる音響信号処理装置、音響信号処理方法及び音響信号処理プログラムを提供する。
【解決手段】 音響信号処理装置は、音源から到達する音響信号が入力される第1入力部及び第2入力部と、前記第1入力部及び第2入力部に入力された音響信号に基づき、前記第1入力部に入力された前記音響信号の振幅値、及び前記第2入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング部と、前記マッピング部がマッピングした前記座標系上の振幅値の分布に含まれる直線成分を検出する検出部と、前記検出部が検出した直線成分の本数に基づき前記音源の個数を推定する推定部と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号処理装置、音響信号処理方法、及び音響信号処理プログラムに関する。
【背景技術】
【0002】
電話やボイスレコーダーなどの機器を用いて雑音環境下で目的の音響信号を集音する技術分野では、雑音を低減し目的の音響信号を抽出することで、より鮮明に目的の音響信号を集音することが求められている。雑音環境下で目的の音響信号を抽出する方法として、音響信号から音源の数とその方向を推定し各音源を分離抽出することで、目的の音源から到達した音響信号を抽出する方法が提案されている。
【0003】
例えば、特許文献1に開示される音響信号処理では、2つのマイクロホンに入力された音響信号の振幅データを周波数成分毎の位相差に分解して解析する。周波数成分毎の位相差を同方向のグループに分けることで、音源の数を推定し、目的の音響信号を抽出している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−340391号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1では、2つのマイクロホン間距離に比べてマイクロホンから十分遠い場所に音源が位置しているとの仮定に基づき音響信号処理を行っている。電話やボイスレコーダーを利用する場合は、音源である話者がマイクロホンに近い場所に位置している可能性が高い。このように上述した仮定が当てはまらない場合、特許文献1の音響信号処理では音源数がうまく推定できない可能性がある。
【0006】
本発明は、上述の点を鑑みてなされたものであり、音源がマイクロホン間の距離に比べて近い場所に位置している場合でも音源数を推定できる音響信号処理装置、音響信号処理方法及び音響信号処理プログラムを提供するものである。
【課題を解決するための手段】
【0007】
本発明に係る音響信号処理装置は、音源から到達する音響信号が入力される第1入力部及び第2入力部と、前記第1入力部及び第2入力部に入力された音響信号に基づき、前記第1入力部に入力された前記音響信号の振幅値、及び前記第2入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング部と、前記マッピング部がマッピングした前記座標系上の振幅値の分布に含まれる直線成分を検出する検出部と、前記検出部が検出した直線成分の本数に基づき前記音源の個数を推定する推定部と、を備えることを特徴とする。
【0008】
また、本発明に係る音響信号処理方法は、第1入力部及び第2入力部を介して入力された音響信号に基づき、前記第1入力部に入力された前記音響信号の振幅値、及び前記第2入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピングステップと、前記マッピングステップによりマッピングされた前記座標系上の振幅値の分布に含まれる直線成分を検出する検出ステップと、前記検出ステップにより検出された直線成分の本数に基づき前記音源の個数を推定する推定ステップと、を備えることを特徴とする。
【0009】
また、本発明に係る音響信号処理プログラムは、第1入力部及び第2入力部を介して入力された音響信号に基づき、前記第1入力部に入力された前記音響信号の振幅値、及び前記第2入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング手順と、前記マッピング手順によりマッピングされた前記座標系上の振幅値の分布に含まれる直線成分を検出する検出手順と、前記検出手順により検出された直線成分の本数に基づき前記音源の個数を推定する推定手順と、をコンピュータに実行させるためのプログラムである。
【発明の効果】
【0010】
本発明によれば、音源がマイクロホン間の距離に比べてマイクロホンから近い場所に位置している場合でも音源数を推定できる。
【図面の簡単な説明】
【0011】
【図1】第1実施形態に係る音響信号処理装置を示す図。
【図2】第1実施形態に係る音響信号処理装置に入力される音響信号を示す図。
【図3】第1実施形態に係る音響信号の振幅値分布を示す図。
【図4】第1実施形態に係る音響信号処理装置のシミュレーション結果を示す図。
【図5】第1実施形態に係る音響信号処理装置のシミュレーション結果を示す図。
【図6】第1実施形態に係る音響信号処理装置のシミュレーション結果を示す図。
【図7】第1実施形態に係る音響信号処理装置のシミュレーション結果を示す図。
【図8】第1実施形態に係る音響信号処理装置のHough変換結果を示す図。
【図9】第2実施形態に係る音響信号処理装置を示す図。
【図10】第2実施形態に係る周波数分解部を示す図。
【図11】第3実施形態に係る音響信号処理装置を示す図。
【図12】第4実施形態に係る音響信号処理装置を示す図。
【図13】第5実施形態に係る音響信号処理装置を示す図。
【図14】第1実施形態に係る音響信号処理装置のハードウェア構成を示す図。
【発明を実施するための形態】
【0012】
(第1実施形態)
図1は、第1実施形態に係る音響信号処理装置1を示す図である。音響信号処理装置1は、音響信号処理装置1から離れた場所に位置する音源(図示しない)から到達する音響信号に基づき音源の個数を推定する。
【0013】
音響信号処理装置1は、入力部としての2つのマイク101A,101Bと、マイク101A,101Bを介して受信した音響信号をA/D変換するA/D変換部102と、音響信号の振幅値をマッピングするマッピング部103と、マッピング部103によりマッピングされた振幅値の同時分布に含まれる直線成分を検出する検出部104と、検出部104が検出した直線成分に基づき音源数を推定する推定部105とを備える。
【0014】
マイク101Aは、図示しない音源から到達する音響信号が入力される第1入力部として動作する。マイク101Aは、入力された音響信号を電気的な信号に変換し第1音響信号として後段のA/D変換部102に渡す。マイク101Bは、図示しない音源から到達する音響信号が入力される第2入力部として動作する。マイク101Bは、入力された音響信号を電気的な信号に変換し第2音響信号として後段のA/D変換部102に渡す。2つのマイク101A,101Bは、所定の間隔をあけて設置される。
【0015】
A/D変換部102は、マイク101A,101Bを介して受信したアナログの第1,第2音響信号に対して信号処理を施し、デジタルの第1,第2音響信号を生成する。A/D変換部102は、生成したデジタルの第1,第2音響信号をマッピング部103に渡す。
【0016】
マッピング部103は、第1,第2音響信号の振幅値を2次元空間にマッピングすることで振幅値の同時分布を生成する。マッピング部103は、生成した振幅値の同時分布を検出部104に渡す。
【0017】
検出部104は、マッピング部103が生成した同時分布から直線成分を検出する。
推定部105は、検出部104が検出した直線成分の本数から音響信号の音源数を推定する。具体的には、直線成分の本数を音源数と推定する。推定部105は、推定した音源数を図示しない上位レイヤに渡す。上位レイヤは、音源数に基づき音源の方向等を算出することで、音響信号から雑音を低減し、目的の音響信号を抽出する。
【0018】
次に、図2乃至図8を用いて、各部の詳細及び音源数を推定する原理について説明する。図2は、音源10A,10Bとマイク101A,101Bとの関係を示す図である。ここでは、説明を簡単にするため、音源数を2つとして説明する。
【0019】
図2に示すように2つの音源10A,10Bそれぞれから音響信号11A,11Bが出力される。音源10Aから出力される音響信号11Aは、所定の振幅値をもつ信号と、振幅値がゼロである信号とが繰り返される信号である。具体的に、例えば音源10Aが人であり、人が発する声が音響信号11Aである場合、まず子音と母音とで音響信号11Aの振幅値が異なる。また、文章の切れ目や単語の区切り等で無音の期間が存在する。この無音の期間が、振幅値がゼロである信号の期間となる。
【0020】
人が発する声以外、例えばドアを開閉する音等の雑音が音響信号11Aである場合、音源10Aから出力される音響信号は、一定期間だけ振幅値を持ちそれ以外が無音である信号(振幅値がゼロである信号)となる。このように、音源10Aから出力される音響信号11Aは、所定の振幅値をもつ信号と、振幅値がゼロである信号とを含む信号である。音源10Bから出力される音響信号11Bも、音響信号11Aと同様に所定の振幅値をもつ信号と、振幅値がゼロである信号とを含む信号である。以下の説明では説明を簡略化するために、音源10A,10Bから出力される音響信号11A,11Bを、正弦波の信号と振幅値ゼロの信号とが交互に繰り返す信号であるとする。図2では、音響信号11Aを実線で、音響信号11Bを破線で示している。
【0021】
図2に示すように音源10Aから出力される音響信号11Aの振幅値ゼロの期間と、音源10Bから出力される音響信号11Bの振幅値ゼロの期間とは重複しない。すなわち、音源10Aから正弦波の音響信号11Aが出力される場合、音源10Bからは振幅値ゼロの音響信号11Bが出力され、音源10Aから振幅値ゼロの音響信号11Aが出力される場合、音源10Bからは正弦波の音響信号11Bが出力される。
【0022】
音源10A,10Bから出力された音響信号11A,11Bは、それぞれマイク101A,101Bに入力される。音響信号11A,11Bの振幅は、音源10A,10Bとマイク101A,101Bとの間の空間を伝搬する間に減衰する。マイク101Aには音響12A及び音響信号12Bが入力される。音響信号12Aは音源10Aから出力された音響信号11Aが減衰した信号であり、音響信号12Bは音源10Bから出力された音響信号11Bが減衰した信号である。マイク101Bには音響13A及び音響信号13Bが入力される。音響信号13Aは音源10Aから出力された音響信号11Aが減衰した信号であり、音響信号13Bは音源10Bから出力された音響信号11Bが減衰した信号である。
【0023】
音響信号11A,11Bの振幅の減衰率は、音源10A,10Bとマイク101A,101Bとの間の距離の2乗に比例する。図2の例では、音源10Aとマイク101Aとの距離より音源10Aとマイク101Bとの距離の方が離れているため、音源10Aからマイク101Aに入力された音響信号12Aの振幅よりマイク101Bに入力された音響信号13Aの振幅の方が小さくなる。同様に、音源10Bとマイク101Bとの距離より音源10Bとマイク101Aとの距離の方が離れているため、音源10Bからマイク101Bに入力された音響信号13Bの振幅よりマイク101Aに入力された音響信号12Bの振幅の方が小さくなる。
【0024】
マイク101Aは、入力された音響信号12A,12Bを重ね合わせた第1音響信号12を電気的な信号に変換しA/D変換部102に出力する。第1音響信号12は、振幅の異なる正弦波が連続する信号となる。
【0025】
マイク101Bは、入力された音響信号13A,13Bを重ね合わせた第2音響信号13を電気的な信号に変換しA/D変換部102に出力する。第2音響信号13は、振幅の異なる正弦波が連続する信号となる。
【0026】
次に、図3(a)に示すようにA/D変換部102は所定のサンプリング周期Tで第1,第2音響信号12,13をサンプリングし、音響信号12,13をアナログからデジタルの信号に変換する。A/D変換部102は、デジタル信号に変換した第1,第2音響信号12,13をマッピング部103に出力する。
【0027】
マッピング部103は、第1,第2音響信号12,13の振幅値を、各振幅値を座標軸とする座標系にマッピングする。マッピング部103は、第1音響信号12の振幅値x1をx軸とし、第2音響信号13の振幅値x2をy軸とする2次元直交座標系に、A/D変換部102のサンプリング周期Tでサンプルした第1,第2音響信号12,13の振幅値(x1(nT)、x2(nT))(nは整数)をマッピングする。
【0028】
図3(b)に、第1,第2音響信号12,13の振幅値(x1(nT)、x2(nT))を、各振幅値を座標とする座標系にマッピングした場合の模式図を示す。図3(b)に示すように、第1,第2音響信号12,13の振幅値(x1(nT)、x2(nT))は、2本の直線上にマッピングされる。
【0029】
音源10Aから出力される音響信号11Aは、空間を伝搬する間に減衰する。音響信号11Aの減衰率は距離の2乗に比例する。音源10Aからマイク101Aまでの音響信号11Aの減衰率を1/aとし、音源10Aからマイク101Bまでの音響信号11Aの減衰率を1/bとする。音源10Aから出力される音響信号11Aの振幅値をxとすると、マイク101Aに入力される音響信号12Aの振幅値x1Aは、x1A=a×xとなり、マイク101Bに入力される音響信号13Aの振幅値x2Aは、x2A=b×xとなる。音響信号12A,13Aの振幅値(x1A,x2A)=(a×x,b×x)を、各振幅値を座標軸とする座標系にマッピングすると、振幅値(a×x,b×x)は、音響信号11Aの減衰率1/a,1/bに依存する傾きを持ち原点を通る直線(b/a)×x上にマッピングされる。
【0030】
同様に、音源10Bからマイク101Aまでの音響信号11Bの減衰率を1/cとし、音源10Bからマイク101Bまでの音響信号11Bの減衰率を1/dとする。音源10Bから出力される音響信号11Bの振幅値をxとすると、マイク101Aに入力される音響信号12Bの振幅値x1Bは、x1B=c×xとなり、マイク101Bに入力される音響信号13Bの振幅値x2Bは、x2B=d×xとなる。音響信号12B,13Bの振幅値(x1B,x2B)=(c×x,d×x)を、各振幅値を座標軸とする座標系にマッピングすると、振幅値(c×x,d×x)は、音響信号11Bの減衰率1/c,1/dに依存する傾きを持ち原点を通る直線(d/c)×x上にマッピングされる。
【0031】
図2に示すように音源10Aから出力される音響信号11A、音源10Bから出力される音響信号11Bは、一方が正弦波信号を出力している間、他方が振幅値ゼロの信号を出力している。このため、第1,第2音響信号12,13では、音源10Aからの音響信号12A,13A及び音源10Bからの音響信号12B,13Bが重なっておらず、第1,第2音響信号12,13に、一方の音響信号(例えば音響信号12A,13A)があらわれる場合は、他方の音響信号(例えば音響信号12B,13B)はあらわれない。
【0032】
第1,第2音響信号12,13の振幅値を、各振幅値を座標軸とする座標系にマッピングすると、音源10Aからマイク101A,101Bに入力された音響信号12A,13A、及び音源10Bからマイク101A,101Bに入力された音響信号12B,13Bがそれぞれマッピングされることになる。上述したように、音響信号12A,13Aは、音響信号11Aの減衰率a,bに依存する傾きを持ち原点を通る直線上にマッピングされ、音響信号12B,13Bは、音響信号11Bの減衰率c,dに依存する傾きを持ち原点を通る直線上にマッピングされる。
【0033】
マイク101A,101Bに入力される第1,第2音響信号12,13に音源10A又は音源10Bの一方から到達した音響信号のみが含まれる期間が存在する場合、この期間の音響信号は、各振幅値を座標軸とする座標系に直線として表されることになる。そのため、座標系に表される直線成分の本数が音源数と一致する。そこで、検出部104が、マッピング部103によってマッピングされた第1,第2音響信号12,13の振幅値から直線成分を検出し、推定部105が、検出部104が検出した直線成分の本数を推定することで、音響信号処理装置1は音源数を推定することができる。
【0034】
図2では、簡略化のため、音響信号11A,11Bを音響信号11Aの正弦波成分と、音響信号11Bの正弦波成分とが重複しないものとして説明したが、実際には音源10A,10Bから出力される音響信号11A,11Bの正弦波成分が重複する場合が多い。例えば、音響信号11A,11Bが、人が発する声(音声)である場合、音源10A,10Bから音響信号11A,11Bを同時に出力すると、マイク101A,101Bでは音響信号11Aと音響信号11Bとが重畳される。
【0035】
しかしながら上述したように、人が発する声や雑音は常に振幅値を持つ信号ではなく、無音の期間が存在する信号である。従って、例えば音源10A,10Bからそれぞれ同時に人が声を発したとしても、マイク101A,101Bに入力される第1,第2音響信号12,13には音源10A,10Bのいずれか一方から到達した音響信号11A,11Bのみが含まれる期間が存在する。本実施形態に係る音響信号処理装置1では、音響信号11A,11Bのいずれか一方のみが含まれる第1,第2音響信号12,13に基づき直線を検出して音源数を推定する。そのため、音源から同時に人が声を発した場合など音源10A,10Bが出力する音響信号11A,11Bがマイク101A,101Bに同時に到達したとしても本実施形態の音響信号処理装置1は、音源数を推定することができる。
【0036】
次に、図4乃至図7を用いて本実施形態に係る音響信号処理装置1を用いて音源数を推定したシミュレーション結果を説明する。A/D変換部102のサンプリング周期を8kHzとしてシミュレーションを行った。
【0037】
図4は、1つの音源10Aから人が声を発した場合のシミュレーション結果を示す図である。図4(a)は、音源10Aから出力した音響信号11Aを示す図である。図4(a)に示す音響信号11Aが音響信号処理装置1に入力されると、マイク101Aでは図4(b)に示す第1音響信号12が得られる。また、マイク101Bでは図4(c)に示す第2音響信号13が得られる。音源10Aからの距離は、マイク101Aよりマイク101Bの方が離れているため、第2音響信号13の方が第1音響信号12より振幅が小さくなる。
【0038】
図4(d)は、第1,第2音響信号12,13の振幅値をマッピングした振幅値の同時分布を示す図である。本シミュレーションでは音源数を1つとしているため、振幅値の分布は1本の直線となる。図4(e)は、図4(d)のヒストグラムを示す図である。図4(e)に示すグラフの横軸は、マッピングした第1,第2音響信号12,13の振幅値の方位角φ(ラジアン)を、縦軸は方位角がφである振幅値の個数を示している。図4(e)に示すヒストグラムは1本のピークを有しており、振幅値の分布が1本の直線となっていることがわかる。このように、直線成分の本数(ここでは1本)を推定することで、音源数(ここでは1つ)を推定することができる。
【0039】
図5は、2つの音源10A,10Bからそれぞれ人が声を発した場合のシミュレーション結果を示す図である。図5(a)は、音源10Bから出力した音響信号11Bを示す図である。なお音源10Aからは図4(a)に示す音響信号11Aが出力される。図4(a)、図5(a)に示す音響信号11A,11Bが音響信号処理装置1に入力されると、マイク101Aでは図5(b)に示す第1音響信号12が得られる。またマイク101Bでは図5(c)に示す第2音響信号13が得られる。2つの音源10A,10Bから同時に異なる音響信号11A,11Bが出力されているため、第1,第2音響信号12,13はそれぞれ異なる振幅値を有する信号となる。
【0040】
図5(d)は、第1,第2音響信号12,13の振幅値をマッピングした振幅値の同時分布を示す図である。図5(d)に示すように、振幅値の分布に2本の直線成分が含まれていることがわかる。図5(e)は、図5(d)のヒストグラムを示す図である。ヒストグラムは図4(e)と同様に算出する。図5(e)に示すヒストグラムは2本のピークを有しており、ヒストグラムからも振幅値の同時分布に2本の直線成分が含まれていることがわかる。このように、直線成分の本数(ここでは2本)を推定することで、音源数(ここでは2つ)を推定することができる。
【0041】
次に図6に示すように3つの音源10A,10B,10Cからそれぞれ人が声を発した場合のシミュレーション結果について説明する。3つの音源10A,10B,10Cから出力された音響信号(ここでは人が発した声)は、それぞれ距離が異なる伝搬路を通ってマイク101A,101Bに入力される。
【0042】
図7(a)は、音源10Cから出力した音響信号を示す図である。なお、音源10Aからは図4(a)に示す音響信号11Aが、音源10Bからは図5(a)に示す音響信号11Bがそれぞれ出力される。図4(a)、図5(a)、図7(a)に示す音響信号が音響信号処理装置1に入力されると、マイク101Aでは7(b)に示す第1音響信号12が得られる。またマイク101Bでは図7(c)に示す第2音響信号13が得られる。3つの音源10A,10B,10Cから同時に異なる音響信号が出力されているため、第1,第2音響信号12,13はそれぞれ異なる振幅値を有する信号となる。
【0043】
図7(d)は、第1,第2音響信号12,13の振幅値をマッピングした振幅値の同時分布を示す図である。図7(e)は、図7(d)のヒストグラムを示す図である。ヒストグラムは図4(e)と同様に算出する。図7(e)に示すヒストグラムは3本のピークを有しており、振幅値の同時分布に3本の直線成分が含まれていることがわかる。このように、直線成分の本数(ここでは3本)を推定することで、音源数(ここでは3つ)を推定することができる。
【0044】
このように、本実施形態に係る音響信号処理装置1を用いることで、音源数を容易に推定することができる。図7に示すように音源数がマイクの数より多い場合であっても音源数の推定は可能である。また、音源とマイクとの距離によって音響信号の減衰が異なる点に着目して音源数を推定しているため、音源とマイクとの距離が、マイク間の距離に比べて十分に大きくない場合、すなわち音源がマイク間の距離に比べて近い場合に位置している場合でも音源数を推定することができる。
【0045】
図4(e)に示すように検出部104によってヒストグラムを算出することで直線成分を検出し、推定部105によってヒストグラムのピークを例えば閾値判定することで本数の推定、すなわち音源数の推定を行うようにしてもよい。
【0046】
そのほかにも、例えば振幅値の同時分布にHough変換処理を行うことで直線成分を検出する方法もある。この場合、まず検出部104が、マッピング部103が生成した第1,第2音響信号12,13の振幅値の同時分布にHough変換処理を行うことで直線成分を検出する。図8に、図5(d)に示す振幅値の同時分布にHough変換処理を行った結果を示す。図8に示すように、振幅値の同時分布の各点から生成される曲線の多くが2点でx軸と交差している。曲線がx軸と交差する点の個数が直線成分の本数、すなわち音源数となる。推定部105は、例えば多数決の原理等を用いて曲線がx軸と交差する点の個数を推定することで、直線成分の本数である音源数を推定することができる。
【0047】
なお、音源10A,10B,10Cとマイク101A,101Bの位置関係は、図2,図6に示す場合に限られない。図6に示すように音源10A,10B,10Cが一列に配置される必要はない。また、マイク101A,101Bをはさんで各音源が対向するように音源10A,10B,10Cを配置してもよい。
【0048】
(第2実施形態)
図9を用いて第2実施形態に係る音響信号処理装置2を説明する。本実施形態に係る音響信号処理装置2は、周波数毎に第1,第2音響信号の振幅値をマッピングする点で第1実施形態と異なる。それ以外は、第1実施形態と同じであるため、同一構成要素には同一符号を付し説明を省略する。
【0049】
図9に示すように、音響信号処理装置2は、音響信号処理装置1の構成に加えさらに周波数分解部206を備えている。周波数分解部206は、第1,第2音響信号12,13を周波数毎に分解し、周波数毎の音響信号をマッピング部203に出力する。
【0050】
図10を用いて周波数分解部206の詳細を説明する。周波数分解部206は、フーリエ変換部601、分解部602、及び逆フーリエ変換部603を備える。まず第1音響信号12が周波数分解部206に入力されると、フーリエ変換部601にて時間領域の信号から周波数領域の信号(周波数音響信号)へと変換される。
【0051】
次に周波数分解部206は、周波数音響信号を各周波数に分解する。ここでは、周波数f1の第1周波数音響信号、周波数f2の第2周波数音響信号、及び周波数f3の第3周波数音響信号の3つに分解する。なお、周波数f1〜f3を中心周波数とし、一定の帯域幅を有する第1〜第3周波数音響信号に分解してもよい。分解数は3に限られず2以上の数に分解してもよい。また分解数を1とし、特定の周波数だけ抽出するようにしてもよい。
【0052】
分解部602で分解された第1〜第3周波数音響信号は、逆フーリエ変換部603で周波数領域の信号から時間領域の信号へと変換される。逆フーリエ変換部603は、第1〜第3周波数音響信号を時間領域の信号へと変換し、第1〜第3時間信号を生成する。逆フーリエ変換部603は、生成した第1〜第3時間信号をマッピング部203に出力する。
【0053】
分解部602は、第2音響信号13に対しても同様の処理を行い、周波数f1の第4周波数音響信号、周波数f2の第5周波数音響信号、及び周波数f3の第6周波数音響信号の3つに分解し、第4〜第6周波数音響信号から第4〜第6時間信号を生成する。
【0054】
図9に戻る。
マッピング部203は、第1〜第6時間信号の振幅値を元に、周波数毎に第1,第2音響信号12,13の振幅値をマッピングし、振幅値の同時分布を生成する。具体的には、マッピング部203は、第1時間信号及び第4時間信号の振幅値を、各振幅値を座標軸とする座標系にマッピングすることで、周波数f1における第1,第2音響信号12,13の振幅値の同時分布(以下、振幅値分布と称する。)を生成する。マッピング部203は、第2時間信号及び第5時間信号の振幅値を、各振幅値を座標軸とする座標系にマッピングすることで、周波数f2における第1,第2音響信号12,13の振幅値分布を生成する。マッピング部203は、第3時間信号及び第6時間信号の振幅値を、各振幅値を座標軸とする座標系にマッピングすることで、周波数f3における第1,第2音響信号12,13の振幅値分布を生成する。
【0055】
検出部204は、周波数f1〜f3の周波数値分布に含まれる直線成分をそれぞれ検出する。検出する方法は、第1実施形態と同じである。検出部204は、検出した直線成分を周波数毎に推定部205に出力する。推定部205は、周波数毎に検出部204が検出した直線成分の本数を推定する。直線成分の本数を推定する方法は、第1実施形態と同じである。推定部205は、推定した周波数毎の直線成分の本数から多数決の原理を用いて、第1,第2音響信号12,13の振幅値分布に含まれる直線成分の本数、すなわち音源数を推定する。あるいは、周波数毎の直線成分の本数の平均値を音源数としてもよい。
【0056】
以上のように第2実施形態に係る音響信号処理装置2は第1実施形態と同様の効果が得られるとともに、マイク101A,101Bに入力された第1,第2音響信号12,13を周波数分解し、周波数毎に振幅値分布を求めることで、さらに精度よく音源数を推定することができる。
【0057】
特に、マイク101A,101Bに入力される目的の音響信号の種類があらかじめわかっている場合、例えば音響信号処理装置2が電話でありマイク101A,101Bに入力される目的の音響信号が人の音声であるとあらかじめわかっている場合は、第1,第2音響信号を音響信号の種類(音声)特有の周波数に分解することで、目的の音響信号以外の雑音を低減してから音源数の推定を行うことができ、さらに音源数の推定の精度を向上させることができる。
【0058】
(第3実施形態)
次に図11を用いて第3実施形態に係る音響信号処理装置3を説明する。本実施形態に係る音響信号処理装置3は、マッピング部303が、周波数毎に振幅値分布を生成するのではなく、第1〜第6時間信号を元に第1,第2音響信号の振幅値分布を1つ生成する点で第2実施形態と異なる。第1,第2実施形態と同じ構成要素には同一符号を付し説明を省略する。
【0059】
マッピング部303は、周波数分解部206から入力された第1〜第6時間信号に基づき第1,第2音響信号12,13の振幅値分布を生成する。マッピング部303は、第1,第4時間信号の振幅値(A1,A4)、第2,第5時間信号の振幅値(A2,A5)、及び第3,第6時間信号の振幅値(A3,A6)を、各振幅値を座標軸とする1つの座標系にマッピングする。これにより、第2実施形態の周波数f1〜f3の振幅値分布を1つに統合した第1,第2音響信号12,13の振幅値分布が得られる。
【0060】
マッピング部303が生成した第1,第2音響信号12,13の振幅値分布から音源数を推定する方法は第1実施形態と同じであるため説明を省略する。
【0061】
以上のように第3実施形態に係る音響信号処理装置3は、第2実施形態と同様の効果が得られるとともに、マッピング部303で1つの振幅値分布しか生成しないため、後段の直線検出処理や音源数推定処理の計算時間を短縮することができる。
【0062】
(第4実施形態)
図12を用いて第4実施形態に係る音響信号処理装置4を説明する。本実施形態に係る音響信号処理装置4は、マッピング部403にて第1,第2音響信号12,13の位相を、各位相を座標軸とする座標系にマッピングする点で第1実施形態と異なる。
【0063】
音響信号処理装置4は、マイク101A,101B、A/D変換部102、周波数分解部406、マッピング部403、検出部104、及び推定部105を備える。A/D変換部102がデジタルの第1,第2音響信号12,13を生成する点は第1実施形態と同じである。
【0064】
周波数分解部406は、A/D変換部102から入力された第1,第2音響信号12,13に対してフーリエ変換処理を行い、時間領域の信号から周波数領域の信号に変換する。周波数領域の第1,第2音響信号12,13を第1,第2周波数音響信号と称する。周波数分解部406は、第1,第2周波数音響信号の各周波数における位相を算出する。周波数分解部406は、第1周波数音響信号の各周波数における位相を第1音響信号12の位相としてマッピング部403に出力する。周波数分解部406は、第2周波数音響信号の各周波数における位相を第2音響信号13の位相としてマッピング部403に出力する。
【0065】
マッピング部403は、第1,第2音響信号12,13の同一周波数の位相の組を、各位相を座標軸とする座標系にマッピングし、位相の同時分布(以下、位相分布と称する。)を生成する。検出部104は位相分布から線分を検出し、推定部105は音源数を推定する。線分の検出方法及び音源数の推定方法は第1実施形態と同じであるため説明を省略する。
【0066】
第1実施形態で図2を用いて説明したように、音源10A,10Bから出力された音響信号11A,11Bの振幅は、マイク101A,101Bまでの距離に応じて一定の減衰率で減衰する。同様に、音響信号11A,11Bの位相は、マイク101A,101Bまでの距離に応じて一定の割合で回転する。
【0067】
音響信号11Aをマイク101A,101Bで受信した各音響信号12A,13Aの振幅の差、すなわち音響信号11Aの振幅の減衰量の差が第1,第2音響信号の振幅値分布に直線となって表される。同様に、音響信号11Aをマイク101A,101Bで受信した各音響信号12A,13Aの位相の差、すなわち音響信号11Aの位相の回転量の差が第1,第2音響信号の位相分布に線分となって表される。
【0068】
つまり、音響信号12Aの位相をx軸とし、音響信号13Aの位相をy軸とし、各周波数における音響信号12A,13Aの位相をマッピングすると、音響信号12A,13Bの位相差に応じた傾きを持つ線分上に各位相がマッピングされる。音響信号12B,13Bについても同様であるため、第1実施形態の振幅値分布の代わりに、本実施形態のように位相分布を用いても、位相分布に含まれる線分の本数を検出するだけで音源数を推定することができる。
【0069】
(第5実施形態)
次に、図13を用いて第5実施形態に係る音響信号処理装置5を説明する。本実施形態に係る音響信号処理装置5は、音響信号処理装置1及び音響信号処理装置4を組み合わせた構成となっている。
【0070】
図13に示す音響信号処理装置5は、マッピング部103と、周波数分解部406及びマッピング部403とを備えている。つまり、本実施形態の音響信号処理装置5は、A/D変換部102から直接的に信号の入力を受けるマッピング部103と、A/D変換部102から周波数分解部406を介して信号の入力を受けるマッピング部403とを備えている。A/D変換部102によってデジタル信号に変換された第1,第2音響信号12,13は、それぞれマッピング部103と周波数分解部406とに入力される。マッピング部103は、入力された第1,第2音響信号12,13の振幅値分布を生成し、検出部504に出力する。周波数分解部406は、第1,第2音響信号12,13の位相を算出し、マッピング部403は、第1,第2音響信号12,13の位相分布を生成する。位相分布は、検出部504に入力される。
【0071】
検出部504は、マッピング部103から入力された振幅値分布に含まれる線分を検出する。検出部504は、マッピング部403から入力された位相分布に含まれる線分を検出する。推定部505は、検出部504が検出した振幅値分布に含まれる線分の本数、及び位相分布に含まれる線分の本数に基づき音源数を推定する。推定部505は、例えば振幅値分布、位相分布それぞれに含まれる線分の本数の平均値を音源数として推定する。
【0072】
このように、音響信号処理装置1及び音響信号処理装置4を組み合わせて音響信号処理装置5を構成することで、より高精度に音源数を推定することができる。
【0073】
なお、本実施形態では、音響信号処理装置1,4を組み合わせたが、音響信号処理装置1〜4のいずれを組み合わせてもよい。3つ以上の音響信号処理装置を組み合わせることも可能である。
【0074】
図14は、第1実施形態に係る音響信号処理装置1のハードウェア構成を示す図である。音響信号処理装置1は、音源数の推定を行う音響信号処理プログラムなどが格納されているROM61と、ROM61内のプログラムに従って音響信号処理装置1の各部を制御するCPU62と、音響信号処理装置1の制御に必要な種々のデータを記憶するRAM63と、ネットワークに接続して通信を行う通信I/F64と、各部を接続するバス65を備えている。
【0075】
また音響信号処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、DVDなどのコンピュータで読み取り可能な記憶媒体に記憶されて提供されてもよい。
【0076】
この場合には、音響信号処理プログラムは、上記記憶媒体から読み出して実行することにより音響信号処理装置1の主記憶装置上にロードされ、図14に示すソフトウェア構成の各部が、主記憶装置上に形成されるようになっている。
【0077】
また、本実施形態の音響信号処理プログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク、通信I/F64経由でダウンロードさせることにより提供するように構成してもよい。
【0078】
上記ハードウェア構成は音響信号処理装置1に限られず音響信号処理装置2〜5でも同様に構成することが可能である。
【0079】
最後に、上述した各実施形態の説明は本開示の一例であり、本開示は上述の実施の形態に限定されることはない。このため、上述した各実施の形態以外であっても、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。
【符号の説明】
【0080】
10 音源
101 マイク
102 A/D変換部
103,203,303,403 マッピング部
104,204,504 検出部
105,205,505 推定部
206,406 周波数分解部

【特許請求の範囲】
【請求項1】
音源から到達する音響信号が入力される第1入力部及び第2入力部と、
前記第1入力部及び第2入力部に入力された音響信号に基づき、前記第1入力部に入力された前記音響信号の振幅値、及び前記第2入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング部と、
前記マッピング部がマッピングした前記座標系上の振幅値の分布に含まれる直線成分を検出する検出部と、
前記検出部が検出した直線成分の本数に基づき前記音源の個数を推定する推定部と、
を備えることを特徴とする音響信号処理装置。
【請求項2】
前記第1入力部及び前記第2入力部に入力された前記音響信号の各々を周波数分解し、前記音響信号の周波数毎の振幅値を算出する周波数分解部をさらに備え、
前記マッピング部は、前記周波数分解部により算出された周波数毎の振幅値に基づき、前記第1入力部に入力された前記音響信号の振幅値、及び前記第2入力部に入力された前記音響信号の振幅値を周波数毎にマッピングし、
前記検出部は、前記マッピング部が周波数毎にマッピングした振幅値の分布に含まれる前記直線成分を前記周波数毎に検出し、
前記推定部は、前記検出部が周波数毎に検出した直線の本数に基づき音源の個数を推定する
ことを特徴とする請求項1に記載の音響信号処理装置。
【請求項3】
前記第1入力部及び前記第2入力部に入力された前記音響信号の各々を周波数分解し、前記音響信号の周波数毎の振幅値を算出する周波数分解部をさらに備え、
前記マッピング部は、周波数毎に前記第1入力部に入力された前記音響信号の振幅値、及び前記第2入力部に入力された前記音響信号の振幅値を統合し、該振幅値をマッピングする
ことを特徴とする請求項1に記載の音響信号処理装置。
【請求項4】
前記第1入力部及び前記第2入力部に入力された前記音響信号の各々を周波数領域の信号に変換し、前記音響信号の位相を算出する周波数分解部をさらに備え、
前記マッピング部は、前記第1入力部に入力された前記音響信号の前記位相、及び前記第2入力部に入力された前記音響信号の前記位相を、各前記位相を座標軸とする座標系にマッピングし、
前記検出部は、前記マッピング部がマッピングした前記位相の分布に含まれる前記直線成分を検出する
ことを特徴とする請求項1に記載の音響信号処理装置。
【請求項5】
第1入力部及び第2入力部を介して入力された音響信号に基づき、前記第1入力部に入力された前記音響信号の振幅値、及び前記第2入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピングステップと、
前記マッピングステップによりマッピングされた前記座標系上の振幅値の分布に含まれる直線成分を検出する検出ステップと、
前記検出ステップにより検出された直線成分の本数に基づき前記音源の個数を推定する推定ステップと、
を備えることを特徴とする音響信号処理方法。
【請求項6】
第1入力部及び第2入力部を介して入力された音響信号に基づき、前記第1入力部に入力された前記音響信号の振幅値、及び前記第2入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング手順と、
前記マッピング手順によりマッピングされた前記座標系上の振幅値の分布に含まれる直線成分を検出する検出手順と、
前記検出手順により検出された直線成分の本数に基づき前記音源の個数を推定する推定手順と、
をコンピュータに実行させるための音響信号処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2012−244211(P2012−244211A)
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願番号】特願2011−109067(P2011−109067)
【出願日】平成23年5月16日(2011.5.16)
【出願人】(504237050)独立行政法人国立高等専門学校機構 (656)
【Fターム(参考)】