音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム

【課題】音源がマイク間の距離に比べて近い場所に位置している場合でも音源数を推定できる音響信号処理装置、音響信号処理方法及び音響信号処理プログラムを提供する。
【解決手段】音響信号処理装置は、音源から到達する音響信号が入力される第１入力部及び第２入力部と、前記第１入力部及び第２入力部に入力された音響信号に基づき、前記第１入力部に入力された前記音響信号の振幅値、及び前記第２入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング部と、前記マッピング部がマッピングした前記座標系上の振幅値の分布に含まれる直線成分を検出する検出部と、前記検出部が検出した直線成分の本数に基づき前記音源の個数を推定する推定部と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音響信号処理装置、音響信号処理方法、及び音響信号処理プログラムに関する。
【背景技術】
【０００２】
電話やボイスレコーダーなどの機器を用いて雑音環境下で目的の音響信号を集音する技術分野では、雑音を低減し目的の音響信号を抽出することで、より鮮明に目的の音響信号を集音することが求められている。雑音環境下で目的の音響信号を抽出する方法として、音響信号から音源の数とその方向を推定し各音源を分離抽出することで、目的の音源から到達した音響信号を抽出する方法が提案されている。
【０００３】
例えば、特許文献１に開示される音響信号処理では、２つのマイクロホンに入力された音響信号の振幅データを周波数成分毎の位相差に分解して解析する。周波数成分毎の位相差を同方向のグループに分けることで、音源の数を推定し、目的の音響信号を抽出している。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００６−３４０３９１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
特許文献１では、２つのマイクロホン間距離に比べてマイクロホンから十分遠い場所に音源が位置しているとの仮定に基づき音響信号処理を行っている。電話やボイスレコーダーを利用する場合は、音源である話者がマイクロホンに近い場所に位置している可能性が高い。このように上述した仮定が当てはまらない場合、特許文献１の音響信号処理では音源数がうまく推定できない可能性がある。
【０００６】
本発明は、上述の点を鑑みてなされたものであり、音源がマイクロホン間の距離に比べて近い場所に位置している場合でも音源数を推定できる音響信号処理装置、音響信号処理方法及び音響信号処理プログラムを提供するものである。
【課題を解決するための手段】
【０００７】
本発明に係る音響信号処理装置は、音源から到達する音響信号が入力される第１入力部及び第２入力部と、前記第１入力部及び第２入力部に入力された音響信号に基づき、前記第１入力部に入力された前記音響信号の振幅値、及び前記第２入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング部と、前記マッピング部がマッピングした前記座標系上の振幅値の分布に含まれる直線成分を検出する検出部と、前記検出部が検出した直線成分の本数に基づき前記音源の個数を推定する推定部と、を備えることを特徴とする。
【０００８】
また、本発明に係る音響信号処理方法は、第１入力部及び第２入力部を介して入力された音響信号に基づき、前記第１入力部に入力された前記音響信号の振幅値、及び前記第２入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピングステップと、前記マッピングステップによりマッピングされた前記座標系上の振幅値の分布に含まれる直線成分を検出する検出ステップと、前記検出ステップにより検出された直線成分の本数に基づき前記音源の個数を推定する推定ステップと、を備えることを特徴とする。
【０００９】
また、本発明に係る音響信号処理プログラムは、第１入力部及び第２入力部を介して入力された音響信号に基づき、前記第１入力部に入力された前記音響信号の振幅値、及び前記第２入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング手順と、前記マッピング手順によりマッピングされた前記座標系上の振幅値の分布に含まれる直線成分を検出する検出手順と、前記検出手順により検出された直線成分の本数に基づき前記音源の個数を推定する推定手順と、をコンピュータに実行させるためのプログラムである。
【発明の効果】
【００１０】
本発明によれば、音源がマイクロホン間の距離に比べてマイクロホンから近い場所に位置している場合でも音源数を推定できる。
【図面の簡単な説明】
【００１１】
【図１】第１実施形態に係る音響信号処理装置を示す図。
【図２】第１実施形態に係る音響信号処理装置に入力される音響信号を示す図。
【図３】第１実施形態に係る音響信号の振幅値分布を示す図。
【図４】第１実施形態に係る音響信号処理装置のシミュレーション結果を示す図。
【図５】第１実施形態に係る音響信号処理装置のシミュレーション結果を示す図。
【図６】第１実施形態に係る音響信号処理装置のシミュレーション結果を示す図。
【図７】第１実施形態に係る音響信号処理装置のシミュレーション結果を示す図。
【図８】第１実施形態に係る音響信号処理装置のＨｏｕｇｈ変換結果を示す図。
【図９】第２実施形態に係る音響信号処理装置を示す図。
【図１０】第２実施形態に係る周波数分解部を示す図。
【図１１】第３実施形態に係る音響信号処理装置を示す図。
【図１２】第４実施形態に係る音響信号処理装置を示す図。
【図１３】第５実施形態に係る音響信号処理装置を示す図。
【図１４】第１実施形態に係る音響信号処理装置のハードウェア構成を示す図。
【発明を実施するための形態】
【００１２】
（第１実施形態）
図１は、第１実施形態に係る音響信号処理装置１を示す図である。音響信号処理装置１は、音響信号処理装置１から離れた場所に位置する音源（図示しない）から到達する音響信号に基づき音源の個数を推定する。
【００１３】
音響信号処理装置１は、入力部としての２つのマイク１０１Ａ，１０１Ｂと、マイク１０１Ａ，１０１Ｂを介して受信した音響信号をＡ／Ｄ変換するＡ／Ｄ変換部１０２と、音響信号の振幅値をマッピングするマッピング部１０３と、マッピング部１０３によりマッピングされた振幅値の同時分布に含まれる直線成分を検出する検出部１０４と、検出部１０４が検出した直線成分に基づき音源数を推定する推定部１０５とを備える。
【００１４】
マイク１０１Ａは、図示しない音源から到達する音響信号が入力される第１入力部として動作する。マイク１０１Ａは、入力された音響信号を電気的な信号に変換し第１音響信号として後段のＡ／Ｄ変換部１０２に渡す。マイク１０１Ｂは、図示しない音源から到達する音響信号が入力される第２入力部として動作する。マイク１０１Ｂは、入力された音響信号を電気的な信号に変換し第２音響信号として後段のＡ／Ｄ変換部１０２に渡す。２つのマイク１０１Ａ，１０１Ｂは、所定の間隔をあけて設置される。
【００１５】
Ａ／Ｄ変換部１０２は、マイク１０１Ａ，１０１Ｂを介して受信したアナログの第１，第２音響信号に対して信号処理を施し、デジタルの第１，第２音響信号を生成する。Ａ／Ｄ変換部１０２は、生成したデジタルの第１，第２音響信号をマッピング部１０３に渡す。
【００１６】
マッピング部１０３は、第１，第２音響信号の振幅値を２次元空間にマッピングすることで振幅値の同時分布を生成する。マッピング部１０３は、生成した振幅値の同時分布を検出部１０４に渡す。
【００１７】
検出部１０４は、マッピング部１０３が生成した同時分布から直線成分を検出する。
推定部１０５は、検出部１０４が検出した直線成分の本数から音響信号の音源数を推定する。具体的には、直線成分の本数を音源数と推定する。推定部１０５は、推定した音源数を図示しない上位レイヤに渡す。上位レイヤは、音源数に基づき音源の方向等を算出することで、音響信号から雑音を低減し、目的の音響信号を抽出する。
【００１８】
次に、図２乃至図８を用いて、各部の詳細及び音源数を推定する原理について説明する。図２は、音源１０Ａ，１０Ｂとマイク１０１Ａ，１０１Ｂとの関係を示す図である。ここでは、説明を簡単にするため、音源数を２つとして説明する。
【００１９】
図２に示すように２つの音源１０Ａ，１０Ｂそれぞれから音響信号１１Ａ，１１Ｂが出力される。音源１０Ａから出力される音響信号１１Ａは、所定の振幅値をもつ信号と、振幅値がゼロである信号とが繰り返される信号である。具体的に、例えば音源１０Ａが人であり、人が発する声が音響信号１１Ａである場合、まず子音と母音とで音響信号１１Ａの振幅値が異なる。また、文章の切れ目や単語の区切り等で無音の期間が存在する。この無音の期間が、振幅値がゼロである信号の期間となる。
【００２０】
人が発する声以外、例えばドアを開閉する音等の雑音が音響信号１１Ａである場合、音源１０Ａから出力される音響信号は、一定期間だけ振幅値を持ちそれ以外が無音である信号（振幅値がゼロである信号）となる。このように、音源１０Ａから出力される音響信号１１Ａは、所定の振幅値をもつ信号と、振幅値がゼロである信号とを含む信号である。音源１０Ｂから出力される音響信号１１Ｂも、音響信号１１Ａと同様に所定の振幅値をもつ信号と、振幅値がゼロである信号とを含む信号である。以下の説明では説明を簡略化するために、音源１０Ａ，１０Ｂから出力される音響信号１１Ａ，１１Ｂを、正弦波の信号と振幅値ゼロの信号とが交互に繰り返す信号であるとする。図２では、音響信号１１Ａを実線で、音響信号１１Ｂを破線で示している。
【００２１】
図２に示すように音源１０Ａから出力される音響信号１１Ａの振幅値ゼロの期間と、音源１０Ｂから出力される音響信号１１Ｂの振幅値ゼロの期間とは重複しない。すなわち、音源１０Ａから正弦波の音響信号１１Ａが出力される場合、音源１０Ｂからは振幅値ゼロの音響信号１１Ｂが出力され、音源１０Ａから振幅値ゼロの音響信号１１Ａが出力される場合、音源１０Ｂからは正弦波の音響信号１１Ｂが出力される。
【００２２】
音源１０Ａ，１０Ｂから出力された音響信号１１Ａ，１１Ｂは、それぞれマイク１０１Ａ，１０１Ｂに入力される。音響信号１１Ａ，１１Ｂの振幅は、音源１０Ａ，１０Ｂとマイク１０１Ａ，１０１Ｂとの間の空間を伝搬する間に減衰する。マイク１０１Ａには音響１２Ａ及び音響信号１２Ｂが入力される。音響信号１２Ａは音源１０Ａから出力された音響信号１１Ａが減衰した信号であり、音響信号１２Ｂは音源１０Ｂから出力された音響信号１１Ｂが減衰した信号である。マイク１０１Ｂには音響１３Ａ及び音響信号１３Ｂが入力される。音響信号１３Ａは音源１０Ａから出力された音響信号１１Ａが減衰した信号であり、音響信号１３Ｂは音源１０Ｂから出力された音響信号１１Ｂが減衰した信号である。
【００２３】
音響信号１１Ａ，１１Ｂの振幅の減衰率は、音源１０Ａ，１０Ｂとマイク１０１Ａ，１０１Ｂとの間の距離の２乗に比例する。図２の例では、音源１０Ａとマイク１０１Ａとの距離より音源１０Ａとマイク１０１Ｂとの距離の方が離れているため、音源１０Ａからマイク１０１Ａに入力された音響信号１２Ａの振幅よりマイク１０１Ｂに入力された音響信号１３Ａの振幅の方が小さくなる。同様に、音源１０Ｂとマイク１０１Ｂとの距離より音源１０Ｂとマイク１０１Ａとの距離の方が離れているため、音源１０Ｂからマイク１０１Ｂに入力された音響信号１３Ｂの振幅よりマイク１０１Ａに入力された音響信号１２Ｂの振幅の方が小さくなる。
【００２４】
マイク１０１Ａは、入力された音響信号１２Ａ，１２Ｂを重ね合わせた第１音響信号１２を電気的な信号に変換しＡ／Ｄ変換部１０２に出力する。第１音響信号１２は、振幅の異なる正弦波が連続する信号となる。
【００２５】
マイク１０１Ｂは、入力された音響信号１３Ａ，１３Ｂを重ね合わせた第２音響信号１３を電気的な信号に変換しＡ／Ｄ変換部１０２に出力する。第２音響信号１３は、振幅の異なる正弦波が連続する信号となる。
【００２６】
次に、図３（ａ）に示すようにＡ／Ｄ変換部１０２は所定のサンプリング周期Ｔで第１，第２音響信号１２，１３をサンプリングし、音響信号１２，１３をアナログからデジタルの信号に変換する。Ａ／Ｄ変換部１０２は、デジタル信号に変換した第１，第２音響信号１２，１３をマッピング部１０３に出力する。
【００２７】
マッピング部１０３は、第１，第２音響信号１２，１３の振幅値を、各振幅値を座標軸とする座標系にマッピングする。マッピング部１０３は、第１音響信号１２の振幅値ｘ１をｘ軸とし、第２音響信号１３の振幅値ｘ２をｙ軸とする２次元直交座標系に、Ａ／Ｄ変換部１０２のサンプリング周期Ｔでサンプルした第１，第２音響信号１２，１３の振幅値（ｘ１（ｎＴ）、ｘ２（ｎＴ））（ｎは整数）をマッピングする。
【００２８】
図３（ｂ）に、第１，第２音響信号１２，１３の振幅値（ｘ１（ｎＴ）、ｘ２（ｎＴ））を、各振幅値を座標とする座標系にマッピングした場合の模式図を示す。図３（ｂ）に示すように、第１，第２音響信号１２，１３の振幅値（ｘ１（ｎＴ）、ｘ２（ｎＴ））は、２本の直線上にマッピングされる。
【００２９】
音源１０Ａから出力される音響信号１１Ａは、空間を伝搬する間に減衰する。音響信号１１Ａの減衰率は距離の２乗に比例する。音源１０Ａからマイク１０１Ａまでの音響信号１１Ａの減衰率を１／ａとし、音源１０Ａからマイク１０１Ｂまでの音響信号１１Ａの減衰率を１／ｂとする。音源１０Ａから出力される音響信号１１Ａの振幅値をｘとすると、マイク１０１Ａに入力される音響信号１２Ａの振幅値ｘ１Ａは、ｘ１Ａ＝ａ×ｘとなり、マイク１０１Ｂに入力される音響信号１３Ａの振幅値ｘ２Ａは、ｘ２Ａ＝ｂ×ｘとなる。音響信号１２Ａ，１３Ａの振幅値（ｘ１Ａ，ｘ２Ａ）＝（ａ×ｘ，ｂ×ｘ）を、各振幅値を座標軸とする座標系にマッピングすると、振幅値（ａ×ｘ，ｂ×ｘ）は、音響信号１１Ａの減衰率１／ａ，１／ｂに依存する傾きを持ち原点を通る直線（ｂ／ａ）×ｘ上にマッピングされる。
【００３０】
同様に、音源１０Ｂからマイク１０１Ａまでの音響信号１１Ｂの減衰率を１／ｃとし、音源１０Ｂからマイク１０１Ｂまでの音響信号１１Ｂの減衰率を１／ｄとする。音源１０Ｂから出力される音響信号１１Ｂの振幅値をｘとすると、マイク１０１Ａに入力される音響信号１２Ｂの振幅値ｘ１Ｂは、ｘ１Ｂ＝ｃ×ｘとなり、マイク１０１Ｂに入力される音響信号１３Ｂの振幅値ｘ２Ｂは、ｘ２Ｂ＝ｄ×ｘとなる。音響信号１２Ｂ，１３Ｂの振幅値（ｘ１Ｂ，ｘ２Ｂ）＝（ｃ×ｘ，ｄ×ｘ）を、各振幅値を座標軸とする座標系にマッピングすると、振幅値（ｃ×ｘ，ｄ×ｘ）は、音響信号１１Ｂの減衰率１／ｃ，１／ｄに依存する傾きを持ち原点を通る直線（ｄ／ｃ）×ｘ上にマッピングされる。
【００３１】
図２に示すように音源１０Ａから出力される音響信号１１Ａ、音源１０Ｂから出力される音響信号１１Ｂは、一方が正弦波信号を出力している間、他方が振幅値ゼロの信号を出力している。このため、第１，第２音響信号１２，１３では、音源１０Ａからの音響信号１２Ａ，１３Ａ及び音源１０Ｂからの音響信号１２Ｂ，１３Ｂが重なっておらず、第１，第２音響信号１２，１３に、一方の音響信号（例えば音響信号１２Ａ，１３Ａ）があらわれる場合は、他方の音響信号（例えば音響信号１２Ｂ，１３Ｂ）はあらわれない。
【００３２】
第１，第２音響信号１２，１３の振幅値を、各振幅値を座標軸とする座標系にマッピングすると、音源１０Ａからマイク１０１Ａ，１０１Ｂに入力された音響信号１２Ａ，１３Ａ、及び音源１０Ｂからマイク１０１Ａ，１０１Ｂに入力された音響信号１２Ｂ，１３Ｂがそれぞれマッピングされることになる。上述したように、音響信号１２Ａ，１３Ａは、音響信号１１Ａの減衰率ａ，ｂに依存する傾きを持ち原点を通る直線上にマッピングされ、音響信号１２Ｂ，１３Ｂは、音響信号１１Ｂの減衰率ｃ，ｄに依存する傾きを持ち原点を通る直線上にマッピングされる。
【００３３】
マイク１０１Ａ，１０１Ｂに入力される第１，第２音響信号１２，１３に音源１０Ａ又は音源１０Ｂの一方から到達した音響信号のみが含まれる期間が存在する場合、この期間の音響信号は、各振幅値を座標軸とする座標系に直線として表されることになる。そのため、座標系に表される直線成分の本数が音源数と一致する。そこで、検出部１０４が、マッピング部１０３によってマッピングされた第１，第２音響信号１２，１３の振幅値から直線成分を検出し、推定部１０５が、検出部１０４が検出した直線成分の本数を推定することで、音響信号処理装置１は音源数を推定することができる。
【００３４】
図２では、簡略化のため、音響信号１１Ａ，１１Ｂを音響信号１１Ａの正弦波成分と、音響信号１１Ｂの正弦波成分とが重複しないものとして説明したが、実際には音源１０Ａ，１０Ｂから出力される音響信号１１Ａ，１１Ｂの正弦波成分が重複する場合が多い。例えば、音響信号１１Ａ，１１Ｂが、人が発する声（音声）である場合、音源１０Ａ，１０Ｂから音響信号１１Ａ，１１Ｂを同時に出力すると、マイク１０１Ａ，１０１Ｂでは音響信号１１Ａと音響信号１１Ｂとが重畳される。
【００３５】
しかしながら上述したように、人が発する声や雑音は常に振幅値を持つ信号ではなく、無音の期間が存在する信号である。従って、例えば音源１０Ａ，１０Ｂからそれぞれ同時に人が声を発したとしても、マイク１０１Ａ，１０１Ｂに入力される第１，第２音響信号１２，１３には音源１０Ａ，１０Ｂのいずれか一方から到達した音響信号１１Ａ，１１Ｂのみが含まれる期間が存在する。本実施形態に係る音響信号処理装置１では、音響信号１１Ａ，１１Ｂのいずれか一方のみが含まれる第１，第２音響信号１２，１３に基づき直線を検出して音源数を推定する。そのため、音源から同時に人が声を発した場合など音源１０Ａ，１０Ｂが出力する音響信号１１Ａ，１１Ｂがマイク１０１Ａ，１０１Ｂに同時に到達したとしても本実施形態の音響信号処理装置１は、音源数を推定することができる。
【００３６】
次に、図４乃至図７を用いて本実施形態に係る音響信号処理装置１を用いて音源数を推定したシミュレーション結果を説明する。Ａ／Ｄ変換部１０２のサンプリング周期を８ｋＨｚとしてシミュレーションを行った。
【００３７】
図４は、１つの音源１０Ａから人が声を発した場合のシミュレーション結果を示す図である。図４（ａ）は、音源１０Ａから出力した音響信号１１Ａを示す図である。図４（ａ）に示す音響信号１１Ａが音響信号処理装置１に入力されると、マイク１０１Ａでは図４（ｂ）に示す第１音響信号１２が得られる。また、マイク１０１Ｂでは図４（ｃ）に示す第２音響信号１３が得られる。音源１０Ａからの距離は、マイク１０１Ａよりマイク１０１Ｂの方が離れているため、第２音響信号１３の方が第１音響信号１２より振幅が小さくなる。
【００３８】
図４（ｄ）は、第１，第２音響信号１２，１３の振幅値をマッピングした振幅値の同時分布を示す図である。本シミュレーションでは音源数を１つとしているため、振幅値の分布は１本の直線となる。図４（ｅ）は、図４（ｄ）のヒストグラムを示す図である。図４（ｅ）に示すグラフの横軸は、マッピングした第１，第２音響信号１２，１３の振幅値の方位角φ（ラジアン）を、縦軸は方位角がφである振幅値の個数を示している。図４（ｅ）に示すヒストグラムは１本のピークを有しており、振幅値の分布が１本の直線となっていることがわかる。このように、直線成分の本数（ここでは１本）を推定することで、音源数（ここでは１つ）を推定することができる。
【００３９】
図５は、２つの音源１０Ａ，１０Ｂからそれぞれ人が声を発した場合のシミュレーション結果を示す図である。図５（ａ）は、音源１０Ｂから出力した音響信号１１Ｂを示す図である。なお音源１０Ａからは図４（ａ）に示す音響信号１１Ａが出力される。図４（ａ）、図５（ａ）に示す音響信号１１Ａ，１１Ｂが音響信号処理装置１に入力されると、マイク１０１Ａでは図５（ｂ）に示す第１音響信号１２が得られる。またマイク１０１Ｂでは図５（ｃ）に示す第２音響信号１３が得られる。２つの音源１０Ａ，１０Ｂから同時に異なる音響信号１１Ａ，１１Ｂが出力されているため、第１，第２音響信号１２，１３はそれぞれ異なる振幅値を有する信号となる。
【００４０】
図５（ｄ）は、第１，第２音響信号１２，１３の振幅値をマッピングした振幅値の同時分布を示す図である。図５（ｄ）に示すように、振幅値の分布に２本の直線成分が含まれていることがわかる。図５（ｅ）は、図５（ｄ）のヒストグラムを示す図である。ヒストグラムは図４（ｅ）と同様に算出する。図５（ｅ）に示すヒストグラムは２本のピークを有しており、ヒストグラムからも振幅値の同時分布に２本の直線成分が含まれていることがわかる。このように、直線成分の本数（ここでは２本）を推定することで、音源数（ここでは２つ）を推定することができる。
【００４１】
次に図６に示すように３つの音源１０Ａ，１０Ｂ，１０Ｃからそれぞれ人が声を発した場合のシミュレーション結果について説明する。３つの音源１０Ａ，１０Ｂ，１０Ｃから出力された音響信号（ここでは人が発した声）は、それぞれ距離が異なる伝搬路を通ってマイク１０１Ａ，１０１Ｂに入力される。
【００４２】
図７（ａ）は、音源１０Ｃから出力した音響信号を示す図である。なお、音源１０Ａからは図４（ａ）に示す音響信号１１Ａが、音源１０Ｂからは図５（ａ）に示す音響信号１１Ｂがそれぞれ出力される。図４（ａ）、図５（ａ）、図７（ａ）に示す音響信号が音響信号処理装置１に入力されると、マイク１０１Ａでは７（ｂ）に示す第１音響信号１２が得られる。またマイク１０１Ｂでは図７（ｃ）に示す第２音響信号１３が得られる。３つの音源１０Ａ，１０Ｂ，１０Ｃから同時に異なる音響信号が出力されているため、第１，第２音響信号１２，１３はそれぞれ異なる振幅値を有する信号となる。
【００４３】
図７（ｄ）は、第１，第２音響信号１２，１３の振幅値をマッピングした振幅値の同時分布を示す図である。図７（ｅ）は、図７（ｄ）のヒストグラムを示す図である。ヒストグラムは図４（ｅ）と同様に算出する。図７（ｅ）に示すヒストグラムは３本のピークを有しており、振幅値の同時分布に３本の直線成分が含まれていることがわかる。このように、直線成分の本数（ここでは３本）を推定することで、音源数（ここでは３つ）を推定することができる。
【００４４】
このように、本実施形態に係る音響信号処理装置１を用いることで、音源数を容易に推定することができる。図７に示すように音源数がマイクの数より多い場合であっても音源数の推定は可能である。また、音源とマイクとの距離によって音響信号の減衰が異なる点に着目して音源数を推定しているため、音源とマイクとの距離が、マイク間の距離に比べて十分に大きくない場合、すなわち音源がマイク間の距離に比べて近い場合に位置している場合でも音源数を推定することができる。
【００４５】
図４（ｅ）に示すように検出部１０４によってヒストグラムを算出することで直線成分を検出し、推定部１０５によってヒストグラムのピークを例えば閾値判定することで本数の推定、すなわち音源数の推定を行うようにしてもよい。
【００４６】
そのほかにも、例えば振幅値の同時分布にＨｏｕｇｈ変換処理を行うことで直線成分を検出する方法もある。この場合、まず検出部１０４が、マッピング部１０３が生成した第１，第２音響信号１２，１３の振幅値の同時分布にＨｏｕｇｈ変換処理を行うことで直線成分を検出する。図８に、図５（ｄ）に示す振幅値の同時分布にＨｏｕｇｈ変換処理を行った結果を示す。図８に示すように、振幅値の同時分布の各点から生成される曲線の多くが２点でｘ軸と交差している。曲線がｘ軸と交差する点の個数が直線成分の本数、すなわち音源数となる。推定部１０５は、例えば多数決の原理等を用いて曲線がｘ軸と交差する点の個数を推定することで、直線成分の本数である音源数を推定することができる。
【００４７】
なお、音源１０Ａ，１０Ｂ，１０Ｃとマイク１０１Ａ，１０１Ｂの位置関係は、図２，図６に示す場合に限られない。図６に示すように音源１０Ａ，１０Ｂ，１０Ｃが一列に配置される必要はない。また、マイク１０１Ａ，１０１Ｂをはさんで各音源が対向するように音源１０Ａ，１０Ｂ，１０Ｃを配置してもよい。
【００４８】
（第２実施形態）
図９を用いて第２実施形態に係る音響信号処理装置２を説明する。本実施形態に係る音響信号処理装置２は、周波数毎に第１，第２音響信号の振幅値をマッピングする点で第１実施形態と異なる。それ以外は、第１実施形態と同じであるため、同一構成要素には同一符号を付し説明を省略する。
【００４９】
図９に示すように、音響信号処理装置２は、音響信号処理装置１の構成に加えさらに周波数分解部２０６を備えている。周波数分解部２０６は、第１，第２音響信号１２，１３を周波数毎に分解し、周波数毎の音響信号をマッピング部２０３に出力する。
【００５０】
図１０を用いて周波数分解部２０６の詳細を説明する。周波数分解部２０６は、フーリエ変換部６０１、分解部６０２、及び逆フーリエ変換部６０３を備える。まず第１音響信号１２が周波数分解部２０６に入力されると、フーリエ変換部６０１にて時間領域の信号から周波数領域の信号（周波数音響信号）へと変換される。
【００５１】
次に周波数分解部２０６は、周波数音響信号を各周波数に分解する。ここでは、周波数ｆ１の第１周波数音響信号、周波数ｆ２の第２周波数音響信号、及び周波数ｆ３の第３周波数音響信号の３つに分解する。なお、周波数ｆ１〜ｆ３を中心周波数とし、一定の帯域幅を有する第１〜第３周波数音響信号に分解してもよい。分解数は３に限られず２以上の数に分解してもよい。また分解数を１とし、特定の周波数だけ抽出するようにしてもよい。
【００５２】
分解部６０２で分解された第１〜第３周波数音響信号は、逆フーリエ変換部６０３で周波数領域の信号から時間領域の信号へと変換される。逆フーリエ変換部６０３は、第１〜第３周波数音響信号を時間領域の信号へと変換し、第１〜第３時間信号を生成する。逆フーリエ変換部６０３は、生成した第１〜第３時間信号をマッピング部２０３に出力する。
【００５３】
分解部６０２は、第２音響信号１３に対しても同様の処理を行い、周波数ｆ１の第４周波数音響信号、周波数ｆ２の第５周波数音響信号、及び周波数ｆ３の第６周波数音響信号の３つに分解し、第４〜第６周波数音響信号から第４〜第６時間信号を生成する。
【００５４】
図９に戻る。
マッピング部２０３は、第１〜第６時間信号の振幅値を元に、周波数毎に第１，第２音響信号１２，１３の振幅値をマッピングし、振幅値の同時分布を生成する。具体的には、マッピング部２０３は、第１時間信号及び第４時間信号の振幅値を、各振幅値を座標軸とする座標系にマッピングすることで、周波数ｆ１における第１，第２音響信号１２，１３の振幅値の同時分布（以下、振幅値分布と称する。）を生成する。マッピング部２０３は、第２時間信号及び第５時間信号の振幅値を、各振幅値を座標軸とする座標系にマッピングすることで、周波数ｆ２における第１，第２音響信号１２，１３の振幅値分布を生成する。マッピング部２０３は、第３時間信号及び第６時間信号の振幅値を、各振幅値を座標軸とする座標系にマッピングすることで、周波数ｆ３における第１，第２音響信号１２，１３の振幅値分布を生成する。
【００５５】
検出部２０４は、周波数ｆ１〜ｆ３の周波数値分布に含まれる直線成分をそれぞれ検出する。検出する方法は、第１実施形態と同じである。検出部２０４は、検出した直線成分を周波数毎に推定部２０５に出力する。推定部２０５は、周波数毎に検出部２０４が検出した直線成分の本数を推定する。直線成分の本数を推定する方法は、第１実施形態と同じである。推定部２０５は、推定した周波数毎の直線成分の本数から多数決の原理を用いて、第１，第２音響信号１２，１３の振幅値分布に含まれる直線成分の本数、すなわち音源数を推定する。あるいは、周波数毎の直線成分の本数の平均値を音源数としてもよい。
【００５６】
以上のように第２実施形態に係る音響信号処理装置２は第１実施形態と同様の効果が得られるとともに、マイク１０１Ａ，１０１Ｂに入力された第１，第２音響信号１２，１３を周波数分解し、周波数毎に振幅値分布を求めることで、さらに精度よく音源数を推定することができる。
【００５７】
特に、マイク１０１Ａ，１０１Ｂに入力される目的の音響信号の種類があらかじめわかっている場合、例えば音響信号処理装置２が電話でありマイク１０１Ａ，１０１Ｂに入力される目的の音響信号が人の音声であるとあらかじめわかっている場合は、第１，第２音響信号を音響信号の種類（音声）特有の周波数に分解することで、目的の音響信号以外の雑音を低減してから音源数の推定を行うことができ、さらに音源数の推定の精度を向上させることができる。
【００５８】
（第３実施形態）
次に図１１を用いて第３実施形態に係る音響信号処理装置３を説明する。本実施形態に係る音響信号処理装置３は、マッピング部３０３が、周波数毎に振幅値分布を生成するのではなく、第１〜第６時間信号を元に第１，第２音響信号の振幅値分布を１つ生成する点で第２実施形態と異なる。第１，第２実施形態と同じ構成要素には同一符号を付し説明を省略する。
【００５９】
マッピング部３０３は、周波数分解部２０６から入力された第１〜第６時間信号に基づき第１，第２音響信号１２，１３の振幅値分布を生成する。マッピング部３０３は、第１，第４時間信号の振幅値（Ａ１，Ａ４）、第２，第５時間信号の振幅値（Ａ２，Ａ５）、及び第３，第６時間信号の振幅値（Ａ３，Ａ６）を、各振幅値を座標軸とする１つの座標系にマッピングする。これにより、第２実施形態の周波数ｆ１〜ｆ３の振幅値分布を１つに統合した第１，第２音響信号１２，１３の振幅値分布が得られる。
【００６０】
マッピング部３０３が生成した第１，第２音響信号１２，１３の振幅値分布から音源数を推定する方法は第１実施形態と同じであるため説明を省略する。
【００６１】
以上のように第３実施形態に係る音響信号処理装置３は、第２実施形態と同様の効果が得られるとともに、マッピング部３０３で１つの振幅値分布しか生成しないため、後段の直線検出処理や音源数推定処理の計算時間を短縮することができる。
【００６２】
（第４実施形態）
図１２を用いて第４実施形態に係る音響信号処理装置４を説明する。本実施形態に係る音響信号処理装置４は、マッピング部４０３にて第１，第２音響信号１２，１３の位相を、各位相を座標軸とする座標系にマッピングする点で第１実施形態と異なる。
【００６３】
音響信号処理装置４は、マイク１０１Ａ，１０１Ｂ、Ａ／Ｄ変換部１０２、周波数分解部４０６、マッピング部４０３、検出部１０４、及び推定部１０５を備える。Ａ／Ｄ変換部１０２がデジタルの第１，第２音響信号１２，１３を生成する点は第１実施形態と同じである。
【００６４】
周波数分解部４０６は、Ａ／Ｄ変換部１０２から入力された第１，第２音響信号１２，１３に対してフーリエ変換処理を行い、時間領域の信号から周波数領域の信号に変換する。周波数領域の第１，第２音響信号１２，１３を第１，第２周波数音響信号と称する。周波数分解部４０６は、第１，第２周波数音響信号の各周波数における位相を算出する。周波数分解部４０６は、第１周波数音響信号の各周波数における位相を第１音響信号１２の位相としてマッピング部４０３に出力する。周波数分解部４０６は、第２周波数音響信号の各周波数における位相を第２音響信号１３の位相としてマッピング部４０３に出力する。
【００６５】
マッピング部４０３は、第１，第２音響信号１２，１３の同一周波数の位相の組を、各位相を座標軸とする座標系にマッピングし、位相の同時分布（以下、位相分布と称する。）を生成する。検出部１０４は位相分布から線分を検出し、推定部１０５は音源数を推定する。線分の検出方法及び音源数の推定方法は第１実施形態と同じであるため説明を省略する。
【００６６】
第１実施形態で図２を用いて説明したように、音源１０Ａ，１０Ｂから出力された音響信号１１Ａ，１１Ｂの振幅は、マイク１０１Ａ，１０１Ｂまでの距離に応じて一定の減衰率で減衰する。同様に、音響信号１１Ａ，１１Ｂの位相は、マイク１０１Ａ，１０１Ｂまでの距離に応じて一定の割合で回転する。
【００６７】
音響信号１１Ａをマイク１０１Ａ，１０１Ｂで受信した各音響信号１２Ａ，１３Ａの振幅の差、すなわち音響信号１１Ａの振幅の減衰量の差が第１，第２音響信号の振幅値分布に直線となって表される。同様に、音響信号１１Ａをマイク１０１Ａ，１０１Ｂで受信した各音響信号１２Ａ，１３Ａの位相の差、すなわち音響信号１１Ａの位相の回転量の差が第１，第２音響信号の位相分布に線分となって表される。
【００６８】
つまり、音響信号１２Ａの位相をｘ軸とし、音響信号１３Ａの位相をｙ軸とし、各周波数における音響信号１２Ａ，１３Ａの位相をマッピングすると、音響信号１２Ａ，１３Ｂの位相差に応じた傾きを持つ線分上に各位相がマッピングされる。音響信号１２Ｂ，１３Ｂについても同様であるため、第１実施形態の振幅値分布の代わりに、本実施形態のように位相分布を用いても、位相分布に含まれる線分の本数を検出するだけで音源数を推定することができる。
【００６９】
（第５実施形態）
次に、図１３を用いて第５実施形態に係る音響信号処理装置５を説明する。本実施形態に係る音響信号処理装置５は、音響信号処理装置１及び音響信号処理装置４を組み合わせた構成となっている。
【００７０】
図１３に示す音響信号処理装置５は、マッピング部１０３と、周波数分解部４０６及びマッピング部４０３とを備えている。つまり、本実施形態の音響信号処理装置５は、Ａ／Ｄ変換部１０２から直接的に信号の入力を受けるマッピング部１０３と、Ａ／Ｄ変換部１０２から周波数分解部４０６を介して信号の入力を受けるマッピング部４０３とを備えている。Ａ／Ｄ変換部１０２によってデジタル信号に変換された第１，第２音響信号１２，１３は、それぞれマッピング部１０３と周波数分解部４０６とに入力される。マッピング部１０３は、入力された第１，第２音響信号１２，１３の振幅値分布を生成し、検出部５０４に出力する。周波数分解部４０６は、第１，第２音響信号１２，１３の位相を算出し、マッピング部４０３は、第１，第２音響信号１２，１３の位相分布を生成する。位相分布は、検出部５０４に入力される。
【００７１】
検出部５０４は、マッピング部１０３から入力された振幅値分布に含まれる線分を検出する。検出部５０４は、マッピング部４０３から入力された位相分布に含まれる線分を検出する。推定部５０５は、検出部５０４が検出した振幅値分布に含まれる線分の本数、及び位相分布に含まれる線分の本数に基づき音源数を推定する。推定部５０５は、例えば振幅値分布、位相分布それぞれに含まれる線分の本数の平均値を音源数として推定する。
【００７２】
このように、音響信号処理装置１及び音響信号処理装置４を組み合わせて音響信号処理装置５を構成することで、より高精度に音源数を推定することができる。
【００７３】
なお、本実施形態では、音響信号処理装置１，４を組み合わせたが、音響信号処理装置１〜４のいずれを組み合わせてもよい。３つ以上の音響信号処理装置を組み合わせることも可能である。
【００７４】
図１４は、第１実施形態に係る音響信号処理装置１のハードウェア構成を示す図である。音響信号処理装置１は、音源数の推定を行う音響信号処理プログラムなどが格納されているＲＯＭ６１と、ＲＯＭ６１内のプログラムに従って音響信号処理装置１の各部を制御するＣＰＵ６２と、音響信号処理装置１の制御に必要な種々のデータを記憶するＲＡＭ６３と、ネットワークに接続して通信を行う通信Ｉ／Ｆ６４と、各部を接続するバス６５を備えている。
【００７５】
また音響信号処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＤＶＤなどのコンピュータで読み取り可能な記憶媒体に記憶されて提供されてもよい。
【００７６】
この場合には、音響信号処理プログラムは、上記記憶媒体から読み出して実行することにより音響信号処理装置１の主記憶装置上にロードされ、図１４に示すソフトウェア構成の各部が、主記憶装置上に形成されるようになっている。
【００７７】
また、本実施形態の音響信号処理プログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク、通信Ｉ／Ｆ６４経由でダウンロードさせることにより提供するように構成してもよい。
【００７８】
上記ハードウェア構成は音響信号処理装置１に限られず音響信号処理装置２〜５でも同様に構成することが可能である。
【００７９】
最後に、上述した各実施形態の説明は本開示の一例であり、本開示は上述の実施の形態に限定されることはない。このため、上述した各実施の形態以外であっても、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。
【符号の説明】
【００８０】
１０音源
１０１マイク
１０２Ａ／Ｄ変換部
１０３，２０３，３０３，４０３マッピング部
１０４，２０４，５０４検出部
１０５，２０５，５０５推定部
２０６，４０６周波数分解部

【特許請求の範囲】
【請求項１】
音源から到達する音響信号が入力される第１入力部及び第２入力部と、
前記第１入力部及び第２入力部に入力された音響信号に基づき、前記第１入力部に入力された前記音響信号の振幅値、及び前記第２入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング部と、
前記マッピング部がマッピングした前記座標系上の振幅値の分布に含まれる直線成分を検出する検出部と、
前記検出部が検出した直線成分の本数に基づき前記音源の個数を推定する推定部と、
を備えることを特徴とする音響信号処理装置。
【請求項２】
前記第１入力部及び前記第２入力部に入力された前記音響信号の各々を周波数分解し、前記音響信号の周波数毎の振幅値を算出する周波数分解部をさらに備え、
前記マッピング部は、前記周波数分解部により算出された周波数毎の振幅値に基づき、前記第１入力部に入力された前記音響信号の振幅値、及び前記第２入力部に入力された前記音響信号の振幅値を周波数毎にマッピングし、
前記検出部は、前記マッピング部が周波数毎にマッピングした振幅値の分布に含まれる前記直線成分を前記周波数毎に検出し、
前記推定部は、前記検出部が周波数毎に検出した直線の本数に基づき音源の個数を推定する
ことを特徴とする請求項１に記載の音響信号処理装置。
【請求項３】
前記第１入力部及び前記第２入力部に入力された前記音響信号の各々を周波数分解し、前記音響信号の周波数毎の振幅値を算出する周波数分解部をさらに備え、
前記マッピング部は、周波数毎に前記第１入力部に入力された前記音響信号の振幅値、及び前記第２入力部に入力された前記音響信号の振幅値を統合し、該振幅値をマッピングする
ことを特徴とする請求項１に記載の音響信号処理装置。
【請求項４】
前記第１入力部及び前記第２入力部に入力された前記音響信号の各々を周波数領域の信号に変換し、前記音響信号の位相を算出する周波数分解部をさらに備え、
前記マッピング部は、前記第１入力部に入力された前記音響信号の前記位相、及び前記第２入力部に入力された前記音響信号の前記位相を、各前記位相を座標軸とする座標系にマッピングし、
前記検出部は、前記マッピング部がマッピングした前記位相の分布に含まれる前記直線成分を検出する
ことを特徴とする請求項１に記載の音響信号処理装置。
【請求項５】
第１入力部及び第２入力部を介して入力された音響信号に基づき、前記第１入力部に入力された前記音響信号の振幅値、及び前記第２入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピングステップと、
前記マッピングステップによりマッピングされた前記座標系上の振幅値の分布に含まれる直線成分を検出する検出ステップと、
前記検出ステップにより検出された直線成分の本数に基づき前記音源の個数を推定する推定ステップと、
を備えることを特徴とする音響信号処理方法。
【請求項６】
第１入力部及び第２入力部を介して入力された音響信号に基づき、前記第１入力部に入力された前記音響信号の振幅値、及び前記第２入力部に入力された前記音響信号の振幅値を、各前記振幅値を座標軸とする座標系にマッピングするマッピング手順と、
前記マッピング手順によりマッピングされた前記座標系上の振幅値の分布に含まれる直線成分を検出する検出手順と、
前記検出手順により検出された直線成分の本数に基づき前記音源の個数を推定する推定手順と、
をコンピュータに実行させるための音響信号処理プログラム。

【図１】