説明

音源分離装置及び音源分離方法

【課題】ICA法に基づくBSS方式による音源分離処理を行うに当たり、音響空間に存在する音源の数に増減があった場合でも、高い音源分離性能を維持できること。
【解決手段】n個の指向性マイク111〜11nが、0個〜n個の音源が存在し得る音響空間において各々異なる指向方向で配置され、パワー検出・信号選択部25が入力音声信号xi各々のパワーPiを検出するとともに、そのパワーPiに基づいて、入力音声信号xiの中から、指向性マイク111〜11nが配置される音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号xj(チャンネル)を選択し、これにより複数の採用入力信号xjが選択された場合、ICA部20が、その複数の採用入力音声信号xjに対し、独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことによって採用入力音声信号xjの数と同数の分離信号yjを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、所定の音響空間に複数のマイクロホンが存在する状態で、そのマイクロホン各々を通じて入力される複数の入力音声信号(音源各々からの音源信号が重畳された信号)に対し、独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより複数の分離信号を生成する機能を備えた音源分離装置及び音源分離方法に関するものである。
【背景技術】
【0002】
所定の音響空間に複数の音源と複数のマイクロホンとが存在する場合、その複数のマイクロホンごとに、複数の音源各々からの音声信号(以下、音源信号という)が重畳された音声信号(以下、入力音声信号という)が取得される。このようにして取得(入力)された複数の入力音声信号のみに基づいて、前記音源信号各々を同定(分離)する音源分離処理の方式は、ブラインド音源分離方式(Blind Source Separation方式、以下、BSS方式という)と呼ばれる。
さらに、BSS方式の音源分離処理の1つに、独立成分分析法(Independent Component Analysis、以下、ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は、複数のマイクを通じて入力される複数の入力音声信号(時系列の音声信号)において、前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し、入力された複数の入力音声信号に対して最適化された分離行列によるフィルタ処理(行列演算)を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。
なお、本明細書において、「演算」、「計算」及び「算出」の用語は同義を表すものとする。
【0003】
ここで、学習計算開始時には、所定の初期値が設定された分離行列(以下、初期行列という)が与えられ、その初期行列が学習計算により更新されて音源分離(前記分離用フィルタ処理)に用いる分離行列として設定される。通常、最初の学習計算開始時には、予め定められた所定の行列が初期行列として設定され、以後、学習計算が行われるごとに、学習後の分離行列が次の学習計算開始時の初期行列として設定される。このようなICA法に基づくBSS方式の音源分離処理(以下、ICA−BSS音源分離処理という)は、例えば、非特許文献1や非特許文献2等に詳説されている。
ここで、ICA−BSS音源分離処理における分離行列の学習計算は、演算負荷が高く、現状の実用的なプロセッサではそれをリアルタイムで行うことはできない。このため、ICA−BSS音源分離処理をリアルタイムで行う場合、逐次入力される入力音声信号に対し、分離行列を用いた行列演算(前記分離用フィルタ処理)を逐次施してリアルタイムで出力信号としての分離信号を得る一方、これと並行して学習計算を行い、その学習計算によって新たな分離行列が得られる都度、リアルタイムの分離処理に用いる分離行列を新たな分離行列に更新するという処理を行えばよい。
また、特許文献1には、話者が音源である場合に、話者が発話中であるか否かを判別し、その判別結果に応じて分離行列の学習及び分離処理をON/OFF制御する技術が示されている。
【特許文献1】特開2005−227512号公報
【非特許文献1】猿渡洋、「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告、vol.EA2001-7、pp.49-56、April 2001.
【非特許文献2】高谷智哉他、「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告、vol.US2002-87、EA2002-108、January 2003.
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところで、ICA−BSS音源分離処理では、処理対象とする入力音声信号の数に応じて分離行列のサイズが定まり、処理対象とする入力音声信号の数と同数の分離信号が生成される。また、従来のICA−BSS音源分離処理は、処理対象とする入力音声信号の数は、音響空間に配置されるマイクロホンの数に等しい。
しかしながら、ICA−BSS音源分離処理において、音響空間に存在する音源の数に対し、処理対象となる入力音声信号の数(一般には、マイクロホンの数)に過不足が生じると、音源分離性能が悪化するという問題点があった。
即ち、音源の数よりも処理対象となる入力音声信号の数(マイクロホンの数)が多い場合、1つの音源信号を複数の分離信号に分離する処理がなされてしまうことから、音源分離性能が悪化する。また、音源の数よりも処理対象となる入力音声信号の数が少ない場合、音源の数よりも少ない分離信号しか生成されないことから、音源分離性能が悪化する。
このため、音響空間に存在する音源の数が予め定まっていない場合、従来のICA−BSS音源分離処理を行う音源分離装置は、音響空間に存在する音源の数に対し、処理対象となる入力音声信号の数(マイクロホンの数)に過不足が生じ、音源分離性能が悪化するという問題点があった。
従って、本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ICA法に基づくBSS方式による音源分離処理を行うに当たり、音響空間に存在する音源の数に増減があった場合でも、高い音源分離性能を維持できる音源分離装置及び音源分離方法を提供することにある。
【課題を解決するための手段】
【0005】
上記目的を達成するために本発明は、所定の音響空間に複数の指向性マイクロホンが各々異なる指向方向で配置された状況下で、それら指向性マイクロホンを通じて入力される複数の入力音声信号に基づいて音源分離処理を行う音源分離装置又は音源分離方法として構成されるものであり、以下の(1)〜(3)に示す各構成要素(手段又は手順)を有するものである。
(1)前記複数の指向性マイクロホンを通じて入力される複数の入力音声信号各々の信号強度を検出する信号強度検出手段、又はその信号検出手段により信号強度を検出する信号強度検出手順。
(2)前記信号強度検出手段(又は手順)の検出結果に基づいて前記複数の入力音声信号の中から前記音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号を選択する信号選択手段、又は信号選択手段による選択を実行する信号選択手順。
(3)前記信号選択手段により複数の前記採用入力信号が選択された場合に、該複数の採用入力音声信号に対し独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより前記採用入力音声信号の数と同数の分離信号を生成するICA−BSS音源分離手段、又はその分離信号の生成処理を所定のプロセッサにより実行するICA−BSS音源分離手順。
ここで、前記信号選択手段又は信号選択手順としては、例えば、前記信号強度検出手段(又は同手順)により検出された信号強度が第1の設定強度を超えた前記入力音声信号を前記採用入力音声信号として選択するものが考えられる。
【0006】
以上に示す構成要素を有する音源分離装置又は音源分離方法を採用した場合、以下のような作用及び効果が得られる。
即ち、ある指向性マイクロホンの指向方向(主な集音範囲)に音源が存在すれば、その指向性マイクロホンを通じて得られる入力音声信号の強度(パワー)が特に強くなる。もちろん、他の指向性マイクロホンを通じて得られる入力音声信号の強度にも多少は影響するものの、その影響の度合いは比較的小さい。
このため、前記信号選択手段(又は同手順)により、全ての入力音声信号の中から、信号強度が一定レベル以上であるもののみを音源分離処理の対象(前記採用入力音声信号)として選択すれば、音源の数に対し、過不足のない数の前記採用入力音声信号が選択される。
従って、前記入力音声信号を得るための前記指向性マイクロホンを、変動する音源の数に対して十分な数だけ設けておけば、音響空間に存在する音源の数に増減があった場合でも、高い音源分離性能を維持できる。
【0007】
また、前記信号選択手段(又は手順)としては、例えば、前記信号強度検出手段(又は手順)により検出された信号強度が強いものから最大2つまでの前記入力音声信号を前記採用入力音声信号として選択するものが考えられる。
これにより、音源分離処理の演算負荷を低減できる。このような構成を有する音源分離装置や音源分離方法は、例えば、ある特定の指向性マイクロホンの指向方向(主な集音範囲)に存在する音源(目的音源)の音源信号と、その他の音源(ノイズ音源)の音源信号とを分離したい場合(複数のノイズ音源の音源信号を分離する必要がない場合)などに有効である。
また、前記信号選択手段(又は手順)としては、例えば、前記採用入力信号として選択している前記入力音声信号のうち、前記信号強度検出手段(又は手順)により検出された信号強度が第2の設定強度以下である状態が所定時間継続したものを前記採用入力音声信号から除外するものが考えられる。
これにより、ICA−BSS音源分離手段(又は手順)の入力数(採用入力音声信号の数)の増減が、音源の一時的な音量増減に応じて無用に頻発することを防止できる。
【0008】
ところで、音源が、隣り合う指向性マイクロホンの一方の集音範囲から他方の集音範囲へ移動した場合、指向方向(集音範囲)が隣り合う2つの指向性マイクロホンにおいて、その一方の入力音声信号の強度が強い状態から弱い状態に変化するとともに、他方の入力音声信号の強度が弱い状態から強い状態に変化する。
そこで、前記信号選択手段(又は手順)としては、指向方向が隣り合う2つの前記指向性マイクロホン各々を通じて入力された入力音声信号(これらを、第1の入力音声信号及び第2の入力音声信号と称する)のうち、その第2の入力音声信号が前記採用入力音声信号として選択しているときに、前記第1の入力音声信号の信号強度が前記第1の設定強度を超えた際に前記第2の入力音声信号の信号強度が第2の設定強度以下となった場合に、その第2の入力音声信号を前記採用入力音声信号から除外するものも考えられる。
なお、以上に示した第1の設定強度及び第2の設定強度は、それぞれ同じ強度に設定されることや、第1の設定強度よりも第2の設定強度の方が弱い強度に設定されること等が考えられる。
【発明の効果】
【0009】
本発明によれば、前記入力音声信号を得るための前記指向性マイクロホンを、変動する音源の数に対して十分な数だけ設けておけば、音響空間に存在する音源の数に増減があった場合でも、音源の数に対し、過不足のない数の入力音声信号(前記採用入力音声信号)が選択されるので、高い音源分離性能を維持できる。
【発明を実施するための最良の形態】
【0010】
以下添付図面を参照しながら、本発明の実施の形態について説明し、本発明の理解に供する。尚、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格のものではない。
ここに、図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図、図2は音源分離装置Xが備える指向性マイクロホンの配置状態の一例を表す平面図、図3は音源分離装置Xにおける音源分離処理の手順を表すフローチャート、図4は音源分離装置Xの適用対象の一例である携帯電話機V1の概略斜視図、図5は音源分離装置Xの適用対象の一例であるロボットV2の概略斜視図、図6はTDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ1の概略構成を表すブロック図、図7はFDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ2の概略構成を表すブロック図である。
【0011】
まず、本発明の実施形態について説明する前に、図6及び図7に示すブロック図を用いて、本発明の構成要素として適用可能な各種のICA−BSS方式の音源分離ユニットの例について説明する。
図6は、ICA−BSS方式の一種である時間領域独立成分分析方式(time-domain independent component analysis方式、以下、TDICA方式という)に基づくBSS方式の音源分離処理を行う従来の音源分離ユニットZ1の概略構成を表すブロック図である。なお、本処理の詳細は、非特許文献1や非特許文献2等に示されている。
音源分離ユニットZ1は、分離フィルタ処理部11tにより、2つの音源1、2からの音源信号S1(t)、S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)について、分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。なお、混合音声信号x1(t)、x2(t)は、所定のサンプリング周期でデジタル化された信号であるが、図6、図7においては、A/D変換手段の記載を省略している。
図6には、2つの音源1、2からの音源信号S1(t)、S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)に基づいて音源分離を行う例について示しているが、2チャンネル以上であっても同様である。ICA−BSS方式による音源分離の場合、(入力される混合音声信号のチャンネル数n(即ち、マイクロホンの数))≧(音源の数m)であればよい。但し、前述したように、高い音源分離性能を確保するためには、音源分離処理の対象とするチャンネル数と音源の数とを一致させることが望ましい。
複数のマイクロホン111、112各々で集音された各混合音声信号x1(t)、x2(t)には、複数音源からの音源信号が重畳されている。以下、各混合音声信号x1(t)、x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され、次の(1)式のように表される。
【数1】

TDICAによる音源分離の理論は、この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると、x(t)がわかればS(t)を推測することができ、従って、音源を分離することができるという発想に基づく理論である。
ここで、当該音源分離処理に用いる分離行列をW(z)とすれば、分離信号(即ち、同定信号)y(t)は、次の(2)式で表される。
【数2】

ここで、W(z)は、出力y(t)から逐次計算(学習計算)により求められる。また、分離信号は、チャンネルの数だけ得られる。
なお、音源合成処理はこのW(z)に関する情報により、逆演算処理に相当する配列を形成し、これを用いて逆演算を行えばよい。また、分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は、予め定められたものが設定される。
このようなICA−BSS方式による音源分離を行うことにより、例えば、人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から、歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで、(2)式は、次の(3)式のように書き換えて表現できる。
【数3】

そして、(3)式における分離フィルタ(分離行列)W(n)は、次の(4)式により表される処理(以下、第1の単位処理という)を繰り返し実行する逐次計算により求められる。即ち、前回(j)の出力y(t)を(4)式に適用することよって今回(j+1)のW(n)を求め、今回求めたW(n)を用いて所定時間長分の混合音声信号に対してフィルタ処理(行列演算)を施すことによって今回(j+1)の出力y(t)を求める、という前記第1の単位処理を複数回繰り返す。これにより、分離フィルタ(分離行列)W(n)が、徐々に上記逐次計算で用いられる混合音声信号に対応した内容となる。
【数4】

【0012】
次に、図7に示すブロック図を用いて、ICA−BSS方式の一種であるFDICA方式(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離ユニットZ2について説明する。
FDICA方式では、まず、入力された混合音声信号x(t)について、ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform、以下、ST−DFT処理という)を行うことにより、観測信号の短時間分析(時間領域から周波数領域への変換)を行う。離散フーリエ変換後の信号は、周波数ビンと呼ばれる所定範囲の周波数帯域ごとに区分された信号となる。そして、そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について、分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン、mを分析フレーム番号とすると、分離信号(同定信号)y(f、m)は、次の(5)式のように表すことができる。
【数5】

そして、(5)式における分離フィルタ(分離行列)W(f)は、次の(6)式により表される処理(以下、第2の単位処理という)を繰り返し実行する逐次計算により求められる。即ち、前回(i)の出力y(f)を(6)式に適用することよって今回(i+1)のW(f)を求め、今回求めたW(f)を用いて所定時間長分の混合音声信号(周波数領域に変換されたもの)に対してフィルタ処理(行列演算)を施すことによって今回(i+1)の出力y(f)を求める、という前記第2の単位処理を複数回繰り返す。これにより、分離フィルタ(分離行列)W(f)が、徐々に上記逐次計算で用いられる混合音声信号に対応した内容となる。
【数6】

このFDICA方式によれば、音源分離処理が各狭帯域における瞬時混合問題として取り扱われ、比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
【0013】
以下、図1に示すブロック図を用いて、本発明の実施形態に係る音源分離装置Xについて説明する。
音源分離装置Xは、1又は複数の音源が存在し得る音響空間に配置される複数の指向性マイクロホン111〜11n(以下、指向性マイクという)を備え、その指向性マイク111〜11n各々を通じて逐次入力される複数の音声信号(以下、入力音声信号xiという(但し、i=1〜n))から、複数の音源信号を分離(同定)した分離信号(即ち、音源信号に対応した同定信号)yjを逐次生成し、スピーカ等に対してリアルタイム出力するものである。ここで、音響空間に音源が複数存在する場合、各入力音声信号xiは、その複数の音源各々からの音源信号が重畳された混合音声信号である。なお、図1には、音響空間に2つの音源1、2が存在する例を示しているが、指向性マイク111〜11nが配置される音響空間には、0個〜n個の音源が存在し得るものとし、いくつの音源が存在するかは予め定まっていないものとする。
【0014】
図1に示すように、音源分離装置Xは、n個の指向性マイク111〜11n、A/Dコンバータ21(図中、ADCと表記)、D/Aコンバータ22(図中、DACと表記)、入力バッファ23、出力バッファ24、ICA部20、パワー検出・信号選択部25及び外部入力インターフェース26等を備えて構成されている。
さらに、ICA部20は、ST−DFT処理部20a、学習演算部20b、分離フィルタ処理部20c、分離制御部20e等を具備して構成されている。
ここで、ICA部20及びパワー検出・信号選択部25は、それぞれDSP(Digital Signal Processor)等の演算用のプロセッサ及びそのプロセッサにより実行されるプログラムが記憶されたROM等の記憶手段、並びにRAM等のその他の周辺装置により構成されたものが考えられる。或いは、1つのCPU及びその周辺装置を有するコンピュータにより、上記各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等も考えられる。また、所定のコンピュータ(音源分離装置が備えるプロセッサを含む)に各構成要素の処理を実行させる音源分離装置用のプログラムとして提供することも考えられる。
【0015】
ADC21は、複数のマイクロホン111〜11n各々から入力されるアナログの入力音声信号各々を所定のサンプリング周期でサンプリングすることにより、デジタルの入力音声信号Xi(t)に変換(A/D変換)するすものである。例えば、各音源が人の声である場合、8kHz程度のサンプリング周期でデジタル化すればよい。
入力バッファ23は、ADC21により逐次A/D変換されて得られるデジタルの入力音声信号xi(t)を入力し、常に最新の所定時間長分の入力音声信号xiを保持するデータバッファである。
パワー検出・信号選択部25は、複数の指向性マイク111〜11nを通じて入力される複数の入力音声信号xi各々のパワーPi(信号強度)を検出するとともに、そのパワーPiに基づいて、複数の入力音声信号xiの中から、音響空間に存在する1又は複数の音源に対応する1又は複数の入力音声信号(以下、採用入力音声信号xjという)を選択する処理を行うものである(信号強度検出手段及び信号選択手段の一例)。その詳細については後述する。
外部入力インターフェース26は、パワー検出・信号選択部25が計算機等の外部装置から後述する信号パワー設定値Ps1、Ps2を取得するための信号伝送用のインターフェースである。
ICA部20は、パワー検出・信号選択部25によって複数の前記採用入力信号xjが選択された場合に、その複数の採用入力音声信号xjに対し、独立成分分析法に基づくブラインド音源分離方式の音源分離処理(前述したICA−BSS音源分離処理)を施すことにより、採用入力音声信号xjの数と同数の分離信号yjを生成する処理を実行するものである(ICA−BSS音源分離手段の一例)。
【0016】
具体的には、ST−DFT処理部20aにより、入力バッファに蓄積された入力音声信号のうち、パワー検出・信号選択部25によって選択された所定時間長分(1フレーム分)の採用入力音声信号xjに対して短時間離散フーリエ変換処理を行い、所定の時間長分の時間領域の採用入力音声信号xj(図6におけるxi(t)に相当)を、同時間長分の周波数領域の入力音声信号xj(f)(周波数ビンと呼ばれる所定範囲の周波数帯域ごとに区分された信号)に変換する。なお、採用入力音声信号xjは、所定周期でサンプリングされてデジタル化されているので、採用入力音声信号xjの時間長を規定することは、採用入力音声信号xjのサンプル数を規定することと同義である。
さらに、分離フィルタ処理部20cにより、ST−DFT処理部20aを通じて逐次入力される複数の周波数領域の採用入力音声信号xj(f)に対し、分離行列W(f)を用いた行列演算を施すことにより、複数の音源各々に対応する周波数領域の複数の分離信号yj(f)を逐次生成する。なお、周波数ビンをf、フレーム番号をmとすると、分離フィルタ処理部20cの処理によって得られる分離信号y(f、m)(上記yj(f)と同義)は、前述した(5)式で表される。
ここで、分離信号yj(f)各々は、採用入力音声信号xjの数と同じ数だけ出力される。図1に示す例は、2つの入力音声信号x1及びx3が、採用入力音声信号xjとして選択されている状態を表しているが、採用入力音声信号xjの数及び組合せは、パワー検出・信号選択部25による選択結果に応じて変動し得る。
【0017】
さらに、IDFT処理部20dにより、分離フィルタ処理部20cによって生成された周波数領域の分離信号yj(f)に対して逆離散フーリエ変換(Inverse Discrete Fourier Transform)処理が施される。これにより、周波数領域の分離信号yj(f)が、時間領域の分離信号yjに変換され、出力バッファ24に格納される。
そして、出力バッファ24に保持された時間領域の分離信号yj(デジタル信号)は、D/Aコンバータ22によってアナログの音声信号に変換されて出力される。このアナログの音声信号は、例えば、不図示のスピーカを通じて音声出力される。
【0018】
一方、学習演算部20bにより、予め定められた時間長分の複数の周波数領域の採用入力音声信号xj(f)を用いて、FDICA方式のBSS音源分離処理における分離行列W(f)の学習演算が行われ、この学習演算により得られる分離行列W(f)が、分離フィルタ処理部20bで用いられる分離行列W(f)として設定される。学習演算部20bは、入力バッファ23に保持されている採用入力音声信号xjを用いて学習演算を行う。この学習演算は、分離フィルタ処理部20cによる分離処理が実行される場合、その分離処理と並行して実行される。
ここで、学習演算部20bによる分離行列W(f)の算出(学習演算)は、図7に示した音源分離ユニットZ2(FDICA方式に基づく分離行列(分離フィルタ)の学習演算)が採用される。即ち、ST−DFT処理部20a及び学習演算部20bが、前述した音源分離ユニットZ2に相当する。
また、分離制御部20eは、パワー検出・信号選択部25から、採用入力音声信号がいずれであるかの情報を取得し、その取得情報に基づいて、入力バッファ23に保持された入力音声信号xiの伝送と、当該ICA部20による音源分離処理を実行するか否かとを制御するものである。その詳細については後述する。
【0019】
図2は、n個(nチャンネル分)の指向性マイク111〜11nの配置状態の一例を表す平面図である。
図2に示すように、音源分離装置Xが備えるn個(図2に示す例では6個)の指向性マイク111〜11nは、0個〜n個の音源が存在し得る音響空間において、各々異なる指向方向で配置される。これにより、各指向性マイク111〜11nの主な集音範囲(図2において破線で示す範囲)は、ほとんど重ならない状態となっている。
このように、複数の指向性マイク111〜11nを図2に示すように配置することにより、ある指向性マイクの指向方向(主な集音範囲)に音源が存在すれば、その指向性マイクを通じて得られる入力音声信号のパワーが特に強くなる。もちろん、他の指向性マイクを通じて得られる入力音声信号のパワーにも多少は影響するものの、その影響の度合いは比較的小さい。
【0020】
次に、図3に示すフローチャートを参照しつつ、音源分離装置Xにおける音源分離処理の手順について説明する。以下、S1、S2、…は、処理手順(ステップ)の識別符号を表す。また、図3に示す処理は、音源分離装置Xが備える不図示の電源スイッチがONされた場合に実行が開始される。
[ステップS1、S2]
まず、音源分離装置Xが処理を開始すると、各構成要素において、各種の初期処理が実行される(S1)。
例えば、パワー検出・信号選択部25は、外部入力インターフェース26を通じて外部装置から入力される信号パワー設定値Ps1、Ps2を取得し、パワー検出・信号選択部25が備える記憶部に記憶する。
また、パワー検出・信号選択部25は、採用入力音声信号の選択状態を、1つも選択されていない状態(初期状態)に設定する。
また、学習演算部20bは、学習計算に用いる分離行列W(f)に所定の初期値を設定する。
さらに、ADC21によるA/D変換処理、即ち、入力音声信号xiの入力処理が開始される(S2)。これにより、以後、所定時間分(例えば、2フレーム分)の最新の入力音声信号xi(デジタル音声信号)が入力バッファ23に順次蓄積される。
【0021】
[ステップS3〜S5]
次に、パワー検出・信号選択部25により、入力バッファ23に蓄積された1フレーム分の各チャンネルの入力音声信号xiについて、信号のパワーPi(信号強度)が検出される(S3、信号強度検出手順の一例)。なお、このステップS3の処理が実行される前に、既に各入力音声信号xiについて検出(算出)されたパワーPiが存在する場合、前回の各入力音声信号xiのパワーとしてパワー検出・信号選択部25の記憶部に記憶される。
例えば、パワー検出・信号選択部25は、入力バッファ23に蓄積されたαサンプル分(αは例えば1フレーム分のサンプル数)の入力音声信号xiの絶対値の平均値や2乗平均値等を信号のパワーPiとして算出(検出)する。
さらに、パワー検出・信号選択部25により、ステップS3で検出された信号のパワーPiに基づいて、全ての(複数の)入力音声信号xiの中から、指向性マイク111〜11nが配置される音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号xj(チャンネル)を選択する処理(S4、S5)が実行される(信号選択手順の一例)。なお、このステップS4及びS5の処理が実行される前に、その時点で既に選択されている採用入力音声信号のチャンネルが、前回の採用入力信号xjのチャンネルとしてパワー検出・信号選択部25の記憶部に記憶される。
具体的には、パワー検出・信号選択部25は、ステップS3で検出した信号のパワーPiが、予め外部入力インターフェース26を取得している信号パワー設定値Ps1(第1の設定強度の一例)を超えた入力音声信号xiを、採用入力音声信号xjとして追加的に選択する(S4)。
また、パワー検出・信号選択部25は、既に採用入力信号xjとして選択している入力音声信号xiのうち、ステップS3で検出した信号のパワーPiが、予め外部入力インターフェース26を取得している信号パワー設定値Ps2(第2の設定強度の一例)以下である状態が所定の設定時間t0[秒]以上継続したものを、採用入力音声信号xjから除外する(S5)。例えば、t0は、数秒〜10秒程度に設定することが考えられる。
このように、設定時間t0以上の継続を、採用入力信号xjから除外する条件とすることにより、ICA部20への信号入力数(採用入力音声信号xjの数)の増減が、音源の一時的な音量増減に応じて無用に頻発することを防止できる。
ここで、信号パワー設定値Ps1、Ps2は、Ps1=Ps2とすること、或いはPs1>Ps2とすることが考えられる。
【0022】
[ステップS6〜S8]
次に、パワー検出・信号選択部25により、ステップS4及びS5の処理によって選択した採用入力音声信号xjの数が、1個以上であるか否か(選択されたか否か)の判別(S6)、及び1個であるか2個以上であるかの判別(S7)が行われる。
ここで、採用入力音声信号xjの数が1個以上ではない(0個である)場合、その旨の情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送される。このように、採用入力音声信号xjの数が0個(選択されていない)場合、分離制御部20eは、音源の分離処理(分離フィルタ処理部20c及び学習演算部20bの処理)を実行させない。その結果、出力バッファ24への分離信号yjの出力及びDAC22を通じた分離音声信号の出力も実行されない。
また、採用入力音声信号xjの数が1個である場合、その旨の情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送される。これにより、分離制御部20eは、音源の分離処理(分離フィルタ処理部20c及び学習演算部20bの処理)を停止させるとともに、その1つの採用入力音声信号xjをそのまま(分離処理を施さずに)分離信号yjとして出力バッファ24に出力する(S8)。
そして、採用入力音声信号xjの数が0個である場合、又はステップS9の処理が実行された場合、パワー検出・信号選択部25は、処理を前述したステップS3に戻す。
【0023】
[ステップS9〜S11]
一方、採用入力音声信号xjの数が2個以上である場合、パワー検出・信号選択部25により、今回選択された採用入力音声信号xjのチャンネルと、前回の採用入力音声信号xjのチャンネルとが同じであるか否かが判別される(S9)。
ここで、今回と前回の採用入力音声信号xjのチャンネルが同じである場合、パワー検出・信号選択部25は、処理を後述するステップS12へ移行させ、そうでない場合は、処理を次のステップS10へ移行させる。
ステップS10では、パワー検出・信号選択部25により、音源の移動があったか否かの判別処理が行われる(S10)。
具体的には、パワー検出・信号選択部25は、指向方向(集音範囲)が隣り合う2つの指向性マイク(これらを、第1マイク及び第2マイクと称する)各々を通じて入力された入力音声信号xi(これらを、第1入力音声信号及x1iび第2入力音声信号x2iと称する)のうち、その第2入力音声信号x2iが採用入力音声信号xjとして選択されており、かつ、今回、第1入力音声信号x1iのパワーが信号パワー設定値Ps1(第1の設定強度の一例)を超える(前回から変化した)とともに、第2入力音声信号x2iのパワーが信号パワー設定値Ps2(第2の設定強度の一例)以下となった(前回から変化した)場合に、第1入力音声信号x1iは、第2マイクの指向方向(集音範囲)から第1マイクの指向方向(集音範囲)に移動した音源からの音声信号であると判別する。
そして、パワー検出・信号選択部25は、このような判別処理によって音源の移動があったと判別した場合、その第2入力音声信号x2iを採用入力音声信号から除外し(S11)、処理を次のステップS12へ移行させる。
即ち、指向方向(集音範囲)が隣り合う2つの指向性マイクにおいて、その一方(第2マイク)の入力音声信号のパワーが強い状態から弱い状態に変化するとともに、他方(第1マイク)の入力音声信号のパワーが弱い状態から強い状態に変化した場合、音源が、隣り合う指向性マイクの一方の集音範囲から他方の集音範囲へ移動したと判別する。
一方、パワー検出・信号選択部25は、音源の移動があったと判別しなかった場合、処理を後述するステップS14へ移行させる。
【0024】
[ステップS12、S13]
次に、ステップS12において、その時点で選択されている採用入力音声信号xjのチャンネル情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送され、分離制御部20eがICA部20を構成する他の構成要素を制御することにより、ICA部20は、採用入力音声信号xjを入力信号として、ICA−BSS音源分離処理を実行する(S12)。これにより、採用入力音声信号xjの数と同数(複数)の分離信号yjが生成され、これが出力バッファ24に格納される(ICA−BSS音源分離手順の一例)。
ここで、ステップS12の処理では、ICA部20の学習演算部20bは、それまでに学習済みの分離行列W(f)を、新たな学習計算に用いる分離行列W(f)の初期値として引き継ぐ。即ち、分離行列W(f)の初期化を行わない。このステップS12に至る状況は、音響環境における音源の増減がない状況(新たな音源が増えた、或いはそれまで存在していた音源が無くなった状況)であるからである。これにより、高い音源分離性能が維持される。
さらに、DAC22により、出力バッファ24に蓄積された分離信号yjのA/D変換処理がなされ、分離信号(アナログ信号)が不図示のスピーカを通じて音声出力される(S13)。そして、処理が前述したステップS3へ戻される。
【0025】
[ステップS14〜S16]
一方、ステップS14(採用入力音声信号xjが複数かつそのチャンネルに変化がある場合)では、その時点で選択されている採用入力音声信号xjのチャンネル情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送され、分離制御部20eが学習演算部20bを制御することにより、学習演算部20bが、分離行列W(f)を初期化する(S14)。
さらに、分離制御部20eがICA部20を構成する他の構成要素を制御することにより、ICA部20は、採用入力音声信号xjを入力信号として、ICA−BSS音源分離処理を実行する(S15)。これにより、採用入力音声信号xjの数と同数の分離信号yjが生成され、これが出力バッファ24に格納される(ICA−BSS音源分離手順の一例)。
さらに、DAC22により、出力バッファ24に蓄積された分離信号yjのA/D変換処理がなされ、分離信号(アナログ信号)が不図示のスピーカを通じて音声出力される(S16)。そして、処理が前述したステップS3へ戻される。
【0026】
以上に示したように、音源分離装置Xでは、ある指向性マイクの指向方向(主な集音範囲)に音源が存在すれば、その指向性マイクを通じて得られる入力音声信号xiのパワーPiが特に強くなる。もちろん、他の指向性マイクを通じて得られる入力音声信号xiのパワーPiにも多少は影響するものの、その影響の度合いは比較的小さい。
そして、パワー検出・信号選択部25により、全ての入力音声信号xiの中から、パワーが一定レベル以上なったもののみが、採用入力音声信号xj(音源分離処理の対象とする信号)として選択される(S4)ので、予め想定できない音源の数に対し、過不足のない数の採用入力音声信号xjが選択される。
従って、入力音声信号xiを得るための指向性マイク111〜11nを、変動する音源の数に対して十分な数だけ設けておけば、音響空間に存在する音源の数に増減があった場合でも、音源の数に対し、過不足のない数の入力音声信号(採用入力音声信号xj)が選択されるので、高い音源分離性能を維持できる。
【0027】
ところで、以上に示した実施形態では、パワー検出・信号選択部25は、ステップS4及びS5の処理において、採用入力音声信号xjとして選択する信号数(チャンネル数)を特に制限するものではなかったが、これに制限を加えることも考えられる。
例えば、パワー検出・信号選択部25が、ステップS4及びS5の処理において、採用入力音声信号xjとして選択した信号数(チャンネル数)が3つ以上となった場合、ステップS3の処理によって検出した信号のパワーPiが強いものから最大2つまでの入力音声信号xiを、採用入力音声信号xjとして選択することが考えられる。
これにより、ICA部20の演算負荷を低減できる。また、比較的パワーの弱い信号の成分が分離信号yiに混在しても、実用上大きな問題は生じない。このような構成を有する音源分離装置は、例えば、ある特定の指向性マイクロホンの指向方向(主な集音範囲)に存在する音源(目的音源)の音源信号と、その他の音源(ノイズ音源)の音源信号とを分離したい場合(複数のノイズ音源の音源信号を分離する必要がない場合)などに有効である。
また、前述した音源分離装置Xは、独立成分分析法に基づくブラインド音源分離方式の音源分離処理を実行するICA部20は、演算負荷低減のため、FDICA方式に基づく音源分離処理を行う音源分離ユニットZ2(図7参照)が採用された例を示した。しかしながら、これに限るものではなく、例えば、ICA部20に、TDICA方式に基づく音源分離処理を行う音源分離ユニットZ1(図6参照)を採用することも考えられる。
【0028】
次に、図4及び図5を参照しつつ、音源分離装置Xの適用例について説明する。
図4は、音源分離装置Xの適用対象の一例である携帯電話機V1の概略斜視図である。
図4に示すように、音源分離装置Xは、話者の音声とそれ以外のノイズ音声とを分離するために携帯電話機V1に搭載することが考えられる。
この場合、図4に示すように、携帯電話機V1に対して、音源分離装置Xが備える複数(図4に示す例では6個)の指向性マイク111〜116が、各々異なる指向方向で配置される。図4に示す例では、当該携帯電話機V1に対する話者の音源方向である正面方向に向けられた指向性マイク111と、その反対方向(背面方向)に向けられた指向性マイク112と、正面方向に対して左右及び上下方向の各々に向けられた指向性マイク113〜116とが、携帯電話機V1に設けられている。
このような携帯電話機V1において、音源分離装置Xによって生成された指向性マイク111に対応する分離信号yiを、通話の相手先の携帯電話機に送信する音声信号として出力すれば、ノイズの少ない高音質の通話を実現する携帯電話機を提供できる。
【0029】
また、図5は音源分離装置Xの適用対象の一例であるロボットV2の概略斜視図である。
図5に示すように、音源分離装置Xは、周囲に存在する音源からの音声を音声認識することによって動作制御を行うロボットV2に搭載し、周囲に複数の音源が存在する場合に、各音源からの音声信号について個別に音声認識を行うことができるよう、音声認識処理の実行部に各音源に対応する分離信号yjを個別に入力させるよう構成されたものが考えられる。
この場合、図5に示すように、ロボットV2に対して、音源分離装置Xが備える複数(図5に示す例では4個)の指向性マイク111〜114が、各々異なる指向方向で配置される。図5に示す例では、当該ロボットV2の正面方向に向けられた指向性マイク111と、その反対方向(背面方向)に向けられた指向性マイク112と、正面方向に対して左右方向の各々に向けられた指向性マイク113、114とが、ロボットV2に設けられている。
このようなロボットV2において、音源分離装置Xによって生成された各指向性マイク111〜114に対応する分離信号yiを、音声認識処理の実行部に個別に入力させれば、ノイズの少ない音声信号について高精度の音声認識処理及びその処理結果に基づく高精度の動作制御を行うことができるロボットを提供できる。
【産業上の利用可能性】
【0030】
本発明は、音源分離装置への利用が可能である。
【図面の簡単な説明】
【0031】
【図1】本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図。
【図2】音源分離装置Xが備える指向性マイクロホンの配置状態の一例を表す平面図。
【図3】音源分離装置Xにおける音源分離処理の手順を表すフローチャート。
【図4】音源分離装置Xの適用対象の一例である携帯電話機V1の概略斜視図。
【図5】音源分離装置Xの適用対象の一例であるロボットV2の概略斜視図。
【図6】TDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ1の概略構成を表すブロック図。
【図7】FDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ2の概略構成を表すブロック図。
【符号の説明】
【0032】
X…本発明の実施形態に係る音源分離装置
V1…本発明の実施形態に係る音源分離装置を適用した携帯電話機
V2…本発明の実施形態に係る音源分離装置を適用したロボット
Z1…TDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニット
Z2…FDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニット
1、2…音源
11t、11f…分離フィルタ処理部
20…ICA部
20a…ST−DFT処理部
20b…学習演算部
20c…分離フィルタ処理部
20d…IDFT処理部
20e…分離制御部
21…A/Dコンバータ
22…D/Aコンバータ
23…入力バッファ
24…出力バッファ
25…パワー検出・信号選択部
26…外部入力インターフェース
111〜11n…指向性マイクロホン
S1、S2、〜…処理手順(ステップ)

【特許請求の範囲】
【請求項1】
所定の音響空間に複数の指向性マイクロホンが各々異なる指向方向で配置された状況下で、該複数の指向性マイクロホンを通じて入力される複数の入力音声信号各々の信号強度を検出する信号強度検出手段と、
前記信号強度検出手段の検出結果に基づいて前記複数の入力音声信号の中から前記音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号を選択する信号選択手段と、
前記信号選択手段により複数の前記採用入力信号が選択された場合に、該複数の採用入力音声信号に対し独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより前記採用入力音声信号の数と同数の分離信号を生成するICA−BSS音源分離手段と、
を具備してなることを特徴とする音源分離装置。
【請求項2】
前記信号選択手段が、前記信号強度検出手段により検出された信号強度が第1の設定強度を超えた前記入力音声信号を前記採用入力音声信号として選択してなる請求項1に記載の音源分離装置。
【請求項3】
前記信号選択手段が、前記信号強度検出手段により検出された信号強度が強いものから最大2つまでの前記入力音声信号を前記採用入力音声信号として選択してなる請求項2に記載の音源分離装置。
【請求項4】
前記信号選択手段が、前記採用入力信号として選択している前記入力音声信号のうち、前記信号強度検出手段により検出された信号強度が第2の設定強度以下である状態が所定時間継続したものを前記採用入力音声信号から除外してなる請求項2又は3のいずれかに記載の音源分離装置。
【請求項5】
前記信号選択手段が、指向方向が隣り合う2つの前記指向性マイクロホン各々を通じて入力された第1の入力音声信号及び第2の入力音声信号のうち該第2の入力音声信号が前記採用入力音声信号として選択しているときに、前記第1の入力音声信号の信号強度が前記第1の設定強度を超えた際に前記第2の入力音声信号の信号強度が第2の設定強度以下となった場合に、該第2の入力音声信号を前記採用入力音声信号から除外してなる請求項2〜4のいずれかに記載の音源分離装置。
【請求項6】
所定の音響空間に複数の指向性マイクロホンが各々異なる指向方向で配置された状況下で、該複数の指向性マイクロホンを通じて入力される複数の入力音声信号各々の信号強度を所定の信号強度検出手段により検出する信号強度検出手順と、
前記信号強度検出手順の検出結果に基づいて前記複数の入力音声信号の中から前記音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号を所定の信号選択手段により選択する信号選択手順と、
前記信号選択手順により複数の前記採用入力信号が選択された場合に、該複数の採用入力音声信号に対し独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより前記採用入力音声信号の数と同数の分離信号を生成する処理を所定のプロセッサにより実行するICA−BSS音源分離手順と、
を有してなることを特徴とする音源分離方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2007−295085(P2007−295085A)
【公開日】平成19年11月8日(2007.11.8)
【国際特許分類】
【出願番号】特願2006−117994(P2006−117994)
【出願日】平成18年4月21日(2006.4.21)
【出願人】(000001199)株式会社神戸製鋼所 (5,860)
【Fターム(参考)】