説明

妨害音抑圧装置

【課題】収音時にチャネル相互に混合された複数チャネル信号から目的とする音声のみを精度良く抽出する。
【解決手段】人間がシステムに目的音と妨害音の位置や周波数特性を入力するユーザーインターフェースを持つことと、各時間ごとの目的音抽出後の信号パワーと目的音の信号パワーのずれを抑えるような音源分離部を持つことで、従来より高精度な目的音抽出が可能となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば複数のマイクロホン素子で観測した音声や音楽や各種雑音が混合した信号から、目的とする音のみを復元する音源分離技術に属する。
【背景技術】
【0002】
従来より、複数のマイクロホン素子を用いて目的音のみを強調する技術として、目的音にビームをあわせる遅延和アレーや、妨害音到来音方向に死角を合わせる死角形成型ビームフォーマなどがあった。しかし遅延和アレーは精度良く目的音を分離するためには、莫大なマイク素子が必要となり、また死角形成型ビームフォーマは妨害音数がマイク素子-1個より少ないときは精度良く分離できるが、妨害音数がマイク素子以上の時は精度が劣化することが良く知られている。
そこで、死角形成型ビームフォーマを2つ使うことで、従来の死角形成型ビームフォーマ1つを使う場合よりも多くの妨害音を抑圧する複数チャネルスペクトルサブトラクション法が提案されている。
【0003】
例えば、各妨害音について、死角形成型ビームフォーマ2つのうち、少なくともどちらかの線形フィルタが死角を形成する死角形成型ビームフォーマ対を用いる相補的複数チャネルスペクトルサブトラクション方式がある(非特許文献1参照)。この相補的複数チャネルスペクトルサブトラクション方式では、目的音抽出後の信号のパワーの期待値と目的音の信号パワーの期待値を一致させることができる。
【0004】
又、目的音を強調し、妨害音を抑圧するビームフォーマと目的音を抑圧し、最もパワーの大きい妨害音を強調するビームフォーマを用いた複数チャネルスペクトルサブトラクション方式もある(例えば、特許文献2参照)。
一方で、入力された画像情報を処理して複数の人物位置を求め、ユーザーに複数の人物位置の中から、特定の人物位置を選択させ、選択された人物位置の音声のみを抽出する技術がある(例えば特許文献1、参照)
【0005】
【特許文献1】特開平10−51889号公報
【特許文献2】特開2003−271191号公報
【非特許文献1】H.Saruwatari, S.Kajita, K.Takeda, and F.Itakura, "Speech enhancement using nonlinear microphone array based on complementary beamforming," IEICE Trans.Fundamentals,Vol.E82-A,No.8,pp.1501-1510,1999.
【発明の開示】
【発明が解決しようとする課題】
【0006】
相補的複数チャネルスペクトルサブトラクション法では、目的音抽出後の信号のパワーの期待値と目的音の信号パワーの期待値を一致させることはできるが、各時間ごとにみると、目的音抽出後の信号のパワーと目的音の信号パワーとが一致することを保証せず、目的音抽出後の信号パワーと目的音の信号パワーがずれるという課題がある。
また目的音収集の際に目的音と妨害音の空間情報だけでなく、更に、目的音と妨害音の周波数特性が分からないと、目的音の抽出性能が劣化する。
【課題を解決するための手段】
【0007】
本発明では、帯域ごとに各妨害音について少なくとも1つの線形フィルタが死角を形成する線形フィルタ対の全ての組み合わせの中で、2つの線形フィルタの出力パワーの期待値の積が最も小さくなるような線形フィルタ対を用いる。更に、本発明では、人間がシステムに目的音と妨害音の位置情報、周波数特性を入力するユーザーインターフェースを提供する。
【発明の効果】
【0008】
本発明の構成によれば、各時間ごとの目的音抽出後の信号パワーと目的音の信号パワーのずれを抑えることができる。さらに、妨害音と目的音の位置情報、周波数特性をユーザーインターフェースを用いて、システムに与えることができるため、妨害音や目的音の位置の推定を行わなくても、妨害音と目的音の位置を知ることができ、高精度な目的音抽出が可能となる。
【発明を実施するための最良の形態】
【0009】
本発明の実施の形態について図面を用いて説明する。図1は、本発明の音声処理装置の基本構成図である。カメラ1で取り込んだ周囲の風景などを写した画像がカメラ画像取り込み部2に送られる。その画像を表示装置3に表示する。表示装置3に表示された画像をユーザーが見て、ユーザーは画像の中に写っている音源を見つけ、外部入力デバイス4を用いて、音源の位置を指定する。さらにユーザは音源の位置と音源が目的音か妨害音のどちらであるか又は音源の種類を指定することにする。指定された位置は画面上での位置であるため、入力処理部6で実際の環境での空間情報に変換する。また入力処理部6は、記憶部7に記憶されている音源の種類ごとの周波数特性の情報を用いて、音源の種類を周波数特性に変換する。また入力処理部6は、音源の空間情報と周波数特性と音源が目的音源か妨害音のどちらであるかを示すフラグを記憶部7に記憶する。入力処理部6での記憶処理はユーザーによって選択された全ての音源について行う。入力処理部6での記憶処理で記憶された情報は、音源分離部8に送られる。
【0010】
またマイクロホンアレー10の信号は帯域分割部9に送られ、短時間フーリエ変換を施され、チャネルごとに帯域分割された形で、音源分離部8に送られる。
音源分離部8では送られてきたチャネルごとの帯域分割された信号を入力処理部6での記憶処理で記憶部7に記憶した目的音や妨害音の空間情報や周波数特性の情報を用いて分離し、目的音を抽出し出力する。
【0011】
次に図2を用いて音源分離部8の詳細な説明をする。記憶部7から送られてきた目的音と妨害音の空間情報や音源が目的音か妨害音のどちらであるか、また音源の周波数特性は、まず線形フィルタ候補作成部8aに送られる。線形フィルタ候補作成部8aでは、フラグが目的音となっている音源を目的音とみなし、フラグが妨害音となっている音源を妨害音とみなし、妨害音の周波数特性の情報から帯域ごとの妨害音数を計算する。周波数特性下限値以上の特性を示す帯域で妨害音としてカウントされ、それ以外の帯域では、妨害音としてはカウントされないこととする。周波数特性下限値はシステム定数として予め定義、もしくは任意に設定できるようにしても良い。これら周波数ごとの妨害音数の情報を用いて、線形フィルタ候補作成部8aでは、帯域ごとに目的音方向には指向性を保ちつつ、各妨害音方向について少なくとも1つの線形フィルタが死角を作るような線形フィルタ対を複数対出力する。目的音の周波数特性が下限値を下回る帯域では、出力が0となる線形フィルタ対を出力する。この線形フィルタを作成するためには、目的音や各妨害音の方向が既知であることが前提となる。
【0012】
本願構成では、ユーザーが入力した目的音方向、妨害音方向に関する情報を保持しているため、目的音や各妨害音の方向が既知となる。線形フィルタ決定部8bでは線形フィルタ候補作成部8aが出力した複数対の線形フィルタ対のそれぞれについて、線形フィルタ対の各線形フィルタと帯域分割後の信号との積及び各積のパワーを計算し、それらパワーの積を計算する。その積が最も小さくなる線形フィルタ対を出力する。このように出力された線形フィルタ対を用いることで、目的音抽出後の信号のパワーと目的音の信号パワーとの差の2乗値の期待値を従来技術と比較し、小さくできるため、高精度な目的音の抽出を行うことができる。本発明で各時間ごとの目的音抽出後の信号パワーと目的音の信号パワーのずれを抑えることができる理由について以下説明する。
指向性を持った音源がD個存在すると仮定すると、マイクロホンアレーまでの音の伝播系は
【0013】
【数1】

【0014】
と表すことができる。
ここで、rd,iは音源dからマイクiまでの距離で、τd,i音源dから発せられた音がマイクiに到達するまでにかかる時間である。
Ωを妨害音集合とし、d0を目的音、S0(f)を目的音成分、N0(f)をd番目の妨害音成分とする。目的音方向に指向性を持つ二つの線形フィルタg,hを入力信号にかけた後の出力信号は、
【0015】
【数2】

【0016】
と表すことができる。複数チャンネルスペクトルサブトラクション法では、これら二つの線形フィルタg,hの出力信号を用いて、
【0017】
【数3】

【0018】
で、目的音だけを分離し、抽出する。
目的音と妨害音が無相関であり、妨害音同士も無相関であり、目的音パワーが雑音パワーと比べて大きいとすると、複数チャンネルスペクトルサブトラクション法の出力信号のパワーの期待値を4倍したものは、
【0019】
【数4】

【0020】
となる。ここで、もし
【0021】
【数5】

【0022】
が成立すれば、
【0023】
【数6】

【0024】
となる。つまり、複数チャンネルスペクトルサブトラクション法において、帯域ごとに各妨害音について少なくとも1つの線形フィルタが死角を形成する線形フィルタ対g,hを用いることで、出力信号と目的信号のパワーの期待値を一致させることができる。つまり平均的にみるとパワーの誤差は0ということである。
しかし死角を形成する線形フィルタ対g,hを用いるという条件だけでは、各時間ごとにみると、
【0025】
【数7】

【0026】
で表される誤差が残る。この誤差の二乗値の時間平均値は、
【0027】
【数8】

【0028】
で表される。つまり、g,hが各妨害音について少なくとも1つの線形フィルタが死角を形成する線形フィルタ対であり、かつ2つの線形フィルタの出力パワーの期待値の積が最も小さくなるような線形フィルタ対であるとき、平均的に誤差を0にするとともに、時間毎の誤差も抑えることができるため、高精度な目的音の分離が可能となる。
【0029】
主信号作成部8c、参照信号作成部8d、スペクトルサブトラクション部8eは、(数3)の処理を行う。主信号作成部8cでは、線形フィルタ決定部8bが出力した線形フィルタ対の各線形フィルタと帯域分割後の信号との積を取り、その各積の和を取ることで、目的音のみが強調され、妨害音が抑圧された信号を出力する。参照信号作成部8dでは、線形フィルタ決定部8bが出力した線形フィルタ対の各線形フィルタと帯域分割後の信号との積を取り、その各積の差を取ることで、目的音のみが強調され、妨害音が抑圧された信号を出力する。スペクトルサブトラクション部8eでは主信号作成部8cが出力した信号のパワーと参照信号作成部8dが出力した信号のパワーの差を取ったものの平方根をパワーとし、主信号作成部8cが出力した信号の位相成分を位相とする信号を出力する。尚、サブストラクション部のみ別の装置で行うこととし、フィルタ対決定装置としても本願構成は利用することができる。
【0030】
次に図3を用いてユーザーインターフェース部5の処理フローを説明する。ユーザーは表示装置3に表示された画像の中から音源を見つける。外部入力デバイス4を用いて、それら音源の位置を指定する。またユーザーが指定した音源が目的音か妨害音であるかを指定するためのメッセージボックスを表示装置3に表示する。次にユーザーが目的音か妨害音かをそのメッセージボックスを使い選択する。又、指定した音源の種類を指定するためのメッセージボックスを表示装置3に表示する。この際の音源の種類とは、例えば「成人男性の声」、「成人女性の声」、「子供の声」、「音楽」、「風の音」、「水の音」など人か自然音の別、又個人を特定するものであってもよい。音源が目的音か妨害音であるかどうか、又その種類は少なくとも一方位置情報とともに入力すれば、高精度な目的音抽出が可能となる。
【0031】
もちろん両方の情報をともに入力するようにすればより精度をあげることができる。ユーザーインターフェース部5との入力のやりとりのために、ユーザーは、表示装置3上に表示された3つのウィンドウを使用する。図4に表示装置3のウィンドウを図示する。3aはユーザーが音源を指定するためのカメラ画像表示部で、3bは、指定した音源が目的音か妨害音であるかを指定するための目的音、妨害音設定画面であり、3cは、指定した音源の種類を指定する音源種類指定画面である。上記のインターフェイスを介して音源が目的音か妨害音のどちらかであるかのフラグ立てを行うことで、妨害音のほうが目的音よりパワーが大きかったとしても、目的音方向をシステムが知ることができ、本願に関するシミュレーション結果を図5に例示する。
【0032】
図5は、聴覚上の歪みに相当する対数スペクトル距離を用いて、目的音の歪みを手法毎に示している。また男1、男2、女1、女2とあるのは、目的音の話者の性別と番号である。従来手法として3つの手法を例示した。遅延和アレー、MVBF、相補性の制約のみとあるのが従来手法である。提案手法とあるのが、本発明で用いる方法である。本発明で用いる方法が、対数スペクトル距離の観点で、全話者で最も歪みが小さく、効果が高いことがわかる。
上記実施例は装置構成を説明したが、本願はプログラムとしてコンピュータに読み込むことで実行されるようにしても良い。
【図面の簡単な説明】
【0033】
【図1】本発明の基本構成の一実施例を示す図。
【図2】本発明の音源分離部の一実施例の詳細を表すブロック図。
【図3】本発明のユーザーインターフェース部での処理の一実施例の流れを表すフロー図。
【図4】本発明で用いる表示装置例を示す図。
【図5】シミュレーションによる発明の効果を説明する図。
【符号の説明】
【0034】
1・・・カメラ、2・・・カメラ画像取り込み部、3・・・表示装置、3a・・・カメラ画像表示部、3b・・・目的音、妨害音設定画面、3c・・・音源種類指定画面、4・・・外部入力デバイス、5・・・ユーザーインターフェース部、6・・・入力処理部、7・・・記憶部、8・・・音源分離部、8a・・・線形フィルタ候補作成部、8b・・・線形フィルタ決定部、8c・・・腫信号作成部、8d・・・参照信号作成部、8e・・・スペクトルサブトラクション部、9・・・帯域分割部、10・・・マイクロホンアレー。

【特許請求の範囲】
【請求項1】
少なくとも2チャネル以上のマイクロホン素子を持つマイクロホンアレー部と、
前記マイクロホンアレー部が出力する信号をチャネル毎に複数の周波数帯域に分割する帯域分割部と、
前記周波数帯域毎に複数対の線形フィルタを作成し、該複数対の線形フィルタを上記帯域分割部からの出力に作用させて得られる出力信号のパワーの積を算出し、該積の値が最も小さい線形フィルタ対を帯域ごとに1つ出力する音源分離部を有することを特徴とする音声処理装置。
【請求項2】
前記音源分離部は、前記出力される線形フィルタ対と前記帯域分割部が出力する信号を用いて上記マイクロアレー部が出力する信号から目的音を抽出するスペクトルサブトラクション部を更に有することを特徴とする請求項1記載の音声処理装置。
【請求項3】
画像情報を表示する表示部と、上記表示部に表示される画像中に存在する音源の位置と該音源が目的音か妨害音のいずれであるか又は該音源の種類の少なくとも何れかの入力を受けるユーザーインターフェース部と、
前記ユーザーインターフェース部で選択させた音源の画面上の位置を実際の環境での空間情報に変換し、上記選択された音源の種類を音源の周波数特性に変換し、前記音源の空間情報と該音源が目的音か妨害音のどちらであるかを示すフラグと該音源の周波数特性とを記憶部に記憶する入力処理部を有し、
上記音源分離部は上記記憶される情報を用いて上記線形フィルタ対を帯域ごとに1つ出力することを特徴とする請求項1又は2に記載の音声処理装置。
【請求項4】
画像情報を表示する表示部と、
音声を入力する入力部と、
上記表示部に表示される画像上で音源の位置と該音源が目的音か妨害音のいずれであるか、又は該音源の種類の少なくとも一方の入力を受けるユーザーインターフェース部と、
前記ユーザーインターフェース部で選択させた音源の画面上の位置を実際の環境での空間情報に変換する入力処理部を有し、
該入力処理部は前記音源が目的音であるか妨害音であるかの入力を受けた場合は、その識別フラグを記憶し、前記目的音の種類の入力を受けた場合には該選択された音源の種類を音源の周波数特性に変換して記憶し、
上記記憶された情報を用いて上記入力された音声から目的音を抽出することを特徴とする音声処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2006−72163(P2006−72163A)
【公開日】平成18年3月16日(2006.3.16)
【国際特許分類】
【出願番号】特願2004−257836(P2004−257836)
【出願日】平成16年9月6日(2004.9.6)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】