説明

音声処理装置および音声処理方法

【課題】エコーやハウリングを防ぐエコーキャンセラにおいて、マイク配置の制約なく、適応処理を基にした手法と比べて低演算量かつ短時間でエコーを抑圧すること。
【解決手段】本発明は、相対する方向の指向性を有する複数のマイクM1、M2が一つの筐体に組み込まれた音声入力部10と、音声入力部10の一の指向性を有するマイクM1で取り込んだ音声を相手方に送信する処理、および相手方から送られてきた音声を受信してスピーカSPに出力する処理を行う信号処理部20と、音声入力部10で取り込んだ音声のうち、音声入力部10の一の指向性を有するマイクM1で取り込んだ音声と、音声入力部10の他の指向性を有するマイクM2で取り込んだスピーカSPから出力される相手方の音声との信号量の差から両者を分離して送信する音源分離部とを有する音声処理装置である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ハンズフリー電話やテレビ会議などの拡声通話系で適用される音声処理装置および音声処理方法に関する。
【背景技術】
【0002】
テレビ会議システムなどの拡声通話系では、遠端装置のマイクで収音された音声が所定の回線を介して近端装置に送られ、近端装置のスピーカによって放音される。近端装置にもマイクが装備されており、近端話者の音声を所定の回線を介して遠端装置へ送るよう構成されている。このため、遠端、近端それぞれでスピーカから放音される音声がマイクに入力される。何も処理を行わない場合はこの音声が再び相手装置へ送られるため、自分の発声がこだまのように少し遅れてスピーカから聞こえる「エコー」という現象を引き起こす。エコーが大きくなると、再びマイクに入力され、系をループしハウリングを引き起こす。
【0003】
前記のようなエコーやハウリングを防止するための装置として、エコーキャンセラが知られている。エコーキャンセラでは、一般的に適応フィルタを用いてスピーカとマイク間のインパルスレスポンスを測定し、スピーカから放音されるリファレンス信号に前述のインパルスレスポンスを畳み込んだ擬似エコーを生成する。そして、マイクに入力される音声から疑似エコーを差し引くことで除去している。
【0004】
ここで、スピーカとマイクとの間のインパルスレスポンスは、テレビ会議の出席者が体を動かすなど、音声の反射の関係が変わるだけで変化し、適応フィルタが追従して収束するにはある程度の時間がかかる。系が変化してから適応フィルタが収束するまでの時間は正確な擬似エコーを生成することができないため、エコーが大きく戻り、ひどい場合にはハウリングが引き起こされる。
【0005】
また、一般に適応フィルタの演算量はファーストフーリエ変換(FFT)やフィルタバンクに比べて大きいものであり、ローコストなシステムに用いる場合に負担となる。体育館など広い場所で用いる場合はスピーカからマイクまでの距離が大きくなったり、残響時間が長くなったりするため、適応フィルタに長いタップ長が必要となることが知られており、さらに計算量が増加する。
【0006】
また、適応処理以外の方法として、非特許文献1、2に記載の「SAFIA」のような音源分離手法を応用することが考えられる。「SAFIA」は、複数の話者の音声を複数のマイクで収音し、そのパワー差に基づいて分離を行う手法である。
【0007】
「SAFIA」を用いると、適応フィルタのように系が変化した場合に収束するまでの時間、エコーが戻る問題も起こらない。さらに、フィルタバンク、あるいはフーリエ変換を用いて実現することができ、これらには計算量の削減方法が既に提案されており、適応フィルタを用いた場合に比べ少ない計算量で実現可能である。
【0008】
また、「SAFIA」は使用する部屋の残響時間にはよらず、適応フィルタを用いた場合の長い残響時間に対応するために計算量を増加させる問題もない。
【0009】
【非特許文献1】青木真理子、他2名,「残響下における音源分離方式SAFIAの性能改善」,電子情報通信学会論文誌 Vol.J87-A No.9,2004年9月,p.1171−1186
【非特許文献2】青木真理子、他2名,「音源分離方式SAFIAを用いた高騒音下における近接音源の分離抽出」,電子情報通信学会論文誌 Vol.J88-A No.4,2005年4月,p.468−479
【発明の開示】
【発明が解決しようとする課題】
【0010】
しかしながら、「SAFIA」を適用するための一番の問題点は、マイクの設置にある。すなわち、適応処理を用いる場合はマイクが1本しか必要ないのに対し、「SAFIA」を用いる場合は、2本用意する必要がある。さらに、1本を目的話者のそばに、もう1本をスピーカの前に設置する必要がある。したがって、「SAFIA」による音源分離は性能は高いものの、このような制約があることから、エコーキャンセラとして使える場所も限定的である。
【課題を解決するための手段】
【0011】
本発明は、相対する方向の指向性を有する複数のマイクが一つの筐体に組み込まれた音声入力部と、音声入力部の一の指向性を有するマイクで取り込んだ音声を相手方に送信する処理、および相手方から送られてきた音声を受信してスピーカに出力する処理を行う信号処理部と、音声入力部で取り込んだ音声のうち、音声入力部の一の指向性を有するマイクで取り込んだ音声と、音声入力部の他の指向性を有するマイクで取り込んだスピーカから出力される相手方の音声との信号量の差から両者を分離して送信する音源分離部とを有する音声処理装置である。
【0012】
このような本発明によれば、スピーカから放音する音声と、話者の音声とを、複数のマイクが一つの筐体に組み込まれた音声入力部で取り込み、複数のマイクの指向性に基づき分離することから、エコーやハウリングが起こらず拡声通話系における双方向同時通話が実現される。特に、複数のマイクが一つの筐体に組み込まれた音声入力部を用いて音声を取り込むため、マイクの設置が容易となる。
【0013】
また、本発明は、複数のマイクで音声を取り込む音声入力部と、音声入力部で取り込んだ音声を相手方に送信する処理、および相手方から送られてきた音声を受信してスピーカに出力する処理を行う信号処理部と、音声入力部で取り込んだ音声につき話者側から取り込んだ音声とスピーカ側から取り込んだ音声との指向性を設定するビームフォーミング部と、ビームフォーミング部で設定した指向性によって音声入力部で取り込んだ音声につき話者側から取り込んだ音声とスピーカ側から取り込んだ音声との信号量の差から両者を分離し、分離して得た話者側から取り込んだ音声のみを相手方に送信する音源分離部とを有する音声処理装置である。
【0014】
このような本発明によれば、スピーカから放音する音声と、話者の音声とを音声入力部で取り込み、ビームフォーミング部で設定した指向性によって分離することから、エコーやハウリングが起こらず拡声通話系における双方向同時通話が実現される。特に、複数のマイクにおける指向性をビームフォーミング部で設定するため、複数のマイクの設置が容易となる。
【0015】
また、本発明は、複数のマイクで音声を取り込む工程と、取り込んだ音声を相手方に送信する処理、および相手方から送られてきた音声を受信してスピーカに出力する処理を行う工程と、取り込んだ音声につき話者側から取り込んだ音声とスピーカ側から取り込んだ音声との指向性を設定する工程と、設定した指向性によって、取り込んだ音声につき話者側から取り込んだ音声とスピーカ側から取り込んだ音声との信号量の差から両者を分離し、分離して得た話者側から取り込んだ音声のみを相手方に送信する工程とを有する音声処理方法である。
【0016】
このような本発明によれば、スピーカから放音する音声と、話者の音声とを音声入力部で取り込み、設定した指向性によって分離することから、エコーやハウリングが起こらず拡声通話系における双方向同時通話が実現される。特に、複数のマイクにおける指向性を設定するため、複数のマイクの設置が容易となる。
【発明の効果】
【0017】
本発明によれば、エコーやハウリングを防ぐエコーキャンセラにおいて、適応処理を基にした手法と比べて、低演算量かつ短時間でエコーを抑圧することができるとともに、マイク配置の制約をなくすることが可能となる。これにより、全二重通話を行う場合に起こる、エコーやハウリングの問題を容易かつ的確に解決することが可能となる。
【発明を実施するための最良の形態】
【0018】
以下、本発明の実施の形態を図に基づき説明する。
【0019】
<音声処理装置の構成>
図1は、本実施形態に係る音声処理装置の構成を説明するブロック図である。なお、図1に示す音声処理装置は、テレビ会議システムで適用される近端装置や遠端装置に用いられている。
【0020】
本実施形態に係る音声処理装置は、音声入力部10、信号処理部20、スピーカSP、A/D変換器11a、11b、D/A変換器12、音声コーデック部30、通信部40を備えている。
【0021】
音声入力部10は、相対する方向の指向性を有する複数のマイクが一つの筐体に組み込まれた構成となっている。本実施形態では、2つのマイクM1、M2が一つの筐体内に組み込まれ、一方のマイクM1の指向性が話者側に向けられ、他方のマイクM2の指向性がスピーカSP側に向けられている。
【0022】
信号処理部20は、デジタルシグナルプロセッサ(DSP)で構成され、入力および出力の音声データを所望のデータへ変換する処理を行う。特に、本実施形態において信号処理部20は、音声入力部10の一の指向性を有するマイクM1で取り込んだ音声を相手方に送信する処理、および相手方から送られてきた音声を受信してスピーカSPに出力する処理を行う。
【0023】
信号処理部20には、後述する音源分離部が設けられている。音源分離部は、音声入力部で取り込んだ音声のうち、音声入力部10の一の指向性を有するマイクM1で取り込んだ音声と、音声入力部10の他の指向性を有するマイクM2で取り込んだスピーカSPから出力される相手方の音声との信号量の差から両者を分離する処理を行う。
【0024】
A/D変換器11a、11bは、マイクM1、M2で取り込み、アンプ(図示せず)で増幅された音声のアナログ信号を所定のサンプリングレートによってデジタル信号に変換する処理を行う。A/D変換器11a、11bで変換された音声のデジタル信号は信号処理部20に送られる。
【0025】
D/A変換器12は、信号処理部20から出力された相手方からの音声のデジタル信号をアナログ信号に変換する処理を行う。D/A変換器12で変換された音声のアナログ信号はスピーカSPへ送られ、音声として出力されることになる。
【0026】
音声コーデック部30は、相手方に送る音声のデジタル信号を符号化する処理および相手方から送られてきた音声のデジタル信号を復号化する処理を行う。
【0027】
通信部40は、インターネットやLAN(Local Area Network)等の通信回線Nを介して遠端装置との間で信号入出力を行う部分であり、符号化された音声のデジタル信号の送受信を行う。
【0028】
次に、音源分離部について説明する。音源分離部は、音源分離法の一つであるSAFIAに基づく手法で、目的話者のみの音声を分離抽出し、その分離抽出した目的話者の音声のみを音声コーデック部へ送る。
【0029】
音源分離法SAFIAの基本的な処理は、特許文献1、2に記載されている。ここで、本実施形態で音源分離法SAFIAをエコーキャンセラに適用する場合の具体例を説明する。
【0030】
音源分離法SAFIAの入力には、取りたい音(目的話者の音)が優勢となる入力音と、消したい音(スピーカから出る音)が優勢となる入力音とが必要である。したがって、少なくとも2つのマイクを用意し、一方を話者の近く、他方をスピーカの近くに配置するといった設置上の制約が生じる。
【0031】
本実施形態では、この音源分離法SAFIAをエコーキャンセラに応用するにあたり、マイクの設置の制約を解消するため、複数のマイクM1、M2を一つの筐体に組み込み、これらのマイクM1、M2の指向性を相対する方向(例えば、反対向き)に設定している。これにより、マイクM1、M2が組み込まれた筐体を話者とスピーカSPとの間に配置するだけで、音源分離法SAFIAをエコーキャンセラに適用できるようになる。
【0032】
また、マイクM1、M2を組み込む筐体には、各マイクM1、M2の指向性の方向を示す矢印等の目印を付けておくことで、マイク(筐体)の設置をより確実にすることが可能となる。
【0033】
<他の信号処理装置>
図2は、本実施形態に係る他の信号処理装置を説明するブロック図である。この音声処理装置は、音声入力部10、信号処理部20、スピーカSP、A/D変換器11a、11b、D/A変換器12、音声コーデック部30、通信部40を備えている。
【0034】
音声入力部10は、複数のマイクM1、M2で音声を取り込む部分である。本実施形態の音声入力部10は、先に説明したように、複数のマイクM1、M2が一つの筐体に組み込まれている構成であっても、複数のマイクM1、M2が独立して設けられている構成であってもよい。
【0035】
信号処理部20は、デジタルシグナルプロセッサ(DSP)で構成され、入力および出力の音声データを所望のデータへ変換する処理を行う。特に、本実施形態では、音声入力部10で取り込んだ音声につき話者側から取り込んだ音声とスピーカSP側から取り込んだ音声との指向性を設定するビームフォーミング部(後述)を有する。
【0036】
また、信号処理部20には、音源分離部(後述)が設けられている。音源分離部は、ビームフォーミング部で設定した指向性によって音声入力部で取り込んだ音声につき話者側から取り込んだ音声とスピーカ側から取り込んだ音声との信号量の差から両者を分離する。そして、分離して得た話者側から取り込んだ音声のみを相手方に送信する処理を行う。
【0037】
A/D変換器11a、11bは、マイクM1、M2で取り込み、アンプ(図示せず)で増幅された音声のアナログ信号を所定のサンプリングレートによってデジタル信号に変換する処理を行う。A/D変換器11a、11bで変換された音声のデジタル信号は信号処理部20に送られる。
【0038】
D/A変換器12は、信号処理部20から出力された相手方からの音声のデジタル信号をアナログ信号に変換する処理を行う。D/A変換器12で変換された音声のアナログ信号はスピーカSPへ送られ、音声として出力されることになる。
【0039】
音声コーデック部30は、相手方に送る音声のデジタル信号を符号化する処理および相手方から送られてきた音声のデジタル信号を復号化する処理を行う。
【0040】
通信部40は、インターネットやLAN(Local Area Network)等の通信回線Nを介して遠端装置との間で信号入出力を行う部分であり、符号化された音声のデジタル信号の送受信を行う。
【0041】
次に、音源分離部について説明する。音源分離部は、音源分離法の一つであるSAFIAに基づく手法で、目的話者のみの音声を分離抽出し、その分離抽出した目的話者の音声のみを音声コーデック部30へ送る。音源分離法SAFIAの基本的な処理は、特許文献1、2に記載されている。
【0042】
本実施形態では、ビームフォーミング部によって設定した指向性に基づき、取り込んだ音声信号から音源分離法SAFIAによって目的話者のみの音声を分離抽出する。したがって、ビームフォーミング部での指向性の設定によって、複数のマイクM1、M2の配置に制約を課すことなく、配置した状態で指向性の設定を行い、所望のマイク配置と等価な状態を作り出すことが可能となる。
【0043】
また、ビームフォーミング部によってマイクM1、M2の指向性を設定することから、上記説明したような一つの筐体に複数のマイクM1、M2が組み込まれた音声入力部10を用いる場合のみならず、複数のマイクM1、M2が独立して設けられたものを用いる場合でも、所望のマイク入力を得ることができる。
【0044】
図3は、ビームフォーミング部を備える信号処理部の構成を説明するブロック図である。この信号処理部20には、ビームフォーミング部A21a、ビームフォーミング部B21b、音源分離部22が設けられている。ビームフォーミング部A21aには図2に示すマイクM1で取り込んだ音声をデジタルデータに変換するA/D変換器11aからの信号が入力される。また、ビームフォーミング部B21bには図2に示すマイクM2で取り込んだ音声をデジタルデータに変換するA/D変換器11bからの信号が入力される。
【0045】
ここで、ビームフォーミング部A21aは、話者側から取り込んだ音声について指向性が強くなるよう設定し、ビームフォーミング部B21bは、スピーカSP側から取り込んだ音声について指向性が強くなるよう設定する。これにより、ビームフォーミング部A21aからは話者側から取り込んだ音声が優勢となる信号が音源分離部22に入力され、ビームフォーミング部B21bからはスピーカSP側から取り込んだ音声が優勢となる信号が音源分離部22に入力される。
【0046】
音源分離部22は、ビームフォーミング部A21aおよびビームフォーミング部B21bから送られた量信号の信号量の差から、音源分離法SAFIAによって話者側の音声のみを分離し、分離した話者側の音声のみを音声コーデック部30へ送信する。
【0047】
<音声処理方法>
次に、この音声処理装置を用いた音声処理方法を説明する。先ず、図2に示す2つのマイクM1、M2からそれぞれA/D変換器11a、11bを介して送られてきた信号は、例えば48kHzサンプリング16bitPCMのデジタルデータとなって信号処理部20へ送られる。
【0048】
そして、これら2系統のマイク入力音声信号は、図3に示す2つのビームフォーミング部A21aおよびビームフォーミング部B21bへそれぞれ入力される。
【0049】
ビームフォーミング部A21aでは、目的話者へ指向性を向けた場合の音声を出力し、ビームフォーミング部B21bでは、スピーカSPへ指向性を向けた場合の音声を出力する。
【0050】
ここで、ビームフォーミングには、多くの手法が提案されている。一般に用いられる手法としては、遅延和法、適応ビームフォーマなどがあるが、どのビームフォーミング法を用いてもかまわない。また、これらの手法は、複数のマイクへの拡張も可能であり、2つ以上のマイクを用いて、目的話者およびスピーカ方向へ指向性を向けてもかまわない。実際には、複数のマイクを用いたほうが、鋭い指向性を形成できる。
【0051】
次に、これらの二つの出力音声を、音源分離部22へ送り、音源分離法SAFIAに基づく手法で、目的話者のみの音声を分離抽出し、音声コーデック30へ送る。音源分離法SAFIAの基本的な処理は非特許文献1、2に記載による。
【0052】
音源分離法SAFIAをエコーキャンセラに応用する場合、音源分離部22には、取りたい音(目的話者の音)が優勢な入力音と、消したい音(スピーカから出る音)が優勢な入力音とを入力する必要である。本実施形態では、ビームフォーミング部A21aおよびビームフォーミング部B21bで指向性を形成することによって、目的話者の音が優勢な入力音と、スピーカSPから出る音が優勢な入力音とを得ている。これにより、複数のマイクM1、M2の配置に厳しい制約を課すことなく、指向性の調整によって等価的にマイクM1、M2の配置を設定できることになる。
【0053】
特に、複数のマイクM1、M2を一つの筐体に組み込んだ音声入力部を用い、ビームフォーミングで指向性を設定することで、ユーザは1つのマイクであるかのように取り扱うことができるというメリットもある。
【0054】
このような音源分離法SAFIAをエコーキャンセラに応用することで、適応フィルタのように系が変化した場合に収束するまでの時間、エコーが戻る問題も起こらない。さらに、フィルタバンク、あるいはフーリエ変換を用いて実現することができ、これらには計算量の削減方法が既に提案されており、適応フィルタを用いた場合に比べ少ない計算量で実現可能である。
【0055】
また、本実施形態では、使用する部屋の残響時間にはよらず、適応フィルタを用いた場合の長い残響時間に対応するために計算量を増加させる問題もない。また、音源分離法SAFIAをそのままエコーキャンセラに応用した場合に問題となる、マイク配置の制約を取り去ることが可能となる。
【0056】
<ビームフォーミングの学習方法>
次に、ビームフォーミングの指向性の学習方法について説明する。図4は、ビームフォーミングの指向性の学習方法を説明するフローチャートである。先ず、ステップS1に示すように、スピーカ出力のSN比を計算する。
【0057】
次に、ステップS2に示すように、マイク入力のSN比を計算する。このとき、複数マイクの振幅値の平均を取ってからSN比を計算する。
【0058】
次に、ステップS3に示すように、スピーカ出力のSN比と所定の閾値とを比較し、SN比が閾値以上であれば、スピーカから音が出ていると判断し、ステップS4に示すように、出力を最小にするようにビームフォーミング部A21aを学習する。つまり、スピーカの音を抑圧するようにビームフォーミング部A21aの指向性を学習する。
【0059】
一方、ステップS3の判断で、スピーカ出力のSN比が閾値未満である場合、ステップS5へ進み、マイク入力のSN比と所定の閾値との比較を行う。この比較において、マイク入力のSN比が閾値以上であれば、目的音声のみと判断し、ステップS6に示すように、出力を最小にするようにビームフォーミング部B21bを学習する。つまり、目的音声を抑圧するようにビームフォーミング部B21bの指向性を学習する。
【0060】
一方、ステップS5の判断で、マイク入力のSN比が閾値以下であれば、目的音声もスピーカ出力もないと判断し、ビームフォーミング部A21aおよびビームフォーミング部B21bは学習しない。
【0061】
次いで、ステップS7でビームフォーミング部A21aの出力音声を計算するとともに、ステップS8でビームフォーミング部B21bの出力音声を計算し、ステップS9に示すように、音源分離部へ送る。
【図面の簡単な説明】
【0062】
【図1】本実施形態に係る音声処理装置の構成を説明するブロック図である。
【図2】本実施形態に係る他の音声処理装置の構成を説明するブロック図である。
【図3】ビームフォーミング部を備える信号処理部の構成を説明するブロック図である。
【図4】ビームフォーミングの指向性の学習方法を説明するフローチャートである。
【符号の説明】
【0063】
10…音声入力部、20…信号処理部、30…コーデック部、40…通信部、N…通信回線、M1…マイク、M2…マイク、SP…スピーカ

【特許請求の範囲】
【請求項1】
相対する方向の指向性を有する複数のマイクが一つの筐体に組み込まれた音声入力部と、
前記音声入力部の一の指向性を有するマイクで取り込んだ音声を相手方に送信する処理、および相手方から送られてきた音声を受信してスピーカに出力する処理を行う信号処理部と、
前記音声入力部で取り込んだ音声のうち、前記音声入力部の一の指向性を有するマイクで取り込んだ音声と、前記音声入力部の他の指向性を有するマイクで取り込んだ前記スピーカから出力される相手方の音声との信号量の差から両者を分離して送信する音源分離部と
を有する音声処理装置。
【請求項2】
複数のマイクで音声を取り込む音声入力部と、
前記音声入力部で取り込んだ音声を相手方に送信する処理、および相手方から送られてきた音声を受信してスピーカに出力する処理を行う信号処理部と、
前記音声入力部で取り込んだ音声につき話者側から取り込んだ音声とスピーカ側から取り込んだ音声との指向性を設定するビームフォーミング部と、
前記ビームフォーミング部で設定した指向性によって前記音声入力部で取り込んだ音声につき話者側から取り込んだ音声とスピーカ側から取り込んだ音声との信号量の差から両者を分離し、分離して得た話者側から取り込んだ音声のみを相手方に送信する音源分離部と
を有する音声処理装置。
【請求項3】
複数のマイクで音声を取り込む工程と、
取り込んだ前記音声を相手方に送信する処理、および相手方から送られてきた音声を受信してスピーカに出力する処理を行う工程と、
取り込んだ前記音声につき話者側から取り込んだ音声とスピーカ側から取り込んだ音声との指向性を設定する工程と、
設定した前記指向性によって、取り込んだ音声につき話者側から取り込んだ音声とスピーカ側から取り込んだ音声との信号量の差から両者を分離し、分離して得た話者側から取り込んだ音声のみを相手方に送信する工程と
を有する音声処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2009−302983(P2009−302983A)
【公開日】平成21年12月24日(2009.12.24)
【国際特許分類】
【出願番号】特願2008−156134(P2008−156134)
【出願日】平成20年6月16日(2008.6.16)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】