説明

信号処理装置及び信号処理方法

【課題】外乱信号を効率的に低減させることが可能な信号処理装置及び信号処理方法を提供する。
【解決手段】複数チャネルの音を再生する複数のスピーカと、複数チャネルの音を収音する複数のマイクロフォンと、前記複数のマイクロフォンによって収音する空間方向に存在する利用者を検出し、前記複数のスピーカに対する前記利用者の相対方向を示した指向特性情報を出力する検出手段と、前記複数のマイクロフォンが収音して得られた収音信号に対し、当該収音信号に含まれた外乱信号を低減する処理内容を、前記指向特性情報が示す前記相対方向に応じて切り替える信号処理手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、信号処理装置及び信号処理方法に関するものである。
【背景技術】
【0002】
従来、DSP(Digital Signal Processor)等を用いてノイズキャンセラやエコーキャンセラなどにより音響信号の特性を変化させることで、当該音響信号に含まれたノイズ成分やエコー成分等の外乱信号を低減させることが行われている。また、従来、複数のマイクロフォン(マイクロフォンアレイ)を用いることにより、収音して得られる収音信号に含まれたノイズ成分や残響成分等の外乱信号を低減して、出力信号として出力する技術が提案されている。また従来、複数のマイクロフォンを用いて収音する際に、発話しているユーザの方向に指向性を向け、指向性を適応的に変化されることでノイズ成分等の外乱信号を低減する技術(話者追尾マイクロフォンアレイ)も提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−28653号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、話者追尾マイクロフォンアレイを用いて収音する際に併せて複数のスピーカを用いて音響信号を出力するような場合には、この音響信号が出力される空間内をユーザが移動すると、収音における指向性が変化するために、話者の存在位置に応じてエコーの要因となるスピーカが切り換わる。しかしながら、従来の技術では、外乱信号の低減に関し、スピーカとユーザとの相対方向(相対位置)については考慮されていないため、ユーザの存在位置に関係して生じた外乱信号を効率的に低減することができないという問題があった。
【0005】
本発明は、上記に鑑みてなされたものであって、外乱信号を効率的に低減させることが可能な信号処理装置及び信号処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
実施の形態の信号処理装置は、複数のスピーカと、複数のマイクロフォンと、検出手段と、信号処理手段とを備える。複数のスピーカは、複数チャネルの音を再生する。複数のマイクロフォンは、複数チャネルの音を収音する。検出手段は、複数のマイクロフォンによって収音する空間方向に存在する利用者を検出し、複数のスピーカに対する前記利用者の相対方向を示した指向特性情報を出力する。信号処理手段は、複数のマイクロフォンが収音して得られた収音信号に対し、当該収音信号に含まれた外乱信号を低減する処理内容を、前記指向特性情報が示す前記相対方向に応じて切り替える。
【図面の簡単な説明】
【0007】
【図1】図1は、本実施形態に係る記憶装置の構成を模式的に示す図。
【図2】図2は、視線検出部の動作を説明するための図。
【図3】図3は、エコーキャンセラ部の構成の一例を模式的に示す図。
【図4】図4は、ノイズキャンセラ部の構成の一例を模式的に示す図。
【図5】図5は、ノイズキャンセラ部29の動作を説明するための図。
【図6】図6は、振幅ベクトルに含まれたノイズレベルの一例を示す図。
【図7】図7は、エコーリダクション部の構成の一例を模式的に示す図。
【図8】図8は、エコーリダクション部の動作を説明するための図。
【図9】図9は、振幅ベクトルに含まれたエコーレベルの一例を示す図である。
【図10】図10は、本実施形態の変形例1に係る信号処理部の構成を模式的に示す図。
【図11】図11は、本実施形態の変形例2に係る信号処理部の構成を模式的に示す図。
【図12】図12は、本実施形態の変形例3に係る信号処理部の構成を模式的に示す図。
【図13】図13は、変形例2及び3に係るエコーリダクション部の構成の一例を模式的に示す図。
【発明を実施するための形態】
【0008】
図1は、本実施形態に係る信号処理装置の構成を模式的に示す図である。同図に示すように、信号処理装置100は、音響出力部10と、信号処理部20とを備えている。
【0009】
ここで、音響出力部10は、ボリューム部11L及び11Rと、D/A変換部12L及び12Rと、スピーカ13L及び13Rとを有している。
【0010】
ボリューム部11Lは、入力端子14Lから入力される左チャネル(以下、Lchと表記する)用の音響信号の音量を、図示しない音量調節スイッチの操作量に応じて調整する。ボリューム部11Rは、入力端子14Rから入力される右チャネル(以下、Rchと表記する)用の音響信号の音量を、図示しない音量調節スイッチの操作量に応じて調整する。
【0011】
D/A変換部12Lは、ボリューム部11Lで音量調整されたデジタルの音響信号をアナログ信号に変換し、スピーカ13Lに出力する。D/A変換部12Rは、ボリューム部11Rで音量調整されたデジタルの音響信号をアナログ信号に変換し、スピーカ13Rに出力する。
【0012】
スピーカ13L、スピーカ13Rは、ステレオスピーカであって、信号処理装置100が置かれた空間内に音(再生音)を出力する。スピーカ13Lは、D/A変換部12Lから入力されたアナログ信号を物理振動に変え、音として出力する。スピーカ13Rは、D/A変換部12Rから入力されたアナログ信号を物理振動に変え、音(再生音)として出力する。
【0013】
一方、信号処理部20は、マイクロフォン21L及び21Rと、A/D変換部22L及び22Rと、遅延部23L及び23Rと、モノラル化部24と、カメラ部25と、視線検出部26と、エコーキャンセラ部27と、アレイ処理部28と、ノイズキャンセラ部29と、遅延部30と、エコーリダクション部31とを有している。
【0014】
マイクロフォン21L及び21Rは、ステレオマイクであって、信号処理装置100が置かれた空間内に伝わる音を収音する。マイクロフォン21Lは、収音した音をアナログの収音信号(以下、Lch収音信号という)としてA/D変換部22Lに出力する。また、マイクロフォン21Rは、収音した音をアナログの収音信号(以下、Rch収音信号という)としてA/D変換部22Rに出力する。
【0015】
A/D変換部22Lは、マイクロフォン21Lで収音されたLch収音信号をデジタル信号に変換し、エコーキャンセラ部27に出力する。A/D変換部22Rは、マイクロフォン21Rで収音されたRch収音信号をデジタル信号に変換し、エコーキャンセラ部27に出力する。
【0016】
遅延部23L及び遅延部23Rは、遅延回路等である。遅延部23Lは、ボリューム部11Lで音量調整されたデジタルの音響信号を所定時間遅延させ、モノラル化部24に出力する。また、遅延部23Rは、ボリューム部11Rで音量調整されたデジタルの音響信号を所定時間遅延させ、モノラル化部24に出力する。
【0017】
モノラル化部24は、遅延部23L及び遅延部23Rの各々から入力される音響信号の線形和を下記式(1)に基づいて算出し、この算出結果となる信号をエコーキャンセラ部27及び遅延部30に出力する。なお、下記式(1)において、“L”は遅延部23Lから入力される音響信号、“R”は遅延部23Rから入力される音響信号を意味する。また、“α”は、後述する指向特性情報に応じて定まる係数である(ただし、0≦α≦1)。
α・L+(1−α)・R (1)
【0018】
具体的に、モノラル化部24は、視線検出部26から入力される指向特性情報に応じて、上記式(1)の係数αの値を調整することで、音響信号“L”及び“R”に対する重みを変更する。ここで、指向特性情報が、後述する「エリアL」を示す場合、係数αの値を大きくすることで、音響信号“L”に対する重みを増加させる。また、指向特性情報が、後述する「エリアR」を示す場合、係数αの値を小さくすることで、音響信号“R”に対する重みを増加させる。なお、指向特性情報が、後述する「エリアC」を示す場合には、係数αを1/2とすることで、音響信号“L”及び“R”に対する重みを等しくさせる。
【0019】
カメラ部25は、撮像装置であって、マイクロフォン21L及び21Rによって収音する空間方向、つまりスピーカ13L及び13Rの出力方向に向けて配置されている。カメラ部25は、撮像した撮像データを視線検出部26に出力する。
【0020】
視線検出部26は、カメラ部25から入力される撮像データを解析することで、撮像データの画像から、スピーカ13L及び13Rの出力方向に存在する話者を検出すると、当該画像中における話者の存在位置を、スピーカ13L及び13Rに対する相対方向(相対位置)で示した指向特性情報を生成し、モノラル化部24、エコーキャンセラ部27、アレイ処理部28、ノイズキャンセラ部29及びエコーリダクション部31に出力する。ここで、話者の検出方法としては、例えば、撮像データの画像に含まれた人の顔や視線を検出し、この顔や視線が正面方向、すなわちカメラ部25に向いている場合に、その人を話者として検出する。なお、撮像データから顔や視線を検出する解析方法は、公知・公用の技術を用いるものとする。ただし、複数のスピーカに対する前記話者(利用者)の相対方向を示した指向特性情報は、複数のスピーカの配置と複数のマイクの配置の位置情報によって決まる。ひいては、マイク配置によって設定されるマイクロフォンアレイの収音指向性と、その指向性ごとにどのスピーカからどのマイクにエコーが回り込むのかという情報で決まる。
【0021】
図2は、視線検出部26の動作を説明するための図である。同図では、上面から見たスピーカ13L及び13Rと、マイクロフォン21L及び21Rと、カメラ部25との配置関係の一例を示している。同図に示すように、スピーカ13L及び13Rは、所定の離間距離を有して設けられ、リスニングポイントPから見て、左側にスピーカ13L、右側にスピーカ13Rが配置されている。また、マイクロフォン21L及び21Rは、それぞれ、スピーカ13Lとスピーカ13Rとの間に設けられ、リスニングポイントPから見て、左側にマイクロフォン21L、右側にマイクロフォン21Rが配置されている。また、カメラ部25は、マイクロフォン21Lとマイクロフォン21Rとの間に設けられ、音が出力される空間Aを撮像する。これら、スピーカ13L及びスピーカ13R、マイクロフォン21L及び21Rの取り付け位置は、カメラ部25の撮像方向を対象軸とする対象形となっている。
【0022】
また、視線検出部26において、空間Aは複数の領域(エリア)に分割されて定義されており、話者が存在するエリアを示した指向特性情報を出力する。例えば、視線検出部26は、カメラ部25が撮像した撮像データに基づき、空間A内でのスピーカ13L寄りのエリアLにおいて話者SPの存在を検出すると、このエリアLを示す指向特性情報を出力する。この図2の例では、複数のスピーカに対する前記話者(利用者)の相対方向を示した指向特性情報は、スピーカRから何度の方向、スピーカLから何度の方向、どこのエリアに居るかというように与えられる。なお、図2では、カメラ部25の撮像位置を基準に、この撮像位置から撮像方向にかけて±22.5度の広がりもつ空間を「エリアC」とし、空間AからエリアCを除いたスピーカ13L寄りの空間を「エリアL」、スピーカ13R寄りの空間を「エリアR」とした例を示しているが、エリアの分割数やエリアの大きさはこれに限らないものとする。また、スピーカ13L及び13R、マイクロフォン21L及び21R、カメラ部25の配置関係は、図2の例に限定されないものとする。
【0023】
図1に戻り、エコーキャンセラ部27は、視線検出部26から入力される指向特性情報に基づいて、A/D変換部22L及び22Rからの収音信号に含まれたエコー成分を除去する。以下、図3を参照して、エコーキャンセラ部27の構成について説明する。
【0024】
図3は、エコーキャンセラ部27の構成の一例を模式的に示す図である。エコーキャンセラ部27は、視線検出部26から入力される指向特性情報に応じて、切替部271を切り替える。具体的に、エコーキャンセラ部27は、指向特性情報が“エリアL”又は“エリアR”を示す場合に、切替部271の切り替えによって第1処理部272を動作させ、指向特性情報が“エリアC”を示す場合に、切替部271の切り替えによって第2処理部273を動作させる。
【0025】
ここで、第1処理部272は、減算部2721L及び2721Rと、適応フィルタ学習部2722L及び2722Rと、疑似エコー生成部2723L及び2723Rとを有している。
【0026】
減算部2721Lは、A/D変換部22Lから入力されるLch収音信号から、疑似エコー生成部2723Lで生成された疑似エコー信号を減じ、その結果となる残留エコー信号を適応フィルタ学習部2722L及びアレイ処理部28に出力する。適応フィルタ学習部2722Lは、切替部271を介しモノラル化部24から入力された信号を参照信号とし、この参照信号と、減算部2721Lから出力された残留エコー信号とに基づいて、スピーカ13Lとマイクロフォン21Lとの間の伝達関数を推定学習する。疑似エコー生成部2723Lは、切替部271を介してモノラル化部24から入力された信号と、適応フィルタ学習部2722Lで推定学習された伝達関数とを乗算することで疑似エコー信号を生成し、減算部2721Lに出力する。
【0027】
減算部2721Rは、A/D変換部22Rから入力されるRch収音信号から、疑似エコー生成部2723Rで生成された疑似エコー信号を減じ、その結果となる残留エコー信号を適応フィルタ学習部2722R及びアレイ処理部28に出力する。適応フィルタ学習部2722Rは、切替部271を介しモノラル化部24から入力された信号を参照信号とし、この参照信号と、減算部2721Rから出力された残留エコー信号とに基づいて、スピーカ13Rとマイクロフォン21Rとの間の伝達関数を推定学習する。疑似エコー生成部2723Rは、切替部271を介してモノラル化部24から入力された信号と、適応フィルタ学習部2722Rで推定学習された伝達関数とを乗算する(入力された信号とフィルタ係数との畳み込みをする)ことで疑似エコー信号を生成し、減算部2721Rに出力する。
【0028】
また、第2処理部273は、モノラル化部2731と、減算部2732と、適応フィルタ学習部2733と、疑似エコー生成部2734と、減算部2735L及び2735Rとを有している。
【0029】
モノラル化部2731は、A/D変換部22L及びA/D変換部22Rの各々から入力されたLch収音信号及びRch収音信号の平均値を算出し、この算出結果を減算部2732に出力する。ここで、平均値の算出方法は特に問わず、例えば、各信号値の線形和を2で除算する形態としてもよい。
【0030】
減算部2732は、モノラル化部2731から入力される信号から、疑似エコー生成部2734で生成された疑似エコー信号を減じ、その結果となる残留エコー信号を適応フィルタ学習部2733に出力する。適応フィルタ学習部2733は、切替部271を介してモノラル化部24から入力された信号と、減算部2732から出力された残留エコー信号とに基づいて、スピーカ群(スピーカ13L、13R)とマイクロフォン群(マイクロフォン21L、21R)との間の伝達関数を推定学習する。疑似エコー生成部2734は、切替部271を介してモノラル化部24から入力された信号と、適応フィルタ学習部2733で推定学習された伝達関数とを用いて疑似エコー信号を生成し、減算部2732、減算部2735L及び2735Rに出力する。
【0031】
減算部2735Lは、A/D変換部22Lから入力された信号から、疑似エコー生成部2734で生成された疑似エコー信号を減じ、その結果となる残留エコー信号をアレイ処理部28に出力する。減算部2735Rは、A/D変換部22Rから入力された信号から、疑似エコー生成部2734で生成された疑似エコー信号を減じ、その結果となる残留エコー信号をアレイ処理部28に出力する。
【0032】
このように、エコーキャンセラ部27では、指向特性情報が“エリアC”を示す場合に、Lch収音信号とRch収音信号との平均を算出し、両収音信号の共通成分に基づいてエコー成分の除去を行うため、指向特性情報が“エリアL”又は“エリアR”の場合と比較し、エコー成分の除去に係る負荷を軽減することができる。
【0033】
図1に戻り、アレイ処理部28は、視線検出部26から入力される指向特性情報を用いて、エコーキャンセラ部27から入力される信号から、指向特性情報が示す音源方向(話者)からの信号を選択的に抽出し、ノイズキャンセラ部29に出力する。具体的に、アレイ処理部28は、エコーキャンセラ部27を介して入力されるマイクロフォン21L及び21Rが収音した収音信号に対して遅延処理等を行い、それぞれ異なる方向を指向性の軸方向とした複数の収音ビーム信号を生成する。そして、複数の収音ビーム信号の中から、視線検出部26から入力された指向特性情報が示す方向に対応する収音ビーム信号を選択し、この選択した収音ビーム信号からエコーを除去して、ノイズキャンセラ部29に送信する。
【0034】
なお、アレイ処理部28では、音源方向を追尾することで、話者が存在する各方向(エリアL、R、C)からの信号を選択的に抽出する形態としてもよいし、特定の音源方向(例えば、エリアC)に存在する話者からの信号を選択的に抽出する形態としてもよい。また、収音ビーム信号からの信号抽出方法、エコー除去方法は公知の技術を用いるものとする。
【0035】
ノイズキャンセラ部29は、アレイ処理部28による処理後の信号に含まれた雑音成分を抑圧する機能部である。以下、図4を参照して、ノイズキャンセラ部29の構成について説明する。
【0036】
図4は、ノイズキャンセラ部29の構成の一例を模式的に示す図である。同図に示すように、ノイズキャンセラ部29は、周波数領域変換部291と、雑音区間推定部292と、雑音特性推定部293と、抑圧ゲイン算出部294と、雑音抑圧部295と、時間領域変換部296とを有している。
【0037】
周波数領域変換部291は、アレイ処理部28から入力された信号を時間領域から周波数領域に変換し、その振幅スペクトルを雑音抑圧部295に出力するとともに、位相スペクトルを時間領域変換部296に出力する。
【0038】
雑音区間推定部292は、アレイ処理部28から入力された信号のうち、そのパワーが最も小さい区間(例えば、パワーが最小の時を中心にした微小時間)、を雑音区間であると推定し、その区間分の信号(波形)を雑音特性推定部293に出力する。
【0039】
雑音特性推定部293は、最尤法等を用いることで、雑音区間推定部292から入力された雑音区間の信号から周囲環境雑音の特性値(雑音特性)を逐次推定し、推定した雑音特性を抑圧ゲイン算出部294に出力する。
【0040】
また、雑音特性推定部293は、視線検出部26から出力される指向特性情報を入力とし、この指向特性情報が示す方向が変化したときには、特性値を逐次推定更新する時間間隔を短くするか、あるいは更新量を多くするように変更する。そして、その後一定時間、指向特性情報が示す方向が固定であった場合には、特性値を逐次推定更新する時間間隔を長くして元に戻すか、あるいは更新量少なくして元に戻すように変更する。このように、異なるエリアに切り替わった際に雑音特性の追従速度を速めることで、切り替わった後のエリアにおける雑音特性を模擬することが高速にでき、雑音抑圧量が低下することを防げる。また、各エリアに応じて雑音特性を複数格納できるようにしておき、入力された指向特性情報が示すエリアに対応する雑音特性を1つ読み出して更新し、その音響特性を、抑圧ゲイン算出部294に出力してもよい。
【0041】
抑圧ゲイン算出部294は、雑音特性推定部293から入力される雑音特性に応じて、音抑圧処理のための抑圧ゲインを算出する。
【0042】
雑音抑圧部295は、抑圧ゲイン算出部294で算出された抑圧ゲインを用いて、領域変換部291から入力される振幅スペクトルに抑圧処理を施すことで、当該振幅スペクトルに含まれた有色雑音を抑圧し、この抑圧処理後の振幅スペクトルを時間領域変換部296に出力する。
【0043】
また、雑音抑圧部295は、視線検出部26から入力される指向特性情報、アレイ処理部から入力される振幅スペクトルに含まれたノイズレベルから特定されるノイズ源の方向に応じて、抑圧処理のオン/オフを切り換える。具体的に、雑音抑圧部295は、アレイ処理部28が音源追尾を行うよう設定されている場合、指向特性情報が示す音源方向とノイズ源の方向とが一致すると抑圧処理をオンとし、不一致の場合に抑圧処理をオフとする。また、アレイ処理部28が特定の音源方向からの信号を抽出するよう設定されている場合、指向特性情報が示す音源方向と特定の音源方向とが一致すると抑圧処理をオンとし、不一致の場合に抑圧処理をオフとする。
【0044】
ここで、図5は、ノイズキャンセラ部29(雑音抑圧部295)の動作を説明するための図である。同図では、図3と同様、上面から見たスピーカ13L及び13R、マイクロフォン21L及び21R、カメラ部25の配置関係の一例を示している。
【0045】
図5に示すように、話者がエリアCに存在するとし、ノイズ源Nが時間経過とともにエリアR→エリアC→エリアLの順に移動しているものとする。このとき、アレイ処理部28が音源追尾を行うよう設定されていると、雑音抑圧部295は、指向特性情報が示す音源方向の方向、つまり話者SPが存在するエリアCと、アレイ処理部28からの振幅スペクトルに含まれたノイズレベルから特定されるノイズ源Nの出現方向とが一致した場合に抑圧処理をオンとし、不一致の場合に抑圧処理をオフとする。
【0046】
例えば、図5の場合、ノイズ源NがエリアRに存在する時刻T0〜T1の期間では、話者SPが存在するエリアCと、ノイズ源Nの方向(エリアR)とが一致しないため、抑圧処理のオフとする。また、ノイズ源NがエリアCに存在する時刻T1〜T2の期間では、話者SPが存在するエリアCと、ノイズ源Nの方向(エリアC)とが一致するため、抑圧処理のオンとする。また、ノイズ源NがエリアLに存在する時刻T2〜T3の期間では、話者SPが存在するエリアLと、ノイズ源Nの方向(エリアR)とが一致しないため抑圧処理のオフとする。
【0047】
また、アレイ処理部28が特定の音源方向からの信号を抽出するよう設定されていると、雑音抑圧部295は、指向特性情報が示す音源方向の方向が、その特定の音源方向と一致した場合に抑圧処理をオンとし、不一致の場合に抑圧処理をオフとする。この場合、アレイ処理部28からの振幅スペクトルに含まれるノイズレベルは、図6に示す状態となる。
【0048】
ここで、図6は、アレイ処理部28が、特定の音源方向(エリアC)からの信号を抽出する場合での、振幅ベクトルに含まれたノイズレベルの一例を示す図である。この場合、同図に示すように、音源方向がエリアCのときのノイズレベルが、他のエリアでのノイズレベルよりも顕著となる。そのため、雑音抑圧部295は、指向特性情報がエリアCを示す場合に抑圧処理をオンとし、他のエリアを示す場合に抑圧処理をオフとする。
【0049】
なお、本実施形態では、雑音抑圧部295にて抑圧処理のオン/オフを制御する形態としたが、これに限らず、抑圧ゲイン算出部294において、雑音抑圧部295と同様の切り換え条件に基づき、抑圧処理をオフとする場合に抑圧ゲインを0とする形態としてもよい。
【0050】
図4に戻り、時間領域変換部296は、雑音抑圧部295から入力された振幅スペクトルと、周波数領域変換部291から入力された位相スペクトルとに基づいて、周波数領域から時間領域に変換し、この変換結果となる信号をエコーリダクション部31に出力する。
【0051】
図1に戻り、遅延部30は、遅延部23L及び23Rと同様の遅延回路等であって、モノラル化部24から入力された信号を所定時間遅延させ、エコーリダクション部31に出力する。遅延部30での遅延処理により、モノラル化部24から出力された信号のうち、エコーキャンセラ部27、アレイ処理部28及びノイズキャンセラ部29を経由してエコーリダクション部31に入力される信号と、遅延部30を経由してエコーリダクション部31に入力される信号とが同期される。
【0052】
エコーリダクション部31は、ノイズキャンセラ部29による処理後の信号に含まれたエコー成分を除去する機能部である。以下、図7を参照して、エコーリダクション部31の構成について説明する。
【0053】
図7は、エコーリダクション部31の構成の一例を模式的に示す図である。同図に示すように、エコーリダクション部31は、第1周波数領域変換部311と、第2周波数領域変換部312と、エコー区間推定部313と、音響特性推定部314と、抑圧ゲイン算出部315と、エコー抑圧部316と、時間領域変換部317とを有している。
【0054】
第1周波数領域変換部311は、遅延部30から入力された信号を時間領域から周波数領域に変換し、その振幅スペクトルをエコー区間推定部313、音響特性推定部314及び抑圧ゲイン算出部315に出力する。第2周波数領域変換部312は、ノイズキャンセラ部29から入力された信号を時間領域から周波数領域に変換し、その振幅スペクトルをエコー区間推定部313、音響特性推定部314及びエコー抑圧部316に出力するとともに、位相スペクトルを時間領域変換部317に出力する。
【0055】
エコー区間推定部313は、ノイズキャンセラ部29からの信号と、遅延部30からの信号と、第1周波数領域変換部311からの振幅スペクトルと、第2周波数領域変換部312からの振幅スペクトルを入力とする。エコー区間推定部313は、ノイズキャンセラ部29からの信号と、遅延部30からの信号との差分値や、振幅スペクトル間の差分値等に基づき、エコーが発生していると推定されるエコー区間を音響特性推定部314に通知する。
【0056】
音響特性推定部314は、第1周波数領域変換部311からの振幅スペクトルと、第2周波数領域変換部312からの振幅スペクトルと、エコー区間推定部313から通知されるエコー区間とを入力とする。音響特性推定部314は、エコー区間推定部313から通知されたエコー区間における、両振幅スペクトルの差分からエコー成分の音響特性を推定し、推定した音響特性を抑圧ゲイン算出部35に出力する。
【0057】
また、音響特性推定部314は、視線検出部26から出力される指向特性情報を入力とし、この指向特性情報が示す方向が変化したときには、音響特性を逐次推定更新する時間間隔を短くするか、あるいは更新量多くするように変更する。そしてその後一定時間、指向特性情報が示す方向が固定であった場合には、音響特性を逐次推定更新する時間間隔を長くして元に戻すか、あるいは更新量少なくして元に戻すように変更する。このように、異なるエリアに切り替わった際に音響特性の追従速度を速めることで、切り替わった後のエリアにおける音響特性を模擬することが高速にでき、エコー抑圧量が低下することを防げる。また、各エリアに応じて音響特性を複数格納できるようにしておき、入力された指向特性情報が示すエリアに対応する音響特性を1つ読み出して更新し、その音響特性を、抑圧ゲイン算出部35に出力してもよい。
【0058】
抑圧ゲイン算出部315は、音響特性推定部314から入力される音響特性に応じて、エコー抑圧処理のための抑圧ゲインを算出し、エコー抑圧部316に出力する。
【0059】
エコー抑圧部316は、抑圧ゲイン算出部35で算出された抑圧ゲインを用いて、第2周波数領域変換部312から入力される振幅スペクトルに抑圧処理を施すことで、当該振幅スペクトルに含まれたエコー成分を抑圧し、この抑圧処理後の振幅スペクトルを時間領域変換部296に出力する。
【0060】
また、エコー抑圧部316は、視線検出部26から入力される指向特性情報、ノイズキャンセラ部29での信号抽出設定に応じて、抑圧処理のオン/オフを切り換える。具体的に、エコー抑圧部316は、アレイ処理部28が特定の音源方向(例えば、エリアC)からの信号を抽出するよう設定されていると、指向特性情報が示す音源方向と特定の音源方向とが一致した場合に抑圧処理をオフとし、不一致の場合に抑圧処理をオンとする。なお、アレイ処理部28が音源追尾を行うよう設定されている場合には、全ての音源方向に対して抑圧処理を行うものとする。
【0061】
ここで、図8は、エコーリダクション部31(エコー抑圧部316)の動作を説明するための図である。同図では、図3と同様、上面から見たスピーカ13L及び13R、マイクロフォン21L及び21R、カメラ部25の配置関係の一例を示している。
【0062】
図8に示すように、話者SPが時間経過とともにエリアR→エリアC→エリアLの順に移動しているものとする。このとき、アレイ処理部28が特定の音源方向として、エリアCからの信号を抽出するよう設定されていたとすると、第2周波数領域変換部312からの振幅スペクトルに含まれるエコーレベルは、図9に示す状態となる。
【0063】
ここで、図9は、アレイ処理部28が、特定の音源方向(エリアC)からの信号を抽出する場合での、振幅ベクトルに含まれたエコーレベルの一例を示す図である。同図に示すように、音源方向がエリアCのときのエコーレベルは、アレイ処理部28での処理により、他のエリアでのエコーレベルと比較し低減される。そのため、雑音抑圧部295は、指向特性情報がエリアCを示す場合に抑圧処理をオフとし、他のエリアを示す場合に抑圧処理をオンとする。
【0064】
なお、本実施形態では、エコー抑圧部316にて抑圧処理のオン/オフを制御する形態としたが、これに限らず、抑圧ゲイン算出部35において、エコー抑圧部316と同様の切り換え条件に基づき、抑圧処理をオフとする場合に抑圧ゲインを0とする形態としてもよい。
【0065】
そして、信号処理部20では、エコーリダクション部31で抑圧処理が施された信号を、図示しない外部装置に出力する。このように、信号処理部20では、信号処理装置100に対する話者の存在方向を指向特性情報として特定し、この指向特性情報が示す方向に応じてエコー・ノイズ等の外乱信号を除去・抑圧するため、話者が発話した音声をより効率的にクリア化することが可能となる。
【0066】
以上、本発明の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、追加等を行うことができる。また、上記実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0067】
例えば、上記実施形態では、カメラ部25及び視線検出部26の機能により、話者が存在する方向を特定する構成としたが、これに限らず、マイクロフォン21L及び21Rで収音された収音信号から、話者が存在する方向を特定する構成としてもよい。以下、この構成を本実施形態の変形例1として説明する。
【0068】
図10は、上記実施形態の変形例1に係る信号処理部20Aの構成を模式的に示す図である。なお、上記実施形態と同様の構成要素については、同一の符号を付与し説明を省略する。
【0069】
同図に示すように、信号処理部20Aは、マイクロフォン21L及び21Rと、A/D変換部22L及び22Rと、遅延部23L及び23Rと、モノラル化部24と、エコーキャンセラ部27と、アレイ処理部28と、ノイズキャンセラ部29と、遅延部30と、エコーリダクション部31と、到来方向推定部32を有している。
【0070】
到来方向推定部32は、A/D変換部22L及び22Rから出力されるLch収音信号及びRch収音信号を入力とする。到来方向推定部32は、マイクロフォン21L及び21Rが収音した各収音信号に対して遅延処理等を行い、それぞれ異なる方向を指向性の軸方向とした複数の収音ビーム信号を生成する。そして、複数の収音ビーム信号の中から、最も信号レベルが高い収音ビーム信号を選択し、この収音ビーム信号に対応する方向を話者の存在方向として特定し、この存在方向を示す指向特性情報をモノラル化部24、エコーキャンセラ部27、アレイ処理部28、ノイズキャンセラ部29及びエコーリダクション部31に出力する。
【0071】
このように、上記実施形態のカメラ部25及び視線検出部26に代えて、到来方向推定部32を備えることで、マイクロフォン21L及び21Rが収音した音から話者の存在方向を特定することができるため、上記実施形態と同様の効果を奏することができるとともに、装置構成を簡易化することができる。
【0072】
また、上記実施形態では、マイクロフォン21L及び21Rで収音された音に含まれる外乱信号を除去・抑圧するため、エコーキャンセラ部27、アレイ処理部28、ノイズキャンセラ部29、エコーリダクション部31の順に信号処理を行う構成としたが、これに限らず、信号処理を行う順序を変えたり、機能統合を行う等によって特定の信号処理を省く等することで、信号処理部20の構成を変形してもよい。以下、上記した信号処理部20の構成の変形例2、3として、信号処理部20の構成を変形した2例について説明する。
【0073】
図11は、上記実施形態の変形例2に係る信号処理部20Bの構成を模式的に示す図である。なお、上記実施形態と同様の構成要素については、同一の符号を付与し説明を省略する。
【0074】
信号処理部20Bは、マイクロフォン21L及び21Rと、A/D変換部22L及び22Rと、遅延部23L及び23Rと、モノラル化部24と、カメラ部25と、視線検出部26と、エコーキャンセラ部27と、エコーリダクション部31Bと、アレイ処理部28と、ノイズキャンセラ部29とを有している。ここで、遅延部30を除去したことと、エコーキャンセラ部27に続く、エコーリダクション部31B、アレイ処理部28及びノイズキャンセラ部29の処理順序とが、図1に示した信号処理部20の構成と異なっている。
【0075】
また、図12は、上記実施形態の変形例3に係る信号処理部20Cの構成を模式的に示す図である。なお、上記実施形態と同様の構成要素については、同一の符号を付与し説明を省略する。
【0076】
信号処理部20Cは、マイクロフォン21L及び21Rと、A/D変換部22L及び22Rと、遅延部23L及び23Rと、モノラル化部24と、カメラ部25と、視線検出部26と、エコーリダクション部31Cと、アレイ処理部28と、ノイズキャンセラ部29とを有している。ここで、遅延部30及びエコーキャンセラ部27を除去したことと、エコーリダクション部31C、アレイ処理部28及びノイズキャンセラ部29の処理順序とが、図1に示した信号処理部20の構成と異なっている。
【0077】
上記した信号処理部20B及び20Cの構成を採用する場合、エコーリダクション部31B、31Cへの入力は、Lch及びRchの2系統となる。そのため、図7で説明した構成に代えて、図13に示す構成を採用する。
【0078】
ここで、図13は、変形例2及び3に係るエコーリダクション部31B、31Cの構成の一例を模式的に示す図である。同図に示すように、エコーリダクション部31B、31Cは、第1周波数領域変換部411と、第1モノラル化部412と、第2周波数領域変換部413と、第3周波数領域変換部414と、第2モノラル化部415と、エコー区間推定部416と、音響特性推定部417と、抑圧ゲイン算出部418と、第1エコー抑圧部419と、第1時間領域変換部420と、第2エコー抑圧部421と、第2時間領域変換部422とを有している。
【0079】
第1周波数領域変換部411は、モノラル化部24から入力された信号を時間領域から周波数領域に変換し、その振幅スペクトルをエコー区間推定部416、音響特性推定部417及び抑圧ゲイン算出部418に出力する。
【0080】
第1モノラル化部412は、A/D変換部22L及びA/D変換部22Rの各々から入力されたLch収音信号及びRch収音信号の平均値を算出し、この算出結果をエコー区間推定部416に出力する。
【0081】
第2周波数領域変換部413は、A/D変換部22Lから入力されたLch収音信号を時間領域から周波数領域に変換し、その振幅スペクトルを第2モノラル化部415及び第1エコー抑圧部419に出力するとともに、位相スペクトルを第1時間領域変換部420に出力する。第3周波数領域変換部414は、A/D変換部22Rから入力されたRch収音信号を時間領域から周波数領域に変換し、その振幅スペクトルを第2モノラル化部415及び第2エコー抑圧部421に出力するとともに、位相スペクトルを第2時間領域変換部422に出力する。
【0082】
第2モノラル化部415は、第2周波数領域変換部413及び第3周波数領域変換部414の各々から入力された振幅スペクトルの平均値を算出し、この算出結果をエコー区間推定部416及び音響特性推定部417に出力する。
【0083】
エコー区間推定部416は、モノラル化部24からの信号と、第1周波数領域変換部411からの振幅スペクトルと、第1モノラル化部412からの信号と、第2モノラル化部415からの振幅スペクトルとを入力とする。エコー区間推定部416は、エコー区間推定部313と同様の機能により、第1モノラル化部412からの信号とモノラル化部24からの信号との差分値や、振幅スペクトル間の差分値等に基づき、エコーが発生していると推定されるエコー区間を音響特性推定部417に通知する。
【0084】
音響特性推定部417は、第1周波数領域変換部411からの振幅スペクトルと、第2モノラル化部415からの振幅スペクトルと、エコー区間推定部416から通知されるエコー区間とを入力とする。音響特性推定部417は、音響特性推定部314と同様の機能により、エコー区間推定部416から通知されたエコー区間における、両振幅スペクトルの差分からエコー成分の音響特性を推定し、推定した音響特性を抑圧ゲイン算出部418に出力する。
【0085】
また、音響特性推定部417は、視線検出部26から出力される指向特性情報を入力とし、この指向特性情報が示す方向に応じて、音響特性を推定する時間間隔を変更する。具体的に、音響特性推定部417は、指向特性情報が“エリアC”を示す時の時間間隔を、“エリアL”又は“エリアR”の時の時間間隔よりも短くすることで、話者が“エリアC”に存在する場合での音響特性の推定速度を、他のエリアに存在する場合と比較し上昇させる。なお、本実施形態では、雑音特性を逐次推定する形態としたが、これに限らず、例えば、各エリアに応じた音響特性を予め保持しておき、入力された指向特性情報に対応する方向の音響特性を、抑圧ゲイン算出部418に出力する形態としてもよい。
【0086】
抑圧ゲイン算出部418は、音響特性推定部417から入力される音響特性に応じて、エコー抑圧処理のための抑圧ゲインを算出し、第1エコー抑圧部419及び第2エコー抑圧部421に出力する。
【0087】
第1エコー抑圧部419は、抑圧ゲイン算出部418で算出された抑圧ゲインを用いて、第2周波数領域変換部413から入力される振幅スペクトルに抑圧処理を施すことで、当該振幅スペクトルに含まれたエコー成分を抑圧し、この抑圧処理後の振幅スペクトルを第1時間領域変換部420に出力する。なお、上述したエコー抑圧部316と同様に、指向特性情報に応じた処理を施すこととしてもよい。
【0088】
第1時間領域変換部420は、第1エコー抑圧部419から入力された振幅スペクトルと、第2周波数領域変換部413から入力された位相スペクトルとに基づいて、周波数領域から時間領域に変換し、この変換結果となる信号を、Lch収音信号としてアレイ処理部28に出力する。
【0089】
第2エコー抑圧部421は、抑圧ゲイン算出部418で算出された抑圧ゲインを用いて、第3周波数領域変換部414から入力される振幅スペクトルに抑圧処理を施すことで、当該振幅スペクトルに含まれたエコー成分を抑圧し、この抑圧処理後の振幅スペクトルを第2時間領域変換部422に出力する。なお、上述したエコー抑圧部316と同様に、指向特性情報に応じた処理を施すこととしてもよい。
【0090】
第2時間領域変換部422は、第2エコー抑圧部421から入力された振幅スペクトルと、第3周波数領域変換部414から入力された位相スペクトルとに基づいて、周波数領域から時間領域に変換し、この変換結果となる信号を、Rch収音信号としてアレイ処理部28に出力する。
【0091】
上記構成のエコーリダクション部31B及び31Cを用いることで、信号処理部20B及び20Cを実現することができる。また、上記構成のエコーリダクション部31B及び31Cでは、Lch収音信号とRch収音信号との平均を算出し、両収音信号の共通成分に基づいてエコー成分の抑圧を行うため、エコー成分の抑圧に係る負荷を軽減することができる。
【0092】
なお、上記変形例2及び3を用いて、信号処理部20の他の構成例を説明したが、更なる他の構成として、エコーキャンセラ部27、エコーリダクション部31B(31C)及びアレイ処理部28の三つの処理部を用いて、その順序で外乱信号を除去・抑圧する構成としてもよいし、エコーリダクション部31B(31C)及びアレイ処理部28の二つの処理部を用いて、その順序で外乱信号を除去・抑圧する構成としてもよい。
【0093】
また、上記実施形態では、二つのスピーカ(スピーカ13L及び13R)を用いることとしたが、これに限らず、三つ以上のスピーカを用いてもよい。また、上記実施形態では、二つのマイクロフォン(マイクロフォン21L及び21R)を用いることとしたが、これに限らず、三つ以上のマイクロフォンを用いてもよい。
【0094】
また、上記実施形態の信号処理装置の適応先は特に問わず、例えば、携帯電話機、ノートPC、タブレット端末等、各種デバイスにおいて、音声認識等の前処理装置として適用することが可能である。
【符号の説明】
【0095】
100 信号処理装置
10 音響出力部
11L、11R ボリューム部
12L、12R D/A変換部
13L、13R スピーカ
14L、14R 入力端子
20、20A、20B 信号処理部
21L、21R マイクロフォン
22L、22R A/D変換部
23L、23R 遅延部
24 モノラル化部
25 カメラ部
26 視線検出部
27 エコーキャンセラ部
271 切替部
272 第1処理部
2721L、2721R 減算部
2722L、2722R 適応フィルタ学習部
2723L、2723R 疑似エコー生成部
273 第2処理部
2731 モノラル化部
2732 減算部
2733 適応フィルタ学習部
2734 疑似エコー生成部
28 アレイ処理部
29 ノイズキャンセラ部
291 領域変換部
292 雑音区間推定部
293 雑音特性推定部
294 抑圧ゲイン算出部
295 雑音抑圧部
296 時間領域変換部
30 遅延部
31、31B、31C エコーリダクション部
311 第1周波数領域変換部
312 第2周波数領域変換部
313 エコー区間推定部
314 音響特性推定部
315 抑圧ゲイン算出部
316 エコー抑圧部
317 時間領域変換部
32 到来方向推定部
411 第1周波数領域変換部
412 第1モノラル化部
413 第2周波数領域変換部
414 第3周波数領域変換部
415 第2モノラル化部
416 エコー区間推定部
417 音響特性推定部
418 抑圧ゲイン算出部
419 第1エコー抑圧部
420 第1時間領域変換部
421 第2エコー抑圧部
422 第2時間領域変換部

【特許請求の範囲】
【請求項1】
複数チャネルの音を再生する複数のスピーカと、
複数チャネルの音を収音する複数のマイクロフォンと、
前記複数のマイクロフォンによって収音する空間方向に存在する利用者を検出し、前記複数のスピーカに対する前記利用者の相対方向を示した指向特性情報を出力する検出手段と、
前記複数のマイクロフォンが収音して得られた収音信号に対し、当該収音信号に含まれた外乱信号を低減する処理内容を、前記指向特性情報が示す前記相対方向に応じて切り替える信号処理手段と、
を備えたことを特徴とする信号処理装置。
【請求項2】
前記検出手段は、前記複数のスピーカの出力方向に存在する利用者を撮像する撮像手段で取得された撮像データから前記利用者を検出し、当該撮像データ中における前記利用者の存在位置を前記相対方向で示した前記指向特性情報を出力することを特徴とする請求項1に記載の信号処理装置。
【請求項3】
前記検出手段は、前記複数のマイクロフォンが前記再生音を収音して得られた収音信号から、それぞれ異なる方向を指向性の軸とした複数のビーム信号を生成し、当該ビーム信号のうち、最も信号レベルが高いビーム信号に対応する方向を前記利用者の存在方向として特定し、当該存在方向を前記相対方向で示した前記指向特性情報を出力することを特徴とする請求項1に記載の信号処理装置。
【請求項4】
前記信号処理手段は、前記再生音の収音方向に応じて異なる感度を持つようにアレイ処理を行うアレイ処理手段を有し、
前記アレイ処理手段は、前記指向特性情報が示す前記相対方向に対応する収音方向に対す感度を、当該収音方向以外の収音方向に対する感度より高くすることを特徴とする請求項1〜3の何れか一項に記載の信号処理装置。
【請求項5】
前記信号処理手段は、前記再生音を参照信号とし、当該参照信号と前記複数のマイクロフォンが前記再生音を収音して得られた前記収音信号との差分に基づいて、前記収音信号に含まれたエコー成分を除去するエコー成分除去手段を有し、
前記エコー成分除去手段は、前記指向特性情報が示す前記相対方向に応じて、前記複数のチャネルの収音信号を単一化することを特徴とする請求項1〜4の何れか一項に記載の信号処理装置。
【請求項6】
前記複数のチャネルの再生音を単一化する単一化手段を更に備え、
前記エコー成分除去手段は、前記単一化手段で単一化された再生音を前記参照信号として用いることを特徴とする請求項5に記載の信号処理装置。
【請求項7】
前記単一化手段は、前記指向特性情報が示す前記相対方向に応じて、各チャネルの再生音を単一化する際の重み係数を変更することを特徴とする請求項6に記載の信号処理装置。
【請求項8】
前記信号処理手段は、前記収音信号に含まれたノイズ成分のノイズ特性を推測し、当該推測したノイズ特性に応じたゲインを与えることで前記ノイズ成分を抑圧するノイズ成分抑圧手段を更に備え、
前記ノイズ成分抑圧手段は、前記指向特性情報が示す前記相対方向に応じて、前記ノイズ特性を推測する効率を変更することを特徴とする請求項1〜7の何れか一項に記載の信号処理装置。
【請求項9】
前記ノイズ成分抑圧手段は、前記指向特性情報が示す前記相対方向が、所定の方向と一致した場合に、前記ノイズ成分を抑圧することを特徴とする請求項8に記載の信号処理装置。
【請求項10】
前記ノイズ成分抑圧手段は、前記収音信号に含まれノイズ成分から、前記複数のスピーカの出力方向に存在するノイズ源の出現方向を特定し、当該出現方向と前記指向特性情報が示す前記相対方向とが一致した場合に、前記ノイズ成分を抑圧することを特徴とする請求項8又は9に記載の信号処理装置。
【請求項11】
前記信号処理手段は、前記収音信号に含まれたエコー成分の音響特性を推測し、当該音響特性に応じたゲインを与えることで前記エコー成分を抑圧するエコー成分抑圧手段を更に備え、
前記エコー成分抑圧手段は、前記指向特性情報が示す前記相対方向に応じて、前記音響特性を推測する効率を変更することを特徴とする請求項1〜10の何れか一項に記載の信号処理装置。
【請求項12】
前記エコー成分抑圧手段は、前記指向特性情報が示す前記相対方向が、所定の方向と一致した場合に、前記エコー成分を抑圧することを特徴とする請求項11に記載の信号処理装置。
【請求項13】
前記エコー成分除去手段は、前記指向特性情報が示す前記相対方向に応じて、前記複数のチャネルの収音信号を単一化することを特徴とする請求項11又は12に記載の信号処理装置。
【請求項14】
複数チャネルの音を再生する複数のスピーカと、複数チャネルの音を収音する複数のマイクロフォンとを備えた信号処理装置で実行される信号処理方法であって、
検出手段が、前記複数のマイクロフォンによって収音する空間方向に存在する利用者を検出し、前記複数のスピーカに対する前記利用者の相対方向を示した指向特性情報を出力する検出工程と、
信号処理手段が、前記複数のマイクロフォンが収音して得られた収音信号に対し、当該収音信号に含まれた外乱信号を低減する処理内容を、前記指向特性情報が示す前記相対方向に応じて切り替える信号処理工程と、
を含むことを特徴とする信号処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−216998(P2012−216998A)
【公開日】平成24年11月8日(2012.11.8)
【国際特許分類】
【出願番号】特願2011−80786(P2011−80786)
【出願日】平成23年3月31日(2011.3.31)
【特許番号】特許第5060631号(P5060631)
【特許公報発行日】平成24年10月31日(2012.10.31)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】