音声入力装置

【課題】入力される音声信号に含まれる雑音成分を抑圧するようにフィルタを適用する音声入力装置を、省負荷、省コストで実現すること。
【解決手段】音入力部101と、音入力部101から入力された入力音から音環境を監視する音環境監視部102と、音環境監視部102から得られた情報に基づいて、音環境に適合する標準フィルタが決定できる場合には、その標準フィルタをフィルタ部106の内容とするフィルタ選択手段1051と、そのような標準フィルタが決定できない場合には、一時フィルタを生成してフィルタ部106の内容とする一時フィルタ生成手段1052と、該一時フィルタを記憶する一時記憶部104とを構成要素とする音声入力装置を構成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は音声入力装置に関する。
【背景技術】
【０００２】
近年、自動車において、ナビゲーション装置やオーディオ装置、空調機などの操作入力を音声でも行えるように音声認識装置を備えるものが提供されている。また、車室内で車両操作を行いながら電話を使用するために、ハンドフリー電話装置を備えるものも提供されている。こうした装置は、音声信号を取込むマイクロホンを備え、ユーザの発話音声を入力・処理するように構成されている。
【０００３】
しかしながら、マイクロフォンには、音声信号のみならず、車両のエンジンや空調機の稼働音、或いは走行によって発生する風音、ロードノイズ、そして、車室内の空調機風、オーディオ装置音などの雑音が同時に入力されるため、音声認識の精度や、通話音声の明瞭性を高めるために、前記音声入力信号からノイズ成分を低減することが必要となってくる。
【０００４】
【非特許文献１】「アレー信号処理を用いたブラインド音源分離の基礎」Technica1 report of ＩＥＩＣＥ，ＥＡ２００１−７．
【非特許文献２】「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」、日本音響学会誌，1997，53，5，337-345．
【発明の開示】
【発明が解決しようとする課題】
【０００５】
入力音に含まれるノイズ成分を低減するフィルタリング手法がいくつか提案されている。
【０００６】
例えば、使用者の音声が収録できる位置に設置した音声用マイクロフォンと、該音声に混入する雑音と同じ雑音が観測できる位置に設置した雑音用マイクロフォンを用い、雑音混じりの音声信号と、雑音のみの信号を取得し、両信号に基づき雑音を抑圧するフィルタを適応的に生成する手法がある。適応的にフィルタを演算・生成する手法(適応アルゴリズム)としては、例えばＬＭＳ(Least Mean Square：最小二乗平均)法などがある。本手法によれば、雑音成分抑圧するフィルタが適応的に生成されるが、十分な雑音抑圧性能を得ることができないという問題がある。また、雑音のみを入力するためのマイクロフォンが必要になるため、システムのコストや小型化といった点で問題があった。
【０００７】
また、複数のマイクロフォンから構成されるマイクロフォンアレーを用い、観測された信号だけを用いて源信号を同定し、分離・抽出する技術としてＢＳＳ(Blind Source Separation：ブラインド音源分離)という手法が知られている（上記非特許文献１参照）。
【０００８】
しかしながら、本手法は、計算量が多く、音声認識処理や、ハンドフリー電話装置など、リアルタイムの処理が必要な機器と組み合わせて使う場合に、負荷が大きいという問題があった。
【０００９】
車両の雑音環境を考えた場合、車両が一定速度で走行している状況や、空調機が同じ風量で一定時間動作している状況などが多分に考えられ、この状況下では、雑音成分はある範囲内で変位するものと考えられる。また、使用者音声に関して考えた場合、特定の車両の使用者は数人程度に限定されることが多く、従って音声の成分も特定の範囲内で変位するものと考えられる。したがって、想定される雑音や音声に対して、予め生成したフィルタを適用する構成とし、各種車室内音環境の判断に基づいて必要な時のみフィルタを適応更新することにより、同等の性能を確保することが可能であると考える。
【００１０】
本手法は、上記問題を鑑みてなされたものであり、本発明の目的は、入力される音声信号に含まれる雑音成分を抑圧するようにフィルタを適用する音声入力装置を、省負荷、省コストで実現することにある。
【課題を解決するための手段】
【００１１】
音入力部と、該音入力部から入力された入力音から音環境を監視する音環境監視部と、該音環境監視部から得られた情報に基づいて、音環境に適合する標準フィルタが決定できる場合には、その標準フィルタをフィルタ部の内容とするフィルタ選択手段と、そのような標準フィルタが決定できない場合には、一時フィルタを生成してフィルタ部の内容とする一時フィルタ生成手段と、該一時フィルタを記憶する一時記憶部とを構成要素とする音声入力装置を構成する。
【発明の効果】
【００１２】
本発明の実施によって、音環境に適合する標準フィルタが決定できる場合には、その標準フィルタをフィルタ部の内容とし、そのような標準フィルタが決定できない場合には、一時フィルタを生成してフィルタ部の内容とすることにより、入力される音声信号に含まれる雑音成分を抑圧するようにフィルタを適用する音声入力装置を、省負荷、省コストで実現することが可能となる。
【発明を実施するための最良の形態】
【００１３】
以下に、本発明を実施するための最良の形態を実施形態例によって説明する。
【００１４】
［第１実施形態］
本実施形態は、本発明の基本的な実施形態である。
【００１５】
図１にその基本的な構成例を示す。尚、図１の矢印(a)は入力信号を、矢印(b)は出力信号を示す。
【００１６】
本実施形態は、図１に示すように、音入力部101、音環境監視部102、標準記憶部103、一時記憶部104、フィルタ制御部105、フィルタ部106から構成される。
【００１７】
音入力部101は音信号を取得する１つ以上の音入力手段を有し、フィルタ部106は音入力部101から取得された入力音から雑音成分を除去し、音環境監視部102は入力音から音声区間と非音声区間とを判定する音声区間判定手段1021と、雑音成分情報を監視し取得する雑音成分監視手段1022と、目的信号情報を監視し取得する目的信号監視手段1023とから構成され、標準記憶部103は少なくとも１つ以上の標準音環境および該標準音環境に対応する標準フィルタを記憶し、フィルタ制御部105は、音環境監視部102から得られた情報に基づいて、音環境に適合する、標準記憶部103に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択してフィルタ部106の内容とするフィルタ選択手段1051と、該音環境に適合する標準音環境が決定できない場合に、一時フィルタを生成してフィルタ部106の内容とする一時フィルタ生成手段1052とから構成され、一時記憶部104は該一時フィルタを記憶する。
【００１８】
音環境監視部102から得られた情報は、例えば、前記音入力手段に入力された音から得られる情報、車速に関する情報、空調機の動作に関する情報、窓の開閉に関する情報、座席の位置に関する情報、乗員に関する情報、車両本体に関する情報、車内外に設置されたセンサ、カメラにより得られる情報、タイヤに関する情報、車室内に設置された操作対象機器に関する情報などである。
【００１９】
一時記憶部104は、必要に応じて、音入力部101から取得された音信号における雑音成分が目的信号に対して無視できる場合は、該音信号を目的信号として記憶することを行い、フィルタ制御部105は、必要に応じて、時刻t1の一時フィルタを、時刻t1よりも前の時刻t0に記憶された目的信号０と時刻t1に観測された雑音成分とを用いて生成された擬似観測信号と、該目的信号０とを用いて生成することを行うものとする。
【００２０】
上記の構成によって、観測された現在の音環境に適したフィルタを得ることができ、適切に雑音を抑圧した音声信号を得ることができる。また、複数目的信号と観測信号が同時に得られない場合においても、音環境を擬似的に再現することができる上、使用話者に適した擬似信号を生成することができるため、音環境に適したフィルタを得ることができ、適切に雑音を抑圧した音声信号を得ることができる。
【００２１】
＜基本機能と実現手段＞
各部の基本的な機能と具体的な実現手段について、図２を用いて説明する。
【００２２】
音入力部101は使用者の発話音声および車両に発生する雑音を入力(図１の矢印(a))するものであり、例えばマイクロフォン(図２の201)とＡＤ変換部(図２の202)を組み合わせることで実現される。尚、本実施形態では、マイクロフォンを１つ以上具備している場合について述べるが、実現手段はこれに限定されるものではない。
【００２３】
音環境監視部102は、前記音入力部101から得られた入力音中の
音声区間を検出する音声区間判定手段1021と、
雑音に関する情報を監視する雑音成分監視手段1022と、
音声に関する情報を監視する目的信号監視手段1023と、
から構成され、
現在の車室内の音環境を判定するものであり、演算装置(図２の203)および記憶装置(図２の204)を組み合わせることで実現される。
【００２４】
標準記憶部103は、予め車両室内で想定する雑音成分および目的信号に関する情報である標準雑音成分情報および標準目的信号情報と、該情報によって定義された音環境下で雑音を抑圧するフィルタである標準フィルタを記憶するものであり、記憶装置(図２の204)を組み合わせることで実現される。このようにして、標準記憶部103は、雑音成分に関する情報を含む標準雑音成分情報と、目的信号に関する情報を含む標準目的信号情報と、該標準雑音成分情報および標準目的信号情報によって定義された音環境下で雑音を抑圧する標準フィルタとのうちの少なくとも１つ以上を含む少なくとも１つ以上の組を保持する音声入力装置を構成することができる。
【００２５】
一時記憶部104は、後述のフィルタ制御部105の一時フィルタ生成手段1052にて生成された一時フィルタを、該一時フィルタ生成時の一時音環境情報とともに記憶するものであり、記憶装置(図２の204)を組み合わせることで実現される。このようにして、一時記憶部104は、フィルタ制御部105が作成した一時フィルタと、フィルタ制御部105がフィルタ作成時に参照した雑音成分情報および目的信号情報とのうちの少なくとも１つ以上記憶する音声入力装置を構成することができる。
【００２６】
フィルタ制御部105は、音環境監視部102から得られた情報について、適合する標準記憶部103に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択するフィルタ選択手段1051と、
音環境監視部102から得られた情報について、標準記憶部103に記憶されている標準音環境が適合しない場合に、現在の音環境に適合するフィルタを一時フィルタとして新たに生成する一時フィルタ生成手段1052と、
から構成されるものであり、演算装置(図２の203)および記憶装置(図２の204)を組み合わせることで実現される。
【００２７】
フィルタ部106は、音環境監視部102の音声区間判定手段1021が音声区間を検出した際に、フィルタ制御部105が選択もしくは生成したフィルタを適用して、入力音声に対して雑音抑圧処理を行うものであり、演算装置(図２の203)および記憶装置(図２の204)を組み合わせることで実現される。
【００２８】
＜各部のより具体的な説明＞
上述の各構成のより具体的な構成を示す。
【００２９】
（音環境監視部）
音環境監視部102の音声区間判定手段1021は、例えば入力音のパワースペクトルを観測する方法や、ピッチ周波数やスペクトル包絡情報の時系列データをマッチングする方法などを用いることで、入力音中に使用話者の音声が含まれることを検出すると共に、該音声が含まれる区間(音声区間)を抽出する機能を備える。更に、図示しないＰＴＴ(Push to talk)スイッチ手段を追加して音声の開始位置を決定する手法や、撮像手段を用いて乗員の口の動きなどを監視し、音声の有無および音声区間、更には使用話者であるか否かについて決定する手法を取ることもできる。
【００３０】
音環境監視部102の雑音成分監視手段1022は、車室内の話者の雑音に関する情報を監視するものであり、監視情報としては、たとえば音入力部101から得られた雑音成分や、車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報、車室外カメラの車両周辺撮像情報などとすることができる。
―雑音成分および他のセンシング情報から雑音環境判定―
具体的な監視情報としては、例えば、
・使用話者以外の話者音声
・車両本体情報(エンジン種類、ボディ形状、車室内容量、タイヤ種類など)
・車速
・空調機の動作
・窓の開閉
・座席の位置
・乗員(着座位置や動作など)
・天候や路面状態・路面種類
などが考えられる。ここで、雑音成分については、音声区間判定手段1021が使用話者の音声を検出していないと判断している区間の入力音を雑音と判断して抽出、監視するのが好ましい。
【００３１】
本実施形態では、
１．車速区分、２．空調機レベル、３．窓開閉に関する情報を監視し、雑音成分情報として抽出するものとする。ただし、これは後述の標準記憶部103において、標準雑音成分を１、２、３のデータ組の分類として記憶させていることが前提となる。
【００３２】
更に雑音成分監視手段1022は、取得した雑音成分の実データも、現在雑音成分として取得するものとする(一次フィルタ生成時に必要)。ただし、後述の第２実施形態では、雑音成分監視手段1022は雑音成分を抽出するものとし、標準記憶部103は雑音成分自体の分類として記憶させていることを前提とした場合を記載する。
【００３３】
音環境監視部102の目的信号監視手段1023は、車室内の機器使用話者の音声に関する情報を監視するものであり、その情報は、例えば使用者の音声信号や、車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報との組み合わせから抽出する。具体的な監視情報の内容としては、例えば、
・入力音声に基づく話者音声の声質に関する情報
・話者の識別に基づく話者音声の声質に関する情報
などが考えられる。ちなみに、前者は入力音声そのものに基づき声質情報を抽出することであり、後者は使用者声質と使用者識別情報(映像など)を対応させて保存する構成とし、使用者識別結果に基づいて声質情報を抽出することを意味する。声質の情報としては、例えばケプストラムやデルタケプストラム、音声パワー、基本周波数、イントネーションなどを分析し、決定することが考えられる。ただし、音声区間判定手段1021が使用話者の音声を検出したと判定している区間の入力音を処理対象とすることが好ましい。この場合、使用話者の音声が検出されていない期間に関しては、前回の監視結果を継続するなどとする。本実施形態では、該分析処理により、男性寄りの声質であるか女性寄りの声質であるかの情報すなわち性別情報を抽出するものとする。ただし、これは後述の標準記憶部103において、標準目的信号を男性、女性の分類として記憶させていることが前提となる。
【００３４】
（標準記憶部）
標準記憶部103は、音環境監視部102の雑音成分監視手段1022が収集する雑音成分に関する情報を有する１．標準雑音成分情報、および目的目的信号監視手段1023が収集する目的信号に関する情報である２．標準目的信号情報、該標準雑音成分情報および標準目的信号情報によって定義された音環境下で効率的に雑音を抑圧できる標準フィルタである３．標準フィルタとを予め記憶しておくものである。各データは、想定される音環境に応じて複数組保持することが好ましく、想定する音環境は、その車両の使用形態などにより、発生する頻度が多いものから選択する。
【００３５】
以下に１．２．３の各情報の導出について具体的に述べる。
【００３６】
１．標準雑音成分情報
標準信号情報は、雑音成分監視手段1022の抽出する雑音成分情報のうち、検出頻度が高いと予想されるものを予め記憶するものであり、その導出過程は、例えば車室内雑音を多数収集し、雑音成分の成分に基づきクラスタ分析などを行い、所定数のグループに分類して、代表(重心)となる雑音を複数導くものとする。この時、
車速区分、空調機レベル、窓開閉情報といった車両信号を対応させて分類することで、雑音成分の分類を、該車両信号の分類に置き換えることができる(置き換えない場合は第２実施形態)。
例えば導出された分類は以下のようになる。
【００３７】
雑音分類車速区分空調機レベル窓開閉情報
N1: 時速＝0〜10ｋｍ空調機レベル＝OFF 窓全閉
N2: 時速＝10〜30ｋｍ空調機レベル＝１
窓全閉など
標準雑音成分情報は、これら得られた情報から標準記憶部103の容量などに基づき、検出頻度が高いと予想される雑音情報に対応するものを標準雑音情報として決定する。
【００３８】
本実施形態では、窓開閉情報について、全閉の場合が複数選択され、何れかの窓が空いている場合の雑音は頻度が少ないなどの理由から選択されなかったと仮定する。よって窓が空いている状態のフィルタは用意されないため、一時フィルタで対処することになる。
【００３９】
２．標準目的信号情報
標準目的信号情報は、目的信号監視手段1023の抽出する目的信号情報に対応する複数の目的信号情報である。
その導出過程は、雑音成分情報の導出と同様、複数の目的信号を収集し、それを信号の性質(＝声質)に基づき複数に分類し、代表となる目的信号を標準目的信号とする。ここでは、男性音声と女性音声の2種類に分類することとした。
【００４０】
例えば導出された分類は以下のようになる。
【００４１】
目的信号分類性別
V0: 男性女性(全般)
V1: 男性
V2: 女性
もちろん、多様な音声を収録し、これを例えばケプストラムやデルタケプストラム、音声パワー、基本周波数、イントネーションなどに基づきクラスタ分析などを行い、更に細分化して分類・記憶することも考えられる。
【００４２】
尚、例中のV0 は、前記目的信号監視手段1023が使用話者の声質が男性・女性どちらに属するか判定するまでに一時的に用いられる標準音声情報として用意した。後述のフィルタ選択手段1051では、話者音声が検出される以前や、雑音が大きいなどで、検出音声から声質が判定できない場合などには、V0に属する音声であると判定する。
【００４３】
また、本実施形態の標準目的信号情報は、上記各分類に対して、音声信号の実データも同時に記憶する構成とした。これは、後述する一時フィルタ生成部において、目的信号および擬似観測信号を生成するために必要なデータである。１チャネルマイクロフォンによる構成の場合など、目的信号と観測信号が同時に得られない場合に利用する。従って、目的信号の観測信号が同時に取得できる構成の場合、該実データは必須ではない。
【００４４】
音声の実データは、各分類(V0:男性女性、V1:男性、V2女性)の特徴を平均的に持つデータであることが好ましい。具体的には、各分類に属する音声を加算平均した音声信号として生成するなどが考えられる。この信号は、ＨＳＬＮ(Human Speech Like Noise)とも呼ばれ、その性質などについては、上記非特許文献２に詳しい。
【００４５】
以降、該音声信号の実データを標準目的信号と表記する。
【００４６】
上記を踏まえ、標準目的信号情報は、
目的信号分類性別標準目的信号
V0: 男性女性(全般) 男性女性平均音声(HSLN)(V_０)
V1: 男性男性平均音声(V_１)
V2: 女性女性平均音声(V_２)
となる。
【００４７】
３．標準フィルタ
標準フィルタは、前記標準雑音成分情報および標準目的信号情報の組み合わせから定義される車室内の音環境にて、雑音成分を抑圧し目的信号を強調するフィルタであり、具体的には、前記標準雑音情報を選択した際の各分類の雑音成分実データおよび、標準目的信号情報の標準目的信号を用いて車室内音環境をシミュレートし、該環境で雑音を抑圧するようにフィルタを適応的に生成させる。
【００４８】
従って、標準フィルタは、選択した標準雑音成分情報の種類と、標準目的信号情報の種類との組み合わせ分生成し、記憶することとなる。
【００４９】
（標準フィルタ生成手順例）
標準フィルタ生成処理の一例についてブロック図３を用いて説明する。尚、本例は１チャネルマイクロフォン構成システムとした時の例であるが、複数チャネルの場合であれば、ＢＳＳ法などにより該音環境に適合する標準フィルタを生成することが可能である（後述の第３実施形態参照）。
【００５０】
先ず、図３に示したように、標準音声情報として想定する各種音声信号すなわち上述の標準目的信号(図３のa)および標準雑音情報として選択した雑音環境に対応する雑音実データ(ここでは標準雑音情報と表記)(図３のb)を用意する。
【００５１】
前記標準目的信号(a)を目的信号d(k)（k：時刻)として入力し、該標準目的信号(a)と標準雑音成分(b)を加算器401にて加算した信号を擬似観測信号x(k)として生成し入力する。この２信号を用いて適応処理を行う。適応処理では入力信号x(k)をフィルタW(k)でフィルタリング処理した出力信号y(k)と、目的信号d(x)とから誤差信号e(k)を生成し(加算器403)、この誤差信号e(k)が小さくなるようにフィルタ係数が自動的に更新されていく。適応処理アルゴリズムとしては、ＬＭＳ(最小平均二乗)法や、ＲＬＳ(再帰最小二乗)法などを用いることができる。この結果、各種音環境に対応した雑音抑圧フィルタが生成される。
【００５２】
（標準記憶部の記憶例）
標準記憶部103の記憶例を図４に示す。
【００５３】
標準雑音情報をＮｘ(ｘ=1,2,3,・・・)，標準目的信号情報をＶｙ(ｙ=0,1,2,・・・),標準フィルタFxy(ｘ、ｙは標準雑音情報と標準音声情報に対応)から構成される。この構成により、後述のフィルタ制御部105において、雑音成分監視手段1022と、目的信号監視手段1023の監視結果に基づき標準フィルタを参照することができる。（フィルタ制御部）
フィルタ制御部105は、音環境監視部102から得られた現在の音環境情報と、標準記憶部103の標準音環境情報に基づき、フィルタ選択処理および一時フィルタ生成処理を行う。
【００５４】
＜動作：フローチャート＞
フィルタ制御部105および一時記憶部104の具体的な構成と処理を図１０のフローチャートを用いて説明する。
【００５５】
ステップS1001では、音環境監視部102より現在の雑音成分情報および目的信号情報を取得する。
【００５６】
例えば、現在の音環境監視結果として、以下の2種類が得られた場合を考える。
例a)
雑音成分情報：
雑音成分＝Noise(Na)、車速区分＝10−30km/h、空調機レベル＝１、窓＝全閉
目的信号情報：男性
例b)
雑音成分情報：
雑音成分＝Noise(Nb)、車速区分＝10−30km/h、空調機レベル＝１、窓＝運転席窓開
目的信号情報：女性
尚、１チャネルマイクロフォンを用いる構成とする場合は、厳密には同時刻に目的信号および雑音成分を得ることは難しいため、前期音声区間判断手段が発話区間と判断した区間にて抽出した情報を目的信号情報とし、非発話区間と判断した区間にて抽出した情報を現在雑音成分とする。
【００５７】
ステップS1002では、標準記憶部103を参照し、標準雑音成分情報および標準目的信号情報を得る。例えば、標準記憶部103は、図４の内容の情報を記憶しているものとする。
【００５８】
ステップS1003では、現在雑音成分情報と標準雑音成分情報の照合、および現在目的信号情報と標準目的信号情報の照合を行い、照合結果によって、標準フィルタを選択するか、一時フィルタ生成処理を行うか否かを決定する。上に示した例の場合、
例a)の場合
標準雑音成分情報＝N5(車速区分：10−30km/h、空調機レベル：１、窓：全閉)
および
標準目的信号情報＝V1(男性)
が適合する。従って、標準記憶部103に適合する音環境が存在すると判断し、ステップS1004へ移行する。
【００５９】
一方、
例b)の場合
標準雑音成分情報＝適合なし（運転席窓開用のフィルタが標準フィルタに用意されていない）
標準目的信号情報＝V2(女性)
の結果が得られる。従って、標準記憶部103に適合する音環境が存在しないと判断し、ステップS1005へ移行する。
【００６０】
ステップS1004では、照合した結果合致した音環境に対応する標準フィルタを標準記憶部103から参照し、これを現在の音環境に対応するフィルタとして適用する。すなわち上記例a)の場合であれば、
標準雑音成分情報＝N5、標準目的信号情報＝V1と判断されたため、これに対応する標準フィルタ＝F51を標準記憶部103から選択する。
【００６１】
ステップS1005では、現在音声と、標準記憶部103に記憶された、適合する標準音声情報に対応する標準音声信号とを参照し、適応処理により一時フィルタを生成する。すなわち上記例b)の場合であれば、現在の雑音成分情報(Nb)および、標準目的信号情報＝V2に保持される女性平均音声(HSLN)を用いて一時フィルタ(ここではF_ｔb2と記す)を生成する。
【００６２】
（一時フィルタ生成手順１チャネル適応フィルタの場合）
この時の一時フィルタ生成手段1052の構成例と動作を図５を用いて説明する。
【００６３】
先ず、標準音声信号(a)を標準記憶部103から取得し、目的信号d(k)とする。
【００６４】
一方、現在雑音成分(b)を音入力部101から取得し、これに標準音声(a)を加算したものを擬似観測信号x(k)とする。目的信号と、入力信号を用いて、適応処理により一時フィルタFt(k)を得る。適応処理の詳細は前述した通りである。
【００６５】
ステップS1006では、生成した一時フィルタを、例えば生成時の標準音声情報および現在雑音情報と共に一時記憶部104に記憶する。前述の図５のブロック図で見た場合の矢印(a)、(c)、(d)が記憶する情報の流れに当たる。すなわち例b)の場合であれば、生成された一時フィルタFtおよび生成時の雑音成分情報Nb(車速区分＝10−30km/h、空調機レベル＝１、窓＝運転席窓：開)および生成時の標準目的信号情報V2(性別＝女性、標準目的信号女性平均音声(女性HSLN))を記憶する。
【００６６】
一時記憶部104の記憶例を図６に示す。
【００６７】
ここで一時音声情報は、標準記憶部103の対応する標準雑音情報と全く同じデータであるため、複製を生成保存する他、該データへのアドレス値などを保持するようにしても良い。
【００６８】
（一時フィルタ生成時の初期値を最類似フィルタから用いる）
尚、ステップS1005における一時フィルタ生成では、音環境が最も類似するフィルタを適応処理のフィルタ初期値として選択するようにすることが好ましい。
すなわち、上記の例b)の場合であれば、標準雑音＝N5、標準音声＝V2の場合のフィルタF51を最類似フィルタと判定し、このフィルタを初期値として与える。これにより、更新に必要な適応処理回数を削減することができ、処理負荷の軽減を計ることができる。
【００６９】
このように、フィルタ選択手段1051は、音環境監視部102が取得した雑音成分情報および目的信号情報に適合する情報が標準記憶部103に無い場合に、該雑音成分情報および目的信号情報に近い標準雑音成分情報および標準目的信号情報を決定し、標準雑音成分情報および標準目的信号情報に対応する標準フィルタを参照し、一時フィルタ生成手段1052は、該標準フィルタを初期値として、現在音環境に対応する雑音抑圧フィルタを生成し、一時フィルタとすることができる。
【００７０】
（一時フィルタも以降の照合処理に加えてフィルタ選択を行う）
また、上記処理により一旦一時フィルタが生成、記憶された場合には、以降のフィルタ制御部105の処理において、標準記憶部103と一時記憶部104双方を参照しながらフィルタ選択を行うことが好ましい。すなわち、音環境監視部102において得られ雑音成分情報および目的信号情報が一時記憶部104に記憶された一時雑音成分情報および標準目的信号情報に合致する場合は該一時フィルタを選択する。標準フィルタに加え、一時フィルタも選択候補に加えることで、一時フィルタが対応する音環境(雑音および音声)が継続して検出されている期間に渡り、該一時フィルタが選択される。
【００７１】
フィルタ部106は、前記音環境監視部102の音声区間判断手段が音声を検出した際に、フィルタ制御部105が選択或いは生成した標準フィルタ、一時フィルタ用いて、フィルタリング処理を施す。フィルタ部106によってフィルタリングされた音声信号は、例えば音声認識装置やハンドフリー電話へ送出される(図１の矢印(b))。
【００７２】
（処理のタイミングについて）
上述した音環境監視部102およびフィルタ制御部105の処理タイミングについては、例えば以下の３通りが考えられる。
【００７３】
(1)音声検出の有無にかかわらず常時或いは所定の間隔で音環境監視を行い、標準フィルタの選択および一時フィルタの生成を行う。
【００７４】
(2) 音声検出の有無にかかわらず常時或いは所定の間隔で音環境監視を行い、標準フィルタの選択を行う。ただし、一時フィルタの生成は、音声検出時においてのみ行う。
【００７５】
(3)音環境の監視、および標準フィルタの選択、および一時フィルタの生成を全て音声検出時においてのみ行う。
【００７６】
(1)の場合の処理タイミング例を図７に示す。
【００７７】
図７は、時間の経過によるフィルタ適用例を示したものであり、横軸が時間の経過を、縦軸に
(A) 目的信号情報(正確には現在目的信号情報と標準目的信号情報とを照合した後の、適合した標準目的信号情報(V0,V1,V 2のいずれか)を示す)
(B) 雑音差異(曲線)と閾値(点線)
(C) 雑音成分情報(正確には現在雑音成分情報と標準雑音成分情報とを照合した時の、適合した標準雑音成分情報(N1,N2,・・・)或いは適合しなかった場合の一時雑音情報(Na,Nb など)を示す)
(D) 一時フィルタ生成・適用区間
(E)最終的に適用されるフィルタ
を示している。各タイミングでの時刻をTx(x＝0,1,・・・)と示し、標準フィルタをF(x,y)（x:標準雑音成分情報、y:標準目的信号情報)と示し、一時フィルタをFt(z,y)（ｚ:一時雑音成分情報，ｙ:標準目的信号情報)と示している。
尚(C)の雑音成分情報は、対応する標準雑音成分情報が存在する場合には、該標準雑音成分情報システム開始時点T0では、目的信号監視手段1023から標準目的信号情報V1、雑音成分監視手段1022から標準雑音成分情報N1が監視結果として得られており、標準フィルタF(1,1)が選択されている。
【００７８】
区間T1〜T2において話者Aによる発話Va1を検出する。この時点で、話者音声に対応する標準目的信号情報はV1、現在雑音に対する標準雑音成分情報はN1という監視結果を得るが、これは発話以前(T0〜T1)の区間と変化がない。従って、既に選択済みの標準フィルタF(1,1)を用いてフィルタリング処理を行う。
【００７９】
区間T3〜T4においては、現在雑音に対応する標準雑音成分情報が存在しないと判定され、一時雑音Naと標準目的信号情報V1に基づき、一時フィルタFt(a,1)が適応的に生成され、適用される。ただし、実際にはこの区間内では発話が無いため、本一時フィルタが使用されることはない。
【００８０】
区間T4〜T7の区間では雑音成分に対応する標準雑音成分情報がN4と判定され、標準フィルタF(4,1)が選択される。この区間内のT5〜T6において話者Aによる発話Va2が検出されるが、該音環境に対応する標準フィルタは既に選択済みであるため、この標準フィルタを用いてフィルタリング処理を行う。
【００８１】
区間T7〜T8において、話者Bによる発話Vb1を検出し、目的信号監視結果として標準目的信号情報がV2と判定される。一方、標準雑信号音監視結果として、標準雑音成分情報がN4と継続して判定されている。よって、V2とN4に対応する標準フィルタF(4,2)が選択され、発話音声Vb1に対しフィルタリング処理を行う。このフィルタは以降音環境が変化するT9まで保持されつづける。
【００８２】
区間T9〜T12においては、現在雑音成分情報に対応する標準雑音成分情報が存在しないと判定され、一時雑音Nbと、このときの標準目的信号情報V2に基づき、一時フィルタFt(b,2)が生成・適用される。この区間内にあるT10〜T11において発話Vb2が検出されるが、対応するフィルタは一時フィルタFt(b,2)として既に(T9の時点で)生成済みであるので、このフィルタを用いて音声Vb2に対しフィルタリング処理を行う。
【００８３】
(2)の場合の処理タイミング例を図８に示す。
【００８４】
この場合、音環境監視処理およびフィルタ選択処理は(1)と同様に常時或いは所定の間隔毎に行われるため、雑音環境の変化に伴いフィルタが変更される。区間T3〜T4において、標準フィルタに対応しない雑音Naが検出される。しかし、この区間で音声が検出されなかったため、一時フィルタの生成を行わず、それまで選択していた標準フィルタF(1,1)の選択を継続する。同様に、時刻T9にて標準フィルタに対応しない雑音Nbが検出されるがこの時点では音声が検出されないため、標準フィルタF(4,2)を選択しつづける。そして、時刻T10にて音声が検出された時点で、一時フィルタFt(b,2)を生成し適用する。
【００８５】
(3)の場合の処理タイミング例を図９に示す。(1)(2)との比較のため、実時間の音声情報および雑音情報をそれぞれの直下に補足表記した。
【００８６】
この場合、照合処理、フィルタ選択処理、一時フィルタ生成処理を全て音声検出時に行う。すなわち、時刻T1、T5、T7、T10において処理を行うものとする。該時刻にて、それ以前と音環境が変化していなければ(＝現在の音環境に対応する標準フィルタが既に選択済みであれば)選択を継続する（例：区間T1〜T5)。一方、現在の音環境に変更があれば新規に標準フィルタを選択する（例：区間T5〜T7、T7〜T10)。更に、現在の音環境に適合する標準音環境情報が標準記憶部103に無いと判断された場合は、一時フィルタを生成して適用する（例：区間T10以降)。
【００８７】
上述した一連の処理により、フィルタ制御手段は、観測される雑音に対し、対応できるフィルタが存在する場合は適切なフィルタが選択されるため、フィルタの演算処理を軽減できる。さらに、対応するフィルタが存在しない場合でも、その音環境に適したフィルタを一時的に生成、適用することができるため、雑音抑圧効果を保つことができる。
【００８８】
［第２実施形態］
本実施形態は、第１実施形態と基本的な構成を共通とする。第１実施形態では音環境監視部102の雑音成分監視手段1022が入力音以外の情報(車速区分、空調機レベル、窓開閉情報)を組み合わせた情報として雑音成分情報を抽出し、標準記憶部103にはこれに対応する情報が記憶されていたのに対し、本実施形態では、入力雑音成分自体を用いて雑音成分情報を抽出する場合について述べる。
【００８９】
基本的構成が共通である為、以下には本実施例の特徴部分のみを述べる。
【００９０】
（音環境監視部）
音環境監視部102の雑音成分監視手段1022は、車室内の話者の雑音に関する情報を監視するものであり、本実施形態では雑音成分自体を用いて監視する。
【００９１】
したがって、抽出する情報は、
・雑音成分自体或いはそのスペクトル情報などとする。
ただしこの場合、音声区間判定手段1021連携し、音声区間判定手段1021が音声と判断した区間以外についての情報を雑音とみなすことが好ましい。
【００９２】
−標準記憶部−
標準記憶部103では、
１．標準雑音成分情報と、
２．標準目的信号情報と、
３．標準フィルタとを予め記憶する。
【００９３】
１．標準雑音成分情報
標準雑音情報は、前記雑音成分監視手段1022が監視する雑音成分に関する情報のうち、車両で多く検出が想定される情報とする。ここでは、そうした想定雑音環境に基づく雑音成分データ或いは雑音成分のスペクトルなどとする。本実施形態では、雑音成分実データを記憶するものとし、以降では該信号を標準雑音成分と記述する。
【００９４】
（標準雑音データの作成について）
想定する雑音環境に基づく雑音成分を決定・取得するためには、例えば車室内で想定される多様な雑音条件に基づく雑音成分を実際に収録し、各信号のスペクトルや特徴ベクトルに基づき複数のグループに分類するなどの手法を取る。例えばクラスタ分析などが好ましい。分類の後、各グループについての代表となる雑音を決定して標準雑音成分情報とする。この際、代表となる雑音は、分類した雑音の平均的なスペクトルを保持する信号であることが好ましい。また、この時の分類数は、保持する可能なフィル多数すなわちメモリの容量などに基づいて決定する。
【００９５】
図１１には雑音を４種類に分類した例を模式的に示す。図中の無数の点は、観測された信号の特徴ベクトルをベクトル空間上でプロットした例である。このデータを４種類に分類し、代表点となる雑音成分を、標準雑音成分N1、N2、N3、N4と定義し、これを標準雑音成分情報とする。
【００９６】
２．標準目的信号情報
第１実施形態同様、声質に関する情報および各声質毎の平均音声信号が記憶されているものとする。
例) ID: 性別情報標準目的信号
V0：男性女性、男性女性の平均音声信号
V1：男性、男性の平均音声信号
V2：女性、女性の平均音声信号
３．標準フィルタ
標準フィルタは、前記標準雑音情報および標準音声情報の組み合わせからなる車室内の音環境下で、雑音を抑圧し音声を強調するようにフィルタを適応的に生成させたものとして与える。
【００９７】
生成手法は第１実施形態と同様である。
【００９８】
以上の、３種類の標準データを記憶する標準記憶部103の記憶例を、図１２に示す。それぞれ、標準雑音情報をＮｘ(ｘ=1,2,3,・・・)、標準音声情報をＶｙ(ｙ=0,1,2,・・・・),標準フィルタFxy(ｘ,ｙは標準雑音情報と標準音声情報に対応)から構成される。この構成により、雑音成分監視手段1022と、目的信号監視手段1023の監視結果から標準フィルタを参照することができる。
【００９９】
（フィルタ制御部）
フィルタ制御部105は、音環境監視部102から得られた現在の音環境情報と、標準記憶部103の標準音環境情報に基づき、標準記憶部103から標準フィルタを選択する処理(フィルタ選択手段1051による)と、現在の音環境に対応する標準フィルタが無い場合に、一時フィルタを生成する処理(一時フィルタ生成手段1052による)とを行う。
【０１００】
先ず、フィルタ選択手段1051において、現在の雑音成分情報すなわち雑音成分或いはそのスペクトル情報などと、標準記憶部103の同情報との差異を比較し、最も差異の少ないものを現在雑音成分に最も類似する信号として選択する。
【０１０１】
一方、現在の目的信号情報に対応する標準目的信号情報を第１実施形態と同様の手法で決定する。
【０１０２】
（「差異」の意味と算出例）
上述の「差異」は、信号の類似性を判断する指標であり、算出例としては、音信号の音響特徴であるパワースペクトル係数や、線形予測係数、周波数毎のパワーなどをベクトル化したものの時系列データを用いて、
・ベクトル同士の距離
・ベクトル同士のなす角度の余弦値
などから算出することができる。
【０１０３】
続いて、現在雑音成分情報と標準雑音成分情報の差異に着目して一時フィルタの生成有無を判定する。
【０１０４】
すなわち、前述の手法で求めた差異が最小となった標準雑音に対し、該差異が所定の「閾値」を越えない場合は、フィルタ選択部にて最も類似する音環境に基づく標準フィルタを選択する。一方、閾値を越える場合は、フィルタ選択部に対応する標準フィルタが無いものと判定し、一時フィルタ生成手段1052にて一時フィルタの生成を行う。
【０１０５】
（閾値）
ここで、閾値は、現在雑音と参照雑音との差異をどこまで許容するか、すなわちどの程度類似性がある雑音を既存の標準フィルタで処理させるかを決定付ける値であり、既存フィルタが充分な雑音抑圧性能を維持する範囲を実験などから求めて適用することが望ましい。
【０１０６】
（フィルタ選択、一時フィルタ生成の動き(補足)）
一時フィルタ生成有無の判断について、図１３、１４を用いて具体的に説明する。
【０１０７】
図１３は、図１１に示した標準雑音の分類に対し、閾値を与えたものである。周囲を囲む曲線が閾値に相当する。この例では、閾値を一律で Th と設定している。いま、現在雑音が図１３の Na として観測されたとする。この時、Na との差異が最小となる標準雑音は N4 であり、差異は Da である。
【０１０８】
この時差異 Da は、Th＞Da となり閾値の範囲内にあるため、フィルタ選択手段1051により標準雑音成分情報Ｎ４および標準目的信号情報(例えばＶ１)に対応する標準フィルタＦ_４１が標準記憶部103から選択され、現在の音環境に対応するフィルタとして適用される。
【０１０９】
一方、図１４の例のように、現在雑音がＮｂに観測されたとする。この時差異はDbであり、差異が最小となる標準雑音はＮ４であるが、Db＜Th である。すなわち差異が閾値を超えるため、現在の雑音に対応する標準フィルタが存在しないと判断する。
【０１１０】
そこで、一時フィルタ生成手段1052による一時フィルタ生成処理に移行する。すなわち、標準目的信号情報(例えばＶ１)と現在雑音成分情報Ｎｂを用いて適応処理によりフィルタＦｔを生成する。
【０１１１】
（一時フィルタ生成時の初期値を最類似フィルタから用いる）
尚、一時フィルタ生成時には、音環境が最も類似するフィルタを適応処理のフィルタ初期値として選択するようにすることが好ましい。
【０１１２】
すなわち、上記の例の場合であれば、標準雑音成分情報＝Ｎ_４、標準目的信号情報＝Ｖ_１に対応する標準フィルタF41を最類似のフィルタと判定し、このフィルタを初期値として与える。これにより、更新に必要な適応処理回数を削減することができ、処理負荷の軽減を計ることができる。
【０１１３】
雑音の差異に応じてフィルタを変更する動きを図１５に示した。
【０１１４】
図１５は、時間の経過によるフィルタ適用例を示したものであり、横軸が時間の経過を、縦軸に
(A) 目的信号情報(正確には現在目的信号情報と標準目的信号情報とを照合した後の、適合した標準目的信号情報(V0,V1,V2いずれか)を示す)
(B) 雑音差異(曲線)と閾値(点線)
(C) 雑音成分情報(正確には現在雑音成分情報と標準雑音成分情報とを照合した時の、適合した標準雑音成分情報(N1,N2,・・・)或いは適合しなかった場合の一時雑音情報(Na,Nbなど)を示す)
(D) 一時フィルタ生成・適用区間
(E)最終的なフィルタ適用結果
を示している。
【０１１５】
各タイミングでの時刻をTx(x＝0,1,・・・)と示し、標準フィルタをF(x,y)（x:標準雑音成分情報、y:標準目的信号情報)と示し、一時フィルタをFt(z,y)（ｚ:一時雑音成分情報、ｙ:標準目的信号情報)と示している。
【０１１６】
図１５における(B)の差異を表す曲線は、雑音成分監視手段1022が選択した最類似の標準雑音成分と現在雑音成分との差異を示している。図によれば、この差異が時刻T1〜T2およびT4〜T5にかけて閾値を超えており、その時の雑音成分情報がそれぞれNb、Ncとして検出される。従って、それぞれの雑音成分情報(Nb,Nc)と、該区間での適合する標準目的信号情報(V1およびV2)に基づき、一時フィルタFt(b,1)、Ft(c,2)が生成される。その他の区間では、最類似の標準目的信号情報と標準雑音成分情報に基づく標準フィルタが選択されている。すなわち区間T0〜T1では標準目的信号情報＝V1、標準雑音成分情報＝N1に基づき標準フィルタF(1,1)が、同様にしてT2〜T4にてF(1,4)が、区間T3〜T4にてF(2,4)が、T5〜T6にてF(2,1)が選択される。
【０１１７】
一時記憶部104では、生成された一時フィルタFt、生成時の雑音成分情報(Nb、Ncなど)、生成時の標準目的信号情報(V1、V2など)を記憶する。
【０１１８】
（一時フィルタも以降の照合処理に加えてフィルタ選択を行う）
尚、一時フィルタが生成され、一時記憶部104に記憶された後のフィルタ制御部105の処理は、標準記憶部103と一時記憶部104双方を参照しながら行うことが好ましい。すなわち、雑音成分監視手段1022において、標準雑音に加えて一時雑音をも対象として最も類似する雑音を選択する構成とし、最も類似する雑音が該一時雑音であった場合は、該一時雑音について閾値と比較することで、新たな一時フィルタを生成するか、既存の一時フィルタを適用するかを判断する。この時の閾値は、標準雑音へ適用する閾値と同じでもよいし、別の値を与えてもよい。
【０１１９】
図１６は前述の図１４の例でＮｂが観測され、一時フィルタＦｔが生成された場合に、この時の雑音Ｎｂを一時雑音とし、閾値Ｔｈを与え、照合に用いる情況を示している。すなわち、標準雑音Ｎ１〜Ｎ４に加え、一時雑音Ｎｂについても、現在雑音との差異計算対象とすることで、Ｎｂに類似する雑音が継続して検出されている期間(＝Ｎｂから閾値の範囲内の雑音について) に渡り、目的信号情報に変化が無ければ(話者が同一など)、該一時フィルタ(Ft(b,1)，Ft(c,2))が継続して選択される。
【０１２０】
上述した一連の処理により、フィルタ制御手段は、観測される雑音に対し、対応できるフィルタが存在する場合は適切なフィルタが選択されるため、フィルタの演算処理を軽減できる。さらに、標準フィルタで十分な雑音抑圧性能が得られないと判断される場合は、その音環境に適したフィルタを暫定的に生成、適用することができるため、雑音抑圧効果を保つことができる。
【０１２１】
［第３実施形態］
本実施形態では、マイクロフォンを２チャネル以上用いる、マイクロフォンアレーを構成する場合について説明する。
【０１２２】
本実施形態の基本的構成は第１実施形態と共通であり、音入力部101、音環境監視部102、標準記憶部103、一時記憶部104、フィルタ制御部105、フィルタ部106から構成される。
【０１２３】
各機能も基本的な部分は共通である。以下には本実施形態の特徴部分について説明する。
【０１２４】
音環境監視部102の雑音成分監視手段1022は、車室内の雑音の到来方向に関する情報を監視するものであり、例えば車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報などとすることができる。これら情報を組み合わせることで、現在の雑音がどの方向から到来するものであるかを判定する。或いは入力音から雑音成分の到来方向を方位推定する手法をとっても良い。
【０１２５】
例えば、
・窓の開閉情報を用いて空いている窓の方向を雑音成分到来方向とする、
・空調機の風量レベルが所定以上の場合、空調機吹き出し口方向を雑音成分到来方向とする、
・ワイパーが動作している場合、ワイパー方向を雑音成分到来方向とする、
・二人以上乗車の際に、撮像手段から発話衝突を検出し、特定の一人の音声以外を雑音とみなし、当該方向を雑音成分到来方向とする、
などと判定できる。
【０１２６】
尚、発話衝突に関しては、目的音声の決定方法として、常に運転車を優先する、先に発話を開始した話者を優先する、特定のキーワードの発話や、特定の身体動作をした話者を優先する、あるいは予め使用者に優先話者を決定させるなどとすればよい。
【０１２７】
音環境監視部102の目的信号監視手段1023は、車室内の目的信号である目的話者音声の到来方向に関する情報を監視するものであり、監視情報としては、例えば車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報などとすることができる。これら情報を組み合わせることで、現在の入力音声がどの方向から到来するものであるかを判定する。或いは入力音から目的信号の到来方向を方位推定する手法をとっても良い。
【０１２８】
例えば、撮像手段による口の動きの検出から、運転席および助手席乗員のうち、どちらが音声入力を行っているかを判定し、当該口位置を目的信号到来方位と判定する。
【０１２９】
標準記憶部103では、音環境監視部102の目的信号監視手段1023が監視結果として得る情報を想定した１．標準音声情報、および雑音成分監視手段1022が監視結果として得る情報を想定した２．標準雑音情報、そしてこの音声環境と雑音環境の組み合わせからなる車室内音環境において、目的音声到来方向を収音方向とし、雑音到来方向雑音を抑圧方向とする音源分離フィルタである３．標準フィルタを予め記憶しておく。
【０１３０】
上記１、２、３の各データは、複数保持するようにすることが好ましい。
【０１３１】
尚、標準フィルタとしての音源分離フィルタは、上述のような想定する音環境すなわち目的信号と雑音成分が別の方向から到来する環境を実際に再現あるいは計算機上でシミュレートするなどして音信号データを取得し、ＢＳＳ(ブラインド音源分離)手法などによって該目的信号と雑音成分を分離するフィルタを生成することが好ましい。本フィルタは予め生成して保存するものであるので、生成時間などを考慮する必要は無い。従って、より精密な音源分離フィルタとして、標準フィルタを生成することができる。
【０１３２】
図１７に標準記憶部103の記憶例を示した。この例によれば、
標準雑音成分情報すなわち雑音の到来方向として、
N1: 助手席口方向、N2：運転席口方向、N3：運転席窓方向
などを想定している。また、
標準音声情報すなわち音声の到来方向として、
V1：運転席口方向、V2：助手席口方向などを想定している。
【０１３３】
そして、上記標準雑音情報および標準音声情報に基づく音環境に対応する音源分離フィルタを標準フィルタとして、それぞれF11,F22,F13,・・・のようにして保持する。
【０１３４】
フィルタ制御部105では、先ずフィルタ選択手段1051にて、前記雑音成分監視手段1022および目的信号監視手段1023から得られる雑音成分情報、目的信号情報と、標準記憶部103に記憶された標準雑音成分情報および標準目的信号情報とを比較・照合し、適合する到来方向を有する音環境が存在するかを判定する。
【０１３５】
適合する音環境がある場合は、当該音環境に対応する標準フィルタが選択され、無い場合は、一時フィルタ生成手段1052による一時フィルタ生成処理へと移行し、現在の雑音成分情報、目的信号情報を用いて、雑音成分到来方向を抑圧し、目的信号到来方向に指向性を向けるような音源分離フィルタが生成される。
【０１３６】
この時の一時フィルタ生成手法としては、上述のＢＳＳ法などの他、遅延和型、適応型アレーによるビームフォーミングなどを利用するようにしても良い。尚ＢＳＳなど、目的信号、雑音成分の到来方向を与えずとも自動的に到来方向を予測し適応できるアルゴリズムであっても、該雑音成分情報および目的信号情報として得られた到来方向に関する情報を基にしたビームフォーマとなるフィルタを初期値として教示するのが好ましい。これにより、安定かつ少ない処理で該到来方向に指向性或いは死角を持ったフィルタを生成することができる。
【０１３７】
一時記憶部104では、一時フィルタ生成処理で得られた一時フィルタを、生成時の目的信号情報および雑音成分情報と共に記憶する。第1実施形態同様、一旦一時フィルタが生成されて以降は、該一時フィルタも選択候補に加えることで、同じ環境が継続する場合に該一時フィルタを継続して適用することが可能となる。
【０１３８】
具体的なフィルタ制御部105の動作例を図１７、１８、１９を用いて説明する。図は、車両上面から車室内を見た状況であり、話者を囲む楕円領域がマイクロフォンの収音領域とする。この例では、死角制御型のフィルタを用いた場合を示した。尚、標準記憶部103には図１７の標準フィルタが記憶されているものとする。
【０１３９】
図１８の(a)は運転者と助手席話者の発話が衝突している場合である。音環境監視部102の目的信号監視手段1023は、運転者口方向を目的信号到来方向と判断しこれを目的信号情報とする。一方雑音成分監視手段1022は、助手席話者口方向を雑音成分到来方向と判断しこれを雑音成分情報とする。該目的信号情報および雑音成分情報と、標準記憶部103の標準目的信号情報および標準雑音成分情報とを照合し、適合する音環境があるかを判定する。この例の場合、標準記憶部103の標準雑音成分情報のN1(助手席口方向)、および標準目的信号情報：V1(運転席口方向)が現在音環境に適合し、結果として対応する標準フィルタF11が選択される。
【０１４０】
図１８の(b)は、運転者発話時に運転席の窓が空いている状況である。この場合も同様、音環境監視部102において目的音声到来方向を運転者口方向、雑音到来方向を運転者窓方向と判定され、当該音環境下での標準フィルタを照合した結果、F31が適合し選択される。この結果、助手席乗員の雑音が抑圧された入力音を取得することができる。
【０１４１】
一方、図１９は、運転者発話時に、助手席側後部座席に雑音を発生する話者が検出される状況を示している。音環境監視部102は、目的音声到来方向を運転者口方向、雑音到来方向を後部中央座席乗員口方向と判定する。しかしながら、一時記憶部104にはこの音環境に対応する標準フィルタが存在しない。従って、一時フィルタ生成手段1052における一時フィルタ生成処理に移行し、該音環境に対応する一時フィルタFa1が生成・適用される。この結果、助手席側後部座席の話者方向からの雑音が抑圧された入力音を取得することができる。
【０１４２】
上述した一連の処理により、フィルタ制御手段は、観測される目的音声到来方向および雑音到来方向に基づき、対応するフィルタが選択されるため、フィルタの演算処理を軽減できる。さらに、対応するフィルタが存在しない場合でも、その音環境に適したフィルタを暫定的に生成、適用することができるため、雑音抑圧効果を保つことができる。
【０１４３】
［第４実施形態］
本実施形態の基本的構成は、第1実施形態と共通であり、音入力部101、音環境監視部102、標準記憶部103、一時記憶部104、フィルタ制御部105、フィルタ部106から構成される。
【０１４４】
各構成成分共、基本的な部分は第１実施形態と共通である。以下には本実施形態の特徴部分について説明する。
【０１４５】
音環境監視部102の目的信号監視手段1023は、車室内の話者の音声に関する情報を監視するものであり、監視情報としては、たとえば話者の音声信号や、車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報などとすることができる。この音声監視情報によって、音声の周波数的特徴などを判定する。更に目的信号監視手段1023は、上記音声区間判定手段1021と連携し、音声を検出した区間において、Ｓ／Ｎが十分に大きいと判定された場合に、該音声を一時目的信号Vtとして一時記憶部104に記憶する機能も備える。
【０１４６】
尚、該一時目的信号は、使用者の音声が属する標準目的信号情報(図４のV1やV2など)に含まれる標準目的信号(男性HSLN、女性HSLNなど)を初期値とし、高Ｓ／Ｎ音声が観測される度に、該標準音声に使用者の音声を加算していく構成としてもよい。これにより高Ｓ／Ｎの使用者音声を観測するにつれ、より使用者の音声特徴成分に最適化された一時目的信号が形成されていく。
【０１４７】
或いは、男女を合わせた標準目的信号(V0:男女HSLN)などに使用者全員の音声を加算していく構成としても良い。これにより、その車両で音声入力を行う乗員複数名に最適化された一時目的信号が形成されていく。
【０１４８】
フィルタ制御部105は、音環境監視部102から得られた現在の音環境情報と、標準記憶部103の標準音環境情報に基づき、標準記憶部103から標準フィルタを選択する処理(フィルタ選択手段1051による)と、現在の音環境に対応する標準フィルタが無い場合に、一時フィルタを生成する処理(一時フィルタ生成手段1052による)とを行う。
【０１４９】
以下に図２０のフローチャートを用いてフィルタ制御の手順を示す。
【０１５０】
ステップＳ２００１では、音入力部101にて検出される現在の音信号を取得し、音環境監視部102へ送出する。
【０１５１】
ステップＳ２００２では、音環境監視部102によって、現在の目的信号情報および雑音成分情報を取得する。
【０１５２】
ステップＳ２００３では、標準記憶部103から、標準雑音成分情報および標準目的信号情報を参照する。
【０１５３】
ステップＳ２００４では、現在雑音成分情報と標準雑音成分情報の照合、および現在目的信号情報と標準目的信号情報の照合を行う。すなわち、現在雑音・音声情報に合致或いは最も類似する標準雑音成分情報および標準目的信号情報を決定する。
【０１５４】
ステップＳ２００５では、ステップＳ２００４での照合結果に従った分岐処理を行う。すなわち、ステップＳ２００４において、現在の雑音成分情報と標準雑音情報の照合結果に着目し、合致或いは所定の範囲内で類似するする標準雑音情報がある場合には、ステップＳ２００６のフィルタ選択処理に移行し、一方、合致しない、あるいは所定の範囲内で類似する標準雑音成分情報が無い場合には、ステップＳ１００７の一時フィルタ生成処理へ移行する。
【０１５５】
ステップＳ２００６では、該標準目的信号情報および標準雑音情報の組み合わせに対応する標準フィルタを標準フィルタから選択し、現在の音環境に対応するフィルタとして適用する。
【０１５６】
ステップＳ２００７では、一時記憶部104を参照し、目的音声情報に一時目的信号(すなわち、標準目的信号に高Ｓ／Ｎで取得された目的信号を加算した信号)が記憶済みであるか否かを判定する。一時音声がある場合はステップＳ２００８へ移行する。一方一時目的信号が存在しない場合はステップＳ２００９へ移行する。
【０１５７】
ステップＳ２００８では、該一時記憶部104の一時目的信号を目的信号とし、現在の雑音成分と一時音声信号とを加算した信号を擬似観測信号とし、適応処理により一時フィルタを生成する。
【０１５８】
ステップＳ２００９では、ステップＳ2004で決定した現在の目的信号情報に適合する標準目的信号情報に含まれる標準目的信号(図４の男性HSLNや女性HSLNなど)を目的信号とし、現在の雑音成分と該標準音声信号とを加算した信号を擬似観測信号とし、適応処理により一時フィルタを生成する。
【０１５９】
ステップＳ２０１０では、生成した一時フィルタを生成時の雑音情報および音声情報と共に一時記憶部104に記憶し、現在の音環境に対応するフィルタとして適用する。
【０１６０】
上述した一連の構成および処理手段により、第1実施形態と同様の効果が得られるのに加え、目標信号となる音声信号が徐々に使用者音声に最適化されていく為、一時フィルタ生成時には、より使用者音声に適合したフィルタを生成することが可能となる。
【図面の簡単な説明】
【０１６１】
【図１】第１実施形態の基本構成を示したブロック図である。
【図２】第１実施形態の具体的な実現手段を示したブロック図である。
【図３】第１実施形態の標準フィルタ生成処理を示したのブロック図である。
【図４】第１実施形態の標準記憶部の記憶例を示す図である。
【図５】第１実施形態の一時フィルタ生成手段の適応処理を示す図である。
【図６】第１実施形態の一時記憶部の記憶例を示す図である。
【図７】第１実施形態の監視、標準フィルタ選択タイミングを示した図(常時監視＆常時フィルタ選択＆一時フィルタ生成)を示す図である。
【図８】第１実施形態の監視、標準フィルタ選択タイミングを示した図(監視・選択は常時、ただし一時フィルタ生成は発話時のみ)を示す図である。
【図９】第１実施形態の監視、標準フィルタ選択タイミングを示す図(発話時のみ処理)を示す図である。
【図１０】第１実施形態のフィルタ選択処理を示す図である。
【図１１】第２実施形態の雑音の分類を示す図である。
【図１２】標準記憶部(第２実施形態)を示す図である。
【図１３】第２実施形態(雑音成分監視手段による最類似雑音の選択(閾値内))を示す図である。
【図１４】第２実施形態の雑音監視結果例(雑音成分監視手段による最類似雑音の選択(閾値内))を示す図である。
【図１５】第２実施形態の差異判定とフィルタ選択を示す図である。
【図１６】第２実施形態(雑音成分監視手段による最類似雑音の選択(一時フィルタをも照合対象に加える))を示す図である。
【図１７】標準記憶部(第３実施形態)を示す図である。
【図１８】第３実施形態(標準フィルタで対応する場合)を示す図である。
【図１９】第３実施形態(標準フィルタに対応するものがない場合(一時フィルタ))を示す図である。
【図２０】第４実施形態の具体的な動作例を示す図である。
【符号の説明】
【０１６２】
101…音入力部、102…音環境監視部、103…標準記憶部、、104…一時記憶部、105…フィルタ制御部、106…フィルタ部、201…マイクロフォン、202…ＡＤ変換部、203…演算装置、204…記憶装置、301…加算器、302…フィルタ、303…加算器、401…加算器、402…フィルタ、403…加算器、1021…音声区間判定手段、1022…雑音成分監視手段、1023…目的信号監視手段、1051…フィルタ選択手段、1052…一時フィルタ生成手段。

【特許請求の範囲】
【請求項１】
音信号を取得する１つ以上の音入力手段を有する音入力部と、該音入力部から取得された入力音から雑音成分を除去するフィルタ部とを有する音声入力装置において、
入力音から音声区間と非音声区間とを判定する音声区間判定手段と、雑音成分情報を監視し取得する雑音成分監視手段と、目的信号情報を監視し取得する目的信号監視手段とから構成される音環境監視部と、
少なくとも１つ以上の標準音環境および該標準音環境に対応する標準フィルタを記憶する標準記憶部と、
該音環境監視部から得られた情報に基づいて、音環境に適合する、該標準記憶部に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択して前記フィルタ部の内容とするフィルタ選択手段と、該音環境に適合する標準音環境が決定できない場合に、一時フィルタを生成して前記フィルタ部の内容とする一時フィルタ生成手段とから構成されるフィルタ制御部と、
該一時フィルタを記憶する一時記憶部と、
を有することを特徴とする音声入力装置。
【請求項２】
前記標準記憶部は、雑音成分に関する情報を含む標準雑音成分情報と、目的信号に関する情報を含む標準目的信号情報と、該標準雑音成分情報および標準目的信号情報によって定義された音環境下で雑音を抑圧する標準フィルタとのうちの少なくとも１つ以上を含む少なくとも１つ以上の組を保持することを特徴とする請求項１記載の音声入力装置。
【請求項３】
前記一時記憶部は、前記フィルタ制御部が作成した一時フィルタと、前記フィルタ制御部がフィルタ作成時に参照した雑音成分情報および目的信号情報とのうちの少なくとも１つ以上記憶することを特徴とする請求項１または２記載の音声入力装置。
【請求項４】
音信号を取得する２つ以上の音入力手段を有する音入力部と、該音入力部から取得された入力音から雑音成分を除去するフィルタ部とを有する音声入力装置において、
入力音から音声区間と非音声区間とを判定する音声区間判定手段と、目的信号の到来方向に関する情報を含む目的信号情報を監視し取得する目的信号監視手段と、雑音成分の到来方向に関する情報を含む雑音成分情報を監視し取得する雑音成分監視手段とからなる音環境監視部と、
少なくとも１つ以上の標準音環境および該標準音環境に対応する標準フィルタを記憶する標準記憶部と、
該音環境監視部から得られた情報に基づいて、音環境に適合する、該標準記憶部に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択して前記フィルタ部の内容とするフィルタ選択手段と、該音環境に適合する標準音環境が決定できない場合に、一時フィルタを生成して前記フィルタ部の内容とする一時フィルタ生成手段とから構成されるフィルタ制御部と、
該一時フィルタを記憶する一時記憶部と、
を有することを特徴とする音声入力装置。
【請求項５】
前記フィルタ選択手段は、前記音環境監視部が取得した雑音成分情報および目的信号情報に適合する情報が標準記憶部に無い場合に、該雑音成分情報および目的信号情報に近い標準雑音成分情報および標準目的信号情報を決定し、標準雑音成分情報および標準目的信号情報に対応する標準フィルタを参照し、
前記一時フィルタ生成手段は、該標準フィルタを初期値として、現在音環境に対応する雑音抑圧フィルタを生成し、一時フィルタとすることを特徴とする請求項１ないし４のいずれかに記載の音声入力装置。
【請求項６】
前記音環境監視部から得られた情報は、前記音入力手段に入力された音から得られる情報と、車速に関する情報と、空調機の動作に関する情報と、窓の開閉に関する情報と、座席の位置に関する情報と、乗員に関する情報と、車両本体に関する情報と、車内外に設置されたセンサ、カメラにより得られる情報と、タイヤに関する情報と、車室内に設置された操作対象機器に関する情報とのうちの少なくとも１つ以上を含むことを特徴とする請求項１ないし５のいずれかに記載の音声入力装置。
【請求項７】
前記一時記憶部は、前記音入力部から取得された時刻t0の音信号における雑音成分が目的信号に対して無視できる場合は、該音信号を目的信号０として記憶し、
前記フィルタ制御部は、時刻t1の一時フィルタを、時刻t0に記憶された目的信号０と時刻t1に観測された雑音成分とを用いて生成された擬似観測信号と、目的信号０とを用いて生成することを特徴とする請求項１ないし６のいずれかに記載の音声入力装置。

【図１】