説明

音声入力装置

【課題】入力される音声信号に含まれる雑音成分を抑圧するようにフィルタを適用する音声入力装置を、省負荷、省コストで実現すること。
【解決手段】音入力部101と、音入力部101から入力された入力音から音環境を監視する音環境監視部102と、音環境監視部102から得られた情報に基づいて、音環境に適合する標準フィルタが決定できる場合には、その標準フィルタをフィルタ部106の内容とするフィルタ選択手段1051と、そのような標準フィルタが決定できない場合には、一時フィルタを生成してフィルタ部106の内容とする一時フィルタ生成手段1052と、該一時フィルタを記憶する一時記憶部104とを構成要素とする音声入力装置を構成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声入力装置に関する。
【背景技術】
【0002】
近年、自動車において、ナビゲーション装置やオーディオ装置、空調機などの操作入力を音声でも行えるように音声認識装置を備えるものが提供されている。また、車室内で車両操作を行いながら電話を使用するために、ハンドフリー電話装置を備えるものも提供されている。こうした装置は、音声信号を取込むマイクロホンを備え、ユーザの発話音声を入力・処理するように構成されている。
【0003】
しかしながら、マイクロフォンには、音声信号のみならず、車両のエンジンや空調機の稼働音、或いは走行によって発生する風音、ロードノイズ、そして、車室内の空調機風、オーディオ装置音などの雑音が同時に入力されるため、音声認識の精度や、通話音声の明瞭性を高めるために、前記音声入力信号からノイズ成分を低減することが必要となってくる。
【0004】
【非特許文献1】「アレー信号処理を用いたブラインド音源分離の基礎」Technica1 report of IEICE,EA2001−7.
【非特許文献2】「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」、日本音響学会誌,1997,53,5,337-345.
【発明の開示】
【発明が解決しようとする課題】
【0005】
入力音に含まれるノイズ成分を低減するフィルタリング手法がいくつか提案されている。
【0006】
例えば、使用者の音声が収録できる位置に設置した音声用マイクロフォンと、該音声に混入する雑音と同じ雑音が観測できる位置に設置した雑音用マイクロフォンを用い、雑音混じりの音声信号と、雑音のみの信号を取得し、両信号に基づき雑音を抑圧するフィルタを適応的に生成する手法がある。適応的にフィルタを演算・生成する手法(適応アルゴリズム)としては、例えばLMS(Least Mean Square:最小二乗平均)法などがある。本手法によれば、雑音成分抑圧するフィルタが適応的に生成されるが、十分な雑音抑圧性能を得ることができないという問題がある。また、雑音のみを入力するためのマイクロフォンが必要になるため、システムのコストや小型化といった点で問題があった。
【0007】
また、複数のマイクロフォンから構成されるマイクロフォンアレーを用い、観測された信号だけを用いて源信号を同定し、分離・抽出する技術としてBSS(Blind Source Separation:ブラインド音源分離)という手法が知られている(上記非特許文献1参照)。
【0008】
しかしながら、本手法は、計算量が多く、音声認識処理や、ハンドフリー電話装置など、リアルタイムの処理が必要な機器と組み合わせて使う場合に、負荷が大きいという問題があった。
【0009】
車両の雑音環境を考えた場合、車両が一定速度で走行している状況や、空調機が同じ風量で一定時間動作している状況などが多分に考えられ、この状況下では、雑音成分はある範囲内で変位するものと考えられる。また、使用者音声に関して考えた場合、特定の車両の使用者は数人程度に限定されることが多く、従って音声の成分も特定の範囲内で変位するものと考えられる。したがって、想定される雑音や音声に対して、予め生成したフィルタを適用する構成とし、各種車室内音環境の判断に基づいて必要な時のみフィルタを適応更新することにより、同等の性能を確保することが可能であると考える。
【0010】
本手法は、上記問題を鑑みてなされたものであり、本発明の目的は、入力される音声信号に含まれる雑音成分を抑圧するようにフィルタを適用する音声入力装置を、省負荷、省コストで実現することにある。
【課題を解決するための手段】
【0011】
音入力部と、該音入力部から入力された入力音から音環境を監視する音環境監視部と、該音環境監視部から得られた情報に基づいて、音環境に適合する標準フィルタが決定できる場合には、その標準フィルタをフィルタ部の内容とするフィルタ選択手段と、そのような標準フィルタが決定できない場合には、一時フィルタを生成してフィルタ部の内容とする一時フィルタ生成手段と、該一時フィルタを記憶する一時記憶部とを構成要素とする音声入力装置を構成する。
【発明の効果】
【0012】
本発明の実施によって、音環境に適合する標準フィルタが決定できる場合には、その標準フィルタをフィルタ部の内容とし、そのような標準フィルタが決定できない場合には、一時フィルタを生成してフィルタ部の内容とすることにより、入力される音声信号に含まれる雑音成分を抑圧するようにフィルタを適用する音声入力装置を、省負荷、省コストで実現することが可能となる。
【発明を実施するための最良の形態】
【0013】
以下に、本発明を実施するための最良の形態を実施形態例によって説明する。
【0014】
[第1実施形態]
本実施形態は、本発明の基本的な実施形態である。
【0015】
図1にその基本的な構成例を示す。尚、図1の矢印(a)は入力信号を、矢印(b)は出力信号を示す。
【0016】
本実施形態は、図1に示すように、音入力部101、音環境監視部102、標準記憶部103、一時記憶部104、フィルタ制御部105、フィルタ部106から構成される。
【0017】
音入力部101は音信号を取得する1つ以上の音入力手段を有し、フィルタ部106は音入力部101から取得された入力音から雑音成分を除去し、音環境監視部102は入力音から音声区間と非音声区間とを判定する音声区間判定手段1021と、雑音成分情報を監視し取得する雑音成分監視手段1022と、目的信号情報を監視し取得する目的信号監視手段1023とから構成され、標準記憶部103は少なくとも1つ以上の標準音環境および該標準音環境に対応する標準フィルタを記憶し、フィルタ制御部105は、音環境監視部102から得られた情報に基づいて、音環境に適合する、標準記憶部103に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択してフィルタ部106の内容とするフィルタ選択手段1051と、該音環境に適合する標準音環境が決定できない場合に、一時フィルタを生成してフィルタ部106の内容とする一時フィルタ生成手段1052とから構成され、一時記憶部104は該一時フィルタを記憶する。
【0018】
音環境監視部102から得られた情報は、例えば、前記音入力手段に入力された音から得られる情報、車速に関する情報、空調機の動作に関する情報、窓の開閉に関する情報、座席の位置に関する情報、乗員に関する情報、車両本体に関する情報、車内外に設置されたセンサ、カメラにより得られる情報、タイヤに関する情報、車室内に設置された操作対象機器に関する情報などである。
【0019】
一時記憶部104は、必要に応じて、音入力部101から取得された音信号における雑音成分が目的信号に対して無視できる場合は、該音信号を目的信号として記憶することを行い、フィルタ制御部105は、必要に応じて、時刻t1の一時フィルタを、時刻t1よりも前の時刻t0に記憶された目的信号0と時刻t1に観測された雑音成分とを用いて生成された擬似観測信号と、該目的信号0とを用いて生成することを行うものとする。
【0020】
上記の構成によって、観測された現在の音環境に適したフィルタを得ることができ、適切に雑音を抑圧した音声信号を得ることができる。また、複数目的信号と観測信号が同時に得られない場合においても、音環境を擬似的に再現することができる上、使用話者に適した擬似信号を生成することができるため、音環境に適したフィルタを得ることができ、適切に雑音を抑圧した音声信号を得ることができる。
【0021】
<基本機能と実現手段>
各部の基本的な機能と具体的な実現手段について、図2を用いて説明する。
【0022】
音入力部101は使用者の発話音声および車両に発生する雑音を入力(図1の矢印(a))するものであり、例えばマイクロフォン(図2の201)とAD変換部(図2の202)を組み合わせることで実現される。尚、本実施形態では、マイクロフォンを1つ以上具備している場合について述べるが、実現手段はこれに限定されるものではない。
【0023】
音環境監視部102は、前記音入力部101から得られた入力音中の
音声区間を検出する音声区間判定手段1021と、
雑音に関する情報を監視する雑音成分監視手段1022と、
音声に関する情報を監視する目的信号監視手段1023と、
から構成され、
現在の車室内の音環境を判定するものであり、演算装置(図2の203)および記憶装置(図2の204)を組み合わせることで実現される。
【0024】
標準記憶部103は、予め車両室内で想定する雑音成分および目的信号に関する情報である標準雑音成分情報および標準目的信号情報と、該情報によって定義された音環境下で雑音を抑圧するフィルタである標準フィルタを記憶するものであり、記憶装置(図2の204)を組み合わせることで実現される。このようにして、標準記憶部103は、雑音成分に関する情報を含む標準雑音成分情報と、目的信号に関する情報を含む標準目的信号情報と、該標準雑音成分情報および標準目的信号情報によって定義された音環境下で雑音を抑圧する標準フィルタとのうちの少なくとも1つ以上を含む少なくとも1つ以上の組を保持する音声入力装置を構成することができる。
【0025】
一時記憶部104は、後述のフィルタ制御部105の一時フィルタ生成手段1052にて生成された一時フィルタを、該一時フィルタ生成時の一時音環境情報とともに記憶するものであり、記憶装置(図2の204)を組み合わせることで実現される。このようにして、一時記憶部104は、フィルタ制御部105が作成した一時フィルタと、フィルタ制御部105がフィルタ作成時に参照した雑音成分情報および目的信号情報とのうちの少なくとも1つ以上記憶する音声入力装置を構成することができる。
【0026】
フィルタ制御部105は、音環境監視部102から得られた情報について、適合する標準記憶部103に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択するフィルタ選択手段1051と、
音環境監視部102から得られた情報について、標準記憶部103に記憶されている標準音環境が適合しない場合に、現在の音環境に適合するフィルタを一時フィルタとして新たに生成する一時フィルタ生成手段1052と、
から構成されるものであり、演算装置(図2の203)および記憶装置(図2の204)を組み合わせることで実現される。
【0027】
フィルタ部106は、音環境監視部102の音声区間判定手段1021が音声区間を検出した際に、フィルタ制御部105が選択もしくは生成したフィルタを適用して、入力音声に対して雑音抑圧処理を行うものであり、演算装置(図2の203)および記憶装置(図2の204)を組み合わせることで実現される。
【0028】
<各部のより具体的な説明>
上述の各構成のより具体的な構成を示す。
【0029】
(音環境監視部)
音環境監視部102の音声区間判定手段1021は、例えば入力音のパワースペクトルを観測する方法や、ピッチ周波数やスペクトル包絡情報の時系列データをマッチングする方法などを用いることで、入力音中に使用話者の音声が含まれることを検出すると共に、該音声が含まれる区間(音声区間)を抽出する機能を備える。更に、図示しないPTT(Push to talk)スイッチ手段を追加して音声の開始位置を決定する手法や、撮像手段を用いて乗員の口の動きなどを監視し、音声の有無および音声区間、更には使用話者であるか否かについて決定する手法を取ることもできる。
【0030】
音環境監視部102の雑音成分監視手段1022は、車室内の話者の雑音に関する情報を監視するものであり、監視情報としては、たとえば音入力部101から得られた雑音成分や、車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報、車室外カメラの車両周辺撮像情報などとすることができる。
―雑音成分および他のセンシング情報から雑音環境判定―
具体的な監視情報としては、例えば、
・ 使用話者以外の話者音声
・ 車両本体情報(エンジン種類、ボディ形状、車室内容量、タイヤ種類など)
・ 車速
・ 空調機の動作
・ 窓の開閉
・ 座席の位置
・ 乗員(着座位置や動作など)
・ 天候や路面状態・路面種類
などが考えられる。ここで、雑音成分については、音声区間判定手段1021が使用話者の音声を検出していないと判断している区間の入力音を雑音と判断して抽出、監視するのが好ましい。
【0031】
本実施形態では、
1.車速区分、2.空調機レベル、3.窓開閉に関する情報を監視し、雑音成分情報として抽出するものとする。ただし、これは後述の標準記憶部103において、標準雑音成分を1、2、3のデータ組の分類として記憶させていることが前提となる。
【0032】
更に雑音成分監視手段1022は、取得した雑音成分の実データも、現在雑音成分として取得するものとする(一次フィルタ生成時に必要)。ただし、後述の第2実施形態では、雑音成分監視手段1022は雑音成分を抽出するものとし、標準記憶部103は雑音成分自体の分類として記憶させていることを前提とした場合を記載する。
【0033】
音環境監視部102の目的信号監視手段1023は、車室内の機器使用話者の音声に関する情報を監視するものであり、その情報は、例えば使用者の音声信号や、車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報との組み合わせから抽出する。具体的な監視情報の内容としては、例えば、
・ 入力音声に基づく話者音声の声質に関する情報
・ 話者の識別に基づく話者音声の声質に関する情報
などが考えられる。ちなみに、前者は入力音声そのものに基づき声質情報を抽出することであり、後者は使用者声質と使用者識別情報(映像など)を対応させて保存する構成とし、使用者識別結果に基づいて声質情報を抽出することを意味する。 声質の情報としては、例えばケプストラムやデルタケプストラム、音声パワー、基本周波数、イントネーションなどを分析し、決定することが考えられる。ただし、音声区間判定手段1021が使用話者の音声を検出したと判定している区間の入力音を処理対象とすることが好ましい。この場合、使用話者の音声が検出されていない期間に関しては、前回の監視結果を継続するなどとする。本実施形態では、該分析処理により、男性寄りの声質であるか女性寄りの声質であるかの情報すなわち性別情報を抽出するものとする。ただし、これは後述の標準記憶部103において、標準目的信号を男性、女性の分類として記憶させていることが前提となる。
【0034】
(標準記憶部)
標準記憶部103は、音環境監視部102の雑音成分監視手段1022が収集する雑音成分に関する情報を有する1.標準雑音成分情報、および目的目的信号監視手段1023が収集する目的信号に関する情報である2.標準目的信号情報、該標準雑音成分情報および標準目的信号情報によって定義された音環境下で効率的に雑音を抑圧できる標準フィルタである3.標準フィルタとを予め記憶しておくものである。各データは、想定される音環境に応じて複数組保持することが好ましく、想定する音環境は、その車両の使用形態などにより、発生する頻度が多いものから選択する。
【0035】
以下に1.2.3の各情報の導出について具体的に述べる。
【0036】
1.標準雑音成分情報
標準信号情報は、雑音成分監視手段1022の抽出する雑音成分情報のうち、検出頻度が高いと予想されるものを予め記憶するものであり、その導出過程は、例えば車室内雑音を多数収集し、雑音成分の成分に基づきクラスタ分析などを行い、所定数のグループに分類して、代表(重心)となる雑音を複数導くものとする。この時、
車速区分、空調機レベル、窓開閉情報といった車両信号を対応させて分類することで、雑音成分の分類を、該車両信号の分類に置き換えることができる(置き換えない場合は第2実施形態)。
例えば導出された分類は以下のようになる。
【0037】
雑音分類 車速区分 空調機レベル 窓開閉情報
N1: 時速=0〜10km 空調機レベル=OFF 窓全閉
N2: 時速=10〜30km 空調機レベル=1
窓全閉 など
標準雑音成分情報は、これら得られた情報から標準記憶部103の容量などに基づき、検出頻度が高いと予想される雑音情報に対応するものを標準雑音情報として決定する。
【0038】
本実施形態では、窓開閉情報について、全閉の場合が複数選択され、何れかの窓が空いている場合の雑音は頻度が少ないなどの理由から選択されなかったと仮定する。よって窓が空いている状態のフィルタは用意されないため、一時フィルタで対処することになる。
【0039】
2.標準目的信号情報
標準目的信号情報は、目的信号監視手段1023の抽出する目的信号情報に対応する複数の目的信号情報である。
その導出過程は、雑音成分情報の導出と同様、複数の目的信号を収集し、それを信号の性質(=声質)に基づき複数に分類し、代表となる目的信号を標準目的信号とする。ここでは、男性音声と女性音声の2種類に分類することとした。
【0040】
例えば導出された分類は以下のようになる。
【0041】
目的信号分類 性別
V0: 男性女性(全般)
V1: 男性
V2: 女性
もちろん、多様な音声を収録し、これを例えばケプストラムやデルタケプストラム、音声パワー、基本周波数、イントネーションなどに基づきクラスタ分析などを行い、更に細分化して分類・記憶することも考えられる。
【0042】
尚、例中のV0 は、前記目的信号監視手段1023が使用話者の声質が男性・女性どちらに属するか判定するまでに一時的に用いられる標準音声情報として用意した。後述のフィルタ選択手段1051では、話者音声が検出される以前や、雑音が大きいなどで、検出音声から声質が判定できない場合などには、V0に属する音声であると判定する。
【0043】
また、本実施形態の標準目的信号情報は、上記各分類に対して、音声信号の実データも同時に記憶する構成とした。これは、後述する一時フィルタ生成部において、目的信号および擬似観測信号を生成するために必要なデータである。1チャネルマイクロフォンによる構成の場合など、目的信号と観測信号が同時に得られない場合に利用する。従って、目的信号の観測信号が同時に取得できる構成の場合、該実データは必須ではない。
【0044】
音声の実データは、各分類(V0:男性女性、V1:男性、V2女性)の特徴を平均的に持つデータであることが好ましい。具体的には、各分類に属する音声を加算平均した音声信号として生成するなどが考えられる。この信号は、HSLN(Human Speech Like Noise)とも呼ばれ、その性質などについては、上記非特許文献2に詳しい。
【0045】
以降、該音声信号の実データを標準目的信号と表記する。
【0046】
上記を踏まえ、標準目的信号情報は、
目的信号分類 性別 標準目的信号
V0: 男性女性(全般) 男性女性平均音声(HSLN)(V)
V1: 男性 男性平均音声(V)
V2: 女性 女性平均音声(V)
となる。
【0047】
3.標準フィルタ
標準フィルタは、前記標準雑音成分情報および標準目的信号情報の組み合わせから定義される車室内の音環境にて、雑音成分を抑圧し目的信号を強調するフィルタであり、具体的には、前記標準雑音情報を選択した際の各分類の雑音成分実データおよび、標準目的信号情報の標準目的信号を用いて車室内音環境をシミュレートし、該環境で雑音を抑圧するようにフィルタを適応的に生成させる。
【0048】
従って、標準フィルタは、選択した標準雑音成分情報の種類と、標準目的信号情報の種類との組み合わせ分生成し、記憶することとなる。
【0049】
(標準フィルタ生成手順例)
標準フィルタ生成処理の一例についてブロック図3を用いて説明する。尚、本例は1チャネルマイクロフォン構成システムとした時の例であるが、複数チャネルの場合であれば、BSS法などにより該音環境に適合する標準フィルタを生成することが可能である(後述の第3実施形態参照)。
【0050】
先ず、図3に示したように、標準音声情報として想定する各種音声信号すなわち上述の標準目的信号(図3のa)および標準雑音情報として選択した雑音環境に対応する雑音実データ(ここでは標準雑音情報と表記)(図3のb)を用意する。
【0051】
前記標準目的信号(a)を目的信号d(k)(k:時刻)として入力し、該標準目的信号(a)と標準雑音成分(b)を加算器401にて加算した信号を擬似観測信号x(k)として生成し入力する。この2信号を用いて適応処理を行う。適応処理では入力信号x(k)をフィルタW(k)でフィルタリング処理した出力信号y(k)と、目的信号d(x)とから誤差信号e(k)を生成し(加算器403)、この誤差信号e(k)が小さくなるようにフィルタ係数が自動的に更新されていく。適応処理アルゴリズムとしては、LMS(最小平均二乗)法や、RLS(再帰最小二乗)法などを用いることができる。この結果、各種音環境に対応した雑音抑圧フィルタが生成される。
【0052】
(標準記憶部の記憶例)
標準記憶部103の記憶例を図4に示す。
【0053】
標準雑音情報をNx(x=1,2,3,・・・),標準目的信号情報をVy(y=0,1,2,・・・),標準フィルタFxy(x、yは標準雑音情報と標準音声情報に対応)から構成される。この構成により、後述のフィルタ制御部105において、雑音成分監視手段1022と、目的信号監視手段1023の監視結果に基づき標準フィルタを参照することができる。 (フィルタ制御部)
フィルタ制御部105は、音環境監視部102から得られた現在の音環境情報と、標準記憶部103の標準音環境情報に基づき、フィルタ選択処理および一時フィルタ生成処理を行う。
【0054】
<動作:フローチャート>
フィルタ制御部105および一時記憶部104の具体的な構成と処理を図10のフローチャートを用いて説明する。
【0055】
ステップS1001では、音環境監視部102より現在の雑音成分情報および目的信号情報を取得する。
【0056】
例えば、現在の音環境監視結果として、以下の2種類が得られた場合を考える。
例a)
雑音成分情報:
雑音成分=Noise(Na)、車速区分=10−30km/h、空調機レベル=1、窓=全閉
目的信号情報:男性
例b)
雑音成分情報:
雑音成分=Noise(Nb)、車速区分=10−30km/h、空調機レベル=1、窓=運転席窓開
目的信号情報:女性
尚、1チャネルマイクロフォンを用いる構成とする場合は、厳密には同時刻に目的信号および雑音成分を得ることは難しいため、前期音声区間判断手段が発話区間と判断した区間にて抽出した情報を目的信号情報とし、非発話区間と判断した区間にて抽出した情報を現在雑音成分とする。
【0057】
ステップS1002では、標準記憶部103を参照し、標準雑音成分情報および標準目的信号情報を得る。例えば、標準記憶部103は、図4の内容の情報を記憶しているものとする。
【0058】
ステップS1003では、現在雑音成分情報と標準雑音成分情報の照合、および現在目的信号情報と標準目的信号情報の照合を行い、照合結果によって、標準フィルタを選択するか、一時フィルタ生成処理を行うか否かを決定する。上に示した例の場合、
例a)の場合
標準雑音成分情報=N5(車速区分:10−30km/h、空調機レベル:1、窓:全閉)
および
標準目的信号情報=V1(男性)
が適合する。従って、標準記憶部103に適合する音環境が存在すると判断し、ステップS1004へ移行する。
【0059】
一方、
例b)の場合
標準雑音成分情報=適合なし(運転席窓開用のフィルタが標準フィルタに用意されていない)
標準目的信号情報=V2(女性)
の結果が得られる。従って、標準記憶部103に適合する音環境が存在しないと判断し、ステップS1005へ移行する。
【0060】
ステップS1004では、照合した結果合致した音環境に対応する標準フィルタを標準記憶部103から参照し、これを現在の音環境に対応するフィルタとして適用する。すなわち上記例a)の場合であれば、
標準雑音成分情報=N5、標準目的信号情報=V1と判断されたため、これに対応する標準フィルタ=F51を標準記憶部103から選択する。
【0061】
ステップS1005では、現在音声と、標準記憶部103に記憶された、適合する標準音声情報に対応する標準音声信号とを参照し、適応処理により一時フィルタを生成する。すなわち上記例b)の場合であれば、現在の雑音成分情報(Nb)および、標準目的信号情報=V2に保持される女性平均音声(HSLN)を用いて一時フィルタ(ここではFb2と記す)を生成する。
【0062】
(一時フィルタ生成手順 1チャネル適応フィルタの場合)
この時の一時フィルタ生成手段1052の構成例と動作を図5を用いて説明する。
【0063】
先ず、標準音声信号(a)を標準記憶部103から取得し、目的信号d(k)とする。
【0064】
一方、現在雑音成分(b)を音入力部101から取得し、これに標準音声(a)を加算したものを擬似観測信号x(k)とする。目的信号と、入力信号を用いて、適応処理により一時フィルタFt(k)を得る。適応処理の詳細は前述した通りである。
【0065】
ステップS1006では、生成した一時フィルタを、例えば生成時の標準音声情報および現在雑音情報と共に一時記憶部104に記憶する。前述の図5のブロック図で見た場合の矢印(a)、(c)、(d)が記憶する情報の流れに当たる。すなわち例b)の場合であれば、生成された一時フィルタFtおよび生成時の雑音成分情報Nb(車速区分=10−30km/h、空調機レベル=1、窓=運転席窓:開)および生成時の標準目的信号情報V2(性別=女性、標準目的信号 女性平均音声(女性HSLN))を記憶する。
【0066】
一時記憶部104の記憶例を図6に示す。
【0067】
ここで一時音声情報は、標準記憶部103の対応する標準雑音情報と全く同じデータであるため、複製を生成保存する他、該データへのアドレス値などを保持するようにしても良い。
【0068】
(一時フィルタ生成時の初期値を最類似フィルタから用いる)
尚、ステップS1005における一時フィルタ生成では、音環境が最も類似するフィルタを適応処理のフィルタ初期値として選択するようにすることが好ましい。
すなわち、上記の例b)の場合であれば、標準雑音=N5、標準音声=V2の場合のフィルタF51を最類似フィルタと判定し、このフィルタを初期値として与える。これにより、更新に必要な適応処理回数を削減することができ、処理負荷の軽減を計ることができる。
【0069】
このように、フィルタ選択手段1051は、音環境監視部102が取得した雑音成分情報および目的信号情報に適合する情報が標準記憶部103に無い場合に、該雑音成分情報および目的信号情報に近い標準雑音成分情報および標準目的信号情報を決定し、標準雑音成分情報および標準目的信号情報に対応する標準フィルタを参照し、一時フィルタ生成手段1052は、該標準フィルタを初期値として、現在音環境に対応する雑音抑圧フィルタを生成し、一時フィルタとすることができる。
【0070】
(一時フィルタも以降の照合処理に加えてフィルタ選択を行う)
また、上記処理により一旦一時フィルタが生成、記憶された場合には、以降のフィルタ制御部105の処理において、標準記憶部103と一時記憶部104双方を参照しながらフィルタ選択を行うことが好ましい。すなわち、音環境監視部102において得られ雑音成分情報および目的信号情報が一時記憶部104に記憶された一時雑音成分情報および標準目的信号情報に合致する場合は該一時フィルタを選択する。標準フィルタに加え、一時フィルタも選択候補に加えることで、一時フィルタが対応する音環境(雑音および音声)が継続して検出されている期間に渡り、該一時フィルタが選択される。
【0071】
フィルタ部106は、前記音環境監視部102の音声区間判断手段が音声を検出した際に、フィルタ制御部105が選択或いは生成した標準フィルタ、一時フィルタ用いて、フィルタリング処理を施す。フィルタ部106によってフィルタリングされた音声信号は、例えば音声認識装置やハンドフリー電話へ送出される(図1の矢印(b))。
【0072】
(処理のタイミングについて)
上述した音環境監視部102およびフィルタ制御部105の処理タイミングについては、例えば以下の3通りが考えられる。
【0073】
(1)音声検出の有無にかかわらず常時或いは所定の間隔で音環境監視を行い、標準フィルタの選択および一時フィルタの生成を行う。
【0074】
(2) 音声検出の有無にかかわらず常時或いは所定の間隔で音環境監視を行い、標準フィルタの選択を行う。ただし、一時フィルタの生成は、音声検出時においてのみ行う。
【0075】
(3)音環境の監視、および標準フィルタの選択、および一時フィルタの生成を全て音声検出時においてのみ行う。
【0076】
(1)の場合の処理タイミング例を図7に示す。
【0077】
図7は、時間の経過によるフィルタ適用例を示したものであり、横軸が時間の経過を、縦軸に
(A) 目的信号情報(正確には現在目的信号情報と標準目的信号情報とを照合した後の、適合した標準目的信号情報(V0,V1,V 2のいずれか)を示す)
(B) 雑音差異(曲線)と閾値(点線)
(C) 雑音成分情報(正確には現在雑音成分情報と標準雑音成分情報とを照合した時の、適合した標準雑音成分情報(N1,N2,・・・)或いは適合しなかった場合の一時雑音情報(Na,Nb など)を示す)
(D) 一時フィルタ生成・適用区間
(E)最終的に適用されるフィルタ
を示している。各タイミングでの時刻をTx(x=0,1,・・・)と示し、標準フィルタをF(x,y)(x:標準雑音成分情報、y:標準目的信号情報)と示し、一時フィルタをFt(z,y)(z:一時雑音成分情報,y:標準目的信号情報)と示している。
尚(C)の雑音成分情報は、対応する標準雑音成分情報が存在する場合には、該標準雑音成分情報システム開始時点T0では、目的信号監視手段1023から標準目的信号情報V1、雑音成分監視手段1022から標準雑音成分情報N1が監視結果として得られており、標準フィルタF(1,1)が選択されている。
【0078】
区間T1〜T2において話者Aによる発話Va1を検出する。この時点で、話者音声に対応する標準目的信号情報はV1、現在雑音に対する標準雑音成分情報はN1という監視結果を得るが、これは発話以前(T0〜T1)の区間と変化がない。従って、既に選択済みの標準フィルタF(1,1)を用いてフィルタリング処理を行う。
【0079】
区間T3〜T4においては、現在雑音に対応する標準雑音成分情報が存在しないと判定され、一時雑音Naと標準目的信号情報V1に基づき、一時フィルタFt(a,1)が適応的に生成され、適用される。ただし、実際にはこの区間内では発話が無いため、本一時フィルタが使用されることはない。
【0080】
区間T4〜T7の区間では雑音成分に対応する標準雑音成分情報がN4と判定され、標準フィルタF(4,1)が選択される。この区間内のT5〜T6において話者Aによる発話Va2が検出されるが、該音環境に対応する標準フィルタは既に選択済みであるため、この標準フィルタを用いてフィルタリング処理を行う。
【0081】
区間T7〜T8において、話者Bによる発話Vb1を検出し、目的信号監視結果として標準目的信号情報がV2と判定される。一方、標準雑信号音監視結果として、標準雑音成分情報がN4と継続して判定されている。よって、V2とN4に対応する標準フィルタF(4,2)が選択され、発話音声Vb1に対しフィルタリング処理を行う。このフィルタは以降音環境が変化するT9まで保持されつづける。
【0082】
区間T9〜T12においては、現在雑音成分情報に対応する標準雑音成分情報が存在しないと判定され、一時雑音Nbと、このときの標準目的信号情報V2に基づき、一時フィルタFt(b,2)が生成・適用される。この区間内にあるT10〜T11において発話Vb2が検出されるが、対応するフィルタは一時フィルタFt(b,2)として既に(T9の時点で)生成済みであるので、このフィルタを用いて音声Vb2に対しフィルタリング処理を行う。
【0083】
(2)の場合の処理タイミング例を図8に示す。
【0084】
この場合、音環境監視処理およびフィルタ選択処理は(1)と同様に常時或いは所定の間隔毎に行われるため、雑音環境の変化に伴いフィルタが変更される。区間T3〜T4において、標準フィルタに対応しない雑音Naが検出される。しかし、この区間で音声が検出されなかったため、一時フィルタの生成を行わず、それまで選択していた標準フィルタF(1,1)の選択を継続する。同様に、時刻T9にて標準フィルタに対応しない雑音Nbが検出されるがこの時点では音声が検出されないため、標準フィルタF(4,2)を選択しつづける。そして、時刻T10にて音声が検出された時点で、一時フィルタFt(b,2)を生成し適用する。
【0085】
(3)の場合の処理タイミング例を図9に示す。(1)(2)との比較のため、実時間の音声情報および雑音情報をそれぞれの直下に補足表記した。
【0086】
この場合、照合処理、フィルタ選択処理、一時フィルタ生成処理を全て音声検出時に行う。すなわち、時刻T1、T5、T7、T10において処理を行うものとする。該時刻にて、それ以前と音環境が変化していなければ(=現在の音環境に対応する標準フィルタが既に選択済みであれば)選択を継続する(例:区間T1〜T5)。一方、現在の音環境に変更があれば新規に標準フィルタを選択する(例:区間T5〜T7、T7〜T10)。更に、現在の音環境に適合する標準音環境情報が標準記憶部103に無いと判断された場合は、一時フィルタを生成して適用する(例:区間T10以降)。
【0087】
上述した一連の処理により、フィルタ制御手段は、観測される雑音に対し、対応できるフィルタが存在する場合は適切なフィルタが選択されるため、フィルタの演算処理を軽減できる。さらに、対応するフィルタが存在しない場合でも、その音環境に適したフィルタを一時的に生成、適用することができるため、雑音抑圧効果を保つことができる。
【0088】
[第2実施形態]
本実施形態は、第1実施形態と基本的な構成を共通とする。第1実施形態では音環境監視部102の雑音成分監視手段1022が入力音以外の情報(車速区分、空調機レベル、窓開閉情報)を組み合わせた情報として雑音成分情報を抽出し、標準記憶部103にはこれに対応する情報が記憶されていたのに対し、本実施形態では、入力雑音成分自体を用いて雑音成分情報を抽出する場合について述べる。
【0089】
基本的構成が共通である為、以下には本実施例の特徴部分のみを述べる。
【0090】
(音環境監視部)
音環境監視部102の雑音成分監視手段1022は、車室内の話者の雑音に関する情報を監視するものであり、本実施形態では雑音成分自体を用いて監視する。
【0091】
したがって、抽出する情報は、
・雑音成分自体或いはそのスペクトル情報などとする。
ただしこの場合、音声区間判定手段1021連携し、音声区間判定手段1021が音声と判断した区間以外についての情報を雑音とみなすことが好ましい。
【0092】
−標準記憶部−
標準記憶部103では、
1.標準雑音成分情報と、
2.標準目的信号情報と、
3.標準フィルタとを予め記憶する。
【0093】
1.標準雑音成分情報
標準雑音情報は、前記雑音成分監視手段1022が監視する雑音成分に関する情報のうち、車両で多く検出が想定される情報とする。ここでは、そうした想定雑音環境に基づく雑音成分データ或いは雑音成分のスペクトルなどとする。本実施形態では、雑音成分実データを記憶するものとし、以降では該信号を標準雑音成分と記述する。
【0094】
(標準雑音データの作成について)
想定する雑音環境に基づく雑音成分を決定・取得するためには、例えば車室内で想定される多様な雑音条件に基づく雑音成分を実際に収録し、各信号のスペクトルや特徴ベクトルに基づき複数のグループに分類するなどの手法を取る。例えばクラスタ分析などが好ましい。分類の後、各グループについての代表となる雑音を決定して標準雑音成分情報とする。この際、代表となる雑音は、分類した雑音の平均的なスペクトルを保持する信号であることが好ましい。また、この時の分類数は、保持する可能なフィル多数すなわちメモリの容量などに基づいて決定する。
【0095】
図11には雑音を4種類に分類した例を模式的に示す。図中の無数の点は、観測された信号の特徴ベクトルをベクトル空間上でプロットした例である。このデータを4種類に分類し、代表点となる雑音成分を、標準雑音成分N1、N2、N3、N4と定義し、これを標準雑音成分情報とする。
【0096】
2.標準目的信号情報
第1実施形態同様、声質に関する情報および各声質毎の平均音声信号が記憶されているものとする。
例) ID: 性別情報 標準目的信号
V0:男性女性、 男性女性の平均音声信号
V1:男性、 男性の平均音声信号
V2:女性、 女性の平均音声信号
3.標準フィルタ
標準フィルタは、前記標準雑音情報および標準音声情報の組み合わせからなる車室内の音環境下で、雑音を抑圧し音声を強調するようにフィルタを適応的に生成させたものとして与える。
【0097】
生成手法は第1実施形態と同様である。
【0098】
以上の、3種類の標準データを記憶する標準記憶部103の記憶例を、図12に示す。それぞれ、標準雑音情報をNx(x=1,2,3,・・・)、標準音声情報をVy(y=0,1,2,・・・・),標準フィルタFxy(x,yは標準雑音情報と標準音声情報に対応)から構成される。この構成により、雑音成分監視手段1022と、目的信号監視手段1023の監視結果から標準フィルタを参照することができる。
【0099】
(フィルタ制御部)
フィルタ制御部105は、音環境監視部102から得られた現在の音環境情報と、標準記憶部103の標準音環境情報に基づき、標準記憶部103から標準フィルタを選択する処理(フィルタ選択手段1051による)と、現在の音環境に対応する標準フィルタが無い場合に、一時フィルタを生成する処理(一時フィルタ生成手段1052による)とを行う。
【0100】
先ず、フィルタ選択手段1051において、現在の雑音成分情報すなわち雑音成分或いはそのスペクトル情報などと、標準記憶部103の同情報との差異を比較し、最も差異の少ないものを現在雑音成分に最も類似する信号として選択する。
【0101】
一方、現在の目的信号情報に対応する標準目的信号情報を第1実施形態と同様の手法で決定する。
【0102】
(「差異」の意味と算出例)
上述の「差異」は、信号の類似性を判断する指標であり、算出例としては、音信号の音響特徴であるパワースペクトル係数や、線形予測係数、周波数毎のパワーなどをベクトル化したものの時系列データを用いて、
・ ベクトル同士の距離
・ ベクトル同士のなす角度の余弦値
などから算出することができる。
【0103】
続いて、現在雑音成分情報と標準雑音成分情報の差異に着目して一時フィルタの生成有無を判定する。
【0104】
すなわち、前述の手法で求めた差異が最小となった標準雑音に対し、該差異が所定の「閾値」を越えない場合は、フィルタ選択部にて最も類似する音環境に基づく標準フィルタを選択する。一方、閾値を越える場合は、フィルタ選択部に対応する標準フィルタが無いものと判定し、一時フィルタ生成手段1052にて一時フィルタの生成を行う。
【0105】
(閾値)
ここで、閾値は、現在雑音と参照雑音との差異をどこまで許容するか、すなわちどの程度類似性がある雑音を既存の標準フィルタで処理させるかを決定付ける値であり、既存フィルタが充分な雑音抑圧性能を維持する範囲を実験などから求めて適用することが望ましい。
【0106】
(フィルタ選択、一時フィルタ生成の動き(補足))
一時フィルタ生成有無の判断について、図13、14を用いて具体的に説明する。
【0107】
図13は、図11に示した標準雑音の分類に対し、閾値を与えたものである。周囲を囲む曲線が閾値に相当する。この例では、閾値を一律で Th と設定している。いま、現在雑音が図13の Na として観測されたとする。この時、Na との差異が最小となる標準雑音は N4 であり、差異は Da である。
【0108】
この時差異 Da は、Th>Da となり閾値の範囲内にあるため、フィルタ選択手段1051により標準雑音成分情報N4および標準目的信号情報(例えばV1)に対応する標準フィルタF41が標準記憶部103から選択され、現在の音環境に対応するフィルタとして適用される。
【0109】
一方、図14の例のように、現在雑音がNbに観測されたとする。この時差異はDbであり、差異が最小となる標準雑音はN4であるが、Db<Th である。すなわち差異が閾値を超えるため、現在の雑音に対応する標準フィルタが存在しないと判断する。
【0110】
そこで、一時フィルタ生成手段1052による一時フィルタ生成処理に移行する。すなわち、標準目的信号情報(例えばV1)と現在雑音成分情報Nbを用いて適応処理によりフィルタFtを生成する。
【0111】
(一時フィルタ生成時の初期値を最類似フィルタから用いる)
尚、一時フィルタ生成時には、音環境が最も類似するフィルタを適応処理のフィルタ初期値として選択するようにすることが好ましい。
【0112】
すなわち、上記の例の場合であれば、標準雑音成分情報=N、標準目的信号情報=Vに対応する標準フィルタF41を最類似のフィルタと判定し、このフィルタを初期値として与える。これにより、更新に必要な適応処理回数を削減することができ、処理負荷の軽減を計ることができる。
【0113】
雑音の差異に応じてフィルタを変更する動きを図15に示した。
【0114】
図15は、時間の経過によるフィルタ適用例を示したものであり、横軸が時間の経過を、縦軸に
(A) 目的信号情報(正確には現在目的信号情報と標準目的信号情報とを照合した後の、適合した標準目的信号情報(V0,V1,V2いずれか)を示す)
(B) 雑音差異(曲線)と閾値(点線)
(C) 雑音成分情報(正確には現在雑音成分情報と標準雑音成分情報とを照合した時の、適合した標準雑音成分情報(N1,N2,・・・)或いは適合しなかった場合の一時雑音情報(Na,Nbなど)を示す)
(D) 一時フィルタ生成・適用区間
(E)最終的なフィルタ適用結果
を示している。
【0115】
各タイミングでの時刻をTx(x=0,1,・・・)と示し、標準フィルタをF(x,y)(x:標準雑音成分情報、y:標準目的信号情報)と示し、一時フィルタをFt(z,y)(z:一時雑音成分情報、y:標準目的信号情報)と示している。
【0116】
図15における(B)の差異を表す曲線は、雑音成分監視手段1022が選択した最類似の標準雑音成分と現在雑音成分との差異を示している。図によれば、この差異が時刻T1〜T2およびT4〜T5にかけて閾値を超えており、その時の雑音成分情報がそれぞれNb、Ncとして検出される。従って、それぞれの雑音成分情報(Nb,Nc)と、該区間での適合する標準目的信号情報(V1およびV2)に基づき、一時フィルタFt(b,1)、Ft(c,2)が生成される。その他の区間では、最類似の標準目的信号情報と標準雑音成分情報に基づく標準フィルタが選択されている。すなわち区間T0〜T1では標準目的信号情報=V1、標準雑音成分情報=N1に基づき標準フィルタF(1,1)が、同様にしてT2〜T4にてF(1,4)が、区間T3〜T4にてF(2,4)が、T5〜T6にてF(2,1)が選択される。
【0117】
一時記憶部104では、生成された一時フィルタFt、生成時の雑音成分情報(Nb、Ncなど)、生成時の標準目的信号情報(V1、V2など)を記憶する。
【0118】
(一時フィルタも以降の照合処理に加えてフィルタ選択を行う)
尚、一時フィルタが生成され、一時記憶部104に記憶された後のフィルタ制御部105の処理は、標準記憶部103と一時記憶部104双方を参照しながら行うことが好ましい。すなわち、雑音成分監視手段1022において、標準雑音に加えて一時雑音をも対象として最も類似する雑音を選択する構成とし、最も類似する雑音が該一時雑音であった場合は、該一時雑音について閾値と比較することで、新たな一時フィルタを生成するか、既存の一時フィルタを適用するかを判断する。この時の閾値は、標準雑音へ適用する閾値と同じでもよいし、別の値を与えてもよい。
【0119】
図16は前述の図14の例でNbが観測され、一時フィルタFtが生成された場合に、この時の雑音Nbを一時雑音とし、閾値Thを与え、照合に用いる情況を示している。すなわち、標準雑音N1〜N4に加え、一時雑音Nbについても、現在雑音との差異計算対象とすることで、Nbに類似する雑音が継続して検出されている期間(=Nbから閾値の範囲内の雑音について) に渡り、目的信号情報に変化が無ければ(話者が同一など)、該一時フィルタ(Ft(b,1),Ft(c,2))が継続して選択される。
【0120】
上述した一連の処理により、フィルタ制御手段は、観測される雑音に対し、対応できるフィルタが存在する場合は適切なフィルタが選択されるため、フィルタの演算処理を軽減できる。さらに、標準フィルタで十分な雑音抑圧性能が得られないと判断される場合は、その音環境に適したフィルタを暫定的に生成、適用することができるため、雑音抑圧効果を保つことができる。
【0121】
[第3実施形態]
本実施形態では、マイクロフォンを2チャネル以上用いる、マイクロフォンアレーを構成する場合について説明する。
【0122】
本実施形態の基本的構成は第1実施形態と共通であり、音入力部101、音環境監視部102、標準記憶部103、一時記憶部104、フィルタ制御部105、フィルタ部106から構成される。
【0123】
各機能も基本的な部分は共通である。以下には本実施形態の特徴部分について説明する。
【0124】
音環境監視部102の雑音成分監視手段1022は、車室内の雑音の到来方向に関する情報を監視するものであり、例えば車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報などとすることができる。これら情報を組み合わせることで、現在の雑音がどの方向から到来するものであるかを判定する。或いは入力音から雑音成分の到来方向を方位推定する手法をとっても良い。
【0125】
例えば、
・ 窓の開閉情報を用いて空いている窓の方向を雑音成分到来方向とする、
・ 空調機の風量レベルが所定以上の場合、空調機吹き出し口方向を雑音成分到来方向とする、
・ ワイパーが動作している場合、ワイパー方向を雑音成分到来方向とする、
・ 二人以上乗車の際に、撮像手段から発話衝突を検出し、特定の一人の音声以外を雑音とみなし、当該方向を雑音成分到来方向とする、
などと判定できる。
【0126】
尚、発話衝突に関しては、目的音声の決定方法として、常に運転車を優先する、先に発話を開始した話者を優先する、特定のキーワードの発話や、特定の身体動作をした話者を優先する、あるいは予め使用者に優先話者を決定させるなどとすればよい。
【0127】
音環境監視部102の目的信号監視手段1023は、車室内の目的信号である目的話者音声の到来方向に関する情報を監視するものであり、監視情報としては、例えば車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報などとすることができる。これら情報を組み合わせることで、現在の入力音声がどの方向から到来するものであるかを判定する。或いは入力音から目的信号の到来方向を方位推定する手法をとっても良い。
【0128】
例えば、撮像手段による口の動きの検出から、運転席および助手席乗員のうち、どちらが音声入力を行っているかを判定し、当該口位置を目的信号到来方位と判定する。
【0129】
標準記憶部103では、音環境監視部102の目的信号監視手段1023が監視結果として得る情報を想定した1.標準音声情報、および雑音成分監視手段1022が監視結果として得る情報を想定した2.標準雑音情報、そしてこの音声環境と雑音環境の組み合わせからなる車室内音環境において、目的音声到来方向を収音方向とし、雑音到来方向雑音を抑圧方向とする音源分離フィルタである3.標準フィルタを予め記憶しておく。
【0130】
上記1、2、3の各データは、複数保持するようにすることが好ましい。
【0131】
尚、標準フィルタとしての音源分離フィルタは、上述のような想定する音環境すなわち目的信号と雑音成分が別の方向から到来する環境を実際に再現あるいは計算機上でシミュレートするなどして音信号データを取得し、BSS(ブラインド音源分離)手法などによって該目的信号と雑音成分を分離するフィルタを生成することが好ましい。本フィルタは予め生成して保存するものであるので、生成時間などを考慮する必要は無い。従って、より精密な音源分離フィルタとして、標準フィルタを生成することができる。
【0132】
図17に標準記憶部103の記憶例を示した。この例によれば、
標準雑音成分情報すなわち雑音の到来方向として、
N1: 助手席口方向、N2:運転席口方向、N3:運転席窓方向
などを想定している。また、
標準音声情報すなわち音声の到来方向として、
V1:運転席口方向、V2:助手席口方向 などを想定している。
【0133】
そして、上記標準雑音情報および標準音声情報に基づく音環境に対応する音源分離フィルタを標準フィルタとして、それぞれF11,F22,F13,・・・のようにして保持する。
【0134】
フィルタ制御部105では、先ずフィルタ選択手段1051にて、前記雑音成分監視手段1022および目的信号監視手段1023から得られる雑音成分情報、目的信号情報と、標準記憶部103に記憶された標準雑音成分情報および標準目的信号情報とを比較・照合し、適合する到来方向を有する音環境が存在するかを判定する。
【0135】
適合する音環境がある場合は、当該音環境に対応する標準フィルタが選択され、無い場合は、一時フィルタ生成手段1052による一時フィルタ生成処理へと移行し、現在の雑音成分情報、目的信号情報を用いて、雑音成分到来方向を抑圧し、目的信号到来方向に指向性を向けるような音源分離フィルタが生成される。
【0136】
この時の一時フィルタ生成手法としては、上述のBSS法などの他、遅延和型、適応型アレーによるビームフォーミングなどを利用するようにしても良い。尚BSSなど、目的信号、雑音成分の到来方向を与えずとも自動的に到来方向を予測し適応できるアルゴリズムであっても、該雑音成分情報および目的信号情報として得られた到来方向に関する情報を基にしたビームフォーマとなるフィルタを初期値として教示するのが好ましい。これにより、安定かつ少ない処理で該到来方向に指向性或いは死角を持ったフィルタを生成することができる。
【0137】
一時記憶部104では、一時フィルタ生成処理で得られた一時フィルタを、生成時の目的信号情報および雑音成分情報と共に記憶する。第1実施形態同様、一旦一時フィルタが生成されて以降は、該一時フィルタも選択候補に加えることで、同じ環境が継続する場合に該一時フィルタを継続して適用することが可能となる。
【0138】
具体的なフィルタ制御部105の動作例を図17、18、19を用いて説明する。図は、車両上面から車室内を見た状況であり、話者を囲む楕円領域がマイクロフォンの収音領域とする。この例では、死角制御型のフィルタを用いた場合を示した。尚、標準記憶部103には図17の標準フィルタが記憶されているものとする。
【0139】
図18の(a)は運転者と助手席話者の発話が衝突している場合である。音環境監視部102の目的信号監視手段1023は、運転者口方向を目的信号到来方向と判断しこれを目的信号情報とする。一方雑音成分監視手段1022は、助手席話者口方向を雑音成分到来方向と判断しこれを雑音成分情報とする。該目的信号情報および雑音成分情報と、標準記憶部103の標準目的信号情報および標準雑音成分情報とを照合し、適合する音環境があるかを判定する。この例の場合、標準記憶部103の標準雑音成分情報のN1(助手席口方向)、および標準目的信号情報:V1(運転席口方向)が現在音環境に適合し、結果として対応する標準フィルタF11が選択される。
【0140】
図18の(b)は、運転者発話時に運転席の窓が空いている状況である。この場合も同様、音環境監視部102において目的音声到来方向を運転者口方向、雑音到来方向を運転者窓方向と判定され、当該音環境下での標準フィルタを照合した結果、F31が適合し選択される。この結果、助手席乗員の雑音が抑圧された入力音を取得することができる。
【0141】
一方、図19は、運転者発話時に、助手席側後部座席に雑音を発生する話者が検出される状況を示している。音環境監視部102は、目的音声到来方向を運転者口方向、雑音到来方向を後部中央座席乗員口方向と判定する。しかしながら、一時記憶部104にはこの音環境に対応する標準フィルタが存在しない。従って、一時フィルタ生成手段1052における一時フィルタ生成処理に移行し、該音環境に対応する一時フィルタFa1が生成・適用される。この結果、助手席側後部座席の話者方向からの雑音が抑圧された入力音を取得することができる。
【0142】
上述した一連の処理により、フィルタ制御手段は、観測される目的音声到来方向および雑音到来方向に基づき、対応するフィルタが選択されるため、フィルタの演算処理を軽減できる。さらに、対応するフィルタが存在しない場合でも、その音環境に適したフィルタを暫定的に生成、適用することができるため、雑音抑圧効果を保つことができる。
【0143】
[第4実施形態]
本実施形態の基本的構成は、第1実施形態と共通であり、音入力部101、音環境監視部102、標準記憶部103、一時記憶部104、フィルタ制御部105、フィルタ部106から構成される。
【0144】
各構成成分共、基本的な部分は第1実施形態と共通である。以下には本実施形態の特徴部分について説明する。
【0145】
音環境監視部102の目的信号監視手段1023は、車室内の話者の音声に関する情報を監視するものであり、監視情報としては、たとえば話者の音声信号や、車室内外に具備される各種センサのセンシング情報、スイッチ類の操作情報、車室内カメラの乗員撮像情報などとすることができる。この音声監視情報によって、音声の周波数的特徴などを判定する。更に目的信号監視手段1023は、上記音声区間判定手段1021と連携し、音声を検出した区間において、S/Nが十分に大きいと判定された場合に、該音声を一時目的信号Vtとして一時記憶部104に記憶する機能も備える。
【0146】
尚、該一時目的信号は、使用者の音声が属する標準目的信号情報(図4のV1やV2など)に含まれる標準目的信号(男性HSLN、女性HSLNなど)を初期値とし、高S/N音声が観測される度に、該標準音声に使用者の音声を加算していく構成としてもよい。これにより高S/Nの使用者音声を観測するにつれ、より使用者の音声特徴成分に最適化された一時目的信号が形成されていく。
【0147】
或いは、男女を合わせた標準目的信号(V0:男女HSLN)などに使用者全員の音声を加算していく構成としても良い。これにより、その車両で音声入力を行う乗員複数名に最適化された一時目的信号が形成されていく。
【0148】
フィルタ制御部105は、音環境監視部102から得られた現在の音環境情報と、標準記憶部103の標準音環境情報に基づき、標準記憶部103から標準フィルタを選択する処理(フィルタ選択手段1051による)と、現在の音環境に対応する標準フィルタが無い場合に、一時フィルタを生成する処理(一時フィルタ生成手段1052による)とを行う。
【0149】
以下に図20のフローチャートを用いてフィルタ制御の手順を示す。
【0150】
ステップS2001では、音入力部101にて検出される現在の音信号を取得し、音環境監視部102へ送出する。
【0151】
ステップS2002では、音環境監視部102によって、現在の目的信号情報および雑音成分情報を取得する。
【0152】
ステップS2003では、標準記憶部103から、標準雑音成分情報および標準目的信号情報を参照する。
【0153】
ステップS2004では、現在雑音成分情報と標準雑音成分情報の照合、および現在目的信号情報と標準目的信号情報の照合を行う。すなわち、現在雑音・音声情報に合致或いは最も類似する標準雑音成分情報および標準目的信号情報を決定する。
【0154】
ステップS2005では、ステップS2004での照合結果に従った分岐処理を行う。すなわち、ステップS2004において、現在の雑音成分情報と標準雑音情報の照合結果に着目し、合致或いは所定の範囲内で類似するする標準雑音情報がある場合には、ステップS2006のフィルタ選択処理に移行し、一方、合致しない、あるいは所定の範囲内で類似する標準雑音成分情報が無い場合には、ステップS1007の一時フィルタ生成処理へ移行する。
【0155】
ステップS2006では、該標準目的信号情報および標準雑音情報の組み合わせに対応する標準フィルタを標準フィルタから選択し、現在の音環境に対応するフィルタとして適用する。
【0156】
ステップS2007では、一時記憶部104を参照し、目的音声情報に一時目的信号(すなわち、標準目的信号に高S/Nで取得された目的信号を加算した信号)が記憶済みであるか否かを判定する。一時音声がある場合はステップS2008へ移行する。一方一時目的信号が存在しない場合はステップS2009へ移行する。
【0157】
ステップS2008では、該一時記憶部104の一時目的信号を目的信号とし、現在の雑音成分と一時音声信号とを加算した信号を擬似観測信号とし、適応処理により一時フィルタを生成する。
【0158】
ステップS2009では、ステップS2004で決定した現在の目的信号情報に適合する標準目的信号情報に含まれる標準目的信号(図4の男性HSLNや女性HSLNなど)を目的信号とし、現在の雑音成分と該標準音声信号とを加算した信号を擬似観測信号とし、適応処理により一時フィルタを生成する。
【0159】
ステップS2010では、生成した一時フィルタを生成時の雑音情報および音声情報と共に一時記憶部104に記憶し、現在の音環境に対応するフィルタとして適用する。
【0160】
上述した一連の構成および処理手段により、第1実施形態と同様の効果が得られるのに加え、目標信号となる音声信号が徐々に使用者音声に最適化されていく為、一時フィルタ生成時には、より使用者音声に適合したフィルタを生成することが可能となる。
【図面の簡単な説明】
【0161】
【図1】第1実施形態の基本構成を示したブロック図である。
【図2】第1実施形態の具体的な実現手段を示したブロック図である。
【図3】第1実施形態の標準フィルタ生成処理を示したのブロック図である。
【図4】第1実施形態の標準記憶部の記憶例を示す図である。
【図5】第1実施形態の一時フィルタ生成手段の適応処理を示す図である。
【図6】第1実施形態の一時記憶部の記憶例を示す図である。
【図7】第1実施形態の監視、標準フィルタ選択タイミングを示した図(常時監視&常時フィルタ選択&一時フィルタ生成)を示す図である。
【図8】第1実施形態の監視、標準フィルタ選択タイミングを示した図(監視・選択は常時、ただし一時フィルタ生成は発話時のみ)を示す図である。
【図9】第1実施形態の監視、標準フィルタ選択タイミングを示す図(発話時のみ処理)を示す図である。
【図10】第1実施形態のフィルタ選択処理を示す図である。
【図11】第2実施形態の雑音の分類を示す図である。
【図12】標準記憶部(第2実施形態)を示す図である。
【図13】第2実施形態(雑音成分監視手段による最類似雑音の選択(閾値内))を示す図である。
【図14】第2実施形態の雑音監視結果例(雑音成分監視手段による最類似雑音の選択(閾値内))を示す図である。
【図15】第2実施形態の差異判定とフィルタ選択を示す図である。
【図16】第2実施形態(雑音成分監視手段による最類似雑音の選択(一時フィルタをも照合対象に加える))を示す図である。
【図17】標準記憶部(第3実施形態)を示す図である。
【図18】第3実施形態(標準フィルタで対応する場合)を示す図である。
【図19】第3実施形態(標準フィルタに対応するものがない場合(一時フィルタ))を示す図である。
【図20】第4実施形態の具体的な動作例を示す図である。
【符号の説明】
【0162】
101…音入力部、102…音環境監視部、103…標準記憶部、、104…一時記憶部、105…フィルタ制御部、106…フィルタ部、201…マイクロフォン、202…AD変換部、203…演算装置、204…記憶装置、301…加算器、302…フィルタ、303…加算器、401…加算器、402…フィルタ、403…加算器、1021…音声区間判定手段、1022…雑音成分監視手段、1023…目的信号監視手段、1051…フィルタ選択手段、1052…一時フィルタ生成手段。

【特許請求の範囲】
【請求項1】
音信号を取得する1つ以上の音入力手段を有する音入力部と、該音入力部から取得された入力音から雑音成分を除去するフィルタ部とを有する音声入力装置において、
入力音から音声区間と非音声区間とを判定する音声区間判定手段と、雑音成分情報を監視し取得する雑音成分監視手段と、目的信号情報を監視し取得する目的信号監視手段とから構成される音環境監視部と、
少なくとも1つ以上の標準音環境および該標準音環境に対応する標準フィルタを記憶する標準記憶部と、
該音環境監視部から得られた情報に基づいて、音環境に適合する、該標準記憶部に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択して前記フィルタ部の内容とするフィルタ選択手段と、該音環境に適合する標準音環境が決定できない場合に、一時フィルタを生成して前記フィルタ部の内容とする一時フィルタ生成手段とから構成されるフィルタ制御部と、
該一時フィルタを記憶する一時記憶部と、
を有することを特徴とする音声入力装置。
【請求項2】
前記標準記憶部は、雑音成分に関する情報を含む標準雑音成分情報と、目的信号に関する情報を含む標準目的信号情報と、該標準雑音成分情報および標準目的信号情報によって定義された音環境下で雑音を抑圧する標準フィルタとのうちの少なくとも1つ以上を含む少なくとも1つ以上の組を保持することを特徴とする請求項1記載の音声入力装置。
【請求項3】
前記一時記憶部は、前記フィルタ制御部が作成した一時フィルタと、前記フィルタ制御部がフィルタ作成時に参照した雑音成分情報および目的信号情報とのうちの少なくとも1つ以上記憶することを特徴とする請求項1または2記載の音声入力装置。
【請求項4】
音信号を取得する2つ以上の音入力手段を有する音入力部と、該音入力部から取得された入力音から雑音成分を除去するフィルタ部とを有する音声入力装置において、
入力音から音声区間と非音声区間とを判定する音声区間判定手段と、目的信号の到来方向に関する情報を含む目的信号情報を監視し取得する目的信号監視手段と、雑音成分の到来方向に関する情報を含む雑音成分情報を監視し取得する雑音成分監視手段とからなる音環境監視部と、
少なくとも1つ以上の標準音環境および該標準音環境に対応する標準フィルタを記憶する標準記憶部と、
該音環境監視部から得られた情報に基づいて、音環境に適合する、該標準記憶部に記憶されている標準音環境を決定し、該標準音環境に対応する標準フィルタを選択して前記フィルタ部の内容とするフィルタ選択手段と、該音環境に適合する標準音環境が決定できない場合に、一時フィルタを生成して前記フィルタ部の内容とする一時フィルタ生成手段とから構成されるフィルタ制御部と、
該一時フィルタを記憶する一時記憶部と、
を有することを特徴とする音声入力装置。
【請求項5】
前記フィルタ選択手段は、前記音環境監視部が取得した雑音成分情報および目的信号情報に適合する情報が標準記憶部に無い場合に、該雑音成分情報および目的信号情報に近い標準雑音成分情報および標準目的信号情報を決定し、標準雑音成分情報および標準目的信号情報に対応する標準フィルタを参照し、
前記一時フィルタ生成手段は、該標準フィルタを初期値として、現在音環境に対応する雑音抑圧フィルタを生成し、一時フィルタとすることを特徴とする請求項1ないし4のいずれかに記載の音声入力装置。
【請求項6】
前記音環境監視部から得られた情報は、前記音入力手段に入力された音から得られる情報と、車速に関する情報と、空調機の動作に関する情報と、窓の開閉に関する情報と、座席の位置に関する情報と、乗員に関する情報と、車両本体に関する情報と、車内外に設置されたセンサ、カメラにより得られる情報と、タイヤに関する情報と、車室内に設置された操作対象機器に関する情報とのうちの少なくとも1つ以上を含むことを特徴とする請求項1ないし5のいずれかに記載の音声入力装置。
【請求項7】
前記一時記憶部は、前記音入力部から取得された時刻t0の音信号における雑音成分が目的信号に対して無視できる場合は、該音信号を目的信号0として記憶し、
前記フィルタ制御部は、時刻t1の一時フィルタを、時刻t0に記憶された目的信号0と時刻t1に観測された雑音成分とを用いて生成された擬似観測信号と、目的信号0とを用いて生成することを特徴とする請求項1ないし6のいずれかに記載の音声入力装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate