説明

音声入力装置

【課題】 仕分け担当者が各ラインに直交する方向に一列に並んでいる場合において、対応する仕分け担当者の発声についての音声強調や雑音低減の効果が期待できる音声入力装置を提供する。
【解決手段】 音源の周りに並べられ、かつ、音源から同一距離だけ離間した位置に設けられた3つのマイクロフォンで構成されているマイクロフォン群100を備え、各マイクロフォンにおける周波数帯域毎のパワースペクトルを算出し、各マイクロフォンにおける周波数帯域毎のパワースペクトルの最大値及び最小値をそれぞれ求め、パワースペクトルの最大値に対するパワースペクトルの最小値の比率を、音源の周りに並べられた前記3つのマイクロフォンの中で2つのマイクロフォン間に設けられたマイクロフォンにおける周波数帯域毎のパワースペクトルに乗算するようにした。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声入力装置に関する。
【背景技術】
【0002】
図3は、従来の物流センターにおける仕分け作業を簡略的に示す説明図である。図3に示すように、物流センターに設けられた平行な各ラインa,b,cからは、物流センターに入荷された品物Xが流れてくる。各ラインa,b,cの後方には仕分け担当者A,B,Cがそれぞれ配されており、仕分け担当者A,B,Cが入荷された品物Xの個数の確認及び仕分けを行う仕組みになっている。そして、仕分け担当者A,B,Cは、音声を発声しながら入荷された品物Xの個数の確認を行う。このようにして仕分け担当者A,B,Cが発生した音声は、音声認識処理されて各種の処理に供される。図3に示す例によれば、仕分け担当者A,B,Cは、各ラインa,b,cに直交する方向に一列に並んでおり、仕分け担当者A,B,Cがそれぞれ発声する音声の方向も各ラインa,b,cに直交する方向となる。
【0003】
このような仕分け担当者A,B,Cからの発声を拾う手法としては、複数のマイクを利用した手法が提案されている(例えば、特許文献1参照)。より具体的には、特許文献1は、各マイクロフォンに入力される音声の位相差を元に、特定方向の発声のみを取得する手法である。なお、図3においては、各仕分け担当者に対し、2つのマイクロフォンが設けられている。これらの2つのマイクロフォンは、仕分け担当者の口が向いている方向(以降、発声方向と表記する)に対して線対称に設けられている。例えば、仕分け担当者Aに対してはマイクロフォンA1,A2が設けられており、マイクロフォンA1及びマイクロフォンA2は仕分け担当者Aから等距離に配置されている。この場合、仕分け担当者Aの発声は、マイクロフォンA1及びマイクロフォンA2に同時に到達することになる。すなわち、各仕分け担当者に対して2つのマイクロフォンを設けた場合には、仕分け担当者Aの発声以外の音についてはマイクロフォンA1及びマイクロフォンA2に同時に到達することがないことから、仕分け担当者Aの発声以外の音を除去することができるようになっている。
【0004】
【特許文献1】特開2003−61181公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
ところで、図3に示すように各仕分け担当者に対して2つのマイクロフォンを設けた場合、仕分け担当者A,B,Cは、各ラインa,b,cに直交する方向に一列に並んでいることから、仕分け担当者Bに対して設けられているマイクロフォンB1,B2も仕分け担当者Aから等距離に配置されていることになる。そのため、仕分け担当者Aの発声は、マイクロフォンB1及びマイクロフォンB2にも同時に到達することになる。したがって、各ラインa,b,cに直交する方向に仕分け担当者A,B,Cが一列に並ぶような状態で、平行な各ラインに配される各仕分け担当者の発声方向に対して線対称に2つのマイクロフォンを設けるようにした場合、発声方向と同方向(指向性方向の垂面)の音を除去することができず、誤認識が引き起こされてしまうという問題がある。
【0006】
本発明は、仕分け担当者が各ラインに直交する方向に一列に並んでいる場合において、対応する仕分け担当者以外の仕分け担当者からの音声を雑音として排除することができ、対応する仕分け担当者の発声についての音声強調や雑音低減の効果が期待できる音声入力装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は、音源の周りに並べられ、かつ、音源から同一距離だけ離間した位置に設けられた3つのマイクロフォンで構成されているマイクロフォン群と、このマイクロフォン群を構成する前記各マイクロフォンにおける周波数帯域毎のパワースペクトルを算出する手段と、前記各マイクロフォンにおける周波数帯域毎のパワースペクトルの最大値及びパワースペクトルの最小値をそれぞれ求める手段と、前記パワースペクトルの最大値に対する前記パワースペクトルの最小値の比率を、音源の周りに並べられた前記3つのマイクロフォンの中で2つのマイクロフォン間に設けられた前記マイクロフォンにおける周波数帯域毎の前記パワースペクトルに乗算する手段と、を備える。
【発明の効果】
【0008】
本発明によれば、仕分け担当者が各ラインに直交する方向に一列に並んでいる場合において、対応する仕分け担当者以外の仕分け担当者からの音声を雑音として排除することができ、対応する仕分け担当者の発声についての音声強調や雑音低減の効果が期待できる。
【発明を実施するための最良の形態】
【0009】
本発明の実施の一形態を図1および図2に基づいて説明する。本実施の形態の音声入力装置は、物流センターでの仕分け作業において用いられる音声入力装置に適用した例である。
【0010】
図1は、物流センターにおける仕分け作業を簡略的に示す説明図である。図1に示すように、物流センターに設けられた平行な各ラインa,b,cからは、物流センターに入荷された品物Xが流れてくる。各ラインa,b,cの後方には仕分け担当者A,B,Cがそれぞれ配されており、仕分け担当者A,B,Cが入荷された品物Xの個数の確認及び仕分けを行う仕組みになっている。そして、仕分け担当者A,B,Cは、音声を発声しながら入荷された品物Xの個数の確認を行う。このような仕分け担当者A,B,Cからの発声は、マイクロフォンによって拾われて音声認識処理を施されることになる。図1に示す例によれば、仕分け担当者A,B,Cは、各ラインa,b,cに直交する方向に一列に並んでおり、仕分け担当者A,B,Cがそれぞれ発声する音声の方向も各ラインa,b,cに直交する方向となる。
【0011】
図1に示すように、本実施の形態の音声入力装置は、3つのマイクロフォンで構成されるマイクロフォン群100と音声処理部10とにより構成されている。このような音声入力装置は、仕分け担当者毎に設けられている。これら3つのマイクロフォンは、音源である各仕分け担当者の位置の周りに並べられ、かつ、3つのマイクロフォンはそれぞれ、仕分け担当者の位置から同一距離だけ離間した位置に設けられる。例えば、仕分け担当者Aに対しては、各仕分け担当者の位置を中心とした同一円周上にマイクロフォンA1,A2,A3が並べられ、マイクロフォンA1とA3は、仕分け担当者の発声方向(換言すれば、音源からの音の発生方向)に対して線対称に、マイクロフォンA2は、音源である仕分け担当者の発声方向の正面に設けられる。同様に、仕分け担当者Bに対しては、仕分け担当者Bの位置を中心とした同一円周上にマイクロフォンB1,B2,B3が並べられ、マイクロフォンB1とB3は、仕分け担当者の発声方向に対して線対称に、マイクロフォンA2は、音源である仕分け担当者の発声方向の正面に設けられる。同様に、担当者Cに対しては、3つのマイクロフォンC1,C2,C3が並べて設けられる。このような音声入力装置においては、仕分け担当者Aの発声は、仕分け担当者の位置からマイクロフォンA1,A2,A3に同時刻に到達する。一方、仕分け担当者AとマイクロフォンB1(B2)間の距離と、仕分け担当者AとマイクロフォンB3間の距離とは異なるため、マイクロフォンB1,B2,B3に到達する仕分け担当者Aの音声は、同時刻にはならない。
【0012】
また、図1に示すように、各仕分け担当者に対して設けられている3つのマイクロフォンには、各マイクロフォンに入力された音声に対する処理を実行する音声処理部10が接続されている。次に、音声処理部10における処理の流れについて説明する。ここでは、仕分け担当者Aに対して設けられているマイクロフォンA1,A2,A3に入力された音声を例に図2を参照して説明する。図2に示すように、音声処理部10は、A/D変換部11、フレーム切出部12、時間−周波数変換部13、帯域分割部14、パワースペクトル比較部15により構成されている。なお、A/D変換部11、フレーム切出部12、時間−周波数変換部13、帯域分割部14は、各マイクロフォンA1,A2,A3毎に設けられている。このような構成の音声処理部10は、各マイクロフォンA1,A2,A3に入力された音声をそれぞれA/D変換部11にてデジタル信号に変換する。さらに、音声処理部10は、デジタル信号に変換された音声をフレーム切出部12でフレーム化した後、時間−周波数変換部13によりフーリエ変換する。その後、音声処理部10は、帯域分割部14により周波数帯域毎にパワースペクトルを算出する。ここでは、簡単のために、4つの周波数帯域に分割したと仮定する。4つの周波数帯域に分割した場合、マイクロフォンA1に連設されている帯域分割部14から出力される信号をpw11〜pw14、マイクロフォンA2に連設されている帯域分割部14から出力される信号をpw21〜pw24、マイクロフォンA3に連設されている帯域分割部14から出力される信号をpw31〜pw34とする。このようなパワースペクトルの対数の逆フーリエ変換したものがケプストラム(cepstrum)であり、音声認識に用いる特徴量となる。
【0013】
以上のようにして出力された信号(pw11〜pw14,pw21〜pw24,pw31〜pw34)は、パワースペクトル比較部15に入力される。
【0014】
パワースペクトル比較部15においては、以下の量を定義する。
【0015】
μ1=min[pw11,pw21,pw31]/max[pw11,pw21,pw31]
μ2=min[pw12,pw22,pw32]/max[pw12,pw22,pw32]
μ3=min[pw13,pw23,pw33]/max[pw13,pw23,pw33]
μ4=min[pw14,pw24,pw34]/max[pw14,pw24,pw34]
なお、minは、[*]の値を比較し、最小値を取り出すものである。maxは、[*]の値を比較し、最大値を取り出すものである。このようにして定義されたμ(μ1〜μ4)は、分割された周波数帯域毎で、各マイクロフォンA1,A2,A3からの入力音のパワースペクトルを比較する値である。分割された周波数帯域において、各マイクロフォンA1,A2,A3のパワースペクトルの差が小さければμは1に近く、パワースペクトルの差が大きければμは0に近い値をとる。
【0016】
次いで、定義されたμ(μ1〜μ4)を、音源の周りに並べて設けられた3つのマイクロフォンの中で2つのマイクロフォンの間に設けられたマイクロフォンA3に連設されている帯域分割部14から出力される信号のパワースペクトルに乗算する。
【0017】
pw1=pw31*μ1
pw2=pw32*μ2
pw3=pw33*μ3
pw4=pw34*μ4
μ(μ1〜μ4)の値が1に近ければ、すなわち、各マイクロフォンA1,A2,A3間のパワースペクトルの差が小さければ、マイクロフォンA3のパワースペクトルの値は保たれる。一方、μ(μ1〜μ4)の値が0に近ければ、すなわち、各マイクロフォンA1,A2,A3間のパワースペクトルの差が大きければ、マイクロフォンA3のパワースペクトルの値は減少することになる。
【0018】
例えば、仕分け担当者Aの発声がマイクロフォンA1,A2,A3経由で音声処理部10に入力された場合、仕分け担当者Aを中心とした同一円周上にマイクロフォンA1,A2,A3が存在するため、マイクロフォンA1,A2,A3間のパワースペクトルの差は小さくなる。したがって、μの値は1に近く、マイクロフォンA3の変更後のパワースペクトルの値(pw1,pw2,pw3,pw4)は、変更前のパワースペクトルの値(pw31,pw32,pw33,pw34)を保つ。つまり、仕分け担当者Aの発声は、マイクロフォンA1,A2,A3経由では抑圧されない。一方、仕分け担当者Aの発声がマイクロフォンB1,B2,B3経由で音声処理部10に入力された場合、仕分け担当者AとマイクロフォンB1(B2)間の距離と、仕分け担当者AとマイクロフォンB3間の距離とは異なるため、マイクロフォンB1(B2)に対してマイクロフォンB3のパワースペクトルの差が大きくなる。したがって、μの値は0に近く、マイクロフォンB3の変更後のパワースペクトルの値(pw1,pw2,pw3,pw4)は、変更前のパワースペクトルの値(pw31,pw32,pw33,pw34)よりも小さくなる。つまり、仕分け担当者Aの発声は、マイクロフォンB1,B2,B3経由では抑圧されることになる。すなわち、仕分け担当者A,B,Cが各ラインa,b,cに直交する方向に一列に並んでいる場合において、仕分け担当者Bを中心とした同一円周上に配置された3本のマイクロフォン(B1,B2,B3)に対応する仕分け担当者B以外の仕分け担当者(例えば、仕分け担当者A)からの音声が入力された場合には、仕分け担当者B以外の仕分け担当者(例えば、仕分け担当者A)の発声はマイクロフォンB1,B2,B3経由では抑圧されることになり、対応する仕分け担当者B以外の仕分け担当者(例えば、仕分け担当者A)からの音声を雑音として排除することができるので、仕分け担当者Bの発声についてのマイクロフォンB1,B2,B3における音声強調やマイクロフォンB1,B2,B3における雑音低減の効果が期待できる。
【0019】
そして、図2に示すように、音声処理部10で処理された音声のパワースペクトルの値(pw1,pw2,pw3,pw4)は、音声認識処理部20に出力され、ケプストラム(cepstrum)に変換されて音声認識処理に供される。音声認識処理部20における音声認識処理においては、マイクロフォン群100における音声強調やマイクロフォン群100における雑音低減の効果により、認識率の向上が期待できる。
【0020】
このように本実施の形態によれば、音源の周りに並べられ、かつ、音源から同一距離だけ離間した位置に設けられている3つのマイクロフォンから構成されているマイクロフォン群100を備え、マイクロフォン群100を構成する各マイクロフォンにおける周波数帯域毎のパワースペクトルを算出し、各マイクロフォンにおける周波数帯域毎のパワースペクトルの最大値及びパワースペクトルの最小値をそれぞれ求め、パワースペクトルの最大値に対するパワースペクトルの最小値の比率を、音源の周りに並べられた前記3つのマイクロフォンの中で2つのマイクロフォン間に設けられたマイクロフォンにおける周波数帯域毎のパワースペクトルに乗算するようにした。これにより、仕分け担当者が各ラインに直交する方向に一列に並んでいる場合において、仕分け担当者(例えば、仕分け担当者B)を中心とした同一円周上に配置された3本のマイクロフォン(例えば、マイクロフォンB1,B2,B3)に対応する仕分け担当者B以外の仕分け担当者(例えば、仕分け担当者A)からの音声が入力された場合には、仕分け担当者B以外の仕分け担当者(例えば、仕分け担当者A)の発声はマイクロフォンB1,B2,B3経由では抑圧されることになり、対応する仕分け担当者B以外の仕分け担当者(例えば、仕分け担当者A)からの音声を雑音として排除することができるので、仕分け担当者Bの発声についてのマイクロフォンB1,B2,B3における音声強調やマイクロフォンB1,B2,B3における雑音低減の効果が期待できる。また、音声認識処理部20における音声認識処理においては、マイクロフォン群100における音声強調やマイクロフォン群100における雑音低減の効果により、認識率の向上が期待できる。
【0021】
なお、w(x)=(exp(x)−1)/(exp(1)−1)であると定義し、マイクロフォンA3に連設されている帯域分割部14から出力される信号のパワースペクトルについて、以下の式により変更を加えるようにしても良い。
【0022】
pw1=pw31*w(μ1)
pw2=pw32*w(μ2)
pw3=pw33*w(μ3)
pw4=pw34*w(μ4)
w(x)は、指数増加関数である。その性質上、0≦μ≦1でμ≧w(μ)であり、例えば仕分け担当者Aの音声がマイクロフォンB1,B2,B3に到達した場合、より効率的な抑圧が行える重み付け関数となっている。
【0023】
また、本実施の形態においては、物流センターに設けられた平行なラインa,b,cに配置される仕分け担当者A,B,Cの音声をノイズ源とし、仕分け担当者A(もしくはB,C)の周りに配置されているマイクロフォンA3(B3,C3)に連設されている帯域分割部14から出力される信号のパワースペクトルについて変更を加えるようにしたが、これに限るものではない。例えば、マイクロフォンA1(B1,C1)の近傍にノイズ源がある場合には、マイクロフォンA1(B1,C1)に連設されている帯域分割部14から出力される信号のパワースペクトルについて変更を加えるようにしても良い。
【0024】
さらに、本実施の形態においては、マイクロフォン群100を構成する各マイクロフォンを音源である仕分け担当者を中心とした同一円周上に配置するようにしたが、これに限るものではなく、マイクロフォン群100を構成する各マイクロフォンを音源である仕分け担当者を中心とした同一球面上に配置するようにしても良い。
【図面の簡単な説明】
【0025】
【図1】本発明における実施の一形態である物流センターにおける仕分け作業を簡略的に示す説明図である。
【図2】音声処理部における処理の流れを示す機能ブロック図である。
【図3】従来の物流センターにおける仕分け作業を簡略的に示す説明図である。
【符号の説明】
【0026】
100 マイクロフォン群
A1,A2,A3 マイクロフォン
B1,B2,B3 マイクロフォン
C1,C2,C3 マイクロフォン

【特許請求の範囲】
【請求項1】
音源の周りに並べられ、かつ、音源から同一距離だけ離間した位置に設けられた3つのマイクロフォンで構成されているマイクロフォン群と、
このマイクロフォン群を構成する前記各マイクロフォンにおける周波数帯域毎のパワースペクトルを算出する手段と、
前記各マイクロフォンにおける周波数帯域毎のパワースペクトルの最大値及びパワースペクトルの最小値をそれぞれ求める手段と、
前記パワースペクトルの最大値に対する前記パワースペクトルの最小値の比率を、音源の周りに並べられた前記3つのマイクロフォンの中で2つのマイクロフォン間に設けられた前記マイクロフォンにおける周波数帯域毎の前記パワースペクトルに乗算する手段と、
を備えることを特徴とする音声入力装置。
【請求項2】
音源の周りに並べられ、かつ、音源から同一距離だけ離間した位置に設けられた3つのマイクロフォンで構成されているマイクロフォン群と、
このマイクロフォン群を構成する前記各マイクロフォンにおける周波数帯域毎のパワースペクトルを算出する手段と、
前記各マイクロフォンにおける周波数帯域毎のパワースペクトルの最大値及びパワースペクトルの最小値をそれぞれ求める手段と、
前記パワースペクトルの最大値に対する前記パワースペクトルの最小値の比率を、前記マイクロフォン群を構成する前記各マイクロフォンの中でノイズ源に最も近い前記マイクロフォンにおける周波数帯域毎の前記パワースペクトルに乗算する手段と、
を備えることを特徴とする音声入力装置。
【請求項3】
音源の周りに並べられ、かつ、音源から同一距離だけ離間した位置に設けられた3つのマイクロフォンで構成されているマイクロフォン群と、
このマイクロフォン群を構成する前記各マイクロフォンにおける周波数帯域毎のパワースペクトルを算出する手段と、
前記各マイクロフォンにおける周波数帯域毎のパワースペクトルの最大値及びパワースペクトルの最小値をそれぞれ求める手段と、
前記パワースペクトルの最大値に対する前記パワースペクトルの最小値の比率に応じた指数増加関数を、音源の周りに並べられた前記3つのマイクロフォンの中で2つのマイクロフォン間に設けられた前記マイクロフォンにおける周波数帯域毎の前記パワースペクトルに乗算する手段と、
を備えることを特徴とする音声入力装置。
【請求項4】
音源の周りに並べられ、かつ、音源から同一距離だけ離間した位置に設けられた3つのマイクロフォンで構成されているマイクロフォン群と、
このマイクロフォン群を構成する前記各マイクロフォンにおける周波数帯域毎のパワースペクトルを算出する手段と、
前記各マイクロフォンにおける周波数帯域毎のパワースペクトルの最大値及びパワースペクトルの最小値をそれぞれ求める手段と、
前記パワースペクトルの最大値に対する前記パワースペクトルの最小値の比率に応じた指数増加関数を、前記マイクロフォン群を構成する前記各マイクロフォンの中でノイズ源に最も近い前記マイクロフォンにおける周波数帯域毎の前記パワースペクトルに乗算する手段と、
を備えることを特徴とする音声入力装置。
【請求項5】
前記マイクロフォン群を構成する前記各マイクロフォンは、前記音源を中心とした同一円周上に配置されている、
ことを特徴とする請求項1ないし4のいずれか一記載の音声入力装置。
【請求項6】
前記マイクロフォン群を構成する前記各マイクロフォンは、前記音源を中心とした同一球面上に配置されている、
ことを特徴とする請求項1ないし4のいずれか一記載の音声入力装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate