説明

音声認識システム及び音声認識方法

【課題】音源位置を推定せずに、雑音と区別して発話を検出する。
【解決手段】複数の指向性のマイクロホンと、前記複数の指向性のマイクロホン中の少なくとも1個のマイクロホンからの信号に対して音声認識を行う音声認識部とを備えた音声認識システムであって、無指向性のマイクロホンと、該無指向性のマイクロホンからの信号により発話区間を検出する発話検出部とを備え、前記音声認識部は発話区間の信号に対して音声認識を行う。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は複数のマイクロホンを備えた音声認識に関し、特に発話の検出に関する。
【背景技術】
【0002】
特許文献1(特開2009-210956A)は、マイクロホンアレイを用いた音声認識装置を開示している。特許文献1では、個別のマイクロホンへの音の到達時間の差から音源の位置を推定し、これとは別に事前に発話者の位置を記憶しておく。そして発話者の位置を音源とする音響信号を音声認識の対象とする。しかしながらこの手法では音源位置の推定が絶えず必要で、信号処理が重くなる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009-210956A
【発明の概要】
【発明が解決しようとする課題】
【0004】
この発明の課題は、音源位置を推定せずに、雑音と区別して発話を検出することにある。
【課題を解決するための手段】
【0005】
この発明は、複数の指向性のマイクロホンと、前記複数の指向性のマイクロホン中の少なくとも1個のマイクロホンからの信号に対して音声認識を行う音声認識部とを備えた音声認識システムであって、無指向性のマイクロホンと、該無指向性のマイクロホンからの信号により発話区間を検出する発話検出部とを備え、前記音声認識部は発話区間の信号に対して音声認識を行うように構成されていることを特徴とする。
【0006】
またこの発明は、複数の指向性のマイクロホン中の少なくとも1個のマイクロホンからの信号に対して、音声認識装置より音声認識を行う方法であって、前記音声認識装置は、無指向性のマイクロホンからの信号により発話区間を検出し、発話区間の信号に対して音声認識を行うことを特徴とする。
【0007】
この明細書において、音声認識装置に関する記載はそのまま音声認識方法にも当てはまり、逆に音声認識方法に関する記載はそのまま音声認識装置にも当てはまる。指向性のマイクロホンと無指向性のマイクロホンとして、例えば複数の無指向性のマイクロホンを設け、これらの組合せから指向性のマイクロホンを複数実現しても良い。あるいはまた、例えば1個の無指向性のマイクロホンと、複数個の指向性のマイクロホンとを別個に設けても良い。
【0008】
指向性のマイクロホンは、その指向方向に雑音源が有ると、弱い雑音を大きな信号として捉え、雑音を発話と誤認しやすい。また雑音源が移動する場合、あるいは発話者が移動する場合などは、雑音源を避けるように指向性マイクロホンを配置することも困難である。これに対して無指向性のマイクロホンの信号で発話区間を検出すると、雑音の強弱の変動が小さくなり、雑音のレベルが一定に近づくので、雑音と音声とを識別しやすくなる。このため音源の位置を推定する、あるいは雑音源を避けるように指向性のマイクロホンを配置するなどの処理無しに、発話区間を検出できる。
【0009】
好ましくは、前記複数の指向性のマイクロホンと前記無指向性のマイクロホンとを有するヘッドセットを備えている。ヘッドセットを装着する作業者の姿勢あるいは位置は固定されていないので、指向性のマイクロホンが雑音源を向くことが特に問題になる。このような場合でも、無指向性のマイクロホンを用いると、発話を雑音と区別して検出できる。
【0010】
また好ましくは、音声認識部は、前記複数の指向性のマイクロホンに対して、発話区間とそれ以外の区間での信号の強弱の程度、例えばS/N比、及び発話区間での信号の周波数帯、の少なくとも一方に基づいて、どの指向性のマイクロホンからの信号を音声認識するかを決定する選択部、を備えている。これらの信号は、個別の指向性マイクロホンが、音声をピックアップしているのか、雑音をピックアップしているのかを表している。そこで音声をピックアップしている可能性が高い、指向性のマイクロホンからの信号を音声認識する。また音声を認識している可能性が低い、指向性のマイクロホンからの信号は、音声認識する必要がない。
【0011】
好ましくは、前記発話検出部は、無指向性のマイクロホンからの信号を少なくとも閾値と比較することにより発話を検出すると共に、発話区間以外での無指向性のマイクロホンからの信号の強弱に応じて前記閾値を学習し、かつ音声認識装置の位置に応じて閾値を変更するように構成されている。雑音のレベルに応じて閾値を学習することにより、より確実に発話を検出できる。音声認識装置の各マイクロホンが例えばヘッドセットに設けられている場合、ヘッドセットを装着した作業者等が、静かな環境と騒々しい環境との間で移動すると、雑音レベルの学習が追随できない。騒々しい環境に移動すると、雑音を発話と誤認し易く、静かな環境に移動すると、人は声を小さくする傾向があるため、発話を見逃しやすい。そこで位置に応じて閾値を強制的に変更することにより、学習が間に合わないことを補える。
【図面の簡単な説明】
【0012】
【図1】実施例の音声認識装置の外観を示す図
【図2】実施例で指向性のマイクロホンの構成に用いたフィルタの回路図
【図3】実施例の音声認識装置のブロック図
【図4】変形例での指向性のマイクロホンと無指向性のマイクロホンの配置を示す平面図
【図5】変形例の音声認識装置の要部ブロック図
【図6】実施例での発話区間の検出モデルを示す図
【図7】実施例でのセレクタのブロック図
【図8】実施例での発話区間の検出を示すフローチャート
【図9】実施例での指向性マイクロホンの選択を示すフローチャート
【発明を実施するための最良の形態】
【0013】
以下に本発明を実施するための最適実施例を示す。この発明の範囲は、特許請求の範囲の記載に基づき、明細書とこの分野の周知技術を参酌し、当業者の理解に従って定められるべきである。
【実施例】
【0014】
図1〜図9に、実施例の音声認識装置2と実施例の音声認識方法とを示す。図1において、4はスピーカで、6はマイクロホンアレイであり、複数個の無指向性のマイクロホン7〜10を備えている。12はアーム、13はコードで、14は音声認識装置本体であり、電源15と信号処理部16並びに通信部18を備えている。実施例では、音声認識装置2が単独で音声認識を行い、通信部18を介して図示しないサーバと通信し、例えばサーバからのピッキングの指令をスピーカ4を介して作業者に伝え、作業者の音声をマイクロホン7〜10及び信号処理部16で音声認識し、通信部18からサーバへ通知する。またサーバはカメラ、GPS等により作業者の位置を監視し、発話検出の閾値を変更する。なお音声認識をサーバで行い、音声認識装置2側から信号処理部16を除いても良い。
【0015】
実施例の音声認識装置2は、ピッキングの作業者に限らず、航空機などのパイロット、自動車の運転手、手術中の医師や歯科医、工場の作業者、コールセンターのオペレータなどの音声を認識するのに適している。実施例の音声認識装置2はヘッドセットから成り、作業者が首を振ると、マイクロホンアレイ6の向きが変化するので、雑音に対する向きが絶えず変化する。また作業者が移動すると、周囲の雑音源に対する位置が変化する。
【0016】
図1の左側に、マイクロホンアレイ6を拡大して示す。マイクロホンアレイ6は指向性の無い例えば4個のマイクロホン7〜10を備え、マイクロホン7〜10は例えば正四面体の頂点に配置され、マイクロホン7がマイクロホン8〜10に対して上側に飛び出しているものとする。そして4個のマイクロホン7〜10のうち、例えば1個を無指向性のマイクロホンとしてそのまま使用する。4個のマイクロホン7〜10からマイクロホンを2個ずつ組み合わせると、の6通りの組み合わせが生じる。
【0017】
6通りの組み合わせにより、6個の仮想的な指向性マイクロホンを実現する。例えばマイクロホン7と、3個のマイクロホン8〜10との組み合わせで、3個の指向性のマイクロホンが得られる。マイクロホン8とマイクロホン9との組み合わせで、右向きに指向したマイクロホンと左向きに指向したマイクロホンとが得られ、同様にマイクロホン8,10の組み合わせ、及びマイクロホン9,10の組み合わせで、合計例えば9個(6個+3個)の指向性のマイクロホンが得られる。
【0018】
図2に、マイクロホン7,8を組み合わせた指向性のマイクロホンを示す。ここではマイクロホン7,8を例とするが、マイクロホンの他の組合せでも同様である。20,21はマイクロホン7,8の感度分布(指向性)を模式的に示し、相手側のマイクロホンの影となる向きで感度が低下する。22は増幅器で、マイクロホン7,8の音声信号を増幅する。25は遅延部で、信号を増幅すると共に、マイクロホン7,8間の距離を音波が移動する時間分、信号を遅延させる。なおマイクロホン7〜10は正四面体の頂点に配置されているので、各マイクロホンの間隔は一定であり、遅延部25で遅延させる時間は、マイクロホンの組み合わせによらず一定である。このためマイクロホン7〜10毎に1個の遅延部25を設ける。
【0019】
26は差分器で、遅延部25からの信号と、組合せの相手方のマイクロホンからの遅延していない信号との差を求める。例えば差分器26aでは、マイクロホン7の信号からマイクロホン8の信号を引くことにより、図2の下側に指向性のある信号を得る。図2のマイクロホン7に上側から音波が到着すると、遅延部25を介して差分器26aに入力されて、マイクロホン8からの信号で打ち消されるので、差分器26aからの出力は小さくなる。マイクロホン8に下側から音波が到着すると、直ちに差分器26aに入力され、マイクロホン7からの信号は遅延部25で遅れるので、信号は相殺されない。なおこの時、1回の音響信号が符号を反転し僅かな時間差で2回差分器26aから出力され、一種の繰り返し信号となるが、図3の音響モデル36は周波数スペクトル等に変換して信号を処理するので、影響は小さい。必要で有れば、遅延部25と差分器26a,b等の間に、繰り返し信号を除去するフィルタを設けると良い。同様に図2の差分器26bの場合、マイクロホン8の信号からマイクロホン7の信号を引いて、図2の上側に指向したマイクロホンを得る。
【0020】
図3に音声認識装置2の全体構成を示すと、各マイクロホン7〜10に増幅器22が接続され、指向性のないマイクロホン7〜10のうち、任意の1個、例えばマイクロホン7からの信号を発話検出部30で処理し、発話区間を検出する。学習部32は発話検出区間以外でのマイクロホン7に接続した増幅器22からの信号を基に、発話検出の閾値を変更する。閾値はこれ以外に音声認識装置2の位置により変更され、位置信号は例えば音声認識装置2にGPSを設けることにより発生させる。あるいは図示しないサーバで音声認識装置2の位置を認識して、位置信号をサーバから入力しても良い。
【0021】
発話検出の閾値は例えば秒〜時間のオーダーで変化し、例えば発話区間以外の区間に対し、1秒〜1分などの所定時間毎に、現在の閾値と過去1秒〜1分程度の時間内での雑音レベルとの重み付き平均を、新たな閾値とする。重みは例えば現在の閾値を99%〜80%程度とし、周囲の雑音レベルを1%〜20%程度とする。このようにして、閾値を変更する時間間隔と、周囲の雑音レベルに対する重みとにより、所定の速度で閾値を学習(変更)する。これに対して位置信号により閾値を変更するのは、例えばピッキングを行う作業者が、冷蔵室や冷凍室などのほぼ無音の区間から扉を通過し、無人搬送車などが走行する雑音の大きい区間に移動した際などである。そして扉を通過したことにより、閾値を学習に優先して変更する。
【0022】
フィルタ24は、図2のようにして、9個の指向性のマイクロホンの信号を作り出し、セレクタ34により2個の指向性のマイクロホンの信号を選び出し、選択した2個のマイクロホンの信号を加算器35で加算し、音響モデル36で音素に変換する。そして音素を言語モデル38で言語に変換し、音声認識を完了する。セレクタ34,音響モデル36,言語モデル38が音声認識部を構成する。
【0023】
実施例ではヘッドセットを例にしたが、図4のように固定のテーブル40に指向性のマイクロホン41と無指向性のマイクロホン42とを配置し、無指向性のマイクロホン42からの信号により発話区間を検出しても良い。例えばテーブル40の周囲を雑音源44が通過したとする。指向性のマイクロホン41の信号で発話区間を検出すると、雑音源44の通過を特定の指向性のマイクロホン41が検出し、発話区間と誤認しやすい。これに対して無指向性のマイクロホン42では、雑音源44の位置が変化しても、雑音レベルの変化は小さく、また特定の雑音源44の影響を受けにくいので、発話区間をより正確に検出できる。
【0024】
図5はセレクタの変形例を示し、フィルタ24で発生させた9個の仮想的なマイクロホンからの音声信号を音響モデル36でそれぞれ音素に変換する。音響モデル36は音素への変換時に尤度を発生し、尤度が例えば上位2個の信号をセレクタ50で選出して、上位2個の音素信号を言語モデル38へ入力しても良い。しかしこのようにすると、言語モデル38で処理しない信号も音響モデル36で処理するため、処理が重くなる。
【0025】
図5〜図9に、実施例の動作を示す。例えばピッキングを行う作業者が音声認識装置2をヘッドセットとして装着し、通信部18により図示しないサーバと通信しながらピッキングを行う。そしてサーバは例えば図示しないカメラ,GPSなどにより、作業者の位置を認識しているものとする。サーバは作業者にスピーカ4から作業を指示し、作業者からサーバへの入力は音声認識装置2で行い、ヘッドセットの向きが変わると、雑音源に対する向きが変化し、作業者の移動に伴って雑音の程度が変化する。
【0026】
ここで4個の無指向性のマイクロホン7〜10を組み合わせて、仮想的に9個の指向性のマイクロホンを構成し、また4個のマイクロホン7〜10の任意の1個を発話の検出に用いる。発話の検出では、図6のように、信号の0レベルの例えば両側に閾値を定め、信号が閾値を越え後に0レベルを通過した回数などから、発話の有無を検出する。これは信号の強弱と周波数とを評価していることに想到する。
【0027】
作業者の位置などにより雑音レベルが変化するので、発話を検出していない区間でのマイクロホンからの信号により、閾値を学習により変更する。また扉などを通過し別の部屋に入ると、雑音レベルが変化する。位置の変化による雑音レベルの変化に対して、学習では一般に追随しないので、サーバからの位置情報などにより、閾値を強制的に変更する。
【0028】
発話を検出するすると、例えば9個の指向性のマイクロホンのうち、尤度が上位2個のマイクロホンの信号を用いて、音声認識を行う。このための構成を図7に示し、76は仮想的な指向性のマイクロホンの内の1個であり、発話区間以外での信号レベルの平均値を平均化部71で記憶し、除算器70でマイクロホン76からの信号と平均値との比をS/N比として求める。また発話区間での0−クロッシングの回数などをカウンタ72で求める。さらにバンドパスフィルタその他の簡易な周波数変換部により、音声信号に対応する周波数帯での信号の強弱を求め、好ましくは複数の周波数での信号の強弱を求めることにより、音声信号に対応した周波数スペクトルか否かを求める。
【0029】
S/N比は雑音に対して音声を認識している程度を表し、0−クロッシングの回数は検出している信号の平均的な周波数を表し、周波数変換部73の信号も同様に入力信号のスペクトル形状を表す。これらの信号を評価部74で評価することにより、音声を認識している可能性の大小を尤度として出力する。なおカウンタ72の信号と周波数変換部73の信号はいずれも信号の周波数に関するものなので、これらのいずれか一方のみを用いてもよい。そして尤度が例えば上位2個の指向性のマイクロホンからの信号を音響モデル36で処理することにより、正確に音声認識ができる。尤度を上位2個とする代わりに、尤度が最上位の信号のみ、あるいは尤度が上位3位までの信号のみを用いてもよい。
【0030】
実施例の処理を図8,図9に示し、その内容は上記のもので、図8の発話区間の検出では、ステップ1,2で、無指向性マイクの信号が閾値の外側から0クロッシングした回数から発話区間か非発話区間かを識別する。非発話区間では、ステップ3,4のように、学習により発話検出の閾値を変更し、扉を通過し別の部屋に入ると、閾値を位置情報に応じて修正する(ステップ5)。
【0031】
音声認識は発話区間に対して行い、ステップ10、ステップ11で各指向性マイクロホンからの信号のS/N比、0クロッシングの回数、周波数の分布等により、尤度が上位2個の指向性マイクロホンを選択し、ステップ12で音声認識する。
【0032】
実施例では音源の位置の推定無しで、雑音と音声とを区別して発話検出ができる。また音源位置の推定無しで、いずれの指向性のマイクロホンの信号を音声認識するかを決定できる。さらにヘッドセットに音声認識装置2を設けた場合、雑音源に対するマイクロホンの向きが変化すること、作業者の移動により雑音源に対する相対位置が変化することなどの影響を受けずに、発話区間を検出できる。学習により発話検出の閾値を変更することにより、各時点での雑音の強弱に応じた閾値を設定でき、位置情報により閾値を変更することにより、新しい環境に移動した際に、学習を待たずに閾値を変更できる。
【符号の説明】
【0033】
2 音声認識装置
4 スピーカ
6 マイクロホンアレイ
7〜10 マイクロホン
12 アーム
13 コード
14 音声認識装置本体
15 電源
16 信号処理部
18 通信部
20,21 感度分布
22 増幅器
24 フィルタ
25 遅延部
26 差分器
30 発話検出部
32 学習部
34 セレクタ
35 加算器
36 音響モデル
38 言語モデル
40 テーブル
41 指向性のマイクロホン
42 無指向性のマイクロホン
44 雑音源
50 セレクタ
70 除算器
71 平均化部
72 カウンタ
73 周波数変換部
74 評価部
76 指向性のマイクロホン

【特許請求の範囲】
【請求項1】
複数の指向性のマイクロホンと、前記複数の指向性のマイクロホン中の少なくとも1個のマイクロホンからの信号に対して音声認識を行う音声認識部とを備えたシステムであって、
無指向性のマイクロホンと、該無指向性のマイクロホンからの信号により発話区間を検出する発話検出部とを備え、前記音声認識部は発話区間の信号に対して音声認識を行うように構成されていることを特徴とする音声認識システム。
【請求項2】
前記複数の指向性のマイクロホンと前記無指向性のマイクロホンとを有するヘッドセットを備えていることを特徴とする、請求項1に記載の音声認識システム。
【請求項3】
音声認識部は、前記複数の指向性のマイクロホンに対して、発話区間とそれ以外の区間での信号の強弱の程度、及び発話区間での信号の周波数帯、の少なくとも一方に基づいて、どの指向性のマイクロホンからの信号を音声認識するかを決定する選択部、を備えていることを特徴とする、請求項1または2に記載の音声認識システム。
【請求項4】
前記発話検出部は、無指向性のマイクロホンからの信号を少なくとも閾値と比較することにより発話を検出すると共に、発話区間以外での無指向性のマイクロホンからの信号の強弱に応じて前記閾値を学習し、かつ音声認識装置の位置に応じて閾値を変更するように構成されていることを特徴とする、請求項1〜3のいずれかの音声認識システム。
【請求項5】
複数の指向性のマイクロホン中の少なくとも1個のマイクロホンからの信号に対して、音声認識装置より音声認識を行う方法であって、
前記音声認識装置は、無指向性のマイクロホンからの信号により発話区間を検出し、発話区間の信号に対して音声認識を行うことを特徴とする音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−81322(P2011−81322A)
【公開日】平成23年4月21日(2011.4.21)
【国際特許分類】
【出願番号】特願2009−235565(P2009−235565)
【出願日】平成21年10月9日(2009.10.9)
【出願人】(000006297)村田機械株式会社 (4,916)
【Fターム(参考)】