説明

受音装置、音声認識システム、及び作業指示システム

【課題】騒音の影響による音声認識の精度低下を低コストで防止した受音装置を提供する。
【解決手段】受音装置は、音声取得用マイクロフォン12と、騒音取得用マイクロフォン31と、を備える。音声取得用マイクロフォン12は、作業者の声を含む第1音情報を取得する。騒音取得用マイクロフォン31は、作業者とともに走行するピッキングカートに取り付けられ、作業者の声の音声認識を行うときに不要となる騒音を含む第2音情報を取得する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、主として、音声認識を行うための音声を取得する受音装置に関する。
【背景技術】
【0002】
近年では、倉庫及び物流センターで行われる入荷作業、検品作業、及びピッキング作業等において、音声認識が利用されることがある。具体的には、倉庫等において作業者に指示を行うための指示部(サーバ等)が設置されており、この指示部の指示に従って作業者は作業を行う。また、作業者はマイクロフォン(音声取得用マイクロフォン)を装着しており、指示部に対する報告等を音声によって行う。この音声は、適宜の処理部によって音声認識がなされることにより、指示部が認識可能な形式に変換される。指示部は、変換されたデータを受信し、受信したデータの内容に基づいて、作業者に対して指示を行う。
【0003】
通常、倉庫等ではベルトコンベア及び無人搬送車のサイレン等による騒音が発生しているため、作業者の声が鮮明に取得できず、音声認識の精度が低下してしまう。そのため、騒音を取得するためのマイクロフォン(騒音取得用マイクロフォン)を設置し、音声取得用マイクロフォンが取得した音から騒音取得用マイクロフォンが取得した音を減算することが行われている。これにより、音声取得用マイクロフォンが取得した音声及び騒音のうち、騒音を減算することができるので、鮮明な音声を用いて精度の良い音声認識を行うことができる。
【0004】
なお、倉庫及び工場等において騒音等を取得する構成として、以下の特許文献1及び特許文献2の構成が知られている。
【0005】
特許文献1の環境防災管理システムは、温度センサ及びガスセンサ等の各種センサを備えた無人台車が倉庫内を巡回する構成となっている。そして、各種センサによって異常を検出したときは、倉庫の監視及び管理を行う機関に対してその旨を送信することができる。なお、この特許文献1は倉庫内の異常を検知するための構成であって、人が乗る又は人が押すカート等にこの発明を適用する構成は開示されていない。
【0006】
特許文献2の無人搬送車は、周囲の騒音を取得する環境音抽出部と、メロディ音を発生して周囲に報知するメロディ発生回路と、を備えている。メロディ発生回路は、環境音抽出部が取得した騒音の音量に基づいて、発生させる音量を調整するように構成されている。従って、無人搬送車は、適切な音量でメロディ音を発生させて、当該無人搬送車の走行を周囲に報知することができる。なお、この特許文献2では、人が乗る又は人が押すカート等にこの発明を適用する構成は開示されていない。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平9−91567号公報
【特許文献2】特開平3−256104号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、周囲の騒音を考慮して音声認識を行う場合、同じ倉庫内であっても位置によって騒音の種類及び音量が異なるため、作業者の近くの騒音を取得することが望ましい。作業者の近くの騒音を検出する構成としては、作業者が装着するヘッドセット等に騒音検出用のマイクロフォンを取り付ける構成が考えられる。しかし、この構成では、騒音検出用のマイクロフォンに作業者の声が混入してしまう。この場合、作業者の声が騒音と判断されて、この作業者の声を抑圧するように処理が行われる。従って、音声認識の精度が低下してしまう。
【0009】
上記の他にも、騒音を検出するマイクロフォンを倉庫内に多数配置し、作業者の近くのマイクロフォンを用いて騒音を検出する構成も考えられる。しかし、この構成では、マイクロフォンが多数必要となり高コストとなってしまう。
【0010】
また、特許文献1及び特許文献2では、マイクロフォンは、異常を検知するため及び発生させるメロディ音の音量を調整するために騒音を取得しており、作業者の声の音声認識を精度良く行うためではない。
【0011】
本発明は以上の事情に鑑みてされたものであり、その目的は、騒音の影響による音声認識の精度低下を低コストで防止した受音装置を提供することにある。
【課題を解決するための手段及び効果】
【0012】
本発明の解決しようとする課題は以上の如くであり、次にこの課題を解決するための手段とその効果を説明する。
【0013】
本発明の第1の観点によれば、以下の構成の受音装置が提供される。即ち、この受音装置は、音声取得部と、騒音取得部と、を備える。前記音声取得部は、作業者の声を含む第1音情報を取得する。前記騒音取得部は、作業者とともに走行する走行体に取り付けられ、作業者の声の音声認識を行うときに不要となる騒音を含む第2音情報を取得する。
【0014】
なお、本明細書において、「走行体」とは、自動車等のように駆動力を自ら発生させて走行するものだけでなく、作業者が力を加えることにより駆動力が供給されて走行する台車等も含む。
【0015】
これにより、騒音源毎に騒音取得部を配置することなく作業者の周囲の騒音を取得することができるので、高精度な音声認識を達成しつつ低コスト化を実現できる。また、一般的には、騒音取得部が作業者に近過ぎると、作業者の声を騒音取得部が拾って騒音として処理されてしまう一方、騒音取得部が作業者から遠過ぎると、作業者の周囲の騒音を的確に取得できない。この点、上記の構成では、作業者は、走行体に近づく又は走行体から離れることにより、騒音取得部からの距離を容易に調整することができる。従って、作業者は、声が上手く認識されないときに、騒音取得部からの距離を調整することにより、声を認識され易くすることができる。
【0016】
前記の受音装置においては、以下の構成とすることが好ましい。即ち、複数の前記騒音取得部が前記走行体に取り付けられる。複数の前記騒音取得部のうち、作業者から最も離れた位置の前記騒音取得部が取得した前記第2音情報を優先的に考慮して、前記第1音情報に含まれる作業者の声の音声認識が行われる。
【0017】
これにより、作業者の声が騒音取得部によって取得されにくくなるため、作業者の声が騒音として処理されて音声認識の精度が低下することを防止できる。
【0018】
前記の受音装置においては、以下の構成とすることが好ましい。即ち、複数の前記騒音取得部が前記走行体に取り付けられる。複数の前記騒音取得部が取得した前記第2音情報は、騒音源の位置する方向から取得する音を強調するように処理され、当該処理後の前記第2音情報に含まれる騒音を考慮して、前記第1音情報に含まれる作業者の声の音声認識が行われる。
【0019】
これにより、精度良く取得した騒音を考慮して、第1音情報に含まれる作業者の声の音声認識を行うことができる。従って、音声認識の精度を一層向上させることができる。
【0020】
前記の受音装置においては、以下の構成とすることが好ましい。即ち、予め録音された複数の騒音データが記憶された騒音データベースから、前記第2音情報に含まれる騒音に類似する騒音データが選択される。選択された騒音データを考慮して、作業者の声の音声認識が行われる。
【0021】
即ち、騒音データベースを用いず、第1音情報から第2音情報を減算する構成では、第2音情報に作業者の声が混入したときに、作業者の声も減算されてしまう。この場合、音声認識に用いる声に歪みが生じるため、音声認識の精度が低下してしまう。この点、本発明の構成では、騒音データベースを用いることにより騒音のみを減算することができるため、上記歪みを防止して、音声認識の精度の低下を防ぐことができる。
【0022】
前記の受音装置においては、以下の構成とすることが好ましい。即ち、この受音装置は、騒音データを選択するための情報を取得する騒音選択情報取得部を備える。前記騒音取得部及び前記騒音選択情報取得部の両方が取得した内容を考慮して、前記騒音データベースから騒音データが選択される。
【0023】
これにより、騒音データを選択するための情報として例えば騒音源の映像及び温度等を取得した場合は、騒音源及び騒音源の稼動状況等を知ることができる。そのため、作業者の周囲の騒音について一層精度良く把握することができるので、騒音データベースから騒音データを的確に選択することができる。
【0024】
前記の受音装置においては、前記第2音情報に含まれる騒音が所定のレベルより小さい場合は、クリーン音声と、当該音声が示す情報と、を対応付けたクリーン音響モデルが用いられることが好ましい。
【0025】
即ち、騒音が所定のレベルより小さい(静か)であるときは、騒音を減圧する処理を行うことで、逆に音声認識の精度が低下してしまうことがある。この点、上記の構成では、騒音の影響を軽減するための処理を、不要なときには行わない構成であるので、作業者の声の認識精度が低下することを防止できる。
【0026】
前記の受音装置においては、作業者の声の音声認識には、クリーン音声に作業者の周囲の騒音を付加した修正音声と、当該音声が示す情報と、を対応付けた騒音付加音響モデルが用いられることが好ましい。
【0027】
これにより、音声と騒音とが混在している第1音情報に対しても、精度良く音声認識を行うことができる。また、本発明では、第2音情報に作業者の声が混入しにくいため、作業者の周囲の騒音を精度良く取得して、適切な騒音付加音響モデルを用いて音声認識を行うことができる。
【0028】
前記の受音装置においては、以下の構成とすることが好ましい。即ち、前記音声取得部は、指示に応じて品物を移動させる作業者の声を取得するためのものである。前記騒音取得部は、前記走行体としてのカートに取り付けられる。
【0029】
即ち、ピッキング作業を行う倉庫等には、ベルトコンベア及びサイレン等の騒音源があるため、音声認識の精度が低くなりがちである。この点、本発明を適用することにより、音声認識の精度を向上させて、ピッキング作業を高効率で行うことができる。
【0030】
本発明の第2の観点によれば、以下の構成の音声認識システムが提供される、即ち、この音声認識システムは、前記の受音装置と、音声認識部と、を備える。前記音声認識部は、前記受音装置から取得した前記第1音情報に基づいて、作業者の声の音声認識を行う。
【0031】
これにより、騒音のある場所においても高精度な音声認識が可能な音声認識システムが実現できる。
【0032】
本発明の第3の観点によれば、以下の構成の作業指示システムが提供される、即ち、この作業指示システムは、前記の音声認識部と、指示部と、を備える。前記指示部は、前記音声認識部の音声認識の結果に基づいて、作業者に対して作業の指示を行う。
【0033】
これにより、高精度な音声認識が可能となるので、作業効率を向上させることができる。
【図面の簡単な説明】
【0034】
【図1】本発明の一実施形態に係るWMSの概要を示す説明図。
【図2】WMSの構成を示すブロック図。
【図3】音声認識部、及び受音装置の構成要素を示すブロック図。
【図4】ピッキング作業の流れを示すシーケンス図。
【図5】第1音情報に含まれる騒音の影響を軽減するために処理部が行う処理を示すフローチャート。
【図6】取得した騒音の位相が騒音取得用マイクロフォン毎にズレていることを説明する図。
【発明を実施するための形態】
【0035】
次に、図面を参照して本発明の実施の形態を説明する。
【0036】
初めに、作業指示システムとしてのWarehouse Management System(WMS、倉庫管理システム)1の概要について説明する。
【0037】
WMS1は、大量の商品が格納される倉庫及び物流センター等で、ピッキング作業等の業務を管理するシステムである。ピッキング作業とは、注文等に応じて、該当する商品を作業者が倉庫内の棚等から選んで運び出す作業のことである。なお、作業者に対する指示は、管理サーバ(指示部)50によって行われている。
【0038】
本実施形態において、作業者から管理サーバ50に対する意思伝達の手段の一部として音声が採用されており、この音声の解釈のために音声認識技術が用いられている。しかし、倉庫内はベルトコンベア及び搬送用のトラック等による騒音が大きく、通常は、音声認識の精度が低下しがちである。そこで、本実施形態では、作業者の周囲の騒音を取得して、当該騒音を考慮して音声認識を行っている。以下、図1及び図2を参照して、WMS1が備える各部の構成について説明する。図1は、本発明の一実施形態に係るWMS1の概要を示す説明図である。図2は、WMS1の構成を示すブロック図である。
【0039】
WMS1は、図1及び図2に示すように、作業者に装着される構成として、ヘッドセット10と、ヘッドマウントディスプレイ13と、RFリーダ14と、PC20と、を備える。
【0040】
ヘッドセット10は、ヘッドホン11と、音声取得用マイクロフォン(音声取得部)12と、で構成されている。ヘッドホン11は、管理サーバ50からの音声による指示を作業者が聞くためのものである。音声取得用マイクロフォン12は、作業者の声を取得するためのものである。なお、音声取得用マイクロフォン12が取得する音には、作業者の声だけでなく周囲の騒音が含まれることが多い。以下の説明では、音声取得用マイクロフォン12が取得する音(作業者の声及び騒音)を「第1音情報」と称する。
【0041】
ヘッドマウントディスプレイ13は、作業者の頭部に装着されるディスプレイであり、管理サーバ50からの映像による指示を作業者が見るためのものである。このヘッドマウントディスプレイ13は作業者の目の上方に配置されているため、作業者の視界を妨げることなくピッキング作業を行うことができる。なお、ヘッドマウントディスプレイ13を備えず、管理サーバ50が音声のみで作業者に対して指示を行う構成にしても良い。
【0042】
RFリーダ14は、商品41に取り付けられたRFタグ42を読み取るためのものである。このRFタグ42には商品41を識別するためのID情報が埋め込まれており、このRFタグ42をRFリーダ14で読み取ることにより、当該ID情報を取得することができる。
【0043】
なお、このRFリーダ14は腕に装着する構成であるため、作業者は常に両手を使ってピッキング作業を行うことができる。なお、RFリーダ14は、作業者の腕に装着された部分で読取りを行う構成に代えて、作業者の指に装着された部分で読取りを行う構成にしても良い。また、作業者が手で持つタイプの端末で読取りを行う構成にすることもできる。
【0044】
また、図2に示すように、ヘッドセット10、ヘッドマウントディスプレイ13、及びRFリーダ14は、有線又は無線でPC20と接続されており、情報をやり取りすることができる。
【0045】
PC20は、図2に示すように、処理部(音声認識部)21と、騒音データベース22と、音響モデルデータベース23と、を主要な構成として備えている。なお、PC20は、作業者が装着している装置と接続される他、ピッキングカート(走行体、カート)30が備える構成及び管理サーバ50に対して無線で接続されている。
【0046】
処理部21は、音声取得用マイクロフォン12から第1音情報を取得し、後述の方法により周囲の騒音の影響を軽減させて、騒音を軽減させた後の第1音情報に含まれる作業者の声に対して音声認識を行っている。この音声認識の結果は、処理部21によって、管理サーバ50に送信される。また、処理部21は、音声認識の結果以外にも、RFリーダ14から取得した商品41のID情報を管理サーバ50に送信している。また、処理部21は、音声認識の結果等に応じて管理サーバ50が作成した指示等を受信し、この指示を必要に応じて適宜の形式に変換して、音声による指示をヘッドホン11に、映像による指示をヘッドマウントディスプレイ13に送信している。
【0047】
騒音データベース22は、予め録音された複数の騒音データを、騒音源と対応付けて記憶している。ここで記憶される騒音データとしては、例えば、ベルトコンベアの駆動音、及び無人搬送車が走行中に鳴らす警報音等を挙げることができる。
【0048】
音響モデルデータベース23は、予め録音されたクリーン音声と、当該音声が示す情報と、を対応付けたクリーン音響モデルを記憶するとともに、このクリーン音声に所定の騒音を付加した修正音声と、当該音声が示す情報と、を対応付けた騒音付加音響モデルを記憶している。音響モデルデータベース23は、付加する騒音が異なる複数の騒音付加音響モデルを、騒音源と対応付けて記憶している。この騒音付加音響モデルを用いることにより、ある騒音が発生している状況下で音声認識を行う場合、発生している騒音に類似した騒音が付加された騒音付加音響モデルを用いることにより、音声認識の精度の低下を防止できる。
【0049】
また、WMS1は、図1及び図2に示すように、ピッキングカート30が備える構成として、騒音取得用マイクロフォン(騒音取得部)31と、カメラ(騒音選択情報取得部)32と、赤外線センサ(騒音選択情報取得部)33と、を備える。
【0050】
ピッキングカート30は、作業者が商品棚40から選んだ商品41を入れておくためのものである。このピッキングカート30は、作業者が引っ張る又は押すことで、作業者とともに走行する。
【0051】
騒音取得用マイクロフォン31は、ピッキングカート30に複数取り付けられており、作業者の周囲の騒音を取得している。なお、本実施形態の騒音取得用マイクロフォン31は、無指向性のマイクロフォンである。この騒音取得用マイクロフォン31が取得する音には、周囲の騒音だけでなく作業者の声が含まれることがある。以下の説明では、騒音取得用マイクロフォン31が取得する音(騒音及び作業者の声)を「第2音情報」と称する。騒音取得用マイクロフォン31が取得した第2音情報は、処理部21に送信される。なお、複数の騒音取得用マイクロフォン31から取得した第2音情報は、後述のマイクロフォンアレー技術を用いることにより、作業者の声が混入しにくくなっている。
【0052】
カメラ32は、ピッキングカート30に取り付けられており、作業者の周囲の映像を取得している。カメラ32が取得した映像は、処理部21に送信される。処理部21は、取得した映像と、記憶している騒音源の映像と、を比較することにより、作業者の周囲にどの騒音源があるか、及びその騒音源が稼動しているか否かを判断している。
【0053】
赤外線センサ33は、ピッキングカート30に取り付けられており、作業者の周囲の熱分布を検出している。赤外線センサ33が取得した熱分布は、処理部21に送られる。処理部21は、この熱分布を分析することにより、周囲にどの騒音源があるか、及びその騒音源が稼動しているか否かを判断している。
【0054】
本実施形態は以上のように構成されているので、音声取得用マイクロフォン12と騒音取得用マイクロフォン31とを備えた構成を、音声を取得するための受音装置3として把握することができる(図3を参照)。そして、この受音装置3と、当該受音装置3が取得した音声に基づいて音声認識を行う処理部21と、を備えた構成を、音声認識システム2として把握することができる(図3を参照)。
【0055】
次に、図4を参照して、ピッキング作業の流れについて説明する。図4は、ピッキング作業の流れを示すシーケンス図である。
【0056】
作業者は、上記で説明したヘッドセット10等を装着し、作業の準備が完了した後に、音声取得用マイクロフォン12に向かって「作業開始」と発声する。この声は、処理部21によって音声認識され、作業の準備が整った旨が管理サーバ50に送信される(シーケンス番号1)。
【0057】
管理サーバ50は、この信号を受信した後に、現在の注文状況及び他の作業者の作業状況等に基づいて、運び出す商品及びその個数を決定する。そして、運び出す商品の、商品名、個数、及び位置(棚の番号等)を示す信号を処理部21に送信する(シーケンス番号2)。
【0058】
処理部21は、受信した信号に基づいて、商品名等をヘッドマウントディスプレイ13に表示させるとともに、ヘッドホン11から音声によって作業者に伝える。そして、作業者は、伝えられた情報に基づいて、ピッキングカート30を引きながら指定された商品棚40まで移動する。そして、作業者は、指定された商品41を見つけ出すと、当該商品41に貼り付けられているRFタグ42を、RFリーダ14によって読み取る(シーケンス番号3)。RFタグ42に埋め込まれたID情報は、処理部21を介して、管理サーバ50に送信される(シーケンス番号4)。
【0059】
管理サーバ50は、受信したID情報が、指示した商品のID情報と同一か否かを判断し(シーケンス番号5)、その判断結果を処理部21に送信する(シーケンス番号6)。
【0060】
処理部21は、管理サーバ50から受信した判断結果を音声又は映像によって作業者に伝える。作業者は、選択した商品41が正しいと伝えられた場合、指示された個数の商品41をピッキングカート30に入れる(シーケンス番号7)。なお、選択した商品が間違っていると伝えられた場合、作業者は、商品41を再選択して、再選択した商品41のRFタグ42をRFリーダ14によって読み取る。そして、同様の処理が行われ、再び判断結果が作業者に伝えられる。また、作業者は、商品41をピッキングカート30に入れ終わると、入れた商品41の個数を声に出す。この声は、処理部21によって音声認識され、ピッキングカート30に入れた個数が管理サーバ50に送信される(シーケンス番号8)。
【0061】
管理サーバ50は、作業者がピッキングカート30に入れた商品41の個数が、指示した個数と同一か否かを判断し(シーケンス番号9)、その判断結果を送信する(シーケンス番号10)。なお、指示した個数と同一であると判断した場合は、管理サーバ50は、次に運び出す商品の、商品名、個数、及び位置を示す信号を処理部21に送信する(シーケンス番号11)。
【0062】
処理部21は、管理サーバ50から受信した信号の内容を音声又は映像によって作業者に伝える。ピッキングカート30に入れた商品41の個数が正しいと伝えられた場合、作業者は次の作業を開始する。一方、ピッキングカート30に入れた商品41の個数が正しくないと伝えられた場合、作業者は、ピッキングカート30内の商品41の個数が指示された個数になるように調整して、処理部21を介してその個数を再び管理サーバ50に送信する。
【0063】
なお、作業者は、管理サーバ50からの指示をもう一度聞きたい場合は、予め指定された言葉を発声することで、その言葉が処理部21によって音声認識されて、もう一度指示を聞くことができる。また、作業者の声を処理部21が認識できない場合は、音声認識に失敗したことが作業者に伝えられ、もう一度発声することが要求される。
【0064】
次に、騒音の影響を軽減して音声認識の精度を向上させるために、処理部21が行っている処理について図5を参照して説明する。図5は、第1音情報に含まれる騒音の影響を軽減するために処理部21が行う処理を示すフローチャートである。
【0065】
処理部21は、作業者のピッキング作業中において、騒音取得用マイクロフォン31が取得した第2音情報と、カメラ32が取得した映像と、赤外線センサ33が取得した熱分布と、を取得している(S101,S102,S103)。なお、処理部21は、図5のフローチャートに示す順に情報を取得するとは限られないものとする。また、処理部21は、これらの情報を所定時間毎に取得している。
【0066】
次に、処理部21は、取得した情報に基づいて、騒音源を特定する(S104)。具体的には、処理部21は、第2音情報と、騒音データベース22に含まれる騒音データと、を比較して、第2音情報に含まれる騒音の騒音源を探す。このとき、カメラ32から取得した映像と、予め記憶された騒音源の映像と、を比較した結果、及び赤外線センサ33が取得した熱分布等も考慮される。なお、第2音情報に含まれる騒音の騒音源を特定する処理(S101からS104までの処理)は、所定時間毎に行われる。従って、ピッキングカート30が移動しても、移動先の周囲にある騒音源を特定することができる。
【0067】
次に、処理部21は、第2音情報に含まれる騒音のレベル(音量)が所定値以上か、所定値より小さいか、を判断する(S105)。なお、この所定値は、特定した騒音源毎に異なる値を設定することができる。初めに、騒音のレベルが所定値以上である場合について説明する。処理部21は、第2音情報のレベルが所定値以上である場合は、特定した騒音源に対応付けて記憶されている騒音データを騒音データベース22から選択して、この騒音データを取得する(S106)。
【0068】
次に、処理部21は、音声取得用マイクロフォン12から第1音情報を取得した後に、この第1音情報から、先ほど選択した騒音データを除去する(S107)。この除去には、例えば公知のスペクトラムサブストラクション法が用いられる。スペクトラムサブストラクション法とは、雑音の混入した音声信号の振幅スペクトラムから雑音の振幅スペクトラムを差し引くことによって雑音抑圧を実現するものである。また、雑音の混入した音声信号のパワースペクトラム(振幅スペクトラムを2乗したもの)から雑音のパワースペクトラムを差し引いても良い。
【0069】
しかし、上記のスペクトラムサブストラクション法では、第1音情報に含まれる騒音を除去し切れないことが多い。そのため、処理部21は、前述の騒音付加音響モデル(クリーン音声に所定の騒音を付加した修正音声と、当該音声が示す情報と、を対応付けた音響モデル)を用いている。具体的には、処理部21は、上記で特定した騒音源による騒音が付加された騒音付加音響モデルを音響モデルデータベース23から選択する(S108)。そして、雑音除去後の第1音情報と、選択した騒音付加音響モデルと、を比較して音声認識を行う(S109)。そして、作業者の声を、商品41の個数等を示すデータに変換する。
【0070】
その後、処理部21は、音声認識の結果得られたデータを管理サーバ50に送信する(S110)。以上のようにして、処理部21は、騒音の影響を軽減して音声認識を行うことができる。また、本実施形態では、騒音取得用マイクロフォン31がピッキングカート30に取り付けられているので、作業者が騒音取得用マイクロフォン31との距離を調整することにより、作業者の声が騒音取得用マイクロフォン31に混入することを防止できる。また、作業者が騒音取得用マイクロフォン31と離れすぎて、第2音情報と作業者の周囲の騒音とにズレが生じても、作業者が騒音取得用マイクロフォン31との距離を調整することにより、このズレを解消することができる。
【0071】
次に、第2音情報に含まれる騒音のレベルが所定値より小さい場合について説明する。騒音のレベルが小さい場合は、騒音の影響を軽減するための処理(上記の減算処理及び騒音付加モデルによる音声認識)によって、逆に、音声認識の精度が低下してしまうことがある。そのため、処理部21は、騒音のレベルが所定値より小さい場合は、前述のクリーン音響モデル(クリーン音声と、当該音声が示す情報と、を対応付けた音響モデル)を音響モデルデータベース23から選択して、当該クリーン音響モデルを取得する(S111)。そして、処理部21は、第1音情報と、クリーン音響モデルと、を比較して音声認識を行う(S112)。その後は、騒音のレベルが所定値以上の場合と同様に、音声認識の結果得られたデータを管理サーバ50に送信する(S110)。
【0072】
このように処理部21は、騒音の影響を軽減するための処理を、必要な場合にのみ行うことができる。
【0073】
次に、第2音情報に作業者の声が混入することを防止した構成について説明する。初めに、マイクロフォンアレー技術を用いて無指向性の騒音取得用マイクロフォン31に指向性を持たせる処理について、図6を参照して説明する。図6は、取得した騒音の位相が、騒音取得用マイクロフォン31毎にズレていることを説明する図である。
【0074】
図6に示すように、隣り合う2つの騒音取得用マイクロフォン31を符号310,311で表し、図6に示す方向からの騒音を取得する場合を考える。なお、隣り合う騒音取得用マイクロフォン310,311同士の間隔をdとし、騒音取得用マイクロフォン310,311が並べられた方向と騒音源の方向とが為す角をθとする。
【0075】
この場合、騒音源から騒音取得用マイクロフォン310,311に引いた2直線を平行と近似すると、図6に示すように、騒音源から騒音取得用マイクロフォン310までの距離は、騒音源から騒音取得用マイクロフォン311までの距離よりも、Lだけ短くなる。このLは幾何学的な計算からdsinθと求めることができる。従って、騒音取得用マイクロフォン311が取得する騒音は、騒音取得用マイクロフォン310が取得する騒音と比較して、dsinθ/cだけ位相が遅れることになる。ここで、cは音速を示している。なお、以下の説明では、この遅延時間をτと表す。
【0076】
従って、騒音取得用マイクロフォン310が取得した第2音情報をτだけ遅延させて、騒音取得用マイクロフォン311が取得した第2音情報と足し合わせることで、騒音源の方向から取得した音を2倍にすることができる。なお、騒音源の方向以外からの音は、位相が重なり合わないため、増幅されることはない。従って、騒音源の方向から取得する音のみを増幅させて取り扱うことができる。
【0077】
以上のようにして、無指向性の騒音取得用マイクロフォン31に指向性を持たせることができる。また、それぞれの騒音取得用マイクロフォン31が取得した第2音情報は図略のメモリに記憶されているため、複数の方向に対して上記の演算を行い、複数の方向に同時に指向性を持たせることもできる。
【0078】
次に、このマイクロフォンアレー技術を用いて、作業者の声の混入を防止しつつ、騒音を精度良く取得する方法の例を説明する。
【0079】
この方法としては、予め複数の方向を定めておき、所定時間毎に、その複数の方向から第2音情報を取得する。そして、取得した第2音情報の音量がある閾値以上であった場合に、その第2音情報には、除去すべき騒音が含まれていると判断する。そして、上記の騒音を抑圧する処理が行われる。
【0080】
なお、この方法では、音声と非音声とを区別する処理を行って非音声と判断された音に対してのみ騒音を抑圧する処理を行うことにより、除去すべき騒音についてのみ上記の処理を行うことができる。また、この方法は、回転可能に構成された指向性マイクロフォンを使用して行うこともできる。
【0081】
上記の他の方法としては、公知のCSP法等により作業者の方向を推定し、作業者から最も遠くに配置された騒音取得用マイクロフォン31が取得した第2音情報を用い、当該第2音情報に含まれる騒音に対して、上記の騒音を抑圧する処理を行うこともできる。この場合、第2音情報に作業者の声が混入しにくいため、的確に騒音源の特定を行うことができる。
【0082】
なお、この方法では、作業者から最も遠くに配置された騒音取得用マイクロフォン31と、その近傍の1又は複数の騒音取得用マイクロフォン31と、で構成されるマイクロフォンアレーを用いて、騒音を抑圧する処理を行っても良い。
【0083】
以上に説明したように、本実施形態の受音装置3は、音声取得用マイクロフォン12と、騒音取得用マイクロフォン31と、を備える。音声取得用マイクロフォン12は、作業者の声を含む第1音情報を取得する。騒音取得用マイクロフォン31は、作業者とともに走行するピッキングカート30に取り付けられ、作業者の声の音声認識を行うときに不要となる騒音を含む第2音情報を取得する。
【0084】
これにより、騒音源毎に騒音取得用マイクロフォン31を配置することなく作業者の周囲の騒音を取得することができるので、高精度な音声認識を達成しつつ低コスト化を実現できる。また、作業者は、ピッキングカート30に近づく又はピッキングカート30から離れることにより、騒音取得用マイクロフォン31からの距離を容易に調整することができる。従って、作業者は、声が上手く認識されないときに、騒音取得用マイクロフォン31からの距離を調整することにより、声を認識され易くすることができる。
【0085】
また、本実施形態の受音装置3においては、複数の騒音取得用マイクロフォン31がピッキングカート30に取り付けられる。そして、第1音情報に含まれる作業者の声について音声認識処理をするにあたっては、複数の騒音取得用マイクロフォン31のうち、作業者から最も離れた位置の騒音取得用マイクロフォン31が取得した第2音情報を優先的に考慮する構成にすることもできる。
【0086】
これにより、作業者の声が騒音取得用マイクロフォン31によって取得されにくくなるため、作業者の声が騒音として処理されて音声認識の精度が低下することを防止できる。
【0087】
また、本実施形態の受音装置3においては、複数の騒音取得用マイクロフォン31がピッキングカート30に取り付けられる。複数の騒音取得用マイクロフォン31が取得した第2音情報は、騒音源の位置する方向から取得する音を強調するように処理され、当該処理後の第2音情報に含まれる騒音を考慮して、第1音情報に含まれる作業者の声の音声認識が行われる。
【0088】
これにより、精度良く取得した騒音を考慮して、第1音情報に含まれる作業者の声の音声認識を行うことができる。従って、音声認識の精度を一層向上させることができる。
【0089】
また、本実施形態の受音装置3においては、予め録音された複数の騒音データが記憶された騒音データベース22から、第2音情報に含まれる騒音に類似する騒音データが選択される。選択された騒音データを考慮して(第1音情報から減算して)、作業者の声の音声認識が行われる。
【0090】
これにより、第1音情報から作業者の音声が減算されることなく、騒音のみが減算されるため、音声認識に用いる音声に歪みが発生することを防止できる。
【0091】
また、本実施形態の受音装置3は、騒音データを選択するための情報を取得するカメラ32及び赤外線センサ33を備える。騒音取得用マイクロフォン31、カメラ32及び赤外線センサ33が取得した内容を考慮して、騒音データベース22から騒音データが選択される。
【0092】
これにより、騒音源の映像及び熱分布等を考慮することにより、作業者の周囲の騒音について一層精度良く把握することができるので、騒音データベース22から騒音データを的確に選択することができる。
【0093】
また、本実施形態の受音装置3においては、第2音情報に含まれる騒音が所定のレベルより小さい場合は、クリーン音声と、当該音声が示す情報と、を対応付けたクリーン音響モデルが用いられる。
【0094】
これにより、処理部21は、騒音の影響を軽減するための処理を、必要な場合にのみ行うことができる。従って、作業者の声の認識精度が低下することを防止できる。
【0095】
また、本実施形態の受音装置3においては、作業者の声の音声認識には、クリーン音声に作業者の周囲の騒音が付加された修正音声と、当該音声が示す情報と、を対応付けて記憶した騒音付加音響モデルが用いられる。
【0096】
これにより、音声と騒音とが混在している第1音情報に対しても、精度良く音声認識を行うことができる。また、本実施形態では、第2音情報に作業者の声が混入しにくいため、作業者の周囲の騒音を精度良く取得して、適切な騒音が付加された騒音付加音響モデルを用いて音声認識を行うことができる。
【0097】
また、本実施形態の受音装置3においては、音声取得用マイクロフォン12は、指示に応じて品物を移動させる作業者の声を取得するためのものである。騒音取得用マイクロフォン31は、走行体及びカートとしてのピッキングカート30に取り付けられる。
【0098】
即ち、ピッキング作業を行う倉庫等には、ベルトコンベア及びサイレン等の騒音源があるため、音声認識の精度が低くなりがちである。この点、本実施形態では、音声認識の精度を向上させて、ピッキング作業を高効率で行うことができる。
【0099】
また、本実施形態の音声認識システム2は、受音装置3と、処理部21と、を備える。処理部21は、受音装置3から取得した第1音情報に基づいて、作業者の声の音声認識を行う。
【0100】
また、本実施形態のWMS1は、処理部21と、管理サーバ50と、を備える。管理サーバ50は、処理部21の音声認識の結果に基づいて、作業の指示を作業者に対して行う。
【0101】
これにより、高精度な音声認識が可能となるので、作業効率を向上させることができる。
【0102】
以上に本発明の好適な実施の形態を説明したが、上記の構成は例えば以下のように変更することができる。
【0103】
RFタグ42に代えて、商品のID情報が埋め込まれたバーコードを商品41に貼り付ける構成にしても良い。この場合、作業者はRFリーダ14ではなくバーコードリーダを装着することになるが、ヘッドマウントディスプレイ13にバーコードリーダ機能を付加しても良い。
【0104】
上記実施形態では、カメラ32及び赤外線センサ33を用いて、適切な騒音データを騒音データベース22から選択するための情報(騒音選択情報)を取得しているが、以下のようにして、この騒音選択情報を取得しても良い。即ち、管理サーバ50が、商品41のID情報と、当該商品41が格納される場所付近にある騒音源と、を対応付けて予め記憶しておく。そして、作業者が商品41のRFタグ42を読み取り、処理部21が商品41のID情報を管理サーバ50に送信する。このID情報を受信した管理サーバ50は、当該ID情報と対応付けて記憶している騒音源を処理部21に送信する。
【0105】
商品棚40等に、当該商品棚40の周囲の騒音源を示す情報(騒音源を識別するためのID等)が埋め込まれたRFタグ又はバーコードを貼付し、作業者がこのRFタグ等を読み取ることで、処理部21が騒音選択情報を取得する構成にすることができる。また、作業者がRFタグ等を読み取ることに代えて、ピッキングカート30が読取装置を備え、商品棚40及び床面等に配置されたRFタグ等を、ピッキングカート30が読み取る構成にすることができる。
【0106】
音響モデルデータベース23が騒音付加音響モデルを記憶する構成に代えて、特定した騒音源の騒音データを騒音データベース22から取得してクリーン音声に付加することで、騒音付加音響モデルを求める構成にしても良い。
【0107】
上記実施形態では、第1音情報から騒音データを減算する処理と、騒音が付加された騒音付加音響モデルによる音声認識処理と、の双方の処理を行うにより騒音の影響を軽減しているが、この2つの処理のうち何れかのみを行う構成にしても良い。
【0108】
第2音情報に含まれる騒音のレベルが所定値より小さい場合は、上記実施形態の構成に代えて、騒音の減算処理(S107)を行った後にクリーン音響モデルを用いて音声認識を行う構成にしても良い。また、この構成の処理(減算処理を行った後にクリーン音響モデルを用いて音声認識)と、本実施形態の処理(減算処理を行わずにクリーン音響モデルを用いて音声認識)と、を騒音のレベルに応じて使い分けても良い。
【0109】
処理部21が行っている処理の少なくとも一部を、管理サーバ50が行う構成にすることができる。例えば、管理サーバ50が音響モデルデータベース23を備え、処理部21から取得した第1音情報に基づいて、管理サーバ50が音声認識を行う構成にしても良い。
【0110】
本発明は、ピッキング作業だけでなく、例えば搬入された商品、部品等を、倉庫内の所定位置に格納する作業等にも適用することができる。
【符号の説明】
【0111】
1 WMS(倉庫管理システム)
2 音声認識システム
11 ヘッドホン
12 音声取得用マイクロフォン(音声取得部)
21 処理部(音声認識部)
22 騒音データベース
23 音響モデルデータベース
30 ピッキングカート(走行体、カート)
31 騒音取得用マイクロフォン(騒音取得部)
32 カメラ(騒音選択情報取得部)
33 赤外線センサ(騒音選択情報取得部)
50 管理サーバ(指示部)

【特許請求の範囲】
【請求項1】
作業者の声を含む第1音情報を取得する音声取得部と、
作業者とともに走行する走行体に取り付けられ、作業者の声の音声認識を行うときに不要となる騒音を含む第2音情報を取得する騒音取得部と、
を備えることを特徴とする受音装置。
【請求項2】
請求項1に記載の受音装置であって、
複数の前記騒音取得部が前記走行体に取り付けられ、
複数の前記騒音取得部のうち、作業者から最も離れた位置の前記騒音取得部が取得した前記第2音情報を優先的に考慮して、前記第1音情報に含まれる作業者の声の音声認識が行われることを特徴とする受音装置。
【請求項3】
請求項1又は2に記載の受音装置であって、
複数の前記騒音取得部が前記走行体に取り付けられ、
複数の前記騒音取得部が取得した前記第2音情報は、騒音源の位置する方向から取得する音を強調するように処理され、当該処理後の前記第2音情報に含まれる騒音を考慮して、前記第1音情報に含まれる作業者の声の音声認識が行われることを特徴とする受音装置。
【請求項4】
請求項1から3までの何れか一項に記載の受音装置であって、
予め録音された複数の騒音データが記憶された騒音データベースから、前記第2音情報に含まれる騒音に類似する騒音データが選択され、
選択された騒音データを考慮して、作業者の声の音声認識が行われることを特徴とする受音装置。
【請求項5】
請求項4に記載の受音装置であって、
騒音データを選択するための情報を取得する騒音選択情報取得部を備え、
前記騒音取得部及び前記騒音選択情報取得部の両方が取得した内容を考慮して、前記騒音データベースから騒音データが選択されることを特徴とする受音装置。
【請求項6】
請求項1から5までの何れか一項に記載の受音装置であって、
前記第2音情報に含まれる騒音が所定のレベルより小さい場合は、クリーン音声と、当該音声が示す情報と、を対応付けたクリーン音響モデルが用いられることを特徴とする受音装置。
【請求項7】
請求項1から6までの何れか一項に記載の受音装置であって、
作業者の声の音声認識には、クリーン音声に作業者の周囲の騒音を付加した修正音声と、当該音声が示す情報と、を対応付けた騒音付加音響モデルが用いられることを特徴とする受音装置。
【請求項8】
請求項1から7までの何れか一項に記載の受音装置であって、
前記音声取得部は、指示に応じて品物を移動させる作業者の声を取得するためのものであり、
前記騒音取得部は、前記走行体としてのカートに取り付けられることを特徴とする受音装置。
【請求項9】
請求項1から8までの何れか一項に記載の受音装置と、
前記受音装置から取得した前記第1音情報に基づいて、作業者の声の音声認識を行う音声認識部と、
を備えることを特徴とする音声認識システム。
【請求項10】
請求項9に記載の音声認識システムと、
前記音声認識部の音声認識の結果に基づいて、作業者に対して作業の指示を行う指示部と、
を備えることを特徴とする作業指示システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−103428(P2012−103428A)
【公開日】平成24年5月31日(2012.5.31)
【国際特許分類】
【出願番号】特願2010−251041(P2010−251041)
【出願日】平成22年11月9日(2010.11.9)
【出願人】(000006297)村田機械株式会社 (4,916)
【Fターム(参考)】