説明

音声認識システム及び音声認識方法

【構成】 マイクロホンからの音声信号を音声認識ユニットで音声認識する。IDリーダを設けて、音声認識のオンオフ用のID媒体を読み取ることにより、音声認識を中止及び開始する。
【効果】 移動中に雑音が多い箇所を通過しても誤認識しない。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は音声認識のオンオフの切り替えに関する。
【背景技術】
【0002】
物品のピッキング、検品、人あるいは物の検査等で、IDリーダと音声認識用の端末とを携帯しながら移動することがある。音声認識はピッキング、検査等の作業結果の入力に用い、IDリーダはピッキングあるいは検査等の対象となる物品あるいは人のIDを読み取るために用い、また話者の身分を確認するためにも用いることができる。このような場合、ピッキング用の手押し車、検査用の機器などで、話者は手が塞がっていることが多い。また低温その他の環境のため、端末を取り出すことが容易ではないことが多い。ここで作業を終了した後に、音声認識をオフせずに移動すると、雑音を誤って音声として認識することがある。音声認識により音声認識をオフすることを入力することも考えられるが、雑音の多い環境ではそれも難しい。同様に作業の開始前の移動中に雑音が多い場所を通過すると、誤って雑音を音声として認識することがある。
【0003】
ここで関連する先行技術を示す。特許文献1(JP2002-56458A)はバーコードで商品毎の単語リストとグラマーを印刷し、商品ケースなどに貼付することを開示している。特許文献2(JPH11-119790A)は原稿に音声出力条件をバーコードで印字し、スキャナで原稿を読み取ると文字認識し、指定された条件で音声出力することを開示している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】JP2002-56458A
【特許文献2】JPH11-119790A
【発明の概要】
【発明が解決しようとする課題】
【0005】
この発明の課題は、端末のキーボードあるいはタッチパネル等を操作することが困難な環境でも、音声認識を容易にオンオフできるようにし、雑音等を音声として誤認識することがないようにすることにある。
【課題を解決するための手段】
【0006】
この発明は、マイクロホンからの音声信号を音声認識ユニットで音声認識する音声認識システムであって、IDリーダを設けて、音声認識のオンオフ用のID媒体を読み取ることにより、音声認識を中止及び開始するようにしたことを特徴とする。
【0007】
またこの発明は、マイクロホンからの音声信号を音声認識ユニットで音声認識する方法であって、IDリーダを設けて、音声認識のオンオフ用のID媒体を読み取ることにより、音声認識を中止及び開始することを特徴とする。
【0008】
この発明ではIDリーダによりID媒体を読み取ることにより、音声認識をオンオフする。このためパーソナルコンピュータなどの端末を開いて、タッチパネルあるいはキーボードなどを操作する必要がない。また雑音の大きい環境で、音声入力により音声認識を停止する必要がない。ID媒体は、話者が身に付け、あるいは携帯する機器等に取り付け、また手押し車などに取り付けることができる。そこで話者は手持ちのIDリーダで容易にID媒体を読み取り、音声認識のオンオフを制御できる。これらのことにより、音声認識の必要が無くなり移動する際に、雑音を音声として認識することを防止できる。また音声認識を再開する際に、雑音の大きい場所を通過した後に、端末を開かずに再開できる。この明細書でID媒体とは、バーコード、2次元コード等の媒体、あるいはRFIDタグなどの、一般にIDを記憶してリーダで読み取るための媒体を言う。ID媒体が文字通りに作業者のID等を記憶していると、作業者の身元の確認と音声認識の制御の双方に用いることができる。しかしID媒体は、作業者のID情報を含まず、音声認識の制御用の情報のみを、IDリーダで読み取り可能なコードとして記憶するものでも良い。音声認識のオンオフ用のID媒体は、奇数回読み取ると開始し、偶数回読み取ると中止するように、同じ媒体で音声認識をオンオフさせても良い。また実施例で示すように、中止用のID媒体と再開用のID媒体とを別個にしても良い。
【0009】
好ましくは、雑音が大きいことを入力するためのID媒体を読み取ることにより、音声認識の条件を変更する。なお雑音が小さいことを入力するためのID媒体は設けても設けなくても良い。急激に雑音が増した際に、端末を開いてその旨を入力するのは難しいし、音声入力は雑音が大きい環境にいることから難しい。また音声認識装置での学習で対応すると、学習に時間が必要なため間に合わない。しかしID媒体を読み取ると、簡単かつ迅速に雑音が増したことに対応できる。
【0010】
また好ましくは、前記ID媒体が話者が携帯するようにされもしくは手押車に取り付けられている。話者は身分証としてIDカードを身に付けていることが多い。そこで身分証のIDカードに音声認識のオンオフ用などのID媒体を取り付けると、どこでも容易にID媒体を読み取ることができる。同様に話者が携帯する機器あるいは手押し車などにID媒体を取り付けても、容易にID媒体を読み取ることができる。
好ましくは、前記IDリーダが光学的コードのリーダもしくはRFIDタグのリーダである。このようなIDリーダはピッキング等で話者が標準的に使用しているものなので、音声認識のオンオフの制御等に兼用すると便利である。
特に好ましくは、音声認識システムは低温倉庫でのピッキング用である。低温倉庫では例えば−50℃等の環境で、作業者がピッキングなどの作業を行う。このような環境では、作業者(話者)は手袋をしており、パーソナルコンピュータなどの音声認識用の端末は懐などに入れて保温しているのが普通である。ここで端末を取り出し、厚い手袋をした指で操作するのは現実的ではない。また端末を極低温にさらすこと自体に問題がある。このようにすると、極低温などの低温倉庫に限らず、端末を開いて操作するのに適さない環境でも、IDリーダを用いて容易に音声認識システムを制御できる。

【図面の簡単な説明】
【0011】
【図1】実施例の音声認識システムのブロック図
【図2】実施例で音声認識を行う低温倉庫の平面図
【図3】実施例でのバーコードによる音声認識の制御を示すフローチャート
【発明を実施するための形態】
【0012】
以下に本発明を実施するための最適実施例を示す。この発明の範囲は、特許請求の範囲の記載に基づき、明細書とこの分野の周知技術を参酌し、当業者の理解に従って定められるべきである。
【実施例】
【0013】
図1〜図3に実施例の音声認識システムと音声認識方法とを示す。なおこの明細書において、音声認識システムに関する記載はそのまま音声認識方法にも当てはまり、逆に音声認識方法に関する記載はそのまま音声認識システムにも当てはまる
【0014】
図1において、2は音声認識装置で、例えば低温倉庫などでピッキングを行う作業者(話者)の音声を認識する。4はヘッドマウントセットで、作業者の頭部に装着し、片眼鏡状のディスプレイ6とスピーカ8及びマイクロホン10とを含み、ディスプレイ6とスピーカ8の一方もしくは双方を省略しても良い。駆動ユニット12はディスプレイ6を駆動し、駆動ユニット14はスピーカ8を駆動する。アンプ16はマイクロホンからの信号を増幅し、音声認識ユニット18で例えば単語単位に音声認識し、コントローラ20へ入力する。22は通信ユニットで、ピッキングなどを制御するサーバ30との通信を行い、24は電池などの電源である。26はバーコードリーダで、ピッキングする物品のバーコードなどを読み取り、バーコードに代えて2次元コードあるいはRFIDタグを用いてもよい。その場合は、2次元コードのリーダもしくはRFIDリーダなどを、コントローラ20に接続する。
【0015】
音声認識装置2のうちで、音声認識ユニット18,コントローラ20,通信ユニット22などは適宜のパーソナルコンピュータもしくはPDA(携帯情報端末)などで実現でき、話者は電源とパーソナルコンピュータなどを作業着の内側などに携帯し、ヘッドマウントセット4を装着し、バーコードリーダ26を携帯して、ピッキング作業を行う。ピッキングに関する指令は、サーバ30から通信ユニット22を介してコントローラ20へ入力され、ディスプレイ6もしくはスピーカ8などにより作業者への指示が行われる。作業者はピッキングの結果などをマイクロホン10から音声入力し、音声認識ユニット18で音声認識し、サーバ30へ報告する。またピッキング時に読み取ったバーコードなどの物品のIDあるいはバケット,パレット,棚などのIDを、通信ユニット22からサーバ30へ報告する。
【0016】
実施例では話者が携帯する音声認識装置2内で音声認識を行うが、例えば音声認識ユニット18をサーバ30側に設けて、アンプ16からのデータを通信ユニット22からサーバ30へ報告し、サーバ30側で音声認識してもよい。この場合は音声認識システムはサーバ30を含むものとなる。
【0017】
話者はIDカード32を携帯し、IDカード32は氏名とID,顔写真などの他に、バーコード33〜35などをプリントもしくは貼付する。バーコード33は例えば音声認識の中止用のバーコードで、バーコード34は音声認識の再開用のバーコード、バーコード35は周囲の雑音が大きいことを入力するためのバーコードである。そしてバーコードリーダ26でバーコード33〜35を読み取ることにより、音声認識の中止と再開、雑音が大きい場合アンプ16及び音声認識ユニット18でのパラメータの変更などの処理を行う。これ以外に、雑音が小さい旨のバーコードをIDカード32にプリントしても良い。しかしながら雑音が小さいことは、無発話区間でのマイクロホン10からの信号のパワーが小さいことから自立的に判断でき、コントローラ20により音声認識のパラメータやアンプ16のパラメータを自立的に変更することができる。なおバーコード33〜35に代えて、2次元コードなどの他の光学的コード、あるいはRFIDタグなどをIDカード32に取り付けてもよい。
【0018】
話者はピッキング用に手押し車40を押して、低温倉庫の内部を移動しながらピッキングを行う。実施例ではディスプレイ6とスピーカ8とから話者への指示を行ったが、例えば手押し車40に表示部42を設けて指示を行っても良い。またバーコード33〜35などは、IDカード32ではなく、手押し車40、もしくはその他の携帯用の機器に取り付けても良い。
【0019】
図2にピッキングを行う低温倉庫50の例を示し、52はピッキングエリアで、棚56が通路58に沿って例えば複数列配置され、話者は手押し車を押しながら、サーバ30からの指示に従ってピッキングを行い、この過程で物品のバーコードなどのID媒体をバーコードリーダで読み取る。またピッキング結果をマイクロホンへ音声入力する。54は荷捌き場、60は作業台で、62,64は扉である。そしてピッキングエリア52は例えば-50℃などの極低温の環境にあり、話者は防寒のために手袋などを装着しているので、パーソナルコンピュータなどを取り出して、キーボードあるいはタッチパネルなどから入力することが難しい。またこのような低温の環境で、パーソナルコンピュータなどを取り出すこと自体が機器に影響を与える。このためピッキングエリア52では、パーソナルコンピュータあるいは携帯情報端末を、話者が操作することが難しい。
【0020】
ところでピッキングを終え、ピッキングエリア52から荷捌き場54へ移動する間、周囲からの雑音あるいは手押し車からの雑音などを、マイクロホン10で拾って音声認識することがある。また荷捌き場54で荷捌きを終え、次のピッキングのためにピッキングエリア52内を移動する際にも、周囲の雑音などで誤った音声認識を行うことがある。このような誤認識を防止するには、パーソナルコンピュータなどから音声認識をオン/オフできると良いが、極低温の環境では困難である。この一方で話者は物品のIDなどを読み取るために、バーコードリーダ26などを携帯している。またIDカード32を上着などに取り付けている。実施例では、バーコード33〜35をバーコードリーダ26で読み取ると、音声認識のオン/オフと雑音に対する対応とができる。
【0021】
実施例ではピッキングの終了時に音声認識をオフし、ピッキングの再開時に音声認識をオンするが、例えば音声入力の都度、バーコードリーダ26によりバーコード33〜35を読み取ることにより、音声認識をオン/オフしてもよい。またバーコード33〜35は話者の直ぐ付近にあれば良く、上着に取り付けるIDカード32に代えて、手押し車40などに取り付けても良い。
【0022】
図3に、実施例での音声認識の制御アルゴリズムを示す。作業者はパーソナルコンピュータなどの端末を操作し音声認識装置2を起動させて、ピッキングエリア52へ入室する。音声認識装置2を起動すると同時に音声認識を開始しても良いが、実施例ではバーコードリーダ26でバーコード33に触れることにより音声認識を開始する(ステップ1)。この時音声認識装置30はその旨をサーバ30へ報告し、これは例えばピッキング開始の報告を兼ねている(ステップ2)。ピッキングの間、サーバ30はディスプレイ6,スピーカ8などを介してピッキングの指示を行い、話者はこれに従ってピッキングし、ピッキング結果をマイクロホン10から音声入力する。またこの間、必要に応じ物品のIDなどをバーコードリーダ26等で読み取り、話者の音声入力を音声認識した結果と読み取ったIDとをサーバ30へ報告する(ステップ3)。
【0023】
音声認識装置2をバーコード33〜35を読み取ることにより制御する(ステップ4)。例えば音声認識の中止のバーコード34を読み取ると、ステップ5で音声認識を中止し、ステップ6でサーバへ報告する。この報告は例えばピッキングが終了したことの報告を兼ねている。また雑音が大きい場合、バーコード35を読み取ることにより、ステップ7でアンプのパラメータ、音声認識ユニット18での音声認識のパラメータ等を変更する。ところで雑音が徐々に増加している場合、音声認識ユニット18はその旨を検出してパラメータ等を変更することが可能である。しかしながら雑音が急激に増加した場合、学習では間に合わない。そこでバーコード35を読み取ることにより、音声認識の条件を変更することに意味がある。バーコード33,34を兼用し、音声認識装置2の起動後に最初に読み取ると例えば音声認識を開始し、次ぎに読み取ると音声認識を終了するようにしても良い。
【0024】
実施例では、バーコードの読み取りによる音声認識の制御をコントローラ20で行ったが、サーバ30側で行っても良い。即ち読み取ったバーコード中のID(バーコードのデータ)をサーバ30へ転送し、サーバ30から音声認識装置2へ音声認識の中止を指示しても良い。また低温倉庫でのピッキングに限らず、物品の入荷、出荷、検査、棚卸し、また人、環境、建物、設備などの検査などで、バーコードリーダなどのIDリーダを携帯しながら音声認識を行う用途であれば、任意の用途に実施例を適用できる。これらの用途は、低温倉庫ほど端末を開くのが不便な環境ではないものの、端末を開くことに比べ、IDリーダでID媒体を読み取る方が容易な環境である。また一般に雑音が大きいので、音声認識のオンオフ及び音声認識のパラメータ等を、簡単に切り替えることができるようにすることが好ましい環境である。

【符号の説明】
【0025】
2 音声認識装置
4 ヘッドマウントセット
6 ディスプレイ
8 スピーカ
10 マイクロホン
12,14 駆動ユニット
16 アンプ
18 音声認識ユニット
20 コントローラ
22 通信ユニット
24 電源
26 バーコードリーダ
30 サーバ
32 IDカード
33〜35 バーコード
40 手押し車
42 表示部
50 低温倉庫
52 ピッキングエリア
54 荷捌き場
56 棚
58 通路
60 作業台
62,64 扉

【特許請求の範囲】
【請求項1】
マイクロホンからの音声信号を音声認識ユニットで音声認識するシステムであって、
IDリーダを設けて、音声認識のオンオフ用のID媒体を読み取ることにより、音声認識を中止及び開始するようにしたことを特徴とする、音声認識システム。
【請求項2】
雑音が大きいことを入力するためのID媒体を読み取ることにより、音声認識の条件を変更するようにしたことを特徴とする、請求項1の音声認識システム。
【請求項3】
前記ID媒体が話者が携帯するようにされもしくは手押車に取り付けられていることを特徴とする、請求項1または2の音声認識システム。
【請求項4】
前記IDリーダが光学的コードのリーダもしくはRFIDタグのリーダであることを特徴とする、請求項1〜3のいずれかの音声認識システム。
【請求項5】
低温倉庫でのピッキング用であることを特徴とする、請求項4の音声認識システム。
【請求項6】
マイクロホンからの音声信号を音声認識ユニットで音声認識する方法であって、
IDリーダを設けて、音声認識のオンオフ用のID媒体を読み取ることにより、音声認識を中止及び開始することを特徴とする、音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−37821(P2012−37821A)
【公開日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願番号】特願2010−180036(P2010−180036)
【出願日】平成22年8月11日(2010.8.11)
【出願人】(000006297)村田機械株式会社 (4,916)
【Fターム(参考)】