説明

音声認識装置、ピッキング用の音声認識装置及び音声認識方法

【構成】
単語辞書の記憶部と、音声認識部と、発話者に対する音声出力もしくは画像出力を制御するためのインターフェースと、前記音声認識部と前記インターフェースとを制御する制御部とを備えた音声認識装置により、発話者の発話音声を認識する。単語辞書は数字を含む単語を記憶し、音声認識部により、発話区間の長さを認識すると共に、発話音声を認識し、音声認識部が発話音声の全体を認識できず、かつ発話区間の長さが閾値以上の際に、インターフェースを介して、発話者に複数の単語に区切って発話することを指示する。
【効果】 短い単語のみの辞書を備えた音声認識装置に、複数の短い単語が区切られずに入力された際に、発話者に単語を区切って再発話するように誘導できる。

【発明の詳細な説明】
【技術分野】
【0001】
この発明はピッキング等での音声認識に関し、特に音声入力の中の単語の認識に関する。
【背景技術】
【0002】
単語単位で音声認識を行う場合、認識対象となる単語の辞書を記憶し、発話音声をケプストラム等を成分とするベクトルに変換し、単語辞書と比較して、ゆう度の高い単語を認識結果として出力する。ここでピッキングなどの制御に音声認識を用いる場合、「1ケース3ピース」などの認識が必要になる。またバーコード、カード番号、電話番号などを読み上げた音声を認識する場合、7桁〜11桁などの長い数字を認識する必要がある。ところで「1ケース3ピース」などを1語として認識し、あるいは7桁、11桁などの長い数字を1語として認識するためには、大きな辞書が必要になる。そこで「1ケース」と「3ピース」の2語として認識し、また3桁の数字と4桁の数字などの2語もしくは3語して認識すると、小さな単語辞書で音声認識ができる。
【0003】
しかしながら発話者が「1ケース3ピース」などと、単語(1ケース)と単語(3ピース)の間を区切らずに発話すると、単語辞書には「1ケース」しかないので、「3ピース」を認識できない。ここで再発話を要求すると、発話者は「1ケース3ピース」の発話を繰り返すことが多く、解決にならない。同様に電話番号「0663045786」に対し、4桁の数字までの辞書では、「0663」までしか認識できない。「もう一度電話番号を入力して下さい」などのメッセージを発話者に伝えても、「0663045786」をゆっくり発話してくれる程度のことしか期待できず、「06」「6304」「5786」等に区切って入力してくれる可能性は低い。
【0004】
なお特許文献1:JPH11-126092Aの表3は、発話区間が長い際に「もう少し短くお話下さい」とのメッセージを出力することを提案している。しかしながら特許文献1は、小さな辞書しかない音声認識装置に、複数の単語を隙間無しに接続した長い単語が入力されることがある、との問題を検討していない。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】JPH11-126092A
【発明の概要】
【発明が解決しようとする課題】
【0006】
この発明の課題は、単語辞書に無い長い単語が入力された際に、単語辞書に有る複数の単語に区切って入力するように、発話者を誘導することにある。
【課題を解決するための手段】
【0007】
この発明は、単語辞書の記憶部と、発話者からの発話音声を認識し、前記単語辞書中の該当する単語を出力する音声認識部と、発話者に対する音声出力もしくは画像出力を制御するためのインターフェースと、前記音声認識部と前記インターフェースとを制御する制御部とを備えた音声認識装置であって、
前記単語辞書は数字を含む単語を記憶し、
前記音声認識部は発話区間の長さを認識するように構成され、
前記制御部は、前記音声認識部が発話音声の全体を認識できず、かつ発話区間の長さが閾値以上の際に、前記インターフェースを介して、発話者に複数の単語に区切って発話することを指示するように構成されていることを特徴とする。
【0008】
またこの発明は、単語辞書の記憶部と、音声認識部と、発話者に対する音声出力もしくは画像出力を制御するためのインターフェースと、前記音声認識部と前記インターフェースとを制御する制御部とを備えた音声認識装置により、発話者の発話音声を認識する音声認識方法であって、
前記単語辞書の記憶部は数字を含む単語を記憶するように構成され、
前記音声認識部により、発話区間の長さを認識すると共に、発話音声を認識するステップと、
前記音声認識部が発話音声の全体を認識できず、かつ発話区間の長さが閾値以上の際に、前記インターフェースを介して、発話者に複数の単語に区切って発話することを指示するステップ、とを実行することを特徴とする。
【0009】
この発明では、数字を含む単語を単語辞書に記憶し、発話音声の全体を認識できず、かつ発話区間の長さが閾値以上の際に、発話者に複数の単語に区切って発話することを指示する。従って、複数の語が1語として発話された際に、再度複数の語が1語として発話されるとのループに陥らずに、複数の単語を区切って発話するように誘導し、音声認識する。複数の単語が1語として発話された際に、単語毎に発話するように誘導できるので、単語辞書には「1ケース3ピース」等の複合語を記憶する必要はなく、「1ケース」と「3ピース」などの短い単語を記憶すればよい。また「0663045786」等の大きな桁数の数字を辞書に記憶する必要はなく、「06」、「6304」、「5786」等の桁数の小さな数字を記憶すればよい。従って単語辞書を小形化できる。閾値の設定は任意で、固定でも、シナリオあるいは音声認識の環境等で変化させても良い。発話音声の全体を認識できないとは、例えば発話の前半を認識できたが、後半を認識できなかったことである。なお発話音声の全体を認識できた場合、単語毎に区切って再度発話するように要求する必要はない。
【0010】
好ましくは、前記制御部は、前記音声認識部が発話音声の前半を認識して後半を認識できず、かつ発話区間の長さが閾値以上の際に、複数の単語に区切って発話するように指示し、前記音声認識部が発話音声の前半を認識できない場合は、発話区間の長さを問わず、複数の単語に区切ることを要求せずに、再発話を要求する。音声認識部が発話音声の前半を認識できない場合、複数の単語が1語として発話された可能性よりも、発話に雑音が重なっていた等の他の可能性の方が高い。そこで単語を区切って発話する代わりに、単純に再発話を要求する方が好ましい。
特に好ましくは、前記単語辞書の記憶部は、前記数字を含む単語として数字を含みかつ末尾に数量単位を含む単語を記憶している。
【0011】
またこの発明は、単語辞書の記憶部と、発話者からの発話音声を認識し、前記単語辞書中の該当する単語を出力する音声認識部と、発話者に対する音声出力もしくは画像出力を制御するためのインターフェースと、前記音声認識部と前記インターフェースとを制御する制御部とを備えたピッキング用の音声認識装置であって、
前記単語辞書は、前半がピッキングする数量から成り後半が前記数量の単位から成る単語を、数量と単位との組合せ毎に記憶し、
前記音声認識部は発話区間の長さを認識するように構成され、
前記制御部は、前記音声認識部が発話音声の全体を認識できず、かつ発話区間の長さが閾値以上の際に、前記インターフェースを介して、発話者に複数の単語に区切って発話することを指示するように構成されていることを特徴とする。
このようにすると小さな単語辞書でピッキング結果の報告を音声認識できる。なおピッキングは本発明の音声認識装置の主な用途であるが、これに限るものではない。またこの明細書での音声認識装置に関する記載は、そのままピッキング用の音声認識装置に当てはまる。
【0012】
好ましくは、発話音声を認識できた際に、前記インターフェースを介して発話者に対し認識した数字を含む単語を出力し、発話者からの確認の発話を認識すると認識結果を確定し、取消の発話を認識すると、発話者からの再発話を前記音声認識部により音声認識する。このようにすると、音声認識結果を確認でき、音声認識が誤っている場合、再発話を音声認識することによって発話を正しく認識できる。
【図面の簡単な説明】
【0013】
【図1】実施例の音声認識装置のブロック図
【図2】単語辞書を模式的に示す図
【図3】単語辞書に無い長い単語が入力された際の、認識上の特徴を示す図
【図4】実施例での音声認識アルゴリズムを示すフローチャート
【発明を実施するための形態】
【0014】
以下に本発明を実施するための最適実施例を示す。この発明の範囲は、特許請求の範囲の記載に基づき、明細書とこの分野の周知技術を参酌し、当業者の理解に従って定められるべきである。
【実施例】
【0015】
図1は音声認識装置2の構造を示し、音声認識装置2は本体4とHMD(ヘッドマウントディスプレイ)6とサーバ8及び、各部に電力を供給する電源10とから成り、例えば発話者(作業者)が携帯する。また音声認識装置2は、ピッキングを管理する外部のサーバ8と、無線LAN等を介して通信部32により接続されている。HMD6は例えば片眼鏡状のディスプレイ12とスピーカ14及びマイクロホン16から成り、ピッキングなどの作業を行う発話者が頭部に装着する。なおディスプレイ12あるいはスピーカ14を省略しても良い。18,20は駆動部で、ディスプレイ12とスピーカ14とを駆動する。アンプ22はマイクロホン16からの信号を増幅し、本体4の音声認識エンジン24へ入力する。
【0016】
音声認識エンジン24は、辞書記憶部28が記憶する単語辞書を用いて音声認識を行い、例えば認識結果が最上位の単語とそのゆう度(認識の確度)並びに発話区間の長さなどを制御部26へ入力する。ゆう度が最大の単語のみを出力する代わりに、例えばゆう度が上位3位までの単語とそのゆう度を出力しても良い。制御部26は本体4を制御し、作業者との対話のシナリオを操作し、シナリオでの場面に応じて単語を認識する範囲を辞書中で切り替える。このことを辞書の有効範囲の切り替えという。
【0017】
制御部26は、音声認識エンジン24で認識した単語がシナリオに合致するものであれば受け入れ、合致しなければ棄却し、ユーザ出力インターフェース30から再発話を要求する。制御部26は、シナリオと発話者の発話音声への認識結果とに基づき、ユーザ出力インターフェース30を介して、ディスプレイ12及びスピーカ14により発話者に指示する。そして制御部26は、ピッキングなどの作業の結果を音声認識し、通信部32を介してサーバ8へ出力する。サーバ8は次の指示を通信し、制御部26はこれに従ってシナリオを進めあるいは変更し、発話者と対話する。以上のようにして、音声認識装置2との対話しながら発話者はピッキング等の作業を行う。
【0018】
音声認識装置2の本体4は、発話者が携帯せずに、例えば外部のサーバ8に設けても良い。この場合、作業者が装着する端末には、HMD6と電源10並びに駆動部18,20とアンプ22と通信部32とを設け、音声認識装置は発話者側ではなくサーバ8側にあるものとする。また音声認識の用途はピッキングに限らず、音声でコンピュータと対話することが必要な用途一般である。例えば車両、船舶、航空機などの運転、機械の操作、会議等の記録などである。
【0019】
図2に、辞書記憶部28が記憶する単語辞書を模式的に示す。ピッキングなどの場合、0ケース,1ケース,2ケース,…,0ピース,1ピース,2ピース,…,0カートン,1カートン,2カートン,…などの数量を表す単語をカバーする辞書が必要である。ケースの端数がピースで、ケースよりも大きい単位がカートン等である。これらの数量を、例えば0ケース〜10ケース、あるいは0ケース〜100ケースなどの範囲で、辞書に記憶させる。数量には端数があるので、例えば「1ケース3ピース」、「4ケース2ピース」などの複数の単語を入力する必要が生じる。ここで「1ケース4ピース」のように複数の単語を結合した長い単語をカバーする辞書を構成すると、記憶部28の規模が巨大になる。このため記憶部28には、所定の桁数以下の数字と単位との組合せを単語として記憶し、単位の前の数量は0〜10あるいは0〜100などと制限する。従って「1ケース4ピース」は「1ケース」と「4ピース」の2語から成る。
【0020】
これ以外に、バーコードの読み上げ、電話番号の入力、ID番号の入力などで、7桁あるいは11桁等の長い数字を音声認識する必要がある。このような場合に備えて、例えば3桁もしくは4桁以下の数字自体を単語として記憶する。さらに数量あるいは数字と無関係な単語として、「完了」,「訂正」,等の単語を記憶する。なお数字と単位との組合せから成る単語と数字自体から成る単語は、少なくとも一方の種類を記憶し、好ましくは数字と単位との組合せから成る単語を記憶する。なお実施例ではこれらの双方を記憶する。
【0021】
図3に、「1ケース3ピース」などの長い単語が発話された際の問題を示す。図3の上部の鎖線のように、「1ケース」と「3ピース」が間に区切りを置いて発話されると、音声認識エンジン24で2語として音声認識できる。これらが区切り無しで入力されると、前半の「1ケース」を認識した後の残りの部分を「3ピース」として正しく認識することは困難である。この場合の音声認識上の特徴は、発話区間が長すぎることである。例えばシナリオ上可能な入力が、「○○ケース」,「○○ピース」(○○は0〜99等の数字)などに限られる場合、発話区間への最大の長さ(閾値)を定め、これを越えると、2語が1語として区切り無しに発話されていると判断できる。次の特徴として、「1ケース3ピース」などが1語として発話されると、前半の「1ケース」まで認識でき、後半から認識不能になることが多いことがある。ただし前半だけを認識でき後半を認識できなかった場合、通常の発話に周囲の雑音が重なったことなども考えられる。
【0022】
図4に音声認識のアルゴリズムを示し、音声認識のシナリオでの場面は、数量もしくは数字を伴う発話を待っている場面であるとする。発話者はステップ1で音声入力し、例えば「1ケース3ピース」などと発話する。これを音声認識エンジン24で音声認識し(ステップ2)、発話区間の全体に対して認識でき、即ち発話区間の全体を説明できる1語以上の単語が得られると、これを認識結果として出力する。そして認識結果をHMD6から出力し、例えば「1ケース3ピース」と復唱し、もしくはその映像をディスプレイ12に表示する(ステップ3)。発話者は、「完了」もしくは「訂正」などのように、認識結果を確認する発話を行い(ステップ4)、「完了」が発話されると、正しい音声認識ができたものとして、次の場面へ移行する。ステップ4で、「訂正」などが発話されると、再発話を待つ状態へ移行する(ステップ5)。
【0023】
ステップ2で、発話区間の全体に対する認識はできなかったが、前半が認識できた場合は、ステップ6へ移行する。ステップ6では、発話区間の長さをシナリオ上の場面等から定まる閾値と比較する。閾値を超える場合、ステップ7で、「数字の間を空けて話して下さい」などのように、複数の単語の間に区切りを入れて発話することをHMD6から要求する。具体的にはこの旨をスピーカ14もしくはディスプレイ12から出力し、指示の表現自体は任意である。
【0024】
ステップ2で、音声認識エンジン24が発話区間の前半も認識できなかった場合、あるいはステップ6で発話区間の長さが閾値以下の場合、ステップ8で「再度発話して下さい」との旨をHMD6から指示する。ステップ4で発話者が認識結果を修正する場合、あるいはステップ7,ステップ8で再度発話することを要求した場合、シナリオは再発話待ちの状態(ステップ5)へと移行し、次の発話に備えて待機する。
【0025】
このようにして、「1ケース3ピース」あるいは「0663045786」などのように、単語辞書記憶部28に無い長い単語が入力されると、複数の単語に区切って、即ち単語と単語との間に発話しない間を置いて再発話することを要求する。なお「数量と単位との組合せ毎に発話して下さい」、「4桁以下の桁数に区切って発話して下さい」など、より具体的に指示しても良い。ここでの「4桁」は例で、所定の桁数以下に区切ることを要求する点に意味がある。これに応じて発話者が単語と単語の間を区切って再発話すれば、音声認識が可能になる。単語と単語を区切って発話することを要求せずに、単に再発話することのみを要求すると、発話者は前回と同じ発話を行うことが多い。すると、たまたま単語と単語の間に区切りが置かれない限り、音声認識は不能なままで、デッドロックに陥る。
【0026】
複数の単語に区切るべきところが1語として発話されている際の特徴は、第1に発話区間が長いことである。第2の特徴は、発話区間の前半は認識できるが、後半に認識不能な音声が存在することである。しかしながらこの特徴は、発話区間が長いことよりも確実性に欠ける。第3の特徴は、数字もしくは数量の入力を要求している場面であることである。これはシナリオの場面上、単語辞書の能力を越える発話がされ易いためである。
【0027】
実施例では複数の単語が1語として発話されても、「数字の間を空けて話して下さい」、「単位毎に分けて話して下さい」、(1ケースまでは認識できた際に)「ケースのところで区切って話して下さい」(4桁等の)「所定の桁数毎に話して下さい」などの指示により、音声認識が可能な再発話を促すことができる。従って単語辞書記憶部28での辞書の規模を小さくできる。また認識結果をHMD6から発話者に示し、その確認を要求する。このため音声認識の誤りを容易に訂正できる。
【符号の説明】
【0028】
2 音声認識装置
4 本体
6 HMD(ヘッドマウントディスプレイ)
8 サーバ
10 電源
12 ディスプレイ
14 スピーカ
16 マイクロホン
18,20 駆動部
22 アンプ
24 音声認識エンジン
26 制御部
28 辞書記憶部
30 ユーザ出力インターフェース
32 通信部

【特許請求の範囲】
【請求項1】
単語辞書の記憶部と、発話者からの発話音声を認識し、前記単語辞書中の該当する単語を出力する音声認識部と、発話者に対する音声出力もしくは画像出力を制御するためのインターフェースと、前記音声認識部と前記インターフェースとを制御する制御部とを備えた音声認識装置であって、
前記単語辞書は数字を含む単語を記憶し、
前記音声認識部は発話区間の長さを認識するように構成され、
前記制御部は、前記音声認識部が発話音声の全体を認識できず、かつ発話区間の長さが閾値以上の際に、前記インターフェースを介して、発話者に複数の単語に区切って発話することを指示するように構成されていることを特徴とする、音声認識装置。
【請求項2】
前記制御部は、前記音声認識部が発話音声の前半を認識して後半を認識できず、かつ発話区間の長さが前記閾値以上の際に、複数の単語に区切って発話するように指示し、
前記音声認識部が発話音声の前半を認識できない場合は、発話区間の長さを問わず、複数の単語に区切ることを要求せずに、再発話を要求するように構成されていることを特徴とする、請求項1の音声認識装置。
【請求項3】
前記単語辞書の記憶部は、前記数字を含む単語として数字を含みかつ末尾に数量単位を含む単語を記憶していることを特徴とする、請求項1または2の音声認識装置。
【請求項4】
発話音声を認識できた際に、前記インターフェースを介して発話者に対し認識した数字を含む単語を出力し、
発話者からの確認の発話を認識すると認識結果を確定し、取消の発話を認識すると、発話者からの再発話を前記音声認識部に音声認識させるように前記制御部が構成されていることを特徴とする、請求項1〜3のいずれかの音声認識装置。
【請求項5】
単語辞書の記憶部と、発話者からの発話音声を認識し、前記単語辞書中の該当する単語を出力する音声認識部と、発話者に対する音声出力もしくは画像出力を制御するためのインターフェースと、前記音声認識部と前記インターフェースとを制御する制御部とを備えたピッキング用の音声認識装置であって、
前記単語辞書は、前半がピッキングする数量から成り後半が前記数量の単位から成る単語を、数量と単位との組合せ毎に記憶し、
前記音声認識部は発話区間の長さを認識するように構成され、
前記制御部は、前記音声認識部が発話音声の全体を認識できず、かつ発話区間の長さが閾値以上の際に、前記インターフェースを介して、発話者に複数の単語に区切って発話することを指示するように構成されていることを特徴とする、ピッキング用の音声認識装置。
【請求項6】
単語辞書の記憶部と、音声認識部と、発話者に対する音声出力もしくは画像出力を制御するためのインターフェースと、前記音声認識部と前記インターフェースとを制御する制御部とを備えた音声認識装置により、発話者の発話音声を認識する音声認識方法であって、
前記単語辞書の記憶部は数字を含む単語を記憶するように構成され、
前記音声認識部により、発話区間の長さを認識すると共に、発話音声を認識するステップと、
前記音声認識部が発話音声の全体を認識できず、かつ発話区間の長さが閾値以上の際に、前記インターフェースを介して、発話者に複数の単語に区切って発話することを指示するステップ、とを実行することを特徴とする、音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate