説明

音声単語自動獲得方法

【課題】ロボットや機械に音声単語の語彙を獲得させる音声単語自動獲得方法を提供する。
【課題を解決するための手段】ロボットや機械に音声単語の語彙を獲得させる音声単語自動獲得方法であって、前言語期学習として音声単語を特定の意味のラベルとする前に入力音声をクラスタリングする教師なし学習を行い、該教師なし学習の後に前記音声単語に意味を与える教示学習を行うことを特徴とする音声単語自動獲得方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声単語自動獲得方法に関する。
【0002】
具体的には、ロボットや機械に音声単語の語彙を獲得させる音声単語自動獲得方法に関する。
【背景技術】
【0003】
現在、ロボット工学の進展により、小型の人型ロボットは一般の人でも手に入れられるようになった。人型ロボットをより人間的にするためには、どのように人間の言葉を認識させ、動作させるべきかを考える必要がある。その手初めとして、ロボットや機械による音声単語の獲得方法の確立が求められている。
【0004】
音声認識については、従来から種々の検討がなされており、例えば、特開平10−26996号公報(下記特許文献1)には、観測された特徴ベクトルに対する分類を与える第1のテ−ブルと、第1のテ−ブルで与えられる分類毎に特徴ベクトルの個々のパラメ−タに対する特定の定数を与える第2のテ−ブルとを用い、観測された特徴ベクトルの情報を用いてその特徴ベクトルの属するクラスを前記第1のテーブルを参照して決定し、これによって得られた特徴ベクトルのクラス毎に前記第2のテーブルを参照して各パラメ−タに対する定数を取得し、これによって得られた定数を所要の推論式に用いて出力確率を推定し、音声認識における連続分布型の隠れマルコフモデル(HMM:Hidden Markov Model)の出力確率を演算制御することにより、音声認識におけるHMMの出力確率計算を簡略化する方法が記載されている。
【0005】
また、下記の非特許文献1には、隠れマルコフモデル(HMM)を用いた音声認識方法が記載されている。
【0006】
しかし、前記特許文献1や非特許文献2は音声認識方法に関するものであり、音声認識方法を用いてロボットや機械に音声単語の語彙をゼロから獲得させる音声単語自動獲得方法については十分な検討がなされていなかった。
【特許文献1】特開平10−26996号公報
【非特許文献1】古井 貞煕著「音声情報処理」、pp.96-99、森北出版株式会社、2002
【発明の開示】
【発明が解決しようとする課題】
【0007】
本発明は、前述のような従来技術の問題点を解決し、ロボットや機械に音声単語の語彙を獲得させる音声単語自動獲得方法を提供することを課題とする。
【課題を解決するための手段】
【0008】
本発明は、前述の課題を解決すべく鋭意検討の結果なされたものであり、その要旨とするところは特許請求の範囲に記載した通りの下記内容である。
(1)ロボットや機械に音声単語の語彙を獲得させる音声単語自動獲得方法であって、前言語期学習として音声単語を特定の意味のラベルとする前に入力音声をクラスタリングする教師なし学習を行い、該教師なし学習の後に前記音声単語に意味を与える教示学習を行うことを特徴とする音声単語自動獲得方法。
(2)前記入力音声のクラスタリングは、隠れマルコフモデル(HMM)をクラスタ中心とする時系列のクラスクリングであることを特徴とする(1)に記載の音声単語自動獲得方法。
(3)前記入力音声のクラスタリングは、閾値を徐々に下げていく動的閥値法であることを特徴とする(1)または(2)に記載の音声単語自動獲得方法。
(4)前記音声単語に意味を与える教示学習は、過去に間違えた音声単語の意味の記録(NO-List)に基づいて、該音声単語に間違えた意味を与えないことを特徴とする(1)乃至(3)のいずれか一項に記載の音声単語自動獲得方法。
<作用>
(1)の発明によれば、前言語期学習として音声単語を特定の意味のラベルとする前に入力音声をクラスタリングする教師なし学習を行い、該教師なし学習の後に前記音声単語に意味を与える教示学習を行うことにより、あらかじめクラスタリングされた入力音声に基づいて音声単語に意味を与えることができるので、ロボットや機械に音声言語の語彙を獲得させる速度を飛躍的に向上させることができる。
(2)の発明によれば、入力音声のクラスタリングとして、隠れマルコフモデル(HMM)をクラスタ中心とする時系列のクラスクリングを行うので、音声単語のように連続的かつ伸縮し得る信号列のパターンのグループ分けを効率的に行うことができる。
(3)の発明によれば、入力音声のクラスタリングとして、閾値を徐々に下げていく動的閥値法を用いることにより、音声単語のグループ分けを正確に行うことができる。
(4)の発明によれば、音声単語に意味を与える教示教学習として、過去に間違えた音声単語の意味の記録(NO-List)に基づいて、該音声単語に間違えた意味を与えないので、ロボットや機械に音声言語の語彙を獲得させる速度をさらに向上させることができる。
【発明の効果】
【0009】
本発明による音声単語自動獲得方法を用いることにより、ロボットや機械に音声単語の語彙を獲得させる速度を飛躍的に向上させることができるうえ、音声単語のように連続的かつ伸縮し得る信号列のパターンのグループ分けを効率的に行うことができる音声単語自動獲得方法を提供することができるなど産業上有用な著しい効果を奏する。
【発明を実施するための最良の形態】
【0010】
本発明を実施するための最良の形態について図1乃至図5を用いて詳細に説明する。
【0011】
まず、本発明の技術思想は、ロボットや機械による音声言語の自動獲得において、前言語期学習を、物理パラメータを用いた教師なし学習でモデル化し、実装することにより、その後の人間による教示学習の時間を大幅に短縮するものである。
【0012】
すなわち、ロボットや機械が単語音声の語彙をゼロから自動的に獲得する方法であって、前言語期学習として教師なし学習を行い、その後に意味を与える教示学習を行うことにより、あらかじめクラスタリングされた入力音声に基づいて音声単語に意味を与えることができるので、ロボットや機械に音声言語の語彙を獲得させる速度を飛躍的に向上させることができる。
また、前言語期学習における音響パラメータを用いた教師なし学習は、隠れマルコフモデル(HMM)をクラスタ中心としてクラスタリングを行うことにより、音声単語のように連続的かつ伸縮し得る信号列のパターンのグループ分けを効率的に行うことができる。
【0013】
ここに、音響パラメータは、メルソーンスペクトルのフーリエ変換(FMS)であり、この音声パラメータの時系列をベクトルとみなし、クラスタリングを行うことができる。
【0014】
また、クラスタ中心とは、クラスタの代表点であり、クラスタはベクトルの集まりなので通常は代表点は重心(平均ベクトル)であるが、本発明においては、この重心の代わりに、平均ベクトルと共分散行列などの系列である隠れマルコフモデル(HMM)を用いる。
【0015】
また、クラスタリングは、閾値を徐々に自動的に下げていく動的閥値法を用いることにより、音声単語のグループ分けをさらに効率的に行うことができる。
【0016】
また、音声単語に意味を与える教示学習は、過去に間違えた実績の記録(NO-List)を有効に利用し、正しく答えられるようにすることができ、これらの過程を通して音声単語の獲得のスピードを高速化することができる。
【0017】
本発明は音声認識方法として主流の隠れマルコフモデル(HMM:Hidden Markov Model、以下HMMと云う)を使用する。ここに、隠れマルコフモデル(HMM)とは、「時点n+1の状態が、時点nの状態によってのみ与えられる確率モデル」を意味する。この確率的な挙動は、状態間の遷移確率によって表現される。音声認識では、各状態に固有の確率変数としての出力確率(具体的には、ある特徴ベクトルのパタ−ンを出力する確率)を与える。そして、入力された特徴ベクトルの系列(以下、観測系列)と比較し、状態の遷移過程を推測する。具体的には、観測系列のような特徴ベクトルを出力する確率の最も高い状態遷移系列を計算する。各認識要素は状態の遷移系列の類型と対応している。この一連の手順により、最も確率が高い認識要素が計算できる。なお、HMMの Hidden (隠れ)とは、直接状態遷移が観測できない(従って推定している)ことを意味している。
【0018】
このように、マルコフ過程は、状態と状態遷移で表すことができ、これをマルコフモデルと呼ぶ。通常のマルコフモデルは、決定性のモデルであり、ひとつの出力記号に対して一通りの遷移がある。隠れマルコフモデルは、より一般的な非決定性のマルコフモデルであり、ひとつの出力記号につき複数の遷移がある。
【0019】
この隠れマルコフモデル(HMM)は、音声単語のように連続的かつ伸縮し得る信号列のパターンのグループ分けを効率的に行うことができる。
【0020】
前言語期学習とは、言語獲得期以前の準備期における言語学習である。人間の乳児は、この時期に意味が分からないまま、日常の音声にさらされている。しかし、意味が分からなくても、音の違いは聞き分けられるようになっていく。
【0021】
この前言語期学習は、人間にとって非常に重要で、この時期に、獲得される言語が決定されると考えられている。また、前言語期学習があることにより、その後の言語獲得が高速に行われると考えられる。
【0022】
本発明では、前言語期学習を意味がまだ付与されていないHMMの訓練としてモデル化する。これは時系列パターンのクラスタリング、すなわち、教師なし学習として実行する。この訓練により、ロボットも音声言語の獲得をスムーズに行うことができるようになる。
【0023】
音声単語の獲得は、ここでは、ロボットができる動作に対する自動音声ラベリングとしてとらえる。すなわち、ロボットが自分で動作単語を選択してそのHMMを訓練することである。今回、ロボットは「よし」という単語だけは認識できるものとする。「よし」と言われると、その前に言われた単語と動作とをロボットが対応付ける。この能力だけを与えておけば、ロボットは自分のいくつかの動作に対応する音声単語を自動獲得できると考えられる。
【0024】
以上のようなロボットは、まるで乳児が任意の言語を獲得できるように、任意に発音された音声単語を獲得できる。
【0025】
音声単語の獲得
初めに、あらかじめロボットには右手を上げる、走るなどのいくつかの動作が行えるようにしておく。またロボットはHMMを使用して「よし」という単語だけは認識できるようにしておく。
【0026】
図1のような流れにより、音声単語を獲得する。初めに、ロボットに音声を入力する。ロボットはそれを認識して、自分ができる動作のうちひとつをランダムに選択し、実行する。さらに、入力された音声を一時蓄えておく。入力した音声に対して正しくない動作なら、人間がまた同じ単語を音声入力する。もし、正しい動作をしたら「よし」と言ってやる。「よし」と言われたらロボットは、直前に入力された単語音声を用いて動作単語のHMMを訓練する。すると次からはこの単語を音声入力するとその単語にあった動作をするようになる。
【0027】
前言語期学習
前言語期学習では、単語音声を動作のラベルとする前に、入力音声をクラスタリングする。入力する音声データは「右手」、「左手」、「走れ」、「万歳」、「後ろ」の5種類である。この5種類を話者一人が各5回発声した計25個の音声データを入力する。
【0028】
静的閾値を用いたHMMクラスタリング
閥値を固定して25個の音声データをランダムに入力する。初めに入力された音声データのHMMを作成し、クラスタの代表点を形成する。二つ目の音声データの入力からは、各クラスタのHMMにより尤度を計算する。そして、閥値を超え、かつ最も尤度が高いクラスタを選択し、入力データを新たにそのメンバーとし、HMMを更新する。もし閾値を超える十分な尤度のクラスタがなければ、HMMを作成し、新たなクラスタを形成する。この流れをデータの数だけ繰り返して、HMMを代表点とするクラスタリングを行う。
【0029】
閥値を変えてこの一連の流れを行ったクラスタリングの結果を図2に示す。
【0030】
図2から分かるように、閥値を低くするに従って1個のメンバーから成るクラスタの数が減っていく。しかし、クラスタのメンバーを見ると、同じ単語同士でまとまってはいるが、別の単語も共にクラスタを形成している。閥値−300では「走れ」と「後ろ」が別のクラスタを形成せずに、2単語で一つのクラスタを形成している。
【0031】
動的閾値を用いたHMMクラスタリング
動的閥値を用いたHMMクラスタリングの流れを図3に示す。
【0032】
初めに、前述の静的閥値同様に音声データを入力し、HMMを代表点とするクラスクリングを行う。この処理を1エピソードとする。1エピソードを終えるたびに閾値を更新し、1個のメンバーで構成されているクラスタを削除する。このエピソードは、すべての音声データがクラスタのメンバーになり、かつクラスタのメンバーが変化しなくなるまで繰り返えされ、この繰り返しにおいて、クラスタのメンバーが変化しないときにクラスタリングが終了する。
る。この処理の結果を図4に示す。
【0033】
図4から分かるようにエピソードを繰り返していくうちに同じ単語によりクラスタが形成されている。エピソード12では「走れ」と「後ろ」がうまく別々にクラスタを形成している。また、エピソード29では入力単語をすべて用いて5個のクラスタが形成されている。このクラスタリング手法は最終的なクラスタ個数を指定せずに自動的にクラスタ個数が決まっている。本発明においては、このクラスタリングを前言語期学習のモデルとする。
【0034】
前言請期学習を用いた音声単語の獲得
前言語期学習を用いた音声単語の獲得のモデルを図5に示す。
【0035】
まず、前述と同じ音声データ25個をランダムに入力する。そして、前述の動的閥値によるHMMクラスタリングを行う。それによって作成されたHMMを使用する。作成されたHMMはこの段階では動作と対応付けがされていない。
【0036】
しかし、HMMと動作を対応付けすることができる。まず、再び音声データを入力していき、「よし」と言われれば、HMMと動作を対応付ける。つまり、ロボットは入力音声により動作にラベリングができたことになる。
【0037】
入力音声と動作が対応していれば正しく行動でき、まだ対応していなければ「よし」と言われるまで音声入力を続ける。また、HMMクラスタリング時にHMMを十分に訓練しているので、前言語期学習を用いない方法より少ない音声入力回数で音声単語の獲得ができる。
【0038】
しかしながら、ロボットの動作はランダムに選択されているので音声入力回数に無駄がある。そこで、次にNo-Listを用いた動作選択を提案する。
【0039】
No-Listを用いた動作選択
No-Listは過去の間違った動作を単語ごとに記憶したリストである。このリストを用いることによって同じ間違った動作を選択しないようにすることができる。例えば、「右手」と音声認識したときに、左手を上げて「よし」と言われなかったとする。次から「右手」と音声認識したときには左手を上げる以外の動作を選択させる。これによりランダム法による動作選択より音声入力回数を少なくすることが可能である。
【実施例】
【0040】
ロボットによる音声単語の獲得における音声入力回数の検討のため、ロボットを使用しない以下の3つのシミュレーション実験を行った。
・前言語期学習なし
・前言語期学習あり
・前言語期学習あり+No-List
実験方法
入力としては話者一人による「右手」、「左手」、「走れ」、「万歳」、「後ろ」の5単語を5回発話した25個の音声データを用いる。
【0041】
音声の入力順序はランダムとし、すべての実験で同じである。ただし、音声データ25個をすべて入力し終わるまで、同じデータは入力されないものとする。ロボットは初めから「よし」だけ認識できるものとし、入力単語に対応した5つの動作を持つ。また、ロボットが正しい動作を行ったら必ず「よし」と言われるものとする。
【0042】
各実験の終了条件は5単語を連続して正しく認識したときとし、途中に認識誤りがないものとする。この条件を基に各実験を10回行い、それぞれの平均音声入力回数を求める。
【0043】
実験結果
実験の結果を表1、2、3に示す。
【0044】
表1と表2を比較すると、平均音声入力回数は、「前言語期学習あり」では半分以下になっている。「前言語期学習なし」では一度の音声単語と動作の対応付けでHMMを作成しても十分な尤度がないため正しく認識できないことがある。すなわち、音声単語と動作の対応付けの際に何度かHMMを訓練しないと同じ単語でも正しく認識できない。そのため「前言語期学習あり」より音声入力回
数が多くなっている。「前言語期学習あり」ではHMMクラスタリングの際にHMMに十分な尤度があるため、認識誤りが生じない。
そのため音声入力回数が少なくなっている。
【0045】
【表1】

【0046】
【表2】

【0047】
【表3】

表2と表3を比較すると「前言語期学習」にNo-Listを加えたものが音声入力回数が少ないことが分かる。これはロボットが動作を選択する際にNo-Listを有効利用した結果である。つまり、一度間違えた動作を再び選択しないことにより、正しい動作を選択する確率が増したためである。
【0048】
ロボットが「よし」だけを認識できることを仮定して、音声単語を獲得できることが示された。また、前言語期学習は、まだ意味が付与されていないHMMの訓練と定義した。
【0049】
これは、音声単語自動獲得がスムーズに行えるための要因となった。動作選択の際には、ただ単にランダムではなく、過去の情報を利用することにより、音声単語自動獲得を少ない入力回数で行うことができることが示された。
【0050】
以上の実施例により、言語の獲得の終了までに要する入力の数は、前言語期学習なしの従来法(表1)で153回、提案法の前言語期学習あり(表2)で74回、さらに改良したNO-Listあり(表3)で52回なので、まず2倍、さらに25%増しであることがわかり、本発明の効果が確認された。
【産業上の利用可能性】
【0051】
本発明を適用できる製品して、下記のような可能性があり将来性のある発明である。
(1)ロボットや機械が任意の発音の単語を獲得できるので、音声命令で動作するエアコン等、福祉分野での利用の可能性がある。お年寄りや障碍者が使いたいことばをエアコン等の動作に翻訳することができる。
(2)任意の言語を獲得できるロボットは、玩具として人気が出ると予想でき、玩具業界での使用の可能性がある。
【図面の簡単な説明】
【0052】
【図1】本発明における音声単語自動獲得の流れを示す図である。
【図2】本発明における静的閾値によるHMMクラスタリングの結果を例示する図である。
【図3】本発明における動的閾値によるHMMクラスタリングの流れを示する図である。
【図4】本発明における動的閾値によるHMMクラスタリングの結果を例示する図である。
【図5】本発明における前言語期学習を用いた音声単語自動獲得の流れを示す図である。

【特許請求の範囲】
【請求項1】
ロボットや機械に音声単語の語彙を獲得させる音声単語自動獲得方法であって、前言語期学習として音声単語を特定の意味のラベルとする前に入力音声をクラスタリングする教師なし学習を行い、該教師なし学習の後に前記音声単語に意味を与える教示学習を行うことを特徴とする音声単語自動獲得方法。
【請求項2】
前記入力音声のクラスタリングは、隠れマルコフモデル(HMM)をクラスタ中心とする時系列のクラスクリングであることを特徴とする請求項1に記載の音声単語自動獲得方法。
【請求項3】
前記入力音声のクラスタリングは、閾値を徐々に下げていく動的閥値法であることを特徴とする請求項1または請求項2に記載の音声単語自動獲得方法。
【請求項4】
前記音声単語に意味を与える教示学習は、過去に間違えた音声単語の意味の記録(NO-List)に基づいて、該音声単語に間違えた意味を与えないことを特徴とする請求項1乃至請求項3のいずれか一項に記載の音声単語自動獲得方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−157119(P2009−157119A)
【公開日】平成21年7月16日(2009.7.16)
【国際特許分類】
【出願番号】特願2007−335407(P2007−335407)
【出願日】平成19年12月27日(2007.12.27)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 
【出願人】(504145308)国立大学法人 琉球大学 (100)
【Fターム(参考)】