説明

言語学習装置、言語学習プログラム及び言語学習方法

【課題】入力音声から認識される音素系列の精度を高めることができる言語学習装置を提供する。
【解決手段】単語の知識を当初備えていないが学習を進めることで単語の知識を習得する言語学習装置100であって、音素モデルに基づいて音声を音素認識する音素認識手段110と、音素認識手段110で認識された音素情報から単語リストを作成するリスト作成手段120と、リスト作成手段120で作成された単語リスに基づいて音声を単語認識する単語認識手段130と、単語認識手段130で認識された単語情報を利用して言語知識θを学習する学習処理手段140と、単語リストを修正するリスト修正手段150と、を備え、学習処理手段140はリスト修正手段150によって修正された単語リストに基づいて言語知識θを修正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人の発話から言語を学習する装置に係り、特に単語知識を備えずに学習を開始し、学習の進行の過程で言語知識を習得できる言語学習装置、言語学習プログラム及び言語学習方法に関する。
【背景技術】
【0002】
家庭や街で人の生活を助けるロボットに対する社会的な期待が高まっている。ロボットが実世界で人とコミュニケーションするためには、多くの言語知識が必要になる。
【0003】
対話ロボットのような多くの従来の対話システムでは、開発者が言語知識を用意しているが、全てを網羅するよう言語知識を設定することは不可能である。そこで、ロボットが自ら知識を学習していくことが望まれる。
【0004】
ロボットによる言語獲得の先行研究では、オブジェクトを見せながら対応する単語を発話することで、その意味と音素系列を学習させている。
【0005】
従来、大語彙連続音声認識を用いた語彙学習手法も提案されている。この手法は、発話を認識して得られたワードグラフを単語集合とみなし、単語集合と対象(物、場所、コマンド)との対応関係を学習させている。そのため、ユーザーは自由な言い回しで教示や指示ができる。
【0006】
しかし、上記の語彙学習手法では対象を表している単語を発話から切り出しているわけではなく、前後の言い回しを含めた複数の単語と一つの対象が対応付けられるため、例えばロボットが場所の名前を学習して発話するというようなことは、従来できなかった。
【0007】
さらに、従来、自由発話を対象とした単語学習の先行研究がなされている(非特許文献1,2)。これらの研究では、意味的に有用な音声単位を切り出すことができるが、音声から指示対象を推定することに焦点が当てられており、獲得された単語の文節や音素系列の正しさは評価されていない。
【0008】
従来、音声認識の分野では、未登録語の問題を解決するために、未登録語クラスの音素間遷移確率や単語間遷移確率を用いた認識手法が提案されている(非特許文献3,4)。これらの研究では、発話から未登録語を切り出し、事前に用意したクラス(人名、地名など)の何れかに分類する。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Gorin, A. L., Petrovska-Delacretaz D., Wright, J. H. and Riccardi, G., "Learning spoken language without transcription", Proc. ASRU Workshop, 1999.
【非特許文献2】Roy, D., "Integration of speech and vision using mutual information", In Proc. of ICASSP, Istanbul, Turkey, 2000
【非特許文献3】Bazzi, I., and Glass, J., "A multi-class approach for modelling out-of-vocabulary words", Proc. ICSLP02: 1613-1616, 2002.
【非特許文献4】山本博史, 小窪浩明, 菊井玄一郎、小川良彦、匂坂芳典、"複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識", 電子情報通信学会論文誌D-2, Vol.J87-D-2, No.12, pp.2104-2111, 2004
【非特許文献5】下平英寿, 久保川達也, 竹内啓, 伊藤秀一,“モデル選択予測・検定・推定の交差点”,岩波書店,2004.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、非特許文献3,4の認識手法では、複数の発話の認識結果を用いて単語の音素系列を学習すること、また、音素系列をマージすることもできない。さらに、意味と音素系列の関係を学習する方法を持たないため、その意味を学習することもできない。
【0011】
本発明は以上の点に鑑みて創作されたもので、入力音声から認識される音素系列の精度を高めることができる、言語学習装置、言語学習プログラム及び言語学習方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するため、本発明の第1の構成は、単語の知識を当初備えていないが、学習を進めることで単語の知識を習得する言語学習装置であって、音素モデルに基づいて音声を音素認識する音素認識手段と、音素認識手段で認識された音素情報から単語リストを作成するリスト作成手段と、リスト作成手段で作成された単語リスに基づいて音声を単語認識する単語認識手段と単語認識手段で認識された単語情報を利用して言語知識を学習する学習処理手段と、単語リストを修正するリスト修正手段と、を備え、学習処理手段は、リスト修正手段によって修正された単語リストに基づいて言語知識を修正することを特徴としている。
【0013】
この言語学習装置において、好ましくは、学習処理手段は、言語知識として、単語認識手段で認識された各単語に対応する複数のモデルを作成し、リスト修正手段が、複数のモデルの尤度を考慮して単語リストを修正する。例えば、リスト修正手段は、単語リスト中の単語の有無によって算出したモデルの尤度差を考慮して、単語リストを修正する。その具体例としては、リスト修正手段が、最小記述長原理に基づいてモデルの数が最適になるよう、単語リストから削除する単語を決定して単語リストを修正する。
【0014】
さらに、言語学習装置では、リスト修正手段が単語リストの修正を複数回或いは繰り返し行い、学習処理手段は、リスト修正手段で単語リストが修正される度に言語知識の修正を行うことが望ましい。
【0015】
上記目的を達成するため、本発明の第2の構成は、言語学習システムに係り、このシステムは、例えば、前記言語学習装置と言語学習装置で作成された言語知識に基づいて発話の理解を行う発話理解装置と、を備えている。
【0016】
この言語学習システムは、言語学習装置による言語学習を行う第1モードとこの第1モードで学習した言語に基づいてユーザーの発話を理解する第2モードとを随時切り替え可能に動作する。
【0017】
この言語学習システムは、例えば、ロボットやカーナビゲーション装置に組み込まれる。
【0018】
上記目的を達成するため、本発明の第3の構成は、プログラムで成り、このプログラムは、コンピュータを、音素モデルに基づいて音声を音素認識する音素認識手段、音素認識手段で認識された音素情報から単語リストを作成するリスト作成手段、リスト作成手段で作成された単語リスト情報に基づいて音声を単語認識する単語認識手段、単語認識手段で認識された単語情報に基づいて言語知識を学習する学習処理手段、単語リストを修正するリスト修正手段、として機能させて、単語の知識を当初備えていないが、学習を進めることで単語の知識を習得するプログラムであって、学習処理手段は、言語知識として、単語処理手段で認識された各単語に対応する複数のモデルを作成し、リスト修正手段が、最小記述長原理に基づいて上記単語リストから削除する単語を決定して単語リストを修正し、学習処理手段が、修正された単語リストに基づいて言語知識を修正することを特徴としている。
【0019】
上記目的を達成するため、本発明の第4の構成は、単語の知識を当初備えずに、学習を進めることで単語の知識を習得する言語学習方法であって、音素モデルに基づいて音声を音素認識する第1ステップと、第1ステップで認識された音素情報から単語リストを作成する第2ステップと、第2ステップで作成された単語リスト情報に基づいて音声を単語認識する第3ステップと、第3ステップで認識された単語情報に基づいて、第3ステップで認識された各単語に対応する複数のモデルを含む言語知識を学習する第4ステップと、第4ステップで作成された言語知識と最小記述長原理とに基づいて単語リストから削除する単語を決定して単語リストの修正を複数回或いは繰り返し行う第6ステップと、第6ステップで単語リストが修正される度に言語知識の修正を行う第7ステップと、を含むことを特徴としている。
【0020】
上記目的を達成するため、本発明の第5の構成は、多様な言い回しでの教示から、単語の意味(語意)、およびその音素系列を学習できる言語獲得手法を実行する言語学習装置である。この言語学習装置は、獲得した知識を用いた発話理解手法にも利用できる。語意とは、例えば対象と単語の間の直接的な対応関係(指示関係)とする。本発明は、初期知識として単語の知識を用いないため、初めは音声を音素列でしか認識できないが、学習を進めることで、音響的、文法的、意味的に有用な音声単位(単語)を切り出すことができるようになる。
【発明の効果】
【0021】
本発明によれば、音素系列を精度良く認識できるので、意味のある単語の切り出しが可能である。
【図面の簡単な説明】
【0022】
【図1】本発明の実施形態に係る言語処理システムを示すブロック図である。
【図2】図1の言語処理システムにおける発話と対象の対応の適切さを示すグラフィカルモデルを示す図である。
【図3】本発明の実施形態に係る言語学習装置を示すブロック図である。
【図4】図3の言語学習装置の処理手順を示すフロー図である。
【図5】図4に示すステップS3−2の近似計算のフローを示す図である。
【図6】図3の言語学習装置で作成される単語リストを示す模式図である。
【図7】図3の言語学習装置で作成される単語リストを示す模式図である。
【図8】図3の言語学習装置で作成される単語リストを示す模式図である。
【図9】図1の言語処理システムの実験結果(モデル選択時における記述長DLの推移)を示すグラフである。
【図10】図1の言語処理システムの実験結果を示すグラフである。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態に係る言語処理システムについて、下記の項目内容を順に、必要箇所では図面を参照しつつ詳細に説明する。
【0024】
A : 概要『言語処理システム』について
B : 概要『言語学習』について
C : 概要『発話理解』について
D : 概要『応答生成』について
E : 言語学習装置について
E−1: 言語学習装置の構成
E−2: 言語学習装置の動作
F : 『言語処理システム』の実験例
F―1: 実験内容
F―2: 実験条件
F―3: 実験結果と考察
F−3−1:獲得単語数と発話の認識結果
F−3−2:出力したキーワードの音素正解精度
G : 言語処理システムの適用例
H : その他
A:概要『言語処理システム』について
本発明の実施形態に係る言語処理システムは、言語を学習する第1モードと、この第1モードで学習した言語に基づいてユーザーの発話を理解したり、理解した発話に基づいて応答したりする第2モードと、を切り替えて行う。モードの切替は適宜、例えばユーザーによる制御或いは予め設定されたタイミングで行われる。
【0025】
図1は本実施形態に係る言語処理システム1の構成を示すブロック図である。言語処理システム1は、言語学習部10と、発話理解部20と、応答生成部30と、を備えている。これらの言語学習部10、発話理解部20、応答生成部30は、例えばコンピュータなどを利用した言語学習装置、発話理解装置、応答生成装置として構成されている。
【0026】
次に、言語学習部10、発話理解部20、応答生成部30の各機能について説明する。
B:概要『言語学習』について
本実施形態の言語学習装置は、単語の知識を当初所有しない状態で言語学習を開始し、発話から単語を学習する。単語とは、例えば物や場所や人の名前である。
【0027】
本実施形態の言語学習装置では、以下の方法手順で言語学習を行う。
【0028】
第1ステップ:初期の単語リストの作成
言語学習装置は、例えば学習データを用いて『初期の単語候補』(以下、単語リストと呼ぶ)を作成する。この単語リストは、学習データを音素認識した結果から生成される。
【0029】
第2ステップ:初期の学習内容(知識)の作成
言語学習装置では、単語リストを用いて学習データを単語認識して、意味と文法の学習を行う。これにより、初期の学習内容、所謂『知識』が生成される(以下、言語知識と呼ぶ場合がある)。
【0030】
第3ステップ:初期の単語リストの修正
初期の単語リストに基づいて学習した内容には、不要な単語に関する情報が知識として含まれる。また、学習すべき内容が知識として含まれていない場合がある。そこで、本実施形態の言語学習装置では、単語リストを修正する。具体的には、言語学習装置は、不要な単語を上記の単語リストから削除(以下、削除処理と呼ぶ)したり、上記の単語リストに新たな単語を追加(以下、追加処理と呼ぶ)したりする。単語リストの修正として、「削除処理」及び「追加処理」の少なくとも一方の処理が実行される。
【0031】
第4ステップ:学習内容(知識)の改良
修正した単語リストと当初与えられた学習データとを用いて再び学習を行う。これにより、初期の単語リストによって作成された学習内容中の不備を是正する。よって、学習内容(知識)が改良される。なお、『不備の是正』とは、存在する全ての欠点を修正する場合に限らず、一部の欠点を修正する場合も含む。
【0032】
第5ステップ:単語リストの再度の修正
修正された単語リストに基づいて学習した内容(第4ステップによる知識)にも、不要な単語に関する情報が知識として含まれ、及び/又は未だ必要な情報が欠落している虞がある。そこで、単語リストを再度修正する。
【0033】
第6ステップ:学習内容(知識)の再度の改良
再度修正した単語リストと当初与えられた学習データとを用いて再び学習を行う。
【0034】
さらに、本実施形態の言語学習装置では、上記第5ステップと第6ステップとを繰り返す(以下、繰返し処理と呼ぶ)。繰返し数は2回、或いはそれ以上の任意の複数の回数に限らず、1回でもよい。
【0035】
本実施形態の言語学習装置では、単語リストを修正することで、初期の学習データに含まれる不備(例えば、存在する一部の不備)を是正できる。よって、修正された単語リストに基づいて言語学習データから再度言語を学習することで、学習データを改良できる。さらに、繰返し処理を行うことで、学習データに含まれる不備の割合を低減できる。
【0036】
本実施形態では、単語リストから削除すべき単語であるか否かの判定を、音響的と文法的と意味的との少なくとも一つの項目或いはそれら全部の項目に関して、統計的処理によって行う。
【0037】
本実施形態は、統計的処理に基づいて、単語リストに含まれる或いは含めるべき単語を見直す。これにより、正しい単語としての音素系列を認識できる。このようにして得た音素系列を参考にすることで、対象の情報との関連で意味を正確に学習できる。
【0038】
言語学習装置は言語学習データを利用して言語知識を作成する。この言語知識には、言語学習データに基づいて作成された単語に関連した情報を含む。この情報は、『文法』や『語意』に関する所謂『文法モデル』、『語意モデル』である。言語知識を当初作成した段階では、『文法モデル』、『語意モデル』には、不要な単語に関するモデルが含まれる。そこで、本実施形態の言語学習装置では、当初作成した言語知識としての複数の『モデル』の内、必要なもの選別する(以下、モデル選択処理と呼ぶ)。
【0039】
このモデル選択処理を、本実施形態の言語学習装置では、言語知識の最適化、即ちモデル数の最適化として処理する。この最適化問題を解決するにあたり、本実施形態の言語学習装置は、前述の複数の『モデル』の組み合わせの違いによる尤度差によってモデル選別処理を行うのではなく、単語リスト中の各単語の有無の違いによる尤度差の問題として処理する。
【0040】
このような処理が適切である理由を以下に示す。
【0041】
例えば、ある音声を単語認識すると、その認識結果には、所望の単語が含まれる結果と含まれない結果が出てくる。ここで、最も尤度の高い結果にwが含まれ、2番目の候補にwが含まれなかったとする。もし、元々wがないモデルでこの音声を認識したとすると、2番目の候補が最尤となるはずである。従って、wが含まれた最尤の候補と、wが含まれなかった2番目の候補の尤度差は、wが含まれるモデルと含まれないモデルの尤度差といえる。したがって、モデル数の最適化は、単語リストの最適化として解決できる。
【0042】
この言語学習装置によれば、モデル選択処理として単語リストを修正する度に行われることで、その都度言語知識が改良される。
C:概要『発話理解』について
本実施形態の発話理解装置について説明する。
【0043】
発話理解装置は、言語学習装置で作成された言語知識に基づいて発話の理解を行う。ここで、理解とは、発話を音声認識するだけでなく、意味的に理解することを言う。
【0044】
図2は、発話と対象の対応の適切さを示すグラフィカルモデルを示す図である。各ノードは確率変数を表し、エッジの矢印は確率の依存関係を表している。単語列Xsから音声Xaへの矢印は確率p(Xa|Xs)を表しており、音声認識の分野ではその確率分布を音響モデルと呼ぶ。単語列Xsの生起確率p(Xs)は単語の接続の文法的な妥当性を表しており、そのモデルを言語モデルと呼ぶ。一般的な音声認識では、音響モデルと言語モデルの二つを利用して、単語認識を行っている。本実施形態では、発話から対象(またはその逆)を出力することができるよう、さらに対象を確率変数としてモデルに加えて、発話理解を行う。
【0045】
本実施形態では、音響モデルと言語モデルとに加えて、単語列Xsと対象Xzの条件付き確率p(Xz|Xs)を導入する。確率p(Xz|Xs)は、単語列Xsに含まれるそれぞれの単語Xwと対象Xzの条件付き確率p(Xz|Xw)から計算される。p(Xz|Xw)の分布は単語の意味を表していることから語意モデルと呼ぶ。
【0046】
これらのモデルを用いた発話理解メカニズムを定式化したものを式1として示す。
【0047】
【数1】

式1はある音声aとある対象zの共起確率を表している。右辺の第一項は音響、第二項は文法、第三項は語意の各モデルに関する共起確立を表している。各モデルの確率はそれぞれ扱っている問題の複雑さが異なるため直接比較することはできない。例えば、音響尤度は非常に小さな値を取る。そのため各モデルの確率に重みωを掛けて統合している。
【0048】
式1中のθは単語リスト、音響モデル、言語モデル、語意モデルのパラメータの集合であり、これらが前述の『知識』、つまり言語学習装置が所有する『言語知識』を表している。
【0049】
式1中のNBestは音声aを単語列として認識した結果のN候補の単語列である。
【0050】
式1右辺の第二項は、言語モデルとして単語bi-gramを用いて、文法の確率を計算する。なお、N-グラム言語モデルにおいて、理論的にはNが大きいほど正確なモデルになることが想定される、処理するデータが大量になるため、本実施形態ではN=2として言語モデルを利用する。
【0051】
第二項において、LSは単語列sの単語数、wslは単語列sのl番目の単語、ws0は始端の単語、wsLS+1は終端の単語を表す。ただし、後述の方法でキーワードと判定された単語は、クラスbi-gramとして扱う。すなわち、全キーワードを一つの単語とみなしてbi-gramを統合する。
【0052】
式1右辺の第三項では発話に含まれるキーワードの意味p(Xz|Xw,θ)を、重みr(wsl,s,θ)で加重平均して計算する。重みr(wsl,s,θ)は次の式2で計算する。
【0053】
【数2】

ただし、単語wslがキーワードでない場合、r(wsl,s,θ)を0とする。この重みを使用することで、学習時に誤ってキーワードが細かく文節された場合でも、それらを統合して意味の推定を行うことができる。
【0054】
ユーザーの発話から、その発話に含まれるキーワード、例えば場所、人、物などの名前(即ち、単語)を判定する(以下、キーワード判定と呼ぶ)。このキーワード判定には、対象XzのエントロピーH(Xz)と、ある単語wが与えられた時の対象のエントロピーH(Xz|Xw=w)との差、即ち相互情報量(mutual information)I(Xz|Xw=w)を用いる(式3)。
【0055】
【数3】

ここで、I(Xz|Xw=w)が閾値Tkよりも大きければ、単語wをキーワードと判定する。
【0056】
発話理解においては、発話aが与えられると、次式4により対象zを推定する。
【0057】
【数4】

D:概要『応答生成』について
本実施形態の応答生成装置について説明する。
【0058】
本実施形態の応答生成装置は、発話理解装置によって理解した発話内容に基づいて、ユーザーに応答する。具体的には、応答生成装置が対象zとして最も良く表すキーワードを次式5に基づいて出力する。
【0059】
【数5】

ただし、Ωはキーワード集合である。この式5は式1を1単語に限定したものである。本実施形態では音声合成の問題を省略するため「単語が決まれば合成音声が一意に生成できる」と仮定し、音声信号の出力確率p(Xa=a|Xw,θ)は式5に含めていない。
【0060】
応答生成装置は、例えば、スピーカーやディスプレイを備えている。応答生成装置は、上記式5の結果、即ちキーワードをスピーカーから発したりディスプレイに表示する。
【0061】
以上のように、本実施形態の言語処理システム1は、『言語学習』、『発話理解』、『応答生成』を行う。言語処理システム1では、特に『発話理解』などの精度を向上させるために、『発話理解』の際に利用する言語知識、即ち式1におけるθの質を向上させている。このために、言語知識(θ)を生成する言語学習装置は、以下のように構成されている。
E:言語学習装置について
(E1:言語学習装置の構成)
図3は本実施形態に係る言語学習装置100の構成を示すブロック図である。
【0062】
言語学習装置100は、単語の知識を当初(例えば、デフォルト状態などの初期設定時)備えていないが、学習を進める過程で単語の知識を習得する。具体的には、例えば学習データとしての音声が言語学習装置100に入力されると、言語学習装置100は、当該音声から言語知識θを作成し、さらにその言語知識θを自ら改良する。
【0063】
改良した言語知識θ、即ち良質の知識を生成するよう、言語学習装置100は、音素処理手段110とリスト作成手段120と単語認識手段130と学習処理手段140とリスト修正手段150とを備えている。
【0064】
音素処理手段110は、音素モデルに基づいて音声を音素認識する。音素モデルは、言語学習装置100に予めセットされている。
【0065】
リスト作成手段120は、音素処理手段110で認識された音素情報、即ち音素認識結果から単語リストを作成する。
【0066】
初期の単語リストは、音素認識結果の音素列をモーラ列(音韻的音節の列)に変換し、その統計量に基づいて作成される。具体的には、音素認識結果として教示された全モーラ列に含まれる部分列の頻度をカウントし、各部分列の前後に接続されるモーラのエントロピーを算出する。このエントロピー、即ち情報量によって、各モーラを連接させるかどうか、つまり単語の切れ目を統計的に判定する。例えば、エントロピーがある値以上の場合に、切れ目と判定する。本実施形態では、あるモーラ列の前後のエントロピーが非ゼロ、かつあるモーラ列の出現頻度(全学習データ中において)が2回以上である場合に、そのモーラ列を単語候補として単語リストに登録する。
【0067】
リスト作成手段120で得られた単語候補は、学習に用いた発話モーラ列の全区間を網羅しているわけではない。そこで、リスト作成手段120は、補足的に次の処理を行う。リスト作成手段120はどの単語候補とも一致しない区間が教示された内容、即ち音素認識結果に残っていれば、それを新たな単語候補としてリストに追加する。
【0068】
単語認識手段130は、リスト作成手段120で作成された単語リスト情報に基づいて音声、即ち当初与えられた学習データを単語認識する。本実施形態では、リスト作成手段120で生成された単語リストを使い、学習データの全音声を単語認識する。単語認識の結果はN個(例えば、N=100)の候補(NBest)として得る。
【0069】
学習処理手段140は、単語認識手段130で認識された単語情報に基づいて言語の学習を行う。具体的には、学習処理手段140は、単語認識手段130でNBestとして認識された全ての単語列を用いて言語モデルM1と語意モデルM2を学習する。
【0070】
言語モデルM1は、単語bi-gramとし、単語の並びの頻度から計算する。また、後述する単語の連結時に使用する後ろ向きbi-gram(次に来る単語ではなく、前に来る単語を予測する)も、本実施形態における学習処理手段140で学習する。
【0071】
語意モデルM2は、単語Xwで条件づけられた対象Xzの確率分布p(Xz|Xw,θ)とし、単語と対象の共起頻度から算出する。学習処理手段140で学習した語意モデルM2に基づいて、キーワード判定、(前記した、発話理解装置におけるキーワード判定)が行われる。
【0072】
これらの言語モデルM1と語意モデルM2と前述の単語リストとが前述の言語知識θを構成する要素である。なお、言語知識として、言語モデルM1と語意モデルM2とには、単語認識手段130で認識された各単語に関連する複数のモデルが含まれる。
【0073】
このようなモデル生成技術は、例えば特許第2738508号などに開示されている。
【0074】
リスト修正手段150は、上記学習処理手段140で作成された言語知識を統計処理によって選別するように単語リストを修正する。本実施形態では、リスト修正手段は前述の複数のモデルの尤度を考慮して単語リストを修正する。言い換えれば、リスト修正手段150は、単語リスト中の単語の有無によって算出したモデルの尤度差を考慮して、単語リストを修正する敷衍して言えば、本実施形態では、単語の数および各単語の音素列の最適化問題を、モデル選択の問題として解く。
【0075】
本実施形態では、モデル選択の基準に最小記述長(minimum description length:MDL)原理を利用する。以下、最小記述長原理をMDLと呼ぶ。MDLはデータ圧縮のための最適な符号化法を決定するための基準として従来より提案されている。MDLは情報源となる確率モデルの記述長(モデルの複雑さ)と、そのモデルによる観測データの記述長(モデルの尤度:以下符号としてDLを付ける)の和が最小となるモデルを選択する(非特許文献5)。
【0076】
リスト修正手段150は、言語知識θと観測データとの記述長DLを次式6のように定義する。なお、観測データとは、本実施形態では学習データを構成する音声である。
【0077】
【数6】

L(θ,Ο)はモデルの対数尤度(モデルが学習データセットΟを出力する確率の対数)、f(θ)はθの自由度であり、Mは学習データ数である。式6右辺の第1項が文法モデル、第2項が語意モデルのパラメータである。音響モデルは学習していないので除外する。
【0078】
モデル対数尤度L(θ,Ο)と自由度f(θ)は、それぞれ式(7),(8)から計算する。
【0079】
【数7】

【0080】
【数8】

ただし、iは学習データのインデックス、Kはモデルθの単語数、Zは対象数である。
【0081】
本実施形態では、単語の組み合わせを上記基準MDLで最適化するためには、その組み合わせ全てに対して尤度を計算する必要があるが、現実的ではない。そこで、本実施形態では、単語認識手段130で得たNBestを用いて、単語の有無による記述長DLの差分を近似的に求め、不要な単語を削除していく。また、決まった並びで現れる単語については、それらを連結し新たな単語を生成する。なお、各組み合わせの尤度を計算して、モデル選択を行ってもよいことは勿論である。
【0082】
このように、本実施形態において、リスト修正手段150は、最小記述長原理MDLに基づいてモデル(言語知識θ中の言語モデルM1と語意モデルM2を構成する各モデル)の数が最適になるよう、単語リストから削除する単語を決定し、或いは必要と思われる新単語を認識して、単語リストを修正する。
【0083】
具体的には、リスト修正手段150は以下のように削除処理を行う。
【0084】
(1)単語の削除
前述したように、ある音声aを単語認識すると、その認識結果のNBestには、ある単語wが含まれる結果と含まれない結果が出てくる。wが含まれた最尤の候補と、wが含まれなかった2番目の候補の尤度差は、wが含まれるモデルθ0と含まれないθlの(音声aにおける)尤度差といえる。また、モデルθlの自由度はモデルθ0から一語減っているため以下の式9となる。
【0085】
【数9】

こうして得られた尤度差と自由度からモデルθlの記述長DL(θl)を近似的に求める。
【0086】
本実施形態では、先ず、獲得した全ての単語について、その有無による尤度差を計算し、尤度差が最小となる単語を見つける。その単語を削除した場合の記述長DL(θl)と、現在のモデルの記述長DL(θ0)を比較する。もし、DL(θl)の方が小さければ、言語知識をθlに更新し、その単語を含むNBest候補を削除する。そして再び全ての単語について尤度差および記述長DLを求め判定を行う。この処理を繰り返し、現在のモデルの記述長DL(θ0)の方が小さくなった時に単語削除を終了する。
【0087】
順序を決めずに一つずつ単語を削除すると、削除する単語の順番によって結果が変わるので、本実施形態では、削除の影響の少ない単語、即ち尤度差が最小となる単語から削除する。
【0088】
単語の削除を進めていくと、判定したい単語がNBestの全てに含まれ、その単語を用いない時の尤度が計算できなくなる場合がある。その際には、実際にその単語を除き、尤度が計算できなかった発話だけ単語認識をやり直し、尤度差を求める。また、ここで得られた認識結果を、元のNBestに追加する。
(2)単語の連結
リスト修正手段150は、削除処理と共に、或いは削除処理とは別に、追加処理を行う。
【0089】
前向きbi-gram,または後向きbi-gramが閾値(実験では0.5)以上となる単語のペアがある場合、それらを連結し、新たな単語を生成する。これにより、リスト作成手段120で誤って文節された単語を復元することができる。単語の連結は連語の削除と並列して行い、両者の結果をマージして新たな単語リストを生成する。
【0090】
このようにして修正された単語リストに基づいて、前述の学習処理手段140が、言語知識θを再度作成する。即ち、言語モデルM1と語意モデルM2を作りなおす。なお、再度作成する場合に限らず、差分を反映するように先の言語知識を訂正する。このような作り直しや訂正などを包含して、本明細書では、『修正』と呼ぶ。
【0091】
本実施形態の言語学習装置100には、図示省略するが、例えば前処理手段や特徴抽出手段などを備えてもよい。
【0092】
前処理手段は、マイクなどの入力装置(図示省略)から入力されるアナログ信号を、例えばサウンドボードなどによってディジタル信号に変換する。
【0093】
特徴抽出手段は、前処理手段の出力であるディジタル化されたデータを入力し、以後の言語学習に役立つ情報、例えばパターンの識別に役立つ特徴情報を取り出す。この情報が、本言語学習装置100における認識などの対象をなす。
【0094】
以上の言語学習装置100は例えばコンピュータから構成される。このコンピュータは、前もってインストールされたソフトウェアとしての言語学習プログラムを実行することで、上記の手法、即ち言語学習を実現する。具体的には、コンピュータが言語学習プログラムを実行することで、コンピュータが前述の音素認識手段と、リスト作成手段と、単語認識手段と、学習処理手段と、リスト修正手段として機能する。なお、プログラムには、コンピュータを前処理手段と特徴抽出手段として機能するものを含めても含めなくても良い。
【0095】
なお、複数のコンピュータをLANやインターネット、公衆網等を介して相互に接続して、前処理手段と、特徴抽出手段と、音素認識手段と、リスト作成手段と、単語認識手段と、学習処理手段と、リスト修正手段との動作を複数のパーソナルコンピュータによって分散処理させてもよい。コンピュータは、従来公知の構成のものを使用することができ、RAM,ROM,ハードディスクなどの記憶装置と、キーボード,ポインティング・デバイスなどの操作装置と、操作装置等からの指示により記憶装置に格納されたデータやソフトウェアを処理する中央処理装置(CPU)と、処理結果等を表示するディスプレイなどを備えている。このコンピュータは汎用の装置でも、専用の装置として構成されたものであってもよい。
E−2:言語学習装置の動作
本実施形態に係る言語学習装置100における言語獲得手法、つまり言語処理システム1における学習フェイズは、大まかに分けると、三つのステップでなる(ステップS1〜S3:図3及び図4参照)。
【0096】
ステップS1は、学習データの全音声を音素列として認識し、その統計量から初期の単語リストを生成する。
【0097】
ステップS2は、ステップS1の単語リストを用いて音声を単語認識し、単語と対象の対応関係(語意モデル)や、単語間の繋がり(言語モデル)の学習を行う。つまり、言語知識θを生成する。
【0098】
ステップS3ではモデル尤度を計算し、最小記述長原理に基づいて単語の削除・連結を行う。具体的には、式6の記述長DLを計算する(ステップS3−1)。この計算として、Nベストの音声認識結果を用いた近似計算を行う(ステップS3−2)。そして、記述長DLが最小となる単語を見出し(ステップS3−3)、当該単語の削除の有無による記述長DL同士を比較する(ステップS3−4)。単語を削除した場合の記述長DLが単語を削除しない場合の記述長DLより小さければ、さらに削除すべき単語の選定を続ける(ステップS3−4でYesと判定してステップS3−5へ)。逆に単語を削除した場合の記述長DLが単語を削除しない場合の記述長DLより大きければ削除すべき単語の選定処理を終了する(ステップS3−4でNoと判定してステップS3−6)。
【0099】
ここで、図4のステップS3−2の『近似計算』について、図5、図6〜図8を用いて説明する。
【0100】
図5は図4のステップS3−2の『近似計算』のフロー図である。図6はリスト作成手段120で作成された単語リストBBを示す模式図である。
【0101】
単語リストBBは、学習データとして55の発話a1-a55に基づいて作成されている。単語リストBBでは、各発話a1-a55毎にNBestの単語がその尤度が高い順に並んでいる。なお、図6の単語リストBBを構成する各単語を認識結果と言う場合がある。
【0102】
本実施形態の言語学習装置100は、MDLに則って削除処理を行うにあたり、単語リストBB(図4)の各発話a1-a55の最上位(トップ)の単語、即ち図6中の鎖線H1で囲まれる認識結果群だけから式6のモデルの対数尤度L(θ,Ο)を計算する。言い換えれば、各発話におけるトップの音声認識の尤度を足し合わせたものである。
【0103】
次に、図6の単語リストBBからある単語αを含む認識結果を削除する。ここで、単語αとは、単語リストBBに挙げられた認識結果の一つである。すると、図6の単語リストBBは、例えば図7のように変化する。つまり、当初の単語リストBBから、発話a1で1位と2位と6位の『単語αを含む認識結果』、発話a2で4位と7位の『単語αを含む認識結果』、・・・発話a55で1位〜3位と5位と6位の『単語αを含む認識結果』が削除される。これにより、発話a1で当初3位であった認識結果が1位となり、発話a55では当初4位であった認識結果が1位となる。このようして、単語αを削除した単語リストBBにおいて、再度、式6のモデルの対数尤度L(θ,Ο)を計算する。このモデルの対数尤度L(θ,Ο)は、図7中の鎖線H2で囲まれる認識結果群だけから計算される。
【0104】
ここで、言語学習装置100では、各発話a1-a55に図5の処理を行う。
【0105】
発話a1について見ると、単語αを含む認識結果が1位(S1,1)と2位(S1,2)に含まれることから、3位の認識結果(S1,3)が最上位に設定される(ステップS31でYesと判定されてステップs32へ)。
【0106】
発話a2ついて見ると、単語αを含む認識結果が1位(S2、1)に含まれなかったことから、その発話a2の尤度は、前に計算したものとする(ステップS31でNoと判定されてステップs36へ)。
【0107】
また、発話a55について見ると、単語αを含む認識結果が1位(S55,1)と2位(S55,2)に含まれることから、3位の認識結果(S55,3)が最上位に設定される(ステップS31でYesと判定されてステップs32へ)。
【0108】
図7のように、単語リストBBを変えた場合、発話a1と発話a55等で、下位の認識結果がトップに移ったことで、発話の尤度p(si,zi|sij,θ)が下がる。一方、発話a2では、単語αが尤度トップの認識結果に含まれていないため、つまり削除処理によって当初のトップの認識結果が削除されずに残るため、モデル尤度には影響を与えない。
【0109】
ステップS33で、発話a1や発話a55などのように先の段階で低い順位にあった認識結果がトップになって計算した尤度を足し合わせる。次に式9に従って自由度を計算する(ステップS34)。そして、これらの計算結果に基づいて、記述長DLを計算する(ステップS35)。
【0110】
このようにして計算された記述長DLは、前記したように、単語αを削除した後の記述長DLが、当該単語αを削除する前の記述長DLよりも低いか否か判定される(図4のステップS3−4)。低い場合には、さらに別の単語βを削除する。図8は、図7の単語リストBBから単語βを含む認識結果を削除した状態の単語リストBBを示している。再度、式6のモデルの対数尤度L(θ,Ο)を計算する。このモデルの対数尤度L(θ,Ο)は、図中の一点鎖線H3で囲まれる認識結果群だけから計算される(図5の近似計算に拠る)。
【0111】
そして、本実施形態では、単語βを削除した後の記述長DLが、当該単語βを削除する前の記述長DLよりも低いか否か判定する(図4のステップS3−4)。
【0112】
このように、本実施形態では、単語の削除の前後の記述長DLを比較し続け、ある単語W(k)を削除した段階で、単語削除後の記述長DLが削除前の記述長DLより大きかった場合に、削除処理を終了する(図4のステップS3−4でNoで判定されてステップS3−6へ)。この場合、削除処理によって単語リストBB(図4)から削除される単語は、単語W(K)の前の単語W(k−1)迄である。
【0113】
言語学習装置100における追加処理は、次のようにして行われる。
【0114】
言語学習装置100では、前述の言語モデルM1のデータを利用して、単語の連結を行う。具体的には、前述の言語モデルM1中の単語wiと単語wjとのイグラム確立P(wi|wj)を計算する。そして、その値が閾値(例えば、0.5)以上の場合に、単語wiと単語wjとを連結して新たな単語を作成する。
【0115】
上記の削除処理の結果と、上記追加処理の結果とをマージして、新たな単語リストにする。即ち、除かれずに残った単語と、新たに連結されて作られた単語とを合わせて、新たな単語リストBBを作る。
【0116】
ステップS3で得られた新たな単語リストBBを用いてステップS2の学習をやり直す。このように、ステップS2とステップS3とを繰り返す。望ましくは、リスト修正手段150が単語リストBBの修正を複数回或いは繰り返し行う。そして、学習処理手段140が、リスト修正手段150によって単語リストBBが修正される度に言語知識θを修正(例えば、更新や作成し直し)する。
【0117】
本実施形態に係る言語学習装置100によれば、ステップS2による言語知識の作成と、ステップS3による言語知識の選択とを繰り返すことでより良い言語知識θが獲得される。
【0118】
本実施形態は、統計的処理に基づいて、単語リストに含まれる或いは含めるべき単語を見直す。これにより、正しい単語としての音素系列を認識できる。このようにして得た音素系列を参考にすることで、対象の情報との関連で意味を正確に学習できる。
【0119】
敷衍して言えば、言語学習装置100は言語学習データを利用して言語知識θを作成する。この言語知識には、言語学習データに基づいて作成された単語に関連した情報を含むが、『文法』や『語意』に関する所謂『文法モデル』、『語意モデル』には、不要であったり非常に精度の低いモデルが含まれたりする虞がある。そこで、本実施形態の言語学習装置100では、当初作成した言語知識θとしての複数のモデルの内、必要なものだけが最終的には残るように、或いは良いモデルが多く残るように、基になった単語リストを修正して学習を繰り返す。
【0120】
このような言語学習装置100を備えた言語処理システム1によれば、学習フェイズにおいて、当初作成した言語知識θをそのまま発話理解装置へ提供するのではなく、発話理解が促進されるよう言語知識θの見直し、言い換えれば知識の改良を行う。これにより、発話理解装置では良質の言語知識θに基づいて発話の理解が行われる。また、言語処理システム1の応答生成装置は、前記の式5に基づいてキーワード判別し、例えばユーザーに対して音声合成装置などによってキーワードを音声としてスピーカーなどを介して出力する。この言語処理システム1の実験例について次に説明する。
F:『言語処理システム』の実験例
〔F―1:実験内容〕
実験は、言語を獲得するための学習フェイズと、獲得した知識を運用する評価フェイズ(評価フェイズとも呼ぶ)と、から成る。
【0121】
学習フェイズでは、人が言語処理システムの言語学習装置に対して発話する。発話はセットマイクを介して言語学習装置に取得される。人が発話する際、場所を表す単語(キーワード)や、その言い回し(発話に含まれるキーワード以外の語)は自由に設定できる。ただし、キーワードと言い回しは独立しており、同じ言い回しで複数のキーワードが教示されること、一つのキーワードが複数の言い回しで教示されることを前提とする。
【0122】
言語処理システム1の言語学習装置100は、前述のように音声を音素列として認識するための音響モデル(音素間の接続制約や、音素とモーラの対応表を含む)を持ち、単語に関する知識は持っていない。従って、人の発話のどの部分がキーワードであるか言語処理システムはわからない。
【0123】
この言語処理システム1は発話と、発話が示す対象(例えば、場所を扱うが、物や人でもよい)の対応関係を学習する。
【0124】
評価フェイズでは、言語処理システム1の発話理解装置が人の発話を認識し、応答生成装置からキーワードを出力させる。そして、発話から、各場所に対応するキーワードが正しく出力できることを確かめる。
〔F―2:実験条件〕
実験には男性話者17名の音声を用いた。対象の数は10、言い回しのパターン数は6とし、その全ての組み合わせとなる60発話を話者毎に収集した。対象番号と対応するキーワードを表1に、言い回しのパターンを表2に示す。12-fold Cross Validation法〔55個のデータで学習を行い、残り5個のデータで評価を行うことを12通り行う〕を用いて話者毎に評価する。なお、式(1)に示した各尤度の重みには、無作為に選出した一人の話者のデータに対して最も良い結果が得られた(音響重みω1=0.0001,文法重みω2=5.0,語意重みω3=5.0)を使用した。
【0125】
【表1】

【0126】
【表2】

〔F―3:実験結果と考察〕
〔F−3−1:獲得単語数と発話の認識結果〕
まず、モデル選択時における記述長DLと単語数との関係を図9に示す。図には実験した事例の一つを示す(50語以上は省略)。モデル選択1回目の時には32単語の時にDLが最小となったため、そこで単語の削除がストップした。得られた32単語に、単語の連結によって作られた単語を統合することで、新たな単語リストが生成される。そのため、モデル選択2回目は32単語より多くの単語がある状態からスタートする。モデル選択を繰り返すことで、最小の記述長となる単語数が収束していることがわかる。
【0127】
話者17人分の結果の平均を図10に示す。図中のヒストグラムは得られた単語数(獲得単語数)と、そこに含まれるキーワード数(獲得キーワード数)を表している。学習に用いた55発話の音素列に含まれる部分列のパターンは平均して約6000種類であり、そのうち約200語が初期の単語候補として選ばれた。初期の単語候補を用いて語意学習した結果、約150語がキーワードと判定された。図からモデル選択を繰り返すことで単語数が減少していくことがわかる。最終的にはキーワードとして平均13語が得られた。これは真のキーワード数(10語)とほぼ同数まで絞り込むことができることを示している。
【0128】
評価用の音声を認識して得られた対象の正解率(対象正解率)は、モデル選択を行わなかった場合でも95%であった。統計情報を元に作られた初期の単語候補だけでも、発話の認識においては高い正解率を得られているが、モデル選択を繰り返すことで正解率が99%に向上した。
〔F−3−2:出力したキーワードの音素正解精度〕
初期の言語知識を用いて60発話を音素認識した際の、発話全体に対する音素正解精度は82%であった(図中、破線の「音素正解精度(ベースライン)」)。各対象のキーワードを式4によって出力し、その音素正解精度を算出した(図中「キーワードの音素正解精度」)。モデル選択を行わない場合の出力キーワードの音素正解精度は50%以下であり、モデル選択を繰り返すことで85%まで上昇した。
【0129】
モデル選択を行わない場合に、キーワードの音素正解精度がベースラインを大きく下回るのは、初期単語リストに登録されたキーワードの文節誤りに起因する。モデル選択なしの場合に出力されたキーワードの例を表3に示す。表から細かく文節されたキーワードが出力されていることが分かる。
【0130】
【表3】

次に、表3と同じ学習データを用いて、モデル選択を10回行った後の出力キーワードの例を表4に示す。
【0131】
【表4】

参考のために、得られた全単語(キーワードと判定されたが出力されなかった単語,キーワードと判定されなかった単語)を併せて載せる。表4から、表3で示した文節誤りが修正されたことがわかる。このように提案手法は、MDL基準で単語の連結と削除を繰り返すことで、キーワードの始端・終端を正しく推定することができる。また表から、言い回しも高い精度で学習できることがわかる。しかし一方で、本来のキーワード数よりも多くのキーワードが獲得された。これは、音響的に類似した単語が削除されずに残ったためである。表4の例では、「スマートルームの入り口」に対応する単語として、出力されたキーワードの他に、「すまおとるうむのいりぐち」が獲得された。さらに、「ここの名前は」に対応する単語も二つ獲得された(表4下段の★印のついた単語)。類似した単語を削除するか否かは、音響重みω1に依存する。今回は重みを固定した結果のみを示したが、音響重みを小さくすることで、類似した単語が削除されることが確かめられている。
【0132】
このように、本実施形態に係る言語処理システム1によれば、多様な言い回しでの教示(即ち、学習データ)から発話と対象の関係や単語の音素列を学習できる。言語処理システムでは、三種類の確率モデル(音響、言語、語意)を統合し、MDL基準で各音素列単位の有効性を評価することによって、単言の知識を与えることなく、平均85%の精度でキーワードの音素列を獲得できた。言い換えれば、言語処理システムによれば、学習データとしての複数の発話からの認識結果を用いて単語の音素系列を正しく学習(言語学習装置)し、またそれらをマージ(言語学習装置)し、さらにその意味を学習することができる(発話理解装置、応答生成装置)。
G:言語処理システムの適用例
本実施形態に係る言語処理システム1は、例えば二足歩行を行う人型ロボット(以下、ロボットと呼ぶ)に適用できる。この種のロボットでは、学習フェイズで、人がロボットを所望の場所に連れて行き、『ここはスマートルームです。』や『この場所の名前は辻野さんのブース。』などと言って、その場所の名前を教示する。場所の情報は、予めカテゴライズされた位置情報が与えられる。ロボットは、発話と、発話が示す対象(本稿では場所を扱うが、物や人でもよい)の対応関係を学習する。
【0133】
評価フェイズでは、ロボットが人の発話を認識し指示された場所に案内したり、「○○はこちらです」と場所の名前を発話したりする。
【0134】
なお、ロボットは、歩行式のほか、車輪や無限軌道などの走行式等、人型に加えて動物型等を福美、さらにこれらに限定されないことは勿論である。
【0135】
また、本実施形態の言語処理システムは、車両に搭載される「カーナビゲーション装置」に適用してもよい。この装置では、当初のデータベースには登録されていない、地名や特定の場所について任意の名称などを、GPS情報とリンクさせて、本言語処理システムによって新単語として認識させて登録させることができる。
H:その他
以上詳述したが、本発明はその趣旨を逸脱しない範囲において様々な形態で実施をすることができる。
【0136】
前記言語処理システムの「言語学習部」と、「発話理解部」と、「応答生成部」とは、一体の装置に組み込まれてもよく、別々の装置に組み込まれても良いことは勿論である。
【0137】
モデル尤度の評価は、MDLを利用する手法に代えて、赤池情報量基準を利用することができる。この場合、式6に代えて下記の式10を利用する。
【0138】
【数10】

実施形態の説明で挙げられた数値は例示であることは勿論である。言語処理システムが認識する対象は、人、物、コマンドに限らず、その他、物理的な位置や範囲、地図上の一点や範囲、電子的なデータベースの一項目や項目の集合などであってもよい。
【符号の説明】
【0139】
1 言語処理システム
10 言語学習部
20 発話理解部
30 応答生成部
100 言語学習装置
110 音素処理手段
120 リスト作成手段
130 単語認識手段
140 学習処理手段
150 リスト修正手段
M1 言語モデル
M2 語意モデル
θ 言語知識

【特許請求の範囲】
【請求項1】
単語の知識を当初備えていないが、学習を進めることで上記単語の知識を習得する言語学習装置であって、
音素モデルに基づいて音声を音素認識する音素認識手段と、
上記音素認識手段で認識された音素情報から単語リストを作成するリスト作成手段と、
上記リスト作成手段で作成された単語リスト情報に基づいて上記音声を単語認識する単語認識手段と、
上記単語認識手段で認識された単語情報を利用して言語知識を学習する学習処理手段と、
上記単語リストを修正するリスト修正手段と、を備え、
上記学習処理手段は、上記リスト修正手段によって修正された単語リストに基づいて上記言語知識を修正することを特徴とする、言語学習装置。
【請求項2】
前記学習処理手段は、前記言語知識として、前記単語認識手段で認識された各単語に対応する複数のモデルを作成し、
前記リスト修正手段が、上記複数のモデルの尤度を考慮して前記単語リストを修正することを特徴とする、請求項1に記載の言語学習装置。
【請求項3】
前記リスト修正手段が、最小記述長原理に基づいて前記単語リストから削除する単語を決定して、前記単語リストを修正することを特徴とする、請求項2に記載の言語学習装置。
【請求項4】
前記リスト修正手段が前記単語リストの修正を複数回或いは繰り返し行い、前記学習処理手段が、前記リスト修正手段で前記単語リストが修正される度に前記言語知識の修正を行うことを特徴とする、請求項1〜3の何れかに記載の学習装置。
【請求項5】
前記リスト修正手段が、前記学習処理手段で作成された言語知識に基づいて、前記単語リストに新たな単語を追加することを特徴とする、請求項1〜4の何れかに記載の言語学習装置。
【請求項6】
請求項1〜5の何れかに記載の言語学習装置と、この言語学習装置で作成された言語知識に基づいて発話の理解を行う発話理解装置と、を備えたことを特徴とする、言語学習システム。
【請求項7】
請求項6に記載の前記言語学習システムを搭載したことを特徴とする、ロボット。
【請求項8】
請求項6に記載の前記言語学習システムを搭載したことを特徴とする、カーナビゲーション装置。
【請求項9】
コンピュータを、
音素モデルに基づいて音声を音素認識する音素認識手段、
上記音素認識手段で認識された音素情報から単語リストを作成するリスト作成手段、
上記リスト作成手段で作成された単語リスト情報に基づいて上記音声を単語認識する単語認識手段、
上記単語認識手段で認識された単語情報に基づいて言語知識を学習する学習処理手段、
上記単語リストを修正するリスト修正手段、
として機能させて、単語の知識を当初備えていないが学習を進めることで上記単語の知識を習得するプログラムであって、
上記学習処理手段は、上記言語知識として前記単語処理手段で認識された各単語に対応する複数のモデルを作成し、
上記リスト修正手段が、最小記述長原理に基づいて上記単語リストから削除する単語を決定して上記単語リストを修正し、
上記学習処理手段が、修正された単語リストに基づいて前記言語知識を修正することを特徴とする、言語学習プログラム。
【請求項10】
前記リスト修正手段が前記単語リストの修正を複数回或いは繰り返し行い、前記学習処理手段が、前記リスト修正手段で前記単語リストが修正される度に前記言語知識の修正を行うことを特徴とする、請求項9に記載の言語学習プログラム。
【請求項11】
前記リスト修正手段が、前記学習処理手段で作成された言語知識に基づいて、前記単語リストに新たな単語を追加することを特徴とする、請求項9又10に記載の言語学習プログラム。
【請求項12】
単語の知識を当初備えずに学習を進めることで上記単語の知識を習得する言語学習方法であって、
音素モデルに基づいて音声を音素認識する第1ステップと、
上記第1ステップで認識された音素情報から単語リストを作成する第2ステップと、
上記第2ステップで作成された単語リスト情報に基づいて上記音声を単語認識する第3ステップと、
上記第3ステップで認識された単語情報に基づいて、上記第3ステップで認識された各単語に対応する複数のモデルを含む言語知識を学習する第4ステップと、
上記第4ステップで作成された言語知識と最小記述長原理とに基づいて上記単語リストから削除する単語を決定して、上記単語リストの修正を複数回或いは繰り返し行う第6ステップと、
上記第6ステップで上記単語リストが修正される度に上記言語知識の修正を行う第7ステップと、を含むことを特徴とする、言語学習方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2011−59830(P2011−59830A)
【公開日】平成23年3月24日(2011.3.24)
【国際特許分類】
【出願番号】特願2009−206505(P2009−206505)
【出願日】平成21年9月7日(2009.9.7)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成21年3月6日 社団法人人工知能学会発行の「言語・音声理解と対話処理研究会(第55回)」に発表
【出願人】(000005326)本田技研工業株式会社 (23,863)
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】