言語学習装置、言語学習プログラム及び言語学習方法

【課題】入力音声から認識される音素系列の精度を高めることができる言語学習装置を提供する。
【解決手段】単語の知識を当初備えていないが学習を進めることで単語の知識を習得する言語学習装置１００であって、音素モデルに基づいて音声を音素認識する音素認識手段１１０と、音素認識手段１１０で認識された音素情報から単語リストを作成するリスト作成手段１２０と、リスト作成手段１２０で作成された単語リスに基づいて音声を単語認識する単語認識手段１３０と、単語認識手段１３０で認識された単語情報を利用して言語知識θを学習する学習処理手段１４０と、単語リストを修正するリスト修正手段１５０と、を備え、学習処理手段１４０はリスト修正手段１５０によって修正された単語リストに基づいて言語知識θを修正する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、人の発話から言語を学習する装置に係り、特に単語知識を備えずに学習を開始し、学習の進行の過程で言語知識を習得できる言語学習装置、言語学習プログラム及び言語学習方法に関する。
【背景技術】
【０００２】
家庭や街で人の生活を助けるロボットに対する社会的な期待が高まっている。ロボットが実世界で人とコミュニケーションするためには、多くの言語知識が必要になる。
【０００３】
対話ロボットのような多くの従来の対話システムでは、開発者が言語知識を用意しているが、全てを網羅するよう言語知識を設定することは不可能である。そこで、ロボットが自ら知識を学習していくことが望まれる。
【０００４】
ロボットによる言語獲得の先行研究では、オブジェクトを見せながら対応する単語を発話することで、その意味と音素系列を学習させている。
【０００５】
従来、大語彙連続音声認識を用いた語彙学習手法も提案されている。この手法は、発話を認識して得られたワードグラフを単語集合とみなし、単語集合と対象（物、場所、コマンド）との対応関係を学習させている。そのため、ユーザーは自由な言い回しで教示や指示ができる。
【０００６】
しかし、上記の語彙学習手法では対象を表している単語を発話から切り出しているわけではなく、前後の言い回しを含めた複数の単語と一つの対象が対応付けられるため、例えばロボットが場所の名前を学習して発話するというようなことは、従来できなかった。
【０００７】
さらに、従来、自由発話を対象とした単語学習の先行研究がなされている（非特許文献１，２）。これらの研究では、意味的に有用な音声単位を切り出すことができるが、音声から指示対象を推定することに焦点が当てられており、獲得された単語の文節や音素系列の正しさは評価されていない。
【０００８】
従来、音声認識の分野では、未登録語の問題を解決するために、未登録語クラスの音素間遷移確率や単語間遷移確率を用いた認識手法が提案されている（非特許文献３，４）。これらの研究では、発話から未登録語を切り出し、事前に用意したクラス（人名、地名など）の何れかに分類する。
【先行技術文献】
【非特許文献】
【０００９】
【非特許文献１】Gorin, A. L., Petrovska-Delacretaz D., Wright, J. H. and Riccardi, G., "Learning spoken language without transcription", Proc. ASRU Workshop, 1999.
【非特許文献２】Roy, D., "Integration of speech and vision using mutual information", In Proc. of ICASSP, Istanbul, Turkey, 2000
【非特許文献３】Bazzi, I., and Glass, J., "A multi-class approach for modelling out-of-vocabulary words", Proc. ICSLP02: 1613-1616, 2002.
【非特許文献４】山本博史, 小窪浩明, 菊井玄一郎、小川良彦、匂坂芳典、"複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識", 電子情報通信学会論文誌D-2, Vol.J87-D-2, No.12, pp.2104-2111, 2004
【非特許文献５】下平英寿, 久保川達也, 竹内啓, 伊藤秀一，“モデル選択予測・検定・推定の交差点”，岩波書店，2004.
【発明の概要】
【発明が解決しようとする課題】
【００１０】
しかし、非特許文献３，４の認識手法では、複数の発話の認識結果を用いて単語の音素系列を学習すること、また、音素系列をマージすることもできない。さらに、意味と音素系列の関係を学習する方法を持たないため、その意味を学習することもできない。
【００１１】
本発明は以上の点に鑑みて創作されたもので、入力音声から認識される音素系列の精度を高めることができる、言語学習装置、言語学習プログラム及び言語学習方法を提供することを目的とする。
【課題を解決するための手段】
【００１２】
上記目的を達成するため、本発明の第１の構成は、単語の知識を当初備えていないが、学習を進めることで単語の知識を習得する言語学習装置であって、音素モデルに基づいて音声を音素認識する音素認識手段と、音素認識手段で認識された音素情報から単語リストを作成するリスト作成手段と、リスト作成手段で作成された単語リスに基づいて音声を単語認識する単語認識手段と単語認識手段で認識された単語情報を利用して言語知識を学習する学習処理手段と、単語リストを修正するリスト修正手段と、を備え、学習処理手段は、リスト修正手段によって修正された単語リストに基づいて言語知識を修正することを特徴としている。
【００１３】
この言語学習装置において、好ましくは、学習処理手段は、言語知識として、単語認識手段で認識された各単語に対応する複数のモデルを作成し、リスト修正手段が、複数のモデルの尤度を考慮して単語リストを修正する。例えば、リスト修正手段は、単語リスト中の単語の有無によって算出したモデルの尤度差を考慮して、単語リストを修正する。その具体例としては、リスト修正手段が、最小記述長原理に基づいてモデルの数が最適になるよう、単語リストから削除する単語を決定して単語リストを修正する。
【００１４】
さらに、言語学習装置では、リスト修正手段が単語リストの修正を複数回或いは繰り返し行い、学習処理手段は、リスト修正手段で単語リストが修正される度に言語知識の修正を行うことが望ましい。
【００１５】
上記目的を達成するため、本発明の第２の構成は、言語学習システムに係り、このシステムは、例えば、前記言語学習装置と言語学習装置で作成された言語知識に基づいて発話の理解を行う発話理解装置と、を備えている。
【００１６】
この言語学習システムは、言語学習装置による言語学習を行う第１モードとこの第１モードで学習した言語に基づいてユーザーの発話を理解する第２モードとを随時切り替え可能に動作する。
【００１７】
この言語学習システムは、例えば、ロボットやカーナビゲーション装置に組み込まれる。
【００１８】
上記目的を達成するため、本発明の第３の構成は、プログラムで成り、このプログラムは、コンピュータを、音素モデルに基づいて音声を音素認識する音素認識手段、音素認識手段で認識された音素情報から単語リストを作成するリスト作成手段、リスト作成手段で作成された単語リスト情報に基づいて音声を単語認識する単語認識手段、単語認識手段で認識された単語情報に基づいて言語知識を学習する学習処理手段、単語リストを修正するリスト修正手段、として機能させて、単語の知識を当初備えていないが、学習を進めることで単語の知識を習得するプログラムであって、学習処理手段は、言語知識として、単語処理手段で認識された各単語に対応する複数のモデルを作成し、リスト修正手段が、最小記述長原理に基づいて上記単語リストから削除する単語を決定して単語リストを修正し、学習処理手段が、修正された単語リストに基づいて言語知識を修正することを特徴としている。
【００１９】
上記目的を達成するため、本発明の第４の構成は、単語の知識を当初備えずに、学習を進めることで単語の知識を習得する言語学習方法であって、音素モデルに基づいて音声を音素認識する第１ステップと、第１ステップで認識された音素情報から単語リストを作成する第２ステップと、第２ステップで作成された単語リスト情報に基づいて音声を単語認識する第３ステップと、第３ステップで認識された単語情報に基づいて、第３ステップで認識された各単語に対応する複数のモデルを含む言語知識を学習する第４ステップと、第４ステップで作成された言語知識と最小記述長原理とに基づいて単語リストから削除する単語を決定して単語リストの修正を複数回或いは繰り返し行う第６ステップと、第６ステップで単語リストが修正される度に言語知識の修正を行う第７ステップと、を含むことを特徴としている。
【００２０】
上記目的を達成するため、本発明の第５の構成は、多様な言い回しでの教示から、単語の意味（語意）、およびその音素系列を学習できる言語獲得手法を実行する言語学習装置である。この言語学習装置は、獲得した知識を用いた発話理解手法にも利用できる。語意とは、例えば対象と単語の間の直接的な対応関係（指示関係）とする。本発明は、初期知識として単語の知識を用いないため、初めは音声を音素列でしか認識できないが、学習を進めることで、音響的、文法的、意味的に有用な音声単位（単語）を切り出すことができるようになる。
【発明の効果】
【００２１】
本発明によれば、音素系列を精度良く認識できるので、意味のある単語の切り出しが可能である。
【図面の簡単な説明】
【００２２】
【図１】本発明の実施形態に係る言語処理システムを示すブロック図である。
【図２】図１の言語処理システムにおける発話と対象の対応の適切さを示すグラフィカルモデルを示す図である。
【図３】本発明の実施形態に係る言語学習装置を示すブロック図である。
【図４】図３の言語学習装置の処理手順を示すフロー図である。
【図５】図４に示すステップＳ３−２の近似計算のフローを示す図である。
【図６】図３の言語学習装置で作成される単語リストを示す模式図である。
【図７】図３の言語学習装置で作成される単語リストを示す模式図である。
【図８】図３の言語学習装置で作成される単語リストを示す模式図である。
【図９】図１の言語処理システムの実験結果（モデル選択時における記述長ＤＬの推移）を示すグラフである。
【図１０】図１の言語処理システムの実験結果を示すグラフである。
【発明を実施するための形態】
【００２３】
以下、本発明の実施形態に係る言語処理システムについて、下記の項目内容を順に、必要箇所では図面を参照しつつ詳細に説明する。
【００２４】
Ａ：概要『言語処理システム』について
Ｂ：概要『言語学習』について
Ｃ：概要『発話理解』について
Ｄ：概要『応答生成』について
Ｅ：言語学習装置について
Ｅ−１：言語学習装置の構成
Ｅ−２：言語学習装置の動作
Ｆ：『言語処理システム』の実験例
Ｆ―１：実験内容
Ｆ―２：実験条件
Ｆ―３：実験結果と考察
Ｆ−３−１：獲得単語数と発話の認識結果
Ｆ−３−２：出力したキーワードの音素正解精度
Ｇ：言語処理システムの適用例
Ｈ：その他
Ａ：概要『言語処理システム』について
本発明の実施形態に係る言語処理システムは、言語を学習する第１モードと、この第１モードで学習した言語に基づいてユーザーの発話を理解したり、理解した発話に基づいて応答したりする第２モードと、を切り替えて行う。モードの切替は適宜、例えばユーザーによる制御或いは予め設定されたタイミングで行われる。
【００２５】
図１は本実施形態に係る言語処理システム１の構成を示すブロック図である。言語処理システム１は、言語学習部１０と、発話理解部２０と、応答生成部３０と、を備えている。これらの言語学習部１０、発話理解部２０、応答生成部３０は、例えばコンピュータなどを利用した言語学習装置、発話理解装置、応答生成装置として構成されている。
【００２６】
次に、言語学習部１０、発話理解部２０、応答生成部３０の各機能について説明する。
Ｂ：概要『言語学習』について
本実施形態の言語学習装置は、単語の知識を当初所有しない状態で言語学習を開始し、発話から単語を学習する。単語とは、例えば物や場所や人の名前である。
【００２７】
本実施形態の言語学習装置では、以下の方法手順で言語学習を行う。
【００２８】
第１ステップ：初期の単語リストの作成
言語学習装置は、例えば学習データを用いて『初期の単語候補』（以下、単語リストと呼ぶ）を作成する。この単語リストは、学習データを音素認識した結果から生成される。
【００２９】
第２ステップ：初期の学習内容（知識）の作成
言語学習装置では、単語リストを用いて学習データを単語認識して、意味と文法の学習を行う。これにより、初期の学習内容、所謂『知識』が生成される（以下、言語知識と呼ぶ場合がある）。
【００３０】
第３ステップ：初期の単語リストの修正
初期の単語リストに基づいて学習した内容には、不要な単語に関する情報が知識として含まれる。また、学習すべき内容が知識として含まれていない場合がある。そこで、本実施形態の言語学習装置では、単語リストを修正する。具体的には、言語学習装置は、不要な単語を上記の単語リストから削除（以下、削除処理と呼ぶ）したり、上記の単語リストに新たな単語を追加（以下、追加処理と呼ぶ）したりする。単語リストの修正として、「削除処理」及び「追加処理」の少なくとも一方の処理が実行される。
【００３１】
第４ステップ：学習内容（知識）の改良
修正した単語リストと当初与えられた学習データとを用いて再び学習を行う。これにより、初期の単語リストによって作成された学習内容中の不備を是正する。よって、学習内容（知識）が改良される。なお、『不備の是正』とは、存在する全ての欠点を修正する場合に限らず、一部の欠点を修正する場合も含む。
【００３２】
第５ステップ：単語リストの再度の修正
修正された単語リストに基づいて学習した内容（第４ステップによる知識）にも、不要な単語に関する情報が知識として含まれ、及び／又は未だ必要な情報が欠落している虞がある。そこで、単語リストを再度修正する。
【００３３】
第６ステップ：学習内容（知識）の再度の改良
再度修正した単語リストと当初与えられた学習データとを用いて再び学習を行う。
【００３４】
さらに、本実施形態の言語学習装置では、上記第５ステップと第６ステップとを繰り返す（以下、繰返し処理と呼ぶ）。繰返し数は２回、或いはそれ以上の任意の複数の回数に限らず、１回でもよい。
【００３５】
本実施形態の言語学習装置では、単語リストを修正することで、初期の学習データに含まれる不備（例えば、存在する一部の不備）を是正できる。よって、修正された単語リストに基づいて言語学習データから再度言語を学習することで、学習データを改良できる。さらに、繰返し処理を行うことで、学習データに含まれる不備の割合を低減できる。
【００３６】
本実施形態では、単語リストから削除すべき単語であるか否かの判定を、音響的と文法的と意味的との少なくとも一つの項目或いはそれら全部の項目に関して、統計的処理によって行う。
【００３７】
本実施形態は、統計的処理に基づいて、単語リストに含まれる或いは含めるべき単語を見直す。これにより、正しい単語としての音素系列を認識できる。このようにして得た音素系列を参考にすることで、対象の情報との関連で意味を正確に学習できる。
【００３８】
言語学習装置は言語学習データを利用して言語知識を作成する。この言語知識には、言語学習データに基づいて作成された単語に関連した情報を含む。この情報は、『文法』や『語意』に関する所謂『文法モデル』、『語意モデル』である。言語知識を当初作成した段階では、『文法モデル』、『語意モデル』には、不要な単語に関するモデルが含まれる。そこで、本実施形態の言語学習装置では、当初作成した言語知識としての複数の『モデル』の内、必要なもの選別する（以下、モデル選択処理と呼ぶ）。
【００３９】
このモデル選択処理を、本実施形態の言語学習装置では、言語知識の最適化、即ちモデル数の最適化として処理する。この最適化問題を解決するにあたり、本実施形態の言語学習装置は、前述の複数の『モデル』の組み合わせの違いによる尤度差によってモデル選別処理を行うのではなく、単語リスト中の各単語の有無の違いによる尤度差の問題として処理する。
【００４０】
このような処理が適切である理由を以下に示す。
【００４１】
例えば、ある音声を単語認識すると、その認識結果には、所望の単語が含まれる結果と含まれない結果が出てくる。ここで、最も尤度の高い結果にｗが含まれ、２番目の候補にｗが含まれなかったとする。もし、元々ｗがないモデルでこの音声を認識したとすると、２番目の候補が最尤となるはずである。従って、ｗが含まれた最尤の候補と、ｗが含まれなかった２番目の候補の尤度差は、ｗが含まれるモデルと含まれないモデルの尤度差といえる。したがって、モデル数の最適化は、単語リストの最適化として解決できる。
【００４２】
この言語学習装置によれば、モデル選択処理として単語リストを修正する度に行われることで、その都度言語知識が改良される。
Ｃ：概要『発話理解』について
本実施形態の発話理解装置について説明する。
【００４３】
発話理解装置は、言語学習装置で作成された言語知識に基づいて発話の理解を行う。ここで、理解とは、発話を音声認識するだけでなく、意味的に理解することを言う。
【００４４】
図２は、発話と対象の対応の適切さを示すグラフィカルモデルを示す図である。各ノードは確率変数を表し、エッジの矢印は確率の依存関係を表している。単語列Ｘsから音声Ｘaへの矢印は確率ｐ（Ｘa｜Ｘs）を表しており、音声認識の分野ではその確率分布を音響モデルと呼ぶ。単語列Ｘsの生起確率ｐ（Ｘs）は単語の接続の文法的な妥当性を表しており、そのモデルを言語モデルと呼ぶ。一般的な音声認識では、音響モデルと言語モデルの二つを利用して、単語認識を行っている。本実施形態では、発話から対象（またはその逆）を出力することができるよう、さらに対象を確率変数としてモデルに加えて、発話理解を行う。
【００４５】
本実施形態では、音響モデルと言語モデルとに加えて、単語列Ｘsと対象Ｘｚの条件付き確率ｐ（Ｘｚ｜Ｘs）を導入する。確率ｐ（Ｘｚ｜Ｘs）は、単語列Ｘsに含まれるそれぞれの単語Ｘｗと対象Ｘｚの条件付き確率ｐ（Ｘｚ｜Ｘｗ）から計算される。ｐ（Ｘｚ｜Ｘｗ）の分布は単語の意味を表していることから語意モデルと呼ぶ。
【００４６】
これらのモデルを用いた発話理解メカニズムを定式化したものを式１として示す。
【００４７】
【数１】

式１はある音声aとある対象ｚの共起確率を表している。右辺の第一項は音響、第二項は文法、第三項は語意の各モデルに関する共起確立を表している。各モデルの確率はそれぞれ扱っている問題の複雑さが異なるため直接比較することはできない。例えば、音響尤度は非常に小さな値を取る。そのため各モデルの確率に重みωを掛けて統合している。
【００４８】
式１中のθは単語リスト、音響モデル、言語モデル、語意モデルのパラメータの集合であり、これらが前述の『知識』、つまり言語学習装置が所有する『言語知識』を表している。
【００４９】
式１中のNBestは音声aを単語列として認識した結果のＮ候補の単語列である。
【００５０】
式１右辺の第二項は、言語モデルとして単語bi-gramを用いて、文法の確率を計算する。なお、N-グラム言語モデルにおいて、理論的にはＮが大きいほど正確なモデルになることが想定される、処理するデータが大量になるため、本実施形態ではＮ＝２として言語モデルを利用する。
【００５１】
第二項において、Ｌ^Sは単語列ｓの単語数、ｗ^s_lは単語列ｓのl番目の単語、ｗ^s₀は始端の単語、ｗ^s_LS+1は終端の単語を表す。ただし、後述の方法でキーワードと判定された単語は、クラスbi-gramとして扱う。すなわち、全キーワードを一つの単語とみなしてbi-gramを統合する。
【００５２】
式１右辺の第三項では発話に含まれるキーワードの意味ｐ（Ｘｚ｜Ｘｗ，θ）を、重みｒ（ｗ^s_l，ｓ，θ）で加重平均して計算する。重みｒ（ｗ^s_l，ｓ，θ）は次の式２で計算する。
【００５３】
【数２】

ただし、単語ｗ^s_lがキーワードでない場合、ｒ（ｗ^s_l，ｓ，θ）を０とする。この重みを使用することで、学習時に誤ってキーワードが細かく文節された場合でも、それらを統合して意味の推定を行うことができる。
【００５４】
ユーザーの発話から、その発話に含まれるキーワード、例えば場所、人、物などの名前（即ち、単語）を判定する（以下、キーワード判定と呼ぶ）。このキーワード判定には、対象ＸｚのエントロピーＨ（Ｘｚ）と、ある単語ｗが与えられた時の対象のエントロピーＨ（Ｘｚ｜Ｘｗ＝ｗ）との差、即ち相互情報量(mutual information)Ｉ（Ｘｚ｜Ｘｗ＝ｗ）を用いる（式３）。
【００５５】
【数３】

ここで、Ｉ（Ｘｚ｜Ｘｗ＝ｗ）が閾値Ｔ_kよりも大きければ、単語ｗをキーワードと判定する。
【００５６】
発話理解においては、発話aが与えられると、次式４により対象ｚを推定する。
【００５７】
【数４】

Ｄ：概要『応答生成』について
本実施形態の応答生成装置について説明する。
【００５８】
本実施形態の応答生成装置は、発話理解装置によって理解した発話内容に基づいて、ユーザーに応答する。具体的には、応答生成装置が対象ｚとして最も良く表すキーワードを次式５に基づいて出力する。
【００５９】
【数５】

ただし、Ωはキーワード集合である。この式５は式１を１単語に限定したものである。本実施形態では音声合成の問題を省略するため「単語が決まれば合成音声が一意に生成できる」と仮定し、音声信号の出力確率ｐ（Ｘa=a|Ｘw,θ）は式５に含めていない。
【００６０】
応答生成装置は、例えば、スピーカーやディスプレイを備えている。応答生成装置は、上記式５の結果、即ちキーワードをスピーカーから発したりディスプレイに表示する。
【００６１】
以上のように、本実施形態の言語処理システム１は、『言語学習』、『発話理解』、『応答生成』を行う。言語処理システム１では、特に『発話理解』などの精度を向上させるために、『発話理解』の際に利用する言語知識、即ち式１におけるθの質を向上させている。このために、言語知識（θ）を生成する言語学習装置は、以下のように構成されている。
Ｅ：言語学習装置について
（Ｅ１：言語学習装置の構成）
図３は本実施形態に係る言語学習装置１００の構成を示すブロック図である。
【００６２】
言語学習装置１００は、単語の知識を当初（例えば、デフォルト状態などの初期設定時）備えていないが、学習を進める過程で単語の知識を習得する。具体的には、例えば学習データとしての音声が言語学習装置１００に入力されると、言語学習装置１００は、当該音声から言語知識θを作成し、さらにその言語知識θを自ら改良する。
【００６３】
改良した言語知識θ、即ち良質の知識を生成するよう、言語学習装置１００は、音素処理手段１１０とリスト作成手段１２０と単語認識手段１３０と学習処理手段１４０とリスト修正手段１５０とを備えている。
【００６４】
音素処理手段１１０は、音素モデルに基づいて音声を音素認識する。音素モデルは、言語学習装置１００に予めセットされている。
【００６５】
リスト作成手段１２０は、音素処理手段１１０で認識された音素情報、即ち音素認識結果から単語リストを作成する。
【００６６】
初期の単語リストは、音素認識結果の音素列をモーラ列（音韻的音節の列）に変換し、その統計量に基づいて作成される。具体的には、音素認識結果として教示された全モーラ列に含まれる部分列の頻度をカウントし、各部分列の前後に接続されるモーラのエントロピーを算出する。このエントロピー、即ち情報量によって、各モーラを連接させるかどうか、つまり単語の切れ目を統計的に判定する。例えば、エントロピーがある値以上の場合に、切れ目と判定する。本実施形態では、あるモーラ列の前後のエントロピーが非ゼロ、かつあるモーラ列の出現頻度（全学習データ中において）が２回以上である場合に、そのモーラ列を単語候補として単語リストに登録する。
【００６７】
リスト作成手段１２０で得られた単語候補は、学習に用いた発話モーラ列の全区間を網羅しているわけではない。そこで、リスト作成手段１２０は、補足的に次の処理を行う。リスト作成手段１２０はどの単語候補とも一致しない区間が教示された内容、即ち音素認識結果に残っていれば、それを新たな単語候補としてリストに追加する。
【００６８】
単語認識手段１３０は、リスト作成手段１２０で作成された単語リスト情報に基づいて音声、即ち当初与えられた学習データを単語認識する。本実施形態では、リスト作成手段１２０で生成された単語リストを使い、学習データの全音声を単語認識する。単語認識の結果はＮ個（例えば、Ｎ＝１００）の候補（NBest）として得る。
【００６９】
学習処理手段１４０は、単語認識手段１３０で認識された単語情報に基づいて言語の学習を行う。具体的には、学習処理手段１４０は、単語認識手段１３０でNBestとして認識された全ての単語列を用いて言語モデルＭ１と語意モデルＭ２を学習する。
【００７０】
言語モデルＭ１は、単語bi-gramとし、単語の並びの頻度から計算する。また、後述する単語の連結時に使用する後ろ向きbi-gram（次に来る単語ではなく、前に来る単語を予測する）も、本実施形態における学習処理手段１４０で学習する。
【００７１】
語意モデルＭ２は、単語Ｘｗで条件づけられた対象Ｘｚの確率分布ｐ（Ｘｚ｜Ｘｗ，θ）とし、単語と対象の共起頻度から算出する。学習処理手段１４０で学習した語意モデルＭ２に基づいて、キーワード判定、（前記した、発話理解装置におけるキーワード判定）が行われる。
【００７２】
これらの言語モデルＭ１と語意モデルＭ２と前述の単語リストとが前述の言語知識θを構成する要素である。なお、言語知識として、言語モデルＭ１と語意モデルＭ２とには、単語認識手段１３０で認識された各単語に関連する複数のモデルが含まれる。
【００７３】
このようなモデル生成技術は、例えば特許第２７３８５０８号などに開示されている。
【００７４】
リスト修正手段１５０は、上記学習処理手段１４０で作成された言語知識を統計処理によって選別するように単語リストを修正する。本実施形態では、リスト修正手段は前述の複数のモデルの尤度を考慮して単語リストを修正する。言い換えれば、リスト修正手段１５０は、単語リスト中の単語の有無によって算出したモデルの尤度差を考慮して、単語リストを修正する敷衍して言えば、本実施形態では、単語の数および各単語の音素列の最適化問題を、モデル選択の問題として解く。
【００７５】
本実施形態では、モデル選択の基準に最小記述長（minimum description length：ＭＤＬ）原理を利用する。以下、最小記述長原理をＭＤＬと呼ぶ。ＭＤＬはデータ圧縮のための最適な符号化法を決定するための基準として従来より提案されている。ＭＤＬは情報源となる確率モデルの記述長（モデルの複雑さ）と、そのモデルによる観測データの記述長（モデルの尤度：以下符号としてＤＬを付ける）の和が最小となるモデルを選択する（非特許文献５）。
【００７６】
リスト修正手段１５０は、言語知識θと観測データとの記述長ＤＬを次式６のように定義する。なお、観測データとは、本実施形態では学習データを構成する音声である。
【００７７】
【数６】

Ｌ（θ，Ο）はモデルの対数尤度（モデルが学習データセットΟを出力する確率の対数）、ｆ（θ）はθの自由度であり、Ｍは学習データ数である。式６右辺の第１項が文法モデル、第２項が語意モデルのパラメータである。音響モデルは学習していないので除外する。
【００７８】
モデル対数尤度Ｌ（θ，Ο）と自由度ｆ（θ）は、それぞれ式（７），（８）から計算する。
【００７９】
【数７】

【００８０】
【数８】

ただし、ｉは学習データのインデックス、Ｋはモデルθの単語数、Ｚは対象数である。
【００８１】
本実施形態では、単語の組み合わせを上記基準ＭＤＬで最適化するためには、その組み合わせ全てに対して尤度を計算する必要があるが、現実的ではない。そこで、本実施形態では、単語認識手段１３０で得たNBestを用いて、単語の有無による記述長ＤＬの差分を近似的に求め、不要な単語を削除していく。また、決まった並びで現れる単語については、それらを連結し新たな単語を生成する。なお、各組み合わせの尤度を計算して、モデル選択を行ってもよいことは勿論である。
【００８２】
このように、本実施形態において、リスト修正手段１５０は、最小記述長原理ＭＤＬに基づいてモデル（言語知識θ中の言語モデルＭ１と語意モデルＭ２を構成する各モデル）の数が最適になるよう、単語リストから削除する単語を決定し、或いは必要と思われる新単語を認識して、単語リストを修正する。
【００８３】
具体的には、リスト修正手段１５０は以下のように削除処理を行う。
【００８４】
（１）単語の削除
前述したように、ある音声aを単語認識すると、その認識結果のNBestには、ある単語ｗが含まれる結果と含まれない結果が出てくる。ｗが含まれた最尤の候補と、ｗが含まれなかった２番目の候補の尤度差は、ｗが含まれるモデルθ₀と含まれないθ_lの（音声aにおける）尤度差といえる。また、モデルθ_lの自由度はモデルθ₀から一語減っているため以下の式９となる。
【００８５】
【数９】

こうして得られた尤度差と自由度からモデルθ_lの記述長ＤＬ（θ_l）を近似的に求める。
【００８６】
本実施形態では、先ず、獲得した全ての単語について、その有無による尤度差を計算し、尤度差が最小となる単語を見つける。その単語を削除した場合の記述長ＤＬ（θ_l）と、現在のモデルの記述長ＤＬ（θ₀）を比較する。もし、ＤＬ（θ_l）の方が小さければ、言語知識をθ_lに更新し、その単語を含むNBest候補を削除する。そして再び全ての単語について尤度差および記述長ＤＬを求め判定を行う。この処理を繰り返し、現在のモデルの記述長ＤＬ（θ₀）の方が小さくなった時に単語削除を終了する。
【００８７】
順序を決めずに一つずつ単語を削除すると、削除する単語の順番によって結果が変わるので、本実施形態では、削除の影響の少ない単語、即ち尤度差が最小となる単語から削除する。
【００８８】
単語の削除を進めていくと、判定したい単語がNBestの全てに含まれ、その単語を用いない時の尤度が計算できなくなる場合がある。その際には、実際にその単語を除き、尤度が計算できなかった発話だけ単語認識をやり直し、尤度差を求める。また、ここで得られた認識結果を、元のNBestに追加する。
（２）単語の連結
リスト修正手段１５０は、削除処理と共に、或いは削除処理とは別に、追加処理を行う。
【００８９】
前向きbi-gram,または後向きbi-gramが閾値（実験では０．５）以上となる単語のペアがある場合、それらを連結し、新たな単語を生成する。これにより、リスト作成手段１２０で誤って文節された単語を復元することができる。単語の連結は連語の削除と並列して行い、両者の結果をマージして新たな単語リストを生成する。
【００９０】
このようにして修正された単語リストに基づいて、前述の学習処理手段１４０が、言語知識θを再度作成する。即ち、言語モデルＭ１と語意モデルＭ２を作りなおす。なお、再度作成する場合に限らず、差分を反映するように先の言語知識を訂正する。このような作り直しや訂正などを包含して、本明細書では、『修正』と呼ぶ。
【００９１】
本実施形態の言語学習装置１００には、図示省略するが、例えば前処理手段や特徴抽出手段などを備えてもよい。
【００９２】
前処理手段は、マイクなどの入力装置（図示省略）から入力されるアナログ信号を、例えばサウンドボードなどによってディジタル信号に変換する。
【００９３】
特徴抽出手段は、前処理手段の出力であるディジタル化されたデータを入力し、以後の言語学習に役立つ情報、例えばパターンの識別に役立つ特徴情報を取り出す。この情報が、本言語学習装置１００における認識などの対象をなす。
【００９４】
以上の言語学習装置１００は例えばコンピュータから構成される。このコンピュータは、前もってインストールされたソフトウェアとしての言語学習プログラムを実行することで、上記の手法、即ち言語学習を実現する。具体的には、コンピュータが言語学習プログラムを実行することで、コンピュータが前述の音素認識手段と、リスト作成手段と、単語認識手段と、学習処理手段と、リスト修正手段として機能する。なお、プログラムには、コンピュータを前処理手段と特徴抽出手段として機能するものを含めても含めなくても良い。
【００９５】
なお、複数のコンピュータをＬＡＮやインターネット、公衆網等を介して相互に接続して、前処理手段と、特徴抽出手段と、音素認識手段と、リスト作成手段と、単語認識手段と、学習処理手段と、リスト修正手段との動作を複数のパーソナルコンピュータによって分散処理させてもよい。コンピュータは、従来公知の構成のものを使用することができ、ＲＡＭ，ＲＯＭ，ハードディスクなどの記憶装置と、キーボード，ポインティング・デバイスなどの操作装置と、操作装置等からの指示により記憶装置に格納されたデータやソフトウェアを処理する中央処理装置（ＣＰＵ）と、処理結果等を表示するディスプレイなどを備えている。このコンピュータは汎用の装置でも、専用の装置として構成されたものであってもよい。
Ｅ−２：言語学習装置の動作
本実施形態に係る言語学習装置１００における言語獲得手法、つまり言語処理システム１における学習フェイズは、大まかに分けると、三つのステップでなる（ステップＳ１〜Ｓ３：図３及び図４参照）。
【００９６】
ステップＳ１は、学習データの全音声を音素列として認識し、その統計量から初期の単語リストを生成する。
【００９７】
ステップＳ２は、ステップＳ１の単語リストを用いて音声を単語認識し、単語と対象の対応関係（語意モデル）や、単語間の繋がり（言語モデル）の学習を行う。つまり、言語知識θを生成する。
【００９８】
ステップＳ３ではモデル尤度を計算し、最小記述長原理に基づいて単語の削除・連結を行う。具体的には、式６の記述長ＤＬを計算する（ステップＳ３−１）。この計算として、Ｎベストの音声認識結果を用いた近似計算を行う（ステップＳ３−２）。そして、記述長ＤＬが最小となる単語を見出し（ステップＳ３−３）、当該単語の削除の有無による記述長ＤＬ同士を比較する（ステップＳ３−４）。単語を削除した場合の記述長ＤＬが単語を削除しない場合の記述長ＤＬより小さければ、さらに削除すべき単語の選定を続ける（ステップＳ３−４でYesと判定してステップＳ３−５へ）。逆に単語を削除した場合の記述長ＤＬが単語を削除しない場合の記述長ＤＬより大きければ削除すべき単語の選定処理を終了する（ステップＳ３−４でNoと判定してステップＳ３−６）。
【００９９】
ここで、図４のステップＳ３−２の『近似計算』について、図５、図６〜図８を用いて説明する。
【０１００】
図５は図４のステップＳ３−２の『近似計算』のフロー図である。図６はリスト作成手段１２０で作成された単語リストＢＢを示す模式図である。
【０１０１】
単語リストＢＢは、学習データとして５５の発話a1-a55に基づいて作成されている。単語リストＢＢでは、各発話a1-a55毎にNBestの単語がその尤度が高い順に並んでいる。なお、図６の単語リストＢＢを構成する各単語を認識結果と言う場合がある。
【０１０２】
本実施形態の言語学習装置１００は、ＭＤＬに則って削除処理を行うにあたり、単語リストＢＢ（図４）の各発話a1-a55の最上位（トップ）の単語、即ち図６中の鎖線Ｈ１で囲まれる認識結果群だけから式６のモデルの対数尤度Ｌ（θ，Ο）を計算する。言い換えれば、各発話におけるトップの音声認識の尤度を足し合わせたものである。
【０１０３】
次に、図６の単語リストＢＢからある単語αを含む認識結果を削除する。ここで、単語αとは、単語リストＢＢに挙げられた認識結果の一つである。すると、図６の単語リストＢＢは、例えば図７のように変化する。つまり、当初の単語リストＢＢから、発話a1で１位と２位と６位の『単語αを含む認識結果』、発話a２で４位と７位の『単語αを含む認識結果』、・・・発話a５５で１位〜３位と５位と６位の『単語αを含む認識結果』が削除される。これにより、発話a1で当初３位であった認識結果が１位となり、発話a５５では当初４位であった認識結果が１位となる。このようして、単語αを削除した単語リストＢＢにおいて、再度、式６のモデルの対数尤度Ｌ（θ，Ο）を計算する。このモデルの対数尤度Ｌ（θ，Ο）は、図７中の鎖線Ｈ２で囲まれる認識結果群だけから計算される。
【０１０４】
ここで、言語学習装置１００では、各発話a1-a55に図５の処理を行う。
【０１０５】
発話a1について見ると、単語αを含む認識結果が１位（Ｓ１，１）と２位（Ｓ１，２）に含まれることから、３位の認識結果（Ｓ１，３）が最上位に設定される（ステップＳ３１でYesと判定されてステップｓ３２へ）。
【０１０６】
発話a2ついて見ると、単語αを含む認識結果が１位（Ｓ２、１）に含まれなかったことから、その発話a2の尤度は、前に計算したものとする（ステップＳ３１でNoと判定されてステップｓ３６へ）。
【０１０７】
また、発話a55について見ると、単語αを含む認識結果が１位（Ｓ５５，１）と２位（Ｓ５５，２）に含まれることから、３位の認識結果（Ｓ５５，３）が最上位に設定される（ステップＳ３１でYesと判定されてステップｓ３２へ）。
【０１０８】
図７のように、単語リストＢＢを変えた場合、発話a1と発話a５５等で、下位の認識結果がトップに移ったことで、発話の尤度ｐ（ｓ_i,z_i|s_ij,θ）が下がる。一方、発話a２では、単語αが尤度トップの認識結果に含まれていないため、つまり削除処理によって当初のトップの認識結果が削除されずに残るため、モデル尤度には影響を与えない。
【０１０９】
ステップＳ３３で、発話a1や発話a55などのように先の段階で低い順位にあった認識結果がトップになって計算した尤度を足し合わせる。次に式９に従って自由度を計算する（ステップＳ３４）。そして、これらの計算結果に基づいて、記述長ＤＬを計算する（ステップＳ３５）。
【０１１０】
このようにして計算された記述長ＤＬは、前記したように、単語αを削除した後の記述長ＤＬが、当該単語αを削除する前の記述長ＤＬよりも低いか否か判定される（図４のステップＳ３−４）。低い場合には、さらに別の単語βを削除する。図８は、図７の単語リストＢＢから単語βを含む認識結果を削除した状態の単語リストＢＢを示している。再度、式６のモデルの対数尤度Ｌ（θ，Ο）を計算する。このモデルの対数尤度Ｌ（θ，Ο）は、図中の一点鎖線Ｈ３で囲まれる認識結果群だけから計算される（図５の近似計算に拠る）。
【０１１１】
そして、本実施形態では、単語βを削除した後の記述長ＤＬが、当該単語βを削除する前の記述長ＤＬよりも低いか否か判定する（図４のステップＳ３−４）。
【０１１２】
このように、本実施形態では、単語の削除の前後の記述長ＤＬを比較し続け、ある単語Ｗ（ｋ）を削除した段階で、単語削除後の記述長ＤＬが削除前の記述長ＤＬより大きかった場合に、削除処理を終了する（図４のステップＳ３−４でNoで判定されてステップＳ３−６へ）。この場合、削除処理によって単語リストＢＢ（図４）から削除される単語は、単語Ｗ（Ｋ）の前の単語Ｗ（ｋ−１）迄である。
【０１１３】
言語学習装置１００における追加処理は、次のようにして行われる。
【０１１４】
言語学習装置１００では、前述の言語モデルＭ１のデータを利用して、単語の連結を行う。具体的には、前述の言語モデルＭ１中の単語ｗ_iと単語ｗ_jとのイグラム確立Ｐ（ｗ_i｜ｗ_j）を計算する。そして、その値が閾値（例えば、０．５）以上の場合に、単語ｗ_iと単語ｗ_jとを連結して新たな単語を作成する。
【０１１５】
上記の削除処理の結果と、上記追加処理の結果とをマージして、新たな単語リストにする。即ち、除かれずに残った単語と、新たに連結されて作られた単語とを合わせて、新たな単語リストＢＢを作る。
【０１１６】
ステップＳ３で得られた新たな単語リストＢＢを用いてステップＳ２の学習をやり直す。このように、ステップＳ２とステップＳ３とを繰り返す。望ましくは、リスト修正手段１５０が単語リストＢＢの修正を複数回或いは繰り返し行う。そして、学習処理手段１４０が、リスト修正手段１５０によって単語リストＢＢが修正される度に言語知識θを修正（例えば、更新や作成し直し）する。
【０１１７】
本実施形態に係る言語学習装置１００によれば、ステップＳ２による言語知識の作成と、ステップＳ３による言語知識の選択とを繰り返すことでより良い言語知識θが獲得される。
【０１１８】
本実施形態は、統計的処理に基づいて、単語リストに含まれる或いは含めるべき単語を見直す。これにより、正しい単語としての音素系列を認識できる。このようにして得た音素系列を参考にすることで、対象の情報との関連で意味を正確に学習できる。
【０１１９】
敷衍して言えば、言語学習装置１００は言語学習データを利用して言語知識θを作成する。この言語知識には、言語学習データに基づいて作成された単語に関連した情報を含むが、『文法』や『語意』に関する所謂『文法モデル』、『語意モデル』には、不要であったり非常に精度の低いモデルが含まれたりする虞がある。そこで、本実施形態の言語学習装置１００では、当初作成した言語知識θとしての複数のモデルの内、必要なものだけが最終的には残るように、或いは良いモデルが多く残るように、基になった単語リストを修正して学習を繰り返す。
【０１２０】
このような言語学習装置１００を備えた言語処理システム１によれば、学習フェイズにおいて、当初作成した言語知識θをそのまま発話理解装置へ提供するのではなく、発話理解が促進されるよう言語知識θの見直し、言い換えれば知識の改良を行う。これにより、発話理解装置では良質の言語知識θに基づいて発話の理解が行われる。また、言語処理システム１の応答生成装置は、前記の式５に基づいてキーワード判別し、例えばユーザーに対して音声合成装置などによってキーワードを音声としてスピーカーなどを介して出力する。この言語処理システム１の実験例について次に説明する。
Ｆ：『言語処理システム』の実験例
〔Ｆ―１：実験内容〕
実験は、言語を獲得するための学習フェイズと、獲得した知識を運用する評価フェイズ（評価フェイズとも呼ぶ）と、から成る。
【０１２１】
学習フェイズでは、人が言語処理システムの言語学習装置に対して発話する。発話はセットマイクを介して言語学習装置に取得される。人が発話する際、場所を表す単語（キーワード）や、その言い回し（発話に含まれるキーワード以外の語）は自由に設定できる。ただし、キーワードと言い回しは独立しており、同じ言い回しで複数のキーワードが教示されること、一つのキーワードが複数の言い回しで教示されることを前提とする。
【０１２２】
言語処理システム１の言語学習装置１００は、前述のように音声を音素列として認識するための音響モデル（音素間の接続制約や、音素とモーラの対応表を含む）を持ち、単語に関する知識は持っていない。従って、人の発話のどの部分がキーワードであるか言語処理システムはわからない。
【０１２３】
この言語処理システム１は発話と、発話が示す対象（例えば、場所を扱うが、物や人でもよい）の対応関係を学習する。
【０１２４】
評価フェイズでは、言語処理システム１の発話理解装置が人の発話を認識し、応答生成装置からキーワードを出力させる。そして、発話から、各場所に対応するキーワードが正しく出力できることを確かめる。
〔Ｆ―２：実験条件〕
実験には男性話者１７名の音声を用いた。対象の数は１０、言い回しのパターン数は６とし、その全ての組み合わせとなる６０発話を話者毎に収集した。対象番号と対応するキーワードを表１に、言い回しのパターンを表２に示す。12-fold Cross Validation法〔５５個のデータで学習を行い、残り５個のデータで評価を行うことを１２通り行う〕を用いて話者毎に評価する。なお、式（１）に示した各尤度の重みには、無作為に選出した一人の話者のデータに対して最も良い結果が得られた（音響重みω₁＝０．０００１，文法重みω₂＝５．０，語意重みω₃＝５．０）を使用した。
【０１２５】
【表１】

【０１２６】
【表２】

〔Ｆ―３：実験結果と考察〕
〔Ｆ−３−１：獲得単語数と発話の認識結果〕
まず、モデル選択時における記述長ＤＬと単語数との関係を図９に示す。図には実験した事例の一つを示す（５０語以上は省略）。モデル選択１回目の時には３２単語の時にＤＬが最小となったため、そこで単語の削除がストップした。得られた３２単語に、単語の連結によって作られた単語を統合することで、新たな単語リストが生成される。そのため、モデル選択２回目は３２単語より多くの単語がある状態からスタートする。モデル選択を繰り返すことで、最小の記述長となる単語数が収束していることがわかる。
【０１２７】
話者１７人分の結果の平均を図１０に示す。図中のヒストグラムは得られた単語数（獲得単語数）と、そこに含まれるキーワード数（獲得キーワード数）を表している。学習に用いた５５発話の音素列に含まれる部分列のパターンは平均して約６０００種類であり、そのうち約２００語が初期の単語候補として選ばれた。初期の単語候補を用いて語意学習した結果、約１５０語がキーワードと判定された。図からモデル選択を繰り返すことで単語数が減少していくことがわかる。最終的にはキーワードとして平均１３語が得られた。これは真のキーワード数（１０語）とほぼ同数まで絞り込むことができることを示している。
【０１２８】
評価用の音声を認識して得られた対象の正解率（対象正解率）は、モデル選択を行わなかった場合でも９５％であった。統計情報を元に作られた初期の単語候補だけでも、発話の認識においては高い正解率を得られているが、モデル選択を繰り返すことで正解率が９９％に向上した。
〔Ｆ−３−２：出力したキーワードの音素正解精度〕
初期の言語知識を用いて６０発話を音素認識した際の、発話全体に対する音素正解精度は８２％であった（図中、破線の「音素正解精度（ベースライン）」）。各対象のキーワードを式４によって出力し、その音素正解精度を算出した（図中「キーワードの音素正解精度」）。モデル選択を行わない場合の出力キーワードの音素正解精度は５０％以下であり、モデル選択を繰り返すことで８５％まで上昇した。
【０１２９】
モデル選択を行わない場合に、キーワードの音素正解精度がベースラインを大きく下回るのは、初期単語リストに登録されたキーワードの文節誤りに起因する。モデル選択なしの場合に出力されたキーワードの例を表３に示す。表から細かく文節されたキーワードが出力されていることが分かる。
【０１３０】
【表３】

次に、表３と同じ学習データを用いて、モデル選択を１０回行った後の出力キーワードの例を表４に示す。
【０１３１】
【表４】

参考のために、得られた全単語（キーワードと判定されたが出力されなかった単語，キーワードと判定されなかった単語）を併せて載せる。表４から、表３で示した文節誤りが修正されたことがわかる。このように提案手法は、ＭＤＬ基準で単語の連結と削除を繰り返すことで、キーワードの始端・終端を正しく推定することができる。また表から、言い回しも高い精度で学習できることがわかる。しかし一方で、本来のキーワード数よりも多くのキーワードが獲得された。これは、音響的に類似した単語が削除されずに残ったためである。表４の例では、「スマートルームの入り口」に対応する単語として、出力されたキーワードの他に、「すまおとるうむのいりぐち」が獲得された。さらに、「ここの名前は」に対応する単語も二つ獲得された（表４下段の★印のついた単語）。類似した単語を削除するか否かは、音響重みω1に依存する。今回は重みを固定した結果のみを示したが、音響重みを小さくすることで、類似した単語が削除されることが確かめられている。
【０１３２】
このように、本実施形態に係る言語処理システム１によれば、多様な言い回しでの教示（即ち、学習データ）から発話と対象の関係や単語の音素列を学習できる。言語処理システムでは、三種類の確率モデル（音響、言語、語意）を統合し、ＭＤＬ基準で各音素列単位の有効性を評価することによって、単言の知識を与えることなく、平均８５％の精度でキーワードの音素列を獲得できた。言い換えれば、言語処理システムによれば、学習データとしての複数の発話からの認識結果を用いて単語の音素系列を正しく学習（言語学習装置）し、またそれらをマージ（言語学習装置）し、さらにその意味を学習することができる（発話理解装置、応答生成装置）。
Ｇ：言語処理システムの適用例
本実施形態に係る言語処理システム１は、例えば二足歩行を行う人型ロボット（以下、ロボットと呼ぶ）に適用できる。この種のロボットでは、学習フェイズで、人がロボットを所望の場所に連れて行き、『ここはスマートルームです。』や『この場所の名前は辻野さんのブース。』などと言って、その場所の名前を教示する。場所の情報は、予めカテゴライズされた位置情報が与えられる。ロボットは、発話と、発話が示す対象（本稿では場所を扱うが、物や人でもよい）の対応関係を学習する。
【０１３３】
評価フェイズでは、ロボットが人の発話を認識し指示された場所に案内したり、「○○はこちらです」と場所の名前を発話したりする。
【０１３４】
なお、ロボットは、歩行式のほか、車輪や無限軌道などの走行式等、人型に加えて動物型等を福美、さらにこれらに限定されないことは勿論である。
【０１３５】
また、本実施形態の言語処理システムは、車両に搭載される「カーナビゲーション装置」に適用してもよい。この装置では、当初のデータベースには登録されていない、地名や特定の場所について任意の名称などを、ＧＰＳ情報とリンクさせて、本言語処理システムによって新単語として認識させて登録させることができる。
Ｈ：その他
以上詳述したが、本発明はその趣旨を逸脱しない範囲において様々な形態で実施をすることができる。
【０１３６】
前記言語処理システムの「言語学習部」と、「発話理解部」と、「応答生成部」とは、一体の装置に組み込まれてもよく、別々の装置に組み込まれても良いことは勿論である。
【０１３７】
モデル尤度の評価は、ＭＤＬを利用する手法に代えて、赤池情報量基準を利用することができる。この場合、式６に代えて下記の式１０を利用する。
【０１３８】
【数１０】

実施形態の説明で挙げられた数値は例示であることは勿論である。言語処理システムが認識する対象は、人、物、コマンドに限らず、その他、物理的な位置や範囲、地図上の一点や範囲、電子的なデータベースの一項目や項目の集合などであってもよい。
【符号の説明】
【０１３９】
１言語処理システム
１０言語学習部
２０発話理解部
３０応答生成部
１００言語学習装置
１１０音素処理手段
１２０リスト作成手段
１３０単語認識手段
１４０学習処理手段
１５０リスト修正手段
Ｍ１言語モデル
Ｍ２語意モデル
θ 言語知識

【特許請求の範囲】
【請求項１】
単語の知識を当初備えていないが、学習を進めることで上記単語の知識を習得する言語学習装置であって、
音素モデルに基づいて音声を音素認識する音素認識手段と、
上記音素認識手段で認識された音素情報から単語リストを作成するリスト作成手段と、
上記リスト作成手段で作成された単語リスト情報に基づいて上記音声を単語認識する単語認識手段と、
上記単語認識手段で認識された単語情報を利用して言語知識を学習する学習処理手段と、
上記単語リストを修正するリスト修正手段と、を備え、
上記学習処理手段は、上記リスト修正手段によって修正された単語リストに基づいて上記言語知識を修正することを特徴とする、言語学習装置。
【請求項２】
前記学習処理手段は、前記言語知識として、前記単語認識手段で認識された各単語に対応する複数のモデルを作成し、
前記リスト修正手段が、上記複数のモデルの尤度を考慮して前記単語リストを修正することを特徴とする、請求項１に記載の言語学習装置。
【請求項３】
前記リスト修正手段が、最小記述長原理に基づいて前記単語リストから削除する単語を決定して、前記単語リストを修正することを特徴とする、請求項２に記載の言語学習装置。
【請求項４】
前記リスト修正手段が前記単語リストの修正を複数回或いは繰り返し行い、前記学習処理手段が、前記リスト修正手段で前記単語リストが修正される度に前記言語知識の修正を行うことを特徴とする、請求項１〜３の何れかに記載の学習装置。
【請求項５】
前記リスト修正手段が、前記学習処理手段で作成された言語知識に基づいて、前記単語リストに新たな単語を追加することを特徴とする、請求項１〜４の何れかに記載の言語学習装置。
【請求項６】
請求項１〜５の何れかに記載の言語学習装置と、この言語学習装置で作成された言語知識に基づいて発話の理解を行う発話理解装置と、を備えたことを特徴とする、言語学習システム。
【請求項７】
請求項６に記載の前記言語学習システムを搭載したことを特徴とする、ロボット。
【請求項８】
請求項６に記載の前記言語学習システムを搭載したことを特徴とする、カーナビゲーション装置。
【請求項９】
コンピュータを、
音素モデルに基づいて音声を音素認識する音素認識手段、
上記音素認識手段で認識された音素情報から単語リストを作成するリスト作成手段、
上記リスト作成手段で作成された単語リスト情報に基づいて上記音声を単語認識する単語認識手段、
上記単語認識手段で認識された単語情報に基づいて言語知識を学習する学習処理手段、
上記単語リストを修正するリスト修正手段、
として機能させて、単語の知識を当初備えていないが学習を進めることで上記単語の知識を習得するプログラムであって、
上記学習処理手段は、上記言語知識として前記単語処理手段で認識された各単語に対応する複数のモデルを作成し、
上記リスト修正手段が、最小記述長原理に基づいて上記単語リストから削除する単語を決定して上記単語リストを修正し、
上記学習処理手段が、修正された単語リストに基づいて前記言語知識を修正することを特徴とする、言語学習プログラム。
【請求項１０】
前記リスト修正手段が前記単語リストの修正を複数回或いは繰り返し行い、前記学習処理手段が、前記リスト修正手段で前記単語リストが修正される度に前記言語知識の修正を行うことを特徴とする、請求項９に記載の言語学習プログラム。
【請求項１１】
前記リスト修正手段が、前記学習処理手段で作成された言語知識に基づいて、前記単語リストに新たな単語を追加することを特徴とする、請求項９又１０に記載の言語学習プログラム。
【請求項１２】
単語の知識を当初備えずに学習を進めることで上記単語の知識を習得する言語学習方法であって、
音素モデルに基づいて音声を音素認識する第１ステップと、
上記第１ステップで認識された音素情報から単語リストを作成する第２ステップと、
上記第２ステップで作成された単語リスト情報に基づいて上記音声を単語認識する第３ステップと、
上記第３ステップで認識された単語情報に基づいて、上記第３ステップで認識された各単語に対応する複数のモデルを含む言語知識を学習する第４ステップと、
上記第４ステップで作成された言語知識と最小記述長原理とに基づいて上記単語リストから削除する単語を決定して、上記単語リストの修正を複数回或いは繰り返し行う第６ステップと、
上記第６ステップで上記単語リストが修正される度に上記言語知識の修正を行う第７ステップと、を含むことを特徴とする、言語学習方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【公開番号】特開２０１１−５９８３０（Ｐ２０１１−５９８３０Ａ）
【公開日】平成２３年３月２４日（２０１１．３．２４）
【国際特許分類】

物理学 (1,541,580)

【出願番号】特願２００９−２０６５０５（Ｐ２００９−２０６５０５）
【出願日】平成２１年９月７日（２００９．９．７）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成２１年３月６日　社団法人人工知能学会発行の「言語・音声理解と対話処理研究会（第５５回）」に発表
【出願人】（０００００５３２６）本田技研工業株式会社 (23,863)
【出願人】（３９３０３１５８６）株式会社国際電気通信基礎技術研究所 (905)
【Ｆターム（参考）】

[ Back to top ]

言語学習装置、言語学習プログラム及び言語学習方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

言語学習装置、言語学習プログラム及び言語学習方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク