音声認識装置で利用される音声認識用辞書、音声認識用言語モデルの学習方法
【課題】音声認識システムを持つ各種情報装置において,装置が想定しない発話が装置利用者から発せられたときに,その発話を棄却することで,誤動作する割合を大幅に減らす。
【解決手段】音声認識システムを持つ各種情報処理装置1において,言語モデル学習手段10が情報処理装置1の想定しない文章をモデル化することで言語モデル7を作製し,音声認識辞書作製装置11が想定しない単語を登録した音声認識辞書8を作製する。音声認識手段3がこれらの言語モデル7と音声認識辞書8,音響モデル9を用いて音声入力手段2より入力された人間の発話を音声認識すると,音声認識結果6には各種情報処理装置1が想定しない単語であるというタグ(ラベル)が付いているため,処理手段4において自動的に情報処理装置1が想定しない発話を棄却することで,出力手段5において誤動作することを防ぐ。
【解決手段】音声認識システムを持つ各種情報処理装置1において,言語モデル学習手段10が情報処理装置1の想定しない文章をモデル化することで言語モデル7を作製し,音声認識辞書作製装置11が想定しない単語を登録した音声認識辞書8を作製する。音声認識手段3がこれらの言語モデル7と音声認識辞書8,音響モデル9を用いて音声入力手段2より入力された人間の発話を音声認識すると,音声認識結果6には各種情報処理装置1が想定しない単語であるというタグ(ラベル)が付いているため,処理手段4において自動的に情報処理装置1が想定しない発話を棄却することで,出力手段5において誤動作することを防ぐ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は,音声認識システムを利用している音声対話装置などの各種情報処理装置において,音声認識誤りによってそれらの装置の誤動作を防ぐための音声認識装置用音声認識辞書および言語モデルの学習方法である。音声認識システムを持つ情報処理装置を正しく動作させるために必要な発話と,装置が想定しない音声発話を正しく判定することで,装置の誤動作を防ぐことを目的とする。
【背景技術】
【0002】
音声認識システムを利用した各種情報処理装置(例えば、音声対話システム、ロボット、音声入力によるデータベース検索システム、カーナビ、音声翻訳システム等)では、利用者の発話を音声認識した際の音声認識誤りにより、装置に誤動作が生じることが多々ある。例えば,車内の会話を自動的に取得し,会話に関係する情報をカーナビゲーション上に表示するシステムや,コールセンター等において電話音声を取得し,電話会話内容に関する情報を自動的にデータベース検索し,会話内容と関連する情報を表示するようなシステムにおいて,全く無関係のない会話なのに情報表示端末に情報が表示されると,利用者にとっては至極迷惑であるし,誤操作を誘導し業務に支障をきたすことが考えられる。音声認識システムを備えた情報処理装置においては,装置が想定しない発話の検出は大変重要である。
【0003】
これを防ぐ方法としては,情報処理装置に入力された音声が本当に装置を動作させるために必要な発話であるか否かを判定し,装置を動作させるために必要な発話ではないあるいは想定しない発話と判定されたときには,装置の動作を行わない等の対処を行うことが必要となる。
装置を動作させるために必要な発話か否かを判定する方法として,多くの手法が提案されている。例えば,音声認識精度自体を改善することで誤認識を少なくし(公開論文が多数存在している)、認識結果に基づく判別を行う方法,音声認識結果に信頼度(スコア)を導入し信頼性が低いときは結果を棄却する試み(非特許文献1)、ドメイン外発話検出(非特許文献2)等、多くの手法が公開されている。
音声認識自体の精度を改善する試みは,音声認識が良くなれば,装置を動作させる必要のない発話を正しく音声認識し文字化できるようになるため,その文字化された認識結果を処理することで,無関係発話か否かの判別が可能になる。
認識結果の信頼度を利用する方法では,各種装置で利用されている音声認識システムが,装置を操作するための発話と関係のない発話をうまく音声認識できないという特徴を利用する。うまく音声認識できないというのは,音声認識システムが保持しているモデルと音声から抽出した特徴量とのマッチングが上手くいかずに,マッチングのスコア(信頼度)が低下してしまうということである。音声認識結果の信頼度が低い場合に,無関係発話と判定できる。
ドメイン外発話検出は,本発明で提案する手法と最も類似した手法である。例えば,非特許文献2の方法では,入力された発話の音声認識結果を話題分類し,想定外発話のトピックに分類されたときに,無関係発話と判定することができる。
しかし,これらの手法の多くは,音声認識システムの出力結果を利用しているため,音声認識システムの音声認識性能に大きく依存する。すなわち,音声認識システム内のデコーダ処理アルゴリズムや音響モデル,言語モデル(と音声認識辞書)の精度に大きく依存する手法である。モデルの精度が高くないと,音声認識結果に付与される信頼度も信頼性が低い。結局は,高い精度で想定しない発話を判定するためには,音声認識システムが保持している音響モデルや言語モデルを精度良いものにしなくてはならない。
音響モデルは,a,i,u,e,o等の音韻情報をモデル化したもので,最近は統計的手法により隠れマルコフモデル(HMM)でモデル化されるのが一般的である。精度の高い音響モデルを学習する方法は多くの文献で提案されているため,音響モデルの学習方法は本発明の対象外とする。
言語モデルは,N-gramによって統計的な単語のN個つながりを学習するのが一般的となっている(例えば,「学校へ行く」という文章からできるモデルは,P(へ|学校),P(行く|へ)である)。しかしながら,N個の単語のつながりを学習するためには,大量のテキスト文章データが必要となり,このテキスト文章データを情報処理装置のタスクに併せて作成するのに膨大な時間と労力が必要である。これを解決するために,クラス言語モデル(単語を品詞などのカテゴリーに分類し,カテゴリーのN個つながりでモデルを持つこと)が提案されているが,それでも大量のテキスト文章データから学習した単語N-gramに比べると音声認識の性能が低下する。
また,音声対話システムなどでは,統計的N-gramモデルではなく,発話のパターンやルールを考慮した文法モデルによりモデル化された言語モデルが使われることが多い。文法モデルにおいても,モデル化された発話パターン以外の発話がなされたとき,学習されているパターンのいずれかに無理やり当てはめられるため,誤認識を起こしてしまう。
以上のことから,一般的な言語モデルを用いていては,情報処理装置が想定しない発話が入力されたとき,それを正しく棄却することが難しい。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】音声対話システムにおける信頼度基準と音響基準を統合した不要音棄却、日本音響学会研究発表会講演論文集 、2005(1) pp.57-58 20050308
【非特許文献2】対話コンテキストとトピッククラスタリングを用いたドメイン外発話の検出、電子情報通信学会技術研究報告。 SP, 音声 、104(543) pp.49-54 20041222
【発明の概要】
【発明が解決しようとする課題】
【0005】
解決しようとする問題点は、音声認識システムが持つ言語モデルでは,各種装置が想定しない発話を高精度に判別できないことである。
【課題を解決するための手段】
【0006】
本発明は、予め想定しない発話を吸収するための単語集合(これをガベージクラスと呼ぶことにする)を言語モデルと音声認識辞書に組み込むことで,想定発話を判定することを最も主要な特徴とする。
(1)音声認識のための情報処理装置に入力された発話が情報処理装置の想定しない発話であると自動的に識別するための音声認識手段において言語モデル学習手段と
音声認識辞書作製手段と想定しない不必要な単語作成手段から構成されることを特徴とする言語モデル・音声認識辞書作製方法である。
(2)前記言語モデル学習手段が,統計的な単語N-gramまたはクラスN-gram言語モデル,もしくはパターン・ルールに基づく文法モデルを学習するために,言語モデル学習用文章データを加工し,想定しない発話パターンと想定する発話パターンの双方を同時に学習することを特徴とする。
(3)前記想定しない不必要な単語作成手段が,想定しない単語のリストを作成するために,想定しない不必要な単語作成データから想定しない単語のリストを作成し,かつ,自動的に想定しない単語リストを無から生成することで想定しない単語リストを作成することを特徴とする。
(4)前記音声認識辞書作成手段が,単語の読み方(発音)表記リスト(音声認識辞書)を,言語モデル学習用の文章データと前記想定しない不必要な単語作成手段の出力結果から作成することを特徴とする。
(5)前記言語モデル学習手段および前記音声認識辞書作成手段では、不要語に対し、不必要な単語である表示が付与され、出力結果には不要語が入力されたことを認識することができることを特徴とする。
(6)情報処理装置に対して不要語が入力されたとき,出力結果には単語列に不要語である旨が表示され,情報処理装置にとって想定しない発話であったと判定することを特徴とする。
(7)前記言語モデル学習手段が,情報処理方法が想定しない発話が入力されたときに想定しない発話として音声認識できるような統計的N-gramモデルあるいは文法モデルを学習するために,想定しない単語クラス集合を,言語モデル学習用文章に混合する想定しない不必要な単語クラス混合部を持つことを特徴とする。
(8)前記想定しない不必要な単語作成手段が,想定しない不必要な単語作成データ,もしくは無から自動的に作成した不要語候補リストの中から単語情報および言語モデル学習用文章データに基づいて想定しない不必要な単語リストを作成することを特徴とする。
(9)前記想定しない不必要な単語作成手段が,任意の平仮名N個組み合わせにより,無の状態から不要語候補リストを作成するための想定しない不必要な単語自動生成部を持つことを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
(10)音声認識のための情報処理装置において,前記言語モデル学習手段と
前記音声認識辞書作製手段と前記想定しない不必要な単語作成手段から構成された音声認識結果を出力することを特徴とする。
【0007】
本発明は,図1のような形態で利用されることを想定としている。音声認識手段を組み込んだ各種情報処理装置(例えば,カーナビ,音声対話システム,対話ロボット,音声検索システム等)において,音声認識システムで必ず利用される言語モデル,音声認識辞書(音響モデルは本発明の対象外とする)の学習方法を工夫することで,音声認識誤りの発生を大きく抑制する方法を提案する。これにより,情報処理装置がユーザに対して誤ったアクションを起こすことを防ぐことができる。
なお,ほとんどの音声認識システムを組み込んだ装置では,図1のような形態が取られている。音声認識結果を処理することになるため,音声認識が誤ったときには,ユーザへの誤ったアクションが行われることになる。
【0008】
図2は,本発明の概念図を示す。情報処理装置1において、音声認識手段3は、言語モデル7の学習と音声認識辞書8の作成を行う言語モデル・音声認識辞書作成装置17を介して行われる。言語モデル学習手段7と音声認識辞書8を用いると,音声認識結果6に含まれる各認識単語には,装置が想定しない発話であるというラベルが付けられる。そのラベルが付けられた場合は,処理手段4において,出力手段5に情報を出力しないようにする,もしくは装置を使っているユーザへ想定していない発話であった旨のフィードバックを行うことができる。
図3は,言語モデル学習装置の処理の流れである。まず,言語モデル学習用文章データ14(これは音声認識システムを利用した各種装置に応じて開発者等が用意しておく)を形態素解析部18で形態素解析し,文章を単語に分割する(日本語の場合。英語の場合は,単語の原型を得る)。単語−クラス辞書20(これも開発者等が用意)を利用して,得られた単語をクラス名変換部21でクラスに変換する。ここでいうクラスとは,単語の品詞名やある特定の意味を表すカテゴリーのことであり,各種装置の設計・開発者が任意に定義できる。
例えば,図4は,図3に対して具体的なデータの例を付与した図である。「中華料理」や「寿司」という単語は「<料理ジャンル>」というクラスに属し,「甲府市」は「<地名>」クラスに属する。単語とクラスの対応は,図3,図4中の単語−クラス辞書20に基づいて行われ,クラス名変換部21が,実際に単語列をクラス列に変換する。ここで,音声認識手段を利用した情報処理装置で必要とされるキーワード類を,ここでは有効単語と呼ぶことにする。
クラス列に変換された文章データに,ガベージクラス混合部22においてガベージクラス列24を混合させる。ガベージクラスとは,音声認識システムを持つ各種情報処理装置において,想定しない不必要な単語(これをガベージ単語と呼ぶ,この作成方法は後述)が属するクラスのことである。ユーザが不要な発話をしたときに限って,ガベージクラスとして認識結果を得ることができれば,音声認識結果に不要単語のラベルを付与することが容易にできる。これにより,後の処理で誤ったことを行わずに済む。文章データに,任意のガベージクラス列を追加することで,装置が想定しない発話が入力されたときでも,想定発話が入力されたときでも,両方を正しく認識でするための言語モデルを学習することが可能となる。
なお,スイッチ19を切り替えることで,単語をクラス化しない場合は,単語表記の文章データにたいして同様にガベージクラス列24を混合することで,ガベージクラスを含んだ言語モデル7を学習することが可能である。
ガベージクラス混合部22において,このガベージクラス列24と,言語モデル学習用文章データ14から作成した有効単語のクラス列とを混合する際,混合のやり方は様々な方法があるが,例えば,発明者が開発した音声対話ロボットにおいては,有効単語とガベージ単語をランダムに組み合わせ,有効単語に対するガベージ単語の出現割合を7:3にすると,実験的に最も良い結果が得られることが分かっている。この割合については,各情報処理装置によって異なるため,この割合が最適であるとは言えない。
混合したクラス列から,言語モデル学習部23において言語モデルを学習する。言語モデルの学習方法は,一般的なN-gram法であり,図4に示すように,クラス−クラス間,クラス−単語間の接続確率が学習される。
図5は,ガベージ単語を作成する方法であるガベージ単語作成手段13の処理の流れである。ガベージ単語作成データ15は,新聞データや講義・講演などの書き起こしデータなどの一般的なテキスト文章データの集合である。これを形態素解析部25で形態素解析し,その結果を単語情報取得部26が処理をおこない単語情報を得る。この単語情報と言語モデル学習用文章データ14に基づいて,ガベージ単語とすべき単語の選定を単語選択部27が行い,ガベージ単語リスト28を作成する。単語情報は,例えば単語の出現頻度やエントロピーなどの情報を用いても構わない。本発明では,この単語抽出方法を限定しないこととする。言語モデル学習用データ14を用いるのは,有効単語をガベージ単語リスト28に登録しないようにするためである。
図6は,図5に対して具体的な説明を行うための図である。一般的なテキストコーパス(新聞記事集合や,講演テキストデータの書き起こしで良い)を用いて,例えばコーパスに出現する高頻度単語を選択し,ガベージ単語リストに登録する方法を説明している。ただし,言語モデル学習用文章データ14に出現した単語に関しては,たとえ高頻度単語であっても,ガベージ単語に登録しない。なぜなら,言語モデル学習用文書中の単語は,情報処理装置を正しく動作させるために必要な単語を含んでいるからである。
もし,一般的なテキストコーパスを用意できなくても,ガベージ単語リスト28を作成することができる。図7はその場合のガベージ単語作成方法の枠組みである。ガベージ自動生成部29において,任意のN個の平仮名1文字をランダムに組み合わせた仮想単語を自動生成する。例えば,「あめみ」,「ためふか」などである。必ずしも意味のある単語である必要はない。このNの値を決定する方法は本発明では問わないが,各種実験の結果から例えば任意の3個の音節の組み合わせがガベージ単語としての機能を有効に果たせる。仮想単語の中から有効単語を取り除き,ガベージ単語リストとする。
図8は,認識辞書作成手段11について説明した図である。音声認識辞書8には,音声認識結果として出力されるべき単語のリストを登録する。言語モデル学習用文章データ14を形態素解析部30で形態素解析し,その結果を単語発音取得部31に入力することで,有効単語の読み方(発音)を得ることができる。また,ガベージ単語リスト28の発音情報も単語発音取得部31で取得する。得られた有効単語,ガベージ単語の発音情報を音響モデルと照らし合わせながら発音系列(主に音素もしくは音節列)に変換することで,音声認識辞書8を作成する。ここには,言語モデル7に出現する単語と,言語モデルに出現するクラスに対応する単語,ガベージ単語リストすべての発音表記が登録される。
図9は,図8に対して具体的なデータを付与した例である。言語モデル学習用文章データを形態素解析すると,単語とその発音表記(平仮名もしくはカタカナ系列)を得ることができる。同時に,ガベージ単語リストに登録してある単語の発音表記も取得する。発音辞書生成部では,音響モデルに登録してある音韻モデル表記に照らし合わせながら,発音表記を音韻モデル系列に書き直す。音響モデルでは,例えば,“あ”という音の波形を,“a”という音韻モデルとして学習している。最終的に,認識辞書では,単語とそれに対応する発音の音韻系列が登録されることになる。
【発明の効果】
【0009】
本発明により作成した言語モデルと認識辞書を用いた音声認識システムでは,想定しない発話が入力され,それを音声認識したとき,結果として出力される単語には<ガベージ>というラベルが付与されていることになる。
【0010】
ガベージというラベルが付与されている単語が,図2の情報処理装置1に入力されたとき,音この情報処理装置1に含まれる処理手段4によって音声認識結果6にガベージラベルが付いているか否かをチェックすることで,入力され認識された発話が想定しない発話であると容易に判定することができる。
本発明の有効性を用いるため,音声認識システムを持つ音声対話ロボットを構築した。人間の発話を,対話ロボットを正しく動作させるために必要な発話(これをドメイン内発話と呼ぶ)と,それ以外の対話ロボットが想定しない発話(これをドメイン外発話と呼ぶ)に分類する実験を行った。ドメイン内,外でそれぞれ200発話を用意した。
本発明により作成した言語モデルと音声認識辞書を用いて,(1)ドメイン外発話をどれだけドメイン外として検出できるか,(2)ドメイン内発話をどれだけドメイン内として検出できるかの2つの観点から有効性を検討した。
【0011】
言語モデル学習用文章データは,全部で120文である。これに,ガベージクラスのみから成るガベージクラス学習用ダミー文データを一定の割合で加える。実験では,この割合を変化させている。
ガベージ単語生成データとガベージリストは,「日本語話し言葉コーパス」(一般人に,自分の夢や経験談等について数分程度講演してもらった数百時間の音声とその書きお越しのデータベースである)を利用した。日本語話し言葉コーパスに含まれる高頻度単語(50回以上出現)を約2500単語程度取り出した。この中から対話ロボットで必要な単語を除外し,これをガベージリストとする。
【0012】
実験結果を図10に示す。
ガベージの学習割合が0のときは,ガベージクラスを一切学習しないということなので,従来のシステムの結果,つまりベースラインとなる。このとき,ドメイン外発話はすべて,ドメイン内と検出されてしまい,このとき対話ロボットが人間の意図しない動作を行う。
しかし,ガベージ割合を増やすことで,ドメイン外発話をきちんと棄却することができ,ドメイン外発話検出精度が改善していることがわかる。ドメイン外発話が検知できれば,対話ロボットは誤動作しない。
一方で,ガベージの学習割合を100%にしてしまうと,ガベージクラスのみしか学習されないため,ドメイン内発話が誤ってすべてドメイン外と認定されてしまい,ロボットが動作をしない。
ドメイン内発話検出精度とドメイン外発話検出精度の折り合いがつく点(つまり,2本のグラフが交差する点)を見ると,最適な学習割合は30%であることが分かる。このとき,ドメイン外発話の約90%を正しく棄却できていることになる。本発明により,無関係発話の検出が簡単にできることが実証された。
【図面の簡単な説明】
【0013】
【図1】図1は音声認識システムを持つ一般的な各種装置の処理の概略を説明した図である。
【図2】図2は,図1に対して,本発明で提案する言語モデルと音声認識辞書の作製方法の枠組みを追加し,図2の装置との関連性を説明した図である。
【図3】図3は,図1に対する言語モデル学習装置の処理の流れを説明した図である。
【図4】図4は,図3に対して,具体的なデータの流れ(このデータの例は例えばカーナビゲーション対話例)を付与した図である。
【図5】図5は,ガベージ単語作製データを用いたときのガベージ単語生成の流れを説明した図である。
【図6】図6は,図5に対して,具体的なデータの流れを付与した図である。
【図7】図7は,図5に対してガベージ単語作成データが用意できない場合のガベージ単語作成方法を説明した図である。
【図8】図8は,認識辞書作成装置について説明した図である。
【図9】図9は,図8に対して,具体的なデータの流れを付与した図である。
【図10】図10は,本発明の有効性を確かめるための実験を行った結果の図である。
【図11】図11は,本発明の実施例の一つであるカーナビゲーションシステムにおける情報検索の例を説明している。
【図12】図12は,本発明を用いなかったときカーナビゲーションが誤操作を起こす例である。
【図13】図13は,本発明を利用することにより,カーナビゲーションが想定しない発話を棄却した例である。
【図14】図14は,患者情報検索システムにおける本発明の実施例である。
【発明を実施するための形態】
【0014】
本発明は,音声認識システムを利用した各種装置(例えば,カーナビ,音声対話システム,対話ロボット,音声検索システム等)において,装置内の音声認識システムが使っている言語モデルや認識辞書の学習方法を工夫することで,装置が想定しない発話入力を高精度で棄却することが可能となった。
【実施例1】
【0015】
本発明の具体的な効果について,例を挙げて説明する。図10は,カーナビゲーションシステム(以下,カーナビ)で,ユーザがお店や地名を検索する例である。
一般的なカーナビの場合,図10に示すようにユーザの問いかけに対して,その発話を音声認識し,発話内容を理解し適切な応答を返す。
しかし,図11に示すように,ユーザ同士の対話などで,カーナビと無関係のドメイン外発話が行われたとする。この場合,本発明を利用しなければ,カーナビは音声認識結果を無理やり解釈し,なんらかのアクションをユーザに返す。当然,このアクションはユーザの意図したものではない。
【0016】
本発明を利用した場合,図12に示すように,カーナビは「関係のない発話」ということを認識できる。そのため,誤作動を起こすことはない。
【実施例2】
【0017】
図13は,音声入力による病院患者データベース検索装置の一実施例である。この例では患者データベースとしたが,データベースの種類は何でも構わない。例えば,データベースの種類としては,カーナビ等での飲食店検索,飲食店予約のための顧客情報,対話ロボット制御のための制御コマンドデータベース等が想定される。実際に,本発明を組み入れた病院診療予約のための患者情報データベース検索システムを構築したのでその枠組みを実施例として紹介する。
【0018】
図13の実施例では,音声インタフェース部とグラフィカルユーザインタフェース部,患者データベース検索制御部から構成されている。音声インタフェースは,マイクロフォン,音声認識エンジン,言語モデル・認識辞書選択部,音響モデル(1種類),言語モデル(n種類),認識辞書(n種類)から成る。グラフィカルユーザインタフェース部はタッチパネル式ディスプレイと画面描画部からなる。
【0019】
まず,人間の電話口の音声,あるいは人間同士の会話音声をマイクが自動的にキャッチする。キャッチされた音声は,音声認識エンジンに送られる。音声認識エンジンは,音声切り出しを行う前処理部,切り出した音声の特徴量を抽出する特徴量抽出部,特徴量と各種モデル,辞書を用いて音声認識結果を得るデコーディング部から構成される。デコーディング部では,音響モデルおよび言語モデル・認識辞書選択部により選択された1つの言語モデルと1つの認識辞書を用いて,特徴量と音響モデルの適合性を判断しながら最適な音韻系列を選択し,言語モデルと認識辞書を用いて文法的な正しさ,単語の正しさを判断して,最終的にデータベース検索に用いる単語候補(キーワード)を複数個出力する。
【0020】
ここで用いられる言語モデルは,名前や日時等を認識するための,文法モデルである。
デコーディング部によって得られた候補の単語を用いて,患者データベース検索制御部がデータベース検索を行う。
【0021】
また,データベース検索制御部では,音声インタフェース部内の言語モデル・認識辞書選択部を制御する働きも持つ。言語モデル・認識辞書選択部は,ユーザにより患者データベース中のどのデータ(例えば,名前なのか,病名なのか)を検索したいのかが明確にされたとき,データベースを検索するためのキーワードを高い精度で認識するために,言語モデルおよび認識辞書を切り替える部分である。例えば,人名を検索したい場合は,人名認識用の言語モデルと認識辞書を利用し,予約画面になったときに日時を検索したい場合は,日時認識用の言語モデルと認識辞書に切り替える。これにより,状況に応じた高い音声認識を実現することができる。
【0022】
データベース検索制御部では,上記の働きの他に,音声認識結果候補を使ってデータベースを検索する。検索結果は,グラフィカルユーザインタフェース部に送られる。
【0023】
図13の実施例では,電話や対話音声を音声認識エンジンの入力とするため,データベース検索にとって不要な発話が多く,常に誤認識している状態であった。誤認識をすると,必要のない情報が勝手に検索され,検索結果がディスプレイに表示され,利用者にとって戸惑いを与えていた。
【0024】
しかし,本発明を組み入れた言語モデルと音声認識辞書を用いることで,想定外発話をしても誤動作する割合が大幅に削減できた。
【産業上の利用可能性】
【0025】
音声認識システムを持つ各種装置(例えば、音声対話システム、ロボット、音声入力によるデータベース検索システム、カーナビ、音声翻訳システム等)に応用可能である。
【符号の説明】
【0026】
1 音声認識システムを利用する情報処理装置
2 マイクロフォンなどの音声入力手段
3 音声認識手段(音声認識システム)
4 処理手段(情報処理装置1がその機能を果たすための処理を行う部分)
5 出力手段(ディスプレイ表示,合成音声出力,ロボットアームの動作など)
6 音声認識手段により出力された音声認識結果
7 言語モデル(統計的N-gramモデル,文法モデル)
8 音声認識辞書
9 音響モデル(発明対象外)
10 言語モデル学習手段
11 音声認識辞書作製手段
12 音響モデル学習手段
13 ガベージ単語学習手段
14 言語モデル学習用文章データ
15 ガベージ単語作製データ
16 音響モデル学習データ
17 言語モデル・音声認識辞書作製装置
18 言語モデル学習手段における形態素解析部
19 スイッチ(言語モデル学習用の単語をクラス化する場合としない場合で処理が分岐するため)
20 単語とクラスを対応させるための単語−クラス辞書
21 単語にクラス名を付与し,単語列をクラス列に変換するためのクラス名変換部
22 情報処理装置1が想定しない発話を不要発話として正しく音声認識するための不要文モデル化のためのガベージクラス混合部
23 統計的言語モデルあるいは文法モデルを学習するための言語モデル学習部
24 ガベージクラス列
25 ガベージ単語作成部における形態素解析部
26 形態素解析した結果から単語情報を得るための単語情報取得部
27 単語情報からガベージ単語を得るための単語選択部
28 情報処理装置1が不要とする単語の集合であるガベージ単語リスト
29 無から不要語を自動作成するガベージ自動生成部
30 音声認識辞書作成手段11における形態素解析部
31 単語発音取得部
32 発音辞書生成部
【技術分野】
【0001】
本発明は,音声認識システムを利用している音声対話装置などの各種情報処理装置において,音声認識誤りによってそれらの装置の誤動作を防ぐための音声認識装置用音声認識辞書および言語モデルの学習方法である。音声認識システムを持つ情報処理装置を正しく動作させるために必要な発話と,装置が想定しない音声発話を正しく判定することで,装置の誤動作を防ぐことを目的とする。
【背景技術】
【0002】
音声認識システムを利用した各種情報処理装置(例えば、音声対話システム、ロボット、音声入力によるデータベース検索システム、カーナビ、音声翻訳システム等)では、利用者の発話を音声認識した際の音声認識誤りにより、装置に誤動作が生じることが多々ある。例えば,車内の会話を自動的に取得し,会話に関係する情報をカーナビゲーション上に表示するシステムや,コールセンター等において電話音声を取得し,電話会話内容に関する情報を自動的にデータベース検索し,会話内容と関連する情報を表示するようなシステムにおいて,全く無関係のない会話なのに情報表示端末に情報が表示されると,利用者にとっては至極迷惑であるし,誤操作を誘導し業務に支障をきたすことが考えられる。音声認識システムを備えた情報処理装置においては,装置が想定しない発話の検出は大変重要である。
【0003】
これを防ぐ方法としては,情報処理装置に入力された音声が本当に装置を動作させるために必要な発話であるか否かを判定し,装置を動作させるために必要な発話ではないあるいは想定しない発話と判定されたときには,装置の動作を行わない等の対処を行うことが必要となる。
装置を動作させるために必要な発話か否かを判定する方法として,多くの手法が提案されている。例えば,音声認識精度自体を改善することで誤認識を少なくし(公開論文が多数存在している)、認識結果に基づく判別を行う方法,音声認識結果に信頼度(スコア)を導入し信頼性が低いときは結果を棄却する試み(非特許文献1)、ドメイン外発話検出(非特許文献2)等、多くの手法が公開されている。
音声認識自体の精度を改善する試みは,音声認識が良くなれば,装置を動作させる必要のない発話を正しく音声認識し文字化できるようになるため,その文字化された認識結果を処理することで,無関係発話か否かの判別が可能になる。
認識結果の信頼度を利用する方法では,各種装置で利用されている音声認識システムが,装置を操作するための発話と関係のない発話をうまく音声認識できないという特徴を利用する。うまく音声認識できないというのは,音声認識システムが保持しているモデルと音声から抽出した特徴量とのマッチングが上手くいかずに,マッチングのスコア(信頼度)が低下してしまうということである。音声認識結果の信頼度が低い場合に,無関係発話と判定できる。
ドメイン外発話検出は,本発明で提案する手法と最も類似した手法である。例えば,非特許文献2の方法では,入力された発話の音声認識結果を話題分類し,想定外発話のトピックに分類されたときに,無関係発話と判定することができる。
しかし,これらの手法の多くは,音声認識システムの出力結果を利用しているため,音声認識システムの音声認識性能に大きく依存する。すなわち,音声認識システム内のデコーダ処理アルゴリズムや音響モデル,言語モデル(と音声認識辞書)の精度に大きく依存する手法である。モデルの精度が高くないと,音声認識結果に付与される信頼度も信頼性が低い。結局は,高い精度で想定しない発話を判定するためには,音声認識システムが保持している音響モデルや言語モデルを精度良いものにしなくてはならない。
音響モデルは,a,i,u,e,o等の音韻情報をモデル化したもので,最近は統計的手法により隠れマルコフモデル(HMM)でモデル化されるのが一般的である。精度の高い音響モデルを学習する方法は多くの文献で提案されているため,音響モデルの学習方法は本発明の対象外とする。
言語モデルは,N-gramによって統計的な単語のN個つながりを学習するのが一般的となっている(例えば,「学校へ行く」という文章からできるモデルは,P(へ|学校),P(行く|へ)である)。しかしながら,N個の単語のつながりを学習するためには,大量のテキスト文章データが必要となり,このテキスト文章データを情報処理装置のタスクに併せて作成するのに膨大な時間と労力が必要である。これを解決するために,クラス言語モデル(単語を品詞などのカテゴリーに分類し,カテゴリーのN個つながりでモデルを持つこと)が提案されているが,それでも大量のテキスト文章データから学習した単語N-gramに比べると音声認識の性能が低下する。
また,音声対話システムなどでは,統計的N-gramモデルではなく,発話のパターンやルールを考慮した文法モデルによりモデル化された言語モデルが使われることが多い。文法モデルにおいても,モデル化された発話パターン以外の発話がなされたとき,学習されているパターンのいずれかに無理やり当てはめられるため,誤認識を起こしてしまう。
以上のことから,一般的な言語モデルを用いていては,情報処理装置が想定しない発話が入力されたとき,それを正しく棄却することが難しい。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】音声対話システムにおける信頼度基準と音響基準を統合した不要音棄却、日本音響学会研究発表会講演論文集 、2005(1) pp.57-58 20050308
【非特許文献2】対話コンテキストとトピッククラスタリングを用いたドメイン外発話の検出、電子情報通信学会技術研究報告。 SP, 音声 、104(543) pp.49-54 20041222
【発明の概要】
【発明が解決しようとする課題】
【0005】
解決しようとする問題点は、音声認識システムが持つ言語モデルでは,各種装置が想定しない発話を高精度に判別できないことである。
【課題を解決するための手段】
【0006】
本発明は、予め想定しない発話を吸収するための単語集合(これをガベージクラスと呼ぶことにする)を言語モデルと音声認識辞書に組み込むことで,想定発話を判定することを最も主要な特徴とする。
(1)音声認識のための情報処理装置に入力された発話が情報処理装置の想定しない発話であると自動的に識別するための音声認識手段において言語モデル学習手段と
音声認識辞書作製手段と想定しない不必要な単語作成手段から構成されることを特徴とする言語モデル・音声認識辞書作製方法である。
(2)前記言語モデル学習手段が,統計的な単語N-gramまたはクラスN-gram言語モデル,もしくはパターン・ルールに基づく文法モデルを学習するために,言語モデル学習用文章データを加工し,想定しない発話パターンと想定する発話パターンの双方を同時に学習することを特徴とする。
(3)前記想定しない不必要な単語作成手段が,想定しない単語のリストを作成するために,想定しない不必要な単語作成データから想定しない単語のリストを作成し,かつ,自動的に想定しない単語リストを無から生成することで想定しない単語リストを作成することを特徴とする。
(4)前記音声認識辞書作成手段が,単語の読み方(発音)表記リスト(音声認識辞書)を,言語モデル学習用の文章データと前記想定しない不必要な単語作成手段の出力結果から作成することを特徴とする。
(5)前記言語モデル学習手段および前記音声認識辞書作成手段では、不要語に対し、不必要な単語である表示が付与され、出力結果には不要語が入力されたことを認識することができることを特徴とする。
(6)情報処理装置に対して不要語が入力されたとき,出力結果には単語列に不要語である旨が表示され,情報処理装置にとって想定しない発話であったと判定することを特徴とする。
(7)前記言語モデル学習手段が,情報処理方法が想定しない発話が入力されたときに想定しない発話として音声認識できるような統計的N-gramモデルあるいは文法モデルを学習するために,想定しない単語クラス集合を,言語モデル学習用文章に混合する想定しない不必要な単語クラス混合部を持つことを特徴とする。
(8)前記想定しない不必要な単語作成手段が,想定しない不必要な単語作成データ,もしくは無から自動的に作成した不要語候補リストの中から単語情報および言語モデル学習用文章データに基づいて想定しない不必要な単語リストを作成することを特徴とする。
(9)前記想定しない不必要な単語作成手段が,任意の平仮名N個組み合わせにより,無の状態から不要語候補リストを作成するための想定しない不必要な単語自動生成部を持つことを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
(10)音声認識のための情報処理装置において,前記言語モデル学習手段と
前記音声認識辞書作製手段と前記想定しない不必要な単語作成手段から構成された音声認識結果を出力することを特徴とする。
【0007】
本発明は,図1のような形態で利用されることを想定としている。音声認識手段を組み込んだ各種情報処理装置(例えば,カーナビ,音声対話システム,対話ロボット,音声検索システム等)において,音声認識システムで必ず利用される言語モデル,音声認識辞書(音響モデルは本発明の対象外とする)の学習方法を工夫することで,音声認識誤りの発生を大きく抑制する方法を提案する。これにより,情報処理装置がユーザに対して誤ったアクションを起こすことを防ぐことができる。
なお,ほとんどの音声認識システムを組み込んだ装置では,図1のような形態が取られている。音声認識結果を処理することになるため,音声認識が誤ったときには,ユーザへの誤ったアクションが行われることになる。
【0008】
図2は,本発明の概念図を示す。情報処理装置1において、音声認識手段3は、言語モデル7の学習と音声認識辞書8の作成を行う言語モデル・音声認識辞書作成装置17を介して行われる。言語モデル学習手段7と音声認識辞書8を用いると,音声認識結果6に含まれる各認識単語には,装置が想定しない発話であるというラベルが付けられる。そのラベルが付けられた場合は,処理手段4において,出力手段5に情報を出力しないようにする,もしくは装置を使っているユーザへ想定していない発話であった旨のフィードバックを行うことができる。
図3は,言語モデル学習装置の処理の流れである。まず,言語モデル学習用文章データ14(これは音声認識システムを利用した各種装置に応じて開発者等が用意しておく)を形態素解析部18で形態素解析し,文章を単語に分割する(日本語の場合。英語の場合は,単語の原型を得る)。単語−クラス辞書20(これも開発者等が用意)を利用して,得られた単語をクラス名変換部21でクラスに変換する。ここでいうクラスとは,単語の品詞名やある特定の意味を表すカテゴリーのことであり,各種装置の設計・開発者が任意に定義できる。
例えば,図4は,図3に対して具体的なデータの例を付与した図である。「中華料理」や「寿司」という単語は「<料理ジャンル>」というクラスに属し,「甲府市」は「<地名>」クラスに属する。単語とクラスの対応は,図3,図4中の単語−クラス辞書20に基づいて行われ,クラス名変換部21が,実際に単語列をクラス列に変換する。ここで,音声認識手段を利用した情報処理装置で必要とされるキーワード類を,ここでは有効単語と呼ぶことにする。
クラス列に変換された文章データに,ガベージクラス混合部22においてガベージクラス列24を混合させる。ガベージクラスとは,音声認識システムを持つ各種情報処理装置において,想定しない不必要な単語(これをガベージ単語と呼ぶ,この作成方法は後述)が属するクラスのことである。ユーザが不要な発話をしたときに限って,ガベージクラスとして認識結果を得ることができれば,音声認識結果に不要単語のラベルを付与することが容易にできる。これにより,後の処理で誤ったことを行わずに済む。文章データに,任意のガベージクラス列を追加することで,装置が想定しない発話が入力されたときでも,想定発話が入力されたときでも,両方を正しく認識でするための言語モデルを学習することが可能となる。
なお,スイッチ19を切り替えることで,単語をクラス化しない場合は,単語表記の文章データにたいして同様にガベージクラス列24を混合することで,ガベージクラスを含んだ言語モデル7を学習することが可能である。
ガベージクラス混合部22において,このガベージクラス列24と,言語モデル学習用文章データ14から作成した有効単語のクラス列とを混合する際,混合のやり方は様々な方法があるが,例えば,発明者が開発した音声対話ロボットにおいては,有効単語とガベージ単語をランダムに組み合わせ,有効単語に対するガベージ単語の出現割合を7:3にすると,実験的に最も良い結果が得られることが分かっている。この割合については,各情報処理装置によって異なるため,この割合が最適であるとは言えない。
混合したクラス列から,言語モデル学習部23において言語モデルを学習する。言語モデルの学習方法は,一般的なN-gram法であり,図4に示すように,クラス−クラス間,クラス−単語間の接続確率が学習される。
図5は,ガベージ単語を作成する方法であるガベージ単語作成手段13の処理の流れである。ガベージ単語作成データ15は,新聞データや講義・講演などの書き起こしデータなどの一般的なテキスト文章データの集合である。これを形態素解析部25で形態素解析し,その結果を単語情報取得部26が処理をおこない単語情報を得る。この単語情報と言語モデル学習用文章データ14に基づいて,ガベージ単語とすべき単語の選定を単語選択部27が行い,ガベージ単語リスト28を作成する。単語情報は,例えば単語の出現頻度やエントロピーなどの情報を用いても構わない。本発明では,この単語抽出方法を限定しないこととする。言語モデル学習用データ14を用いるのは,有効単語をガベージ単語リスト28に登録しないようにするためである。
図6は,図5に対して具体的な説明を行うための図である。一般的なテキストコーパス(新聞記事集合や,講演テキストデータの書き起こしで良い)を用いて,例えばコーパスに出現する高頻度単語を選択し,ガベージ単語リストに登録する方法を説明している。ただし,言語モデル学習用文章データ14に出現した単語に関しては,たとえ高頻度単語であっても,ガベージ単語に登録しない。なぜなら,言語モデル学習用文書中の単語は,情報処理装置を正しく動作させるために必要な単語を含んでいるからである。
もし,一般的なテキストコーパスを用意できなくても,ガベージ単語リスト28を作成することができる。図7はその場合のガベージ単語作成方法の枠組みである。ガベージ自動生成部29において,任意のN個の平仮名1文字をランダムに組み合わせた仮想単語を自動生成する。例えば,「あめみ」,「ためふか」などである。必ずしも意味のある単語である必要はない。このNの値を決定する方法は本発明では問わないが,各種実験の結果から例えば任意の3個の音節の組み合わせがガベージ単語としての機能を有効に果たせる。仮想単語の中から有効単語を取り除き,ガベージ単語リストとする。
図8は,認識辞書作成手段11について説明した図である。音声認識辞書8には,音声認識結果として出力されるべき単語のリストを登録する。言語モデル学習用文章データ14を形態素解析部30で形態素解析し,その結果を単語発音取得部31に入力することで,有効単語の読み方(発音)を得ることができる。また,ガベージ単語リスト28の発音情報も単語発音取得部31で取得する。得られた有効単語,ガベージ単語の発音情報を音響モデルと照らし合わせながら発音系列(主に音素もしくは音節列)に変換することで,音声認識辞書8を作成する。ここには,言語モデル7に出現する単語と,言語モデルに出現するクラスに対応する単語,ガベージ単語リストすべての発音表記が登録される。
図9は,図8に対して具体的なデータを付与した例である。言語モデル学習用文章データを形態素解析すると,単語とその発音表記(平仮名もしくはカタカナ系列)を得ることができる。同時に,ガベージ単語リストに登録してある単語の発音表記も取得する。発音辞書生成部では,音響モデルに登録してある音韻モデル表記に照らし合わせながら,発音表記を音韻モデル系列に書き直す。音響モデルでは,例えば,“あ”という音の波形を,“a”という音韻モデルとして学習している。最終的に,認識辞書では,単語とそれに対応する発音の音韻系列が登録されることになる。
【発明の効果】
【0009】
本発明により作成した言語モデルと認識辞書を用いた音声認識システムでは,想定しない発話が入力され,それを音声認識したとき,結果として出力される単語には<ガベージ>というラベルが付与されていることになる。
【0010】
ガベージというラベルが付与されている単語が,図2の情報処理装置1に入力されたとき,音この情報処理装置1に含まれる処理手段4によって音声認識結果6にガベージラベルが付いているか否かをチェックすることで,入力され認識された発話が想定しない発話であると容易に判定することができる。
本発明の有効性を用いるため,音声認識システムを持つ音声対話ロボットを構築した。人間の発話を,対話ロボットを正しく動作させるために必要な発話(これをドメイン内発話と呼ぶ)と,それ以外の対話ロボットが想定しない発話(これをドメイン外発話と呼ぶ)に分類する実験を行った。ドメイン内,外でそれぞれ200発話を用意した。
本発明により作成した言語モデルと音声認識辞書を用いて,(1)ドメイン外発話をどれだけドメイン外として検出できるか,(2)ドメイン内発話をどれだけドメイン内として検出できるかの2つの観点から有効性を検討した。
【0011】
言語モデル学習用文章データは,全部で120文である。これに,ガベージクラスのみから成るガベージクラス学習用ダミー文データを一定の割合で加える。実験では,この割合を変化させている。
ガベージ単語生成データとガベージリストは,「日本語話し言葉コーパス」(一般人に,自分の夢や経験談等について数分程度講演してもらった数百時間の音声とその書きお越しのデータベースである)を利用した。日本語話し言葉コーパスに含まれる高頻度単語(50回以上出現)を約2500単語程度取り出した。この中から対話ロボットで必要な単語を除外し,これをガベージリストとする。
【0012】
実験結果を図10に示す。
ガベージの学習割合が0のときは,ガベージクラスを一切学習しないということなので,従来のシステムの結果,つまりベースラインとなる。このとき,ドメイン外発話はすべて,ドメイン内と検出されてしまい,このとき対話ロボットが人間の意図しない動作を行う。
しかし,ガベージ割合を増やすことで,ドメイン外発話をきちんと棄却することができ,ドメイン外発話検出精度が改善していることがわかる。ドメイン外発話が検知できれば,対話ロボットは誤動作しない。
一方で,ガベージの学習割合を100%にしてしまうと,ガベージクラスのみしか学習されないため,ドメイン内発話が誤ってすべてドメイン外と認定されてしまい,ロボットが動作をしない。
ドメイン内発話検出精度とドメイン外発話検出精度の折り合いがつく点(つまり,2本のグラフが交差する点)を見ると,最適な学習割合は30%であることが分かる。このとき,ドメイン外発話の約90%を正しく棄却できていることになる。本発明により,無関係発話の検出が簡単にできることが実証された。
【図面の簡単な説明】
【0013】
【図1】図1は音声認識システムを持つ一般的な各種装置の処理の概略を説明した図である。
【図2】図2は,図1に対して,本発明で提案する言語モデルと音声認識辞書の作製方法の枠組みを追加し,図2の装置との関連性を説明した図である。
【図3】図3は,図1に対する言語モデル学習装置の処理の流れを説明した図である。
【図4】図4は,図3に対して,具体的なデータの流れ(このデータの例は例えばカーナビゲーション対話例)を付与した図である。
【図5】図5は,ガベージ単語作製データを用いたときのガベージ単語生成の流れを説明した図である。
【図6】図6は,図5に対して,具体的なデータの流れを付与した図である。
【図7】図7は,図5に対してガベージ単語作成データが用意できない場合のガベージ単語作成方法を説明した図である。
【図8】図8は,認識辞書作成装置について説明した図である。
【図9】図9は,図8に対して,具体的なデータの流れを付与した図である。
【図10】図10は,本発明の有効性を確かめるための実験を行った結果の図である。
【図11】図11は,本発明の実施例の一つであるカーナビゲーションシステムにおける情報検索の例を説明している。
【図12】図12は,本発明を用いなかったときカーナビゲーションが誤操作を起こす例である。
【図13】図13は,本発明を利用することにより,カーナビゲーションが想定しない発話を棄却した例である。
【図14】図14は,患者情報検索システムにおける本発明の実施例である。
【発明を実施するための形態】
【0014】
本発明は,音声認識システムを利用した各種装置(例えば,カーナビ,音声対話システム,対話ロボット,音声検索システム等)において,装置内の音声認識システムが使っている言語モデルや認識辞書の学習方法を工夫することで,装置が想定しない発話入力を高精度で棄却することが可能となった。
【実施例1】
【0015】
本発明の具体的な効果について,例を挙げて説明する。図10は,カーナビゲーションシステム(以下,カーナビ)で,ユーザがお店や地名を検索する例である。
一般的なカーナビの場合,図10に示すようにユーザの問いかけに対して,その発話を音声認識し,発話内容を理解し適切な応答を返す。
しかし,図11に示すように,ユーザ同士の対話などで,カーナビと無関係のドメイン外発話が行われたとする。この場合,本発明を利用しなければ,カーナビは音声認識結果を無理やり解釈し,なんらかのアクションをユーザに返す。当然,このアクションはユーザの意図したものではない。
【0016】
本発明を利用した場合,図12に示すように,カーナビは「関係のない発話」ということを認識できる。そのため,誤作動を起こすことはない。
【実施例2】
【0017】
図13は,音声入力による病院患者データベース検索装置の一実施例である。この例では患者データベースとしたが,データベースの種類は何でも構わない。例えば,データベースの種類としては,カーナビ等での飲食店検索,飲食店予約のための顧客情報,対話ロボット制御のための制御コマンドデータベース等が想定される。実際に,本発明を組み入れた病院診療予約のための患者情報データベース検索システムを構築したのでその枠組みを実施例として紹介する。
【0018】
図13の実施例では,音声インタフェース部とグラフィカルユーザインタフェース部,患者データベース検索制御部から構成されている。音声インタフェースは,マイクロフォン,音声認識エンジン,言語モデル・認識辞書選択部,音響モデル(1種類),言語モデル(n種類),認識辞書(n種類)から成る。グラフィカルユーザインタフェース部はタッチパネル式ディスプレイと画面描画部からなる。
【0019】
まず,人間の電話口の音声,あるいは人間同士の会話音声をマイクが自動的にキャッチする。キャッチされた音声は,音声認識エンジンに送られる。音声認識エンジンは,音声切り出しを行う前処理部,切り出した音声の特徴量を抽出する特徴量抽出部,特徴量と各種モデル,辞書を用いて音声認識結果を得るデコーディング部から構成される。デコーディング部では,音響モデルおよび言語モデル・認識辞書選択部により選択された1つの言語モデルと1つの認識辞書を用いて,特徴量と音響モデルの適合性を判断しながら最適な音韻系列を選択し,言語モデルと認識辞書を用いて文法的な正しさ,単語の正しさを判断して,最終的にデータベース検索に用いる単語候補(キーワード)を複数個出力する。
【0020】
ここで用いられる言語モデルは,名前や日時等を認識するための,文法モデルである。
デコーディング部によって得られた候補の単語を用いて,患者データベース検索制御部がデータベース検索を行う。
【0021】
また,データベース検索制御部では,音声インタフェース部内の言語モデル・認識辞書選択部を制御する働きも持つ。言語モデル・認識辞書選択部は,ユーザにより患者データベース中のどのデータ(例えば,名前なのか,病名なのか)を検索したいのかが明確にされたとき,データベースを検索するためのキーワードを高い精度で認識するために,言語モデルおよび認識辞書を切り替える部分である。例えば,人名を検索したい場合は,人名認識用の言語モデルと認識辞書を利用し,予約画面になったときに日時を検索したい場合は,日時認識用の言語モデルと認識辞書に切り替える。これにより,状況に応じた高い音声認識を実現することができる。
【0022】
データベース検索制御部では,上記の働きの他に,音声認識結果候補を使ってデータベースを検索する。検索結果は,グラフィカルユーザインタフェース部に送られる。
【0023】
図13の実施例では,電話や対話音声を音声認識エンジンの入力とするため,データベース検索にとって不要な発話が多く,常に誤認識している状態であった。誤認識をすると,必要のない情報が勝手に検索され,検索結果がディスプレイに表示され,利用者にとって戸惑いを与えていた。
【0024】
しかし,本発明を組み入れた言語モデルと音声認識辞書を用いることで,想定外発話をしても誤動作する割合が大幅に削減できた。
【産業上の利用可能性】
【0025】
音声認識システムを持つ各種装置(例えば、音声対話システム、ロボット、音声入力によるデータベース検索システム、カーナビ、音声翻訳システム等)に応用可能である。
【符号の説明】
【0026】
1 音声認識システムを利用する情報処理装置
2 マイクロフォンなどの音声入力手段
3 音声認識手段(音声認識システム)
4 処理手段(情報処理装置1がその機能を果たすための処理を行う部分)
5 出力手段(ディスプレイ表示,合成音声出力,ロボットアームの動作など)
6 音声認識手段により出力された音声認識結果
7 言語モデル(統計的N-gramモデル,文法モデル)
8 音声認識辞書
9 音響モデル(発明対象外)
10 言語モデル学習手段
11 音声認識辞書作製手段
12 音響モデル学習手段
13 ガベージ単語学習手段
14 言語モデル学習用文章データ
15 ガベージ単語作製データ
16 音響モデル学習データ
17 言語モデル・音声認識辞書作製装置
18 言語モデル学習手段における形態素解析部
19 スイッチ(言語モデル学習用の単語をクラス化する場合としない場合で処理が分岐するため)
20 単語とクラスを対応させるための単語−クラス辞書
21 単語にクラス名を付与し,単語列をクラス列に変換するためのクラス名変換部
22 情報処理装置1が想定しない発話を不要発話として正しく音声認識するための不要文モデル化のためのガベージクラス混合部
23 統計的言語モデルあるいは文法モデルを学習するための言語モデル学習部
24 ガベージクラス列
25 ガベージ単語作成部における形態素解析部
26 形態素解析した結果から単語情報を得るための単語情報取得部
27 単語情報からガベージ単語を得るための単語選択部
28 情報処理装置1が不要とする単語の集合であるガベージ単語リスト
29 無から不要語を自動作成するガベージ自動生成部
30 音声認識辞書作成手段11における形態素解析部
31 単語発音取得部
32 発音辞書生成部
【特許請求の範囲】
【請求項1】
音声認識のための情報処理装置に入力された発話が情報処理装置の想定しない発話であると自動的に識別するための音声認識手段において
言語モデル学習手段と
音声認識辞書作製手段と
想定しない不必要な単語作成手段から構成されることを特徴とする言語モデル・音声認識辞書作製方法。
【請求項2】
前記言語モデル学習手段が,統計的な単語N-gramまたはクラスN-gram言語モデル,もしくはパターン・ルールに基づく文法モデルを学習するために,言語モデル学習用文章データを加工し,想定しない発話パターンと想定する発話パターンの双方を同時に学習することを特徴とする請求項1に記載の言語モデル・音声認識辞書作製方法。
【請求項3】
前記想定しない不必要な単語作成手段が,想定しない単語のリストを作成するために,想定しない不必要な単語作成データから想定しない単語のリストを作成し,かつ,自動的に想定しない単語リストを無から生成することで想定しない単語リストを作成することを特徴とする請求項1および2に記載の言語モデル・音声認識辞書作製方法。
【請求項4】
前記音声認識辞書作成手段が,単語の読み方(発音)表記リスト(音声認識辞書)を,言語モデル学習用の文章データと前記想定しない不必要な単語作成手段の出力結果から作成することを特徴とする請求項1から3に記載の言語モデル・音声認識辞書作製方法。
【請求項5】
前記言語モデル学習手段および前記音声認識辞書作成手段では、不要語に対し、不必要な単語である表示が付与され、出力結果には不要語が入力されたことを認識することができることを特徴とする請求項1に記載の言語モデル・音声認識辞書作成方法。
【請求項6】
情報処理装置に対して不要語が入力されたとき,出力結果には単語列に不要語である旨が表示され,情報処理装置にとって想定しない発話であったと判定することを特徴とする請求項1に記載の言語モデル・音声認識辞書作成方法。
【請求項7】
前記言語モデル学習手段が,情報処理方法が想定しない発話が入力されたときに想定しない発話として音声認識できるような統計的N-gramモデルあるいは文法モデルを学習するために,想定しない単語クラス集合を,言語モデル学習用文章に混合する想定しない不必要な単語クラス混合部を持つことを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
【請求項8】
前記想定しない不必要な単語作成手段が,想定しない不必要な単語作成データ,もしくは無から自動的に作成した不要語候補リストの中から単語情報および言語モデル学習用文章データに基づいて想定しない不必要な単語リストを作成することを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
【請求項9】
前記想定しない不必要な単語作成手段が,任意の平仮名N個組み合わせにより,無の状態から不要語候補リストを作成するための想定しない不必要な単語自動生成部を持つことを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
【請求項10】
音声認識のための情報処理装置において,
前記言語モデル学習手段と
前記音声認識辞書作製手段と
前記想定しない不必要な単語作成手段から構成された音声認識結果を出力することを特徴とする請求項1から9に記載の言語モデル・音声認識辞書作製装置。
【請求項1】
音声認識のための情報処理装置に入力された発話が情報処理装置の想定しない発話であると自動的に識別するための音声認識手段において
言語モデル学習手段と
音声認識辞書作製手段と
想定しない不必要な単語作成手段から構成されることを特徴とする言語モデル・音声認識辞書作製方法。
【請求項2】
前記言語モデル学習手段が,統計的な単語N-gramまたはクラスN-gram言語モデル,もしくはパターン・ルールに基づく文法モデルを学習するために,言語モデル学習用文章データを加工し,想定しない発話パターンと想定する発話パターンの双方を同時に学習することを特徴とする請求項1に記載の言語モデル・音声認識辞書作製方法。
【請求項3】
前記想定しない不必要な単語作成手段が,想定しない単語のリストを作成するために,想定しない不必要な単語作成データから想定しない単語のリストを作成し,かつ,自動的に想定しない単語リストを無から生成することで想定しない単語リストを作成することを特徴とする請求項1および2に記載の言語モデル・音声認識辞書作製方法。
【請求項4】
前記音声認識辞書作成手段が,単語の読み方(発音)表記リスト(音声認識辞書)を,言語モデル学習用の文章データと前記想定しない不必要な単語作成手段の出力結果から作成することを特徴とする請求項1から3に記載の言語モデル・音声認識辞書作製方法。
【請求項5】
前記言語モデル学習手段および前記音声認識辞書作成手段では、不要語に対し、不必要な単語である表示が付与され、出力結果には不要語が入力されたことを認識することができることを特徴とする請求項1に記載の言語モデル・音声認識辞書作成方法。
【請求項6】
情報処理装置に対して不要語が入力されたとき,出力結果には単語列に不要語である旨が表示され,情報処理装置にとって想定しない発話であったと判定することを特徴とする請求項1に記載の言語モデル・音声認識辞書作成方法。
【請求項7】
前記言語モデル学習手段が,情報処理方法が想定しない発話が入力されたときに想定しない発話として音声認識できるような統計的N-gramモデルあるいは文法モデルを学習するために,想定しない単語クラス集合を,言語モデル学習用文章に混合する想定しない不必要な単語クラス混合部を持つことを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
【請求項8】
前記想定しない不必要な単語作成手段が,想定しない不必要な単語作成データ,もしくは無から自動的に作成した不要語候補リストの中から単語情報および言語モデル学習用文章データに基づいて想定しない不必要な単語リストを作成することを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
【請求項9】
前記想定しない不必要な単語作成手段が,任意の平仮名N個組み合わせにより,無の状態から不要語候補リストを作成するための想定しない不必要な単語自動生成部を持つことを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
【請求項10】
音声認識のための情報処理装置において,
前記言語モデル学習手段と
前記音声認識辞書作製手段と
前記想定しない不必要な単語作成手段から構成された音声認識結果を出力することを特徴とする請求項1から9に記載の言語モデル・音声認識辞書作製装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2011−154099(P2011−154099A)
【公開日】平成23年8月11日(2011.8.11)
【国際特許分類】
【出願番号】特願2010−14372(P2010−14372)
【出願日】平成22年1月26日(2010.1.26)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 掲載日 :平成21年7月28日 アドレス:http://www.kki.yamanashi.ac.jp〜ohbuchi/courses/2009/senior09.htm http://www.kki.yamanashi.ac.jp/〜ohbuchi/courses/2009/senior09/t06kf025.pdf 掲載場所:山梨大学工学部コンピュータメディア工学科ホームページ 「ホームページ工学研修FコースA班2009年度前期」 発行日 :平成21年9月8日 研究集会名:日本音響学会 刊行物名:2009年秋季研究発表会講演論文集
【出願人】(304023994)国立大学法人山梨大学 (223)
【Fターム(参考)】
【公開日】平成23年8月11日(2011.8.11)
【国際特許分類】
【出願日】平成22年1月26日(2010.1.26)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 掲載日 :平成21年7月28日 アドレス:http://www.kki.yamanashi.ac.jp〜ohbuchi/courses/2009/senior09.htm http://www.kki.yamanashi.ac.jp/〜ohbuchi/courses/2009/senior09/t06kf025.pdf 掲載場所:山梨大学工学部コンピュータメディア工学科ホームページ 「ホームページ工学研修FコースA班2009年度前期」 発行日 :平成21年9月8日 研究集会名:日本音響学会 刊行物名:2009年秋季研究発表会講演論文集
【出願人】(304023994)国立大学法人山梨大学 (223)
【Fターム(参考)】
[ Back to top ]