説明

音声認識装置及び音声認識プログラム

【課題】連続的に更新させた最新モデルを用いて高精度な音声認識を実現する。
【解決手段】入力音声を認識して文字に変換する音声認識装置において、言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも1つを随時学習するモデル学習手段と、前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段と、前記入力音声の音響特徴量を抽出する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダと、前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段とを有することにより、上記課題を解決する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置及び音声認識プログラムに係り、特に連続的に更新させた最新モデルを用いて高精度な音声認識を実現するための音声認識装置及び音声認識プログラムに関する。
【背景技術】
【0002】
従来、ニュース番組等でアナウンサーが読み上げる原稿は、記者が入稿した電子原稿をディレクターが印刷し、放送時間の長さや話の流れに応じて、放送直前又は放送中に手書きで加筆修正したものを用いている。
【0003】
また、ニュース番組の字幕制作のために用いられる音声認識では、新たな固有名詞や話題に対応するため、この読み上げ原稿の元となる電子原稿を言語モデルの適応学習データに利用して、認識誤りを削減することが重要であることが知られている(例えば、特許文献1参照。)。
【0004】
また、音声認識を利用した従来の字幕制作システムでは、例えば言語モデルの学習に8分程度を要したことから、放送開始の10分前までに出稿された電子原稿を適応学習データとしていた(例えば、非特許文献1参照。)。
【0005】
また、従来では、ユーザに大きな負担をかけることなく音響モデルと言語モデルを更新して音声認識の認識精度を向上させるため、音声認識における音響モデル管理サーバが、更新された音響データを取得して構築した音響モデルを、ネットワークを介して音声認識装置に送信し、音声認識装置が、音声認識の際に参照する音響モデルを、音響モデル管理サーバが送信した音響モデルにより更新する手法が知られている(例えば、特許文献2参照。)。このように、特許文献2においても音声認識における最新モデルの重要性が言及されている。
【0006】
更に、辞書への新出単語の追加のみであれば、起動している音声認識デコーダを停止させることなく、単語の発音辞書ネットワークに新出単語を追加し、未知語に割り当てられたN−gram確率を流用することもできる(例えば、特許文献3、非特許文献2等参照。)。
【特許文献1】特許第3836607号公報
【非特許文献1】安藤彰男他,“音声認識を利用した放送用ニュース字幕制作システム,”信学論,Vol.J84−D−II,No.6,pp.877−887,2001.6.
【特許文献2】特開2002−91477号公報
【特許文献3】特開2002−207495号公報
【非特許文献2】西村竜一他,“音声入力Webシステムw3voiceにおける音声認識手法の検討,”音講論集,1−10−17,pp.51−52,2008.3.
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、上述した従来技術においては、例えばニュース等における記者の出稿が、音声認識を終了する時間より遅れた場合には、その電子原稿は言語モデルに反映されず、認識誤りを生じさせる原因の1つとなっていた。また、従来の音声認識システムは、一般に1つの音声認識デコーダしか備えていないため、言語モデルが最新のものに更新されたとしても、音声認識デコーダを一度停止し、これを再び手動で起動させて最新言語モデルを読み込む必要があった。
【0008】
したがって、例えば字幕制作等における音声認識では、字幕放送が始まり、起動中の音声認識を停止してしまうと、字幕放送が中断されることになり、運用上好ましくない。また、言語モデル更新後の音声認識デコーダの再起動にも、手間を要するものであった。
【0009】
更に、ニュース番組の字幕制作では語彙(サイズ6万単語)のエントリーも随時入れ替えており、1つの音声認識デコーダを動かしながら言語モデルと発音辞書をダイナミックに更新することは困難であった。
【0010】
つまり、上述したように、従来では音声認識における最新モデルの重要性が言及されているが、ここでも音声認識の停止と再起動を前提としており、音声認識を途切れさせることなく運用を継続させられるものではなかった。
【0011】
本発明は、上述した問題点に鑑みなされたものであり、連続的に更新させた最新モデルを用いて高精度な音声認識を実現するための音声認識装置及び音声認識プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
【0013】
請求項1に記載された発明は、入力音声を認識して文字に変換する音声認識装置において、言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも1つを随時学習するモデル学習手段と、前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段と、前記入力音声の音響特徴量を抽出する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダと、前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段とを有することを特徴とする。
【0014】
請求項1記載の発明によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現することができる。
【0015】
請求項2に記載された発明は、前記デコーダ制御手段は、古いモデルで起動中の音声認識デコーダに加えて、最新モデルの音声認識デコーダを同時に起動し、音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを前記音響分析手段から得られる所定のタイミングで最新モデルの音声認識デコーダに切り替えることを特徴とする。
【0016】
請求項2記載の発明によれば、常に最新モデルを用いて高精度な音声認識を連続して実現することができる。
【0017】
請求項3に記載された発明は、前記デコーダ制御手段は、前記複数の音声認識デコーダの全てに順次途切れなく最新モデルを読み込ませて再起動させることを特徴とする。
【0018】
請求項3記載の発明によれば、音声認識を途切れさせることなく、迅速に最新モデルに更新して、その最新モデルを用いた音声認識を行うことができる。
【0019】
請求項4に記載された発明は、前記デコーダ制御手段は、前記再起動させた後、それぞれの音声認識デコーダに前記入力音声の認識を所定のタイミングで順次受け持たせることを特徴とする。
【0020】
請求項4記載の発明によれば、最新モデルを利用しつつ、処理時間の要する複雑な音声認識のトータル的な処理時間を削減することができる。
【0021】
請求項5に記載された発明は、音声認識結果を修正し、修正した履歴情報を前記モデル学習手段に出力して学習データとして利用させるための文字修正手段を有することを特徴とする。
【0022】
請求項5記載の発明によれば、同じ音声認識誤りの起きる可能性を軽減させることができる。
【0023】
請求項6に記載された発明は、入力音声を認識して文字に変換する音声認識処理をコンピュータに実行させるための音声認識プログラムにおいて、コンピュータを、言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも1つを随時学習するモデル学習手段、前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段、前記入力音声の音響特徴量を抽出する音響分析手段、前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダ、及び、前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段として機能させる。
【0024】
請求項6記載の発明によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現することができる。また、プログラムをインストールすることにより、容易にデータ分類処理を実現することができる。
【発明の効果】
【0025】
本発明によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現することができる。
【発明を実施するための最良の形態】
【0026】
<本発明の概要>
本発明は、既に古いモデルを読み込んで起動している音声認識デコーダに加えて、音声認識処理を途切れさせることなく更新された最新モデルを読み込むための別の音声認識デコーダを同時に起動し、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現するものである。
【0027】
以下に、本発明における音声認識装置及び音声認識プログラムを好適に実施した形態について、図面を用いて説明する。
【0028】
<音声認識装置:機能構成例>
図1は、本実施形態における音声認識装置の機能構成の一例を示す図である。図1に示す音声認識装置10は、音響分析手段11と、デコーダ制御手段12と、音声認識デコーダ13−1,13−2と、文字修正手段14と、モデル学習手段15と、モデル更新通知手段16と、蓄積手段17と、学習データ18とを有するよう構成されている。
【0029】
音響分析手段11は、入力される音声から音響特徴量を抽出する。なお、音響特徴量としては、例えば周波数特性や音のパワー、性別属性等の各種音響特徴量を抽出する。また、これらの特徴量は一般的な音声認識手法で用いることができ、これにより例えば声の特徴を表す12次元程度のメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstral Coefficients)(例えば、鹿野他、「音声認識システム」オーム社、2001等を参照。)や、線形予測係数等のような声道の形状を数値化した特徴量、韻律(ピッチ、抑揚等)等の特徴量、またそれらの特徴量の平均値や分散等の統計的情報を分析することにより、種々の特徴量を取得することができる。また、音響分析手段11は、分析により得られる各種音響特徴量をデコーダ制御手段12に出力する。
【0030】
デコーダ制御手段12は、複数の音声認識デコーダ13(図1に示す例では、音声認識デコーダ13−1,13−2)等の起動や、どの音声認識デコーダ13を選択してデコード(音声→文字解読)を行うのか等、音響認識結果を取得するための制御を行う。
【0031】
具体的には、デコーダ制御手段12は、後述するモデル更新通知手段16から通知される、モデルが更新されたことを示す更新情報にしたがって、複数の音声認識デコーダ13のうち、音声認識実行中ではない任意の音声認識デコーダを選択し、選択した音声認識デコーダに最新モデルを読み込ませて再起動させる。また、デコーダ制御手段12は、音声認識を担当する音声認識デコーダ13に音響特徴量を送信すると共に、得られる文字情報等の音声認識結果を文字修正手段14に出力する。
【0032】
音声認識デコーダ13は、予めその時点で蓄積手段17に蓄積或いは後述するモデル学習手段15により更新されている最新の言語モデル、発音辞書、音響モデル、及び音声認識パラメータの全てを読み込んで起動しており、音声認識可能な状態になっている。
【0033】
音声認識デコーダ13は、音響特徴量をデコーダ制御手段12から取得すると、逐次音声認識を実行し、デコーダ制御手段12に文字情報等の音声認識結果を出力する。なお、図1の例では、音声認識デコーダが2つ設けられているが、本発明においてはこれに限定されるものではなく、3つ以上が設けられていてもよい。なお、逐次音声認識は、例えば特許第3834169号公報で示されているような早期確定型の手段等の従来手法を用いることができる。
【0034】
文字修正手段14は、デコーダ制御手段12により得られる音声認識結果に対してユーザ等によるチェックや自動文章校正処理等により、例えば人名等の誤記等に対して正確な文字が入力され、その文字に対応する文章の所定の部位を変換する。なお、文字修正手段14は、文字の追加や削除等も指示情報の入力により実行することができる。
【0035】
モデル学習手段15は、学習データ18が最新のテキストや音声等により新たに更新されると、例えば所定時間毎やデータ更新時、番組変更等の切り替わり等のタイミングで、音声認識デコーダ13の処理とはまったく非同期で、自動又は手動で言語モデル、発音辞書、音響モデル、及び音声認識等に用いられるパラメータファイル(音声認識パラメータ)のうち、少なくとも1つを最新のものに学習してデータの更新を行う。
【0036】
なお、音声認識パラメータとしては、例えば音声認識の過程で保持すべき最大単語数や、言語モデルと音響モデルによる各スコアのバランスを調整する重み係数等、音声認識の正確さと処理速度を調整する変数のリスト等からなる。
【0037】
これにより、蓄積手段17に蓄積されるモデルは、最新の言語モデル、発音辞書、音響モデル、パラメータファイルに更新される。また、モデル学習手段15は、モデルを学習したことを知らせる旨の信号をモデル更新通知手段16に出力する。
【0038】
モデル更新通知手段16は、モデル学習手段15により入力されたデータ更新に関する更新信号をデコーダ制御手段12に出力する。ここで、更新信号とは、言語モデル、発音辞書、音響モデル、及びパラメータファイルのうち、どのデータが更新されたのかを示すデータ識別情報、更新日付、更新バージョン等である。
【0039】
これにより、例えば、図1に示す実施形態において、例えばデコーダ制御手段12は、まず音声認識デコーダ13−1に最新モデルの学習データ18を読み込ませて起動する。また、次の最新モデルの学習データ18が生成されると、デコーダ制御手段12は、モデル更新通知手段16からの更新情報の通知を受け、音声認識デコーダ13−2に最新モデルの学習データ18を読み込ませて起動させ認識可能な状態になったことを確認後、例えば音響分析手段11から得られる音響特徴量等に基づく所定のタイミングで音声認識の処理対象を音声認識デコーダ13−1から音声認識デコーダ13−2に切り替える。
【0040】
また、デコーダ制御手段12は、音声認識デコーダ13−1,13−2が共に最新モデルを用いている場合には、両方を用いて1文章毎に交互に音声認識処理をさせることもできる。
【0041】
蓄積手段17は、本実施形態における音声認識処理を実現するために必要なデータを蓄積し、音声認識処理の必要に応じた読み込みや、モデル学習手段15の必要に応じた書き出しを行う。具体的には、蓄積されるデータは、音声認識デコーダ13における音声認識処理に必要な予め蓄積或いは自動又は手動で更新されるモデルであり、例えば言語モデル、発音辞書、音響モデル、音声認識パラメータの全てである。
【0042】
ここで、言語モデルには、例えば単語と単語の繋がり易さを確率で表した一般的なNグラム・モデルを利用することができ、これにより、例えば単語「地球」の次に単語「温暖化」が接続する確率は0.8等と数値化して表現することができる。
【0043】
また、発音辞書は、各単語の発音を母音と子音の組み合わせで表したファイルであり、例えば単語「地球」の発音は「/ch i ky u:/」等と記述されている。
【0044】
音響モデルは、各母音・子音の声の周波数特性等を表したものであり、一般的な隠れマルコフ・モデル(HMM)で表すことができる。
【0045】
音声認識パラメータは、音声認識の過程で保持すべき最大単語数や、言語モデルと音響モデルによる各スコアのバランスを調整する重み係数等、音声認識の正確さと処理速度を調整する変数のリストである。また、モデルを最新のものに学習する部分は、音声認識システムの中に含まれていても、外部で独立して起動し、更新されたモデルを何らかの通信手段で音声認識システムに伝送しても構わない。
【0046】
また、学習データ18は、テキストや音声等の所定の分野に関する各種データが蓄積されている。また、学習データ18は、各種データに更新があり、その内容が現在音声認識されているものに該当する場合や、各種モデル等を更新する場合には、その更新した旨とデータ自体をモデル学習手段15に出力する。
【0047】
<デコーダ制御手段12における音声認識デコーダ13の更新及び制御方法について>
ここで、上述したデコーダ制御手段12における音声認識デコーダ13の更新及び制御方法について説明する。
【0048】
<デコーダ更新:実施例1>
デコーダ制御手段12は、音声認識デコーダ13を同時に起動し、途切れなく最新モデルの音声認識デコーダに切り替わるようになっている。また、デコーダ制御手段12は、例えば入稿された最新の電子原稿によって言語モデルと発音辞書が自動(又は手動)で更新された旨を示す更新情報の通知をモデル更新通知手段16から受け、音声認識デコーダ13−1が音声認識を実行中である場合には、これとは別に新たに音声認識デコーダ13−2を最新モデルで起動する。
【0049】
そして、デコーダ制御手段12は、音声認識デコーダ13−2が認識可能な状態になったことを確認後、例えば、音響分析手段11により取得した入力音声における非音声区間等の所定のタイミングで音声認識の対象を音声認識デコーダ13−1から音声認識デコーダ13−2に切り替える。
【0050】
また、デコーダ制御手段12は、以後同様にモデルの更新とデコーダの起動、選択、切り替えを繰り返し行うことで、最新モデルを用いた音声認識を継続して行うことができる。
【0051】
<デコーダ更新:実施例2>
デコーダ制御手段12は、予め複数の音声認識デコーダ13の全てを、その時点での最新モデルで起動させ、入力音声から得られる音響特徴量に基づく所定のタイミング(例えば、1文章毎、ニュースの1テーマ毎、1番組毎、所定時間毎等)で複数の音声認識デコーダを任意に切り替えて音声認識処理を行う。
【0052】
次に、音声認識モデルが最新モデルに更新される場合には、起動している複数の音声認識パラメータのうち、ある1つの音声認識デコーダを停止させ、モデルが最新の状態に更新された後に起動させる。また、最新モデルに更新されていない音声認識デコーダについても同様に順次更新をした後に再起動を行う。
【0053】
なお、更新中の音声認識デコーダは、その時点では音声認識処理を行わず、再起動後、最新モデルで音声認識を行う。これにより、複数の音声認識デコーダを並列して起動させることで、音声認識に時間のかかる音声が入力された場合でも、デコーダの負荷を軽減することができ、トータル的な音声認識処理速度を向上させることができる。
【0054】
上述した実施形態によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現するための音声認識装置を提供することができる。音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現することができる。
【0055】
これにより、例えばテレビの生放送番組にリアルタイムで字幕を付与する目的で音声認識を利用する場合、放送中に既に音声認識を運用している状態であっても、音声認識を一瞬たりとも停止させることなく、常に最新モデルを読み込ませて高精度な音声認識が連続して実現可能となる。
【0056】
<ハードウェア構成>
ここで、上述したように音声認識装置10は、専用の装置構成により本発明における音声認識処理を行うこともできるが、後述する各構成における音声認識処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にプログラムをインストールすることにより、本発明における音声認識処理を実現することができる。
【0057】
ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図2は、本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。
【0058】
図2におけるコンピュータ本体には、入力装置21と、出力装置22と、ドライブ装置23と、補助記憶装置24と、メモリ装置25と、各種制御を行うCPU(Central Processing Unit)26と、ネットワーク接続装置27とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
【0059】
入力装置21は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置22は、本発明における音声認識処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU26が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。
【0060】
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、USB(Universal Serial Bus)メモリやCD−ROM等の可搬型の記録媒体28等により提供される。プログラムを記録した記録媒体28は、ドライブ装置23にセット可能であり、記録媒体28に含まれる実行プログラムが、記録媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。
【0061】
補助記憶装置24は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
【0062】
メモリ装置25は、CPU26により補助記憶装置24から読み出された実行プログラム等を格納する。なお、メモリ装置25は、ROM(Read Only Memory)やRAM(Random Access Memory)等からなる。
【0063】
CPU26は、OS(Operating System)等の制御プログラム、メモリ装置25により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、上述した音声認識における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置24から取得することができ、また格納することもできる。
【0064】
ネットワーク接続装置27は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
【0065】
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な音声認識処理を実現することができる。また、実行プログラム(音声認識プログラム等)をインストールすることにより、容易に音声認識処理を実現することができる。
【0066】
<音声認識処理手順>
次に、本実施形態における音声認識処理手順の一例についてフローチャートを用いて説明する。なお、以下の説明においては、モデル自動更新に対応した音声認識装置全体の処理において、音声認識デコーダを最大D個まで起動できるものとして、学習データの更新に応じたモデルの学習、更新処理、音声認識デコーダの追加起動と認識を行う音声認識デコーダの選択及び切り替え処理がそれぞれ非同期並列動作的に行われているため、それらの処理をそれぞれ分けて説明する。
【0067】
<モデルの学習・更新処理>
まず、本実施形態におけるモデルの学習・更新処理手順についてフローチャートを用いて説明する。図3は、本実施形態におけるモデルの学習・更新処理手順の一例を示すフローチャートである。
【0068】
図3において、まず、モデル学習手段は、テキストや音声等の学習データが更新されたことを示す更新イベントを外部等から受信すると(S01)、蓄積手段に蓄積されたモデル(言語モデル・発音辞書・音響モデル・各種パラメータファイル)に対して、最新モデルを学習し、モデルの更新を行う(S02)。
【0069】
次に、モデル更新通知手段は、デコーダ制御手段にモデルが更新されたことを示すモデル更新イベント(モデル更新情報)を通知する(S03)。また、デコーダ制御手段は、S03により得られる更新情報により、複数の音声認識デコーダのうち、更新可能な音声認識デコーダを選択し、選択した音声認識デコーダに最新モデルを読み込ませて起動させる(S04)。なお、このとき更新される音声認識デコーダは、まだ予備装置として起動されていない音声認識デコーダか、又は複数の並列して起動しているデコーダのうち、所定の順序で順次選択される音声認識デコーダに対して、停止、更新、再起動の処理を行う。
【0070】
なお、後述の処理を具体的に説明するために、更新された最新モデルd’を「d’=(d+1)%D」とする。なお、この式は、音声認識デコーダを識別する番号dに1を加えてD(起動できる最大音声認識デコーダ数)で割った余りd’として表現したものである。
【0071】
<音声認識デコーダの追加起動と認識対象切り替え処理>
次に、音声認識デコーダの追加起動と認識対象切り替え処理について、フローチャートを用いて説明する。
【0072】
図4は、音声認識デコーダの追加起動と認識対象切替処理の一例を示すフローチャートである。図4に示す処理では、まず音声認識装置全体の動作を開始すると、まず初期値設定を行う(S11)。具体的には、音声認識デコーダの番号dに0をセットし、その時点での最新モデル(言語モデル・発音辞書・音響モデル・パラメータファイル等)を読み込み、音声認識デコーダdが起動する(S12)。
【0073】
ここで、認識させたい音声が入力され始めると(S13)、音響分析による音響特徴量の抽出を開始し(S14)、その中から例えば人間の声の発話始端を検出する(S15)。
【0074】
ここで、もし音声認識と非同期で並列動作しているモデルの学習・更新処理が行われている場合には、上述した図3に示すように、音声認識デコーダの番号dに1を加えてDで割った余りをd’=(d+1)%Dとして、モデル(言語モデル、発音辞書、音響モデル、パラメータファイル)の学習及び更新が行われ、デコーダ制御手段12にモデル更新イベントが通知されると共に、音声認識デコーダd’がその最新モデルで起動されるものとする。
【0075】
この状態において、デコード制御手段12は、音声認識デコーダd’が起動済みであるか否かを判断し(S16)、音声認識デコーダd’が起動済みである場合(S16において、YES)、音声認識デコーダdを停止し、音声認識デコーダdを音声認識デコーダd’で更新し、音声認識処理を担当するデコーダ番号dをd’に切り替える(S17)。また、S16の処理において、音声認識デコーダd’が起動済みでない場合(S16において、NO)には、音声認識デコーダの番号dは不変となる。
【0076】
そして、デコーダ制御手段12は、入力音声の音響特徴量を音響分析手段から受け取り、これを音声認識デコーダdに送信する(S18)。音声認識デコーダdは、正解単語の探索を行い(S19)、認識結果の文字列を音声認識デコーダdからデコーダ制御部に送信する(S20)。そして、デコーダ制御手段12は、認識結果の文字列を外部に出力し(S21)、これが生放送番組の字幕制作等のアプリケーション等で用いられる。
【0077】
ここで、入力信号が発話終端か否かを判断し(S22)、入力音声が発話の終端に達していない場合(S22において、NO)、S18の処理におけるデコーダ制御手段12における音響特徴量の受信と音声認識デコーダdへの送信に戻り、音声認識デコーダを変更することなく、発話終端まで音声認識を繰り返し行う。
【0078】
また、S22の処理において、もし入力音声が発話の終端に達している場合(S22において、YES)、次に音声認識全体の処理を終了するか否かを判断し(S23)、音声認識を終了しない場合(S23において、NO)、音声認識を継続するため、S15の処理における発話始端の検出に戻り、音声認識処理を終了するまで後続の処理を繰り返し行う。また、音声認識を終了する場合(S23において、YES)、音声認識全体の処理を終了する。
【0079】
上述した処理手順により、連続的に更新させた最新モデルを用いて高精度な音声認識を実現するための音声認識プログラムを提供することができる。具体的には、音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現するものである。例えば、テレビの生放送番組にリアルタイムで字幕を付与する目的で音声認識を利用する場合、放送中に既に音声認識を運用している状態であっても、音声認識を一瞬たりとも停止させることなく、常に最新モデルを読み込み、高精度な音声認識が連続して可能となる。
【0080】
<発話の始端検出及び終端検出について>
なお、上述した処理において、音響分析時に行われる発話の始端検出及び終端検出の処理手順は、例えばエンドレス音素認識による時間遅れの少ないオンライン発話区間検出(例えば、特開2007−233148号公報等)を用いることができる。この概要を以下に説明する。
【0081】
<音素認識による発話区間検出>
リアルタイム音声認識のための発話区間検出では、フレーム単位の細かな音声/非音声の判定よりも、多少の非音声区間を音声区間と誤ることはあっても、音声区間の欠落をできる限り抑え、音声を適度な長さの区間に切り出して、認識率の向上に寄与することが重要である。また、字幕表示のため、音声入力から音声始終端検出までの遅れ時間は、できる限り小さいことも求められる。
【0082】
例えば、字幕制作システムにおける音声認識では、音のパワーだけでなく周波数特性も考慮して、男女並列の性別依存音響モデルによる音素認識をエンドレスに実行し、その時の尤度から発話区間検出を行うようにしている。音素認識は、タスクによらず適用できるため、タスク依存の言語モデルを利用する手法よりも簡易であり、音響モデルを男女並列に動作させても、計算量はほとんど問題にならない。
【0083】
そこで、本実施形態では男女間遷移が可能で枝刈り共通の男女並列音素認識を常時実行し、累積音素尤度の比を利用して発話の始端と終端を早期に検出する。これにより、ニュース番組に対する音声区間検出実験では、従来の短時間パワーによるFRR(False Rejection Rate:誤って非音声と判定された音声区間の割合)が4.6%であったのに対して、上述の手法は0.53%と非常に小さく、発話の始終端検出までの遅れ時間も十分短いことが確認されている。
【0084】
なお、上述した発話の始端検出及び終端検出の処理手順は、公知のあらゆる発話区間検出方式で動作させることが可能であり、また音声認識デコーダdにおける正解単語探索の処理手順も公知のあらゆる音声認識方式で動作させることが可能である。
【0085】
<音声認識処理の具体的な実施例>
次に、上述した音声認識処理の具体的な実施例について図を用いて説明する。図5は、本実施形態における音声認識手法を適用した具体的な実施例を示す図である。図5では、音声認識装置10を用いた字幕制作システム30の一例を示している。具体的には、字幕制作システム30は、ダイレクト方式(例えば、アナウンサーによる原稿読み上げ、記者現場リポート等)の番組音声やリスピーク方式(例えば、インタビュー等)の復唱音声等の入力を切り替え、A/D変換等により得られた入力音声を上述した音声認識装置10に入力する。
【0086】
音声認識装置10では、学習データであるニュース電子原稿から随時学習される言語モデルや発音辞書等や、不特定話者音響モデル等の各種モデルデータを用いて、音声認識デコーダA,Bにより、男性HMMや女性HMMを用いて音声認識を行い、字幕の確認、修正を行って字幕画面に文字列を表示する。
【0087】
このように、本発明における音声認識手法を適用することで、字幕制作システム30において音声認識を一切途切れさせることなく、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現することができる。すなわち、音声認識処理を行うユーザ(番組制作者等)は、モデルが最新なものであるかどうかを気にする必要なく、常に自動的に最新モデルで音声認識が起動していることが保証される。
【0088】
<本実施形態における従来手法との比較結果>
ここで、モデル自動更新に対応した音声認識装置の効果を調べるため、放送番組中の各ニュース項目に対応する電子原稿を適応学習しなかった場合(放送1時間前のモデル)に対して、学習した場合(放送直前に学習したモデル)の効果を、音声認識による字幕制作実験(認識誤りのリアルタイム手動修正)により調べた結果について説明する。
【0089】
図6は、更新の効果の一例を示す図である。なお、図6では、一例として言語モデルと発音辞書の更新の効果を示している。例えば、2つのニュース番組での実験の結果、図6に示すように、関連原稿で言語モデル(語彙サイズ6万単語)を適応学習すると、言語モデルの複雑さの指標であるテストセット・パープレキシティと未知語率(発音辞書に登録されていない単語の割合)は大幅に減少、そしてトライグラム・ヒット率(言語モデルのカバー率)は上昇し、音声認識誤りも約1/3に削減された。放送1時間前のモデルでも字幕の誤りはほとんど残らないが、人名等の固有名詞が未知語となり、人手による修正に手間を要した。したがって、字幕に誤りの残る可能性が低く、字幕の表示遅れも小さい本発明のデコーダ制御方式は、運用上好ましいと言える。
【0090】
以上に説明したように本発明によれば、連続的に更新させた最新モデルを用いて高精度な音声認識を実現することができる。また、本発明によれば、音声認識を一切途切れさせることなく、音声認識処理を担当する音声認識デコーダを最新モデルのものに自動的に切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現するものである。
【0091】
具体的には、本発明は、音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを最新モデルのものに切り替えることにより、常に最新モデルを用いて高精度な音声認識を連続して実現するものである。例えば、テレビの生放送番組にリアルタイムで字幕を付与する目的で音声認識を利用する場合、放送中に既に音声認識を運用している状態であっても、音声認識を一瞬たりとも停止させることなく、常に最新モデルを読み込み、高精度な音声認識を連続して実現することができる。
【0092】
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【図面の簡単な説明】
【0093】
【図1】本実施形態における音声認識装置の機能構成の一例を示す図である。
【図2】本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。
【図3】本実施形態におけるモデルの学習・更新処理手順の一例を示すフローチャートである。
【図4】音声認識デコーダの追加起動と認識対象切替処理の一例を示すフローチャートである。
【図5】本実施形態における音声認識手法を適用した具体的な実施例を示す図である。
【図6】更新の効果の一例を示す図である。
【符号の説明】
【0094】
10 音声認識装置
11 音響分析手段
12 デコーダ制御手段
13 音声認識デコーダ
14 文字修正手段
15 モデル学習手段
16 モデル更新通知手段
17 蓄積手段
18 学習データ
21 入力装置
22 出力装置
23 ドライブ装置
24 補助記憶装置
25 メモリ装置
26 CPU
27 ネットワーク接続装置
28 記録媒体
30 字幕制作システム

【特許請求の範囲】
【請求項1】
入力音声を認識して文字に変換する音声認識装置において、
言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも1つを随時学習するモデル学習手段と、
前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段と、
前記入力音声の音響特徴量を抽出する音響分析手段と、
前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダと、
前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段とを有することを特徴とする音声認識装置。
【請求項2】
前記デコーダ制御手段は、
古いモデルで起動中の音声認識デコーダに加えて、最新モデルの音声認識デコーダを同時に起動し、音声認識を途切れさせることなく、音声認識を行う音声認識デコーダを前記音響分析手段から得られる所定のタイミングで最新モデルの音声認識デコーダに切り替えることを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記デコーダ制御手段は、
前記複数の音声認識デコーダの全てに順次途切れなく最新モデルを読み込ませて再起動させることを特徴とする請求項1又は2に記載の音声認識装置。
【請求項4】
前記デコーダ制御手段は、前記再起動させた後、それぞれの音声認識デコーダに前記入力音声の認識を所定のタイミングで順次受け持たせることを特徴とする請求項3に記載の音声認識装置。
【請求項5】
音声認識結果を修正し、修正した履歴情報を前記モデル学習手段に出力して学習データとして利用させるための文字修正手段を有することを特徴とする請求項1乃至4の何れか1項に記載の音声認識装置。
【請求項6】
入力音声を認識して文字に変換する音声認識処理をコンピュータに実行させるための音声認識プログラムにおいて、
コンピュータを、
言語モデル、発音辞書、音響モデル、及び音声認識パラメータのうち少なくとも1つを随時学習するモデル学習手段、
前記モデル学習手段により最新モデルに更新されたことを通知するモデル更新通知手段、
前記入力音声の音響特徴量を抽出する音響分析手段、
前記音響分析手段により得られる音響特徴量と、予め蓄積或いは前記モデル学習手段により更新された言語モデル、発音辞書、音響モデル、及び音声認識パラメータを読み込み、前記音響特徴量の音声認識を行う複数の音声認識デコーダ、及び、
前記複数の音声認識デコーダのうち、前記モデル更新通知手段により通知される更新情報に基づいて、前記音声認識を行う音声認識デコーダの選択を行うデコーダ制御手段として機能させるための音声認識プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図6】
image rotate

【図5】
image rotate


【公開番号】特開2010−54685(P2010−54685A)
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願番号】特願2008−218059(P2008−218059)
【出願日】平成20年8月27日(2008.8.27)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】