説明

音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム

【課題】複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる音声選択装置を提供することを目的とする。
【解決手段】音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段103と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を示す認識結果一致度を算出する認識結果一致度算出手段104と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段106とを備えたことを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラムに関する。
【背景技術】
【0002】
音声認識の分野において、一定レベルの認識精度を達成するためには、大量のデータを用いてモデルを学習する必要がある。しかし、その学習用のデータを作成するには、書き起こしなどのラベル付け作業が必要であり、多大なコストを要する。
【0003】
そこで、何らかの基準にしたがってラベル付け作業の優先度を定め、優先度の高いデータのみラベル付けを行って、そのデータで効率的にモデルの学習を行うという能動学習の研究(非特許文献1)が行われている。また、これに関連する技術が、非特許文献2および非特許文献3に記載されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Dilek Hakkani-T¨ur et al., “Active learning for automatic speech recognition, Proc. ICASSP, pp.3904-3907, 2002.
【非特許文献2】濱中ら, “音声認識のための複数の認識器を利用した能動学習,” 情報処理学会 音声言語情報処理研究会, Vol.2009-SLP-79, No.4, 2009.
【非特許文献3】H.S.Seung, M.Opper, and H.Sompolinsky, “Query by committee,” Proc. Workshop on Computational Learning Theory, pp.287-294, 1992.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献2には、音声認識用モデル学習装置の一例が記載されている。図8は、非特許文献2に記載されたような装置の構成を示すブロック図である。図8に示すように、非特許文献2に記載された装置は、学習データ記憶手段11と、モデル作成手段12と、モデル記憶手段13と、音声データ記憶手段14と、音声認識処理手段15と、発話選択手段16とを含む。
【0006】
さらに、学習データ記憶手段11は、学習データを等分割したK個の学習データ記憶手段11−k(k=1,2,…,K)を含む。また、モデル作成手段12は、K個のモデル作成手段12−k(k=1,2,…,K)を含む。また、モデル記憶手段13は、K個のモデル記憶手段13−k(k=1,2,…,K)を含む。また、音声認識処理手段15は、K個の音声認識処理手段15−k(k=1,2,…,K)を含む。
【0007】
このような構成要素を有する音声認識用モデル学習装置は、次のように動作する。すなわち、学習データ記憶手段11は、書き起こされたテキストデータとその音声データとを記憶する。モデル作成手段12−kは、学習データ記憶手段11が記憶する学習データを分割してモデルを学習する。モデル記憶手段13−kは、モデル作成手段12−kが学習したモデルを記憶する。
【0008】
音声データ記憶手段14は、音声データを記憶する。音声認識処理手段15−kは、音声データ記憶手段14が記憶する音声データを入力として、モデル記憶手段13−kが記憶するモデルを読み込んで音声認識処理を実行する。
【0009】
発話選択手段16は、音声認識処理手段15が出力したK個の認識結果を入力として、QBC理論(非特許文献3参照)に基づいて不一致度の高い発話(例えば、音声データの一部)を選択し、それらを書き起こす。そして、発話選択手段16は、選択した発話を学習データ記憶手段11に、それ以外の発話を音声データ記憶手段14に出力し、学習データ記憶手段11および音声データ記憶手段14が記憶するデータを更新する。
【0010】
音声認識用モデル学習装置は、これらの処理を所定回数または何らかの条件が満たされるまで繰り返し実行し、モデルを更新する。
【0011】
このように、非特許文献2に記載された音声認識用モデル学習装置では、音声認識処理手段15が複数のモデルを用いて音声認識処理を行い、発話選択手段16が認識結果を比較して、認識結果がばらついている発話を抽出している。これは、十分に学習できていない発話に対して複数のモデルを用いて音声認識処理を行うと結果がばらつくという基準に則って、発話を選択しているためである。
【0012】
しかし、この方式では複数のモデルを用いて音声認識処理を行い、用いたモデル間で優劣(区別)をつけることなく、得た認識結果を等価に比較している。そのため、複数のモデルを学習する学習テキスト全体として強化すべきテキスト(学習データ)を抽出しているに過ぎず、複数のモデルのうちのある特定のモデルだけを強化することはできない。すなわち、特定のモデルを強化する場合には、認識結果を等価に比較して抽出した発話ではなく、そのモデルにとって強化すべき発話を抽出する必要がある。
【0013】
そこで、本発明は、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明による音声選択装置は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段とを備えたことを特徴とする。
【0015】
本発明による発話選択装置は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段と、音声選択手段が選択した音声をテキストデータに書き起こし、書き起こしたテキストデータと音声とを用いて、特定のモデルを更新するモデル更新手段と、書き起こさなかった音声データを記憶する音声データ記憶手段とを備えたことを特徴とする。
【0016】
本発明による音声選択システムは、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段とを含むことを特徴とする。
【0017】
本発明による音声選択方法は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行し、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出し、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択することを特徴とする。
【0018】
本発明による音声選択プログラムは、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識を行う音声認識処理と、特定のモデルと特定のモデル以外のモデルとを用いて認識した結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出処理と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択処理とを実行させることを特徴とする。
【発明の効果】
【0019】
本発明によれば、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。
【図面の簡単な説明】
【0020】
【図1】本発明による音声選択装置の第1の実施形態の構成例を示すブロック図である。
【図2】音声認識結果の一例を示す表である。
【図3】音声選択装置の第1の実施形態の動作例を示す流れ図である。
【図4】発話選択装置の第1の実施形態の構成例を示すブロック図である。
【図5】音声選択装置の第2の実施形態の構成例を示すブロック図である。
【図6】音声選択装置の第2の実施形態の動作例を示す流れ図である。
【図7】発話選択装置の第2の実施形態の構成例を示すブロック図である。
【図8】非特許文献2に記載された装置の構成を示すブロック図である。
【図9】音声選択装置の最小の構成例を示すブロック図である。
【発明を実施するための形態】
【0021】
実施形態1.
次に、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による音声選択装置の第1の実施形態の構成例を示すブロック図である。図1を参照すると、本発明による音声選択装置の第1の実施形態は、音声データを記憶する音声データ記憶手段101と、音声認識用のモデルを記憶するモデル記憶手段102と、音声認識処理を実行する音声認識手段103と、認識結果を比較して認識結果一致度を算出する認識結果一致度算出手段104と、認識結果一致度に基づいて学習に有効な音声を選択する音声選択手段106とを含む。音声選択装置は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
【0022】
これらの手段はそれぞれ概略つぎのように動作する。
【0023】
音声データ記憶手段101は、認識対象となる音声データを記憶する。音声データ記憶手段101は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。
【0024】
モデル記憶手段102は、音声認識用のモデルを記憶する。モデル記憶手段102は、特に音声認識の精度を高めたいモデルである特定モデルを記憶するモデル記憶手段102−Tと、特定モデル以外のモデルである非特定モデルを記憶するモデル記憶手段102−k(k=1,2,…,K)とを含む。モデル記憶手段102−Tは、ある特定の特徴(例えば同じ話者や同じ話題、同じタスクなど。以下、特定モデルの特徴とも表現する)を含むデータを用いて学習した特定モデルを記憶する。モデル記憶手段102−kは、前述のような特定の特徴を含まないデータを用いて学習した非特定モデルを記憶する。モデル記憶手段102は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。
【0025】
音声認識手段103は、音声認識手段103−Tと、音声認識手段103−k(k=1,2,…,K)とを含む。音声認識手段103−Tは、音声データ記憶手段101が記憶する音声データ(以後、認識対象音声とも表現する)を入力し、モデル記憶手段102−Tが記憶する特定モデルを用いて、音声認識処理を実行する機能を備えている。また、音声認識手段103−kは、認識対象音声を入力し、モデル記憶手段102−kが記憶する非特定モデルを用いて、音声認識処理を実行する機能を備えている。音声認識手段103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
【0026】
認識結果一致度算出手段104は、音声認識手段103の認識結果を受けて、特定モデルを用いた場合の認識結果と非特定モデルを用いた場合の認識結果とを比較し、両者の認識結果が一致している度合いを表す認識結果一致度を算出する機能を備えている。認識結果一致度算出手段104は、例えば、式(1)を用いて認識結果一致度を算出する。認識結果一致度算出手段104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
【0027】
【数1】

【0028】
ここで、Cは、i番目の音声Sに対する認識結果一致度を表す。また、Ri,jは、i番目の音声に対してj番目のモデル記憶手段102−jが記憶するモデルを用いた場合(具体的には、音声認識手段103−jが音声認識処理を実行する)の認識結果を表す。音声の単位としては、例えば、発話やターン、話者、話題などが考えられる。
【0029】
ali(Ri,T,Ri,k)については、式(2)のように、各々の認識結果の単語アライメントや、音素アライメントなどにより求まるmatch(Ri,T,Ri,k)を用い、その値そのもの(連続値)を用いたものでも、式(3)のようにしきい値θを用いた離散値であってもよい。また、単語アライメントによりmatch(Ri,T,Ri,k)を求める際に、単語全体から算出するのではなく、特定の品詞やキーワードに限定するようにしてもよい。
【0030】
ali(Ri,T,Ri,k)=match(Ri,T,Ri,k) 式(2)
【0031】
【数2】

【0032】
ali(Ri,T,Ri,k)が大きい値であるとき、すなわちRi,Tと非特定モデルを用いて認識した結果Ri,kとが同じである場合、その音声は特定モデル、非特定モデルに関係なく認識されたことになる。すなわち、その音声は特定モデル、非特定モデルに関係なく学習される一般的な言い回しであると考えられるため、選択すべきものではない。
【0033】
逆にali(Ri,T,Ri,k)が小さい値であるとき、すなわち特定モデルを用いた場合と非特定モデルを用いた場合とで認識結果が異なっている場合を想定する。この場合には、その音声は、非特許文献2に記載された方法での判断基準と同様に認識結果がばらついているか、または特定モデルを用いた場合の認識結果が他のモデルを用いた場合の認識結果と異なっているかのいずれかになる。すなわち、どのモデルにとっても十分に学習できていない音声か、または特定の特徴(話者や話題など)を有する音声かのいずれかであると考えられる。なお、十分に学習できていないとは、具体的には、その音声に対する認識精度が低いことである。
【0034】
音声選択手段106は、認識結果一致度算出手段104が算出した音声ごとの認識結果一致度に基づいて、学習に用いる音声を選択する機能を備えている。すなわち、音声選択手段106は音声ごとに求めたCが小さい発話を抽出する。
【0035】
上記の各手段は、例えば、次のように動作する。
【0036】
音声認識処理手段103は、音声データ記憶手段101が記憶する所定の単位ごとの音声データ(例えば、発話など)を複数抽出し、モデル記憶手段102が記憶する各モデルを用いて、音声認識処理を行う。
【0037】
次いで、認識結果一致度算出手段104は、認識結果に基づいて、音声データごとに、認識結果一致度を算出する。その後、音声選択手段106は、認識結果一致度が小さい音声データを選択する。
【0038】
また、上記の各手段は、例えば、次のように動作する。
【0039】
音声認識処理手段103は、音声データ記憶手段101が記憶する音声データを抽出し、抽出した音声データを所定の単位(例えば、発話やターン、話者、話題)に分割する。そして、音声認識処理手段103は、分割後の全ての音声データ(例えば、図3におけるS、SおよびS)について、モデル記憶手段102が記憶する各モデルを用いて、音声認識処理を行う。
【0040】
次いで、認識結果一致度算出手段104は、認識結果に基づいて、分割後の音声データごとに、認識結果一致度を算出する。その後、音声選択手段106は、認識結果一致度が小さい分割後の音声データを選択する。以下、発話を選択するとの表現を用いるが、具体的には、発話単位の音声データを選択することである。
【0041】
以上のように各手段が処理を実行することにより、特定モデルを用いて認識して出力した結果と非特定モデルを用いて認識して出力した結果とが大きく異なる発話を選択する。このようにすることで、非特許文献2に記載されていた方法で選択可能である認識結果が全体にばらけている音声だけでなく、特定モデルを用いた場合のみ他のモデルを用いた場合と異なる認識結果を出力しているような発話を選択することができる。
【0042】
以下、具体例を用いて説明する。例えば、タスクに特徴があるものとし、特定のタスク向けに作られた特定モデル、一例として議会音声を認識するために作られたモデルと、それ以外のタスク用に作られた複数の非特定モデルとが存在する場合を想定する。なお、タスクによって話す内容が大きく異なるため、対応するモデル、すなわちこの場合には、具体的には言語モデルが大きく異なる。
【0043】
ここで、特定のタスクに対応するモデルを強化するため、特定モデルと同じタスク、すなわち議会の音声を用意し、特定モデルと複数の非特定モデルとを用いて、その音声を認識する。この認識結果を図2に示す。なお、ここでは4つの非特定モデルを用いているため、K=4となる。また、モデルの強化とは、具体的には、そのモデルを用いて音声認識した場合の精度が高くなるようにモデルを更新することである。
【0044】
図2は、音声認識結果の一例を示す表である。例えば、図2に示される表の4行目は、3番目の音声Sが入力されたときの認識結果を表す。また、図2に示される表の4行目は、特定モデル103−Tを用いて認識した結果R3,TがAであり、3番目の非特定モデルを用いて認識した結果R3,3がDであることを表す。なお、図2に示されるA、B等の認識結果は、認識の程度を示すランク等ではなく、認識対象音声を「A」や「B」という音声と認識したことを示している。
【0045】
図2に示されるように、音声Sについては、どのモデルを用いて認識した結果もAとなっている。このような結果となる音声には、例えば、「おはようございます」などの議会やそれ以外のタスクに関係なく話される言い回しによるものが該当する。この場合、R1,TとRi,kとは完全一致しているので、ali(R1,T,Ri,k)=1となり、C=(1+1+1+1)/4=1となる。
【0046】
次に、音声Sについては、R2,Tのみ結果が異なる。このような結果となる音声には、他のタスクではあまり使われず、議会ではよく使われる単語、例えば「異議」などの単語が含まれている発話が該当する。すなわち、非特定モデルを用いた場合には、より一般的に使われる同音異義語の「意義」が認識結果に表われ、R2,Tのみ「異議」を認識して出力したような場合が該当する。この場合、上述のようにCを求めると、C=0となる。
【0047】
最後に音声Sについては、全て結果が異なる。このような結果となる音声には、例えば、これまで議会で議題に挙がってこなかった新しい話題が含まれているものが該当する。この場合には、いずれのモデルを用いても認識することができない。また、上述のようにCを求めると、C=0となる。
【0048】
よって、最終的にCに基づいて、音声選択手段106は、C値の小さい2番目の音声と3番目の音声とを選択することとなる。このように、図2に示す例においては、音声選択手段106は、認識結果一致度が低い音声として、認識結果一致度C=0である音声を選択する。
【0049】
次に、図3を参照して本実施形態の全体の動作について説明する。図3は、音声選択装置の第1の実施形態の動作例を示す流れ図である。
【0050】
まず、音声認識手段103は、モデル記憶手段102−Tが記憶する特定モデルと、その他のデータで作成されたモデル記憶手段102−kが記憶する非特定モデルとを用いて、音声データ記憶手段101が記憶する認識対象音声を入力とする音声認識処理を実行する(図3におけるステップS101)。この際、音声認識手段103は、同一の音声に対して、各モデルを用いてそれぞれ音声認識処理を行う。
【0051】
次に、認識結果一致度算出手段104は、特定モデルを用いて認識した結果と非特定モデルを用いて認識した結果とをそれぞれ比較し、認識結果一致度を算出する(ステップS102)。認識結果一致度算出手段104は、例えば、式(1)を用いて認識結果一致度を算出する。
【0052】
最後に、音声選択手段106は、ステップS101およびS102の処理を実行した認識対象音声のうち、ステップS102で算出した認識結果一致度が低い音声(例えば、発話など)を、学習に用いる音声として選択する(ステップS103)。
【0053】
なお、上記に示した音声選択装置を発話選択装置に適用することもできる。図4は、発話選択装置の第1の実施形態の構成例を示すブロック図である。図4に示すように、発話選択装置200は、音声認識手段103と、認識結果一致度算出手段104と、音声選択手段106と、モデル更新手段201とを含む。
【0054】
上記のステップS101からS103の処理を実行することによって音声を選択すると、図4に示されるモデル更新手段201は、選択した音声をテキスト等に書き起こし、書き起こしたデータ及びその音声を用いて、モデル記憶手段102−Tが記憶するモデルを学習し直して、モデルを更新する。
【0055】
また、音声選択装置は、選択しなかった音声を音声データ記憶手段101に出力し、再度音声認識処理を行う。なお、この一連の処理のサイクルを所定の回数または何らかの条件を満たすまで行うようにしてもよい。
【0056】
次に、本実施形態の効果について説明する。
【0057】
本実施形態では、ある特定モデルとそれ以外の非特定モデルとを用いた場合の認識結果を比較し、その結果の違いを認識結果一致度という指標で数値化して、その数値が小さい音声(すなわち、本実施形態ではC=0となる音声)を選択する。そのため、これまで抽出できていた全体的に認識結果がばらついているような、あまり学習できていない音声だけでなく、特定モデルを用いた場合のみ認識結果が異なるような、特定モデルと特徴が合致した音声も選択することができる。したがって、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。
【0058】
実施形態2.
次に、本発明による音声選択装置の第2の実施形態について図面を参照して説明する。図5は、音声選択装置の第2の実施形態の構成例を示すブロック図である。
【0059】
図5を参照すると、本発明による音声選択装置の第2の実施形態は、音声データを記憶する音声データ記憶手段101と、音声認識用のモデルを記憶するモデル記憶手段102と、音声認識処理を実行する音声認識手段103と、認識結果を比較して認識結果一致度を算出する認識結果一致度算出手段104と、音声認識手段103が算出した非特定モデルの認識結果を比較して認識結果分散度を算出する認識結果分散度算出手段115と、認識結果一致度と認識結果分散度とに基づいて学習に有効な音声を選択する音声選択手段116とを含む。
【0060】
これらの手段はそれぞれ概略つぎのように動作する。なお、音声データ記憶手段101、モデル記憶手段102、音声認識手段103および認識結果一致度算出手段104については、第1の実施形態と同様の構成であるため、説明を省略する。
【0061】
認識結果分散度算出手段115は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。認識結果分散度算出手段115は、音声認識手段103−kがモデル記憶手段102−kが記憶する複数の非特定モデルを用いて音声データ記憶手段101が記憶する認識対象音声を入力として認識した結果を、互いに比較し、異なり具合を表す認識結果分散度を算出する機能を備えている。認識結果分散度算出手段115は、例えば、式(4)を用いて認識結果分散度Dを算出する。
【0062】
【数3】

【0063】
すなわち、認識結果分散度算出手段115は、ある非特定モデルを用いて認識した結果Ri,kを、それ以外のK−1個の非特定モデルを用いて認識した結果と比較し、認識結果一致度の算出時と同様にアライメントを取って両者の結果の類似性を求める。また、認識結果分散度算出手段115は、これをすべての非特定モデルに対して行い、平均値を求める。これにより、強化したい特定モデルで学習した特徴を含まないデータで学習した非特徴モデルで認識した結果がどれほどばらついているかを求めることができる。
【0064】
すなわち、認識結果分散度Dは、その値が小さいときには認識結果がばらついていることを表し、どの非特定モデルにとってもその認識対象音声の内容を十分に学習できていないことを示す。一方、値が大きいときには認識結果間で結果に違いがないことを示し、すなわち認識対象音声の内容は、その特定モデルと同じ特徴が少ない、または非特定モデルで特定モデルと同程度に学習されていると考えられる。
【0065】
音声選択手段116は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。音声選択手段116は、認識結果一致度算出手段104が算出した認識結果一致度と、認識結果分散度算出手段115が算出した認識結果分散度とに基づいて、学習に用いる音声を選択する機能を備えている。その際、音声選択手段116は、モデルの作成方針にしたがって、選択する音声をさらに詳細に選ぶことができる。
【0066】
すなわち、十分に学習できていない発話を選択したい場合には、音声選択手段116は、認識結果一致度が小さく、かつ認識結果分散度も小さい発話を選択する。一方、特定モデルを学習したデータと同じ特徴を持った音声を選択し強化したい場合には、音声選択手段116は、認識結果一致度が小さく、かつ認識結果分散度が大きい発話を選択する。
【0067】
図2を用いて具体的に説明すると、音声Sに対する認識結果分散度Dを求めると、D=(4+4+4)/(3×4)=1となる。同様に、S、Sについても認識結果分散度を求めると、D=1、D=0となる。
【0068】
例えば、認識結果がばらついている発話を選択する場合には、音声選択手段116は、認識結果一致度が小さく、かつ認識結果分散度も小さい発話のSを選択する。このように、図2に示す例において、認識結果がばらついている発話を選択する場合には、音声選択手段116は、認識結果一致度C=0かつ認識結果分散度D=0の発話を選択する。
【0069】
また、特定モデルを学習したデータと同じ特徴を持った音声を選択する場合には、音声選択手段116は、認識結果一致度が小さく、かつ認識結果分散度が大きいSを選択する。このように、図2に示す例において、特定モデルを学習したデータと同じ特徴を持った音声を選択する場合には、音声選択手段116は、認識結果一致度C=0かつ認識結果分散度D=1の発話を選択する。
【0070】
次に、図6を参照して本実施形態の全体の動作について説明する。図6は、音声選択装置の第2の実施形態の動作例を示す流れ図である。
【0071】
まず、音声認識手段103は、モデル記憶手段102−Tが記憶する特定モデルと、その他のデータで作成されたモデル記憶手段102−kが記憶する非特定モデルとを用いて、音声データ記憶手段101が記憶する認識対象音声を入力とする音声認識処理を実行する(図6におけるステップS201)。この際、音声認識手段103は、同一の音声に対して、各モデルを用いてそれぞれ音声認識処理を行う。
【0072】
次いで、認識結果一致度算出手段104は、特定モデルを用いて認識した結果と非特定モデルを用いて認識した結果とをそれぞれ比較し、認識結果一致度を算出する(ステップS202)。
【0073】
次いで、認識結果分散度算出手段115は、非特定モデルを用いて認識した結果をそれぞれ比較し、認識結果分散度を算出する(ステップS203)。認識結果分散度算出手段115は、例えば、式(4)を用いて認識結果分散度Dを算出する。なお、音声選択装置は、ステップS202とステップS203とを順不同で実行してもよい。
【0074】
最後に、音声選択手段116は、ステップS202で算出した認識結果一致度と、ステップS213で算出した認識結果分散度とに基づいて、学習に用いる音声(例えば、発話)を選択する(ステップS204)。
【0075】
このとき、音声選択手段116は、例えば、ユーザの入力操作によって入力されたモデルの作成方針にしたがって、選択する音声をさらに詳細に選択する。
【0076】
ここで、モデルの作成方針について説明する。本実施形態で示す2つの作成方針は、いずれも特定モデル(だけ)を強化するものである。ただし、この2つの作成方針は、強化する軸(ポイント)が異なる。
【0077】
具体的に違いを説明すると、認識結果一致度が小さく、認識結果分散度が大きい発話を選択した場合には、特定モデル(だけ)が学習しているような特定の特徴(例えば、話題やタスクなど)をさらに強化することとなる。
【0078】
また、認識結果一致度が小さく、認識結果分散度も小さい発話を選択した場合には、(どのような特徴を含んでいるかわからないが、)全般的にあまり認識できていないような発話を強化することとなる。
【0079】
したがって、モデルの作成方針として、特定モデルの強みをさらに強化する場合には、音声選択手段116は、認識結果一致度が小さく、認識結果分散度が大きい発話を選択する。また、モデルの作成方針として、特定モデルの弱点を補うように強化する場合には、音声選択手段116は、認識結果一致度が小さく、認識結果分散度も小さい発話を選択する。
【0080】
以上の処理によって、特定のモデルを強化することを目的として学習に有効な音声を選択することができる。
【0081】
また、第1の実施形態と同様に、上記に示した音声選択装置を発話選択装置に適用することもできる。図7は、発話選択装置の第2の実施形態の構成例を示すブロック図である。図7に示すように、発話選択装置200は、音声認識手段103と、認識結果一致度算出手段104と、認識結果分散度算出手段115と、音声選択手段116と、モデル更新手段201とを含む。
【0082】
上記のステップS201からS204の処理を実行することによって音声を選択すると、図7に示されるモデル更新手段201は、選択した音声をテキスト等に書き起こし、書き起こしたデータ及びその音声を用いて、モデル記憶手段102−Tが記憶するモデルを学習し直して、モデルを更新する。
【0083】
また、音声選択装置は、選択しなかった音声を音声データ記憶手段101に出力し、再度音声認識処理を行う。なお、この一連の処理のサイクルを所定の回数または何らかの条件を満たすまで行うようにしてもよい。
【0084】
次に、本実施形態の効果について説明する。
【0085】
本実施形態では、第1の実施形態の構成に加えて、認識結果分散度算出手段115と、音声選択手段116とを備えている。そして、認識結果分散度算出手段115が、非特徴モデルの認識結果を比較して、そのばらつき度合いを表す認識結果分散度を求め、音声選択手段116は、認識結果一致度と認識結果分散度とに基づいて、音声を選択する。そのため、本実施形態では、認識結果がばらついている音声と特定モデルの認識結果のみ結果が異なる音声とを区別して選択することができる。すなわち、モデルの学習方針に応じて、より効果的に音声を選択することができる。
【0086】
以上に説明したように、本発明による音声選択装置は、ある特徴(例えば強化したい話者や、話題、タスクなど)を持ったデータから学習された特定のモデルおよび特定のモデル以外の複数のモデル(非特定モデル)を記憶するモデル記憶手段と、音声データを記憶する音声データ記憶手段と、音声認識処理を実行する音声認識手段と、特定モデルの認識結果と非特定モデルの認識結果との一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて学習に有効な音声を選択する音声選択手段とを備えている。
【0087】
本発明による音声選択装置は、特定モデルと1つ以上の非特定モデルとを備え、認識結果一致度算出手段が特定モデルの認識結果と非特定モデルの認識結果とを比較して認識結果の一致の度合いを求める。このため、音声データ記憶手段が記憶する認識した音声(認識対象音声)から特定モデルを更に強化するための学習に有効な音声を選択することができる。すなわち、認識結果一致度算出手段が特定モデルの認識結果と非特定モデルの認識結果との違いを求めることにより、特定モデルと同じ特徴(例えば同じ話者や同じ話題、同じタスクなど)を持った音声も抽出できるため、特定モデルにとって学習に有効な音声を選択することができる。
【0088】
次に、本発明による音声選択装置の最小構成について説明する。図9は、音声選択装置の最小の構成例を示すブロック図である。図9に示すように、音声選択装置は、最小の構成要素として、音声認識手段103と、認識結果一致度算出手段104と、音声選択手段106とを含む。
【0089】
図9に示す最小構成の音声選択装置では、音声認識手段103は、音声データを複数のモデルを用いて音声認識処理を実行する。次いで、認識結果一致度算出手段104は、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を示す認識結果一致度を算出する。次いで、音声選択手段106は、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する。
【0090】
従って、最小構成の音声選択装置によれば、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。
【0091】
なお、本実施形態では、以下の(1)〜(5)に示すような音声選択装置の特徴的構成と、(6)〜(7)に示すような発話選択装置の特徴的構成とが示されている。
【0092】
(1)音声選択装置は、音声データと、特定のモデル(例えば、モデル記憶手段102−Tが記憶するモデル)を含む複数のモデルとを入力とし、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段(例えば、音声認識手段103によって実現される)と、特定のモデルと特定のモデル以外のモデル(例えば、モデル記憶手段102−1から102−Kが記憶するモデル)とを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度(例えば、Cによって示される)を算出する認識結果一致度算出手段(例えば、認識結果一致度算出手段104によって実現される)と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段(例えば、音声選択手段106によって実現される)とを備えたことを特徴とする。
【0093】
(2)音声選択装置において、音声選択手段は、認識結果一致度が低い音声を選択するように構成されていてもよい。
【0094】
(3)音声選択装置において、特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度(例えば、Dによって示される)を算出する認識結果分散度算出手段(例えば、認識結果分散度算出手段115によって実現される)を備え、音声選択手段(例えば、音声選択手段116によって実現される)は、認識結果分散度と認識結果一致度とに基づいて、音声データから特定のモデルの学習に用いる音声を選択するように構成されていてもよい。
【0095】
(4)音声選択装置において、音声選択手段は、認識結果分散度が低い音声を選択するように構成されていてもよい。
【0096】
(5)音声選択装置において、音声選択手段は、認識結果分散度が高い音声を選択するように構成されていてもよい。
【0097】
(6)発話選択装置は、音声データと、特定のモデル(例えば、モデル記憶手段102−Tが記憶するモデル)を含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段(例えば、音声認識手段103によって実現される)と、特定のモデルと特定のモデル以外のモデル(例えば、モデル記憶手段102−1から102−Kが記憶するモデル)とを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度(例えば、Cによって示される)を算出する認識結果一致度算出手段(例えば、認識結果一致度算出手段104によって実現される)と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段(例えば、音声選択手段116によって実現される)と、音声選択手段が選択した音声をテキストデータに書き起こし、書き起こしたテキストデータと音声とを用いて、特定のモデルを更新するモデル更新手段(例えば、モデル更新手段201によって実現される)と、書き起こさなかった音声データを記憶する音声データ記憶手段(例えば、音声データ記憶手段101によって実現される)とを備えたことを特徴とする。
【0098】
(7)発話選択装置は、特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度(例えば、Dによって示される)を算出する認識結果分散度算出手段(例えば、認識結果分散度算出手段115によって実現される)を備え、音声選択手段は、認識結果分散度と認識結果一致度とに基づいて、音声データから特定のモデルの学習に用いる音声を選択するように構成されていてもよい。
【0099】
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
【0100】
(付記1)音声選択手段は、認識結果一致度が低い音声を選択する請求項6記載の発話選択装置。
【0101】
(付記2)音声選択手段は、認識結果分散度が低い音声を選択する請求項7記載の発話選択装置。
【0102】
(付記3)音声選択手段は、認識結果分散度が高い音声を選択する請求項7記載の発話選択装置。
【産業上の利用可能性】
【0103】
本発明は、音声認識処理の認識精度を高める用途に適用可能である。
【符号の説明】
【0104】
101 音声データ記憶手段
102 モデル記憶手段
103 音声認識手段
104 認識結果一致度算出手段
106,116 音声選択手段
115 認識結果分散度算出手段
200 発話選択装置
201 モデル更新手段

【特許請求の範囲】
【請求項1】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段とを
備えたことを特徴とする音声選択装置。
【請求項2】
音声選択手段は、認識結果一致度が低い音声を選択する
請求項1記載の音声選択装置。
【請求項3】
特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度を算出する認識結果分散度算出手段を備え、
音声選択手段は、前記認識結果分散度と認識結果一致度とに基づいて、音声データから前記特定のモデルの学習に用いる音声を選択する
請求項1または請求項2記載の音声選択装置。
【請求項4】
音声選択手段は、認識結果分散度が低い音声を選択する
請求項3記載の音声選択装置。
【請求項5】
音声選択手段は、認識結果分散度が高い音声を選択する
請求項3記載の音声選択装置。
【請求項6】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段と、
音声選択手段が選択した音声をテキストデータに書き起こし、書き起こした前記テキストデータと前記音声とを用いて、前記特定のモデルを更新するモデル更新手段と、
書き起こさなかった音声データを記憶する音声データ記憶手段とを
備えたことを特徴とする発話選択装置。
【請求項7】
特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度を算出する認識結果分散度算出手段を備え、
音声選択手段は、前記認識結果分散度と認識結果一致度とに基づいて、音声データから前記特定のモデルの学習に用いる音声を選択する
請求項6記載の発話選択装置。
【請求項8】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段とを
含むことを特徴とする音声選択システム。
【請求項9】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行し、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出し、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する
ことを特徴とする音声選択方法。
【請求項10】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識を行う音声認識処理と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出処理と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択処理とを
実行させるための音声選択プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−108429(P2012−108429A)
【公開日】平成24年6月7日(2012.6.7)
【国際特許分類】
【出願番号】特願2010−258924(P2010−258924)
【出願日】平成22年11月19日(2010.11.19)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】