音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム

【課題】複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる音声選択装置を提供することを目的とする。
【解決手段】音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段１０３と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を示す認識結果一致度を算出する認識結果一致度算出手段１０４と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段１０６とを備えたことを特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラムに関する。
【背景技術】
【０００２】
音声認識の分野において、一定レベルの認識精度を達成するためには、大量のデータを用いてモデルを学習する必要がある。しかし、その学習用のデータを作成するには、書き起こしなどのラベル付け作業が必要であり、多大なコストを要する。
【０００３】
そこで、何らかの基準にしたがってラベル付け作業の優先度を定め、優先度の高いデータのみラベル付けを行って、そのデータで効率的にモデルの学習を行うという能動学習の研究（非特許文献１）が行われている。また、これに関連する技術が、非特許文献２および非特許文献３に記載されている。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】Dilek Hakkani-T¨ur et al., “Active learning for automatic speech recognition, Proc. ICASSP, pp.3904-3907, 2002.
【非特許文献２】濱中ら, “音声認識のための複数の認識器を利用した能動学習,” 情報処理学会音声言語情報処理研究会, Vol.2009-SLP-79, No.4, 2009.
【非特許文献３】H.S.Seung, M.Opper, and H.Sompolinsky, “Query by committee,” Proc. Workshop on Computational Learning Theory, pp.287-294, 1992.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
非特許文献２には、音声認識用モデル学習装置の一例が記載されている。図８は、非特許文献２に記載されたような装置の構成を示すブロック図である。図８に示すように、非特許文献２に記載された装置は、学習データ記憶手段１１と、モデル作成手段１２と、モデル記憶手段１３と、音声データ記憶手段１４と、音声認識処理手段１５と、発話選択手段１６とを含む。
【０００６】
さらに、学習データ記憶手段１１は、学習データを等分割したＫ個の学習データ記憶手段１１−ｋ（ｋ＝１，２，…，Ｋ）を含む。また、モデル作成手段１２は、Ｋ個のモデル作成手段１２−ｋ（ｋ＝１，２，…，Ｋ）を含む。また、モデル記憶手段１３は、Ｋ個のモデル記憶手段１３−ｋ（ｋ＝１，２，…，Ｋ）を含む。また、音声認識処理手段１５は、Ｋ個の音声認識処理手段１５−ｋ（ｋ＝１，２，…，Ｋ）を含む。
【０００７】
このような構成要素を有する音声認識用モデル学習装置は、次のように動作する。すなわち、学習データ記憶手段１１は、書き起こされたテキストデータとその音声データとを記憶する。モデル作成手段１２−ｋは、学習データ記憶手段１１が記憶する学習データを分割してモデルを学習する。モデル記憶手段１３−ｋは、モデル作成手段１２−ｋが学習したモデルを記憶する。
【０００８】
音声データ記憶手段１４は、音声データを記憶する。音声認識処理手段１５−ｋは、音声データ記憶手段１４が記憶する音声データを入力として、モデル記憶手段１３−ｋが記憶するモデルを読み込んで音声認識処理を実行する。
【０００９】
発話選択手段１６は、音声認識処理手段１５が出力したＫ個の認識結果を入力として、ＱＢＣ理論（非特許文献３参照）に基づいて不一致度の高い発話（例えば、音声データの一部）を選択し、それらを書き起こす。そして、発話選択手段１６は、選択した発話を学習データ記憶手段１１に、それ以外の発話を音声データ記憶手段１４に出力し、学習データ記憶手段１１および音声データ記憶手段１４が記憶するデータを更新する。
【００１０】
音声認識用モデル学習装置は、これらの処理を所定回数または何らかの条件が満たされるまで繰り返し実行し、モデルを更新する。
【００１１】
このように、非特許文献２に記載された音声認識用モデル学習装置では、音声認識処理手段１５が複数のモデルを用いて音声認識処理を行い、発話選択手段１６が認識結果を比較して、認識結果がばらついている発話を抽出している。これは、十分に学習できていない発話に対して複数のモデルを用いて音声認識処理を行うと結果がばらつくという基準に則って、発話を選択しているためである。
【００１２】
しかし、この方式では複数のモデルを用いて音声認識処理を行い、用いたモデル間で優劣（区別）をつけることなく、得た認識結果を等価に比較している。そのため、複数のモデルを学習する学習テキスト全体として強化すべきテキスト（学習データ）を抽出しているに過ぎず、複数のモデルのうちのある特定のモデルだけを強化することはできない。すなわち、特定のモデルを強化する場合には、認識結果を等価に比較して抽出した発話ではなく、そのモデルにとって強化すべき発話を抽出する必要がある。
【００１３】
そこで、本発明は、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラムを提供することを目的とする。
【課題を解決するための手段】
【００１４】
本発明による音声選択装置は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段とを備えたことを特徴とする。
【００１５】
本発明による発話選択装置は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段と、音声選択手段が選択した音声をテキストデータに書き起こし、書き起こしたテキストデータと音声とを用いて、特定のモデルを更新するモデル更新手段と、書き起こさなかった音声データを記憶する音声データ記憶手段とを備えたことを特徴とする。
【００１６】
本発明による音声選択システムは、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段とを含むことを特徴とする。
【００１７】
本発明による音声選択方法は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行し、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出し、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択することを特徴とする。
【００１８】
本発明による音声選択プログラムは、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識を行う音声認識処理と、特定のモデルと特定のモデル以外のモデルとを用いて認識した結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出処理と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択処理とを実行させることを特徴とする。
【発明の効果】
【００１９】
本発明によれば、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。
【図面の簡単な説明】
【００２０】
【図１】本発明による音声選択装置の第１の実施形態の構成例を示すブロック図である。
【図２】音声認識結果の一例を示す表である。
【図３】音声選択装置の第１の実施形態の動作例を示す流れ図である。
【図４】発話選択装置の第１の実施形態の構成例を示すブロック図である。
【図５】音声選択装置の第２の実施形態の構成例を示すブロック図である。
【図６】音声選択装置の第２の実施形態の動作例を示す流れ図である。
【図７】発話選択装置の第２の実施形態の構成例を示すブロック図である。
【図８】非特許文献２に記載された装置の構成を示すブロック図である。
【図９】音声選択装置の最小の構成例を示すブロック図である。
【発明を実施するための形態】
【００２１】
実施形態１．
次に、本発明の第１の実施形態について図面を参照して説明する。図１は、本発明による音声選択装置の第１の実施形態の構成例を示すブロック図である。図１を参照すると、本発明による音声選択装置の第１の実施形態は、音声データを記憶する音声データ記憶手段１０１と、音声認識用のモデルを記憶するモデル記憶手段１０２と、音声認識処理を実行する音声認識手段１０３と、認識結果を比較して認識結果一致度を算出する認識結果一致度算出手段１０４と、認識結果一致度に基づいて学習に有効な音声を選択する音声選択手段１０６とを含む。音声選択装置は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
【００２２】
これらの手段はそれぞれ概略つぎのように動作する。
【００２３】
音声データ記憶手段１０１は、認識対象となる音声データを記憶する。音声データ記憶手段１０１は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。
【００２４】
モデル記憶手段１０２は、音声認識用のモデルを記憶する。モデル記憶手段１０２は、特に音声認識の精度を高めたいモデルである特定モデルを記憶するモデル記憶手段１０２−Ｔと、特定モデル以外のモデルである非特定モデルを記憶するモデル記憶手段１０２−ｋ（ｋ＝１，２，…，Ｋ）とを含む。モデル記憶手段１０２−Ｔは、ある特定の特徴（例えば同じ話者や同じ話題、同じタスクなど。以下、特定モデルの特徴とも表現する）を含むデータを用いて学習した特定モデルを記憶する。モデル記憶手段１０２−ｋは、前述のような特定の特徴を含まないデータを用いて学習した非特定モデルを記憶する。モデル記憶手段１０２は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。
【００２５】
音声認識手段１０３は、音声認識手段１０３−Ｔと、音声認識手段１０３−ｋ（ｋ＝１，２，…，Ｋ）とを含む。音声認識手段１０３−Ｔは、音声データ記憶手段１０１が記憶する音声データ（以後、認識対象音声とも表現する）を入力し、モデル記憶手段１０２−Ｔが記憶する特定モデルを用いて、音声認識処理を実行する機能を備えている。また、音声認識手段１０３−ｋは、認識対象音声を入力し、モデル記憶手段１０２−ｋが記憶する非特定モデルを用いて、音声認識処理を実行する機能を備えている。音声認識手段１０３は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。
【００２６】
認識結果一致度算出手段１０４は、音声認識手段１０３の認識結果を受けて、特定モデルを用いた場合の認識結果と非特定モデルを用いた場合の認識結果とを比較し、両者の認識結果が一致している度合いを表す認識結果一致度を算出する機能を備えている。認識結果一致度算出手段１０４は、例えば、式（１）を用いて認識結果一致度を算出する。認識結果一致度算出手段１０４は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。
【００２７】
【数１】

【００２８】
ここで、Ｃ_ｉは、ｉ番目の音声Ｓ_ｉに対する認識結果一致度を表す。また、Ｒ_ｉ，ｊは、ｉ番目の音声に対してｊ番目のモデル記憶手段１０２−ｊが記憶するモデルを用いた場合（具体的には、音声認識手段１０３−ｊが音声認識処理を実行する）の認識結果を表す。音声の単位としては、例えば、発話やターン、話者、話題などが考えられる。
【００２９】
ａｌｉ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）については、式（２）のように、各々の認識結果の単語アライメントや、音素アライメントなどにより求まるｍａｔｃｈ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）を用い、その値そのもの（連続値）を用いたものでも、式（３）のようにしきい値θを用いた離散値であってもよい。また、単語アライメントによりｍａｔｃｈ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）を求める際に、単語全体から算出するのではなく、特定の品詞やキーワードに限定するようにしてもよい。
【００３０】
ａｌｉ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）＝ｍａｔｃｈ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）式（２）
【００３１】
【数２】

【００３２】
ａｌｉ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）が大きい値であるとき、すなわちＲ_ｉ，Ｔと非特定モデルを用いて認識した結果Ｒ_ｉ，ｋとが同じである場合、その音声は特定モデル、非特定モデルに関係なく認識されたことになる。すなわち、その音声は特定モデル、非特定モデルに関係なく学習される一般的な言い回しであると考えられるため、選択すべきものではない。
【００３３】
逆にａｌｉ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）が小さい値であるとき、すなわち特定モデルを用いた場合と非特定モデルを用いた場合とで認識結果が異なっている場合を想定する。この場合には、その音声は、非特許文献２に記載された方法での判断基準と同様に認識結果がばらついているか、または特定モデルを用いた場合の認識結果が他のモデルを用いた場合の認識結果と異なっているかのいずれかになる。すなわち、どのモデルにとっても十分に学習できていない音声か、または特定の特徴（話者や話題など）を有する音声かのいずれかであると考えられる。なお、十分に学習できていないとは、具体的には、その音声に対する認識精度が低いことである。
【００３４】
音声選択手段１０６は、認識結果一致度算出手段１０４が算出した音声ごとの認識結果一致度に基づいて、学習に用いる音声を選択する機能を備えている。すなわち、音声選択手段１０６は音声ごとに求めたＣ_ｉが小さい発話を抽出する。
【００３５】
上記の各手段は、例えば、次のように動作する。
【００３６】
音声認識処理手段１０３は、音声データ記憶手段１０１が記憶する所定の単位ごとの音声データ（例えば、発話など）を複数抽出し、モデル記憶手段１０２が記憶する各モデルを用いて、音声認識処理を行う。
【００３７】
次いで、認識結果一致度算出手段１０４は、認識結果に基づいて、音声データごとに、認識結果一致度を算出する。その後、音声選択手段１０６は、認識結果一致度が小さい音声データを選択する。
【００３８】
また、上記の各手段は、例えば、次のように動作する。
【００３９】
音声認識処理手段１０３は、音声データ記憶手段１０１が記憶する音声データを抽出し、抽出した音声データを所定の単位（例えば、発話やターン、話者、話題）に分割する。そして、音声認識処理手段１０３は、分割後の全ての音声データ（例えば、図３におけるＳ_１、Ｓ_２およびＳ_３）について、モデル記憶手段１０２が記憶する各モデルを用いて、音声認識処理を行う。
【００４０】
次いで、認識結果一致度算出手段１０４は、認識結果に基づいて、分割後の音声データごとに、認識結果一致度を算出する。その後、音声選択手段１０６は、認識結果一致度が小さい分割後の音声データを選択する。以下、発話を選択するとの表現を用いるが、具体的には、発話単位の音声データを選択することである。
【００４１】
以上のように各手段が処理を実行することにより、特定モデルを用いて認識して出力した結果と非特定モデルを用いて認識して出力した結果とが大きく異なる発話を選択する。このようにすることで、非特許文献２に記載されていた方法で選択可能である認識結果が全体にばらけている音声だけでなく、特定モデルを用いた場合のみ他のモデルを用いた場合と異なる認識結果を出力しているような発話を選択することができる。
【００４２】
以下、具体例を用いて説明する。例えば、タスクに特徴があるものとし、特定のタスク向けに作られた特定モデル、一例として議会音声を認識するために作られたモデルと、それ以外のタスク用に作られた複数の非特定モデルとが存在する場合を想定する。なお、タスクによって話す内容が大きく異なるため、対応するモデル、すなわちこの場合には、具体的には言語モデルが大きく異なる。
【００４３】
ここで、特定のタスクに対応するモデルを強化するため、特定モデルと同じタスク、すなわち議会の音声を用意し、特定モデルと複数の非特定モデルとを用いて、その音声を認識する。この認識結果を図２に示す。なお、ここでは４つの非特定モデルを用いているため、Ｋ＝４となる。また、モデルの強化とは、具体的には、そのモデルを用いて音声認識した場合の精度が高くなるようにモデルを更新することである。
【００４４】
図２は、音声認識結果の一例を示す表である。例えば、図２に示される表の４行目は、３番目の音声Ｓ_３が入力されたときの認識結果を表す。また、図２に示される表の４行目は、特定モデル１０３−Ｔを用いて認識した結果Ｒ_３，ＴがＡであり、３番目の非特定モデルを用いて認識した結果Ｒ_３，３がＤであることを表す。なお、図２に示されるＡ、Ｂ等の認識結果は、認識の程度を示すランク等ではなく、認識対象音声を「Ａ」や「Ｂ」という音声と認識したことを示している。
【００４５】
図２に示されるように、音声Ｓ_１については、どのモデルを用いて認識した結果もＡとなっている。このような結果となる音声には、例えば、「おはようございます」などの議会やそれ以外のタスクに関係なく話される言い回しによるものが該当する。この場合、Ｒ_１，ＴとＲ_ｉ，ｋとは完全一致しているので、ａｌｉ（Ｒ_１，Ｔ，Ｒ_ｉ，ｋ）＝１となり、Ｃ_１＝（１＋１＋１＋１）／４＝１となる。
【００４６】
次に、音声Ｓ_２については、Ｒ_２，Ｔのみ結果が異なる。このような結果となる音声には、他のタスクではあまり使われず、議会ではよく使われる単語、例えば「異議」などの単語が含まれている発話が該当する。すなわち、非特定モデルを用いた場合には、より一般的に使われる同音異義語の「意義」が認識結果に表われ、Ｒ_２，Ｔのみ「異議」を認識して出力したような場合が該当する。この場合、上述のようにＣ_２を求めると、Ｃ_２＝０となる。
【００４７】
最後に音声Ｓ_３については、全て結果が異なる。このような結果となる音声には、例えば、これまで議会で議題に挙がってこなかった新しい話題が含まれているものが該当する。この場合には、いずれのモデルを用いても認識することができない。また、上述のようにＣ_３を求めると、Ｃ_３＝０となる。
【００４８】
よって、最終的にＣ_ｉに基づいて、音声選択手段１０６は、Ｃ_ｉ値の小さい２番目の音声と３番目の音声とを選択することとなる。このように、図２に示す例においては、音声選択手段１０６は、認識結果一致度が低い音声として、認識結果一致度Ｃ_ｉ＝０である音声を選択する。
【００４９】
次に、図３を参照して本実施形態の全体の動作について説明する。図３は、音声選択装置の第１の実施形態の動作例を示す流れ図である。
【００５０】
まず、音声認識手段１０３は、モデル記憶手段１０２−Ｔが記憶する特定モデルと、その他のデータで作成されたモデル記憶手段１０２−ｋが記憶する非特定モデルとを用いて、音声データ記憶手段１０１が記憶する認識対象音声を入力とする音声認識処理を実行する（図３におけるステップＳ１０１）。この際、音声認識手段１０３は、同一の音声に対して、各モデルを用いてそれぞれ音声認識処理を行う。
【００５１】
次に、認識結果一致度算出手段１０４は、特定モデルを用いて認識した結果と非特定モデルを用いて認識した結果とをそれぞれ比較し、認識結果一致度を算出する（ステップＳ１０２）。認識結果一致度算出手段１０４は、例えば、式（１）を用いて認識結果一致度を算出する。
【００５２】
最後に、音声選択手段１０６は、ステップＳ１０１およびＳ１０２の処理を実行した認識対象音声のうち、ステップＳ１０２で算出した認識結果一致度が低い音声（例えば、発話など）を、学習に用いる音声として選択する（ステップＳ１０３）。
【００５３】
なお、上記に示した音声選択装置を発話選択装置に適用することもできる。図４は、発話選択装置の第１の実施形態の構成例を示すブロック図である。図４に示すように、発話選択装置２００は、音声認識手段１０３と、認識結果一致度算出手段１０４と、音声選択手段１０６と、モデル更新手段２０１とを含む。
【００５４】
上記のステップＳ１０１からＳ１０３の処理を実行することによって音声を選択すると、図４に示されるモデル更新手段２０１は、選択した音声をテキスト等に書き起こし、書き起こしたデータ及びその音声を用いて、モデル記憶手段１０２−Ｔが記憶するモデルを学習し直して、モデルを更新する。
【００５５】
また、音声選択装置は、選択しなかった音声を音声データ記憶手段１０１に出力し、再度音声認識処理を行う。なお、この一連の処理のサイクルを所定の回数または何らかの条件を満たすまで行うようにしてもよい。
【００５６】
次に、本実施形態の効果について説明する。
【００５７】
本実施形態では、ある特定モデルとそれ以外の非特定モデルとを用いた場合の認識結果を比較し、その結果の違いを認識結果一致度という指標で数値化して、その数値が小さい音声（すなわち、本実施形態ではＣ_ｉ＝０となる音声）を選択する。そのため、これまで抽出できていた全体的に認識結果がばらついているような、あまり学習できていない音声だけでなく、特定モデルを用いた場合のみ認識結果が異なるような、特定モデルと特徴が合致した音声も選択することができる。したがって、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。
【００５８】
実施形態２．
次に、本発明による音声選択装置の第２の実施形態について図面を参照して説明する。図５は、音声選択装置の第２の実施形態の構成例を示すブロック図である。
【００５９】
図５を参照すると、本発明による音声選択装置の第２の実施形態は、音声データを記憶する音声データ記憶手段１０１と、音声認識用のモデルを記憶するモデル記憶手段１０２と、音声認識処理を実行する音声認識手段１０３と、認識結果を比較して認識結果一致度を算出する認識結果一致度算出手段１０４と、音声認識手段１０３が算出した非特定モデルの認識結果を比較して認識結果分散度を算出する認識結果分散度算出手段１１５と、認識結果一致度と認識結果分散度とに基づいて学習に有効な音声を選択する音声選択手段１１６とを含む。
【００６０】
これらの手段はそれぞれ概略つぎのように動作する。なお、音声データ記憶手段１０１、モデル記憶手段１０２、音声認識手段１０３および認識結果一致度算出手段１０４については、第１の実施形態と同様の構成であるため、説明を省略する。
【００６１】
認識結果分散度算出手段１１５は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。認識結果分散度算出手段１１５は、音声認識手段１０３−ｋがモデル記憶手段１０２−ｋが記憶する複数の非特定モデルを用いて音声データ記憶手段１０１が記憶する認識対象音声を入力として認識した結果を、互いに比較し、異なり具合を表す認識結果分散度を算出する機能を備えている。認識結果分散度算出手段１１５は、例えば、式（４）を用いて認識結果分散度Ｄ_ｉを算出する。
【００６２】
【数３】

【００６３】
すなわち、認識結果分散度算出手段１１５は、ある非特定モデルを用いて認識した結果Ｒ_ｉ，ｋを、それ以外のＫ−１個の非特定モデルを用いて認識した結果と比較し、認識結果一致度の算出時と同様にアライメントを取って両者の結果の類似性を求める。また、認識結果分散度算出手段１１５は、これをすべての非特定モデルに対して行い、平均値を求める。これにより、強化したい特定モデルで学習した特徴を含まないデータで学習した非特徴モデルで認識した結果がどれほどばらついているかを求めることができる。
【００６４】
すなわち、認識結果分散度Ｄ_ｉは、その値が小さいときには認識結果がばらついていることを表し、どの非特定モデルにとってもその認識対象音声の内容を十分に学習できていないことを示す。一方、値が大きいときには認識結果間で結果に違いがないことを示し、すなわち認識対象音声の内容は、その特定モデルと同じ特徴が少ない、または非特定モデルで特定モデルと同程度に学習されていると考えられる。
【００６５】
音声選択手段１１６は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。音声選択手段１１６は、認識結果一致度算出手段１０４が算出した認識結果一致度と、認識結果分散度算出手段１１５が算出した認識結果分散度とに基づいて、学習に用いる音声を選択する機能を備えている。その際、音声選択手段１１６は、モデルの作成方針にしたがって、選択する音声をさらに詳細に選ぶことができる。
【００６６】
すなわち、十分に学習できていない発話を選択したい場合には、音声選択手段１１６は、認識結果一致度が小さく、かつ認識結果分散度も小さい発話を選択する。一方、特定モデルを学習したデータと同じ特徴を持った音声を選択し強化したい場合には、音声選択手段１１６は、認識結果一致度が小さく、かつ認識結果分散度が大きい発話を選択する。
【００６７】
図２を用いて具体的に説明すると、音声Ｓ_１に対する認識結果分散度Ｄ_１を求めると、Ｄ_１＝（４＋４＋４）／（３×４）＝１となる。同様に、Ｓ_２、Ｓ_３についても認識結果分散度を求めると、Ｄ_２＝１、Ｄ_３＝０となる。
【００６８】
例えば、認識結果がばらついている発話を選択する場合には、音声選択手段１１６は、認識結果一致度が小さく、かつ認識結果分散度も小さい発話のＳ_３を選択する。このように、図２に示す例において、認識結果がばらついている発話を選択する場合には、音声選択手段１１６は、認識結果一致度Ｃ_ｉ＝０かつ認識結果分散度Ｄ_ｉ＝０の発話を選択する。
【００６９】
また、特定モデルを学習したデータと同じ特徴を持った音声を選択する場合には、音声選択手段１１６は、認識結果一致度が小さく、かつ認識結果分散度が大きいＳ_２を選択する。このように、図２に示す例において、特定モデルを学習したデータと同じ特徴を持った音声を選択する場合には、音声選択手段１１６は、認識結果一致度Ｃ_ｉ＝０かつ認識結果分散度Ｄ_ｉ＝１の発話を選択する。
【００７０】
次に、図６を参照して本実施形態の全体の動作について説明する。図６は、音声選択装置の第２の実施形態の動作例を示す流れ図である。
【００７１】
まず、音声認識手段１０３は、モデル記憶手段１０２−Ｔが記憶する特定モデルと、その他のデータで作成されたモデル記憶手段１０２−ｋが記憶する非特定モデルとを用いて、音声データ記憶手段１０１が記憶する認識対象音声を入力とする音声認識処理を実行する（図６におけるステップＳ２０１）。この際、音声認識手段１０３は、同一の音声に対して、各モデルを用いてそれぞれ音声認識処理を行う。
【００７２】
次いで、認識結果一致度算出手段１０４は、特定モデルを用いて認識した結果と非特定モデルを用いて認識した結果とをそれぞれ比較し、認識結果一致度を算出する（ステップＳ２０２）。
【００７３】
次いで、認識結果分散度算出手段１１５は、非特定モデルを用いて認識した結果をそれぞれ比較し、認識結果分散度を算出する（ステップＳ２０３）。認識結果分散度算出手段１１５は、例えば、式（４）を用いて認識結果分散度Ｄ_ｉを算出する。なお、音声選択装置は、ステップＳ２０２とステップＳ２０３とを順不同で実行してもよい。
【００７４】
最後に、音声選択手段１１６は、ステップＳ２０２で算出した認識結果一致度と、ステップＳ２１３で算出した認識結果分散度とに基づいて、学習に用いる音声（例えば、発話）を選択する（ステップＳ２０４）。
【００７５】
このとき、音声選択手段１１６は、例えば、ユーザの入力操作によって入力されたモデルの作成方針にしたがって、選択する音声をさらに詳細に選択する。
【００７６】
ここで、モデルの作成方針について説明する。本実施形態で示す２つの作成方針は、いずれも特定モデル（だけ）を強化するものである。ただし、この２つの作成方針は、強化する軸（ポイント）が異なる。
【００７７】
具体的に違いを説明すると、認識結果一致度が小さく、認識結果分散度が大きい発話を選択した場合には、特定モデル（だけ）が学習しているような特定の特徴（例えば、話題やタスクなど）をさらに強化することとなる。
【００７８】
また、認識結果一致度が小さく、認識結果分散度も小さい発話を選択した場合には、（どのような特徴を含んでいるかわからないが、）全般的にあまり認識できていないような発話を強化することとなる。
【００７９】
したがって、モデルの作成方針として、特定モデルの強みをさらに強化する場合には、音声選択手段１１６は、認識結果一致度が小さく、認識結果分散度が大きい発話を選択する。また、モデルの作成方針として、特定モデルの弱点を補うように強化する場合には、音声選択手段１１６は、認識結果一致度が小さく、認識結果分散度も小さい発話を選択する。
【００８０】
以上の処理によって、特定のモデルを強化することを目的として学習に有効な音声を選択することができる。
【００８１】
また、第１の実施形態と同様に、上記に示した音声選択装置を発話選択装置に適用することもできる。図７は、発話選択装置の第２の実施形態の構成例を示すブロック図である。図７に示すように、発話選択装置２００は、音声認識手段１０３と、認識結果一致度算出手段１０４と、認識結果分散度算出手段１１５と、音声選択手段１１６と、モデル更新手段２０１とを含む。
【００８２】
上記のステップＳ２０１からＳ２０４の処理を実行することによって音声を選択すると、図７に示されるモデル更新手段２０１は、選択した音声をテキスト等に書き起こし、書き起こしたデータ及びその音声を用いて、モデル記憶手段１０２−Ｔが記憶するモデルを学習し直して、モデルを更新する。
【００８３】
また、音声選択装置は、選択しなかった音声を音声データ記憶手段１０１に出力し、再度音声認識処理を行う。なお、この一連の処理のサイクルを所定の回数または何らかの条件を満たすまで行うようにしてもよい。
【００８４】
次に、本実施形態の効果について説明する。
【００８５】
本実施形態では、第１の実施形態の構成に加えて、認識結果分散度算出手段１１５と、音声選択手段１１６とを備えている。そして、認識結果分散度算出手段１１５が、非特徴モデルの認識結果を比較して、そのばらつき度合いを表す認識結果分散度を求め、音声選択手段１１６は、認識結果一致度と認識結果分散度とに基づいて、音声を選択する。そのため、本実施形態では、認識結果がばらついている音声と特定モデルの認識結果のみ結果が異なる音声とを区別して選択することができる。すなわち、モデルの学習方針に応じて、より効果的に音声を選択することができる。
【００８６】
以上に説明したように、本発明による音声選択装置は、ある特徴（例えば強化したい話者や、話題、タスクなど）を持ったデータから学習された特定のモデルおよび特定のモデル以外の複数のモデル（非特定モデル）を記憶するモデル記憶手段と、音声データを記憶する音声データ記憶手段と、音声認識処理を実行する音声認識手段と、特定モデルの認識結果と非特定モデルの認識結果との一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて学習に有効な音声を選択する音声選択手段とを備えている。
【００８７】
本発明による音声選択装置は、特定モデルと１つ以上の非特定モデルとを備え、認識結果一致度算出手段が特定モデルの認識結果と非特定モデルの認識結果とを比較して認識結果の一致の度合いを求める。このため、音声データ記憶手段が記憶する認識した音声（認識対象音声）から特定モデルを更に強化するための学習に有効な音声を選択することができる。すなわち、認識結果一致度算出手段が特定モデルの認識結果と非特定モデルの認識結果との違いを求めることにより、特定モデルと同じ特徴（例えば同じ話者や同じ話題、同じタスクなど）を持った音声も抽出できるため、特定モデルにとって学習に有効な音声を選択することができる。
【００８８】
次に、本発明による音声選択装置の最小構成について説明する。図９は、音声選択装置の最小の構成例を示すブロック図である。図９に示すように、音声選択装置は、最小の構成要素として、音声認識手段１０３と、認識結果一致度算出手段１０４と、音声選択手段１０６とを含む。
【００８９】
図９に示す最小構成の音声選択装置では、音声認識手段１０３は、音声データを複数のモデルを用いて音声認識処理を実行する。次いで、認識結果一致度算出手段１０４は、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を示す認識結果一致度を算出する。次いで、音声選択手段１０６は、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する。
【００９０】
従って、最小構成の音声選択装置によれば、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。
【００９１】
なお、本実施形態では、以下の（１）〜（５）に示すような音声選択装置の特徴的構成と、（６）〜（７）に示すような発話選択装置の特徴的構成とが示されている。
【００９２】
（１）音声選択装置は、音声データと、特定のモデル（例えば、モデル記憶手段１０２−Ｔが記憶するモデル）を含む複数のモデルとを入力とし、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段（例えば、音声認識手段１０３によって実現される）と、特定のモデルと特定のモデル以外のモデル（例えば、モデル記憶手段１０２−１から１０２−Ｋが記憶するモデル）とを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度（例えば、Ｃ_ｉによって示される）を算出する認識結果一致度算出手段（例えば、認識結果一致度算出手段１０４によって実現される）と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段（例えば、音声選択手段１０６によって実現される）とを備えたことを特徴とする。
【００９３】
（２）音声選択装置において、音声選択手段は、認識結果一致度が低い音声を選択するように構成されていてもよい。
【００９４】
（３）音声選択装置において、特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度（例えば、Ｄ_ｉによって示される）を算出する認識結果分散度算出手段（例えば、認識結果分散度算出手段１１５によって実現される）を備え、音声選択手段（例えば、音声選択手段１１６によって実現される）は、認識結果分散度と認識結果一致度とに基づいて、音声データから特定のモデルの学習に用いる音声を選択するように構成されていてもよい。
【００９５】
（４）音声選択装置において、音声選択手段は、認識結果分散度が低い音声を選択するように構成されていてもよい。
【００９６】
（５）音声選択装置において、音声選択手段は、認識結果分散度が高い音声を選択するように構成されていてもよい。
【００９７】
（６）発話選択装置は、音声データと、特定のモデル（例えば、モデル記憶手段１０２−Ｔが記憶するモデル）を含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段（例えば、音声認識手段１０３によって実現される）と、特定のモデルと特定のモデル以外のモデル（例えば、モデル記憶手段１０２−１から１０２−Ｋが記憶するモデル）とを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度（例えば、Ｃ_ｉによって示される）を算出する認識結果一致度算出手段（例えば、認識結果一致度算出手段１０４によって実現される）と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段（例えば、音声選択手段１１６によって実現される）と、音声選択手段が選択した音声をテキストデータに書き起こし、書き起こしたテキストデータと音声とを用いて、特定のモデルを更新するモデル更新手段（例えば、モデル更新手段２０１によって実現される）と、書き起こさなかった音声データを記憶する音声データ記憶手段（例えば、音声データ記憶手段１０１によって実現される）とを備えたことを特徴とする。
【００９８】
（７）発話選択装置は、特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度（例えば、Ｄ_ｉによって示される）を算出する認識結果分散度算出手段（例えば、認識結果分散度算出手段１１５によって実現される）を備え、音声選択手段は、認識結果分散度と認識結果一致度とに基づいて、音声データから特定のモデルの学習に用いる音声を選択するように構成されていてもよい。
【００９９】
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
【０１００】
（付記１）音声選択手段は、認識結果一致度が低い音声を選択する請求項６記載の発話選択装置。
【０１０１】
（付記２）音声選択手段は、認識結果分散度が低い音声を選択する請求項７記載の発話選択装置。
【０１０２】
（付記３）音声選択手段は、認識結果分散度が高い音声を選択する請求項７記載の発話選択装置。
【産業上の利用可能性】
【０１０３】
本発明は、音声認識処理の認識精度を高める用途に適用可能である。
【符号の説明】
【０１０４】
１０１音声データ記憶手段
１０２モデル記憶手段
１０３音声認識手段
１０４認識結果一致度算出手段
１０６，１１６音声選択手段
１１５認識結果分散度算出手段
２００発話選択装置
２０１モデル更新手段

【特許請求の範囲】
【請求項１】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段とを
備えたことを特徴とする音声選択装置。
【請求項２】
音声選択手段は、認識結果一致度が低い音声を選択する
請求項１記載の音声選択装置。
【請求項３】
特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度を算出する認識結果分散度算出手段を備え、
音声選択手段は、前記認識結果分散度と認識結果一致度とに基づいて、音声データから前記特定のモデルの学習に用いる音声を選択する
請求項１または請求項２記載の音声選択装置。
【請求項４】
音声選択手段は、認識結果分散度が低い音声を選択する
請求項３記載の音声選択装置。
【請求項５】
音声選択手段は、認識結果分散度が高い音声を選択する
請求項３記載の音声選択装置。
【請求項６】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段と、
音声選択手段が選択した音声をテキストデータに書き起こし、書き起こした前記テキストデータと前記音声とを用いて、前記特定のモデルを更新するモデル更新手段と、
書き起こさなかった音声データを記憶する音声データ記憶手段とを
備えたことを特徴とする発話選択装置。
【請求項７】
特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度を算出する認識結果分散度算出手段を備え、
音声選択手段は、前記認識結果分散度と認識結果一致度とに基づいて、音声データから前記特定のモデルの学習に用いる音声を選択する
請求項６記載の発話選択装置。
【請求項８】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段とを
含むことを特徴とする音声選択システム。
【請求項９】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行し、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出し、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する
ことを特徴とする音声選択方法。
【請求項１０】
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識を行う音声認識処理と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出処理と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択処理とを
実行させるための音声選択プログラム。

【図１】