説明

音声認識誤り分析装置、方法、プログラム及びその記録媒体

【課題】言語モデルにおいて認識誤りを起こしやすい部分を特定する。
【解決手段】言語モデルを用いて音声信号に対して音声認識処理を行い、認識単語列を割り当てる。認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される認識誤り単語列と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを認識単語列から抽出する。認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する。認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する。言語モデルを用いて、開始部誤り二単語組と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低開始部正解二単語組を抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識技術に関する。特に、言語モデルにおける音声認識誤りの原因を分析する音声認識誤り分析装置、方法、プログラム及びその記録媒体に関する。
【背景技術】
【0002】
音声認識エンジンを構成する音響モデル、言語モデルを改善する際には、認識誤りを起こしやすい部分から改善すると効率が良い。
【0003】
入力音声がどの音素に近いかを判定する音響モデルにおいては、Confusion Matrixを作成することにより認識誤りを起こしやすい部分を特定することができる。Confusion Matrixは、全ての音素について、別のどの音素と混同しやすいかを表にしたものである。Confusion Matrixを作成して混同しやすい音素を特定した上で、その混同しやすい音素から改善を行うことで、音響モデルを効率良く改善して行くことができる。
【0004】
一方、言語モデルの性能の分析方法としては、パープレキシティによって言語モデルを評価する方法がよく用いられている(例えば、非特許文献1参照。)。音声認識では、言語モデルで計算された単語連鎖確率を用いて、認識単語候補の絞り込みを行っている。パープレキシティは、認識語彙に含まれる各単語から、次の単語への平均分岐数を示す値であり、その値が大きいほど認識単語候補を絞り込みにくい言語モデルであるということを表す。
【0005】
しかし、パープレキシティの値からは、具体的にどの単語列で候補を絞り込みにくいのかわからないため、言語モデルにおける認識誤りを起こしやすい部分を特定することはできない。
【非特許文献1】Lawrence Rabiner(著),Biing-Hwang Juang(著),古井定煕(翻訳),「音声認識の基礎(下)」,NTTアドバンステクノロジ株式会社,1995年,P.263−265
【発明の開示】
【発明が解決しようとする課題】
【0006】
上記したように、非特許文献1に記載された言語モデルの性能の分析方法では、言語モデルにおける認識誤りを起こしやすい部分を特定することができないという問題があった。
【0007】
この発明は、言語モデルにおいて認識誤りを起こしやすい部分を特定する音声認識誤り分析装置、方法、プログラム及びその記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0008】
この発明の1つの観点によれば、言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列(以下、認識単語列とする。)を割り当てる。認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列(以下、認識誤り単語列とする。)と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを認識単語列から抽出する。認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する。認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する。言語モデルを用いて、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組(以下、低開始部正解二単語組とする。)を抽出する。
【発明の効果】
【0009】
開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い低開始部正解二単語組は、認識誤りが発生する原因となる単語列である。したがって、低開始部正解二単語組を抽出することにより、言語モデルにおける認識誤りを起こしやすい部分を特定することができる。
【発明を実施するための最良の形態】
【0010】
以下、図面を参照してこの発明の実施形態の例を説明する。
【0011】
[第一実施形態]
認識誤りは数単語に亘って連続して生じる傾向があり、認識誤りの原因は、(1)認識誤りの開始の原因と、(2)認識誤りの拡大の原因の2つに分けることができる。第一実施形態は、認識誤りの原因のうち、認識誤りの開始の原因となり得る部分を特定するものである。
【0012】
図1,4を参照してこの発明の第一実施形態の例を説明する。図1は、音声認識誤り分析装置の例の機能ブロック図である。図4は、音声認識誤り分析方法の処理の流れを例示するフローチャートである。
【0013】
第一実施形態の音声認識誤り分析装置1は、図1において実線で示す、音声認識部11、認識誤り区間抽出部12、開始部二単語組抽出部21,開始部単語連鎖確率計算部22及び低開始部正解二単語組抽出部23を例えば備える。
【0014】
<ステップS1>
音声認識部11は、音響モデル、言語モデル及び認識辞書を用いて、音声信号に対して音声認識処理を行い、その音声信号に対してその音声認識処理の結果である単語列を割り当てる。割り当てられた単語列を、認識単語列とする。認識単語列の各単語には、始端時刻と終端時刻が付与される。認識単語列は、認識誤り区間抽出部12に送られる。
音声認識処理の概要については、例えば参考文献1を参照のこと。
【0015】
〔参考文献1〕政瀧浩和,外5名,「顧客との自然な会話を聞き取る自由発話音声認識技術『VoiceRex』」,NTT技術ジャーナル,2006年11月,No.18,vol.11,p.15−18
例えば、音声認識部11は、「インターネットが繋がらない」という文を少なくとも含む音声信号に対して音声認識処理を行い、図5に実線で示すように、その「インターネットが繋がらない」という音声信号部分に「(インターネット)(勝つ)(な)(が)(荒)(ない)」という単語列を含む認識単語列を割り当てる。
【0016】
<ステップS2>
認識誤り区間抽出部12は、認識単語列と、その認識単語列に対応する正解単語列とを比較して、認識誤り単語列と、その認識誤り単語列及びその前後一単語とから構成される認識誤り区間とを抽出する。
【0017】
認識誤り単語列とは、認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列のことである。抽出された認識誤り単語列と認識誤り区間は、開始部二単語組抽出部21に送られる。
【0018】
図5に示した例では、認識単語列と、その認識単語列に対応する正解単語列とは、(勝つ)(な)(が)(荒)という連続する4つの単語の部分で一致しない。したがって、(勝つ)(な)(が)(荒)が認識誤り単語列となる。また、この認識誤り単語列に、その前の単語(インターネット)と、その後ろの単語(ない)を加えた(インターネット)(勝つ)(な)(が)(荒)(ない)が、認識誤り区間となる。
【0019】
一般に、音声認識部11の音声認識処理により、複数の認識誤り区間が認識誤り区間抽出部12により抽出される。以下の処理は、各複数の認識誤り区間ごとに行われる。
【0020】
<ステップS3>
開始部二単語組抽出部21は、図2に例示するように、開始部誤り二単語組抽出部211と開始部正解二単語組抽出部212とを含む。
【0021】
開始部誤り二単語組抽出部211は、認識誤り単語列と認識誤り区間とから、開始部誤り二単語組を抽出する。抽出された開始部誤り二単語組は、開始部単語連鎖確率計算部22に送られる。
開始部誤り二単語組とは、認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される二単語である。
【0022】
図5に示した例では、認識誤り区間の最初の単語である(インターネット)と、認識誤り単語列の最初の単語である(勝つ)とから構成される二単語(インターネット)(勝つ)が、開始部誤り二単語組となる。
【0023】
<ステップS4>
開始部二単語組抽出部21の開始部正解二単語組抽出部212は、認識誤り区間と、認識誤り単語列に対応する正解単語列とから、開始部正解二単語組を抽出する。抽出された開始部正解二単語組は、開始部単語連鎖確率計算部22に送られる。
開始部正解二単語組とは、認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される二単語である。
【0024】
図5に示した例では、認識誤り区間の最初の単語(インターネット)と、認識誤り単語列に対応する正解単語列の最初の単語(が)とから構成される二単語(インターネット)(が)が、開始部正解二単語組となる。
【0025】
<ステップS5>
開始部単語連鎖確率計算部22は、音声認識部11が用いたのと同じ言語モデルを用いて、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。計算された単語連鎖確率は、計算の元になった開始部誤り二単語組又は開始部正解二単語組と共に、低開始部正解二単語組抽出部23に送られる。
【0026】
単語連鎖確率とは、言語モデルを用いて計算される、二単語組の1つ目の単語からその二単語組の2つ目の単語に連鎖する確率のことである(例えば、参考文献2参照。)。
【0027】
〔参考文献2〕Lawrence Rabiner(著),Biing-Hwang Juang(著),古井定煕(翻訳),「音声認識の基礎(下)」,NTTアドバンステクノロジ株式会社,1995年,P.262−263
<ステップS6>
低開始部正解二単語組抽出部23は、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組を抽出する。開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組を、低開始部正解二単語組とする。
【0028】
低開始部正解二単語組は、その単語連鎖確率が開始部誤り二単語組の単語連鎖確率よりも低いため、認識誤りが開始する原因となり得る。したがって、上記のように低開始部正解二単語組を抽出することにより、言語モデルにおいて認識誤りを起こしやすい部分を特定することができる。より詳細には、言語モデルにおいて認識誤りを起こしやすい部分の内、認識誤りの開始の原因となり得る部分を特定することができる。
【0029】
認識誤りの開始の原因となる低開始部正解二単語組に、対応する開始部誤り二単語組よりも低い単語連鎖確率が割り当てられているのは、言語モデル学習データとして用いるテキストに、その低開始部正解二単語が出現しないか、その出現回数が少ないために、適切な確率を学習できていないことが原因と考えられる。したがって、低開始部正解二単語がよく現れるテキストを、言語モデル学習用データとして使うことで改善を行うことができる。
【0030】
[第二実施形態]
以下、第二実施形態の例を説明する。先に述べたように、認識誤りは数単語に亘って連続して生じる傾向があり、認識誤りの原因は、(1)認識誤りの開始の原因と、(2)認識誤りの拡大の原因の2つに分けることができる。第二実施形態は、これら両方の原因を特定するものである。
【0031】
以下、第二実施形態の例を説明するが、第一実施形態と異なる部分についてのみ説明し、第一実施形態と同様な部分については重複説明を省略する。
【0032】
第二実施形態の音声認識誤り分析装置は、第一実施形態の音声認識誤り分析装置1の各部に加えて、図1に破線で例示する、区間内二単語組抽出部31、区間内単語連鎖確率計算部32及び高区間内誤り二単語組抽出部33を例えば備える。また、第二実施形態の音声認識誤り分析方法においては、第一実施形態の音声認識誤り分析装置1の各処理に加えて、図4に破線で例示するステップS7からS10の処理を行う。
【0033】
<ステップS2>
認識誤り区間抽出部12は、抽出した認識誤り単語列を区間内二単語組抽出部31に送る。認識誤り区間を区間内二単語組抽出部31に送る必要はない。
【0034】
<ステップS7>
区間内二単語組抽出部31は、図3に例示するように、区間内誤り二単語組抽出部311と、正解復帰二単語組抽出部312とを含む。
【0035】
区間内誤り二単語組抽出部311は、認識誤り単語列から、区間内誤り二単語組をすべて抽出する。抽出された区間内誤り二単語組は、正解復帰二単語組抽出部312と、区間内単語連鎖確率計算部32に送られる。
区間内誤り二単語組とは、認識誤り単語列内の連続する2つの単語の組のことである。
【0036】
図5に示した例では、(勝つ)(な)、(な)(が)及び(が)(荒)がそれぞれ区間内誤り二単語組となる。
【0037】
<ステップS8>
区間内二単語組抽出部31の正解復帰二単語組抽出部312は、区間内誤り二単語組と、正解単語列とから、正解復帰二単語組を区間内誤り二単語組ごとに抽出する。抽出された正解復帰二単語組は、区間内単語連鎖確率計算部32に送られる。
【0038】
正解復帰二単語組とは、区間内誤り二単語組の1つ目の単語と、その1つ目の単語の始端よりも時間的に後にあり、その1つ目の単語の終端に時間的に最も近い始端を有する正解単語列内の単語とから構成される単語列のことである。
【0039】
図5に示した例では、区間内誤り二単語組(勝つ)(な)に対応する正解復帰二単語組は、(勝つ)(繋が)である。すなわち、区間内誤り二単語組(勝つ)(な)の1つ目の単語である(勝つ)の始端よりも時間的に後ろにある、正解単語列内の単語は(繋が)と(ら)である。(繋が)と(ら)の内、(勝つ)の終端に時間的に最も近い始端を有するのは、(繋が)である。(勝つ)の終端と(繋が)の始端との時間的な距離の方が、(勝つ)の終端と(ら)の始端との時間的な距離よりも短いからである。したがって、区間内誤り二単語組(勝つ)(な)に対応する正解復帰二単語組は、(勝つ)(繋が)となるのである。同様に、区間内誤り二単語組(な)(が)に対応する正解復帰二単語組は(な)(ら)であり、区間内誤り二単語組(が)(荒)に対応する正解復帰二単語組は(が)(ら)となる。
【0040】
<ステップS9>
区間内単語連鎖確率計算部32は、音声認識部11が用いたのと同じ言語モデルを用いて、区間内誤り二単語組の単語連鎖確率と正解復帰二単語組の単語連鎖確率をそれぞれ計算する。計算された単語連鎖確率は、計算の元になった区間内誤り二単語組又は正解復帰二単語組と共に、高区間内誤り二単語組抽出部33に送られる。
【0041】
<ステップS10>
高区間内誤り二単語組抽出部33は、区間内誤り二単語組の単語連鎖確率と、それに対応する正解復帰二単語組の単語連鎖確率とを比較して、正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組を抽出する。正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組を、高区間内誤り二単語組とする。
【0042】
高区間内誤り二単語組は、その単語連鎖確率が正解復帰二単語組の単語連鎖確率よりも高いため、認識誤りを拡大する原因となり得る。したがって、上記のように高区間内誤り二単語組を抽出することにより、言語モデルにおいて認識誤りを起こしやすい部分を特定することができる。より詳細には、言語モデルにおいて認識誤りを起こしやすい部分の内、認識誤りを拡大する原因となり得る部分を特定することができる。
【0043】
認識誤りの拡大の原因となる高区間内誤り二単語組により高い単語連鎖確率が割り当てられていることは、その高区間内誤り二単語組が偏って多く現れるテキストを言語モデル学習データとして用いていることが原因と考えられる。したがって、この高区間内誤り二単語に偏らないように言語モデル学習に使うテキストを選択することにより改善を行うことができる。
【0044】
[変形例]
図1に一点鎖線で示す開始部出現頻度集計部24が、低開始部正解二単語組の出現頻度を求めてもよい(ステップS11,図4)。例えば、低開始部正解二単語組抽出部23が抽出した各低開始部正解二単語組の数をカウントして、各低開始部正解二単語組に出現頻度としてそのカウント数を割り当てる。また、例えば、低開始部正解二単語組の出現頻度=(その低開始部正解二単語組のカウント数)/(低開始部正解二単語組のカウント数の総和)とし、各低開始部正解二単語組に出現頻度として割合を割り当ててもよい。
【0045】
このように、開始部出現頻度集計部24を設けることにより、低開始部正解二単語組の中で出現頻度が高いものを抽出することが可能となり、改善すべき低開始部正解二単語組を絞り込むことができる。
【0046】
同様に、図1に一点鎖線で示す区間内出現頻度集計部34が、高区間内誤り二単語組の出現頻度を求めてもよい(ステップS12,図4)。これにより、高区間内誤り二単語組の中で出現頻度が高いものを抽出することが可能となり、改善すべき高区間内誤り二単語組を絞り込むことができる。
【0047】
上述の構成をコンピュータによって実現する場合、音声認識誤り分析装置の各部が有する機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。
【0048】
すなわち、CPUが各プログラムを逐次読み込んで実行することにより、音声認識部11、認識誤り区間抽出部12、開始部二単語組抽出部21、開始部単語連鎖確率計算部22、低開始部正解二単語組抽出部23、開始部出現頻度集計部24、区間内二単語組抽出部31、区間内単語連鎖確率計算部32、高区間内誤り二単語組抽出部33及び区間内出現頻度集計部34の機能がそれぞれ実現される。この場合、音声認識誤り装置の各部として機能するCPUは、メモリ、ハードディスク等の記録媒体から読み込み込んだデータに対して処理を行い、処理を行った後のデータを記録媒体に格納する。
【0049】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0050】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0051】
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を基底する性質を有するデータ等)を含むものとする。
【0052】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0053】
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。例えば、図4において、ステップS3の処理とステップS4の処理とを並列に行ってもよい。同様に、ステップS7の処理とステップS8の処理とを並列に行ってもよい。また、ステップS3からステップS6までの処理と、ステップS7からステップS10までの処理とを並列に行ってもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【図面の簡単な説明】
【0054】
【図1】音声認識誤り分析装置の例の機能ブロック図。
【図2】開始部二単語組抽出部の例の機能ブロック図。
【図3】区間内二単語組抽出部の例の機能ブロック図。
【図4】音声認識誤り分析方法の処理の流れを例示するフローチャート。
【図5】認識誤り単語列、認識誤り区間、開始部誤り二単語組、開始部正解二単語組、区間内誤り二単語組及び正解復帰二単語組等の例を表す図。
【符号の説明】
【0055】
1 音声認識誤り分析装置
11 音声認識部
12 誤り認識区間抽出部
21 開始部二単語組抽出部
22 開始部単語連鎖確率計算部
23 低開始部正解二単語組抽出部
24 開始部出現頻度集計部
31 区間内二単語組抽出部
32 区間内単語連鎖確率計算部
33 高区間内誤り二単語組抽出部
34 区間内出現頻度集計部
211 開始部二単語組抽出部
212 開始部正解二単語組抽出部
311 区間内二単語組抽出部
312 正解復帰二単語組抽出部

【特許請求の範囲】
【請求項1】
言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列(以下、認識単語列とする。)を割り当てる音声認識部と、
認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列(以下、認識誤り単語列とする。)と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを上記認識単語列から抽出する認識誤り区間抽出部と、
上記認識誤り区間の最初の単語と、上記認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する開始部誤り二単語組抽出部と、
上記認識誤り区間の最初の単語と、上記認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する開始部正解二単語組抽出部と、
上記言語モデルを用いて、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率をそれぞれ計算する開始部単語連鎖確率計算部と、
上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組(以下、低開始部正解二単語組とする。)を抽出する低開始部正解二単語組抽出部と、
を備える音声認識誤り分析装置。
【請求項2】
請求項1に記載の音声認識誤り分析装置において、
認識誤り単語列内の連続する2つの単語の組(以下、区間内誤り二単語組とする。)のすべてを上記認識誤り単語列から抽出する区間内誤り二単語組抽出部と、
区間内誤り二単語組の1つ目の単語と、その1つ目の単語の始端よりも時間的に後にあり、その1つ目の単語の終端に時間的に最も近い始端を有する上記正解単語列内の単語とから構成される正解復帰二単語組を各上記区間内誤り二単語組ごとに抽出する正解復帰二単語組抽出部と、
上記言語モデルを用いて、上記区間内誤り二単語組の単語連鎖確率と上記正解復帰二単語組の単語連鎖確率をそれぞれ計算する区間内単語連鎖確率計算部と、
上記区間内誤り二単語組の単語連鎖確率と、その区間内誤り二単語組に対応する正解復帰二単語組の単語連鎖確率とを比較して、上記正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組(以下、高区間内誤り二単語組とする。)を抽出する高区間内誤り二単語組抽出部と、
を更に備える音声認識誤り分析装置。
【請求項3】
請求項1又は2に記載の音声認識誤り分析装置において、
上記低開始部正解二単語組の出現頻度を求める開始部出現頻度集計部、
を更に備える音声認識誤り分析装置。
【請求項4】
請求項1から3の何れかに記載の音声認識誤り分析装置において、
上記高区間内誤り二単語組の出現頻度を求める区間内出現頻度集計部、
を更に備える音声認識誤り分析装置。
【請求項5】
音声認識部が、言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列(以下、認識単語列とする。)を割り当てる音声認識ステップと、
認識誤り区間抽出部が、認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列(以下、認識誤り単語列とする。)と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを上記認識単語列から抽出する認識誤り区間抽出ステップと、
開始部誤り二単語組抽出部が、上記認識誤り区間の最初の単語と、上記認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する開始部誤り二単語組抽出ステップと、
開始部正解二単語組抽出部が、上記認識誤り区間の最初の単語と、上記認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する開始部正解二単語組抽出ステップと、
開始部単語連鎖確率部が、上記言語モデルを用いて、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率をそれぞれ計算する開始部単語連鎖確率計算ステップと、
低開始部正解二単語組抽出部が、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組(以下、低開始部正解二単語組とする。)を抽出する低開始部正解二単語組抽出ステップと、
を有する音声認識誤り分析方法。
【請求項6】
請求項5に記載の音声認識誤り分析方法において、
区間内誤り二単語組抽出部が、認識誤り単語列内の連続する2つの単語の組(以下、区間内誤り二単語組とする。)のすべてを上記認識誤り単語列から抽出する区間内誤り二単語組抽出ステップと、
正解復帰二単語組抽出部が、区間内誤り二単語組の1つ目の単語と、その1つ目の単語の始端よりも時間的に後にあり、その1つ目の単語の終端に時間的に最も近い始端を有する上記正解単語列内の単語とから構成される正解復帰二単語組を各上記区間内誤り二単語組ごとに抽出する正解復帰二単語組抽出ステップと、
区間内単語連鎖確率計算部が、上記言語モデルを用いて、上記区間内誤り二単語組の単語連鎖確率と上記正解復帰二単語組の単語連鎖確率をそれぞれ計算する区間内単語連鎖確率計算ステップと、
高区間内誤り二単語組抽出部が、上記区間内誤り二単語組の単語連鎖確率と、その区間内誤り二単語組に対応する正解復帰二単語組の単語連鎖確率とを比較して、上記正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組(以下、高区間内誤り二単語組とする。)を抽出する高区間内誤り二単語組抽出ステップと、
を更に有する音声認識誤り分析方法。
【請求項7】
請求項5又は6に記載の音声認識誤り分析方法において、
開始部出現頻度集計部が、上記低開始部正解二単語組の出現頻度を求める開始部出現頻度集計ステップ、
を更に有する音声認識誤り分析方法。
【請求項8】
請求項5から7の何れかに記載の音声認識誤り分析方法において、
区間内出現頻度集計部が、上記高区間内誤り二単語組の出現頻度を求める区間内出現頻度集計ステップ、
を更に有する音声認識誤り分析方法。
【請求項9】
請求項1から4の何れかに記載の音声認識誤り分析装置の各部としてコンピュータを機能させるための音声認識誤り分析プログラム。
【請求項10】
請求項9に記載の音声認識誤り分析プログラムが記録されたコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−198646(P2009−198646A)
【公開日】平成21年9月3日(2009.9.3)
【国際特許分類】
【出願番号】特願2008−38468(P2008−38468)
【出願日】平成20年2月20日(2008.2.20)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】