説明

口語技能の評価

【課題】 話者の1つ又は複数の口語言語技能を評価するための技術を提供すること。
【解決手段】 本技術は、話者により発声された音声パッセージにおいて、1つ又は複数の対象となる時間的位置を識別するステップと、1つ又は複数の音響パラメータを計算するステップであって、1つ又は複数の音響パラメータが、1つ又は複数の対象となる位置の1つ又は複数の音響音声学的特徴の1つ又は複数の特性を捉えるステップと、口語言語技能評価の出力を修正するために1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるステップとを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、一般に情報技術に関し、より詳細には音声認識に関する。
【背景技術】
【0002】
口語文法技能を評価することは、志望者(candidate)又は個人の全体的な口語英語技能を評価する上での主要な要素である。また、口語英語技能の習得及び向上に対する関心の急増は、インターネット人気の上昇と相まって、コンピュータ支援言語学習(CALL)分野における関心を高めることとなった。既存のCALLシステムの手法の多くは、発音、及び/又は音節の強勢を評価することに焦点を合わせている。しかしながら、このような手法は、口語文法の評価には焦点を合わせていない。さらに、既存のCALLシステムによる評価は、人間の評価者によって実施されており、主観性、スケーラビリティの欠如、高コストなどに繋がっている。
【0003】
従来の手法において、口語文法技能を評価するには、志望者は与えられた話題について話すように求められ、人間の評価者が、志望者が犯した文法的誤りの類型及び頻度に基づいて志望者を評価する。しかしながら、現在用いられている自動音声認識(ASR:automatic speech recognition)システムの精度は、自発的で自由な話し言葉に対しては比較的低く、ASRにおいて重要な役割を果たす言語モデル(LM:languagemodel)は、文法的に正しくない文を認識する確率を著しく低下させるので、このような手法は口語文法の自動評価においては困難である。
【0004】
既存の自動化手法では、志望者に対して、文法的誤りを含んでいる可能性があるプロンプトが再生される。志望者には、文法的誤りを検知し、対応する文法的に正しい文を録音することが期待され、その後、その文を予め選択された文の集合を含むLMを備えたASRシステムによってデコードすることができる。しかしながら、このような手法でもなお誤認識が生じることがある。例えば、LMの中の2つ(又はそれ以上)の文が音響学的に互いに近い場合(例えば、「he kill a snake(彼はヘビ殺す)」に対する「he killed a snake(彼はヘビを殺した)」)、このような手法は誤りを犯す。この場合には、実際に発声された文とは異なる文が認識される可能性が非常に高い。
【0005】
また、このような手法において、志望者がLMに存在しない文を発声したがASRはそれをLMに存在する文の1つとして高い信頼度をもって認識したという場合に、問題が生じ得る。このことは、発声された文がLMの中に存在する文の1つに音響学的に類似している場合に起こり得る。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、話者の1つ又は複数の口語言語技能を評価するための技術を提供することにある。
【課題を解決するための手段】
【0007】
本発明の原理及び実施形態は、口語技能を評価するための技術を提供する。本発明の1つの態様による、話者の1つ又は複数の口語言語技能を評価するための1つの例示的な方法(コンピュータによって実施することができる)は、話者により発声された音声パッセージにおいて、1つ又は複数の対象となる時間的位置を識別するステップと、1つ又は複数の音響パラメータを計算するステップであって、1つ又は複数の音響パラメータが、1つ又は複数の対象となる位置の1つ又は複数の音響音声学的特徴の1つ又は複数の特性を捉えるステップと、口語言語技能評価の出力を修正するために1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わるステップとを含むことができる。
【0008】
本発明又はその要素の1つ又は複数の実施形態は、示された方法ステップを実施するためのコンピュータ使用可能プログラム・コードを有するコンピュータ使用可能媒体を含むコンピュータ製品の形で実施することができる。さらに、本発明又はその要素の1つ又は複数の実施形態は、メモリと、メモリに結合され、例示的な方法ステップを実施するように動作する少なくとも1つのプロセッサとを含む装置又はシステムの形で実施することができる。さらにまた、別の態様において、本発明又はその要素の1つ又は複数の実施形態は、ここで説明される方法ステップのうちの1つ又は複数を実行するための手段の形で実施することができ、その手段は、ハードウェア・モジュール、ソフトウェア・モジュール、又はハードウェア・モジュールとソフトウェア・モジュールとの組み合わせを含むことができる。
【0009】
本発明のこれらの及びその他の目的、特徴及び利点は、添付の図面との関連で読むべき以下の本発明の例示的な実施形態の詳細な説明から明らかとなる。
【図面の簡単な説明】
【0010】
【図1】本発明の実施形態による、口語文法評価ストラテジーを示す図である。
【図2】本発明の実施形態による、例示的なスペクトルを示す図である。
【図3】本発明の実施形態による、異なる音声クラスについての異なる音響パラメータの領域境界の推定を示す図である。
【図4】本発明の1つの実施形態による、話者の1つ又は複数の口語言語技能を評価するための技術を示す流れ図である。
【図5】本発明の少なくとも1つの実施形態をその上で実施することができる例示的なコンピュータ・システムのシステム図である。
【発明を実施するための形態】
【0011】
本発明の原理は、口語言語技能(例えば、口語英語技能)を評価するために、自動音声認識(ASR)システムに音響音声学を組み合わせることを含む。本発明の1つ又は複数の実施形態は、制約を受けない連続的な話し言葉の中の文法的に正しくない構文を検出することによって、口語英語技能を自動的に評価する。ここで説明される技術は、音響的な相違点の時間的位置に焦点を合わせること、及び、音響学的に類似した選択肢の集合の中から発声された発話を識別することによって、ASRシステムの性能を改善することを可能にする。
【0012】
ここで詳述されるように、本発明の1つ又は複数の実施形態は、相違点の音響音声学的特徴の突出した特性を捉える音響パラメータを計算することを含む。また、音響パラメータから得られた音声領域の音響的識別(acoustic identity)に関する情報を、標準的な音声認識システムから得られる音響的識別と組み合わせることもできる。
【0013】
上で詳しく述べた既存の手法の短所とは対照的に、本発明の1つ又は複数の実施形態は、摩擦音と閉鎖音と母音との間での3方向の弁別を行うための新規な音響パラメータ(ここでは「オンセット・コヒーレンス」と呼ばれる)を計算するのみならず、音声認識装置からの出力に対する後処理ステップとして音響音声学的パラメータを用いる。さらに、ここで説明される技術は、予想される音声的識別に基づいて物理的音声信号の分析(即ち、音響パラメータの計算)を変更し、ASRからの時間整合(time alignment)情報を用いて認識精度を向上させるための更なる分析を行うことができる。さらに、本発明の1つ又は複数の実施形態は、ASRの出力と音響パラメータから得られた音声的識別とを組み合わせて最終的な出力を決定し、それを口語文法の評価及び発音の評価に適用することを含む。
【0014】
ここで説明されるように、本発明の1つ又は複数の実施形態は、例えば、話者の発音能力を評価すること、発声された発話の中の文法的に正しくない(GI:grammatically incorrect)構文を検出すること、基礎をなす言語モデル(LM)が音響学的に類似した選択肢を含む場合に自動音声認識(ASR)システムの性能を改善することなどのために用いることができる。さらに、ここで詳述される技術は、口語言語技能の評価及びフィードバックの提供に焦点を合わせた用途において用いることができる。
【0015】
ここで言及されているように、本発明の1つ又は複数の実施形態は、対象となる時間領域である可能性が高そうなところに注意を集中し、その音声成分を分析する。発音能力を評価するための対象となる時間領域は、事前定義されたインパクト音(例えば、/zh/、/s/、など)の集合に対応する領域とすることができる。他の事例についての対象となる時間領域は、例えば、音響相違点が顕著である領域とすることができる。本発明の1つ又は複数の実施形態によって用いられる音響パラメータの集合及び分析ストラテジーは、予想される音声成分及び予想される音響相違点に依存したものとすることができる。ここで説明される技術は、言語障害者の音声プロファイリングのために実施することもできる。
【0016】
ここで言及されているように、本発明の1つ又は複数の実施形態は、口語英語技能の種々の局面を評価するために、音響音声学の知見を統計学的ASRシステムと組み合わせることを含む。本発明の1つの例示的な実施形態において、本技術は2つの段階を含むことができる。第1段階において、ドメイン特化型LMを備えた標準的なASRシステムを用いて、音レベル及び語レベルの仮説、並びに対応する時間整合が取得される。第2段階における分析は、目的とする用途に依存する。
【0017】
例として、競合する選択肢が音響学的に類似しているシナリオを考える。曖昧性除去を必要とする音声領域、及び競合物の音声カテゴリは、競合する選択肢に基づいて予め識別することができる。例えば、選択肢が「he kill a snake」、「he kills a snake」、又は「he killed a snake」であれば、曖昧性除去を必要とする音声領域は単語「kill(s)(ed)」の語尾であり、競合カテゴリは、共鳴音と摩擦音と閉鎖子音である。音声信号中のこの対象となる音成分に対応する実際の時間領域は、前の段階で得られた整合から推定することが可能である。整合における誤差の可能性を考慮に入れるために、ある一定の時間的許容差が容認される。
【0018】
競合する種々の音声成分の顕著な特徴を捉え、それゆえ実際に存在する音声成分をある一定のロバスト性をもって識別することができる音響パラメータ(AP)が、音声信号から計算される。また、計算されるAPの集合は、曖昧性除去を必要とする音声成分に基づいて変更することができることにも留意されたい。例えば、摩擦音を破裂音から弁別するために用いられるAPは、摩擦音を別の摩擦音から弁別するのに用いられるAPとは異なっているかもしれない。
【0019】
本発明の1つ又は複数の実施形態は、摩擦音と閉鎖音と母音との間で3方向の弁別を行うために用いるAPを含む。これらのAPが呈する値の範囲はまた、対応する音の発音の明瞭度のレベルの指標でもある。これらのAPは、それ自体として、発音の質を推定するために用いることもできる。
【0020】
従って、本発明の1つ又は複数の実施形態は、話者の発音能力を評価するために用いることもできる。第1段階において用いられるASRからの出力は、人間の評価者が話者の発音技能を評価するために用いるインパクト音のうちの幾つかの時間的位置を識別することができる。対象となる持続時間にわたって計算されたこれらの音に対応するAPの、その目標値からの偏差は、実際に発音された音の、その理想的な発音からの偏差の良い指標となる。また、例えば、APは音声生成メカニズムに直接関連付けられるので、APに基づくこのような測定基準は、標準的なメル周波数ケプストラム係数(MFCC)特徴の集合に基づく同様の測定基準よりロバストである。ここで説明される技術は、言語障害者の音声プロファイリングのために用いることもでき、このことは、入力された音声が言語障害の話者のものである場合のASRシステムの性能の改善につながり得る。
【0021】
ここで説明される技術は、文法的な誤りのカテゴリが前もって決定されている場合には、GI構文の自動検出に用いることもできる。例えば、冠詞の用法に関連した文法的誤りを検出することにのみ関心があると想定する。第1段階におけるASRの出力を用いて、3つの冠詞(「a」又は「an」又は「the」)のうちの1つが認識された時間領域を識別することができる。次いで、第2段階における分析を用いて、鼻音(「an」の中の「n」)と摩擦音(「the」の中の「dh」)との間を弁別することができるAPを計算することにより、3つの冠詞のうちのどの1つが実際に発声されたかについての曖昧性除去を行うことができる。通常のシナリオでは、LMは、文法的に正しい冠詞を出力する方向にバイアスがかけられているであろう。
【0022】
ここで言及される既存の手法の短所とは対照的に、本発明の1つ又は複数の実施形態は、既存のASRシステムのLMを修正することを必要とせずに、GI構文を検出することを含む。ASRの出力の曖昧性除去を行っている間に、本発明の1つ又は複数の実施形態は、曖昧な領域に焦点を合わせ、音声信号の中に存在する、基礎をなす音声成分に直接相関するAPを計算する。
【0023】
ここで説明される技術は認識精度の向上にもつながり、それは自動化口語文法評価モジュール又は任意の口語言語評価ツールの性能に直接的な改善をもたらすことができる。認識の向上は、より正確なフィードバックをユーザに提供するという点で、口語文法学習ツールを支援することにもなる。
【0024】
ここで言及されているように、本発明の1つ又は複数の実施形態は、口語文法技能の自動評価を含む。口語文法評価においては、志望者からの最もありがちな応答が音響学的に類似する、数多くの事例が存在し得る。以下の例を考える。(1)「He kill a snake」というプロンプトに対して、最もありがちな応答は、とりわけ、以下の(a)He killed a snake、(b)Hekills a snake、及び(c)He kill a snake、という応答を含み得る。(2)「Athletic is a popular sport(陸上競技は人気の高いスポーツである)」というプロンプトに対して、最もありがちな応答は、とりわけ、以下の(a)Athleticsis a popular sport、(b)Athletics is a popular sports、という応答を含み得る。どちらの事例でも、選択肢間の音響学的な差異は、短い時間領域に局所化している((1)の場合は「kill(s)(ed)」、(2)の場合は「sport(s)」)。
【0025】
このような混同しやすい選択肢間のASRの精度、従って口語文法評価の精度を向上させるために、音響音声学ベースの手法(ここで本発明の1つ又は複数の実施形態において説明されるような)は、音響学的差異を有する時間領域に注意を集中し、音響学的差異間を正確に区別する音響パラメータ(AP)を計算する。
【0026】
図1は、本発明の1つの実施形態による口語文法評価ストラテジーを示す図である。例として、図1は、プロンプト特化型言語モデル102、文構造情報104、並びに音響パラメータ(AP)の計算106を示す。図1はまた、APベースの音及び/又は単語成分108、ASRエンジン110、Rsmについてのマップ112を示す。A、A、Aは、LMの中で用いられている文である。また、Rは志望者の応答であり、RはASRの出力であり、Rsmは推定された音響成分に基づいて修正された出力である。
【0027】
図1に示されるように、RをASRエンジン110に送ることができ、次にASRエンジン110が、R並びに音及び/又は語レベルの時間整合をAPの計算106に送ることができる。さらに、Rsmを、APベースの音声及び/又は単語成分108からRsmについてのマップ112に送ることができる。
【0028】
図1に関連して、入力発話に対して、適切に制限されたLMを備えた標準的なASRシステムを稼動させることができる。標準的ASRシステムから得られた単語レベルの整合を文構造に関する情報と共に用いて、予想された音響学的差異の時間領域における異なるAPを計算することができる。整合誤差があれば考慮に入れるために、本発明の1つ又は複数の実施形態は、音響学的差異の時間領域を推定する間に時間的許容差を含む。APは、競合する種々の音声成分の顕著な特徴を捉え、それゆえ音声信号の中に実際に存在する音声成分をある一定のロバスト性をもって識別することができる。これらのAPは、対象となる時間領域の音声成分を決定するために用いることもできる。さらに、APの選択は、曖昧性除去を必要とする音声成分に依存する。
【0029】
ここで説明されるように、本発明の1つ又は複数の実施形態は、標準的なASRシステムの出力を、その全体的な性能を向上させるために改良することを含むことができる。ここで詳述される技術は、ASRシステムの出力に基づいて、可能性のある混同の時間領域及び類型を推定すること、及び、この情報を用いて、特徴計算及び再認識のために物理的音声信号を再分析することを含む。
【0030】
本発明の1つ又は複数の実施形態はまた、摩擦音、閉鎖音及び共鳴音のオンセット間で3方向の弁別(例えば、/s/、/d/、及び/iy/の間での3方向の弁別)を行うことができる、ここではオンセット・コヒーレンス(OC)と呼ばれるAPを含む。OCのAPは、母音及び閉鎖破裂音の始めは典型的には全ての周波数領域にわたってエネルギーのオンセットを有するのに対し、摩擦音の始めは典型的には全ての周波数領域にわたってそのようなオンセットを有さないという観察によって動機付けられる。また、主として、母音には強いフォルマントが存在するせいで、周波数全体にわたるエネルギーのオンセットは、閉鎖破裂音の場合の方が母音の場合に比べてより変動が小さい。
【0031】
図2は、本発明の1つの実施形態による例示的なスペクトルを示す図である。例として、図2は、「he killed a snake」のスペクトル202、対応するゼロ交差率204、対応するオンセット・コヒーレンス206、及び対応するスペクトル・エネルギー比208を示す。図2において示されるように、x軸は秒で表した時間を表す。
【0032】
母音/i/、閉鎖破裂音/d/及び摩擦音/s/のオンセット(それぞれ、975、1230及び1315ミリ秒(ms)にある)が、図2に示されるスペクトルの中で強調されている。図において示される発話は、「hekilled a snake」である。閉鎖破裂音のオンセットと母音のオンセットとの両方に関しては、全ての周波数領域にわたってエネルギーのオンセットが見られるのに対し、摩擦音に関しては、エネルギーのオンセットは主に高周波数領域にあることに留意されたい。また、オンセットの大きさは異なる周波数チャネルにわたって、主として強いフォルマントのせいで、母音オンセットの場合の方が閉鎖破裂音オンセットの場合よりも遥かに大きく変動していることに留意されたい。
【0033】
従って、周波数チャネルにわたってのオンセットの一致の尺度を計算することによって、摩擦音のオンセットを母音及び閉鎖音のオンセットから弁別することができる。母音オンセット及び閉鎖音オンセットは、この尺度に関して、摩擦音オンセットに比べて典型的にはより高い値を有する。周波数領域にわたるオンセットの大きさの変動を計算することによって、閉鎖音オンセットを母音オンセットから弁別することができる。閉鎖音オンセットは、母音オンセットに比べて典型的には遥かに低い変動を有する。
【0034】
OCのAPの計算は、以下のように記述することができる。音声信号をバンドパス周波数チャネルの組に分割する。周波数チャネルの各々について隣接するフレームにおけるエネルギー差を以下のようにして計算し、
【数1】


ここで、sは周波数チャネルfにおける音声信号であり、lはフレーム番号であり、Fはフレームレートであり、mは窓長の上で変化する。本発明の1つ又は複数の実施形態において、フレームレートは、例えば10msとすることができ、窓長は20msとすることができる。正の値のΔ(f,l)は、エネルギーのオンセットを示す。全ての周波数チャネルにおいてエネルギー差が正であるタイム・フレームを識別する。これらのタイム・フレームについての全ての周波数チャネルにわたるエネルギー差の大きさの標準偏差が、OCである。他の全てのタイム・フレームについてのOCは、ゼロに設定される。OCの値がゼロであることは、閉鎖破裂音又は母音が存在しないことを意味するが、一方、高いOC値は、母音が存在することを意味する。閉鎖破裂音の場合、OCは典型的に低いがゼロではない。
【0035】
従って、Δ(f,l)から、以下のようにしてOCを計算することができる。
【数2】


Δ(f,l)>0ならば ∀f=1...N
そうでなければOC=0
ここで、Nは周波数チャネルの総数(この場合には44)であり、μΔ,lは、所与のlについての全ての周波数チャネルにわたるΔ(f,l)の平均値である。全てのチャネルにおいてΔ(f,l)が正となっているタイム・フレームを識別することができる。これらのタイム・フレームについての、全ての周波数チャネルにわたるΔ(f,l)の標準偏差が、そのフレームについてのOCである。他の全てのタイム・フレームについてのOCは、ゼロである。例えば、図2のグラフ206は、要素202における音声信号についてのOCを示す。摩擦音オンセット(1315ms)についてのOCはゼロであり、母音オンセット(975ms)についてのOCは高く、閉鎖音オンセット(950ms及び1230ms)についてのOCは比較的低いことにも留意されたい。
【0036】
本発明の1つ又は複数の実施形態は、例えば、ゼロ交差率(ZCR:zero crossing rate)及びスペクトル・エネルギー比のようなAPも用いる。ZCRは、予め定義された領域内における信号の時間領域ゼロ交差の数として定義される。ZCRは、主に摩擦音の検出に用いられる音響学的相関である。また、ZCRは、典型的には摩擦音領域において高い。高周波数領域におけるエネルギーの低周波数領域におけるエネルギーに対する比として定義されるスペクトル・エネルギー比は、典型的には、かん高い摩擦音については高く、母音性の音については低く、残りの非共鳴音についてはその中間である。
【0037】
これらのパラメータについての閾値は実際の録音のサブセットで訓練することができ、本発明の1つ又は複数の実施形態は、与えられた状況に対して閾値を自動的に適合させる。例えば、ユーザの応答が「sport」含むか又は「sports」を含むかどうかを判断することがタスクである状況を考える。単語「sport(s)」の最初の部分はかん高い摩擦音/s/を有することが既知なので、認識された単語「sport」に整合される領域は2つの均等な部分に分けられる。単語の第1部分におけるAPの値を用いて、第2部分における摩擦音/s/を検出するための閾値を調整する。
【0038】
ここでもまた説明されるように、スペクトル・エネルギー比(SER)は、高周波数におけるエネルギーの低周波数におけるエネルギーに対する比に基づくパラメータであり、非母音性領域から母音性領域を弁別することができる。この比は母音性の音については非常に低く、かん高い摩擦音については非常に高く、残りの非共鳴音についてはその中間である。本発明の1つ又は複数の実施形態において、SERは、例えば、窓をかけた20msの信号の上で計算される[2000−Fs/2]Hzにおけるエネルギーと[0−2000]Hzにおけるエネルギーとの比として5msごとに計算することができる。図2のグラフ208は、要素202で示された発話についてのSERを示す。SERは摩擦音領域(1350ms近辺)において最も高いことに留意されたい。
【0039】
図3は、本発明の1つの実施形態による、異なる音声クラスについての異なる音響パラメータの領域境界の推定を示す図である。図3は、例示として、音響パラメータであるゼロ交差率、オンセット・コヒーレンス及びエネルギー比の3次元空間内で、摩擦音302、閉鎖破裂音304及び母音306が占める領域の境界の推定を示す。図3に示された境界は、訓練データから学習された閾値に基づく。
【0040】
言及したように、図3は、3つのパラメータの空間内で、摩擦音、閉鎖破裂音及び母音が及ぶ領域の推定された境界を示す。これらのパラメータの物理的意味及び計算上の詳細に基づいて、母音は主として高OC(>130)、低SER(<0.75)及び低ZCR(<25)の領域を占め、閉鎖音は主として中OC(>25かつ<130)、中SER(>0.75かつ<2.5)で、ZCR次元については特別な偏りがない領域を占め、摩擦音は主として高ZCR(>100)、高SER(>2.5)、かつゼロOCの領域を占めることを推定することができる。閾値は訓練データから学習される。
【0041】
本発明の1つ又は複数の実施形態において、APから得られた音声情報をASRシステムの認識出力と組み合わせるためのアルゴリズムは、文の構造及びその構成要素の単語に関する情報を用いる。与えられた文について、文法的誤りを起こしやすい単語のリスト、及びそれに対応する最も一般的な間違いが維持される(例えば、kill/killed/kills、sport/sports、athletic/athletics、など)。これらの単語に対応する物理信号は、ASRシステムによって計算された単語レベルの整合を用いて位置決めすることができる。ASRによってなされる可能性のある整合の誤りを考慮に入れるために、ある一定の時間的許容差を容認することができる。単語のどのバリエーションが発声されたかを判別する補助となり得るAPを、この対象となる時間領域上で計算することができる。これらのAPの値に基づいて、ASR出力は、保持されるか、又は適切に変更される。
【0042】
例えば、「Athletics are a popular sport」というプロンプトに対して、志望者が「athletics are apopular sports」と応答することを考える。さらに、ASRはこの応答を「athletics are a popular sport」とデコードしたと想定する。タスクは、志望者の応答が「sport」又は「sports」のどちらを含むか、及び「athletic」又は「athletics」のどちらを含むかを判定することである。音声信号のうちで、認識された単語「sport」に整合する部分の時間的位置は、ASR出力から得ることができる。対象となる音声信号は、2つの均等な部分に分割される。摩擦音の存在を検出することができるAPであるOC、ZCR及びSERを第2部分について計算する。訓練データから学習された閾値を用いて、第2部分に摩擦音/s/が存在するかどうかについての判定を行うことができる。同様に、これらのAPを単語「athletics」に対応する時間領域内で計算して、応答が「athletic」又は「athletics」のどちらを含むかを判定する。
【0043】
単語及び/又は文の音声成分は、性能を改善するために用いることもできる。例えば、上記の状況において、単語「sport(s)」の第1部分はかん高い摩擦音/s/を有することが既知である。摩擦音の存在を検出することができるAPであるOC、ZCR及びSERを、整合された音声信号の前半部分について、別々に計算することができる。この領域(/s/摩擦音が存在する)におけるこれらのAPの挙動を用いて、後半部分における/s/の検出に用いる判定閾値を調整することができる。
【0044】
標準的なASRシステムの出力とAPベースで推定された音声成分との同様の組み合わせを用いて、競合する選択肢が音響学的に類似な場合に、最終的に認識された出力を改良することができる。ここで説明されるように、本発明の1つ又は複数の実施形態は全体的な認識精度を向上させることにつながり、それが口語言語評価ツールの口語文法評価モジュールの性能を向上させる。認識精度の向上は、口語文法学習ツールによって提供されるフィードバックの品質もまた向上させる。
【0045】
GI構文を検出するタスクのために、規則の集合に基づいて、音響学的に類似した選択肢の集合を作ることができる。例えば、冠詞の用法に関連した文法的誤りを検出することにのみ関心があると想定する。第1段階におけるASRの出力を用いて、3つの冠詞(「a」又は「an」又は「the」)のうちの1つが認識された時間領域を識別することができる。次いで、第2段階における分析を用いて、鼻音(「an」の中の「n」)と摩擦音(「the」の中の「dh」)との間を弁別することができるAPを計算することにより、3つの冠詞のうちのどの1つが実際に発声されたかについての曖昧性除去を行うことができる。統計的LMからのNグラム確率に基づく後処理で、その文が文法的に正しいか、正しくないかを識別することができる。
【0046】
認識に用いられるASRシステムは、文脈依存的な隠れマルコフ・モデル(HMM)システムとすることができる(例えば、500人を越える英語の話者による全部で約130時間分の音声データで訓練されたシステム)。フロントエンドは、24次元のMFCCの連続した9フレームを組み合わせ、その組み合わされたフレームに線形判別分析を適用することによって得られる、60次元の特徴ベクトルを含む。
【0047】
図3に示された5つの閾値は、例として、2448個の発話と、ASRから得られたそれに対応する単語整合とを用いて、最大の音響相違点を有する時間領域に基づいて訓練された。本発明の1つ又は複数の実施形態において、評価は、例えば、対応するプロンプト特化型LMの中の異なる文が音響学的に類似し、かつ相違点が狭い時間領域の中に局所化していたプロンプトに対してのみ実施することができる。
【0048】
以下で示されるように、表1は、音声認識精度及び口語文法評価精度を、ASRシステムのみが用いられた場合と、ASRシステムの出力に音響音声学的情報が組み合わされた場合とで比較する。音声認識精度は、評価された総録音のうち、ASRシステムの出力と志望者の録音とが正確に一致したものの百分率として定義される。口語文法評価精度は、評価された総録音のうち、自動生成された0又は1の文法スコアが人間の割り当てたスコアと一致したものの百分率として定義される。認識精度は、限定されたLM内の文の中に志望者の録音が存在していたテスト・データの部分集合に対して計算することができるが、一方、文法精度はテスト・データ全体について計算されたものであり、このことが認識精度と文法精度との間の差異を説明することに留意されたい。
【表1】

【0049】
表1が示すように、本発明の1つ又は複数の実施形態は、認識精度を5.8%向上させ、口語文法評価精度を8.2%向上させる。この組み合わせは、ユーザに対するより正確なフィードバックをもたらすことができる。例えば、「both the dogs is barking(両方の犬が吠えている)」というプロンプトに対して、志望者が「both the dogis barking」と応答したものと考える。ASRはこれを「both the dogs is barking」と認識するかもしれず、提供されるフィードバックは「「is」を「are」に置き換えよ」となるであろう。例えば、音響情報を組み合わせることで、多くの事例において、認識される出力を「boththe dog is barking」に変えることができる。そのような場合には、フィードバックは、「「is」を「are」に置き換え、かつ「dog」を「dogs」に置き換えよ」という内容を含むことができる。
【0050】
本発明の1つ又は複数の実施形態を用いて、自由な話し言葉における文法的に正しくない構文(GIC:grammatically incorrect construct)を検出することもできる。例えば、ASRシステムは、音響学的モデルに基づく予測に比べて統計学的LMからの予測の方により重きを置くことがある。LMは、典型的には文法的に正しいデータで訓練されている。その結果、ASRがGICを検出することは起こりそうにない。しかも、GICは、たいていは、対応する文法的に正しい構文とは短い時間領域においてのみ異なっている(例えば、「shehave」対「she has」、「this is book」対「this is a book」など)。文法的誤りのカテゴリが事前に決定されるならば、ここで説明される技術を用いてGICを自動的に検出することができる。
【0051】
図4は、本発明の1つの実施形態による、話者の1つ又は複数の口語言語技能を評価するための技術を示す流れ図である。口語技能は、例えば、話者の文法技能、話者の発音技能などを含むことができる。ステップ402は、話者によって発声された音声パッセージにおいて、1つ又は複数の対象となる時間的位置を識別することを含む。話者によって発声された音声パッセージにおいて対象となる時間的位置を識別することは、1つ又は複数の対象となる音(又はインパクト音)を位置決めすることを含むことができる。さらに、話者によって発声された音声パッセージにおいて対象となる時間的位置を識別することは、サンプル音声パッセージと話者によって発声された音声パッセージとの間の音響的相違点を位置決めすることを含むことができる。さらに、音声パッセージにおいて対象となる時間的位置を識別することは、発声された発話を1つ又は複数の音響学的に類似した選択肢の集合の中から識別することを含むことができる。
【0052】
話者によって発声された音声パッセージにおける対象となる時間的位置は、例えば、予め定義されたインパクト音の集合に対応する1つ又は複数の領域、並びに音響学的相違点が顕著である1つ又は複数の領域を含むことができる。
【0053】
ステップ404は、1つ又は複数の音響パラメータを計算することを含み、1つ又は複数の音響パラメータは、1つ又は複数の対象となる位置の1つ又は複数の音響音声学的特徴の1つ又は複数の特性を捉える。音響パラメータを計算することは、摩擦音と母音と閉鎖破裂音とのオンセット間でのスペクトルの差異を判定する音響パラメータを計算することを含むことができる。
【0054】
ステップ406は、口語言語技能評価の出力を修正するために、1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせることを含む。1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせることは、音響パラメータから得られた音声領域の音響的識別についての情報を、音声認識システムから得られた音響的識別と組み合わせることを含むことができる。この組み合わせの結果は、全体的な自動音声認識精度を向上させるため、口語文法評価精度を向上させるため、及び発音評価精度を向上させるために、発声された発話の最終的な音響的識別を場合によっては変更することを含むことができる。
【0055】
図4に示された技術は、認識精度を向上させるために自動音声認識システムからの時間整合情報を用いること、並びに、自動音声認識システムからの時間整合情報に対してある一定の2方向の時間的許容差を容認することを含むこともできる。本発明の1つ又は複数の実施形態は、言語障害を有する話者の音声プロファイリングを含むこともできる。
【0056】
本発明を実施するために、専用ハードウェア、汎用プロセッサ、ソフトウェア、又はそれらの組み合わせを利用した多様な技術を用いることができる。本発明の少なくとも1つの実施形態は、示された方法ステップを実行するためのコンピュータ使用可能プログラム・コードを有するコンピュータ使用可能媒体を含むコンピュータ製品の形で実施することができる。さらに、本発明の少なくとも1つの実施形態は、メモリと、そのメモリに結合され、例示的な方法ステップを実行するように動作する少なくとも1つのプロセッサとを含む装置の形で実施することが可能である。
【0057】
現在のところ、好ましい実施は、汎用コンピュータ又はワークステーション上で稼働するソフトウェアを実質的に使用すると考えられる。図5を参照すると、そのような実施は、例えば、プロセッサ502、メモリ504、並びに、例えばディスプレイ506及びキーボード508によって形成される入力及び/又は出力インターフェースを用いることができる。ここで用いられる「プロセッサ」という用語は、例えば、CPU(中央演算装置)及び/又は他の形態の処理回路を含む処理デバイスのような、任意の処理デバイスを含むことを意図する。さらに、「プロセッサ」という用語は、1つより多くの個別のプロセッサを指すこともある。「メモリ」という用語は、プロセッサ又はCPUに関連付けられたメモリ、例えば、RAM(ランダム・アクセス・メモリ)、ROM(読み出し専用メモリ)、固定メモリ・デバイス(例えば、ハードドライブ)、取り外し可能メモリ・デバイス(例えば、ディスケット)、フラッシュメモリなどを含むことを意図する。さらに、ここで用いられる「入力及び/又は出力インターフェース」という語句は、例えば、処理装置にデータを入力するための1つ又は複数の機構(例えば、マウス)、及び処理装置に関連付けられた結果を提供するための1つ又は複数の機構(例えば、プリンタ)を含むことを意図する。プロセッサ502、メモリ504、並びにディスプレイ506及びキーボード508のような入力及び/又は出力インターフェースは、例えば、バス510を介して、処理装置512の一部として相互接続することができる。例えばバス510を介した好適な相互接続には、コンピュータ・ネットワークとのインターフェースを提供することができる、ネットワーク・カードのようなネットワーク・インターフェース514を設けることもでき、媒体518とのインターフェースを提供することができる、ディスケット又はCD−ROMドライブのような媒体インターフェース516を設けることもできる。
【0058】
従って、ここで説明されるような、本発明の方法を実行するための命令又はコードを含むコンピュータ・ソフトウェアは、1つ又は複数の関連付けられたメモリ・デバイス(例えば、ROM、固定又は取り外し可能メモリ)に格納することができ、利用できる状態になったときに、一部又は全部がロードされ(例えば、RAM内に)、CPUによって実行することができる。そのようなソフトウェアは、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むことができるが、これらに限定されない。
【0059】
さらに、本発明は、コンピュータ又は任意の命令実行システムによる使用のため又はそれらと関連した使用のためのプログラム・コードを提供するコンピュータ使用可能媒体又はコンピュータ可読媒体(例えば、媒体518)からアクセス可能なコンピュータ・プログラム製品の形態を取ることができる。この説明の目的に関して、コンピュータ使用可能媒体又はコンピュータ可読媒体とは、命令実行システム、装置又はデバイスによる使用のため、又はそれらと関連した使用のための任意の装置とすることができる。
【0060】
媒体は、電子的、磁気的、光学的、電磁気的、赤外線若しくは半導体システム(又は装置若しくはデバイス)、又は伝搬媒体とすることができる。コンピュータ可読媒体の例は、半導体メモリ又は固体メモリ(例えば、メモリ504)、磁気テープ、取り外し可能コンピュータ・ディスケット(例えば、媒体518)、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、硬質磁気ディスク及び光ディスクを含む。現時点における光ディスクの例は、コンパクトディスク−読み出し専用メモリ(CD−ROM)、コンパクトディスク−読み出し及び/又は書き込み(CD−R/W)及びDVDを含む。
【0061】
プログラム・コードを格納及び/又は実行するのに適したデータ処理システムは、システム・バス510を通じてメモリ素子504に直接又は間接的に結合された少なくとも1つのプロセッサ502を含む。メモリ素子は、プログラム・コードの実際の実行中に使用されるローカル・メモリ、大容量記憶装置、及び、実行中に大容量記憶装置からコードを取得しなければならない回数を減らすためにプログラム・コードの少なくとも一部を一時的に格納するキャッシュ・メモリを含むことができる。
【0062】
入力及び/又は出力デバイス、即ちI/Oデバイス(キーボード508、ディスプレイ506、ポインティング・デバイスなどを含むがこれらに限定されない)は、直接(例えば、バス510を介して)、又は介在するI/Oコントローラ(分かりやすくするため省略)を介して、システムに結合することができる。
【0063】
データ処理システムが、介在する私設ネットワーク又は公衆ネットワークを通じて他のデータ処理システム又は遠隔プリンタ若しくはストレージ・デバイスに結合できるようにすることを可能にするために、ネットワーク・インターフェース514のようなネットワーク・アダプタをシステムに結合することもできる。モデム、ケーブルモデム及びイーサネット・カードは、現在利用可能なネットワーク・アダプタのタイプのうちのごく一部である。
【0064】
いずれの場合でも、ここで例示された構成要素は、例えば、特定用途向け集積回路(ASICS)、機能回路、関連付けられたメモリを備えた、適切にプログラムされた1つ又は複数の汎用デジタル・コンピュータなどのような、多様な形態のハードウェア、ソフトウェア、又はその組み合わせで実施することができることを理解されたい。ここで提供された本発明の教示が与えられれば、当業者は、本発明の構成要素の他の実施を予期することができる。
【0065】
本発明の少なくとも1つの実施形態は、例えば、ASRの出力に音響パラメータから得られた音声的識別を組み合わせて最終的な出力を決定し、それを口語文法評価に適用することのような、1つ又は複数の有益な効果を提供することができる。
【0066】
ここで本発明の例示的な実施形態を添付の図面を参照して説明してきたが、本発明はこれらの寸分違わない実施形態に限定されるものではなく、本発明の範囲及び精神を逸脱することなく、当業者によって種々のその他の変更及び修正を行うことができることを理解されたい。
【符号の説明】
【0067】
102:プロンプト特化型言語モデル
104:文構造情報
106:音響パラメータの計算
108:APベースの音/単語成分
110:ASRエンジン
112:Rsmについてのマップ
202:スペクトル
204:ゼロ交差率
206:オンセット・コヒーレンス
208:スペクトル・エネルギー比
302:摩擦音
304:閉鎖破裂音
306:母音
502:プロセッサ
504:メモリ
506:ディスプレイ
508:キーボード
510:バス
514:ネットワーク・インターフェース
516:媒体インターフェース
518:媒体

【特許請求の範囲】
【請求項1】
話者の1つ又は複数の口語言語技能を評価するための方法であって、
話者により発声された音声パッセージにおいて、1つ又は複数の対象となる時間的位置を識別するステップと、
1つ又は複数の音響パラメータを計算するステップであって、前記1つ又は複数の音響パラメータは、前記1つ又は複数の対象となる位置の1つ又は複数の音響音声学的特徴の1つ又は複数の特性を捉える、ステップと、
口語言語技能評価の出力を修正するために前記1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるステップと、
を含む方法。
【請求項2】
前記話者により発声された音声パッセージにおいて1つ又は複数の対象となる時間的位置を識別するステップは、1つ又は複数の対象となる音を位置決めするステップを含む、請求項1に記載の方法。
【請求項3】
前記話者により発声された音声パッセージにおいて1つ又は複数の対象となる時間的位置を識別するステップは、サンプル音声パッセージと前記話者により発声された前記音声パッセージとの間の、1つ又は複数の音響相違点を位置決めするステップを含む、請求項1に記載の方法。
【請求項4】
前記話者により発声された音声パッセージにおいて1つ又は複数の対象となる時間的位置を識別するステップは、1つ又は複数の音響学的に類似した選択肢の中から発声された発話を識別するステップを含む、請求項1に記載の方法。
【請求項5】
前記1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるステップは、前記1つ又は複数の音響パラメータから得られた発声領域の音響的識別についての情報を、音声認識システムから得られた音響的識別と組み合わせるステップを含む、請求項1に記載の方法。
【請求項6】
前記1つ又は複数の音響パラメータを計算するステップは、摩擦音、母音及び閉鎖破裂音のオンセット間の1つ又は複数のスペクトル差を判定するための音響パラメータを計算するステップを含む、請求項1に記載の方法。
【請求項7】
前記話者の1つ又は複数の口語言語技能は、前記話者の文法的技能及び前記話者の発音技能のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項8】
認識精度を向上させるために自動音声認識システムからの時間整合情報を用いるステップをさらに含む、請求項1に記載の方法。
【請求項9】
前記自動音声認識システムからの前記時間整合情報にある一定の2方向の時間的許容差を容認するステップをさらに含む、請求項8に記載の方法。
【請求項10】
前記話者により発声された音声パッセージにおける対象となる1つ又は複数の時間的位置は、予め定義された1つ又は複数のインパクト音の集合に対応する1つ又は複数の領域を含む、請求項1に記載の方法。
【請求項11】
前記話者により発声された音声パッセージにおける対象となる1つ又は複数の時間的位置は、1つ又は複数の音響相違点が顕著である1つ又は複数の領域を含む、請求項1に記載の方法。
【請求項12】
言語障害を有する話者の音声プロファイリングを行うステップをさらに含む、請求項1に記載の方法。
【請求項13】
話者の1つ又は複数の口語言語技能を評価するためのコンピュータ・プログラムであって、コンピュータに、
話者により発声された音声パッセージにおいて、1つ又は複数の対象となる時間的位置を識別するステップと、
1つ又は複数の音響パラメータを計算するステップであって、前記1つ又は複数の音響パラメータは、前記1つ又は複数の対象となる位置の1つ又は複数の音響音声学的特徴の1つ又は複数の特性を捉える、ステップと、
口語言語技能評価の出力を修正するために前記1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるステップと、
を実行させる、コンピュータ・プログラム。
【請求項14】
話者の1つ又は複数の口語言語技能を評価するためのシステムであって、
メモリと、
前記メモリに結合された少なくとも1つのプロセッサであって、
話者により発声された音声パッセージにおいて、1つ又は複数の対象となる時間的位置を識別し、
1つ又は複数の音響パラメータであって、前記1つ又は複数の対象となる位置の1つ又は複数の音響音声学的特徴の1つ又は複数の特性を捉える1つ又は複数の音響パラメータを計算し、
口語言語技能評価の出力を修正するために前記1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせる
ように動作するプロセッサと、
を含むシステム。
【請求項15】
前記話者により発声された音声パッセージにおいて1つ又は複数の対象となる時間的位置を識別することにおいて、前記メモリに結合された前記少なくとも1つのプロセッサは、1つ又は複数の対象となる音を位置決めするようにさらに動作する、請求項14に記載のシステム。
【請求項16】
前記話者により発声された音声パッセージにおいて1つ又は複数の対象となる時間的位置を識別することにおいて、前記メモリに結合された前記少なくとも1つのプロセッサは、サンプル音声パッセージと前記話者により発声された前記音声パッセージとの間の、1つ又は複数の音響相違点を位置決めするようにさらに動作する、請求項14に記載のシステム。
【請求項17】
前記1つ又は複数の音響パラメータを計算することにおいて、前記メモリに結合された前記少なくとも1つのプロセッサは、摩擦音、母音及び閉鎖破裂音のオンセット間の1つ又は複数のスペクトル差を判定するための音響パラメータを計算するようにさらに動作する、請求項14に記載のシステム。
【請求項18】
前記メモリに結合された前記少なくとも1つのプロセッサは、認識精度を向上させるために自動音声認識システムからの時間整合情報を用いるようにさらに動作する、請求項14に記載のシステム。
【請求項19】
話者の1つ又は複数の口語言語技能を評価するための装置であって、
話者により発声された音声パッセージにおいて、1つ又は複数の対象となる時間的位置を識別するための手段と、
1つ又は複数の音響パラメータを計算するための手段であって、前記1つ又は複数の音響パラメータは、前記1つ又は複数の対象となる位置の1つ又は複数の音響音声学的特徴の1つ又は複数の特性を捉える、手段と、
口語言語技能評価の出力を修正するために前記1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるための手段と、
を含む装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−164971(P2010−164971A)
【公開日】平成22年7月29日(2010.7.29)
【国際特許分類】
【出願番号】特願2010−5595(P2010−5595)
【出願日】平成22年1月14日(2010.1.14)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.イーサネット
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【Fターム(参考)】