説明

混同音の生成および検知の方法およびシステム

【課題】中国語学習者の学習効果を向上させることが可能である混同音の生成および検知の方法およびシステムを提供する。
【解決手段】混同音の生成および検知の方法は、生成段階および検知段階を含み、生成段階が以下のステップを含む。中国語の言語データを入力する(ステップ110)。ビタビ復号演算のフォースアライメントを利用し、中国語の言語データをセグメント化する(ステップ120)。音声セグメンテーションの結果と、中国語の音声モデルとを比較する(ステップ130)。混同音が生成されたか否かを判断する(ステップ140)。混同音が生成された時に、混同音が混同音認識ネットワークに入力され、ステップ120、130、140を繰り返す(ステップ150)。混同音が生成されない時に停止し、これまでに生成された混同音の全てを混同音設定ファイルへ出力する(ステップ160)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は混同音の生成および検知の方法およびシステムに関し、特に中国語発音の混同音の生成および検知の方法およびシステムに関する。
【背景技術】
【0002】
近年、コンピュータの計算能力の向上および音声認識技術の進歩により、日常生活で利用される音声処理は日々増大している。特に言語学習では、外国語を学習する際にコンピュータを利用することが非常に重視されてきており、それに関する様々な研究も盛んである。
【0003】
中国語の言語学習には、読み書きや聞く話すといった四つの学習が含まれるが、そのなかでも言語能力の訓練に関しては、中国語学習者が自分で練習して評価を知ることが可能な良好な方法はなかった。また現在の中国語学習ソフトは、発音および会話の学習補助方法として音声セグメンテーション、システム分析、演算法などのデータを処理する方法があったが、それは音声評価しか行うことができなかった。つまり、学習者は、どの単語の発音が正確でないかを知ることができたが、学習者の発音をさらに分析したり指摘・矯正することはできなかった。さらに、学習者の様々な母国語や出身国ごとに有効な矯正を行うことができなかったため、実用性に乏しく、実質的な補助も限定されたものであった。
【0004】
そのため、上述の問題点を改善することが可能で、混同音の生成および検知の方法およびシステムが求められていた。
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明の目的は、発音エラーのパターンを分析し、学習者に間違っている箇所を指摘し、どの発音が正確でないのかを知らせて発音を有効に矯正することにより、中国語学習者の学習効果を向上させることが可能な混同音の生成および検知の方法およびシステムを提供することにある。
【課題を解決するための手段】
【0006】
本発明は生成段階および検知段階を含む混同音の生成および検知の方法であって、前記生成段階は、(a)中国語の言語データを入力するステップと、(b)ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、(c)前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる中国語の音声モデルとを比較するステップと、(d)混同音が生成されたか否かを判断するステップと、(e)前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ(b)、(c)および(d)を繰り返すステップと、(f)前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを混同音設定ファイルへ出力するステップと、を含み、前記検知段階は、(g)学習者が読み上げた中国語語句を入力するステップと、(h)前記混同音認識ネットワークによりアライメントを行うステップと、(i)前記中国語語句の最適ルートを決定するステップと、(j)前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする混同音の生成および検知の方法を提供する。
【0007】
また、本発明は生成システムおよび検知システムを備える混同音の生成および検知のシステムであって、前記生成システムは、中国語の言語データを認識する混同音認識ネットワークと、複数の標準中国語の音節を提供する中国語の音声モデルと、生成された混同音全てを保存する混同音設定ファイルと、前記中国語の言語データを入力し、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得る音声分割モジュールと、前記音声セグメンテーションの結果と、前記中国語の音声モデルとを比較し、前記混同音が生成されたか否かを判断し、前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力する混同音生成モジュールと、を備え、前記混同音生成モジュールに前記混同音が生成されると、前記音声分割モジュールが前記混同音認識ネットワークにより新しい最適ルートを認識してから前記中国語の言語データをセグメント化し、新しい音声セグメンテーションの結果を得るとともに、前記新しい音声セグメンテーションの結果を前記混同音生成モジュールへ出力し、前記混同音が生成されたか否かを判断し、前記検知システムは、学習者が読み上げた中国語語句を認識し、前記生成システムから出力される前記混同音設定ファイルを基に構築された前記混同音認識ネットワークと、ビタビ復号演算のフォースアライメントを利用し、前記中国語語句の最適ルートを決定するルート認識モジュールと、リアルタイムで音声の矯正を行う音声矯正モジュールと、を備えることを特徴とする混同音の生成および検知のシステムを提供する。
【0008】
また、本発明はコンピュータに実行させるためのプログラムを記録し、前記コンピュータが前記プログラムにより混同音の生成および検知を実行し、前記プログラムは、生成段階および検知段階を含む記録媒体であって、前記生成段階は、(a)中国語の言語データを入力するステップと、(b)ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、(c)前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる中国語の音声モデルとを比較するステップと、(d)前記混同音が生成されたか否かを判断するステップと、(e)前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ(b)、(c)および(d)を繰り返すステップと、(f)前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを混同音設定ファイルへ出力するステップと、を含み、前記検知段階は、(g)学習者が読み上げた中国語語句を入力するステップと、(h)前記混同音認識ネットワークによりアライメントを行うステップと、(i)前記中国語語句の最適ルートを決定するステップと、(j)前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする記録媒体を提供する。
【発明の効果】
【0009】
本発明によれば、発音エラーのパターンを分析し、学習者に間違っている箇所を指摘し、どの発音が正確でないのかを知らせて発音を有効的に矯正することにより、中国語学習者の学習効果を向上させることが可能である混同音の生成および検知の方法およびシステムを提供することができる。
【発明を実施するための最良の形態】
【0010】
以下に本発明の実施の形態を詳細に説明する。
【0011】
本発明の混同音の生成および検知の方法は、生成段階および検知段階に分けられる。図1Aおよび図2Aを参照する。図1Aは、本発明の一実施形態による混同音の生成方法を
示す流れ図である。図2Aは、本発明の一実施形態による混同音の生成段階時の混同音認識ネットワークを示す模式図である。生成段階では、中国語音声ファイルまたはマイクから中国語の言語データを入力した後に(ステップ110)、中国語の言語データをセグメント化する(ステップ120)。このステップでは、ビタビ復号演算(Viterbi decoding)のフォースアライメント(forced alignment)を利用し、混同音認識ネットワークにより1本の最適ルートを認識する。この混同音認識ネットワークには、開始時に標準ルートが含まれている。この標準ルートは、中国語の言語データの標準音声内容であり、ここでは、「qu−nian−xia−tian−re−si−le(去年夏天熱死了)」を例に説明する。図2Aの状態210に示すように、この時の混同音認識ネットワーク中の標準ルートは、「qu−nian−xia−tian−re−si−le」の7つの標準中国語の音節から構成されており、これら標準中国語の音節を基に中国語の言語データをセグメント化すると、各音節の開始時間および終了時間を知ることができる。続いて、音声セグメンテーションを行った後の各音節と、411個の標準中国語の音節の中国語音声モデルとを比較する(ステップ130)。この方法では、隠れマルコフモデル(Hidden Markov Model:HMM)を音声モデルとして用い、各音節と、411個の標準中国語の音節全てとを比較してログ確率を計算する。これらログ確率の高低を基に、411個の標準中国語の音節をランク付けし、1つの標準中国語の音節aのランクが1つの音声セグメンテーションを行った後の音節が対応する標準中国語の音節bよりも高いとき、標準中国語の音節aは混同音である。例えば、1つの音声セグメンテーションを行った後の音節が対応する標準中国語の音節が「re(熱)」であり、「le(樂)」のランクが「re(熱)」よりも高いとき、「re(熱)」と「le(樂)」とを学習者が混同していると判断し、混同音である「le(樂)」を探し出すことができる。そして、このランクを基に混同音が生成されたか否かを判断することができる(ステップ140)。続いて、混同音認識ネットワーク内に混同音を加える(ステップ150)。図2Aの状態220に示すように、この際、混同音「le(樂)」が加えられるため、混同音認識ネットワーク内には他のルートが増やされる。続いて、混同音の生成が無くなるまで、ステップ120、130、140を繰り返し、混同音の生成が無くなった時に停止し、これまでに生成された混同音を混同音設定ファイルへ出力する(ステップ160)。
【0012】
混同音「le(樂)」が混同音認識ネットワークに加えられるため、再びステップ120において音声セグメンテーションが繰り返されると、ルートが「qu−nian−xia−tian−re−si−le」となり、音声セグメンテーションの結果がさらに正確となる。この時、音声セグメンテーションの結果が変動し、その他の混同音が再び生成される可能性がある。その場合は音声セグメンテーションの結果と、中国語音声モデルとを再び比較し、新しい混同音が生成されたか否かを判断する。図2Cを参照する。図2Cは、本発明の一実施形態による音声セグメンテーションの結果を示す模式図である。状態270は、1回目の音声セグメンテーションを行った結果を示し、状態280は、2回目の音声セグメンテーションを行った結果を示す。
【0013】
図1Bおよび図2Bを参照する。図1Bは、本発明の一実施形態による混同音の検知方法を示す流れ図である。図2Bは、本発明の一実施形態による混同音の検知段階時のルートを示す模式図である。この検知段階では、まず、学習者が中国語語句を読み上げ(ステップ170)、混同音認識ネットワークを介し、ビタビ復号演算のフォースアライメントを利用し、この中国語語句のアライメントを行う(ステップ175)。混同音認識ネットワークは、生成段階で出力される混同音設定ファイルを基に構築され、中国語を非母国語とする学習者がよく発話する混同音をカバーしている。図2Bの状態240に示すように、「qu−nian−xia−tian−re−si−le(去年夏天熱死了)」の混同音認識ネットワークには、混同音「niang」、「tiang」および「le」が含まれている。その後、中国語語句の最適ルートを得る(ステップ180)。図2Bの状態2
50に示すように、学習者が読み上げた中国語語句のルートである「qu−niang−xia−tiang−le−si−le」を認識する。最後に、最適ルートと、標準ルートとを比較して間違った発音を探し出すとともに、リアルタイムで音声を矯正し(ステップ185)、例文中の「nian」が「niang」に、「tian」が「tiang」に、「re」が「le」に読み違えていることを学習者に知らせ、中国語語句の評価を行う。
【0014】
図3Aを参照する。図3Aは、本発明の一実施形態による混同音の生成システムのアーキテクチャを示すブロック図である。混同音の生成システムには、中国語の言語データを保存する中国語の音声ファイル310と、中国語の言語データを認識する混同音認識ネットワーク320と、411個の標準中国語の音節を提供する、隠れマルコフモデルである中国語の音声モデル330と、生成される混同音全てを保存する混同音設定ファイル340と、中国語の言語データをセグメント化する音声分割モジュール350と、混同音を生成して計算モジュール362およびランクモジュール364を含む混同音生成モジュール360とが含まれる。
【0015】
中国語の音声ファイル310には、大量の中国語学習者の言語データ(よく使われる中国語音節をカバーされてることが好ましい。)が保存され、中国語の言語データが中国語の音声ファイル310から入力されると、音声分割モジュール350が言語データのセグメント化を行い、ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワーク320により最適ルートを認識して中国語の言語データをセグメント化し、音声セグメンテーションを行った後に各音節の開始時間および終了時間を知ることができる。混同音認識ネットワーク320には、開始時に中国語の言語データの標準音声内容である標準ルートが含まれる。混同音生成モジュール360中で、計算モジュール362が音声セグメンテーションを行った後の各音節と、中国語の音声モデル330の411個の標準中国語の音節とを比較してログ確率を計算した後に、ランクモジュール364がログ確率の高低を基に、標準中国語の音節をランク付けする。1つの標準中国語の音節aのランクが1つの音声セグメンテーション後の音節が対応する標準中国語の音節bよりも高いとき、標準中国語の音節aは混合音であり、学習者がbをaと混同して混同音が生成されると、この混同音は混同音認識ネットワーク320に加えられる。また、混同音が生成されない時は停止し、これまでに生成された混同音の全てが混同音設定ファイル340に出力される。混同音生成モジュール360に混同音が生成されると、音声分割モジュール350は、混同音認識ネットワーク320を介して1本の新たな最適ルートを認識した後に、中国語の言語データをセグメント化し、新たな音声セグメンテーションの結果を得る。同時に新たな音声セグメンテーションの結果を混同音生成モジュール360へ出力し、混同音が生成されたか否かを判断する。
【0016】
図3Bを参照する。図3Bは、本発明の一実施形態による混同音の検知システムのアーキテクチャを示すブロック図である。この検知システムには、学習者が読み上げた中国語語句を認識する混同音認識ネットワーク370と、中国語語句の最適ルートを決定するルート認識モジュール380と、リアルタイムで音声の矯正を行う音声矯正モジュール385と、が含まれる。
【0017】
生成システムは、外国人が中国語を学習するときによく発話する混同音を探し出し、混同音設定ファイルへ出力する。そして、この混同音設定ファイルを基に、混同音認識ネットワーク370を構築する。学習者が読み上げた中国語語句を入力した後、ルート認識モジュール380は混同音認識ネットワーク370を介し、ビタビ復号演算のフォースアライメントを利用し、中国語語句の最適ルートを得る。音声矯正モジュール385は、最適ルートと、標準ルートとを比較し、間違った発音を探し出し、リアルタイムで音声を矯正して中国語語句の評価を行う。
【0018】
本実施形態は、混同音を反復法により繰り返し探し出し、混同音認識ネットワークへ加え、音声セグメンテーションの正確性および評価の客観性を徐々に高める。本発明の好適な実施形態から分かるように、この中国語発音の混同音の生成および検知の方法およびシステムは、学習者の間違った発音パターンを分析し、学習者にどの発音が間違ったかを知らせて矯正を行う。このように、矯正を有効的に行って学習者の学習効果を高めることができる。
【0019】
本発明では好適な実施形態を前述の通り開示したが、これらは決して本発明を限定するものではなく、当該技術を熟知するものなら誰でも、本発明の主旨と領域を脱しない範囲内で各種の変更や修正を加えることができる。従って本発明の保護の範囲は、特許請求の範囲で指定した内容を基準とする。
【図面の簡単な説明】
【0020】
【図1A】本発明の一実施形態による混同音の生成方法を示す流れ図である。
【図1B】本発明の一実施形態による混同音の検知方法を示す流れ図である。
【図2A】本発明の一実施形態による混同音の生成段階時の混同音認識ネットワークを示す模式図である。
【図2B】本発明の一実施形態による混同音の検知段階時のルートを示す模式図である。
【図2C】本発明の一実施形態による音声セグメンテーションの結果を示す模式図である。
【図3A】本発明の一実施形態による混同音の生成システムのアーキテクチャを示すブロック図である。
【図3B】本発明の一実施形態による混同音の検知システムのアーキテクチャを示すブロック図である。
【符号の説明】
【0021】
240:混同音認識ネットワーク
250:最適ルート
270:第1の音声セグメンテーションの結果
280:第2の音声セグメンテーションの結果
310:中国語の音声ファイル
320:混同音認識ネットワーク
330:中国語の音声モデル
340:混同音設定ファイル
350:音声分割モジュール
360:混同音生成モジュール
362:計算モジュール
364:ランクモジュール
370:混同音認識ネットワーク
380:ルート認識モジュール
385:音声矯正モジュール

【特許請求の範囲】
【請求項1】
生成段階および検知段階を含む混同音の生成および検知の方法であって、
前記生成段階は、
(a)中国語の言語データを入力するステップと、
(b)ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、
(c)前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる中国語の音声モデルとを比較するステップと、
(d)混同音が生成されたか否かを判断するステップと、
(e)前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ(b)、(c)および(d)を繰り返すステップと、
(f)前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを混同音設定ファイルへ出力するステップと、を含み、
前記検知段階は、
(g)学習者が読み上げた中国語語句を入力するステップと、
(h)前記混同音認識ネットワークによりアライメントを行うステップと、
(i)前記中国語語句の最適ルートを決定するステップと、
(j)前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、
前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする混同音の生成および検知の方法。
【請求項2】
前記音声セグメンテーションの結果を基に、各前記複数の音節の開始時間および終了時間を知ることが可能なことを特徴とする請求項1に記載の混同音の生成および検知の方法。
【請求項3】
前記中国語の音声モデルは隠れマルコフモデルであることを特徴とする請求項1に記載の混同音の生成および検知の方法。
【請求項4】
前記中国語の音声モデルは、411個の前記標準中国語の音節を含むことを特徴とする請求項1に記載の混同音の生成および検知の方法。
【請求項5】
前記混同音認識ネットワークは、開始時に前記中国語の言語データの標準音声内容である前記標準ルートを含むことを特徴とする請求項1に記載の混同音の生成および検知の方法。
【請求項6】
前記ステップ(c)は、
各前記複数の音節と、前記複数の標準中国語の音節の全てとを比較し、複数のログ確率を計算するステップと、
前記複数のログ確率の高低を基に、前記複数の標準中国語の音節をランク付けするステップと、
前記複数の標準中国語の音節が存在し、前記複数の標準中国語の音節のランクが各前記複数の音節が対応する前記複数の標準中国語の音節よりも高い時に、前記複数の標準中国語の音節が混同音であると判断するステップと、含むことを特徴とする請求項1に記載の混同音の生成および検知の方法。
【請求項7】
前記混同音を反復法により繰り返し探し出し、前記混同音認識ネットワークに入力し、前記音声セグメンテーションの正確性および評価の客観性を次第に高めることを特徴とす
る請求項1に記載の混同音の生成および検知の方法。
【請求項8】
生成システムおよび検知システムを備える混同音の生成および検知のシステムであって、
前記生成システムは、
中国語の言語データを認識する混同音認識ネットワークと、
複数の標準中国語の音節を提供する中国語の音声モデルと、
生成された混同音全てを保存する混同音設定ファイルと、
前記中国語の言語データを入力し、ビタビ復号演算のフォースアライメントを利用し、前記混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得る音声分割モジュールと、
前記音声セグメンテーションの結果と、前記中国語の音声モデルとを比較し、前記混同音が生成されたか否かを判断し、前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを前記混同音設定ファイルへ出力する混同音生成モジュールと、を備え、
前記混同音生成モジュールに前記混同音が生成されると、前記音声分割モジュールが前記混同音認識ネットワークにより新しい最適ルートを認識してから前記中国語の言語データをセグメント化し、新しい音声セグメンテーションの結果を得るとともに、前記新しい音声セグメンテーションの結果を前記混同音生成モジュールへ出力し、前記混同音が生成されたか否かを判断し、
前記検知システムは、
学習者が読み上げた中国語語句を認識し、前記生成システムから出力される前記混同音設定ファイルを基に構築された前記混同音認識ネットワークと、
ビタビ復号演算のフォースアライメントを利用し、前記中国語語句の最適ルートを決定するルート認識モジュールと、
リアルタイムで音声の矯正を行う音声矯正モジュールと、を備えることを特徴とする混同音の生成および検知のシステム。
【請求項9】
前記音声セグメンテーションの結果から各前記複数の音節の開始時間および終了時間を知ることが可能なことを特徴とする請求項8に記載の混同音の生成および検知のシステム。
【請求項10】
前記中国語の音声モデルは隠れマルコフモデルであることを特徴とする請求項8に記載の混同音の生成および検知のシステム。
【請求項11】
前記中国語の音声モデルは、411個の前記標準中国語の音節を含むことを特徴とする請求項8に記載の混同音の生成および検知のシステム。
【請求項12】
前記混同音認識ネットワークは、開始時に前記中国語の言語データの標準音声内容である標準ルートを含むことを特徴とする請求項8に記載の混同音の生成および検知のシステム。
【請求項13】
前記混同音生成モジュールは、
各前記複数の音節と、前記複数の標準中国語の音節の全てとを比較し、複数のログ確率を計算する計算モジュールと、
前記複数のログ確率の高低を基に、前記複数の標準中国語の音節をランク付けし、前記複数の標準中国語の音節が存在し、前記複数の標準中国語の音節のランクが各前記複数の音節の対応する前記複数の標準中国語の音節よりも高い時に、前記複数の標準中国語の音
節が混同音であると判断するランクモジュールと、を備えることを特徴とする請求項8に記載の混同音の生成および検知のシステム。
【請求項14】
前記混同音を反復法により繰り返し探し出し、前記混同音認識ネットワークに入力し、前記音声セグメンテーションの正確性および評価の客観性を次第に高めることを特徴とする請求項8に記載の混同音の生成および検知のシステム。
【請求項15】
コンピュータに実行させるためのプログラムを記録し、前記コンピュータが前記プログラムにより混同音の生成および検知を実行し、前記プログラムは、生成段階および検知段階を含む記録媒体であって、
前記生成段階は、
(a)中国語の言語データを入力するステップと、
(b)ビタビ復号演算のフォースアライメントを利用し、混同音認識ネットワークにより最適ルートを認識し、前記中国語の言語データをセグメント化し、複数の音節である音声セグメンテーションの結果を得るステップと、
(c)前記音声セグメンテーションの結果と、複数の標準中国語の音節が含まれる中国語の音声モデルとを比較するステップと、
(d)前記混同音が生成されたか否かを判断するステップと、
(e)前記混同音が生成された時に、前記混同音が前記混同音認識ネットワークに入力され、ステップ(b)、(c)および(d)を繰り返すステップと、
(f)前記混同音が生成されない時に停止し、これまでに生成された前記混同音の全てを混同音設定ファイルへ出力するステップと、を含み、
前記検知段階は、
(g)学習者が読み上げた中国語語句を入力するステップと、
(h)前記混同音認識ネットワークによりアライメントを行うステップと、
(i)前記中国語語句の最適ルートを決定するステップと、
(j)前記最適ルートと、標準ルートとを比較し、リアルタイムで音声の矯正を行うステップと、を含み、
前記混同音認識ネットワークは、前記生成段階に出力される前記混同音設定ファイルを基に構築されることを特徴とする記録媒体。
【請求項16】
前記音声セグメンテーションの結果から各前記複数の音節の開始時間および終了時間を知ることが可能なことを特徴とする請求項15に記載の記録媒体。
【請求項17】
前記中国語の音声モデルは隠れマルコフモデルであることを特徴とする請求項15に記載の記録媒体。
【請求項18】
前記中国語の音声モデルは、411個の前記標準中国語の音節を含むことを特徴とする請求項15に記載の記録媒体。
【請求項19】
前記混同音認識ネットワークは、開始時に前記中国語の言語データの標準音声内容である前記標準ルートを含むことを特徴とする請求項15に記載の記録媒体。
【請求項20】
前記ステップ(c)は、
各前記複数の音節と、前記複数の標準中国語の音節の全てとを比較し、複数のログ確率を計算するステップと、
前記複数のログ確率の高低を基に、前記複数の標準中国語の音節をランク付けするステップと、
前記複数の標準中国語の音節が存在する時に、前記複数の標準中国語の音節のランクが各前記複数の音節が対応する前記複数の標準中国語の音節よりも高い時に、前記複数の標
準中国語の音節が前記混同音であると判断するステップと、含むことを特徴とする請求項15に記載の記録媒体。
【請求項21】
前記混同音を反復法により繰り返し探し出し、前記混同音認識ネットワークに入力し、前記音声セグメンテーションの正確性および評価の客観性を次第に高めることを特徴とする請求項15に記載の記録媒体。

【図1A】
image rotate

【図1B】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図2C】
image rotate

【図3A】
image rotate

【図3B】
image rotate


【公開番号】特開2009−145853(P2009−145853A)
【公開日】平成21年7月2日(2009.7.2)
【国際特許分類】
【出願番号】特願2008−21153(P2008−21153)
【出願日】平成20年1月31日(2008.1.31)
【出願人】(502003596)財団法人 資訊工業策進会 (5)
【Fターム(参考)】