説明

発音辞書作成装置、発音辞書の生産方法、およびプログラム

【課題】多様な発音変化、特に単語の位置に依存して生起する発音変化に対応できる発音辞書が存在しなかった。
【解決手段】一の言語の単語情報と、当該単語情報の単語情報群内における位置示す分類フラグと、単語の発音情報とを有する1以上の発音エントリを格納し得る発音辞書と、単語情報群と発音情報群との組である情報群を1組以上格納し、1以上の単語情報群を単語に分割し、単語の位置を特定する分類フラグを決定し、単語情報に対応付ける分類部と、単語情報と分類フラグごとに、当該単語情報と当該分類フラグとに対応する各発音情報の頻度を算出し、頻度が予め決められた条件を満たすほど高い発音情報を有する発音エントリを選択して、前記発音辞書に蓄積するエントリ決定部とを具備する発音辞書作成装置により、多様な発音変化、特に単語の位置に依存して生起する発音変化に対応できる発音辞書を作成できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置等で利用可能な発音辞書を作成する発音辞書作成装置等に関するものである。
【背景技術】
【0002】
従来、多言語音声翻訳システムの実用化に向けた研究が盛んにおこなわれている。音声認識技術についても、日本語、英語と並び、韓国語の音声認識システムの研究開発が行われている。
【0003】
また、従来、移動通信端末装置に内蔵された通訳プログラムを通じてユーザが発した韓国語音声を外国語に通訳してスピーカーを通じて音声として出力し、液晶画面を通じてテキストで出力することができ、外国人とのコミュニケーションのために大きくて重い翻訳機を常時持ち歩く必要がなく、移動通信端末装置を携帯することで何時でも何処でも通訳サービスを受けることができる移動通信端末装置を利用した通訳サービス方法が存在した(特許文献1参照)。
【0004】
一方、例えば、韓国語では、特に、前後の単語の影響により様々に発音が変化することが知られている。以下は、単語の位置による発音変化の例であり、たとえば、以下の例文1および例文2は、発音変化パターンの一つである「連音」の例である。例文1および例文2において、

は後続する単語によって発音が「/han-gug/」のように変化する。一方、例文3では前後の単語の影響を受けず、発音の変化は生じない。

【0005】
また、韓国語において、前後の単語の影響によって生じる発音変化に関し、以下の特徴があることが知られている(非特許文献1)。
(1)語節内においては、前後の単語の影響で様々な発音変化が生じる。
(2)話し言葉などで語節間にポーズが生起しない場合に限り語節間の発音変化が生じる。
(3)語節間で生じる発音変化は、先行する単語の影響による重複閉鎖や後続単語によるリエゾンなどの発音変化に限られる。なお、韓国語の閉鎖音には平音・激音・濃音の3項対立があり、平音は無気音、激音は有気音、濃音は喉頭の緊張を伴う無気音である。平音が音節境界で連続した場合、内破+外破として実現され、破裂の際は喉頭の緊張を伴う濃音として実現される(/VC.C'V/)。これが表記上の重複閉鎖である。また、重複閉鎖の詳細について、論文(http://www.lang.nagoya-u.ac.jp/nichigen/issue/pdf/3/3-14.pdf#search='重複閉鎖')に説明がある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特表2009−529704号公報(第1頁、第1図等)
【非特許文献】
【0007】
【非特許文献1】K-N.Lee et al. "Modeling Cross-morpheme Pronunciation Variations for Korean Large Vocabulary Continuous Speech Recognition",Proc.EUROSPEECH 2003.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献1に記載の韓国語音声認識技術においては、多様な発音変化、特に単語の位置に依存して生起する発音変化に対応できる発音辞書が存在しなかった。そして、単語の位置に依存して生起する発音変化に対応しない発音辞書を用いて、韓国語の音声認識を行っていたため、精度高く、韓国語の音声認識ができなかった。
【0009】
また、韓国語以外のフランス語やスペイン語等でも、前後の単語の影響により様々に発音が変化するが、かかる言語の音声認識技術においても、多様な発音変化、特に単語の位置に依存して生起する発音変化に対応できる発音辞書が存在せず、精度の高い音声認識ができなかった。
【課題を解決するための手段】
【0010】
本第一の発明の発音辞書作成装置は、一の言語の単語を示す単語情報、単語情報の単語情報群内における位置を特定する情報である分類フラグ、および単語の発音を示す発音情報を有する1以上の発音エントリを格納し得る発音辞書と、1以上の単語情報を有する単語情報群と、1以上の各単語情報に対応する1以上の発音情報を有する発音情報群との組である情報群を1組以上、格納し得る情報群格納部と、1組以上の情報群が有する1以上の単語情報群を、1以上の単語に分割し、単語の単語情報群内における位置を特定する分類フラグを決定し、分類フラグを単語情報に対応付ける分類部と、単語情報と分類フラグごとに、単語情報と分類フラグとに対応する各発音情報の頻度を算出し、頻度が閾値より高い発音情報を有する発音エントリを選択して、発音辞書に蓄積するエントリ決定部とを具備する発音辞書作成装置である。
【0011】
かかる構成により、多様な発音変化、特に単語の位置に依存して生起する発音変化に対応できる発音辞書を作成できる。
【0012】
また、本第二の発明の発音辞書作成装置は、第一の発明に対して、エントリ決定部は、分類フラグごとに、発音エントリを選択する条件である選択条件を格納している選択条件格納手段と、単語情報と分類フラグごとに、単語情報と分類フラグとに対応する各発音情報の頻度を算出する頻度算出手段と、分類フラグに対応する選択条件を選択条件格納手段から取得し、頻度算出手段が算出した頻度が取得した選択条件に合致するか判断する判断手段と、判断手段が選択条件に合致すると判断した発音情報を有する発音エントリを発音辞書に蓄積する発音エントリ蓄積手段とを具備する発音辞書作成装置である。
【0013】
かかる構成により、多様な発音変化、特に単語の位置に依存して生起する発音変化に精度高く対応できる発音辞書を作成できる。
【0014】
また、本第三の発明の発音辞書作成装置は、第一または第二の発明に対して、エントリ決定部が選択した1以上の発音エントリに対して、各発音エントリが有する単語情報の情報群格納部における出現頻度を算出し、出現頻度が所定の条件を満たすほど多い発音エントリのみを選択する発音エントリ選択部をさらに具備し、エントリ決定部は、発音エントリ選択部が選択した発音エントリのみを、発音辞書に蓄積する発音辞書作成装置である。
【0015】
かかる構成により、多様な発音変化、特に単語の位置に依存して生起する発音変化に、さらに精度高く対応できる発音辞書を作成できる。
【0016】
また、本第四の発明の発音辞書作成装置は、第一から第三いずれかの発明に対して、一の言語は、韓国語であり、単語情報群は、語節である発音辞書作成装置である。
【0017】
かかる構成により、韓国語の多様な発音変化、特に、語節内における単語の位置に依存して生起する発音変化に対応できる発音辞書を作成できる。
【発明の効果】
【0018】
本発明による発音辞書作成装置によれば、多様な発音変化、特に単語の位置に依存して生起する発音変化に対応できる発音辞書が作成できる。
【図面の簡単な説明】
【0019】
【図1】実施の形態1における発音辞書作成装置のブロック図
【図2】同発音辞書作成装置の動作について説明するフローチャート
【図3】同分類処理の動作について説明するフローチャート
【図4】同エントリ決定処理の動作について説明するフローチャート
【図5】同選択条件管理表を示す図
【図6】同音声認識装置のブロック図
【図7】同実験結果を示す図
【図8】同発音辞書作成装置の他のブロック図
【図9】同コンピュータシステムの概観図
【図10】同コンピュータシステムのブロック図
【発明を実施するための形態】
【0020】
以下、発音辞書作成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
【0021】
本実施の形態において、1以上の単語の集合である単語群(例えば、語節(Eojeol))内の単語の位置によって発音変化の傾向が異なることを利用し、単語群内の位置情報をもとに発音辞書を作成する発音辞書作成装置について説明する。さらに具体的には、本実施の形態において、単語群内の位置によって起こりうる発音変化パターンが異なるという特徴に着目し、単語の単語群の位置情報に応じて異なる発音エントリとして扱い、適切な発音付与が行われた発音辞書を作成する発音辞書作成装置について説明する。
【0022】
また、発音変化に対応した発音辞書を利用した音声認識装置について説明する。
【0023】
図1は、本実施の形態における発音辞書作成装置1のブロック図である。
【0024】
発音辞書作成装置1は、発音辞書11、情報群格納部12、分類部13、エントリ決定部14、および発音エントリ選択部15を備える。また、分類部13は、分割手段131、単語位置決定手段132、およびフラグ付与手段133を備える。また、エントリ決定部14は、選択条件格納手段141、頻度算出手段142、判断手段143、および発音エントリ蓄積手段144を備える。
【0025】
発音辞書11は、1以上の発音エントリを格納し得る。発音エントリとは、一の言語の単語を示す単語情報と、当該単語情報の単語情報群内における位置を特定する情報である分類フラグと、当該単語の発音を示す発音情報とを有する。ここで、単語情報とは、単語自体でも良いし、単語の表層など、単語を示す情報であれば何でも良い。また、発音情報とは、アルファベット列でも良いし、音響データ等、発音を示す情報であれば何でも良い。また、一の言語は、例えば、韓国語である。また、一の言語は、フランス語やスペイン語などの、単語群内の単語の位置によって発音変化がある言語であれば何でも良い。発音辞書11は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0026】
情報群格納部12は、1組以上の情報群を格納し得る。情報群とは、単語情報群と、発音情報群との組である。単語情報群とは、1以上の単語情報を有する情報であり、文でも良いし、単語の集合である句、語節などでも良い。なお、語節とは「Eojeol」であり、韓国語における一まとまりの単語の集合である。また、フランス語では、単語情報群はリズムグループという。また、情報群格納部12において、単語情報と発音情報とは対応付いている、とする。また、発音情報群とは、1以上の各単語情報に対応する1以上の発音情報を有する情報である。なお、例えば、情報群は、多数の文が格納されているコーパス(図示しない)の各文に対して、形態素解析を行って、取得される。
【0027】
また、情報群格納部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。そして、情報群格納部12に情報群が記憶される過程は問わない。例えば、記録媒体を介して情報群が情報群格納部12で記憶されるようになってもよく、通信回線等を介して送信された情報群が情報群格納部12で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報群が情報群格納部12で記憶されるようになってもよい。
【0028】
また、類部13は、1組以上の情報群が有する1以上の単語情報群を、1以上の単語情報に分割し、単語情報の単語情報群内における位置を特定する分類フラグを決定し、当該分類フラグを単語情報に対応付ける。分類フラグは、例えば、単語情報が単語情報群内の先頭に位置することを示すL、単語情報が単語情報群内の末尾に位置することを示すR、単語情報が単語情報群内の中央部(先頭でも末尾でもない位置)に位置することを示すC、単語情報群が一つの単語情報で構成されていることを示すSである。分類フラグは、その他の分類を示す情報でも良い。
【0029】
分類部13を構成する分割手段131は、1組以上の情報群が有する1以上の単語情報群を、1以上の単語情報に分割し、1以上の単語情報を取得する。分割手段131は、例えば、公知の形態素解析器により実現される。また、分割手段131は、例えば、統計的に、単語情報群を1以上の単語情報に分割する処理を行っても良い。なお、分割手段131は、公知技術であるので詳細な説明を省略する。また、単語情報群が一つの単語情報のみを有する場合、分割手段131は、単語情報群に対する分割の処理を試みた後、当該一つの単語情報を取得する処理を行う。
【0030】
単語位置決定手段132は、分割手段131が取得した1以上の各単語情報に対して、単語情報群内における位置を決定する処理を行う。
【0031】
フラグ付与手段133は、単語位置決定手段132が決定した位置に対応する分類フラグを、各単語情報に対して付与する。
【0032】
エントリ決定部14は、単語情報と分類フラグごとに、単語情報と分類フラグとに対応する各発音情報の頻度を算出し、頻度が予め決められた条件を満たすほど高い発音情報を有する発音エントリを選択して、発音辞書11に蓄積する。また、エントリ決定部14は、発音エントリ選択部15が選択した発音エントリのみを発音辞書11に蓄積しても良い。
【0033】
このエントリ決定部14を構成する選択条件格納手段141は、分類フラグごとに、発音エントリを選択する条件である選択条件を格納している。なお、エントリ決定部14が選択条件格納手段141を具備しない場合、エントリ決定部14は、すべての分類フラグに対して、同一の条件で発音エントリを選択する。また、選択条件格納手段141は、すべての分類フラグに共通の一の選択条件を格納していても良い。選択条件格納手段141は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0034】
頻度算出手段142は、分類部13により取得されたすべての発音エントリ(単語情報と分類フラグと発音情報を有する情報)に対して、単語情報と分類フラグごとに、単語情報と分類フラグとに対応する各発音情報の頻度を算出する。
【0035】
判断手段143は、分類フラグに対応する選択条件を選択条件格納手段141から取得し、頻度算出手段142が算出した頻度が、取得した選択条件に合致するか判断する。なお、選択条件格納手段141が存在しない場合、判断手段143は、頻度算出手段142が算出した頻度が、予め決められた選択条件に合致するか判断する。
【0036】
発音エントリ蓄積手段144は、判断手段143が選択条件に合致すると判断した発音情報を有する発音エントリを発音辞書11に蓄積する。また、発音エントリ蓄積手段144は、発音エントリ選択部15が選択した発音エントリのみを発音辞書11に蓄積しても良い。
【0037】
発音エントリ選択部15は、エントリ決定部14が選択した1以上の発音エントリに対して、各発音エントリが有する単語情報の情報群格納部12における出現頻度を算出し、出現頻度が所定の条件を満たすほど多い発音エントリのみを選択する。また、発音エントリ選択部15は、単語情報の情報群格納部12における出現頻度を算出し、出現頻度が所定の条件を満たすほど多い単語情報を有する発音エントリのみを、エントリ決定部14で処理することを、エントリ決定部14に指示しても良い。
【0038】
分類部13、エントリ決定部14、発音エントリ選択部15、分割手段131、単語位置決定手段132、フラグ付与手段133、頻度算出手段142、判断手段143、および発音エントリ蓄積手段144は、通常、MPUやメモリ等から実現され得る。分類部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0039】
次に、発音辞書作成装置1の動作について、図2のフローチャートを用いて説明する。
【0040】
(ステップS201)分類部13は、カウンタiに1を代入する。
【0041】
(ステップS202)分類部13は、情報群格納部12に、i番目の情報群が存在するか否かを判断する。i番目の情報群が存在すればステップS203に行き、存在しなければステップS205に行く。
【0042】
(ステップS203)分類部13は、i番目の情報群に対して、分類処理を行う。分類処理の詳細について、図3のフローチャートを用いて説明する。
【0043】
(ステップS204)分類部13は、カウンタiを1、インクリメントし、ステップS202に戻る。
【0044】
(ステップS205)エントリ決定部14は、エントリ決定処理を行う。エントリ決定処理の詳細について、図4のフローチャートを用いて説明する。
【0045】
(ステップS206)発音エントリ選択部15は、カウンタiに1を代入する。
【0046】
(ステップS207)発音エントリ選択部15は、ステップS205で取得された発音エントリの中で、i番目の発音エントリが存在するか否かを判断する。i番目の発音エントリが存在すればステップS208に行き、存在しなければ処理を終了する。
【0047】
(ステップS208)発音エントリ選択部15は、i番目の発音エントリに含まれる単語情報を取得する。
【0048】
(ステップS209)発音エントリ選択部15は、ステップS208で取得した単語情報の、情報群格納部12における出現頻度を取得する。
【0049】
(ステップS210)発音エントリ選択部15は、ステップS209で取得した出現頻度が、予め決められた条件を満たすか否かを判断する。条件を満たせばステップS211に行き、条件を満たさなければステップS212にスキップする。
【0050】
(ステップS211)発音エントリ蓄積手段144は、i番目の発音エントリを発音辞書11に蓄積する。
【0051】
(ステップS212)発音エントリ選択部15は、カウンタiを1、インクリメントし、ステップS207に戻る。
【0052】
なお、図2のフローチャートにおいて、発音辞書作成装置1の動作開始のトリガーは、ユーザからの指示、外部装置から送信された指示の受信、予め決められた時刻になった場合の時刻トリガー等、何でも良い。
【0053】
また、図2のフローチャートのステップS205において、エントリ決定部14が取得したすべての発音エントリを発音辞書11に蓄積しても良い。かかる場合、ステップS206からステップS212は不要である。
【0054】
次に、ステップS203の分類処理について、図3のフローチャートを用いて説明する。
【0055】
(ステップS301)分類部13を構成する分割手段131は、情報群格納部12から、i番目の情報群を読み出す。
【0056】
(ステップS302)分割手段131は、ステップS301で読み出した情報群が有する単語情報群を取得する。
【0057】
(ステップS303)分割手段131は、ステップS302で取得した単語情報群を、1以上の単語情報に分割する。
【0058】
(ステップS304)単語位置決定手段132は、カウンタjに1を代入する。
【0059】
(ステップS305)単語位置決定手段132は、ステップS302で分割され、取得された単語情報の中で、j番目の単語情報が存在するか否かを判断する。j番目の単語情報が存在すればステップS306に行き、存在しなければ上位処理にリターンする。
【0060】
(ステップS306)単語位置決定手段132は、j番目の単語情報の、ステップS302で取得した単語情報群の中における位置を決定する。
【0061】
(ステップS307)フラグ付与手段133は、ステップS306で決定された位置に対応する分類フラグを取得し、j番目の単語情報に付与する。
【0062】
(ステップS308)分類部13は、j番目の単語情報に対応する発音情報を、情報群格納部12から取得する。
【0063】
(ステップS309)分類部13は、j番目の単語情報、分類フラグ、およびステップS308で取得した発音情報を有する発音エントリを構成する。
【0064】
(ステップS310)単語位置決定手段132は、カウンタjを1、インクリメントし、ステップS305に戻る。
【0065】
次に、ステップS205のエントリ決定処理について、図4のフローチャートを用いて説明する。
【0066】
(ステップS401)エントリ決定部14は、ステップS203の分類処理で取得されたすべての発音エントリを、単語情報および分類フラグをキーとしてソートする。
【0067】
(ステップS402)エントリ決定部14は、カウンタiに1を代入する。
【0068】
(ステップS403)頻度算出手段142は、ステップS401でソートされた発音エントリの中を順に見ていき、i番目の単語情報が存在するか否かを判断する。i番目の単語情報が存在すればステップS404に行き、存在しなければ上位処理にリターンする。なお、ここでのi番目の単語情報は、i番目の種類の単語情報の意味であり、同一の単語情報は、複数でも一つとして数える。
【0069】
(ステップS404)頻度算出手段142は、i番目の単語情報の各分類フラグに対応する頻度を、分類フラグごとに取得する。
【0070】
(ステップS405)頻度算出手段142は、カウンタjに1を代入する。
【0071】
(ステップS406)判断手段143は、i番目の単語情報に対応するj番目の分類フラグが存在するか否かを判断する。j番目の分類フラグが存在すればステップS407に行き、存在しなければステップS411に行く。なお、ここでのj番目の分類フラグは、i番目の種類の分類フラグの意味であり、同一の分類フラグは、複数でも一つとして数える。
【0072】
(ステップS407)判断手段143は、j番目の分類フラグに対応する選択条件を、選択条件格納手段141から取得する。
【0073】
(ステップS408)判断手段143は、i番目の単語情報、かつj番目の分類フラグの組の頻度が、ステップS407で取得した選択条件に合致するか否かを判断する。合致すればステップS409に行き、合致しなければステップS410にスキップする。
【0074】
(ステップS409)発音エントリ蓄積手段144は、i番目の単語情報、j番目の分類フラグを含む発音エントリを取得する。なお、ここで取得された発音エントリは、例えば、図示しないバッファに一時蓄積される。
【0075】
(ステップS410)エントリ決定部14は、カウンタjを1、インクリメントし、ステップS406に戻る。
【0076】
(ステップS411)エントリ決定部14は、カウンタiを1、インクリメントし、ステップS403に戻る。
【0077】
以下、本実施の形態における発音辞書作成装置1の具体的な動作について説明する。ここで、韓国語とフランス語とを例にして、発音辞書作成装置1の2つの具体的な動作について説明する。
(具体例1)
【0078】
例えば、韓国語において、単語情報群は語節「Eojeol」である。また、分類フラグは、ここでは、L「単語が語節頭に生起する時」、R「単語が語節末に生起する時」、C「単語が語節内部に生起する時」、S「1単語が語節を構成している時」の4つである、とする。
【0079】
そして、現在、多数の韓国語文が格納されているコーパス(図示しない)中の各文に対して、韓国語の形態素解析器を用いて、形態素解析を行い、各文が1以上の語節に分割され、かつ、各語節が1以上の単語に分割された、とする。そして、形態素解析器の結果を基にして、テーブルを用いて、各単語の発音情報も得られた、とする。そして、情報群格納部12には、1組以上の情報群が格納された、とする。
【0080】
また、選択条件格納手段141は、図5に示す選択条件管理表を保持している、とする。選択条件管理表は、分類フラグと、当該分類フラグに対応する選択条件を有する。選択条件は、ここでは、頻度または頻度割合のいずれかをパラメータとする条件である。ただし、選択条件は、頻度に関する条件であれば良い。なお、「頻度>=N1」は、分類部13が取得した発音エントリの中で、同一の単語と同一の分類フラグと同一の発音情報の組の出現頻度が「N1(自然数)」以上であれば、当該発音エントリが選択されることを示す。また、「頻度>=30%」は、分類部13が取得した発音エントリの中で、「(同一の単語と同一の分類フラグと同一の発音情報の組の出現頻度/同一の単語と同一の分類フラグの出現頻度)×100」が30(%)以上であれば、当該発音エントリが選択されることを示す。つまり、頻度とは出現回数であり、頻度割合とは、同一の単語と同一の分類フラグの出現回数の中の、着目する一の発音情報が出現する割合である。
【0081】
かかる状況において、分類部13は、情報群格納部12のすべての単語に対して、単語の単語情報群内における位置を決定し、当該位置に対応する分類フラグを付与する。
【0082】
例えば、情報群格納部12内に語節

(以下、当該語節を語節Aという。)が存在する場合、分類部13を構成する分割手段131は、語節Aを2つの単語A1と単語A2に分ける。
なお、単語A1は、

単語A2は、

である。
次に、単語位置決定手段132は、単語A1に対して、単語情報群内における位置を、「語節頭に生起する」と判断する。次に、フラグ付与手段133は、単語A1に対して、分類フラグ「L」を付与し、「単語A1_L」を得る。そして、分類部13は、語節A中の単語A1に対する発音情報を得て、当該発音情報と「単語A1_L」とを有する発音エントリを構成する。
【0083】
また、単語位置決定手段132は、単語A2に対して、単語情報群内における位置を、「語節末に生起する」と判断する。次に、フラグ付与手段133は、単語A2に対して、分類フラグ「R」を付与し、「単語A2_R」を得る。そして、分類部13は、語節Aの中の単語A2に対する発音情報を得て、当該発音情報と「単語A2_R」とを有する発音エントリを構成する。
【0084】
また、例えば、情報群格納部12内に語節

(以下、当該語節を語節Bという。)が存在する場合、分類部13を構成する分割手段131は、当該語節Bは、2以上の単語に分割できない、と判断する。次に、単語位置決定手段132は、語節Bと一致する単語B1に対して、単語情報群内における位置を、「1単語で語節を構成している」と判断する。次に、フラグ付与手段133は、単語B1に対して、分類フラグ「S」を付与し、「単語B1_S」を得る。そして、分類部13は、語節Bの中の単語B1に対する発音情報を得て、当該発音情報と「単語B1_S」とを有する発音エントリを構成する。
【0085】
分類部13は、以上の分類処理を、情報群格納部12内のすべての語節に対して行い、多数の発音エントリを得る。なお、発音エントリは、分類フラグが付与された単語と、発音情報とを有する。
【0086】
次に、エントリ決定部14は、単語情報と分類フラグごとに、単語情報と分類フラグとに対応する各発音情報の頻度を算出し、頻度が予め決められた条件を満たすほど高い発音情報を有する発音エントリを選択する。なお、エントリ決定部14は、連音を考慮して位置情報に応じて発音エントリを選択しても良い。ここで、以下、連音を考慮する場合について、単語

を例にとり、説明する。
以下の例文1では、語節Bは1単語から構成され、単語B1は後続の単語の影響を受けず、

となる。
(例文1)

一方、以下の例文2では、語節

(語節Cという。)
は単語C1と単語C2の2単語から構成される。
なお、単語C1は、

単語C2は、

である。
そして、語節Cにおいて、単語C1は後続の単語C2の影響で、「/han-gug/」の発音となる。
(例文2)

また、以下の例文3では、語節

(語節Dという。)
は単語D1と単語D2と単語D3の3単語から構成される。
なお、単語D1は、

単語D2は、

単語D3は、

である。
そして、語節Dにおいて、単語D1は後続の単語D2の影響で、「/han-gug/」の発音となる。
(例文3)

また、以下は単語

(単語Eという)(教育)の発音変化例である。つまり、単語Eは、前後の単語の影響により「kyo-yug」「gyo-yuk」「kyo-yukh」「kyo-yun」「kkyo-yug」「kkyo-yuk」「gyo-yun」のように発音が変化することがある。

【0087】
次に、エントリ決定部14は、上記の分類処理で取得されたすべての発音エントリを、単語情報および分類フラグをキーとしてソートする。
【0088】
次に、エントリ決定部14を構成する頻度算出手段142は、各単語情報の各分類フラグに対応する頻度を、分類フラグごとに取得する。そして、判断手段143は、各分類フラグに対応する選択条件を選択条件管理表(図5)から取得する。次に、判断手段143は、単語情報・分類フラグの組「単語A1_L」と各発音情報の頻度が選択条件「頻度>=N1」に合致するか否かを判断する。ここで、判断手段143は、発音情報「han-guk」「han-gug」が、選択条件「頻度>=N1」に合致すると判断した、とする。また、判断手段143は、単語情報・分類フラグの組「単語A1_R」と各発音情報の頻度が選択条件「頻度>=N2」に合致するか否かを判断する。ここで、判断手段143は、発音情報「han-guk」のみが、選択条件「頻度>=N2」に合致すると判断した、とする。また、判断手段143は、単語情報・分類フラグの組「単語A1_C」と各発音情報の頻度が選択条件「頻度割合>=30%」に合致するか否かを判断する。ここで、判断手段143は、発音情報「han-guk」「han-gug」が、選択条件「頻度割合>=30%」に合致すると判断した、とする。さらに、判断手段143は、単語情報・分類フラグの組「単語A1_S」と各発音情報の頻度が選択条件「頻度割合>=40%」に合致するか否かを判断する。ここで、判断手段143は、発音情報「han-guk」のみが、選択条件「頻度割合>=40%」に合致すると判断した、とする。
【0089】
そして、エントリ決定部14は、発音エントリ

(「「単語A1_L」,「han-guk」」、「「単語A1_L」,「han-gug」」、「「単語A1_R」,「han-guk」」、「「単語A1_C」,「han-guk」」、「「単語A1_C」,「han-gug」」、「「単語A1_S」,「han-guk」」、と同意義である)を得る。
【0090】
次に、発音エントリ蓄積手段144は、エントリ決定部14が得た6つの発音エントリを発音辞書11に蓄積する。
【0091】
なお、上記において、発音エントリ選択部15は、エントリ決定部14が選択した1以上の発音エントリに対して、各発音エントリが有する単語情報の情報群格納部12における出現頻度を算出し、出現頻度が所定の条件を満たすほど多い発音エントリのみを選択しても良い。かかる場合、発音エントリ蓄積手段144は、発音エントリ選択部15により選択された発音エントリのみを蓄積する。
(実験)
【0092】
以下、実験結果について説明する。韓国語旅行会話文発声データ(BTEC、Basic Travel Expression Corpus)を用いて、発音辞書作成装置1の評価実験を実施した。本データは、男女各20人による読上げ音声である。
【0093】
本実験において用いる音声認識装置2のブロック図を図6に示す。音声認識装置2は、発音辞書11、音響モデル61、言語モデル62、音声受付部63、音声認識部64、および認識結果出力部65を具備する。
【0094】
音響モデル61は、Sitecにて作成された読み上げ音声コーパス(B. Kim et al."Current state and future plants at SiTEC for speech corpora for common use," Malsori, vol. 46,pp. 175-186, 2003.)計70時間分を用いて学習された。音響モデル61のサンプリング周波数は16kHz、特徴量は12次元MFCC、12次元ΔMFCC、Δ対数パワーを用いた。また、音響モデル61は、より最適なモデル構造が得られるMDL−SSS法(Jitsuhiro et al., IEICE Trans. Inf. & Syst., E87-D8,2121-2129, 2004.)を用いて、自動的に構造決定されたものである。
【0095】
また、言語モデル62は旅行会話基本文約16万文を用いて作成された。単語セグメンテーションは、音声認識実験を行う上で最適な単語単位を自動決定する方法を用いて実施され、各単語単位について、語節内の位置情報を付加した後、言語モデル62が学習された。
【0096】
音声受付部63は、音声を受け付ける。また、音声認識部64は、発音辞書11、音響モデル61、および言語モデル62を用いて、音声受付部63が受け付けた音声を認識する。ここで、音声認識のアルゴリズムは既存のアルゴリズムを用いた。既存のアルゴリズムについての説明は省略する。また、認識結果出力部65は、音声認識部64が取得した認識結果を出力する。
【0097】
本実験において、Baselineでは、発音変形を考慮した発音エントリを追加しない方法である従来法を採った。また、発音辞書作成装置1における選択条件格納手段141の選択条件は、すべての分類フラグに対して同一の選択条件であり、発音変形パターンの中で最も高頻度のパターンのみを選択する、という条件とした。なお、かかる発音辞書作成装置1の方法を「Add−1−best」ということとする。
【0098】
また、図示しない情報群自動生成装置が、非特許文献1で述べられている"Tensification""Liaison""n-insertion"などの変化パターンをルール化し、各単語に対して前後の単語を考慮しつつ、情報群格納部12における情報群の発音変形パターンを自動生成した。
【0099】
そして、Baselineの方法では、発音辞書中の作成された発音エントリ数は56942であった。一方、Add−1−bestの方法では、発音辞書中の作成された発音エントリ数は61586であった。
【0100】
また、Baselineの方法により作成された発音辞書を使用する音声認識装置による音声認識、およびAdd−1−bestの方法により作成された発音辞書を使用する音声認識装置2による音声認識を行った。そして、2つの音声認識装置における音声認識の誤り率(文字誤り率)を算出した。かかる実験結果を図7に示す。図7により、学習データ内の頻度を考量して、最も頻度が高い変形候補を追加した場合(Add−1−bestの方法)については、Baselineの方法と比較して、11%の性能改善が確認できた。
【0101】
本結果より、発音エントリを決定する上で、語節内の位置情報を用いることの有効性が確認された。本実験では、上記の条件(Add−1−bestの方法)のみで評価を行ったが、より最適なエントリ追加方法を行うことにより、更なる性能改善が期待できる。
(具体例2)
【0102】
発音辞書作成装置1は、韓国語に限らず、フランス語等の他の言語に対しても適用できる。例えば、フランス語において、単語情報群は「リズムグループ」と言われる1以上の単語の集合である。そして、今、図示しないコーパスに、「Je ne suis pas en forme et toi?」や「Je ne sais pas, expliquez-moi s'il vou plait?」などのフランス語の文が多数存在する、とする。次に、フランス語の形態素解析器等の従来技術を用いて、「Je ne suis pas en forme et toi?」が、2つのリズムグループ「Je ne suis pas en forme」「et toi?」に分割され、かつ、各単語の発音情報が取得され、情報群格納部12に蓄積された、とする。また、フランス語の形態素解析器等を用いて、「Je ne sais pas, expliquez-moi s'il vou plait?」が、2つのリズムグループ「Je ne sais pas,」「expliquez-moi s'il vou plait?」に分割され、かつ、各単語の発音情報が取得され、情報群格納部12に蓄積された、とする。上記の処理をコーパス内のすべての文に対して実施し、情報群格納部12に多数の情報群が蓄積された、とする。
【0103】
次に、分類部13は、各リズムグループを単語に分割し、各単語の位置を取得し、分類フラグを付与する。分類部13は、例えば、リズムグループ「Je ne suis pas en forme」の単語「pas」に対して、分類フラグ「C」を取得し、「pas_C」を得る。また、分類部13は、「Je ne suis pas en forme」内の単語「pas」の発音情報[pas]を得る。なお、フランス語において、語末の発音されない子音「単語「pas」の「s」」の音は、後続単語が母音(ここでは、単語「en」の「e」)で始まる場合に有音となる。そして、分類部13は、発音エントリ「「pas_C」,[pas]」を取得する。
【0104】
また、分類部13は、例えば、リズムグループ「Je ne sais pas,」の単語「pas」に対して、分類フラグ「R」を取得し、「pas_R」を得る。また、分類部13は、「Je ne sais pas,」内の単語「pas」の発音情報[pa]を得る。なお、フランス語において、リズムグループを超えて後続の単語の影響は受けない。そして、分類部13は、発音エントリ「「pas_R」,[pa]」を取得する。
なお、同様の現象は英語においても存在し、文節や意味の切れ目で息継ぎをする場合は、その切れ目の前後では、前後の単語による音の変化は生じない。
以下の例文1を「When a family moved in」と「a different family came」の間に息継ぎを入れて発声した場合、「in」は後続の単語の影響を受けず「/in/」と発声する
(例文1)
When a family moved in, a different family came.
一方、以下の例文2において、「it was in a different way.」を、息継ぎをせず発声する場合は、「in」の音は後続の単語「a」の影響を受け「/in n/」のような発音となる。
(例文2)
If you slipped in, it was in a different way.
【0105】
分類部13は、上記の処理を情報群格納部12のすべてのリズムグループに対して行い、多数の発音エントリを取得する。
【0106】
次に、エントリ決定部14は、具体例1と同様の処理により、単語情報と分類フラグごとに、単語情報と分類フラグとに対応する各発音情報の頻度を算出し、頻度が予め決められた条件を満たすほど高い発音情報を有する発音エントリを選択して、発音辞書11に蓄積する。
【0107】
以上により、フランス語においても、単語の位置を考慮した発音エントリが格納された発音辞書が得られた。
【0108】
以上、本実施の形態によれば、多様な発音変化、特に単語の位置に依存して生起する発音変化に対応できる発音辞書を作成できる。そして、かかる発音辞書を用いて、音声認識を行えば、高い精度の音声認識結果が得られる。
【0109】
なお、本実施の形態によれば、図8に示すように、発音辞書作成装置1は、発音辞書11、情報群格納部12、分類部13、エントリ決定部14のみでも良い。
【0110】
また、上述したように、発音辞書作成装置1は、韓国語に限らず、フランス語、スペイン語、英語等の他の言語に対しても適用できる。
【0111】
また、本実施の形態において作成された発音辞書は、音声認識装置だけではなく、音声合成装置などの他の用途にも利用可能である。また、本実施の形態において作成された発音辞書は、外国語学習者用に電子辞書や教育ソフトにおいて発音情報を提示する際に用いることもできる。
【0112】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、一の言語の単語を示す単語情報、当該単語情報の単語情報群内における位置を特定する情報である分類フラグ、および当該単語の発音を示す発音情報を有する1以上の発音エントリを含む発音辞書と、1以上の単語情報を有する単語情報群と、前記1以上の各単語情報に対応する1以上の発音情報を有する発音情報群との組である情報群を1組以上、格納しており、コンピュータを、前記1組以上の情報群が有する1以上の単語情報群を、1以上の単語に分割し、単語の単語情報群内における位置を特定する分類フラグを決定し、当該分類フラグを前記単語情報に対応付ける分類部と、前記単語情報と前記分類フラグごとに、当該単語情報と当該分類フラグとに対応する各発音情報の頻度を算出し、頻度が予め決められた条件を満たすほど高い発音情報を有する発音エントリを選択して、前記発音辞書に蓄積するエントリ決定部として機能させるためのプログラム、である。
【0113】
また、上記プログラムにおいて、前記エントリ決定部は、前記分類フラグごとに、発音エントリを選択する条件である選択条件を格納している選択条件格納手段と、前記単語情報と前記分類フラグごとに、当該単語情報と当該分類フラグとに対応する各発音情報の頻度を算出する頻度算出手段と、前記分類フラグに対応する選択条件を前記選択条件格納手段から取得し、前記頻度算出手段が算出した頻度が前記取得した選択条件に合致するか判断する判断手段と、前記判断手段が選択条件に合致すると判断した発音情報を有する発音エントリを前記発音辞書に蓄積する発音エントリ蓄積手段とを具備するものとして、コンピュータを機能させることは好適である。
【0114】
また、上記プログラムにおいて、前記エントリ決定部が選択した1以上の発音エントリに対して、各発音エントリが有する単語情報の前記情報群格納部における出現頻度を算出し、出現頻度が所定の条件を満たすほど多い発音エントリのみを選択する発音エントリ選択部をさらに具備し、前記エントリ決定部は、前記発音エントリ選択部が選択した発音エントリのみを、前記発音辞書に蓄積するものとして、コンピュータを機能させることは好適である。
【0115】
また、図9は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の発音辞書作成装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムで実現され得る。図9は、このコンピュータシステム300の概観図であり、図10は、システム300のブロック図である。
【0116】
図9において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304と、マイク305と、スピーカー306とを含む。
【0117】
図10において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、CPU(Central Processing Unit)3013と、CPU3013、CD−ROMドライブ3012およびFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、CPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、およびデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0118】
コンピュータシステム300に、上述した実施の形態の発音辞書作成装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。
【0119】
プログラムは、コンピュータ301に、上述した実施の形態の発音辞書作成装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
【0120】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0121】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0122】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0123】
以上のように、本発明にかかる発音辞書作成装置は、多様な発音変化、特に単語の位置に依存して生起する発音変化に対応できる発音辞書を作成できる、という効果を有し、発音辞書の生産装置等として有用である。
【符号の説明】
【0124】
1 発音辞書作成装置
2 音声認識装置
11 発音辞書
12 情報群格納部
13 分類部
14 エントリ決定部
15 発音エントリ選択部
61 音響モデル
62 言語モデル
63 音声受付部
64 音声認識部
65 認識結果出力部
131 分割手段
132 単語位置決定手段
133 フラグ付与手段
141 選択条件格納手段
142 頻度算出手段
143 判断手段
144 発音エントリ蓄積手段

【特許請求の範囲】
【請求項1】
一の言語の単語を示す単語情報、当該単語情報の単語情報群内における位置を特定する情報である分類フラグ、および当該単語の発音を示す発音情報を有する1以上の発音エントリを格納し得る発音辞書と、
1以上の単語情報を有する単語情報群と、前記1以上の各単語情報に対応する1以上の発音情報を有する発音情報群との組である情報群を1組以上、格納し得る情報群格納部と、
前記1組以上の情報群が有する1以上の単語情報群を、1以上の単語に分割し、単語の単語情報群内における位置を特定する分類フラグを決定し、当該分類フラグを前記単語情報に対応付ける分類部と、
前記単語情報と前記分類フラグごとに、当該単語情報と当該分類フラグとに対応する各発音情報の頻度を算出し、頻度が予め決められた条件を満たすほど高い発音情報を有する発音エントリを選択して、前記発音辞書に蓄積するエントリ決定部とを具備する発音辞書作成装置。
【請求項2】
前記エントリ決定部は、
前記分類フラグごとに、発音エントリを選択する条件である選択条件を格納している選択条件格納手段と、
前記単語情報と前記分類フラグごとに、当該単語情報と当該分類フラグとに対応する各発音情報の頻度を算出する頻度算出手段と、
前記分類フラグに対応する選択条件を前記選択条件格納手段から取得し、前記頻度算出手段が算出した頻度が前記取得した選択条件に合致するか判断する判断手段と、
前記判断手段が選択条件に合致すると判断した発音情報を有する発音エントリを前記発音辞書に蓄積する発音エントリ蓄積手段とを具備する請求項1記載の発音辞書作成装置。
【請求項3】
前記エントリ決定部が選択した1以上の発音エントリに対して、各発音エントリが有する単語情報の前記情報群格納部における出現頻度を算出し、出現頻度が所定の条件を満たすほど多い発音エントリのみを選択する発音エントリ選択部をさらに具備し、
前記エントリ決定部は、
前記発音エントリ選択部が選択した発音エントリのみを、前記発音辞書に蓄積する請求項1または請求項2記載の発音辞書作成装置。
【請求項4】
前記一の言語は、韓国語であり、
前記単語情報群は、語節である請求項1から請求項3いずれか記載の発音辞書作成装置。
【請求項5】
記録媒体に、
一の言語の単語を示す単語情報、当該単語情報の単語情報群内における位置を特定する情報である分類フラグ、および当該単語の発音を示す発音情報を有する1以上の発音エントリを含む発音辞書と、
1以上の単語情報を有する単語情報群と、前記1以上の各単語情報に対応する1以上の発音情報を有する発音情報群との組である情報群を1組以上、格納しており、
分類部、およびエントリ決定部により実現される発音辞書の生産方法であって、
前記分類部が、前記1組以上の情報群が有する1以上の単語情報群を、1以上の単語に分割し、単語の単語情報群内における位置を特定する分類フラグを決定し、当該分類フラグを前記単語情報に対応付ける分類ステップと、
前記エントリ決定部が、前記単語情報と前記分類フラグごとに、当該単語情報と当該分類フラグとに対応する各発音情報の頻度を算出し、頻度が予め決められた条件を満たすほど高い発音情報を有する発音エントリを選択して、前記発音辞書に蓄積するエントリ決定ステップとを具備する発音辞書の生産方法。
【請求項6】
記録媒体に、
一の言語の単語を示す単語情報、当該単語情報の単語情報群内における位置を特定する情報である分類フラグ、および当該単語の発音を示す発音情報を有する1以上の発音エントリを含む発音辞書と、
1以上の単語情報を有する単語情報群と、前記1以上の各単語情報に対応する1以上の発音情報を有する発音情報群との組である情報群を1組以上、格納しており、
コンピュータを、
前記1組以上の情報群が有する1以上の単語情報群を、1以上の単語に分割し、単語の単語情報群内における位置を特定する分類フラグを決定し、当該分類フラグを前記単語情報に対応付ける分類部と、
前記単語情報と前記分類フラグごとに、当該単語情報と当該分類フラグとに対応する各発音情報の頻度を算出し、頻度が予め決められた条件を満たすほど高い発音情報を有する発音エントリを選択して、前記発音辞書に蓄積するエントリ決定部として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−61371(P2013−61371A)
【公開日】平成25年4月4日(2013.4.4)
【国際特許分類】
【出願番号】特願2011−197883(P2011−197883)
【出願日】平成23年9月12日(2011.9.12)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】