説明

音声情報処理装置、およびプログラム

【課題】従来の音声情報処理装置においては、アクセント位置の判断の精度が低い、という課題があった。
【解決手段】単語または文章の音声情報であり、1以上の音節の集合である音声情報を受け付ける音声情報受付部と、前記受け付けた音声情報から基本周波数を取得する基本周波数取得部と、前記受け付けた音声情報から当該音声情報の強さを示す情報であるパワー情報を取得するパワー情報取得部と、前記基本周波数取得部が取得した基本周波数と、前記パワー情報取得部が取得したパワー情報を用いて、第一アクセントの位置またはアクセントの順位を決定するアクセント決定部と、前記アクセント決定部が決定した第一アクセントの位置またはアクセントの順位に応じた処理を行う処理部を具備する音声情報処理装置により、第一アクセントの位置またはアクセントの順位が精度高く判断できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、英会話等の語学訓練を行う場合に、学習者が発音した音声情報のアクセント位置などを評価する音声情報処理装置等に関するものである。
【背景技術】
【0002】
従来の音声情報処理装置において、学習者が発声した音声はマイクから受け入れられ、その音声波形から強勢位置と弱勢位置とを検出する。そして、音声情報処理装置は、学習者の発音した単語のどの位置に強勢があり、どの位置が弱勢になっているかを区別して、ディスプレイに表示する(例えば、特許文献1参照)。その結果、学習者に、英単語の強勢(アクセント)を意識させることができ、英語らしい発音の学習に役立ち、また、学習者は、強勢弱勢のバランスを考慮した学習を効果的に行える。
【特許文献1】特開2000−019941号公報(第1頁、第1図等)
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、従来の音声情報処理装置においては、音声周波数のみに基づいて、強勢位置、弱勢位置の判断を行っていた。したがって、アクセント位置の判断の精度が低かった。具体的には、例えば、同一の音声周波数の音節が存在する場合に、どちらにアクセントが存在するか分からない、という課題があった。
【0004】
また、従来の音声情報処理装置においては、文章や長い単語など、受け付けた音声情報に3以上の音節が存在する場合、アクセントの順位を判断することができなかった。したがって、文章や長い単語などの抑揚について学習することができなかった。
【0005】
さらに、従来の音声情報処理装置においては、強勢位置と弱勢位置を区別して表示するだけであったので、正解のアクセント位置に基づいて、正しいアクセントで発音されているか否かが、学習者に分かりにくかった。
【課題を解決するための手段】
【0006】
本第一の発明の音声情報処理装置は、単語または文章の音声情報であり、1以上の音節の集合である音声情報を受け付ける音声情報受付部と、前記音声情報受付部が受け付けた音声情報から基本周波数を取得する基本周波数取得部と、前記音声情報受付部が受け付けた音声情報から当該音声情報の強さを示す情報であるパワー情報を取得するパワー情報取得部と、前記基本周波数取得部が取得した基本周波数と、前記パワー情報取得部が取得したパワー情報を用いて、第一アクセントの位置またはアクセントの順位を決定するアクセント決定部と、前記アクセント決定部が決定した第一アクセントの位置またはアクセントの順位に応じた処理を行う処理部を具備する音声情報処理装置である。
【0007】
かかる構成により、第一アクセントの位置またはアクセントの順位が判断できる。また、本構成により、学習者が発音した音声情報について、3以上の音節のアクセントの順位を取得できる。その結果、文章や長い単語における抑揚についても学習できる。
【0008】
また、本第二の発明の音声情報処理装置は、第一の発明に対して、前記アクセント決定部は、前記音声情報を構成する2以上の音節の基本周波数の大小を比較する基本周波数比較手段と、前記基本周波数比較手段が、前記2以上の音節の基本周波数が略同じであると判断した場合に、少なくとも当該略同じ基本周波数である2以上の音節のパワー情報を比較するパワー比較手段と、前記2以上の音節の基本周波数の比較結果、および当該2以上のパワー情報が示す音声の強弱の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定手段を具備する音声情報処理装置である。
【0009】
かかる構成により、第一アクセントの位置またはアクセントの順位が精度高く判断できる。また、本構成により、学習者が発音した音声情報について、3以上の音節のアクセントの順位を取得できる。その結果、文章や長い単語における抑揚についても学習できる。
【0010】
また、本第三の発明の音声情報処理装置は、第一の発明に対して、前記アクセント決定部は、前記音声情報を構成する2以上の音節のパワー情報が示すパワーの大小を比較するパワー比較手段と、前記パワー比較手段が、前記2以上の音節のパワー情報が略同じであると判断した場合に、少なくとも当該略同じパワー情報である2以上の音節の基本周波数の大小を比較する基本周波数比較手段と、前記2以上の音節のパワー情報が示す音声の強弱の比較結果、および当該2以上の基本周波数の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定手段を具備する音声情報処理装置である。
【0011】
かかる構成により、第一アクセントの位置またはアクセントの順位が精度高く判断できる。また、本構成により、学習者が発音した音声情報について、3以上の音節のアクセントの順位を取得できる。その結果、文章や長い単語における抑揚についても学習できる。
【0012】
また、本第四の発明の音声情報処理装置は、第一から第三いずれかの発明に対して、前記処理部は、単語または文章のアクセント位置またはアクセントの順位に関する情報であるアクセント情報を格納しているアクセント情報格納手段と、前記アクセント決定部が決定した第一アクセントの位置またはアクセントの順位と、前記アクセント情報を用いて、前記音声情報受付部が受け付けた音声情報における第一アクセントの位置またはアクセントの順位が正しいか否かを判断する判断手段と、前記判断手段における判断結果を出力する出力手段を具備する音声情報処理装置である。
【0013】
かかる構成により、学習者は、高速に、第一アクセントの位置またはアクセントの順位が容易に学習できる。
【0014】
また、本第五の発明の音声情報処理装置は、第一から第三いずれかの発明に対して、前記処理部は、第一アクセントの位置またはアクセントの順位が正しいか否かを判断するための比較対象の音声情報である教師データを格納している教師データ格納手段と、前記アクセント決定部が決定した第一アクセントの位置またはアクセントの順位と、前記教師データを用いて、前記音声情報受付部が受け付けた音声情報における第一アクセントの位置またはアクセントの順位が正しいか否かを判断する判断手段と、前記判断手段における判断結果を出力する出力手段を具備する音声情報処理装置である。
【0015】
かかる構成により、学習者は、例えば、ネイティブ話者が発声した音声をそのまま利用して、第一アクセントの位置またはアクセントの順位が容易に学習できる。
【0016】
また、本第六の発明の音声情報処理装置は、第四、第五いずれかの発明に対して、前記判断手段は、前記アクセント決定部が決定した第一アクセントの位置またはアクセントの順位と、重み情報を有するアクセント情報、または、重み情報を有するアクセント情報および教師データを用いて、アクセントの位置またはアクセントの順位が正しいか否かを判断する音声情報処理装置である。
【0017】
かかる構成により、アクセントの正誤の判断が精度高く行え、かつ、人の感覚に合致した判断が可能となる。
【0018】
また、本第七の発明の音声情報処理装置は、第一から第六いずれかの発明に対して、前記音声情報受付部が受け付けた音声情報と、格納している教師データとのアラインメントを行うアラインメント部をさらに具備し、前記基本周波数取得部は、前記アラインメント部が行ったアラインメントの結果得られた前記音声情報の母音区間の基本周波数を取得し、前記パワー情報取得部は、前記アラインメント部が行ったアラインメントの結果得られた前記音声情報の母音区間のパワー情報を取得する音声情報処理装置である。
【0019】
かかる構成により、第一アクセントの位置またはアクセントの順位が精度高く判断できる。
【発明の効果】
【0020】
本発明による音声情報処理装置によれば、精度高くアクセントの位置やアクセントの順位が判断できる。
【発明を実施するための最良の形態】
【0021】
以下、音声情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
【0022】
図1は、本実施の形態における音声情報処理装置のブロック図である。
【0023】
音声情報処理装置は、音声情報受付部101、基本周波数取得部102、パワー情報取得部103、アクセント決定部104、処理部105を具備する。
【0024】
アクセント決定部104は、基本周波数比較手段1041、パワー比較手段1042、アクセント位置決定手段1043を具備する。
【0025】
処理部105は、アクセント情報格納手段1051、判断手段1052、出力手段1053を具備する。
【0026】
音声情報受付部101は、単語または文章の音声情報を受け付ける。音声情報は、1以上の音節の集合である。音声情報受付部101は、マイクにより音声情報を受け付けても良いし、記録媒体から音声情報を読み出しても良いし、通信手段や放送受信手段により音声情報を受信しても良い。単語または文章の音声情報は、ユーザが単語または文章を発声して構成された音声情報である。音声情報のデータ構造は問わない。音声情報受付部101は、例えば、マイクとそのデバイスドライバー等で実現され得る。
【0027】
基本周波数取得部102は、音声情報受付部101が受け付けた音声情報から基本周波数を取得する。音声情報から基本周波数を取得する技術は公知技術であるので説明を省略する。基本周波数取得部102は、通常、MPUやメモリ等から実現され得る。基本周波数取得部102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0028】
パワー情報取得部103は、音声情報受付部101が受け付けた音声情報から当該音声情報の強さを示す情報であるパワー情報を取得する。音声情報からパワー情報を取得する技術は公知技術であるので説明を省略する。パワー情報取得部103は、通常、MPUやメモリ等から実現され得る。パワー情報取得部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0029】
アクセント決定部104は、基本周波数取得部102が取得した基本周波数と、パワー情報取得部103が取得したパワー情報を用いて、第一アクセントの位置またはアクセントの順位を決定する。アクセント決定部104は、通常、MPUやメモリ等から実現され得る。アクセント決定部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0030】
基本周波数比較手段1041は、音声情報を構成する2以上の音節の基本周波数の大小を比較する。
【0031】
パワー比較手段1042は、音声情報を構成する2以上の音節のパワー情報の大小を比較する。具体的には、パワー比較手段1042は、基本周波数比較手段1041が、2以上の音節の基本周波数が略同じであると、判断した場合に、当該略同じ基本周波数である2以上の音節のパワー情報を比較することが好適である。略同じであるとは、多少、異なる場合でも同じ基本周波数であるとみなしても良いことを示す。
【0032】
アクセント位置決定手段1043は、2以上の音節の基本周波数の比較結果、および当該2以上のパワー情報が示す音声の強弱の比較結果により、第一アクセントの位置またはアクセントの順位を決定する。アクセント位置決定手段1043は、例えば、2以上の音節の基本周波数を比較し、最も基本周波数が大きい音節を第一アクセントの音節と決定する。そして、アクセント位置決定手段1043は、2以上の音節の基本周波数が略同じである場合、パワー情報が示す音声の強弱の比較結果により、強い方の音節を、アクセント順位を高いものとして決定する。また、アクセント位置決定手段1043は、例えば、2以上の音節の基本周波数を比較し、基本周波数の大きい音節の順にアクセント順位を決定する。そして、アクセント位置決定手段1043は、2以上の音節の基本周波数が略同じである場合、パワー情報が示す音声の強弱の比較結果により、強い方の音節を、アクセント順位を高いものとして決定する。「基本周波数が略同じ」とは、全く同一でなくても良い、という趣旨であり、例えば、10%の差しかない場合に、ほぼ同じである、と判断しても良い。また、音節の基本周波数とは、音節内の母音区間の最大の基本周波数の値でも良いし、音節内の母音区間の基本周波数の値の平均値でも良いし、音節内の母音区間の基本周波数の値の中央値等でも良い。また、音節の基本周波数とは、音節の区間の基本周波数の値の中央値等でも良い。また、音節のパワー情報とは、音節内の母音区間の最大のパワーの値でも良いし、音節内の母音区間のパワーの値の平均値でも良いし、音節内の母音区間のパワーの値の中央値等でも良い。また、音節のパワー情報とは、音節の区間のパワーの値の中央値等でも良い。
【0033】
基本周波数比較手段1041、パワー比較手段1042、およびアクセント位置決定手段1043は、通常、MPUやメモリ等から実現され得る。基本周波数比較手段1041の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0034】
処理部105は、アクセント決定部104が決定した第一アクセントの位置またはアクセントの順位に応じた処理を行う。処理部105が行う処理は、第一アクセントの位置を示す情報を出力する処理でも良いし、第一アクセントの位置が正解であるか否かを出力する処理でも良い。また、処理部105が行う処理は、2以上のアクセント順位を示す情報を出力する処理でも良いし、2以上のアクセントの順位が正解であるか否かを出力する処理でも良い。処理部105は、通常、MPUやメモリ等から実現され得る。処理部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0035】
処理部105を構成するアクセント情報格納手段1051は、単語または文章のアクセント位置または順位に関する情報であるアクセント情報を格納している。アクセント情報のデータ構造は問わない。アクセント情報は、例えば、アクセント順位と音節の情報(音節の情報とは、例えば、音声を識別する音節ID)の対を1以上有する情報である。また、アクセント情報は、例えば、第一アクセントの位置の音節の最初の音節からの位置(オフセット)を示す情報である。アクセント情報格納手段1051は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0036】
判断手段1052は、アクセント決定部104が決定した第一アクセントの位置または順位と、アクセント情報を用いて、音声情報受付部101が受け付けた音声情報におけるアクセントの位置または順位が正しいか否かを判断する。判断手段1052は、通常、MPUやメモリ等から実現され得る。判断手段1052の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0037】
出力手段1053は、判断手段1052における判断結果を出力する。出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信等を含む概念である。出力手段1053は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力手段1053は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0038】
次に、音声情報処理装置の動作について図2から図4のフローチャートを用いて説明する。
【0039】
(ステップS201)音声情報受付部101は、単語または文章の音声情報を受け付けたか否かを判断する。音声情報を受け付ければステップS202に行き、音声情報を受け付けなければステップS203に行く。
【0040】
(ステップS202)音声情報受付部101は、受け付けた音声情報を、図示しないバッファ(メモリやディスクなど)に一時蓄積する。ステップS201に戻る。
【0041】
(ステップS203)音声情報受付部101は、音声情報の受け付けを終了したか否かを判断する。音声情報の受け付けを終了すればステップS204に行き、音声情報の受け付けを終了しなければステップS201に戻る。受け付けの終了時は、ユーザからの指示を、図示しない受付手段が受け付けた時でも良いし、所定時間以上、音声情報を受け付けなかった(無音区間であった)ことを判断した時でも良い。
【0042】
(ステップS204)基本周波数取得部102は、ステップS202で一時蓄積された音声情報を読み出す。
【0043】
(ステップS205)基本周波数取得部102は、読み出した音声情報から、音声波形データを得る。音声情報から、音声波形データを得る処理は公知技術であるので、説明を省略する。
【0044】
(ステップS206)基本周波数取得部102は、ステップS205で得た音声波形データから基本周波数(F0)を抽出する。音声波形データから基本周波数(F0)を抽出する処理も公知技術であるので、説明を省略する。
【0045】
(ステップS207)パワー情報取得部103は、ステップS205で得た音声波形データから音の強さを示す情報であるパワー情報を取得する。音声波形データからパワー情報を取得する処理も公知技術であるので、説明を省略する。
【0046】
(ステップS208)アクセント決定部104は、基本周波数取得部102が取得した基本周波数と、パワー情報取得部103が取得したパワー情報を用いて、第一アクセントの位置または/およびアクセントの順位を決定する。アクセントの位置や順位を決定する処理の例の詳細は、図3のフローチャートを用いて説明する。
【0047】
(ステップS209)処理部105は、ステップS208で決定した第一アクセントの位置や順位に応じた処理を行う。処理を終了する。
【0048】
次に、ステップS208のアクセントの位置を決定する処理について図3のフローチャートを用いて説明する。
【0049】
(ステップS301)アクセント決定部104は、音声情報の音節境界を取得する。なお、音節境界を取得する技術は公知技術であるので説明を省略する。また、音節境界を取得するアルゴリズムは問わない。
【0050】
(ステップS302)アクセント決定部104は、カウンタiに1を代入する。
【0051】
(ステップS303)アクセント決定部104は、i番目の音節が存在するか否かを判断する。i番目の音節が存在すればステップS304に行き、i番目の音節が存在しなければステップS307に行く。
【0052】
(ステップS304)基本周波数比較手段1041は、基本周波数取得部102が得た基本周波数(F0)から、i番目の音節内の母音区間の代表的な基本周波数である代表F0を取得する。代表F0は、例えば、i番目の音節の区間の最大のF0である。また、代表F0は、例えば、i番目の音節内の母音区間の平均のF0である。また、代表F0は、例えば、i番目の音節内の母音区間のF0の中間値である。
【0053】
(ステップS305)基本周波数比較手段1041は、i番目の音節を識別するIDである音節ID(例えば、「i」)と、代表F0の対を、メモリ等に一時格納する。
【0054】
(ステップS306)基本周波数比較手段1041は、カウンタiを1、インクリメントし、ステップS303に戻る。
【0055】
(ステップS307)基本周波数比較手段1041は、代表F0をキーとして、降順に音節IDをソートする。つまり、代表F0が大きい順に、音節IDを得る。
【0056】
(ステップS308)基本周波数比較手段1041は、略同一の代表F0が2以上存在するか否かを判断する。略同一の代表F0が2以上存在すればステップS309に行き、存在しなければ上位関数にリターンする。
【0057】
(ステップS309)パワー比較手段1042は、2以上の略同一の代表F0の2以上の音節IDが示す音節のパワー情報を取得する。パワー情報は、音節IDが示す音節の区間の最大の音の強さでも良いし、音節IDが示す音節の区間の音の強さの平均値でも良いし、音節IDが示す音節の区間の音の強さの中間値でも良い。
【0058】
(ステップS310)パワー比較手段1042は、パワー情報が示す音の強さが大きい順に、2以上の音節IDを並び替える。以上の処理で、アクセントの順に、音節IDがソートされた。上位関数にリターンする。
【0059】
なお、図3のフローチャートにおいて、略同一の代表F0を有する音節のパワー情報のみを取得したが、全音節のパワー情報を取得しても良い。
【0060】
また、音節のアクセントの順位を決定するアルゴリズムは、図3のフローチャートにおけるアルゴリズムに限られない。アクセント決定部104は、各音節の基本周波数の値と、パワーの値を用いて、アクセントの順位を決定すれば良い。アクセント決定部104は、例えば、音節ごとに、「f(基本周波数の値,パワーの値)」を演算することにより、アクセントの評価値を得て、当該評価値が大きい順に、アクセントの順位を決定するなどの処理を行っても良い。なお、関数「f」は、基本周波数の値、およびパワーの値をパラメータとする増加関数である。
【0061】
次に、アクセントの位置に応じた処理について図4のフローチャートを用いて説明する。
【0062】
(ステップS401)判断手段1052は、アクセント情報格納手段1051から、アクセント情報を読み出す。
【0063】
(ステップS402)判断手段1052は、ステップS401で読み出したアクセント情報が有するアクセントの順位をキーとして、音節IDをソートする。
【0064】
(ステップS403)判断手段1052は、ソートした音節IDの列と、アクセントの位置を決定する処理の結果、得られた音節IDの列が同一か否かを判断する。同一であればステップS404に行き、同一でなければステップS405に行く。
【0065】
(ステップS404)判断手段1052は、判断結果として、「正解」の旨の情報を得る。そして、ステップS406に行く。
【0066】
(ステップS405)判断手段1052は、判断結果として、「不正解」の旨の情報を得る。
【0067】
(ステップS406)出力手段1053は、判断手段1052における判断結果を出力する。
【0068】
なお、図4のフローチャートにおいて、アクセントの順位に基づいてソートされた2つの音節ID列を比較したが、単語や文章を構成する音節の並び順に、アクセント順位を保持しており、かかるアクセント順位を比較して、ユーザが発声した音声のアクセントが正しいか否かを判断しても良いことは言うまでもない。かかる場合、アクセント情報格納手段1051のアクセント情報は、音節の順に並べられたアクセント順位の列である。
【0069】
以下、本実施の形態における音声情報処理装置の具体的な動作について説明する。
【0070】
図5は、アクセント情報格納手段1051に格納されているアクセント情報管理表である。図5のアクセント情報管理表の各レコードは、アクセント情報レコードの一例である。ここで、アクセント情報レコードは、「入力情報」と「アクセント情報」を有するレコードである。「入力情報」は、ユーザに発音してもらう単語や文章の情報である。「アクセント情報」は、音節の文字列と、アクセント順位の情報(アクセント順位列)を有する。アクセント順位の情報において、「1」が第一アクセントのある音節であることを示す。アクセント順位の情報において、「2」が第二アクセントのある音節であることを示す。
【0071】
そして、音声情報処理装置は、図示しない手段により、アクセントのテストを開始する指示を受け付けた、とする。また、音声情報処理装置は、アクセントのテストを開始する指示を受け付けた場合、アクセント情報管理表の「入力情報」を順に読み出し、ユーザの音声入力を受け付け、アクセントの位置が正解か、不正解かを判断し、判断結果を出力するもの、とする。
【0072】
アクセントのテストを開始する指示を受け付けた後、まず、音声情報処理装置は、アクセント情報管理表の一つ目の「入力情報」を、アクセント情報格納手段1051から読み出し、図6(a)の画面を構成し、出力する。図6(a)の画面は、ユーザに、「入力情報」で示される単語または文章の発声を促す画面である。
【0073】
次に、ユーザは、画面の表示にしたがって、「conduct」という単語を発声する、とする。
【0074】
次に、音声情報受付部101は、単語「conduct」の音声情報を受け付ける。そして、音声情報受付部101は、受け付けた音声情報を、図示しないバッファ(メモリやディスクなど)に一時蓄積する。そして、基本周波数取得部102は、一時蓄積された音声情報を読み出し、当該読み出した音声情報から、図7に示す音声波形データを得る。
【0075】
次に、基本周波数取得部102は、音声波形データに対して、特徴分析を行い、基本周波数(F0)を抽出する。抽出したF0が図8(a)である。
【0076】
また、パワー情報取得部103は、図7の音声波形データから音の強さを示す情報であるパワー情報を取得する。得たパワー情報が図8(b)である。
【0077】
次に、アクセント決定部104は、基本周波数取得部102が取得した基本周波数と、パワー情報取得部103が取得したパワー情報を用いて、以下の処理により、アクセントの位置を決定する。
【0078】
まず、アクセント決定部104は、音声情報の音節境界または音素境界を取得する。
【0079】
次に、基本周波数比較手段1041は、1番目の音節の基本周波数の代表F0(ここで、代表F0は、例えば、音節内の母音区間の基本周波数の中央値である「183Hz」)を取得する。そして、基本周波数比較手段1041は、1番目の音節を識別するIDである音節IDと、代表F0の対(1,183)を、メモリ等に一時格納する。
【0080】
次に、基本周波数比較手段1041は、2番目の音節の基本周波数の代表F0「148Hz」を取得する。そして、基本周波数比較手段1041は、2番目の音節を識別するIDである音節IDと、代表F0の対(2,148)を、メモリ等に一時格納する。
【0081】
次に、基本周波数比較手段1041は、代表F0をキーとして、降順に音節IDをソートし、「1,2」を得る。なお、上記において、音節の基本周波数の代表F0を音節内の母音区間の基本周波数の中央値としたが、音節内の母音区間の基本周波数の最大値などでも良い。
【0082】
次に、基本周波数比較手段1041は、略同一の代表F0が2以上存在するか否かを判断する。略同一の代表F0が2以上存在しないので、最終的な音節ID列を「1,2」と決定する。
【0083】
次に、判断手段1052は、図5のアクセント情報管理表から、入力情報「conduct」に対応するアクセント情報「1,2」を読み出す。そして、判断手段1052は、読み出したアクセント情報が有するアクセントの順位の情報を用いて、音節ID列「1,2」を得る。アクセント情報「1,2」は、音節ID「1」のアクセント順位が「1」、音節ID「2」のアクセント順位が「2」であることを示す。
【0084】
そして、判断手段1052は、ソートした音節IDの列と、アクセントの位置を決定する処理の結果、得られた音節IDの列が同一か否かを判断する。ここで、音節ID列「1,2」は、アクセント情報「1,2」から得られる音節ID列「1,2」と同一である。
ので、判断手段1052は、判断結果として、「正解」の旨の情報を得る。
【0085】
次に、処理部105の出力手段1053は、判断結果を出力する。図6(b)が、その出力結果の例である。
【0086】
次に、同様に、音声情報処理装置は、アクセント情報管理表の二つ目の入力情報「concentrate」を、アクセント情報格納手段1051から読み出し、画面を構成し、出力する。そして、ユーザは、単語「concentrate」を発声し、上記と同様に、音声情報処理装置は、処理する。
【0087】
次に、音声情報処理装置は、アクセント情報管理表の三つ目の入力情報「A window seat,please」を、アクセント情報格納手段1051から読み出し、画面を構成し、出力する。そして、ユーザは、画面の表示にしたがって、「A window seat,please」という文章を発声する、とする。
【0088】
次に、音声情報受付部101は、文章「A window seat,please」の音声情報を受け付ける。そして、音声情報受付部101は、受け付けた音声情報を、図示しないバッファ(メモリやディスクなど)に一時蓄積する。そして、基本周波数取得部102は、一時蓄積された音声情報を読み出し、当該読み出した音声情報から、音声波形データを得る。
【0089】
次に、基本周波数取得部102は、音声波形データに対して、特徴分析を行い、基本周波数(F0)を抽出する。抽出したF0が、例えば、図9(a)である。
【0090】
また、パワー情報取得部103は、音声波形データから音の強さを示す情報であるパワー情報を取得する。得たパワー情報が図9(b)である。
【0091】
次に、アクセント決定部104は、基本周波数取得部102が取得した基本周波数と、パワー情報取得部103が取得したパワー情報を用いて、以下の処理により、アクセントの位置を決定する。
【0092】
まず、アクセント決定部104は、音声情報の音節境界を取得する。音節境界は、図9(a)の91である。
【0093】
次に、基本周波数比較手段1041は、1番目から5番目の音節内の母音の基本周波数の最大値である代表F0を取得する。そして、基本周波数比較手段1041は、1番目から5番目の音節を識別するIDである音節IDと、代表F0の対を、メモリ等に一時格納し、図10に示す情報を得る。
【0094】
次に、基本周波数比較手段1041は、代表F0をキーとして、降順に音節IDをソートし、音節ID列「2,4,1,3,5」を得る。
【0095】
次に、基本周波数比較手段1041は、略同一の代表F0が2以上存在するか否かを判断する。ここで、同一の代表F0が存在するので、アクセント順位を決定する場合に、パワー情報を用いる。
【0096】
具体的には、パワー比較手段1042は、同一の代表F0「390」の2つの音節ID「2」「4」が示す音節のパワー情報を取得する。ここで、パワー比較手段1042は、音節ID「2」が示す音節のパワー情報「78」、音節ID「4」が示す音節のパワー情報「70」と取得した、とする。
【0097】
次に、パワー比較手段1042は、パワー情報が示す音の強さが大きい順に、2つの音節IDを並び替え、音節ID列「2,4,1,3,5」を得る。
【0098】
また、パワー比較手段1042は、同一の代表F0「382」の2つの音節ID「1」「3」が示す音節のパワー情報を取得する。ここで、パワー比較手段1042は、音節ID「1」が示す音節のパワー情報「65」、音節ID「3」が示す音節のパワー情報「70」と取得した、とする。
【0099】
次に、パワー比較手段1042は、パワー情報が示す音の強さが大きい順に、2つの音節IDを並び替え、音節ID列「2,4,3,1,5」を得る。この音節ID列「2,4,3,1,5」が、ユーザが発声した文章における、最終的なアクセント順位を示す音節ID列である。
【0100】
次に、判断手段1052は、図5のアクセント情報管理表から、入力情報「A window seat,please」に対応するアクセント情報「5,1,3,4,2」を読み出す。そして、判断手段1052は、アクセント情報「5,1,3,4,2」から、音節ID列「2,5,3,4,1」を得る。そして、判断手段1052は、音節ID列「2,5,3,4,1」と、ユーザの音声情報から取得した音節ID列「2,4,3,1,5」とを比較する。2つの音節ID列は同じではないので、判断手段1052は、判断結果として、「不正解」の旨の情報を得る。
【0101】
次に、処理部105の出力手段1053は、判断結果「不正解」を出力する。
【0102】
以上、本実施の形態によれば、第一アクセントの位置をはじめ、2以上の音節のアクセント順位が精度高く判断できる。また、本実施の形態によれば、3以上の音節のアクセントの順位を取得できる。したがって、単語だけではなく、文章中のアクセント順位が精度高く判断できる。つまり、ユーザは、単語のアクセントだけではなく、文章の抑揚を正しく行うように訓練できる。
【0103】
また、本実施の形態によれば、ユーザが発声した音声に対して、アクセント位置や順位が正しいか否かを判断し、判断結果(正しい/正しくない)を出力するので、正しいアクセントで発音されているか否かが、学習者に分かりやすい。
【0104】
なお、本実施の形態の具体例によれば、2以上の音節の代表F0が略同じ場合のみ、当該代表F0が略同じ2以上の音節のパワー情報を用いて、アクセント位置、アクセント順位を判断した。しかし、代表F0とパワー情報の両方をパラメータとする関数により、演算を行い、当該演算結果により2以上の音節のアクセント位置、アクセント順位を判断しても良い。さらに、具体的には、2以上の音節のパワー情報が示す音の強弱が略同じ場合のみ、当該パワー情報が略同じ2以上の音節の代表F0を用いて、アクセント位置、アクセント順位を判断しても良い。また、かかる関数は、通常、代表F0が大きいほど、アクセント順位が上がり、パワー情報が大きいほど、アクセント順位が上がるという、代表F0とパワー情報の両方をパラメータとする増加関数である。
【0105】
また、本実施の形態によれば、音節境界を求めてから各音節の基本周波数やパワー情報を取得した。しかし、実施の形態2で述べるように、教師データと音声情報とのアラインメント(通常、フォーストアラインメント)を行い、母音区間を特定し、母音区間内での各フレームの代表基本周波数や代表パワー情報を、それぞれ基本周波数やパワー情報として取得しても良い。代表基本周波数とは、例えば、母音区間内での各フレームの基本周波数の中央値や平均値などである。また、代表パワー情報とは、例えば、母音区間内での各フレームのパワー情報の中央値や平均値などである。
【0106】
また、本実施の形態において、実施の形態2で述べるアラインメント処理を行っても良いことは言うまでもない。
【0107】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における音声情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、単語または文章の音声情報であり、1以上の音節の集合である音声情報を受け付ける音声情報受付ステップと、前記音声情報受付ステップで受け付けた音声情報から基本周波数を取得する基本周波数取得ステップと、前記音声情報受付ステップで受け付けた音声情報から当該音声情報の強さを示す情報であるパワー情報を取得するパワー情報取得ステップと、前記基本周波数取得ステップで取得した基本周波数と、前記パワー情報取得ステップで取得したパワー情報を用いて、第一アクセントの位置またはアクセントの順位を決定するアクセント決定ステップと、前記アクセント決定ステップで決定した第一アクセントの位置またはアクセントの順位に応じた処理を行う処理ステップを実行させるためのプログラム、である。
【0108】
また、上記プログラムにおいて、前記アクセント決定ステップは、前記音声情報を構成する2以上の音節の基本周波数の大小を比較する基本周波数比較ステップと、前記基本周波数比較ステップで、前記2以上の音節の基本周波数が略同じであると判断した場合に、少なくとも当該略同じ基本周波数である2以上の音節のパワー情報を比較するパワー比較ステップと、前記2以上の音節の基本周波数の比較結果、および当該2以上のパワー情報が示す音声の強弱の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定ステップを具備することは好適である。
【0109】
また、上記プログラムにおいて、前記アクセント決定ステップは、前記音声情報を構成する2以上の音節のパワー情報が示すパワーの大小を比較するパワー比較ステップと、前記パワー比較ステップで、前記2以上の音節のパワー情報が略同じであると判断した場合に、少なくとも当該略同じパワー情報である2以上の音節の基本周波数の大小を比較する基本周波数比較ステップと、前記2以上の音節のパワー情報が示す音声の強弱の比較結果、および当該2以上の基本周波数の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定ステップを具備することは好適である。
【0110】
また、上記プログラムにおいて、前記処理ステップは、前記アクセント決定ステップで決定した第一アクセントの位置または順位と、格納しているアクセント情報を用いて、前記音声情報受付ステップで受け付けた音声情報における第一アクセントの位置または順位が正しいか否かを判断する判断ステップと、前記判断ステップにおける判断結果を出力する出力ステップを具備することは好適である。
(実施の形態2)
【0111】
本実施の形態において、教師データを保持しており、当該教師データを用いて、アクセント位置の正誤等を出力する音声情報処理装置について説明する。
【0112】
図11は、本実施の形態における音声情報処理装置のブロック図である。
【0113】
音声情報処理装置は、音声情報受付部101、アラインメント部1101、基本周波数取得部1102、パワー情報取得部1103、アクセント決定部1104、処理部1105を具備する。
【0114】
処理部1105は、教師データ格納手段11051、判断手段11052、出力手段1053を具備する。
【0115】
アラインメント部1101は、音声情報受付部101が受け付けた音声情報と、格納している教師データとのアラインメントを行う。教師データは、教師データ格納手段11051におけるデータであって、音声情報と同じ音韻のデータである。ここで、アラインメントとは、通常、フォーストアラインメント(フォースアラインメントともいう)である。フォーストアラインメントは、強制的に、音声情報が有する音韻と、教師データが有する音韻を対応付ける処理であり、公知技術である。
【0116】
基本周波数取得部1102は、アラインメント部1101が行ったアラインメントの結果得られた音声情報の母音区間の基本周波数を取得する。基本周波数取得部1102は、アラインメント部1101におけるアラインメントの結果、母音区間の1以上のフレームを得ることができる。基本周波数取得部1102が基本周波数を取得する処理は、基本周波数取得部102の処理と同様である。基本周波数取得部1102は、通常、MPUやメモリ等から実現され得る。基本周波数取得部1102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0117】
パワー情報取得部1103は、アラインメント部1101が行ったアラインメントの結果得られた音声情報の母音区間のパワー情報を取得する。パワー情報取得部1103は、アラインメント部1101におけるアラインメントの結果、母音区間の1以上のフレームを得ることができる。パワー情報取得部1103がパワー情報を取得する処理は、パワー情報取得部103の処理と同様である。パワー情報取得部1103は、通常、MPUやメモリ等から実現され得る。パワー情報取得部1103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0118】
アクセント決定部1104は、基本周波数取得部1102が取得した基本周波数と、パワー情報取得部1103が取得したパワー情報を用いて、第一アクセントの位置またはアクセントの順位を決定する。ここでは、例えば、アクセント決定部1104は、母音区間ごとに、母音区間のスコアを算出し、スコアの高い順にアクセント順位を決定する。さらに、具体的には、例えば、アクセント決定部1104は、スコアを算出する演算式であり、基本周波数取得部1102が取得した基本周波数とパワー情報取得部1103が取得したパワー情報をパラメータとする増加関数の情報を格納している。そして、かかる増加関数の情報を読み出し、基本周波数とパワー情報を用いて、母音区間のスコアを算出する。
【0119】
処理部1105は、アクセント決定部1104が決定したアクセントの位置またはアクセントの順位に応じた処理を行う。処理部1105は、通常、MPUやメモリ等から実現され得る。処理部1105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0120】
教師データ格納手段11051は、アクセント位置または順位が正しいか否かを判断するための比較対象の音声情報である教師データを格納している。教師データ格納手段11051は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。不揮発性の記録媒体でも、揮発性の記録媒体でも良い。
【0121】
判断手段11052は、アクセント決定部1104が決定したアクセントの位置または順位と、教師データ格納手段11051の教師データを用いて、音声情報受付部101が受け付けた音声情報におけるアクセントの位置または順位が正しいか否かを判断する。判断手段11052は、さらに具体的には、例えば、以下の処理を行う。判断手段11052は、教師データの音節境界を取得し、音節ごとに、基本周波数とパワー情報を取得する。そして、判断手段11052は、音節ごとの基本周波数とパワー情報から、教師データの音節のアクセント順位を決定する。そして、判断手段11052は、メモリ上、または、教師データ格納手段11051等に、音節を識別する情報と、アクセント順位を示す情報を対にして蓄積する。そして、アクセント決定部1104が決定したアクセントの位置または順位の情報と、教師データのアクセント順位を示す情報から、音声情報受付部101が受け付けた音声情報におけるアクセントの位置または順位が正しいか否かを判断する。なお、音声情報である教師データから、教師データの音節のアクセント順位を決定した後の処理は、実施の形態1で説明した処理と同様である。また、教師データの音節のアクセント順位を決定する処理は、実施の形態1で説明した処理であり、音声情報受付部101が受け付けた音声情報のアクセント順位を決定する処理と同様であるので、詳細な説明は省略する。
【0122】
判断手段11052は、通常、MPUやメモリ等から実現され得る。判断手段11052の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0123】
次に、本音声情報処理装置の動作について、図12から図14のフローチャートを用いて説明する。図12において、図2と同一のステップについて、説明を省略する。
【0124】
(ステップS1201)アラインメント部1101は、教師データ格納手段11051の教師データであり、音声情報受付部101が受け付けた音声情報に対応する教師データを読み出す。
【0125】
(ステップS1202)アラインメント部1101は、音声情報と教師データとのアラインメントを行う。
【0126】
(ステップS1203)アクセント決定部1104は、予め記録媒体(図示しない)に格納されているスコアを決定する演算式の情報を読み出す。
【0127】
(ステップS1204)アクセント決定部1104は、平均・分散算出処理を行う。平均・分散算出処理とは、音声情報の母音区間の全フレームにおける対数基本周波数の平均値「E(F)」、対数基本周波数の分散値「V(F)」、および音声情報の母音区間の全フレームにおける対数パワーの平均値「E(P)」、対数パワーの分散値「V(P)」を算出する処理である。平均・分散算出処理について、図13のフローチャートを用いて説明する。
【0128】
(ステップS1205)アクセント決定部1104は、カウンタiに、1を代入する。
【0129】
(ステップS1206)アクセント決定部1104は、ステップS1202でのアラインメント結果を用いて、i番目の母音区間が存在するか否か、判断する。i番目の母音区間が存在すればステップS1207に行き、i番目の母音区間が存在しなければステップS1210に行く。
【0130】
(ステップS1207)アクセント決定部1104は、i番目の母音区間のスコアを算出する。スコア算出の詳細は、図14のフローチャートを用いて後述する。
【0131】
(ステップS1208)アクセント決定部1104は、i番目の母音区間とステップS1207で算出したスコアを対応付けて、メモリに一時格納する。
【0132】
(ステップS1209)アクセント決定部1104は、カウンタiを1、インクリメントし、ステップS1206に戻る。
【0133】
(ステップS1210)アクセント決定部1104は、ステップS1207で算出した各母音区間のスコアを用いて、アクセント順位を決定する。アクセント決定部1104は、例えば、スコアの順に降順に母音区間の情報をソートし、上位からアクセント順位「1」として、アクセント順位を決定する。アクセント決定部1104は、アクセント順位と母音区間を識別する情報を対にして、メモリ上に一時格納する。
【0134】
(ステップS1211)処理部1105は、ステップS1210で得たアクセント順位に基づいた処理を行う。具体的には、例えば、処理部1105は、母音区間の上側にアクセント順位を記載した単語をディスプレイに表示し、処理を終了する。
【0135】
次に、ステップS1204の平均・分散算出処理について図13を用いて説明する。
【0136】
(ステップS1301)アクセント決定部1104は、カウンタjに1を代入する。
【0137】
(ステップS1302)アクセント決定部1104は、母音区間において、j番目のフレームが存在するか否かを判断する。j番目のフレームが存在すればステップS1303に行き、j番目のフレームが存在しなければステップS1307に行く。なお、アクセント決定部1104は、通常、まず、j番目のフレームが母音区間内のフレームか否かを判断し、子音の区間であれば、母音の区間のフレームを検知するまでフレームを進める。既にアラインメントを行っているので、アクセント決定部1104は、フレームが母音の区間のフレームか否かの判断は可能である。
【0138】
(ステップS1303)アクセント決定部1104は、j番目のフレームにおける対数基本周波数(F(t))を算出する。なお、tは、音声情報の全区間に対して、第1フレームから数え上げたフレーム番号である。また、jは、音声情報のうち、母音区間に対して、第1フレームから数え上げたフレーム番号である。
【0139】
(ステップS1304)アクセント決定部1104は、j番目のフレームにおける対数パワー(P(t))を算出する。
【0140】
(ステップS1305)アクセント決定部1104は、ステップS1303、およびステップS1304で算出した対数基本周波数(F(t))、対数パワー(P(t))を、フレームを識別する情報(例えば、「j」)と対応付けて、メモリ上に一時格納する。
【0141】
(ステップS1306)アクセント決定部1104は、カウンタjを1、インクリメントし、ステップS1302に戻る。
【0142】
(ステップS1307)アクセント決定部1104は、一時格納した母音区間の全フレームの対数基本周波数の情報を読み出し、対数基本周波数の平均値(E(F))、分散値(V(F))を算出する。
【0143】
(ステップS1308)アクセント決定部1104は、一時格納した母音区間の全フレームの対数パワーの情報を読み出し、対数パワーの平均値(E(P))、分散値(V(P))を算出する。
【0144】
(ステップS1309)アクセント決定部1104は、ステップS1307、ステップS1308で算出した、対数基本周波数の平均値(E(F))、分散値(V(F))、および対数パワーの平均値(E(P))、分散値(V(P))を、メモリ上に一時格納し、上位関数にリターンする。
【0145】
次に、ステップS1207のスコアを算出する動作について図14を用いて説明する。
【0146】
(ステップS1401)アクセント決定部1104は、カウンタjに1を代入する。
【0147】
(ステップS1402)アクセント決定部1104は、処理対象の母音区間に、j番目のフレームが存在するか否かを判断する。j番目のフレームが存在すればステップS1403に行き、j番目のフレームが存在しなければステップS1410に行く。
【0148】
(ステップS1403)アクセント決定部1104は、j番目のフレームにおける対数基本周波数(F(t))を読み出す。
【0149】
(ステップS1404)アクセント決定部1104は、j番目のフレームにおける対数パワー(P(t))を読み出す。
【0150】
(ステップS1405)アクセント決定部1104は、対数基本周波数の平均値(E(F))、分散値(V(F))、対数パワーの平均値(E(P))、分散値(V(P))を読み出す。
【0151】
(ステップS1406)アクセント決定部1104は、j番目のフレームの対数基本周波数の偏差値(X(t))を算出し、メモリ上に一時格納する。
【0152】
(ステップS1407)アクセント決定部1104は、j番目のフレームの対数パワーの偏差値(X(t))を算出し、メモリ上に一時格納する。
【0153】
(ステップS1408)アクセント決定部1104は、偏差値(X(t))、偏差値(X(t))を用いて、j番目のフレームのスコアを算出し、メモリ上に一時格納する。このスコアを算出する算出式は、偏差値(X(t))、偏差値(X(t))をパラメータとする増加関数である。
【0154】
(ステップS1409)アクセント決定部1104は、カウンタjを1、インクリメントし、ステップS1402に戻る。
【0155】
(ステップS1410)アクセント決定部1104は、処理対象の母音区間の全スコア(ステップS1408で一時格納)を読み出し、当該全スコアからスコアの代表値を算出する。スコアの代表値とは、例えば、全スコアの中央値や、平均値や、最大値などである。
【0156】
なお、図13、図14のフローチャート等において、何らかの値を算出する処理において、算出式の情報は、図示しない記録媒体に格納されており、アクセント決定部1104は、当該算出式の情報を読み込んで、パラメータを算出式に代入し、当該算出式を実行し、結果を得る。
【0157】
また、アクセント決定部1104は、例えば、数式1に示す算出式で、スコアを算出する。数式1において、fα(t)は、t番目音声分析フレームにおけるスコアである。「α」は、「0<=α<=1」を満たす実数であり、スコア算出の際の、基本周波数と、パワーの重みを示す。また、「X(t)」および「X(t)」はそれぞれ、t番目音声分析フレームにおける対数基本周波数および対数パワーの偏差値である。「X(t)」および「X(t)」は、数式2で示される。
【0158】
数式2において、「E(F)」および「V(F)」はそれぞれ,すべての母音区間における(または、アクセント順位に寄与すると認められるすべての区間における)対数基本周波数の平均値・分散を示す。また、「E(P)」および「V(P)」は、対数パワーの平均値・分散を示す。数式2において、図15に示すように、母音区間のフレームから、「E(F)」、「V(F)」、「E(P)」および「V(P)」を算出する。
【0159】
数式3において、νを処理対象の母音区間に対応するフレーム番号の集合、|ν|その要素数、Τを入力発話全区間に対するフレーム総数、および「l」を引数の命題が真である場合に1、偽である場合に0を返す定義関数である。
【数1】

【数2】

【数3】

【0160】
また、アクセント決定部1104は、各々の母音区間においてfα(t)の代表値を求め、それに基づいてアクセント順位付けを行なう。fα(t)の代表値とは、例えば、1以上の各フレームのfα(t)の平均値や、fα(t)の中央値などである。fα(t)の平均値や、fα(t)の中央値を算出する技術は公知技術であるので説明を省略する。
【0161】
また、数式1によれば、fα(t)は,α=1の場合においては、基本周波数のみでの順位付けに、α=0の場合においては、パワーのみでの順位付けに対応する。αが1より小さいが1に近い値の場合、基本的に基本周波数の値に基づいて順位付けが行なわれるが,2以上の基本周波数の値がほぼ同じである場合、それらについてはパワー情報に基づいて順位付けが行なわれる。逆に、αが0より大きいが0に近い値の場合、基本的にパワー情報に基づいて順位付けが行なわれるが,2以上のパワー値がほぼ同じである場合,それらについては基本周波数に基づいて順位付けが行なわれる。
【0162】
以上、本実施の形態によれば、第一アクセントの位置をはじめ、2以上の音節のアクセント順位が精度高く判断できる。また、本実施の形態によれば、3以上の音節のアクセントの順位を取得できる。したがって、単語だけではなく、文章中のアクセント順位が精度高く判断できる。つまり、ユーザは、単語のアクセントだけではなく、文章の抑揚を正しく行うように訓練できる。また、学習者は、例えば、ネイティブ話者が発声した音声をそのまま利用して、第一アクセントの位置またはアクセントの順位が容易に学習できる。
【0163】
また、本実施の形態によれば、アラインメントを行ってから母音区間の基本周波数、パワーから、アクセント順位を決定するので、アクセント順位決定の精度が極めて高くなる。
【0164】
さらに、本実施の形態における音声情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、単語または文章の音声情報であり、1以上の音節の集合である音声情報を受け付ける音声情報受付ステップと、前記音声情報受付ステップで受け付けた音声情報から基本周波数を取得する基本周波数取得ステップと、前記音声情報受付ステップで受け付けた音声情報から当該音声情報の強さを示す情報であるパワー情報を取得するパワー情報取得ステップと、前記基本周波数取得ステップで取得した基本周波数と、前記パワー情報取得ステップで取得したパワー情報を用いて、第一アクセントの位置またはアクセントの順位を決定するアクセント決定ステップと、前記アクセント決定ステップで決定した第一アクセントの位置またはアクセントの順位に応じた処理を行う処理ステップを実行させるためのプログラム、である。
【0165】
また、上記プログラムにおいて、前記アクセント決定ステップは、前記音声情報を構成する2以上の音節の基本周波数の大小を比較する基本周波数比較ステップと、前記基本周波数比較ステップで、前記2以上の音節の基本周波数が略同じであると判断した場合に、少なくとも当該略同じ基本周波数である2以上の音節のパワー情報を比較するパワー比較ステップと、前記2以上の音節の基本周波数の比較結果、および当該2以上のパワー情報が示す音声の強弱の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定ステップを具備することは好適である。
【0166】
また、上記プログラムにおいて、前記アクセント決定ステップは、前記音声情報を構成する2以上の音節のパワー情報が示すパワーの大小を比較するパワー比較ステップと、前記パワー比較ステップで、前記2以上の音節のパワー情報が略同じであると判断した場合に、少なくとも当該略同じパワー情報である2以上の音節の基本周波数の大小を比較する基本周波数比較ステップと、前記2以上の音節のパワー情報が示す音声の強弱の比較結果、および当該2以上の基本周波数の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定ステップを具備することは好適である。
【0167】
また、上記プログラムにおいて、前記処理ステップは、前記アクセント決定ステップで決定した第一アクセントの位置または順位と、格納している教師データを用いて、前記音声情報受付ステップで受け付けた音声情報における第一アクセントの位置または順位が正しいか否かを判断する判断ステップと、前記判断ステップにおける判断結果を出力する出力ステップを具備することは好適である。
【0168】
また、上記プログラムにおいて、コンピュータに、前記音声情報受付部が受け付けた音声情報と、格納している教師データとのアラインメントを行うアラインメントステップをさらに実行させ、前記基本周波数取得ステップにおいて、前記アラインメント部が行ったアラインメントの結果得られた前記音声情報の母音区間の基本周波数を取得し、前記パワー情報取得ステップにおいて、前記アラインメント部が行ったアラインメントの結果得られた前記音声情報の母音区間のパワー情報を取得することは好適である。
(実施の形態3)
【0169】
本実施の形態において、アクセントのスコアを算出したり、アクセントの正誤を判断したりする場合に、音節または母音区間に対する重み付けについての情報である重み情報を利用する音声情報処理装置について説明する。
【0170】
図16は、本実施の形態における音声情報処理装置のブロック図である。
【0171】
音声情報処理装置は、音声情報受付部101、アラインメント部1101、基本周波数取得部1102、パワー情報取得部1103、アクセント決定部1104、処理部1605を具備する。
【0172】
処理部1605は、教師データ格納手段11051、アクセント情報格納手段16051、判断手段16052、出力手段1053を具備する。
【0173】
処理部1605を構成するアクセント情報格納手段16051は、単語または文章のアクセント位置またはアクセント順位に関する情報であるアクセント情報を格納している。ここでのアクセント情報は、音節または母音区間のアクセントに影響を及ぼす度合いを示す重み情報を含む。重み情報は、アクセントの正誤を判断したり、アクセントのスコアを算出したりする場合に使用される。アクセント情報は、例えば、アクセント順位と、音節の情報(音節の情報とは、例えば、音声を識別する音節ID)と、重み付けの情報である重み情報の組を1以上有する情報である。アクセント情報のデータ構造は問わない。アクセント情報格納手段1051は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0174】
判断手段16052は、アクセント決定部1104が決定した第一アクセントの位置または順位と、アクセント情報を用いて、音声情報受付部101が受け付けた音声情報におけるアクセントの位置または順位が正しいか否かを判断したり、アクセントの良し悪しを示すスコアを算出したりする。判断手段16052は、アクセント情報が有する重み情報を用いて、アクセントの位置または順位が正しいか否かを判断したり、アクセントの良し悪しを示すスコアを算出したりする。判断手段1052は、通常、MPUやメモリ等から実現され得る。判断手段1052の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0175】
次に、本音声情報処理装置の動作について、説明する。本音声情報処理装置の動作は、実施の形態2の音声情報処理装置の動作と比較して、ステップS1211の処理部1105の処理のみが異なる。以下、本音声情報処理装置のアクセント順位に基づいた処理について、図17のフローチャートを用いて説明する。なお、本音声情報処理装置の動作において、図12のステップS1201からステップS1210までのステップは実行される。
【0176】
(ステップS1701)判断手段16052は、初期化処理を行う。初期化処理とは、カウンタiに1を代入し、変数「スコア」に0を代入する処理である。変数「スコア」は、ユーザのアクセントの確かさを示すスコアを格納する変数である。
【0177】
(ステップS1702)判断手段16052は、ユーザが発声した音声情報において、i番目の音節が存在するか否かを判断する。i番目の音節が存在すればステップS1703に行き、i番目の音節が存在しなければステップS1708に行く。
【0178】
(ステップS1703)判断手段16052は、アクセント情報格納手段16051からi番目の音節のアクセント情報を読み出す。
【0179】
(ステップS1704)判断手段16052は、ステップS1210で決定したアクセント順位であり、i番目の音節のアクセント順位を読み出す。なお、このアクセント順位に関する情報は、メモリ上に一時格納されている。また、音節のアクセント順位は、当該音節に対応する母音区間のアクセント順位と同じである。
【0180】
(ステップS1705)判断手段16052は、ステップS1703で読み出したアクセント情報が有する、i番目の音節の正解のアクセント順位を取得し、当該正解のアクセント順位と、ステップS1704で読み出したユーザの解答のアクセント順位を比較し、合致するか否かを判断する。両アクセント順位が合致すればステップS1706に行き、合致しなければステップS1707に行く。
【0181】
(ステップS1706)判断手段16052は、ステップS1703で読み出したアクセント情報が有する、i番目の音節の重み情報を取得し、当該重み情報をスコアに加算する。
【0182】
(ステップS1707)判断手段16052は、カウンタiを1、インクリメントし、ステップS1702に戻る。
【0183】
(ステップS1708)判断手段16052は、判断手段16052が予め保持している閾値と、変数「スコア」の値を比較し、「スコア>=閾値」を満たすか否かを判断する。「スコア>=閾値」を満たせばステップS1709に行き、「スコア>=閾値」を満たさなければステップS1710に行く。
【0184】
(ステップS1709)判断手段16052は、変数「結果」に「正解」を示す値を代入する。
【0185】
(ステップS1710)判断手段16052は、変数「結果」に「不正解」を示す値を代入する。
【0186】
(ステップS1711)出力手段1053は、変数「結果」に基づいて、アクセントの正誤の結果を出力し、位関数にリターンする。
【0187】
次に、本実施の形態における音声情報処理装置の具体的な動作について説明する。
【0188】
図18は、アクセント情報格納手段16051に格納されているアクセント情報管理表である。図18のアクセント情報管理表の各レコードは、アクセント情報レコードの一例である。ここで、アクセント情報レコードは、「入力情報」と「アクセント情報」を有するレコードである。「入力情報」は、ユーザに発音してもらう単語や文章の情報である。「アクセント情報」は、音節の文字列と、アクセント順位の情報(アクセント順位列)と、重み情報を有する。アクセント順位の情報において、「1」が第一アクセントのある音節であることを示す。アクセント順位の情報において、「2」が第二アクセントのある音節であることを示す。重み情報は、ここでは「0」から「1」の値を採りえる。
【0189】
そして、音声情報処理装置は、図示しない手段により、アクセントのテストを開始する指示であり、アクセントのテストを行う入力情報の指示を受け付けた、とする。また、音声情報処理装置は、アクセントのテストを開始する指示であり、アクセントのテストを行う入力情報の指示を受け付けた場合、当該指示を受けた「入力情報」を読み出し、ユーザの音声入力を受け付け、アクセントの位置が正解か、不正解かを判断し、判断結果を出力するもの、とする。アクセントの位置が正解か、不正解について、重み情報を利用して判断する。具体的には、音声情報処理装置は、閾値「0.9」以上であれば、正解とし、閾値「0.9」未満であれば不正解とする、とする。
【0190】
ここで、音声情報処理装置は、アクセントのテストを開始する指示であり、アクセントのテストを行う入力情報の指示(「A window seat ,please」の指示)を受け付けた、とする。
【0191】
次に、音声情報処理装置は、ユーザに、「A window seat ,please」の文章の発声を促す画面を出力する。
【0192】
次に、ユーザは、画面の表示にしたがって、「A window seat ,please」という文章を発声する、とする。
【0193】
次に、音声情報受付部101は、文章「A window seat ,please」の音声情報を受け付ける。そして、音声情報受付部101は、受け付けた音声情報を、図示しないバッファ(メモリやディスクなど)に一時蓄積する。そして、実施の形態2で説明した処理により、図19に示すアクセント順位を得て、当該アクセント順位の情報を、一時メモリに記憶した、とする。
【0194】
次に、判断手段16052は、初期化処理(変数「スコア」に0を代入など)を行う。
【0195】
次に、判断手段16052は、1番目の音節「A」についての音節のアクセント情報「5」(図18参照)を読み出す。また、判断手段16052は、1番目の音節「A」のユーザ発声のアクセント順位「4」(図19参照)を読み出す。
【0196】
次に、判断手段16052は、1番目の音節の両アクセント順位は合致しない、と判断し、2番目の音節の処理に移行する。ここでの変数「スコア」の値は「0」である。
【0197】
そして、判断手段16052は、2番目の音節「win」についての音節のアクセント情報「1」(図18参照)を読み出す。また、判断手段16052は、2番目の音節「win」のユーザ発声のアクセント順位「1」(図19参照)を読み出す。
【0198】
次に、判断手段16052は、2番目の音節の両アクセント順位は合致する、と判断し、2番目の音節の重み情報「0.9」を取得し、当該重み情報「0.9」をスコア「0」に加算し、新しいスコア「0.9」を得る。
【0199】
次に、3番目以降の音節についても同様の処理を行い、最終的にユーザのアクセントのスコア「0.9」を得る。
【0200】
次に、判断手段16052は、判断手段16052が予め保持している閾値「0.9」を読み出し、変数「スコア」の値「0.9」と比較し、「スコア>=閾値」を満たすと、判断する。そして、判断手段16052は、変数「結果」に「正解」(例えば、「1」)を示す値を代入する。なお、「不正解」の値は、例えば、「0」である。
【0201】
次に、出力手段1053は、変数「結果」の値「正解」に基づいて、ユーザが発声した「A window seat ,please」のアクセントが正解である旨の出力を行う。出力は、例えば、「あなたは、「A window seat ,please」のアクセントを正しく発声されていました。」とディスプレイに表示する。
【0202】
以上、本実施の形態によれば、重み情報を利用してアクセントの正誤の判断を行うことにより、アクセントの正誤の判断が精度高く行え、かつ、人の感覚に合致した判断が可能となる。また、本実施の形態によれば、第一アクセントの位置をはじめ、2以上の音節のアクセント順位が精度高く判断できる。また、本実施の形態によれば、3以上の音節のアクセントの順位を取得できる。したがって、単語だけではなく、文章中のアクセント順位が精度高く判断できる。つまり、ユーザは、単語のアクセントだけではなく、文章の抑揚を正しく行うように訓練できる。また、学習者は、例えば、ネイティブ話者が発声した音声をそのまま利用して、第一アクセントの位置またはアクセントの順位が容易に学習できる。また、本実施の形態によれば、アラインメントを行ってから母音区間の基本周波数、パワーから、アクセント順位を決定するので、アクセント順位決定の精度が極めて高くなる。
【0203】
なお、本実施の形態において、アクセントの正確度のスコアを出力しても良い。したがって、上述した具体例において、ユーザの発声の「A window seat ,please」のアクセントのスコアを「0.9」、または「90点」などと出力しても良い。
【0204】
また、本実施の形態において、重み情報を用いて、アクセントの正誤やスコアを算出した。この処理を実施の形態1における音声情報処理装置に用いても良い。つまり、判断手段は、アクセント決定部が決定した第一アクセントの位置または順位と、重み情報を有するアクセント情報、または、重み情報を有するアクセント情報および教師データを用いて、アクセントの位置または順位が正しいか否かを判断したり、スコアを算出したりする。
【0205】
また、本実施の形態における音声情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、単語または文章の音声情報であり、1以上の音節の集合である音声情報を受け付ける音声情報受付ステップと、前記音声情報受付ステップで受け付けた音声情報から基本周波数を取得する基本周波数取得ステップと、前記音声情報受付ステップで受け付けた音声情報から当該音声情報の強さを示す情報であるパワー情報を取得するパワー情報取得ステップと、前記基本周波数取得ステップで取得した基本周波数と、前記パワー情報取得ステップで取得したパワー情報を用いて、第一アクセントの位置またはアクセントの順位を決定するアクセント決定ステップと、前記アクセント決定ステップで決定した第一アクセントの位置またはアクセントの順位に応じた処理を行う処理ステップを実行させるためのプログラム、である。
【0206】
また、上記プログラムにおいて、前記アクセント決定ステップは、前記音声情報を構成する2以上の音節の基本周波数の大小を比較する基本周波数比較ステップと、前記基本周波数比較ステップで、前記2以上の音節の基本周波数が略同じであると判断した場合に、少なくとも当該略同じ基本周波数である2以上の音節のパワー情報を比較するパワー比較ステップと、前記2以上の音節の基本周波数の比較結果、および当該2以上のパワー情報が示す音声の強弱の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定ステップを具備することは好適である。
【0207】
また、上記プログラムにおいて、前記アクセント決定ステップは、前記音声情報を構成する2以上の音節のパワー情報が示すパワーの大小を比較するパワー比較ステップと、前記パワー比較ステップで、前記2以上の音節のパワー情報が略同じであると判断した場合に、少なくとも当該略同じパワー情報である2以上の音節の基本周波数の大小を比較する基本周波数比較ステップと、前記2以上の音節のパワー情報が示す音声の強弱の比較結果、および当該2以上の基本周波数の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定ステップを具備することは好適である。
【0208】
また、上記プログラムにおいて、前記処理ステップは、前記アクセント決定ステップで決定した第一アクセントの位置または順位と、格納しているアクセント情報を用いて、前記音声情報受付ステップで受け付けた音声情報における第一アクセントの位置または順位が正しいか否かを判断する判断ステップと、前記判断ステップにおける判断結果を出力する出力ステップを具備することは好適である。
【0209】
また、上記プログラムにおいて、前記処理ステップは、前記アクセント決定ステップで決定した第一アクセントの位置または順位と、格納している教師データを用いて、前記音声情報受付ステップで受け付けた音声情報における第一アクセントの位置または順位が正しいか否かを判断する判断ステップと、前記判断ステップにおける判断結果を出力する出力ステップを具備することは好適である。
【0210】
また、上記プログラムにおいて、判断ステップは、前記アクセント決定ステップで決定した第一アクセントの位置または順位と、重み情報を有するアクセント情報、または、重み情報を有するアクセント情報および教師データを用いて、アクセントの位置または順位が正しいか否かを判断したり、スコアを算出する。
【0211】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0212】
また、図20は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図20は、このコンピュータシステム340の概観図であり、図21は、コンピュータシステム340のブロック図である。
【0213】
図20において、コンピュータシステム340は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ341と、キーボード342と、マウス343と、モニタ344と、マイク345とを含む。
【0214】
図21において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、CPU(Central Processing Unit)3413と、CPU3413、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3415と、CPU3413に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0215】
コンピュータシステム340に、上述した実施の形態の音声情報処理装置の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
【0216】
プログラムは、コンピュータ341に、上述した実施の形態の音声情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
【0217】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0218】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0219】
以上のように、本発明にかかる音声情報処理装置は、精度高くアクセントの位置や順位が判断できるという効果を有し、アクセントの教育に用いる語学学習装置等として有用である。
【図面の簡単な説明】
【0220】
【図1】実施の形態1における音声情報処理装置のブロック図
【図2】同音声情報処理装置の動作について説明するフローチャート
【図3】同アクセントの位置や順位を決定する動作について説明するフローチャート
【図4】同音声情報処理装置の出力処理について説明するフローチャート
【図5】同アクセント情報管理表を示す図
【図6】同画面例示す図
【図7】同音声波形データを示す図
【図8】同抽出した基本周波数、およびパワーを示す図
【図9】同抽出した基本周波数、およびパワーを示す図
【図10】同アクセント順位を決定する場合にメモリに配置されるデータ例を示す図
【図11】実施の形態2における音声情報処理装置のブロック図
【図12】同音声情報処理装置の動作について説明するフローチャート
【図13】同平均・分散算出処理について説明するフローチャート
【図14】同母音区間のスコアを算出する動作について説明するフローチャート
【図15】同対数基本周波数の平均値・分散等の処理の概念を説明する図
【図16】実施の形態3における音声情報処理装置のブロック図
【図17】同アクセント順位に基づいた処理について説明するフローチャート
【図18】同アクセント情報管理表を示す図
【図19】同算出したアクセント順位の例を示す図
【図20】同音声情報処理装置を実現するコンピュータの外観図
【図21】同音声情報処理装置を実現するコンピュータシステムのブロック図
【符号の説明】
【0221】
101 音声情報受付部
102 基本周波数取得部
103 パワー情報取得部
104 アクセント決定部
105、1105,1605 処理部
1041 基本周波数比較手段
1042 パワー比較手段
1043 アクセント位置決定手段
1051、1605 アクセント情報格納手段
1052、11052、16052 判断手段
1053 出力手段
11051 教師データ格納手段

【特許請求の範囲】
【請求項1】
単語または文章の音声情報であり、1以上の音節の集合である音声情報を受け付ける音声情報受付部と、
前記音声情報受付部が受け付けた音声情報から基本周波数を取得する基本周波数取得部と、
前記音声情報受付部が受け付けた音声情報から当該音声情報の強さを示す情報であるパワー情報を取得するパワー情報取得部と、
前記基本周波数取得部が取得した基本周波数と、前記パワー情報取得部が取得したパワー情報を用いて、第一アクセントの位置またはアクセントの順位を決定するアクセント決定部と、
前記アクセント決定部が決定した第一アクセントの位置またはアクセントの順位に応じた処理を行う処理部を具備する音声情報処理装置。
【請求項2】
前記アクセント決定部は、
前記音声情報を構成する2以上の音節の基本周波数の大小を比較する基本周波数比較手段と、
前記基本周波数比較手段が、前記2以上の音節の基本周波数が略同じであると判断した場合に、少なくとも当該略同じ基本周波数である2以上の音節のパワー情報を比較するパワー比較手段と、
前記2以上の音節の基本周波数の比較結果、および当該2以上のパワー情報が示す音声の強弱の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定手段を具備する請求項1記載の音声情報処理装置。
【請求項3】
前記アクセント決定部は、
前記音声情報を構成する2以上の音節のパワー情報が示すパワーの大小を比較するパワー比較手段と、
前記パワー比較手段が、前記2以上の音節のパワー情報が略同じであると判断した場合に、少なくとも当該略同じパワー情報である2以上の音節の基本周波数の大小を比較する基本周波数比較手段と、
前記2以上の音節のパワー情報が示す音声の強弱の比較結果、および当該2以上の基本周波数の比較結果により、第一アクセントの位置またはアクセントの順位を決定するアクセント位置決定手段を具備する請求項1記載の音声情報処理装置。
【請求項4】
前記処理部は、
単語または文章のアクセント位置または順位に関する情報であるアクセント情報を格納しているアクセント情報格納手段と、
前記アクセント決定部が決定した第一アクセントの位置またはアクセントの順位と、前記アクセント情報を用いて、前記音声情報受付部が受け付けた音声情報における第一アクセントの位置またはアクセントの順位が正しいか否かを判断する判断手段と、
前記判断手段における判断結果を出力する出力手段を具備する請求項1から請求項3いずれか記載の音声情報処理装置。
【請求項5】
前記処理部は、
第一アクセントの位置またはアクセントの順位が正しいか否かを判断するための比較対象の音声情報である教師データを格納している教師データ格納手段と、
前記アクセント決定部が決定した第一アクセントの位置またはアクセントの順位と、前記教師データを用いて、前記音声情報受付部が受け付けた音声情報における第一アクセントの位置またはアクセントの順位が正しいか否かを判断する判断手段と、
前記判断手段における判断結果を出力する出力手段を具備する請求項1から請求項3いずれか記載の音声情報処理装置。
【請求項6】
前記判断手段は、
前記アクセント決定部が決定した第一アクセントの位置またはアクセントの順位と、重み情報を有するアクセント情報、または、重み情報を有するアクセント情報および教師データを用いて、アクセントの位置またはアクセントの順位が正しいか否かを判断する請求項4または請求項5記載の音声情報処理装置。
【請求項7】
前記音声情報受付部が受け付けた音声情報と、格納している教師データとのアラインメントを行うアラインメント部をさらに具備し、
前記基本周波数取得部は、
前記アラインメント部が行ったアラインメントの結果得られた前記音声情報の母音区間の基本周波数を取得し、
前記パワー情報取得部は、
前記アラインメント部が行ったアラインメントの結果得られた前記音声情報の母音区間のパワー情報を取得する請求項1から請求項6いずれか記載の音声情報処理装置。
【請求項8】
コンピュータに、
単語または文章の音声情報であり、1以上の音節の集合である音声情報を受け付ける音声情報受付ステップと、
前記音声情報受付ステップで受け付けた音声情報から基本周波数を取得する基本周波数取得ステップと、
前記音声情報受付ステップで受け付けた音声情報から当該音声情報の強さを示す情報であるパワー情報を取得するパワー情報取得ステップと、
前記基本周波数取得ステップで取得した基本周波数と、前記パワー情報取得ステップで取得したパワー情報を用いて、第一アクセントの位置またはアクセントの順位を決定するアクセント決定ステップと、
前記アクセント決定ステップで決定した第一アクセントの位置またはアクセントの順位に応じた処理を行う処理ステップを実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図7】
image rotate

【図8】
image rotate

【図15】
image rotate


【公開番号】特開2007−241052(P2007−241052A)
【公開日】平成19年9月20日(2007.9.20)
【国際特許分類】
【出願番号】特願2006−65694(P2006−65694)
【出願日】平成18年3月10日(2006.3.10)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成17年度独立行政法人情報通信研究機構、研究テーマ「人間情報コミュニケーションの研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】