説明

音声処置装置、音声合成装置、音声特徴量の生産方法、およびプログラム

【課題】従来、音声合成において、高い品質の出力音声が得られる特徴量を取得できなかった。
【解決手段】音声を格納し得る音声格納部と、1以上の特徴量を格納し得る特徴量格納部と、前記音声格納部に格納されている音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、前記スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する特徴量取得部と、前記特徴量取得部が取得した1以上の特徴量を前記特徴量格納部に蓄積する特徴量蓄積部とを具備する音声処置装置により、音声合成において、高い品質の出力音声が得られる特徴量を取得できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を処理する音声処置装置等に関するものである。
【背景技術】
【0002】
近年、主流の音声合成は、声質や発話スタイルなどに関わる音声の特徴をモデル化し、音声コーパスと呼ばれるデータベースを利用して音声のモデル(以下、単に「モデル」または「音響モデル」ともいう)を統計的に学習する。そして、学習したモデルを使って音声を合成する。また、モデルとして隠れマルコフモデル(以下「HMM」という。)が広く利用されている(非特許文献1、非特許文献2、非特許文献3参照)。
【0003】
また、従来技術を図14に示す。図14に示すように、従来技術において、例えば、音声コーパスを構成する音声データは、通常、収録時に高い周波数(例えば48kHz)で標本化された高品位な音声を、目的に応じた標本化周波数に落とした(例えば16kHz)ものである。従来技術において、標本化周波数を落とす(「ダウンサンプリング」とも言う。)際には、まず、折り返し歪(「エイリアス歪」とも言う。)が生じないように「アンチエイリアスフィルター(以下「AAF」という。)」と呼ばれるローパスフィルターに音声を通し、その出力に対して再標本化処理を行う。従来技術の音声合成は、音声のスペクトル表現としてパラメータ(例えば、ケプストラム)を用い、前述のダウンサンプリング適用後の音声からそのパラメータを計算する。そして、そのパラメータを音声の1つの特徴量としてモデル(HMM)を学習する。そして、学習したモデルを用いて、音声合成が行われる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】徳田恵一,"特集号:音声情報処理技術の最先端(1)HMMによる音声認識と音声合成",情報処理学会誌「情報処理」,vol.45,no.10,pp.1005-1011,Oct.2004.9.
【非特許文献2】徳田恵一,"HMMによる音声合成の基礎",電子情報通信学会技術研究報告,vol.100,no.392,SP2000-74,pp.43-50,Oct.2000.
【非特許文献3】徳田恵一,"隠れマルコフモデルの音声合成への応用",電子情報通信学会技術研究報告,vol.99,no.255,SP99-61,pp.47-54,Aug.1999.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記のローパスフィルターによって、ダウンサンプリング後の音声は、もっとも高い周波数(ナイキスト周波数)近辺のエネルギーが大きく減衰され、音声スペクトル上で急峻な崖状の特性をもつ。上記のHMMに基づく音声合成は、こうした崖状の特性を持つスペクトルから計算したパラメータ(例えば、ケプストラム)に対してモデル(HMM)を学習している。そのために、音声合成の出力音声は高周波数領域のエネルギーが不足するほか、学習の際の統計処理がその特異なスペクトル特性の影響を受けて、出力音声の品質が著しく劣化していた。
【0006】
本発明では、上記課題に鑑み、以下のような解決手段を有する。
【課題を解決するための手段】
【0007】
本第一の発明の音声処置装置は、音声を格納し得る音声格納部と、1以上の特徴量を格納し得る特徴量格納部と、音声格納部に格納されている音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する特徴量取得部と、特徴量取得部が取得した1以上の特徴量を特徴量格納部に蓄積する特徴量蓄積部とを具備する音声処置装置である。
【0008】
かかる構成により、音声合成において、高い品質の出力音声が得られる特徴量を取得できる。
【0009】
また、本第二の発明のモデル作成装置は、音声のモデルを格納し得るモデル格納部と、第一の発明の音声処置装置により蓄積された1以上の特徴量を格納している特徴量格納部と、1以上の特徴量から音声のモデルを構成し、モデル格納部に蓄積するモデル学習部とを具備するモデル作成装置である。
【0010】
かかる構成により、音声合成において、高い品質の出力音声が得られる音響モデルを学習できる。
【0011】
また、本第三の発明の音声合成装置は、第二の発明のモデル作成装置により取得された音声のモデルを格納し得るモデル格納部と、音声合成する内容を示す情報である合成内容情報を受け付ける受付部と、合成内容情報に対して、モデル格納部に格納された音声のモデルを用いて、音声を生成する音声生成部と、音声生成部が生成した音声を出力する出力部とを具備する音声合成装置である。
【0012】
かかる構成により、音声合成において、高い品質の出力音声が得られる。
【0013】
また、本第四の発明の音声合成装置は、第一の発明の音声処置装置により蓄積された1以上の特徴量を格納している特徴量格納部と、合成内容情報を受け付ける受付部と、合成内容情報に対して、特徴量格納部の1以上の特徴量を用いて、音声を生成する音声生成部と、音声生成部が生成した音声を出力する出力部とを具備する音声合成装置である。
【0014】
かかる構成により、音声合成において、高い品質の出力音声が得られる。
【発明の効果】
【0015】
本発明による音声処置装置によれば、AAFの減衰特性が合成音声に与える悪影響を回避することができるので、音声合成において、高い品質の出力音声が得られる特徴量を取得できる。
【図面の簡単な説明】
【0016】
【図1】実施の形態1における音声処置装置1のブロック図
【図2】同スペクトル包絡を示す図
【図3】同切り詰め処理後のスペクトル包絡を示す図
【図4】同音声処置装置1の動作について説明するフローチャート
【図5】同有声区間の典型的な対数パワースペクトルを示す図
【図6】同合成した音声スペクトルを示す図
【図7】同スペクトル特徴量抽出、HMM学習、および音声合成の詳細を示す図
【図8】同聴取試験の結果(MOS)を示す図
【図9】同音響モデル作成装置2のブロック図
【図10】同音声合成装置3のブロック図
【図11】実施の形態2における音声合成装置4のブロック図
【図12】上記実施の形態におけるコンピュータシステムの概観図
【図13】同コンピュータシステムのブロック図
【図14】従来技術を説明する図
【発明を実施するための形態】
【0017】
以下、音声処置装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0018】
(実施の形態1)
【0019】
本実施の形態において、高周波数領域の急峻な減衰を避けるため、アンチエイリアスフィルターを用いずに、ダウンサンプリング後の音声に相当するスペクトルを求め、このスペクトルをケプストラムのようなパラメータに変換してHMM等の学習に用いる音声処置装置について説明する。
【0020】
図1は、本実施の形態における音声処置装置1のブロック図である。音声処置装置1は、音声格納部11、特徴量格納部12、スペクトル取得部13、切詰処理部14、特徴量取得部15、および特徴量蓄積部16を備える。
【0021】
音声格納部11は、音声を格納し得る。音声格納部11は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。音声格納部11に音声が記憶される過程は問わない。例えば、記録媒体を介して音声が音声格納部11で記憶されるようになってもよく、通信回線等を介して送信された音声が音声格納部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された音声が音声格納部11で記憶されるようになってもよい。
特徴量格納部12は、1以上の特徴量を格納し得る。1以上の特徴量とは、本実施形態ではメルケプストラムを用いているが、特に限定されることはなく、ケプストラムやLSP(Line Spectral Pairs)、PARCOR係数(Partial Auto-Correlation Coefficient)等、何でも良い。また、特徴量格納部12は、1以上の特徴量とともに音響モデル学習用データとして音声の基本周波数(F)などを一緒に格納していても良い。
【0022】
特徴量格納部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0023】
本実施の形態では、例えば、標本化周波数16kHzの音声を合成するものとする。そして、スペクトル取得部13は、音声格納部11に格納されている所望の周波数より高い標本化周波数(本実施の形態では、例えば、48kHzとする)の音声から、スペクトルまたはスペクトル包絡を抽出する。そして、例えば、スペクトル取得部13は、図2のスペクトル包絡を得る。図2においてfはナイキスト周波数を表わし、本実施の形態の場合f=24kHzとなる。音声からスペクトルもしくはスペクトル包絡を抽出する技術は公知技術であるので、詳細な説明を省略する。なお、スペクトル取得部13は、例えば、STRAIGHT分析(H. Kawahara, in Proc. ICASSP-97, vol.2, pp.1303--1306, 1997.参照)によって実現され得る。
【0024】
切詰処理部14は、スペクトル取得部13が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う。ここで、閾値とは、通常、所望の(ダウンサンプリング適用後相当の)音声のナイキスト周波数(本実施例では8kHz)である。また、切り詰める処理とは、予め決められた閾値以上の周波数のスペクトル部分のデータを削除する処理、とも言える。なお、「閾値以上」は、「閾値より大きい」ことを含むとする。例えば、切詰処理部14は、図2のスペクトル包絡から、所望のナイキスト周波数f(本実施の形態の場合、f=8kHzとなる)を超えるスペクトル区間のデータポイントを削除し、図3のサンプリング周波数が16kHz相当のスペクトル包絡を得る。
【0025】
特徴量取得部15は、切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する。特徴量(本実施形態ではメルケプストラム)の取得は、例えば、音声信号処理ツールキット(SPTK)(http://sp-tk.sourceforge.net/参照)のmgcepコマンドによって実現され得る。
【0026】
特徴量蓄積部16は、特徴量取得部15が取得した1以上の特徴量を特徴量格納部12に蓄積する。特徴量蓄積部16は、特徴量取得部15が取得した1以上の特徴量とともに音響モデル学習用データとして音声の基本周波数(F)などを一緒に特徴量格納部12に蓄積しても良い。
【0027】
スペクトル取得部13、切詰処理部14、特徴量取得部15、および特徴量蓄積部16は、通常、MPUやメモリ等から実現され得る。スペクトル取得部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0028】
次に、音声処置装置1の動作について、図4のフローチャートを用いて説明する。
【0029】
(ステップS401)スペクトル取得部13は、音声格納部11から音声を取得する。
【0030】
(ステップS402)スペクトル取得部13は、ステップS401で取得した音声のスペクトルまたはスペクトル包絡を取得する。
【0031】
(ステップS403)切詰処理部14は、ステップS402で取得されたスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の高周波数のスペクトルを切り詰める処理を行う。
【0032】
(ステップS404)特徴量取得部15は、ステップS403で切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する。
【0033】
(ステップS405)特徴量蓄積部16は、ステップS404で取得された1以上の特徴量を特徴量格納部12に蓄積し、処理を終了する。
【0034】
以下、本実施の形態における音声処置装置1がいかに効果的であるかを、実験例を紹介して説明する。なお、本実験例では、音声処置装置1を用いて生成した1以上の特徴量から音響モデルを生成し、当該音響モデルを用いて音声合成を行った。
【0035】
本実験で使用する音声は、イギリス英語コーパスに含まれる標本化周波数16kHzのデータ(以下16kHz音声という)と、標本化周波数48kHzの音声(48kHz音声)である。なお、この16kHz音声は、48kHz音声に対してAAFを含むダウンサンプリングを適用して得ている。ダウンサンプリングは、ごく一般的に利用されるソフトウェア(Edinburgh Speech Tools Library: http://www.cstr.ed.ac.uk/projects/speech tools/)によってなされている。
【0036】
また、本実験において、スペクトル特徴量は39次のメルケプストラムである。メルケプストラムは、音声信号処理ツールキット(SPTK)のmgcepコマンドを使って、STRAIGHT分析によって得られたスペクトル包絡(以下STRAIGHTスペクトル)から、特徴量取得部15が計算して、取得できる。
【0037】
有声区間の典型的な対数パワースペクトルを図5に示す。図5において、横軸は周波数、縦軸は対数パワーである。また、図5の太破線(CEPS−TD)は16kHz音声のメルケプストラムから再構成したパワースペクトルであり、細実線(SPEC48k)は対応する48kHz音声のSTRAIGHTスペクトルである。同図から明らかなように、16kHz音声のスペクトル(CEPS−TD)はローパスフィルターの特性の影響でナイキスト周波数(8kHz)付近のエネルギーが乏しい。また、4〜6kHzのスペクトル起伏が48kHz音声のスペクトルに比べて平坦化している。こうした高周波数領域においてエネルギーが不足し、起伏が平坦化したスペクトルのメルケプストラムを音声合成の特徴量とすれば、合成音声の品質が劣化することは明らかである。これが従来技術の音声合成法の音声品質の劣化原因の一つである。
【0038】
一方、図5の太実線(CEPS−ST)は、本発明に基づいて48kHz音声から生成した(サンプリング周波数16kHzの音声相当の)メルケプストラムから再構成したパワースペクトルである。このスペクトルは、ナイキスト周波数(8kHz)付近および4〜6kHzのパワーが、48kHz音声のSTRAIGHTスペクトル(SPEC48k)と一致している。こうしたスペクトルを表わすメルケプストラムを音声合成の特徴量とすれば、高い品質の音声合成が可能となる。
【0039】
次に、本実験において、上述の実施形態に基づいて得られたスペクトル特徴量を用いてHMMを学習し、学習したHMMから音声を合成する。そして、合成した音声について調べ、本発明の効果を確認する。
【0040】
本実験において、まず、以下の2つの異なるメルケプストラムを用いて別個にモデルを学習した。
(1)16kHz音声から計算したメルケプストラム(従来技術)
(2)48kHz音声から本発明の音声処置装置によって得たメルケプストラム
【0041】
なお、上記(1)および(2)を特徴量としてそれぞれHMMを学習する際、特徴量作成以外の条件は同一である。これらモデルを用いて合成した音声スペクトルを図6に示す。図6において、横軸は周波数、縦軸は対数パワーである。また、上記(1)の特徴量から学習したモデルを用いて合成した音声スペクトル(従来技術による音声スペクトル)は図6のCEPS−TD、上記(2)の特徴量から学習したモデルを用いて合成した音声スペクトル(本発明による音声スペクトル)は図6のCEPS−STである。
【0042】
図6から明らかなように、本発明を適用したHMM音声合成の合成音声は、従来技術に比べて、高周波数領域(7〜8kHz)のスペクトル・エネルギーが大幅に改善しているとともに、全周波数帯域にわたって、フォルマントやアンチフォルマントの平坦化の度合いが少ない。従来技術の合成音声のようにスペクトルが平坦化すると、音声品質は劣化し、音声はこもったように知覚される。したがって本発明を用いれば、そうした劣化を緩和または回避することができる。
【0043】
そこで、次に、上記のようなパワースペクトルをもつ音声が、人間の耳にどのように知覚されるかを調べるために、合成音声の自然性について聴取評価試験を行った。
【0044】
聴取試験の評定者は音声研究者5名で、各評定者は2つのシステムが音声合成した10文を評価する。評価スケールは、1('completely unnatural')から5('completely natural')の5段階で、試験は静かな部屋でヘッドフォンを用いて行われた。
【0045】
また、本試験に関わるスペクトル特徴量抽出、HMM学習、および音声合成の詳細を図7に示す。
【0046】
以下、2つのシステムの処理手順を明記する。システム1の処理手順は、従来技術の処理手順である。つまり、システム1では、(予めダウンサンプリング処理が施された)16kHzで標本化された音声のスペクトル包絡をSTRAIGHT分析によって取得し、当該スペクトル包絡から計算したメルケプストラムをスペクトル特徴量とした学習を行い、HMMの音響モデルを構築した。そして、当該HMMの音響モデルを用いて、音声合成を行った。
【0047】
また、システム2では、STRAIGHT分析を用いて48kHzで標本化された音声のスペクトル包絡を取得し、当該スペクトル包絡に対して、音声処置装置1の本発明に基づく「スペクトル切り詰め処理」を行った。そして、スペクトル切り詰め処理を行った後のスペクトル包絡から計算したメルケプストラムを、スペクトル特徴量とした学習を行い、HMMの音響モデルを構築した。そして、当該HMMの音響モデルを用いて、音声合成を行った。
【0048】
図8に、聴取試験の結果の平均オピニオンスコア(MOS)を示す。16kHz音声を用いたシステム1(従来技術)はスコア2.5で、システム2(本発明)はスコア2.9となった。
【0049】
これらの結果から次のことがわかる。ダウンサンプリング時に用いたAAFのフィルター特性の悪影響は、本発明の音声処置装置1を用いることで回避可能であり、実際に聴感上、合成音声にMOS0.4相当の顕著な自然性の改善が見られた。
【0050】
以上の実験結果から明白なように、本実施の形態によれば、音声合成において、高い品質の出力音声が得られる特徴量を取得できる。
【0051】
なお、本実施の形態における音声処置装置1が生成した1以上の特徴量は、音声合成だけではなく、同種の特徴量を取り扱う他の音声技術(例えば音声認識や話者認識)等にも利用可能であり、そうした音声技術の性能向上にも貢献できる。
【0052】
また、音声合成処理のために与える情報は、テキストに限定されず、発音などを記した記号列やSpeech Synthesis Markup Language (SSML)のようなマークアップ言語、また、それらのバイナリデータ等であってもよい。つまり、音声合成処理のために与える情報は、音声合成する内容を示す情報であれば何でも良く、かかる情報を合成内容情報ということとする。
【0053】
また、音声処置装置1が生成した1以上の特徴量から音声のモデルを学習するモデル作成装置2が構成可能である。モデル作成装置2のブロック図の例は、以下の図9である。モデル作成装置2は、モデル格納部21、特徴量格納部12、およびモデル学習部22を具備する。
【0054】
モデル格納部21は、音声のモデルを格納し得る。音声のモデルとは、従来技術の説明で示したように、声質や発話スタイルなどに関連する音声の特徴をモデル化したものをいい、例えば、各音素(または前後の音素環境を考慮した音素)毎に特徴量の時系列的なパターンをモデル化したものである。音声のモデルは、例えば、音韻毎の隠れマルコフモデル(HMM)に基づくデータが好適であるが、他のモデルに基づくデータでも良い。
【0055】
モデル学習部22は、1以上の特徴量から音声のモデルを構成し、モデル格納部21に蓄積する。なお、1以上の特徴量から音声のモデルを構成する技術は、例えば、図14に示すHMM学習である。つまり、1以上の特徴量(例えば、メルケプストラム)に対してHMM学習を行いHMMの音響モデルを取得する。なお、モデル学習部22の処理は公知技術であるので、詳細な説明を省略する。
【0056】
また、モデル作成装置2が生成した音声のモデルを用いた音声合成装置3が構成可能である。音声合成装置3のブロック図の例は、以下の図10である。音声合成装置3は、モデル格納部21、受付部31、音声生成部32、出力部33を備える。
【0057】
受付部31は、合成内容情報を受け付ける。合成内容情報とは、上述したように、音声合成する内容を示す情報であり、テキストに限定されず、発音などを記した記号列やSSMLのようなマークアップ言語、また、それらのバイナリデータ等であってもよい。ここで、受け付けとは、キーボードやマウスなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。合成内容情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部31は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0058】
音声生成部32は、受付部31が受け付けた合成内容情報に対して、モデル格納部21の音声のモデルを用いて、音声(合成音声)を生成する。音声生成部32は、例えば、図14の音声特徴量生成と音声信号生成により、合成音声を取得する。つまり、音声生成部32は、音声のモデルに対して音声特徴量の生成処理を行い、音声特徴量(ここでは、メルケプストラム)を生成する。また、音声生成部32は、音声特徴量を用いて音声信号の生成処理を行い、合成音声を取得する。なお、音声生成部32の処理は公知技術であるので、詳細な説明を省略する。音声生成部32は、通常、MPUやメモリ等から実現され得る。音声生成部32の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0059】
出力部33は、音声生成部32が生成した音声を出力する。ここで出力とは、スピーカー等による音声出力、オーディオデバイスへの書き込みのほか、HDDや記録メディア上のファイルへの書き出し、他アプリケーションへの音声データの受け渡し等を含む概念である。出力部33は、例えば、スピーカー等から実現され得る。
【0060】
(実施の形態2)
【0061】
本実施の形態において、実施の形態1で説明した音声処置装置1が生成した1以上の特徴量を用いた音声合成装置4について説明する。
【0062】
音声合成装置4のブロック図の例は、以下の図11である。なお、音声合成装置4は、特徴量格納部12を除いて、公知技術でも良い。
【0063】
音声合成装置4は、特徴量格納部12、受付部31、音声生成部42、出力部33を備える。
【0064】
音声生成部42は、受付部31が受け付けた合成内容情報に対して、特徴量格納部12の1以上の特徴量を用いて、音声を生成する。音声生成部42は、1以上の特徴量から直接に音声を生成する。音声生成部42は、さまざまな方法で実現可能であるが、本実施の形態では、音声素片接続タイプの音声生成方法で実現されている。すなわち、前記特徴量は所定の合成単位(例えばダイフォーン)で、音声素片として特徴量格納部12に保持されており、音声生成部42は前記文字情報にしたがって、音声素片を特徴量格納部12から取り出し順次接続して、所望の音声の特徴量時系列を生成する。その後、音声生成部42は当該特徴量時系列を音声に変換する。音声生成部42のこうした手法も公知技術であるので、詳細な説明を省略する。音声生成部42は、通常、MPUやメモリ等から実現され得る。音声生成部42の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0065】
また、音声処置装置1とモデル作成装置2とを一の装置で実現しても良いことは言うまでもない。かかる場合の装置(音声処置装置)は、音声格納部11、特徴量格納部12、スペクトル取得部13、切詰処理部14、特徴量取得部15、特徴量蓄積部16、音響モデル格納部21、およびモデル学習部22を具備する。
【0066】
また、例えば、音声処置装置1とモデル作成装置2と音声合成装置3とを一の装置で実現しても良いことは言うまでもない。かかる場合の装置(音声処置装置)は、音声格納部11、特徴量格納部12、スペクトル取得部13、切詰処理部14、特徴量取得部15、特徴量蓄積部16、音響モデル格納部21、モデル学習部22、受付部31、音声生成部32、および出力部33を具備する。
【0067】
また、例えば、音声処置装置1と音声合成装置4とを一の装置で実現しても良いことは言うまでもない。かかる場合の装置(音声処置装置)は、音声格納部11、特徴量格納部12、スペクトル取得部13、切詰処理部14、特徴量取得部15、特徴量蓄積部16、受付部31、音声生成部42、および出力部33を具備する。
【0068】
さらに、上記実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、前記スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する特徴量取得部と、前記特徴量取得部が取得した1以上の特徴量を記憶媒体に蓄積する特徴量蓄積部として機能させるためのプログラム、である。
【0069】
また、図12は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声処置装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図12は、このコンピュータシステム300の概観図であり、図13は、システム300のブロック図である。
【0070】
図12において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304と、スピーカー306とを含む。
【0071】
図13において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、MPU3013と、当該MPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0072】
コンピュータシステム300に、上述した実施の形態の音声処置装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。
【0073】
プログラムは、コンピュータ301に、上述した実施の形態の音声処置装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
【0074】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0075】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0076】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0077】
以上のように、本発明にかかる音声処置装置は、音声合成において、高い品質の出力音声が得られる特徴量を取得できる、という効果を有し、音声合成装置等として有用である。
【符号の説明】
【0078】
1 音声処置装置
2 モデル作成装置
3、4 音声合成装置
11 音声格納部
12 特徴量格納部
13 スペクトル取得部
14 切詰処理部
15 特徴量取得部
16 特徴量蓄積部
21 モデル格納部
22 モデル学習部
31 受付部
32、42 音声生成部
33 出力部

【特許請求の範囲】
【請求項1】
音声を格納し得る音声格納部と、
1以上の特徴量を格納し得る特徴量格納部と、
前記音声格納部に格納されている音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、
前記スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、
前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する特徴量取得部と、
前記特徴量取得部が取得した1以上の特徴量を前記特徴量格納部に蓄積する特徴量蓄積部とを具備する音声処置装置。
【請求項2】
音声のモデルを格納し得るモデル格納部と、
請求項1記載の音声処置装置により蓄積された1以上の特徴量を格納している特徴量格納部と、
前記1以上の特徴量から音声のモデルを構成し、前記音響モデル格納部に蓄積するモデル学習部とを具備するモデル作成装置。
【請求項3】
請求項2記載のモデル作成装置により取得された音声のモデルを格納し得るモデル格納部と、
音声合成する内容を示す情報である合成内容情報を受け付ける受付部と、
前記合成内容情報に対して、前記モデル格納部の音声のモデルを用いて、音声を生成する音声生成部と、
前記音声生成部が生成した音声を出力する出力部とを具備する音声合成装置。
【請求項4】
請求項1記載の音声処置装置により蓄積された1以上の特徴量を格納している特徴量格納部と、
音声合成する内容を示す情報である合成内容情報を受け付ける受付部と、
前記合成内容情報に対して、前記特徴量格納部の1以上の特徴量を用いて、音声を生成する音声生成部と、
前記音声生成部が生成した音声を出力する出力部とを具備する音声合成装置。
【請求項5】
スペクトル取得部、切詰処理部、特徴量取得部、特徴量蓄積部により実現され得る特徴量生産方法であって、
前記スペクトル取得部が、音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得ステップと、
前記切詰処理部が、前記スペクトル取得ステップで取得されたスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の高周波数のスペクトルを切り詰める処理を行う切詰処理ステップと、
前記特徴量取得部が、前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する特徴量取得ステップと、
前記特徴量蓄積部が、前記特徴量取得ステップで取得された1以上の特徴量を記憶媒体に蓄積する特徴量蓄積ステップとを具備する音声特徴量の生産方法。
【請求項6】
コンピュータを、
音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、
前記スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、
前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する特徴量取得部と、
前記特徴量取得部が取得した1以上の特徴量を記憶媒体に蓄積する特徴量蓄積部として機能させるためのプログラム。

【図1】
image rotate

【図4】
image rotate

【図7】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図2】
image rotate

【図3】
image rotate

【図5】
image rotate

【図6】
image rotate

【図8】
image rotate

【図14】
image rotate


【公開番号】特開2013−57843(P2013−57843A)
【公開日】平成25年3月28日(2013.3.28)
【国際特許分類】
【出願番号】特願2011−196779(P2011−196779)
【出願日】平成23年9月9日(2011.9.9)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)