音声処置装置、音声合成装置、音声特徴量の生産方法、およびプログラム

【課題】従来、音声合成において、高い品質の出力音声が得られる特徴量を取得できなかった。
【解決手段】音声を格納し得る音声格納部と、１以上の特徴量を格納し得る特徴量格納部と、前記音声格納部に格納されている音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、前記スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から１以上の特徴量を取得する特徴量取得部と、前記特徴量取得部が取得した１以上の特徴量を前記特徴量格納部に蓄積する特徴量蓄積部とを具備する音声処置装置により、音声合成において、高い品質の出力音声が得られる特徴量を取得できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声を処理する音声処置装置等に関するものである。
【背景技術】
【０００２】
近年、主流の音声合成は、声質や発話スタイルなどに関わる音声の特徴をモデル化し、音声コーパスと呼ばれるデータベースを利用して音声のモデル（以下、単に「モデル」または「音響モデル」ともいう）を統計的に学習する。そして、学習したモデルを使って音声を合成する。また、モデルとして隠れマルコフモデル（以下「ＨＭＭ」という。）が広く利用されている（非特許文献１、非特許文献２、非特許文献３参照）。
【０００３】
また、従来技術を図１４に示す。図１４に示すように、従来技術において、例えば、音声コーパスを構成する音声データは、通常、収録時に高い周波数（例えば４８ｋＨｚ）で標本化された高品位な音声を、目的に応じた標本化周波数に落とした（例えば１６ｋＨｚ）ものである。従来技術において、標本化周波数を落とす（「ダウンサンプリング」とも言う。）際には、まず、折り返し歪（「エイリアス歪」とも言う。）が生じないように「アンチエイリアスフィルター（以下「ＡＡＦ」という。）」と呼ばれるローパスフィルターに音声を通し、その出力に対して再標本化処理を行う。従来技術の音声合成は、音声のスペクトル表現としてパラメータ(例えば、ケプストラム)を用い、前述のダウンサンプリング適用後の音声からそのパラメータを計算する。そして、そのパラメータを音声の１つの特徴量としてモデル（ＨＭＭ）を学習する。そして、学習したモデルを用いて、音声合成が行われる。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】徳田恵一,"特集号：音声情報処理技術の最先端(1)HMMによる音声認識と音声合成",情報処理学会誌「情報処理」,vol.45,no.10,pp.1005-1011,Oct.2004.9.
【非特許文献２】徳田恵一,"HMMによる音声合成の基礎",電子情報通信学会技術研究報告,vol.100,no.392,SP2000-74,pp.43-50,Oct.2000.
【非特許文献３】徳田恵一,"隠れマルコフモデルの音声合成への応用",電子情報通信学会技術研究報告,vol.99,no.255,SP99-61,pp.47-54,Aug.1999.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記のローパスフィルターによって、ダウンサンプリング後の音声は、もっとも高い周波数（ナイキスト周波数）近辺のエネルギーが大きく減衰され、音声スペクトル上で急峻な崖状の特性をもつ。上記のＨＭＭに基づく音声合成は、こうした崖状の特性を持つスペクトルから計算したパラメータ（例えば、ケプストラム）に対してモデル（ＨＭＭ）を学習している。そのために、音声合成の出力音声は高周波数領域のエネルギーが不足するほか、学習の際の統計処理がその特異なスペクトル特性の影響を受けて、出力音声の品質が著しく劣化していた。
【０００６】
本発明では、上記課題に鑑み、以下のような解決手段を有する。
【課題を解決するための手段】
【０００７】
本第一の発明の音声処置装置は、音声を格納し得る音声格納部と、１以上の特徴量を格納し得る特徴量格納部と、音声格納部に格納されている音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、切り詰める処理を行ったスペクトルまたはスペクトル包絡から１以上の特徴量を取得する特徴量取得部と、特徴量取得部が取得した１以上の特徴量を特徴量格納部に蓄積する特徴量蓄積部とを具備する音声処置装置である。
【０００８】
かかる構成により、音声合成において、高い品質の出力音声が得られる特徴量を取得できる。
【０００９】
また、本第二の発明のモデル作成装置は、音声のモデルを格納し得るモデル格納部と、第一の発明の音声処置装置により蓄積された１以上の特徴量を格納している特徴量格納部と、１以上の特徴量から音声のモデルを構成し、モデル格納部に蓄積するモデル学習部とを具備するモデル作成装置である。
【００１０】
かかる構成により、音声合成において、高い品質の出力音声が得られる音響モデルを学習できる。
【００１１】
また、本第三の発明の音声合成装置は、第二の発明のモデル作成装置により取得された音声のモデルを格納し得るモデル格納部と、音声合成する内容を示す情報である合成内容情報を受け付ける受付部と、合成内容情報に対して、モデル格納部に格納された音声のモデルを用いて、音声を生成する音声生成部と、音声生成部が生成した音声を出力する出力部とを具備する音声合成装置である。
【００１２】
かかる構成により、音声合成において、高い品質の出力音声が得られる。
【００１３】
また、本第四の発明の音声合成装置は、第一の発明の音声処置装置により蓄積された１以上の特徴量を格納している特徴量格納部と、合成内容情報を受け付ける受付部と、合成内容情報に対して、特徴量格納部の１以上の特徴量を用いて、音声を生成する音声生成部と、音声生成部が生成した音声を出力する出力部とを具備する音声合成装置である。
【００１４】
かかる構成により、音声合成において、高い品質の出力音声が得られる。
【発明の効果】
【００１５】
本発明による音声処置装置によれば、ＡＡＦの減衰特性が合成音声に与える悪影響を回避することができるので、音声合成において、高い品質の出力音声が得られる特徴量を取得できる。
【図面の簡単な説明】
【００１６】
【図１】実施の形態１における音声処置装置１のブロック図
【図２】同スペクトル包絡を示す図
【図３】同切り詰め処理後のスペクトル包絡を示す図
【図４】同音声処置装置１の動作について説明するフローチャート
【図５】同有声区間の典型的な対数パワースペクトルを示す図
【図６】同合成した音声スペクトルを示す図
【図７】同スペクトル特徴量抽出、ＨＭＭ学習、および音声合成の詳細を示す図
【図８】同聴取試験の結果（ＭＯＳ）を示す図
【図９】同音響モデル作成装置２のブロック図
【図１０】同音声合成装置３のブロック図
【図１１】実施の形態２における音声合成装置４のブロック図
【図１２】上記実施の形態におけるコンピュータシステムの概観図
【図１３】同コンピュータシステムのブロック図
【図１４】従来技術を説明する図
【発明を実施するための形態】
【００１７】
以下、音声処置装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【００１８】
（実施の形態１）
【００１９】
本実施の形態において、高周波数領域の急峻な減衰を避けるため、アンチエイリアスフィルターを用いずに、ダウンサンプリング後の音声に相当するスペクトルを求め、このスペクトルをケプストラムのようなパラメータに変換してＨＭＭ等の学習に用いる音声処置装置について説明する。
【００２０】
図１は、本実施の形態における音声処置装置１のブロック図である。音声処置装置１は、音声格納部１１、特徴量格納部１２、スペクトル取得部１３、切詰処理部１４、特徴量取得部１５、および特徴量蓄積部１６を備える。
【００２１】
音声格納部１１は、音声を格納し得る。音声格納部１１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。音声格納部１１に音声が記憶される過程は問わない。例えば、記録媒体を介して音声が音声格納部１１で記憶されるようになってもよく、通信回線等を介して送信された音声が音声格納部１１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された音声が音声格納部１１で記憶されるようになってもよい。
特徴量格納部１２は、１以上の特徴量を格納し得る。１以上の特徴量とは、本実施形態ではメルケプストラムを用いているが、特に限定されることはなく、ケプストラムやＬＳＰ（Line Spectral Pairs）、ＰＡＲＣＯＲ係数（Partial Auto-Correlation Coefficient）等、何でも良い。また、特徴量格納部１２は、１以上の特徴量とともに音響モデル学習用データとして音声の基本周波数（Ｆ_０）などを一緒に格納していても良い。
【００２２】
特徴量格納部１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【００２３】
本実施の形態では、例えば、標本化周波数１６ｋＨｚの音声を合成するものとする。そして、スペクトル取得部１３は、音声格納部１１に格納されている所望の周波数より高い標本化周波数（本実施の形態では、例えば、４８ｋＨｚとする）の音声から、スペクトルまたはスペクトル包絡を抽出する。そして、例えば、スペクトル取得部１３は、図２のスペクトル包絡を得る。図２においてｆ_１はナイキスト周波数を表わし、本実施の形態の場合ｆ_１＝２４ｋＨｚとなる。音声からスペクトルもしくはスペクトル包絡を抽出する技術は公知技術であるので、詳細な説明を省略する。なお、スペクトル取得部１３は、例えば、STRAIGHT分析（H. Kawahara, in Proc. ICASSP-97, vol.2, pp.1303--1306, 1997.参照）によって実現され得る。
【００２４】
切詰処理部１４は、スペクトル取得部１３が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う。ここで、閾値とは、通常、所望の（ダウンサンプリング適用後相当の）音声のナイキスト周波数（本実施例では８ｋＨz）である。また、切り詰める処理とは、予め決められた閾値以上の周波数のスペクトル部分のデータを削除する処理、とも言える。なお、「閾値以上」は、「閾値より大きい」ことを含むとする。例えば、切詰処理部１４は、図２のスペクトル包絡から、所望のナイキスト周波数ｆ_２（本実施の形態の場合、ｆ_２＝８ｋＨzとなる）を超えるスペクトル区間のデータポイントを削除し、図３のサンプリング周波数が１６ｋＨｚ相当のスペクトル包絡を得る。
【００２５】
特徴量取得部１５は、切り詰める処理を行ったスペクトルまたはスペクトル包絡から１以上の特徴量を取得する。特徴量（本実施形態ではメルケプストラム）の取得は、例えば、音声信号処理ツールキット(SPTK)（http://sp-tk.sourceforge.net/参照）のmgcepコマンドによって実現され得る。
【００２６】
特徴量蓄積部１６は、特徴量取得部１５が取得した１以上の特徴量を特徴量格納部１２に蓄積する。特徴量蓄積部１６は、特徴量取得部１５が取得した１以上の特徴量とともに音響モデル学習用データとして音声の基本周波数（Ｆ_０）などを一緒に特徴量格納部１２に蓄積しても良い。
【００２７】
スペクトル取得部１３、切詰処理部１４、特徴量取得部１５、および特徴量蓄積部１６は、通常、ＭＰＵやメモリ等から実現され得る。スペクトル取得部１３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００２８】
次に、音声処置装置１の動作について、図４のフローチャートを用いて説明する。
【００２９】
（ステップＳ４０１）スペクトル取得部１３は、音声格納部１１から音声を取得する。
【００３０】
（ステップＳ４０２）スペクトル取得部１３は、ステップＳ４０１で取得した音声のスペクトルまたはスペクトル包絡を取得する。
【００３１】
（ステップＳ４０３）切詰処理部１４は、ステップＳ４０２で取得されたスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の高周波数のスペクトルを切り詰める処理を行う。
【００３２】
（ステップＳ４０４）特徴量取得部１５は、ステップＳ４０３で切り詰める処理を行ったスペクトルまたはスペクトル包絡から１以上の特徴量を取得する。
【００３３】
（ステップＳ４０５）特徴量蓄積部１６は、ステップＳ４０４で取得された１以上の特徴量を特徴量格納部１２に蓄積し、処理を終了する。
【００３４】
以下、本実施の形態における音声処置装置１がいかに効果的であるかを、実験例を紹介して説明する。なお、本実験例では、音声処置装置１を用いて生成した１以上の特徴量から音響モデルを生成し、当該音響モデルを用いて音声合成を行った。
【００３５】
本実験で使用する音声は、イギリス英語コーパスに含まれる標本化周波数１６ｋＨｚのデータ（以下１６ｋＨｚ音声という）と、標本化周波数４８ｋＨｚの音声（４８ｋＨｚ音声）である。なお、この１６ｋＨｚ音声は、４８ｋＨｚ音声に対してＡＡＦを含むダウンサンプリングを適用して得ている。ダウンサンプリングは、ごく一般的に利用されるソフトウェア(Edinburgh Speech Tools Library: http://www.cstr.ed.ac.uk/projects/speech tools/)によってなされている。
【００３６】
また、本実験において、スペクトル特徴量は３９次のメルケプストラムである。メルケプストラムは、音声信号処理ツールキット(SPTK)のmgcepコマンドを使って、STRAIGHT分析によって得られたスペクトル包絡(以下STRAIGHTスペクトル)から、特徴量取得部１５が計算して、取得できる。
【００３７】
有声区間の典型的な対数パワースペクトルを図５に示す。図５において、横軸は周波数、縦軸は対数パワーである。また、図５の太破線（ＣＥＰＳ−ＴＤ）は１６ｋＨｚ音声のメルケプストラムから再構成したパワースペクトルであり、細実線（ＳＰＥＣ４８ｋ）は対応する４８ｋＨｚ音声のSTRAIGHTスペクトルである。同図から明らかなように、１６ｋＨｚ音声のスペクトル（ＣＥＰＳ−ＴＤ）はローパスフィルターの特性の影響でナイキスト周波数（８ｋＨｚ）付近のエネルギーが乏しい。また、４〜６ｋＨｚのスペクトル起伏が４８ｋＨｚ音声のスペクトルに比べて平坦化している。こうした高周波数領域においてエネルギーが不足し、起伏が平坦化したスペクトルのメルケプストラムを音声合成の特徴量とすれば、合成音声の品質が劣化することは明らかである。これが従来技術の音声合成法の音声品質の劣化原因の一つである。
【００３８】
一方、図５の太実線（ＣＥＰＳ−ＳＴ）は、本発明に基づいて４８ｋＨｚ音声から生成した（サンプリング周波数１６ｋＨｚの音声相当の）メルケプストラムから再構成したパワースペクトルである。このスペクトルは、ナイキスト周波数（８ｋＨｚ）付近および４〜６ｋＨｚのパワーが、４８ｋＨｚ音声のSTRAIGHTスペクトル（ＳＰＥＣ４８ｋ）と一致している。こうしたスペクトルを表わすメルケプストラムを音声合成の特徴量とすれば、高い品質の音声合成が可能となる。
【００３９】
次に、本実験において、上述の実施形態に基づいて得られたスペクトル特徴量を用いてＨＭＭを学習し、学習したＨＭＭから音声を合成する。そして、合成した音声について調べ、本発明の効果を確認する。
【００４０】
本実験において、まず、以下の２つの異なるメルケプストラムを用いて別個にモデルを学習した。
（１）１６ｋＨｚ音声から計算したメルケプストラム（従来技術）
（２）４８ｋＨｚ音声から本発明の音声処置装置によって得たメルケプストラム
【００４１】
なお、上記（１）および（２）を特徴量としてそれぞれＨＭＭを学習する際、特徴量作成以外の条件は同一である。これらモデルを用いて合成した音声スペクトルを図６に示す。図６において、横軸は周波数、縦軸は対数パワーである。また、上記（１）の特徴量から学習したモデルを用いて合成した音声スペクトル（従来技術による音声スペクトル）は図６のＣＥＰＳ−ＴＤ、上記（２）の特徴量から学習したモデルを用いて合成した音声スペクトル（本発明による音声スペクトル）は図６のＣＥＰＳ−ＳＴである。
【００４２】
図６から明らかなように、本発明を適用したＨＭＭ音声合成の合成音声は、従来技術に比べて、高周波数領域（７〜８ｋＨｚ）のスペクトル・エネルギーが大幅に改善しているとともに、全周波数帯域にわたって、フォルマントやアンチフォルマントの平坦化の度合いが少ない。従来技術の合成音声のようにスペクトルが平坦化すると、音声品質は劣化し、音声はこもったように知覚される。したがって本発明を用いれば、そうした劣化を緩和または回避することができる。
【００４３】
そこで、次に、上記のようなパワースペクトルをもつ音声が、人間の耳にどのように知覚されるかを調べるために、合成音声の自然性について聴取評価試験を行った。
【００４４】
聴取試験の評定者は音声研究者５名で、各評定者は２つのシステムが音声合成した１０文を評価する。評価スケールは、１('completely unnatural')から５('completely natural')の５段階で、試験は静かな部屋でヘッドフォンを用いて行われた。
【００４５】
また、本試験に関わるスペクトル特徴量抽出、ＨＭＭ学習、および音声合成の詳細を図７に示す。
【００４６】
以下、２つのシステムの処理手順を明記する。システム１の処理手順は、従来技術の処理手順である。つまり、システム１では、（予めダウンサンプリング処理が施された）１６ｋＨｚで標本化された音声のスペクトル包絡をSTRAIGHT分析によって取得し、当該スペクトル包絡から計算したメルケプストラムをスペクトル特徴量とした学習を行い、ＨＭＭの音響モデルを構築した。そして、当該ＨＭＭの音響モデルを用いて、音声合成を行った。
【００４７】
また、システム２では、STRAIGHT分析を用いて４８ｋＨｚで標本化された音声のスペクトル包絡を取得し、当該スペクトル包絡に対して、音声処置装置１の本発明に基づく「スペクトル切り詰め処理」を行った。そして、スペクトル切り詰め処理を行った後のスペクトル包絡から計算したメルケプストラムを、スペクトル特徴量とした学習を行い、ＨＭＭの音響モデルを構築した。そして、当該ＨＭＭの音響モデルを用いて、音声合成を行った。
【００４８】
図８に、聴取試験の結果の平均オピニオンスコア（ＭＯＳ）を示す。１６ｋＨｚ音声を用いたシステム１（従来技術）はスコア２．５で、システム２（本発明）はスコア２．９となった。
【００４９】
これらの結果から次のことがわかる。ダウンサンプリング時に用いたＡＡＦのフィルター特性の悪影響は、本発明の音声処置装置１を用いることで回避可能であり、実際に聴感上、合成音声にＭＯＳ０．４相当の顕著な自然性の改善が見られた。
【００５０】
以上の実験結果から明白なように、本実施の形態によれば、音声合成において、高い品質の出力音声が得られる特徴量を取得できる。
【００５１】
なお、本実施の形態における音声処置装置１が生成した１以上の特徴量は、音声合成だけではなく、同種の特徴量を取り扱う他の音声技術（例えば音声認識や話者認識）等にも利用可能であり、そうした音声技術の性能向上にも貢献できる。
【００５２】
また、音声合成処理のために与える情報は、テキストに限定されず、発音などを記した記号列やSpeech Synthesis Markup Language (ＳＳＭＬ)のようなマークアップ言語、また、それらのバイナリデータ等であってもよい。つまり、音声合成処理のために与える情報は、音声合成する内容を示す情報であれば何でも良く、かかる情報を合成内容情報ということとする。
【００５３】
また、音声処置装置１が生成した１以上の特徴量から音声のモデルを学習するモデル作成装置２が構成可能である。モデル作成装置２のブロック図の例は、以下の図９である。モデル作成装置２は、モデル格納部２１、特徴量格納部１２、およびモデル学習部２２を具備する。
【００５４】
モデル格納部２１は、音声のモデルを格納し得る。音声のモデルとは、従来技術の説明で示したように、声質や発話スタイルなどに関連する音声の特徴をモデル化したものをいい、例えば、各音素（または前後の音素環境を考慮した音素）毎に特徴量の時系列的なパターンをモデル化したものである。音声のモデルは、例えば、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータが好適であるが、他のモデルに基づくデータでも良い。
【００５５】
モデル学習部２２は、１以上の特徴量から音声のモデルを構成し、モデル格納部２１に蓄積する。なお、１以上の特徴量から音声のモデルを構成する技術は、例えば、図１４に示すＨＭＭ学習である。つまり、１以上の特徴量（例えば、メルケプストラム）に対してＨＭＭ学習を行いＨＭＭの音響モデルを取得する。なお、モデル学習部２２の処理は公知技術であるので、詳細な説明を省略する。
【００５６】
また、モデル作成装置２が生成した音声のモデルを用いた音声合成装置３が構成可能である。音声合成装置３のブロック図の例は、以下の図１０である。音声合成装置３は、モデル格納部２１、受付部３１、音声生成部３２、出力部３３を備える。
【００５７】
受付部３１は、合成内容情報を受け付ける。合成内容情報とは、上述したように、音声合成する内容を示す情報であり、テキストに限定されず、発音などを記した記号列やＳＳＭＬのようなマークアップ言語、また、それらのバイナリデータ等であってもよい。ここで、受け付けとは、キーボードやマウスなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。合成内容情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部３１は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【００５８】
音声生成部３２は、受付部３１が受け付けた合成内容情報に対して、モデル格納部２１の音声のモデルを用いて、音声（合成音声）を生成する。音声生成部３２は、例えば、図１４の音声特徴量生成と音声信号生成により、合成音声を取得する。つまり、音声生成部３２は、音声のモデルに対して音声特徴量の生成処理を行い、音声特徴量（ここでは、メルケプストラム）を生成する。また、音声生成部３２は、音声特徴量を用いて音声信号の生成処理を行い、合成音声を取得する。なお、音声生成部３２の処理は公知技術であるので、詳細な説明を省略する。音声生成部３２は、通常、ＭＰＵやメモリ等から実現され得る。音声生成部３２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００５９】
出力部３３は、音声生成部３２が生成した音声を出力する。ここで出力とは、スピーカー等による音声出力、オーディオデバイスへの書き込みのほか、ＨＤＤや記録メディア上のファイルへの書き出し、他アプリケーションへの音声データの受け渡し等を含む概念である。出力部３３は、例えば、スピーカー等から実現され得る。
【００６０】
（実施の形態２）
【００６１】
本実施の形態において、実施の形態１で説明した音声処置装置１が生成した１以上の特徴量を用いた音声合成装置４について説明する。
【００６２】
音声合成装置４のブロック図の例は、以下の図１１である。なお、音声合成装置４は、特徴量格納部１２を除いて、公知技術でも良い。
【００６３】
音声合成装置４は、特徴量格納部１２、受付部３１、音声生成部４２、出力部３３を備える。
【００６４】
音声生成部４２は、受付部３１が受け付けた合成内容情報に対して、特徴量格納部１２の１以上の特徴量を用いて、音声を生成する。音声生成部４２は、１以上の特徴量から直接に音声を生成する。音声生成部４２は、さまざまな方法で実現可能であるが、本実施の形態では、音声素片接続タイプの音声生成方法で実現されている。すなわち、前記特徴量は所定の合成単位（例えばダイフォーン）で、音声素片として特徴量格納部１２に保持されており、音声生成部４２は前記文字情報にしたがって、音声素片を特徴量格納部１２から取り出し順次接続して、所望の音声の特徴量時系列を生成する。その後、音声生成部４２は当該特徴量時系列を音声に変換する。音声生成部４２のこうした手法も公知技術であるので、詳細な説明を省略する。音声生成部４２は、通常、ＭＰＵやメモリ等から実現され得る。音声生成部４２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００６５】
また、音声処置装置１とモデル作成装置２とを一の装置で実現しても良いことは言うまでもない。かかる場合の装置（音声処置装置）は、音声格納部１１、特徴量格納部１２、スペクトル取得部１３、切詰処理部１４、特徴量取得部１５、特徴量蓄積部１６、音響モデル格納部２１、およびモデル学習部２２を具備する。
【００６６】
また、例えば、音声処置装置１とモデル作成装置２と音声合成装置３とを一の装置で実現しても良いことは言うまでもない。かかる場合の装置（音声処置装置）は、音声格納部１１、特徴量格納部１２、スペクトル取得部１３、切詰処理部１４、特徴量取得部１５、特徴量蓄積部１６、音響モデル格納部２１、モデル学習部２２、受付部３１、音声生成部３２、および出力部３３を具備する。
【００６７】
また、例えば、音声処置装置１と音声合成装置４とを一の装置で実現しても良いことは言うまでもない。かかる場合の装置（音声処置装置）は、音声格納部１１、特徴量格納部１２、スペクトル取得部１３、切詰処理部１４、特徴量取得部１５、特徴量蓄積部１６、受付部３１、音声生成部４２、および出力部３３を具備する。
【００６８】
さらに、上記実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、前記スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から１以上の特徴量を取得する特徴量取得部と、前記特徴量取得部が取得した１以上の特徴量を記憶媒体に蓄積する特徴量蓄積部として機能させるためのプログラム、である。
【００６９】
また、図１２は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声処置装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１２は、このコンピュータシステム３００の概観図であり、図１３は、システム３００のブロック図である。
【００７０】
図１２において、コンピュータシステム３００は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４と、スピーカー３０６とを含む。
【００７１】
図１３において、コンピュータ３０１は、ＦＤドライブ３０１１、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、当該ＭＰＵ３０１３、ＣＤ−ＲＯＭドライブ３０１２及びＦＤドライブ３０１１に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３０１５と、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。
【００７２】
コンピュータシステム３００に、上述した実施の形態の音声処置装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１、またはＦＤ３１０２に記憶されて、ＣＤ−ＲＯＭドライブ３０１２またはＦＤドライブ３０１１に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１、ＦＤ３１０２またはネットワークから直接、ロードされても良い。
【００７３】
プログラムは、コンピュータ３０１に、上述した実施の形態の音声処置装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。
【００７４】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【００７５】
また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【００７６】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【００７７】
以上のように、本発明にかかる音声処置装置は、音声合成において、高い品質の出力音声が得られる特徴量を取得できる、という効果を有し、音声合成装置等として有用である。
【符号の説明】
【００７８】
１音声処置装置
２モデル作成装置
３、４音声合成装置
１１音声格納部
１２特徴量格納部
１３スペクトル取得部
１４切詰処理部
１５特徴量取得部
１６特徴量蓄積部
２１モデル格納部
２２モデル学習部
３１受付部
３２、４２音声生成部
３３出力部

【特許請求の範囲】
【請求項１】
音声を格納し得る音声格納部と、
１以上の特徴量を格納し得る特徴量格納部と、
前記音声格納部に格納されている音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、
前記スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、
前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から１以上の特徴量を取得する特徴量取得部と、
前記特徴量取得部が取得した１以上の特徴量を前記特徴量格納部に蓄積する特徴量蓄積部とを具備する音声処置装置。
【請求項２】
音声のモデルを格納し得るモデル格納部と、
請求項１記載の音声処置装置により蓄積された１以上の特徴量を格納している特徴量格納部と、
前記１以上の特徴量から音声のモデルを構成し、前記音響モデル格納部に蓄積するモデル学習部とを具備するモデル作成装置。
【請求項３】
請求項２記載のモデル作成装置により取得された音声のモデルを格納し得るモデル格納部と、
音声合成する内容を示す情報である合成内容情報を受け付ける受付部と、
前記合成内容情報に対して、前記モデル格納部の音声のモデルを用いて、音声を生成する音声生成部と、
前記音声生成部が生成した音声を出力する出力部とを具備する音声合成装置。
【請求項４】
請求項１記載の音声処置装置により蓄積された１以上の特徴量を格納している特徴量格納部と、
音声合成する内容を示す情報である合成内容情報を受け付ける受付部と、
前記合成内容情報に対して、前記特徴量格納部の１以上の特徴量を用いて、音声を生成する音声生成部と、
前記音声生成部が生成した音声を出力する出力部とを具備する音声合成装置。
【請求項５】
スペクトル取得部、切詰処理部、特徴量取得部、特徴量蓄積部により実現され得る特徴量生産方法であって、
前記スペクトル取得部が、音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得ステップと、
前記切詰処理部が、前記スペクトル取得ステップで取得されたスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の高周波数のスペクトルを切り詰める処理を行う切詰処理ステップと、
前記特徴量取得部が、前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から１以上の特徴量を取得する特徴量取得ステップと、
前記特徴量蓄積部が、前記特徴量取得ステップで取得された１以上の特徴量を記憶媒体に蓄積する特徴量蓄積ステップとを具備する音声特徴量の生産方法。
【請求項６】
コンピュータを、
音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、
前記スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、
前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から１以上の特徴量を取得する特徴量取得部と、
前記特徴量取得部が取得した１以上の特徴量を記憶媒体に蓄積する特徴量蓄積部として機能させるためのプログラム。

【図１】