パラメータ抽出装置、音声合成システム

【課題】音声合成によって生成される合成音に対する発声者の特徴を多様化すること。
【解決手段】音声パラメータ登録処理では、対象楽曲の演奏期間中に入力された音声波形を処理の対象とする。その音声波形に基づく音声波形データＳＶを、当該対象楽曲のメロディラインを構成する各出力音の演奏期間に対応し、発声内容に含まれる音節毎に分割して音節波形を生成する（Ｓ１４０）と共に、各音節波形から音声パラメータＰＭを導出する（Ｓ１５０）。さらに、対象楽曲において同一の調が継続する期間（即ち、調同一区間）それぞれを特定し、各調同一区間における調（調性）を特定して、その特定した調からイメージされる感情として予め規定された音声の性質をメタデータとして特定する（Ｓ１６０）。その上で、対応する音節毎に、音声パラメータＰＭと、メタデータとを対応付けて、データ格納サーバに格納する（Ｓ１７０）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声合成を実行する音声合成システム、及び音声合成に必要な音声パラメータを音声から抽出するパラメータ抽出装置に関する。
【背景技術】
【０００２】
従来、音声合成装置では、外部から入力されたテキスト、かつ外部操作によって指定された感情を表す音声を音声合成によって生成して出力することがなされている（特許文献１参照）。
【０００３】
これを実現するために、特許文献１に記載の音声合成装置では、言語属性ベクトルと、音響属性ベクトルと、感情ベクトルとから構成される感情表出パターンを複数個蓄積している。そして、蓄積されている複数個の感情表出パターンの中から、外部入力によって指定された感情に最も近い感情が表された感情表出パターンを抽出し、その抽出した感情表出パターンに従って、入力されたテキストに対して音声合成を行う。
【０００４】
なお、特許文献１において、言語属性ベクトルとは、話者と聴取者の社会的関係性を構築する属性を示すものであり、言語的内容、意味あるいは概念のもつ好悪のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。また、音響属性ベクトルとは、話者と聴取者の社会的関係性を表現するのに用いられている音響的特徴量を示すものであり、音響的特徴として平均ピッチやピッチのダイナミックレンジ、声門開放度のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。感情ベクトルは、話者と聴取者の社会的関係性を示すものであり、音声全体として表現されている感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００７−１８３４２１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
ところで、特許文献１に記載された音声合成装置から出力される合成音は、予め用意された一つの標準的声質の音声パラメータを、感情表出パターンに従って音声合成（変更）したものである。
【０００７】
したがって、特許文献１に記載された音声合成装置では、当該音声合成装置から出力する合成音によって表現される感情を変更して多様化できるものの、当該合成音を発声した人物の性別や、年齢、声質を多様なものとすることは困難である。
【０００８】
つまり、特許文献１に記載された音声合成装置では、一つの標準的声質の音声パラメータに基づいて音声合成しているため、合成音として出力する音に対する発声者の特徴を多様化させることが困難であるという問題があった。
【０００９】
そこで、本発明は、音声合成によって生成される合成音に対する発声者の特徴を多様化することを目的とする。
【課題を解決するための手段】
【００１０】
上記目的を達成するためになされた本発明のパラメータ抽出装置では、内容情報取得手段が、発声すべき内容の文字列を表す発声内容情報を取得し、タイミング情報取得手段が、内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字列のうち、少なくとも一つの文字の発声開始タイミングを指定する発声タイミング情報を取得し、波形取得手段が、特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する。
【００１１】
そして、音節波形抽出手段では、少なくとも、タイミング情報取得手段で取得した発声タイミング情報に基づいて、波形取得手段で取得した対象波形から、特定内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音節波形を抽出する。さらに、パラメータ導出手段が、その抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出する。
【００１２】
また、メタデータ生成手段では、特定内容情報、及びタイミング情報取得手段で取得した発声タイミング情報に基づいて、音節波形によって表される音声の性質を推定し、その推定結果をメタデータとして生成し、パラメータ登録手段が、パラメータ導出手段で導出された音声パラメータと、メタデータ生成手段で生成されたメタデータとを対応する音節ごとに対応付けて、第一記憶装置に記憶する。
【００１３】
なお、本発明における音声パラメータとしての特徴量は、フォルマント合成による音声合成を実行する際に必要となる特徴量であり、例えば、基本周波数や、メル周波数ケプストラム（ＭＦＣＣ）、パワーなど、及びそれらの各時間差分などを含む。
【００１４】
このようなパラメータ抽出装置によれば、発声内容情報によって表される文字列の内容を多くの人物に発声させた各対象波形から音声パラメータを導出することで、多様な発声者の音声パラメータを導出できる。この結果、本発明のパラメータ抽出装置によれば、音声パラメータの種類を多様化できる。
【００１５】
また、本発明のパラメータ抽出装置では、特定内容情報及び発声タイミング情報に基づいて、メタデータを自動的に推定できる。このため、本発明のパラメータ抽出装置によれば、従来の音声合成装置とは異なり、発声内容情報によって表される文字列の内容を発声するときに、メタデータとしての当該音声の性質を、利用者らに入力させる必要を無くすことができる。
【００１６】
以上のことから、本発明のパラメータ抽出装置にて抽出した音声パラメータを用いて、音声合成すれば、その合成音を発声したとみなせる発声者の特徴を多様化できる。
また、本発明における音声の性質とは、当該音声が発声されたときの発声者の感情を少なくとも含むものであり、例えば、情緒や、雰囲気などを含む概念である。さらに、音声の性質には、感情を推定するために必要な情報を含んでも良い。
【００１７】
また、本発明のパラメータ抽出装置においては、楽譜データ取得手段が、楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データを取得する。
【００１８】
そして、本発明における内容情報取得手段は、対象楽曲の歌詞を構成する歌詞構成文字の文字列を、発声内容情報として取得し、タイミング情報取得手段は、歌詞構成文字の少なくとも１つに対する出力タイミングが、当該歌詞構成文字に対応する出力音の演奏開始タイミングと対応付けられた歌詞出力タイミングを、発声タイミング情報として取得する。このとき、本発明における波形取得手段は、楽譜データに基づく対象楽曲の演奏中に入力された音声が時間軸に沿って推移した波形を、対象波形として取得し、音節波形抽出手段は、対象波形において、個々の出力音に対応する区間での音声波形を、音節波形として抽出しても良い。
【００１９】
このようなパラメータ抽出装置によれば、楽譜データに基づいて対象楽曲を演奏している期間に音声が入力されるカラオケ装置などを利用して音声波形を収集することができる。
【００２０】
そして、このようなパラメータ抽出装置によれば、カラオケ装置などにおいて歌唱した音声から、音素パラメータを生成することができる。
一般的に、楽曲における調が、長調であれば明るい印象を受け、単調であれば悲しい印象を受ける。これと同様に、歌詞も、楽曲の調が長調であるときには、明るい印象の歌詞が多く、楽曲の調が単調であるときには、悲しい印象の歌詞が多い。
【００２１】
そこで、本発明における楽譜データは、対象楽曲の曲中において転調していれば、時間軸に沿って対象楽曲が転調した時刻を表す転調フラグを含んでも良い。
この場合、本発明のメタデータ生成手段では、楽譜データ取得手段で取得した楽譜データに基づいて、区間特定手段が、対象楽曲において同一の調が継続される各区間である調同一区間を特定し、主音特定手段が、区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する。そして、音名頻度導出手段が、区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、主音特定手段で特定した主音の音名を起点として調同一区間毎に導出すると、調推定手段が、各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに、音名頻度導出手段で導出した各登場音名頻度を照合した結果、最も相関が高い調それぞれを、メタデータとする。
【００２２】
このようなパラメータ抽出装置であれば、対象楽曲における各調同一区間の調をメタデータとすることができ、ひいては、各調同一区間に対応する歌詞を発声したときの発声者の感情をメタデータとすることができる。しかも、このような調特定手段によれば、各調同一区間における調を確実に特定することができる。
【００２３】
さらに、本発明におけるメタデータ生成手段では、単語分割手段が、内容情報取得手段で取得した発声内容情報によって表される文字列を、単語を構成する文字列である単語文字ごとに分割し、メタデータ抽出手段が、単語分割手段で分割された各単語文字によって表される単語に対応する性質情報をメタデータとして、単語性質テーブルから抽出しても良い。
【００２４】
このようなパラメータ抽出装置によれば、各単語の性質をメタデータとすることができる。
なお、本発明における単語性質テーブルとは、各単語の性質を表す性質情報を、当該単語の識別情報と対応付けたテーブルであり、予め用意されたものである。さらに、ここでいう単語の性質とは、当該単語の意味や、当該単語によって表される感情を含むものである。
【００２５】
さらには、本発明における内容情報取得手段は、少なくとも一つの文を構成する文字列である文構成文字を、発声内容情報として取得しても良い。この場合、タイミング情報取得手段は、文構成文字を構成する少なくとも一つの文字を、外部に出力する出力タイミングが表された情報を、発声タイミング情報として取得し、波形取得手段は、発声内容情報に基づく文構成文字を構成する文字列の出力中に入力された音声が時間軸に沿って推移した波形を対象波形として取得しても良い。
【００２６】
このようなパラメータ抽出装置によれば、文を読み上げたときの音声波形を対象波形として取得できる。すなわち、本発明のパラメータ抽出装置によれば、いわゆるアフレコ機能を有するカラオケ装置などを介して対象波形を取得できる。
【００２７】
なお、ここでいう文字を外部に出力とは、少なくとも、文字を表示することを含む。
ところで、本発明は、音声合成システムとしてなされていても良い。
この場合、本発明の音声合成システムは、パラメータ抽出装置と、合成音出力装置とを備えることが望ましい。
【００２８】
このうち、パラメータ抽出装置は、内容情報取得手段と、タイミング情報取得手段と、波形取得手段と、音節波形抽出手段と、パラメータ導出手段と、メタデータ生成手段と、パラメータ登録手段とを有し、パラメータ分析手段が、第一記憶装置に記憶された音声パラメータを、当該音声パラメータと対応付けられたメタデータ毎にデータ解析して、メタデータに対応する各音声パラメータの範囲を表すメタデータ対応テーブルを生成して、第二記憶装置に記憶しても良い。
【００２９】
さらに、合成音出力装置では、出力性質情報取得手段が、外部から入力され、音の性質を表す出力性質情報を取得し、文言取得手段が、外部から入力された文言を表す出力文言を取得する。そして、テーブル取得手段が、出力性質情報取得手段で取得した出力性質情報に対応するメタデータを含むメタデータ対応テーブルを第二記憶装置から取得すると共に、出力性質情報に対応する情報を有した音声パラメータを第一記憶装置から取得する。
【００３０】
すると、音声合成手段が、文言取得手段で取得した出力文言となるように、テーブル取得手段で取得した音声パラメータをメタデータ対応テーブルに従って音声合成し、出力手段が、音声合成手段にて音声合成することで生成された合成音を出力する。
【００３１】
このような音声合成システムによれば、メタデータ対応テーブル及び音声パラメータに基づいて、多様な合成音を生成することができる。
すなわち、本発明の音声合成システムよれば、合成音を発声したとみなせる発声者の特徴を多様化できる。
【図面の簡単な説明】
【００３２】
【図１】音声合成システムの全体構成を示すブロック図である。
【図２】音声パラメータ登録処理の処理手順を示すフローチャートである。
【図３】第一実施形態におけるメタデータ推定処理の処理手順を示すフローチャートである。
【図４】メタデータ推定処理の処理内容を示す図である。
【図５】メタデータ推定処理の処理内容を示す図である。
【図６】メタデータ推定処理の処理内容を示す図である。
【図７】第一実施形態における音声パラメータ登録処理の概要を示す図である。
【図８】音声分析処理の処理手順を示すフローチャートである。
【図９】メタデータ対応テーブルを例示する図である。
【図１０】音声合成処理の処理手順を示すフローチャートである。
【図１１】第二実施形態におけるメタデータ推定処理の処理手順を示すフローチャートである。
【図１２】第二実施形態における音声パラメータ登録処理の概要を示す図である。
【発明を実施するための形態】
【００３３】
以下に本発明の実施形態を図面と共に説明する。
［第一実施形態］
〈音声合成システムについて〉
図１は、本発明が適用された音声合成システムの概略構成を示す図である。
【００３４】
本発明が適用された音声合成システム１は、当該音声合成システム１の利用者が指定した内容の音声が出力されるように、予め登録された音声パラメータに基づいて音声合成した音声（即ち、合成音）を出力するシステムである。
【００３５】
これを実現するために、音声合成システム１は、音声を入力する音声入力装置１０と、音声入力装置１０を介して入力された音声（以下、音声波形データＳＶと称す）及びカラオケの用途に用いられる各種データ（以下、音楽データＭＤと称す）を格納するＭＩＤＩ格納サーバ２５と、ＭＩＤＩ格納サーバ２５に格納されている音声波形データＳＶ及び音楽データＭＤに基づいて、少なくとも音声パラメータを生成する処理を実行する情報処理装置３０とを備えている。さらに、音声合成システム１は、情報処理装置３０にて生成された音声パラメータを格納するデータ格納サーバ５０と、データ格納サーバ５０に格納されている音声パラメータに基づいて音声合成した合成音を出力する音声出力端末６０とを備えている。なお、本実施形態における音声合成システム１は、音声出力端末６０を複数台備えている。
【００３６】
すなわち、本実施形態の音声合成システム１においては、情報処理装置３０が、ＭＩＤＩ格納サーバ２５に格納されている音声波形データＳＶ及び音楽データＭＤに基づいて、少なくとも音声パラメータＰＭを生成してデータ格納サーバ５０に格納する。そして、音声出力端末６０は、当該音声出力端末６０を介して、利用者が指定した内容の音声が出力されるように、データ格納サーバ５０に格納された音声パラメータＰＭに基づいて音声合成した合成音を出力する。
【００３７】
なお、ここで言う音声パラメータＰＭとは、詳しくは後述するが、いわゆるフォルマント合成に用いる音声の特徴量であり、例えば、発声音声における各音節での基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、及びそれらの時間差分を含むものである。
〈ＭＩＤＩ格納サーバについて〉
まず、ＭＩＤＩ格納サーバ２５は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して、音声入力装置１０に接続されている。
【００３８】
このＭＩＤＩ格納サーバ２５には、少なくとも、楽曲ごとに予め用意された音楽データＭＤが格納されている。この音楽データＭＤには、楽曲ＭＩＤＩデータＤＭ（特許請求の範囲における楽譜データに相当）と、歌詞データ群ＤＬとが含まれ、これら楽曲ＭＩＤＩデータＤＭと歌詞データ群ＤＬとは、それぞれ対応する楽曲ごとに対応付けられている。
【００３９】
このうち、楽曲ＭＩＤＩデータＤＭは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表すデータであり、楽曲ごとに予め用意されている。この楽曲ＭＩＤＩデータＤＭの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックと、当該楽曲において調が変化する時刻を表す変調フラグとを少なくとも有している。
【００４０】
そして、楽譜トラックには、ＭＩＤＩ音源から出力される個々の出力音について、少なくとも、音高（いわゆるノートナンバー）と、音源モジュールが出力音を出力する期間（以下、音符長）とが規定されている。ただし、楽譜トラックの音符長は、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。
【００４１】
なお、楽譜トラックは、例えば、鍵盤楽器（例えば、ピアノやパイプオルガンなど）、弦楽器（例えば、バイオリンやビオラ、ギター、ベースギター、琴など）、打楽器（例えば、ヴィブラフォンや、ドラム、シンバル、ティンパニー、木琴など）、及び管楽器（例えば、クラリネットやトランペット、フルート、尺八など）などの楽器ごとに用意されている。
【００４２】
一方、歌詞データ群ＤＬは、周知のカラオケ装置を構成する表示装置に表示される歌詞に関するデータであり、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す歌詞テロップデータＤＴと、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲ＭＩＤＩデータＤＭの演奏と対応付けるタイミング対応関係が規定された歌詞出力データＤＯとを備えている。
【００４３】
具体的に、本実施形態におけるタイミング対応関係は、楽曲ＭＩＤＩデータＤＭの演奏を開始するタイミングに、歌詞テロップデータＤＴの出力を開始するタイミングが対応付けられた上で、特定楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲ＭＩＤＩデータＤＭの演奏を開始からの経過時間によって規定されている。なお、ここでいう経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。また、ここでいう歌詞構成文字は、歌詞を構成する文字の各々であっても良いし、その文字の各々を時間軸に沿った特定の規則に従って一群とした文節やフレーズであっても良い。
〈音声入力装置の構成について〉
次に、音声入力装置１０について説明する。
【００４４】
音声入力装置１０は、通信部１１と、入力受付部１２と、表示部１３と、音声入力部１４と、音声出力部１５と、音源モジュール１６と、記憶部１７と、制御部２０とを備えている。すなわち、本実施形態における音声入力装置１０は、いわゆる周知のカラオケ装置として構成されている。
【００４５】
このうち、通信部１１は、通信網（例えば、公衆無線通信網やネットワーク回線）を介して、音声入力装置１０が外部との間で通信を行う。入力受付部１２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器（例えば、キーやスイッチ、リモコンの受付部など）である。
【００４６】
表示部１３は、少なくとも、文字コードで示される情報を含む画像を表示する表示装置（例えば、液晶ディスプレイやＣＲＴ等）である。また、音声入力部１４は、音を電気信号に変換して制御部２０に入力する装置（いわゆるマイクロホン）である。音声出力部１５は、制御部２０からの電気信号を音に変換して出力する装置（いわゆるスピーカ）である。さらに、音源モジュール１６は、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって規定されたデータに基づいて、音源からの音を模擬した音（即ち、出力音）を出力する装置（例えば、ＭＩＤＩ音源）である。
【００４７】
記憶部１７は、記憶内容を読み書き可能に構成された不揮発性の記憶装置（例えば、ハードディスク装置や、フラッシュメモリ）である。
また、制御部２０は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するＲＯＭ２１と、処理プログラムやデータを一時的に格納するＲＡＭ２２と、ＲＯＭ２１やＲＡＭ２２に記憶された処理プログラムに従って各処理（各種演算）を実行するＣＰＵ２３とを少なくとも有した周知のコンピュータを中心に構成されている。
【００４８】
そして、ＲＯＭ２１には、周知のカラオケ演奏処理を制御部が実行する処理プログラムや、カラオケ演奏処理によって対象楽曲が演奏されている期間中に、音声入力部１４を介して入力された音声を音声波形データＳＶとして、当該対象楽曲を識別する楽曲識別情報と対応付けて、ＭＩＤＩ格納サーバ２５に格納する音声格納処理を制御部２０が実行する処理プログラムが記憶されている。
【００４９】
つまり、音声入力装置１０では、カラオケ演奏処理に従って、入力受付部１２を介して指定された一つの楽曲（以下、対象楽曲とする）に対応する音楽データＭＤをＭＩＤＩ格納サーバ２５から取得して、当該音楽データＭＤ中の楽曲ＭＩＤＩデータＤＭに基づいて、対象楽曲を演奏すると共に、当該音楽データＭＤ中の歌詞データ群ＤＬに基づいて対象楽曲の歌詞を表示部１３に表示する。
【００５０】
さらに、音声入力装置１０では、カラオケ演奏処理の実行中に、音声入力部１４を介して入力された音声を音声波形データＳＶとして、当該対象楽曲を識別する楽曲識別情報（ここでは、音楽データＭＤそのもの）及び音声を入力した人物（以下、発声者とする）を識別する発声者識別情報（以下、発声者ＩＤと称す）と対応付けて、ＭＩＤＩ格納サーバ２５に格納する。なお、ＭＩＤＩ格納サーバ２５に格納される音声波形データＳＶには、発声者の特徴を表す発声者特徴情報も対応付けられており、この発声者特徴情報には、例えば、発声者の性別、年齢などを含む。
〈情報処理装置の構成について〉
次に、情報処理装置３０について説明する。
【００５１】
この情報処理装置３０は、通信部３１と、入力受付部３２と、表示部３３と、記憶部３４と、制御部４０とを備えている。
このうち、通信部３１は、通信網（例えば、公衆無線通信網やネットワーク回線）を介して外部との間で通信を行う。入力受付部３２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器（例えば、キーボードやポインティングデバイス）である。
【００５２】
表示部３３は、画像を表示する表示装置（例えば、液晶ディスプレイやＣＲＴ等）である。
記憶部３４は、記憶内容を読み書き可能に構成された不揮発性の記憶装置（例えば、ハードディスク装置や、フラッシュメモリ）である。また、制御部４０は、ＲＯＭ４１、ＲＡＭ４２、ＣＰＵ４３を少なくとも有した周知のコンピュータを中心に構成されている。
【００５３】
そして、情報処理装置３０のＲＯＭ４１には、ＭＩＤＩ格納サーバ２５に格納されている音声波形データＳＶ及び音楽データＭＤに基づいて生成した音声パラメータＰＭを、当該音声パラメータＰＭの生成源である音声の性質を表すメタデータと対応付けてデータ格納サーバ５０に格納する音声パラメータ登録処理を制御部４０が実行するための処理プログラムが記憶されている。
【００５４】
さらに、情報処理装置３０のＲＯＭ４１には、音声パラメータ登録処理によってデータ格納サーバ５０に格納された音声パラメータＰＭを統計処理した結果に基づいて、メタデータに対応する音声パラメータＰＭの傾向を表すメタデータ対応テーブル（以下、表情テーブルＴＤと称す）を、当該音声パラメータＰＭと対応付けられたメタデータの種類ごとに作成し、データ格納サーバ５０に記憶する音声分析処理を制御部４０が実行するための処理プログラムが記憶されている。
【００５５】
本実施形態において、メタデータとは、当該音声が発声されたときの発声者の感情を少なくとも含む、音声の性質を表すものであり、例えば、情緒や、雰囲気などを含む概念である。さらに、音声の性質には、感情を推定するために必要な情報を含んでも良い。
【００５６】
なお、データ格納サーバ５０は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して情報処理装置３０に接続されている。
〈音声パラメータ登録処理について〉
次に、情報処理装置３０が実行する音声パラメータ登録処理について説明する。
【００５７】
ここで、図２は、音声パラメータ登録処理の処理手順を示すフローチャートである。
この図２に示すように、音声パラメータ登録処理は、起動されると、入力受付部３２を介して指定された楽曲（以下、対象楽曲と称す）の楽曲ＭＩＤＩデータＤＭを取得する（Ｓ１１０）。続いて、対象楽曲の歌詞データ群ＤＬを取得し（Ｓ１２０）、対象楽曲に対応し、かつ入力受付部３２を介して指定された発声者ＩＤに対応する一つの音声波形データＳＶ（特許請求の範囲における対象波形に相当）を取得する（Ｓ１３０）。
【００５８】
さらに、Ｓ１３０で取得した音声波形データＳＶにおいて、当該音声波形データＳＶの発声内容に含まれる音節それぞれに対応する区間での音声波形（以下、音節波形と称す）を特定する（Ｓ１４０）。
【００５９】
具体的に、本実施形態のＳ１４０では、Ｓ１１０で取得した楽曲ＭＩＤＩデータＤＭのうち、歌唱旋律を表す楽譜トラック（以下、メロディトラックと称す）に規定された各出力音の演奏開始タイミング及び演奏終了タイミングを抽出すると共に、各出力音に対応付けられた歌詞構成文字の音節を特定する。そして、音声波形データＳＶにおいて、各出力音の演奏開始タイミングから演奏終了タイミングまでの区間それぞれに対応する区間での音声波形を音節波形として特定する。なお、本実施形態のＳ１４０にて特定される音節波形それぞれは、当該音節波形にて発声した音節の内容と対応付けられたものである。
【００６０】
さらに、音節波形それぞれから音声パラメータＰＭを導出する（Ｓ１５０）。本実施形態のＳ１５０では、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、それらの時間差分を、それぞれ、音声パラメータＰＭとして導出する。これらの基本周波数、ＭＦＣＣ、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、音節波形の時間軸に沿った自己相関、音節波形の周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、ＭＦＣＣであれば、音節波形に対して時間分析窓を適用して、時間分析窓ごとに周波数解析（例えば、ＦＦＴ）をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、音節波形に対して時間分析窓を適用して振幅の二乗した結果を時間方向に積分することで導出すれば良い。
【００６１】
続いて、Ｓ１４０にて特定した各音節波形についてのメタデータを推定するメタデータ推定処理を実行する（Ｓ１６０）。
ここで、メタデータ推定処理について、図３を用いて詳細に説明する。なお、図３は、メタデータ推定処理の処理手順を示したフローチャートである。
【００６２】
このメタデータ推定処理は、起動されると、まず、先のＳ１１０にて取得した楽曲ＭＩＤＩデータに基づいて、対象楽曲において同一の調が継続される各区間である調同一区間を特定する（Ｓ３１０）。具体的に、本実施形態のＳ３１０では、図４に示すように、楽曲ＭＩＤＩデータに含まれる転調フラグに基づき、時間軸に沿って互いに隣接する転調フラグの間の区間を、調同一区間として特定する。
【００６３】
続いて、Ｓ３１０にて特定した調同一区間における主音を特定する（Ｓ３２０）。具体的に、本実施形態のＳ３２０では、図５に示すように、調同一区間において、時間軸に沿って最後の出力音を、当該調同一区間における主音として特定する。本実施形態では、Ｓ３１０にて特定した調同一区間のそれぞれについて、主音を特定する。
【００６４】
そして、Ｓ３２０にて特定した主音の音名を起点とし、当該主音が特定された調同一区間に含まれる出力音それぞれの音名を階級とし、各音名の登場回数を度数としたヒストグラム（以下、登場音名頻度と称す）を導出する（Ｓ３３０）。具体的に、本実施形態のＳ３３０にて導出する登場音名頻度は、図６（Ａ）に示すように、調同一区間に含まれる同一音名の出力音の登場回数（登場頻度）を集計したものである。そして、本実施形態においては、オクターブが異なる出力音であっても、音名が同一であれば、同一音名の出力音として集計する。なお、本実施形態では、各調同一区間について、登場音名頻度を導出する。
【００６５】
続いて、Ｓ３３０にて導出した登場音名頻度を、各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに照合した結果に基づいて、当該調同一区間における調を特定する（Ｓ３４０）。具体的に、本実施形態のＳ３４０では、長調の楽曲にて利用可能な音名の分布を表す長調テンプレート（図６（Ｂ）参照）と、短調の楽曲にて利用可能な音名の分布を表す短調テンプレート（図６（Ｃ）参照）とを予め用意し、それぞれの調テンプレートにＳ３３０にて導出した登場音名頻度を照合する。その結果、最も高い相関を示す調テンプレートに対応する調を、当該調同一区間における調として特定する。なお、本実施形態のＳ３４０では、調同一区間のそれぞれについての調を特定する。
【００６６】
さらに、Ｓ３４０で特定した調同一区間における楽曲の調に対応する音声の性質を、メタデータとして特定する（Ｓ３５０）。具体的に、本実施形態のＳ３５０では、調同一区間における調が長調であれば、当該調同一区間での歌詞（即ち、発声内容）が「明るい」という感情を表す音声の性質をメタデータとして特定する。また、調同一区間における調が短調であれば、当該調同一区間での歌詞が「暗い」という感情を表す音声の性質をメタデータとして特定する。なお、本実施形態においては、調同一区間に含まれる全ての音節について、当該調同一区間に対応するメタデータを割り当てている。
【００６７】
そして、その後、音声パラメータ登録処理のＳ１７０へと移行する。
その音声パラメータ登録処理のＳ１７０では、Ｓ１５０にて導出した音声パラメータＰＭと、Ｓ１６０にて推定したメタデータとを、対応する音節毎に対応付けてデータ格納サーバ５０に格納する音声パラメータ登録を実行する（Ｓ１７０）。なお、本実施形態のＳ１７０にてデータ格納サーバ５０に格納される音声パラメータＰＭと対応付けられるデータは、メタデータに加えて、発声した音節の内容（種類）や、発声者ＩＤ、発声者特徴情報を含む。
【００６８】
その後、本音声パラメータ登録処理を終了する。
以上説明したように、図７に示すように、本実施形態の音声パラメータ登録処理では、対象楽曲の演奏期間中に入力された音声波形を処理対象とする。そして、その音声波形に基づく音声波形データＳＶを、当該対象楽曲のメロディラインを構成する各出力音の演奏期間に対応する区間（即ち、発声内容に含まれる各音節）毎に分割して音節波形を生成すると共に、各音節波形から音声パラメータＰＭを導出する。
【００６９】
これと共に、音声パラメータ登録処理では、対象楽曲において同一の調が継続する期間（即ち、調同一区間）それぞれを特定し、各調同一区間における調（調性）を特定する。そして、その特定した調からイメージされる感情として予め規定された音声の性質をメタデータとして特定する。
【００７０】
その上で、音声パラメータ登録処理では、対応する音節毎に、音声パラメータＰＭと、メタデータとを対応付けて、データ格納サーバ５０に格納する。
〈音声分析処理について〉
次に、情報処理装置３０の制御部４０が実行する音声分析処理について、図８を用いて説明する。
【００７１】
この図８に示すように、音声分析処理は、起動されると、まず、同一の内容を表すメタデータ（以下、対象メタデータとする）と対応付けられた全ての音声パラメータ（以下、音声パラメータ群と称す）を、データ格納サーバ５０から取得する（Ｓ４１０）。すなわち、本実施形態のＳ４１０にて取得する音声パラメータ群とは、データ格納サーバ５０に格納された音声パラメータの中で、対象メタデータと対応付けられた全ての音声パラメータＰＭである。さらに、ここでの音声パラメータＰＭには、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、それらの時間差分のそれぞれを含む。
【００７２】
続いて、Ｓ４１０にて取得した音声パラメータ群に基づいて表情テーブルＴＤを生成する（Ｓ４２０）。
具体的に、本実施形態のＳ４２０では、Ｓ４１０にて取得した音声パラメータ群に含まれる各音声パラメータ（即ち、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、それらの時間差分のそれぞれ）について平均値を算出する。そして、その算出した平均値と、Ｓ４１０にて取得した音声パラメータ群に含まれる各音声パラメータＰＭとの差分であるパラメータ差分を、当該音声パラメータＰＭと対応付けられている発声者ＩＤごと、かつ当該音声パラメータＰＭと対応付けられている音節ごとに導出する。
【００７３】
さらに、本実施形態のＳ４２０では、導出したパラメータ差分を、当該パラメータ差分に対応するメタデータ、発声者ＩＤ、及び音節と対応付けることで、表情テーブルＴＤを生成する。すなわち、Ｓ４２０にて生成される表情テーブルＴＤは、図９に示すように、発声者ＩＤごとに、メタデータの内容が分類された上で、音節の内容と、当該音節に対応するパラメータ差分とが対応付けられたものである。
【００７４】
そして、Ｓ４２０にて生成した表情テーブルＴＤを、データ格納サーバ５０に格納する（Ｓ４３０）。
その後、本音声分析処理を終了する。
〈音声出力端末の構成について〉
次に、音声出力端末について説明する（図１参照）。
【００７５】
この音声出力端末６０は、情報受付部６１と、表示部６２と、音出力部６３と、通信部６４と、記憶部６５と、制御部６７とを備えている。本実施形態における音声出力端末６０として、例えば、周知の携帯端末（携帯電話や携帯情報端末）や、周知の情報処理装置（いわゆるパーソナルコンピュータ）を想定しても良い。
【００７６】
このうち、情報受付部６１は、入力装置（図示せず）を介して入力された情報を受け付ける。表示部６２は、制御部６７からの指令に基づいて画像を表示する。音出力部６３は、音を出力する周知の装置であり、例えば、ＰＣＭ音源と、スピーカとを備えている。
【００７７】
通信部６４は、通信網（例えば、公衆無線通信網やネットワーク回線）を介して音声出力端末６０が外部との間で情報通信を行うものである。記憶部６５は、記憶内容を読み書き可能に構成された不揮発性の記憶装置（例えば、ハードディスク装置や、フラッシュメモリ）であり、各種処理プログラムや各種データが記憶される。
【００７８】
また、制御部６７は、ＲＯＭ、ＲＡＭ、ＣＰＵを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声合成処理について〉
次に、音声出力端末６０の制御部６７が実行する音声合成処理について説明する。
【００７９】
ここで、図１０は、音声合成処理の処理手順を示すフローチャートである。
この音声合成処理は、音声出力端末６０の情報受付部６１を介して起動指令が入力されると起動される。
【００８０】
この図１０に示すように、音声合成処理は、起動されると、まず、情報受付部６１を介して入力された情報（以下、入力情報と称す）を取得する（Ｓ５１０）。このＳ５１０にて取得する入力情報とは、例えば、合成音として出力する音声の内容（文言）を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、ここで言う音の性質（即ち、出力性質情報）とは、発声者の性別、発声者の年齢といった、発声者の声の特徴に加えて、発声者が発声したときの感情などメタデータとして規定される情報を含むものである。
【００８１】
続いて、Ｓ５１０にて取得した出力性質情報のうちのメタデータとして規定されるべき感情等の情報に最も類似する情報を含む表情テーブルＴＤを、データ格納サーバ５０から抽出する（Ｓ５２０）。さらに、Ｓ５１０にて取得した出力文言を合成音として出力するために必要な音節それぞれに対応し、かつＳ５１０にて取得した出力性質情報のうちの声の特徴に最も類似する情報を有した音声パラメータＰＭを、データ格納サーバ５０から抽出する（Ｓ５３０）。
【００８２】
そして、Ｓ５１０にて取得した出力文言の内容にて合成音が出力されるように、Ｓ５３０にて取得した音声パラメータＰＭを、Ｓ５２０にて取得した表情テーブルＴＤに従って設定する（Ｓ５４０）。続いて、Ｓ５４０にて設定された音声パラメータＰＭに基づいて、音声合成する（Ｓ５５０）。このＳ５５０における音声合成は、特許文献1の他にもフォルマント合成による周知の音声合成の手法を用いれば良い。
【００８３】
さらに、Ｓ５５０にて音声合成することによって生成された合成音を音出力部６３から出力する（Ｓ５６０）。
その後、本音声合成処理を終了する。
［第一実施形態の効果］
以上説明したように、本実施形態において音声入力装置１０は、カラオケ装置によって構成されている。このため、音声入力装置１０の利用者（即ち、発声者）が歌唱（発声）した結果（音声波形）を音声波形データＳＶとして収集することができ、多くの利用者に歌唱させることで、多数の発声者による多様な音声波形データＳＶを収集できる。
【００８４】
そして、本実施形態における情報処理装置３０では、多くの発声者による多様な音声波形データＳＶから音声パラメータＰＭを導出することで、多様な人物が発声した多様な音声パラメータＰＭを導出できる。すなわち、本実施形態の情報処理装置３０によれば、音声パラメータＰＭを多様化できる。
【００８５】
また、本実施形態における音声パラメータ登録処理のメタデータ推定処理では、音楽データＭＤに基づいてメタデータを自動的に推定できる。このため、本実施形態の音声パラメータ登録処理によれば、特許文献１に記載の音声合成装置とは異なり、対象楽曲を歌唱するときに、メタデータとしての音声の性質を発声者らに入力させる必要を無くすことができる。
【００８６】
そして、本実施形態における音声出力端末６０では、音声パラメータ登録処理にて登録された多様な発声者の音声パラメータＰＭ、及び音声分析処理にて生成された表情テーブルＴＤの中から、入力された出力性質情報に合致する表情テーブルＴＤ、音声パラメータＰＭを抽出して、入力された出力文言が実現されるように音声合成している。
【００８７】
したがって、本実施形態の音声合成システム１によれば、合成音を発声したとみなせる発声者の特徴を多様化できる。
なお、本実施形態のメタデータ推定処理では、対象楽曲における各調同一区間の調によって表される可能性が高い歌唱者の感情をメタデータとしている。すなわち、本実施形態のメタデータ推定処理によれば、各調同一区間に対応する歌詞を発声したときの発声者の感情をメタデータとすることができ、しかも、各調同一区間における調を確実に特定することができる。
［第二実施形態］
次に、本発明の第二実施形態について説明する。
【００８８】
第二実施形態の音声合成システムは、第一実施形態の音声合成システム１とは、主として、メタデータ推定処理の処理内容が異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なるメタデータ推定処理を中心に説明する。
〈メタデータ推定処理について〉
ここで、図１１は、本実施形態のメタデータ推定処理の処理手順を示すフローチャートである。
【００８９】
この図１１に示すように、音声パラメータ登録処理のＳ１６０にて起動されると、先のＳ１２０にて取得した歌詞データ群ＤＬに含まれている歌詞テロップデータＤＴによって表される歌詞を形態素解析する（Ｓ７１０）。すなわち、本実施形態のＳ７１０では、形態素解析を実行することで、歌詞を構成する文字列を、当該歌詞中の単語を構成する文字列である単語文字ごとに分割する。なお、Ｓ７１０にて実行する形態素解析は、周知の処理であるため、ここでの詳しい説明は省略する。
【００９０】
続いて、予め用意された単語性質テーブルが格納された単語メタデータデータベース（図中ＤＢ）１００から、Ｓ７１０の形態素解析した結果である単語毎に単語性質情報を取得する（Ｓ７２０）。ただし、ここで言う単語性質テーブルとは、各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けたテーブルであり、ここ言う単語の性質とは、当該単語の意味や、当該単語によって表される感情を含む。
【００９１】
そして、Ｓ７２０にて取得した単語性質情報をメタデータとして、当該単語を発声した区間に割り当てる（Ｓ７３０）。
その後、本メタデータ推定処理を終了して、音声パラメータ登録処理へと戻る。
【００９２】
以上説明したように、本実施形態のメタデータ推定処理では、図１２に示すように、対象楽曲の歌詞に対して形態素解析を実行し、対象楽曲の歌詞を、単語を構成する文字列である単語文字ごとに分割する。その上で、予め用意された単語メタデータデータベース１００に格納されている単語性質テーブルに含まれる単語性質情報の中から、各単語に対応する単語性質情報を取得し、当該単語性質情報のそれぞれを、対応する音節の音声パラメータＰＭに対するメタデータとしている。
［第二実施形態］
以上説明したように、本実施形態のメタデータ推定処理によれば、発声者が発声した単語の意味や、当該単語によって表される感情などを、メタデータとすることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
【００９３】
例えば、上記実施形態の音声合成処理では、音声入力装置１０がカラオケ演奏処理を実行して対象楽曲を演奏している期間に入力された音声に基づいて音声波形データＳＶを生成していたが、本発明における音声波形データＳＶは、これに限るものではない。
【００９４】
すなわち、本発明では、音声入力装置１０において、カラオケ装置などにて周知のアフレコ機能を用いて、音声波形データＳＶを生成しても良い。つまり、アフレコ機能を有した音声入力装置（カラオケ装置）であれば、発声すべき台詞に関するデータとして、台詞を構成する文字（以下、台詞構成文字と称す）を表す台詞テロップデータ（即ち、歌詞テロップデータと同様のデータ）と、台詞構成文字を表示部１３に表示するタイミングを規定した台詞出力データ（即ち、歌詞出力データと同様のデータ）とを備えている。
【００９５】
よって、アフレコ機能を用いて音声波形データＳＶを取得する場合、音声入力装置１０は、台詞テロップデータに基づく台詞を表示部１３に表示し、当該台詞が表示部１３に表示されている期間に音声入力部１４を介して入力された音声波形を音声波形データＳＶとして、ＭＩＤＩ格納サーバ２５に格納しても良い。
【００９６】
この場合、情報処理装置３０では、アフレコ機能を用いて生成した音声波形データＳＶを音声パラメータ登録処理の処理対象としても良い。つまり、音声パラメータ登録処理においては、Ｓ１１０が省略された上で、Ｓ１２０にて、台詞テロップデータ及び台詞出力データを取得し、Ｓ１４０にて、その取得した台詞テロップデータ及び台詞出力データに基づいて、音節波形を特定すれば良い。このとき、Ｓ１４０にて、音節波形を特定する手法としては、台詞出力データによって規定された台詞構成文字を表示部１３に表示するタイミングにて、音声波形データＳＶにおける当該台詞構成文字が発声されているものとして音節波形を特定すれば良い。
【００９７】
また、上記実施形態では、音声入力装置１０として、カラオケ装置を想定したが、音声入力装置１０として想定する装置は、カラオケ装置に限るものではなく、例えば、周知の携帯端末（携帯電話や携帯情報端末）や、周知の情報処理装置（いわゆるパーソナルコンピュータ）を想定しても良い。
【００９８】
また、上記実施形態の音声合成システムにおいては、ＭＩＤＩ格納サーバ２５が設けられていたが、本発明の音声合成システムにおいては、ＭＩＤＩ格納サーバ２５は設けられていなくとも良い。この場合、音楽データＭＤや音声波形データＳＶは、音声入力装置１０の記憶部１７に格納されても良いし、データ格納サーバ５０に格納されても良いし、さらには、情報処理装置３０の記憶部３４に格納されても良い。
【００９９】
同様に、上記実施形態の音声合成システムにおいては、データ格納サーバ５０が設けられていたが、本発明の音声合成システムにおいては、データ格納サーバ５０は設けられていなくとも良い。この場合、音声パラメータＰＭや表情テーブルＴＤは、情報処理装置３０の記憶部３４に格納されても良いし、音声入力装置１０の記憶部１７に格納されても良いし、さらには、ＭＩＤＩ格納サーバ２５に格納されても良い。
【０１００】
なお、音声出力端末６０にて実行する音声合成処理の処理内容は、上記実施形態にて説明した内容に限るものではない。例えば、音声出力端末６０にて実行する音声合成処理の処理内容としては、Ｓ３１０と、Ｓ３６０との２つのステップのみでも良い。ただし、この場合、Ｓ３２０〜Ｓ３５０の各ステップを、情報処理装置３０などにて実行する必要がある。つまり、音声出力端末６０にて実行する音声合成処理は、入力情報を取得して情報処理装置３０に送信し、当該情報処理装置３０にて音声合成した結果（即ち、合成音）を出力する処理を実行するようになされており、表情テーブルＴＤや音声パラメータＰＭを取得して、入力情報に合致するように音声合成を実行する処理は、情報処理装置３０にて実行しても良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
【０１０１】
上記実施形態の音声パラメータ登録処理におけるＳ１１０が、特許請求の範囲の記載におけるタイミング情報取得手段、特に楽譜データ取得手段に相当し、Ｓ１２０が、特許請求の範囲の記載における内容情報取得手段に相当し、Ｓ１３０が、特許請求の範囲の記載における波形取得手段に相当する。さらに、パラメータ登録処理におけるＳ１４０が、特許請求の範囲の記載における音節波形抽出手段に相当し、Ｓ１５０が、特許請求の範囲の記載におけるパラメータ導出手段に相当し、Ｓ１６０が、特許請求の範囲の記載におけるメタデータ生成手段に相当し、Ｓ１７０が、特許請求の範囲の記載におけるパラメータ登録手段に相当する。
【０１０２】
また、上記第一実施形態のメタデータ推定処理におけるＳ３１０が、特許請求の範囲の記載における区間特定手段に相当し、Ｓ３２０が、特許請求の範囲の記載における主音特定手段に相当し、Ｓ３３０が、特許請求の範囲の記載における音名頻度導出手段に相当し、Ｓ６４０，Ｓ６５０が、調推定手段に相当する。さらに、上記第二実施形態のメタデータ推定処理におけるＳ７１０が、特許請求の範囲の記載における単語分割手段に相当し、Ｓ７２０が、メタデータ抽出手段に相当する。
【０１０３】
なお、上記実施形態の音声合成処理におけるＳ５１０が、特許請求の範囲の記載における出力性質情報取得手段及び文言取得手段に相当し、Ｓ５２０が、特許請求の範囲の記載におけるテーブル取得手段に相当し、Ｓ５４０，Ｓ５５０が、特許請求の範囲の記載における音声合成手段に相当し、Ｓ５６０が、特許請求の範囲の記載における出力手段に相当する。
【符号の説明】
【０１０４】
１…音声合成システム１０…音声入力装置１１…通信部１２…入力受付部１３…表示部１４…音声入力部１５…音声出力部１６…音源モジュール１７…記憶部２０…制御部２１，４１…ＲＯＭ２２，４２…ＲＡＭ２３，４３…ＣＰＵ２５…ＭＩＤＩ格納サーバ３０…情報処理装置３１…通信部３２…入力受付部３３…表示部３４…記憶部４０…制御部５０…データ格納サーバ６０…音声出力端末６１…情報受付部６２…表示部６３…音出力部６４…通信部６５…記憶部６７…制御部１００…単語メタデータデータベース

【特許請求の範囲】
【請求項１】
発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字列のうち、少なくとも一つの文字の発声開始タイミングを指定する発声タイミング情報を取得するタイミング情報取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する波形取得手段と、
少なくとも、前記タイミング情報取得手段で取得した発声タイミング情報に基づいて、前記波形取得手段で取得した対象波形から、前記特定内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音節波形を抽出する音節波形抽出手段と、
前記音節波形抽出手段で抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記特定内容情報、及び前記タイミング情報取得手段で取得した発声タイミング情報に基づいて、前記音節波形によって表される音声の性質を推定し、その推定結果をメタデータとして生成するメタデータ生成手段と、
前記パラメータ導出手段で導出された音声パラメータと、前記メタデータ生成手段で生成されたメタデータとを対応する音節ごとに対応付けて、第一記憶装置に記憶するパラメータ登録手段と
を備えることを特徴とするパラメータ抽出装置。
【請求項２】
楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データを取得する楽譜データ取得手段を備え、
前記内容情報取得手段は、
前記対象楽曲の歌詞を構成する歌詞構成文字の文字列を、前記発声内容情報として取得し、
前記タイミング情報取得手段は、
前記歌詞構成文字の少なくとも１つに対する出力タイミングが、当該歌詞構成文字に対応する前記出力音の演奏開始タイミングと対応付けられた歌詞出力タイミングを、前記発声タイミング情報として取得し、
前記波形取得手段は、
前記楽譜データに基づく前記対象楽曲の演奏中に入力された音声が時間軸に沿って推移した波形を、前記対象波形として取得し、
前記音節波形抽出手段は、
前記対象波形において、個々の出力音に対応する区間での音声波形を、前記音節波形として抽出する
ことを特徴とする請求項１に記載のパラメータ抽出装置。
【請求項３】
前記楽譜データは、
前記対象楽曲の曲中において転調していれば、時間軸に沿って前記対象楽曲が転調した時刻を表す転調フラグを含み、
前記メタデータ生成手段は、
前記楽譜データ取得手段で取得した楽譜データに基づいて、前記対象楽曲において同一の調が継続される各区間である調同一区間を特定する区間特定手段と、
前記区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する主音特定手段と、
前記区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、前記主音特定手段で特定した主音の音名を起点として前記調同一区間毎に導出する音名頻度導出手段と、
各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに、前記音名頻度導出手段で導出した各登場音名頻度を照合した結果、最も相関が高い調それぞれを、前記メタデータとする調推定手段と
を備えることを特徴とする請求項２に記載のパラメータ抽出装置。
【請求項４】
前記メタデータ生成手段は、
前記内容情報取得手段で取得した発声内容情報によって表される文字列を、単語を構成する文字列である単語文字ごとに分割する単語分割手段と、
各単語の性質を表す性質情報を、当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、前記単語分割手段で分割された各単語文字によって表される単語に対応する前記性質情報を前記メタデータとして、前記単語性質テーブルから抽出するメタデータ抽出手段と
を備えることを特徴とする請求項１から請求項３のいずれか一項に記載のパラメータ抽出装置。
【請求項５】
前記内容情報取得手段は、
少なくとも一つの文を構成する文字列である文構成文字を、前記発声内容情報として取得し、
前記タイミング情報取得手段は、
前記文構成文字を構成する少なくとも一つの文字を、外部に出力する出力タイミングが表された情報を、前記発声タイミング情報として取得し、
前記波形取得手段は、
前記発声内容情報に基づく前記文構成文字を構成する文字列の出力中に入力された音声が時間軸に沿って推移した波形を前記対象波形として取得する
ことを特徴とする請求項１から請求項４のいずれか一項に記載のパラメータ抽出装置。
【請求項６】
発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字列のうち、少なくとも一つの文字の発声開始タイミングを指定する発声タイミング情報を取得するタイミング情報取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する波形取得手段と、
少なくとも、前記タイミング情報取得手段で取得した発声タイミング情報に基づいて、前記波形取得手段で取得した対象波形から、前記特定内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音節波形を抽出する音節波形抽出手段と、
前記音節波形抽出手段で抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記特定内容情報、及び前記タイミング情報取得手段で取得した発声タイミング情報に基づいて、前記音節波形によって表される音声の性質を推定し、その推定結果をメタデータとして生成するメタデータ生成手段と、
前記パラメータ導出手段で導出された音声パラメータと、前記メタデータ生成手段で生成されたメタデータとを対応する音節ごとに対応付けて、第一記憶装置に記憶するパラメータ登録手段と、
前記第一記憶装置に記憶された音声パラメータを、当該音声パラメータと対応付けられたメタデータ毎にデータ解析して、前記メタデータに対応する各音声パラメータの範囲を表すメタデータ対応テーブルを生成して、第二記憶装置に記憶するパラメータ分析手段と
を有したパラメータ抽出装置と、
外部から入力され、音の性質を表す出力性質情報を取得する出力性質情報取得手段と、
外部から入力された文言を表す出力文言を取得する文言取得手段と、
前記出力性質情報取得手段で取得した出力性質情報に対応する前記メタデータを含むメタデータ対応テーブルを前記第二記憶装置から取得すると共に、前記出力性質情報に対応する情報を有した音声パラメータを前記第一記憶装置から取得するテーブル取得手段と、
前記文言取得手段で取得した出力文言となるように、前記テーブル取得手段で取得した前記音声パラメータを前記メタデータ対応テーブルに従って音声合成する音声合成手段と、
前記音声合成手段にて音声合成することで生成された合成音を出力する出力手段と
を有した合成音出力装置と
を備えることを特徴とする音声合成システム。

【図１】