説明

パラメータ抽出装置、音声合成システム

【課題】音声合成によって生成される合成音に対する発声者の特徴を多様化すること。
【解決手段】音声パラメータ登録処理では、対象楽曲の演奏期間中に入力された音声波形を処理の対象とする。その音声波形に基づく音声波形データSVを、当該対象楽曲のメロディラインを構成する各出力音の演奏期間に対応し、発声内容に含まれる音節毎に分割して音節波形を生成する(S140)と共に、各音節波形から音声パラメータPMを導出する(S150)。さらに、対象楽曲において同一の調が継続する期間(即ち、調同一区間)それぞれを特定し、各調同一区間における調(調性)を特定して、その特定した調からイメージされる感情として予め規定された音声の性質をメタデータとして特定する(S160)。その上で、対応する音節毎に、音声パラメータPMと、メタデータとを対応付けて、データ格納サーバに格納する(S170)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成を実行する音声合成システム、及び音声合成に必要な音声パラメータを音声から抽出するパラメータ抽出装置に関する。
【背景技術】
【0002】
従来、音声合成装置では、外部から入力されたテキスト、かつ外部操作によって指定された感情を表す音声を音声合成によって生成して出力することがなされている(特許文献1参照)。
【0003】
これを実現するために、特許文献1に記載の音声合成装置では、言語属性ベクトルと、音響属性ベクトルと、感情ベクトルとから構成される感情表出パターンを複数個蓄積している。そして、蓄積されている複数個の感情表出パターンの中から、外部入力によって指定された感情に最も近い感情が表された感情表出パターンを抽出し、その抽出した感情表出パターンに従って、入力されたテキストに対して音声合成を行う。
【0004】
なお、特許文献1において、言語属性ベクトルとは、話者と聴取者の社会的関係性を構築する属性を示すものであり、言語的内容、意味あるいは概念のもつ好悪のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。また、音響属性ベクトルとは、話者と聴取者の社会的関係性を表現するのに用いられている音響的特徴量を示すものであり、音響的特徴として平均ピッチやピッチのダイナミックレンジ、声門開放度のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。感情ベクトルは、話者と聴取者の社会的関係性を示すものであり、音声全体として表現されている感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等である。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−183421号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、特許文献1に記載された音声合成装置から出力される合成音は、予め用意された一つの標準的声質の音声パラメータを、感情表出パターンに従って音声合成(変更)したものである。
【0007】
したがって、特許文献1に記載された音声合成装置では、当該音声合成装置から出力する合成音によって表現される感情を変更して多様化できるものの、当該合成音を発声した人物の性別や、年齢、声質を多様なものとすることは困難である。
【0008】
つまり、特許文献1に記載された音声合成装置では、一つの標準的声質の音声パラメータに基づいて音声合成しているため、合成音として出力する音に対する発声者の特徴を多様化させることが困難であるという問題があった。
【0009】
そこで、本発明は、音声合成によって生成される合成音に対する発声者の特徴を多様化することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するためになされた本発明のパラメータ抽出装置では、内容情報取得手段が、発声すべき内容の文字列を表す発声内容情報を取得し、タイミング情報取得手段が、内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字列のうち、少なくとも一つの文字の発声開始タイミングを指定する発声タイミング情報を取得し、波形取得手段が、特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する。
【0011】
そして、音節波形抽出手段では、少なくとも、タイミング情報取得手段で取得した発声タイミング情報に基づいて、波形取得手段で取得した対象波形から、特定内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音節波形を抽出する。さらに、パラメータ導出手段が、その抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出する。
【0012】
また、メタデータ生成手段では、特定内容情報、及びタイミング情報取得手段で取得した発声タイミング情報に基づいて、音節波形によって表される音声の性質を推定し、その推定結果をメタデータとして生成し、パラメータ登録手段が、パラメータ導出手段で導出された音声パラメータと、メタデータ生成手段で生成されたメタデータとを対応する音節ごとに対応付けて、第一記憶装置に記憶する。
【0013】
なお、本発明における音声パラメータとしての特徴量は、フォルマント合成による音声合成を実行する際に必要となる特徴量であり、例えば、基本周波数や、メル周波数ケプストラム(MFCC)、パワーなど、及びそれらの各時間差分などを含む。
【0014】
このようなパラメータ抽出装置によれば、発声内容情報によって表される文字列の内容を多くの人物に発声させた各対象波形から音声パラメータを導出することで、多様な発声者の音声パラメータを導出できる。この結果、本発明のパラメータ抽出装置によれば、音声パラメータの種類を多様化できる。
【0015】
また、本発明のパラメータ抽出装置では、特定内容情報及び発声タイミング情報に基づいて、メタデータを自動的に推定できる。このため、本発明のパラメータ抽出装置によれば、従来の音声合成装置とは異なり、発声内容情報によって表される文字列の内容を発声するときに、メタデータとしての当該音声の性質を、利用者らに入力させる必要を無くすことができる。
【0016】
以上のことから、本発明のパラメータ抽出装置にて抽出した音声パラメータを用いて、音声合成すれば、その合成音を発声したとみなせる発声者の特徴を多様化できる。
また、本発明における音声の性質とは、当該音声が発声されたときの発声者の感情を少なくとも含むものであり、例えば、情緒や、雰囲気などを含む概念である。さらに、音声の性質には、感情を推定するために必要な情報を含んでも良い。
【0017】
また、本発明のパラメータ抽出装置においては、楽譜データ取得手段が、楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データを取得する。
【0018】
そして、本発明における内容情報取得手段は、対象楽曲の歌詞を構成する歌詞構成文字の文字列を、発声内容情報として取得し、タイミング情報取得手段は、歌詞構成文字の少なくとも1つに対する出力タイミングが、当該歌詞構成文字に対応する出力音の演奏開始タイミングと対応付けられた歌詞出力タイミングを、発声タイミング情報として取得する。このとき、本発明における波形取得手段は、楽譜データに基づく対象楽曲の演奏中に入力された音声が時間軸に沿って推移した波形を、対象波形として取得し、音節波形抽出手段は、対象波形において、個々の出力音に対応する区間での音声波形を、音節波形として抽出しても良い。
【0019】
このようなパラメータ抽出装置によれば、楽譜データに基づいて対象楽曲を演奏している期間に音声が入力されるカラオケ装置などを利用して音声波形を収集することができる。
【0020】
そして、このようなパラメータ抽出装置によれば、カラオケ装置などにおいて歌唱した音声から、音素パラメータを生成することができる。
一般的に、楽曲における調が、長調であれば明るい印象を受け、単調であれば悲しい印象を受ける。これと同様に、歌詞も、楽曲の調が長調であるときには、明るい印象の歌詞が多く、楽曲の調が単調であるときには、悲しい印象の歌詞が多い。
【0021】
そこで、本発明における楽譜データは、対象楽曲の曲中において転調していれば、時間軸に沿って対象楽曲が転調した時刻を表す転調フラグを含んでも良い。
この場合、本発明のメタデータ生成手段では、楽譜データ取得手段で取得した楽譜データに基づいて、区間特定手段が、対象楽曲において同一の調が継続される各区間である調同一区間を特定し、主音特定手段が、区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する。そして、音名頻度導出手段が、区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、主音特定手段で特定した主音の音名を起点として調同一区間毎に導出すると、調推定手段が、各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに、音名頻度導出手段で導出した各登場音名頻度を照合した結果、最も相関が高い調それぞれを、メタデータとする。
【0022】
このようなパラメータ抽出装置であれば、対象楽曲における各調同一区間の調をメタデータとすることができ、ひいては、各調同一区間に対応する歌詞を発声したときの発声者の感情をメタデータとすることができる。しかも、このような調特定手段によれば、各調同一区間における調を確実に特定することができる。
【0023】
さらに、本発明におけるメタデータ生成手段では、単語分割手段が、内容情報取得手段で取得した発声内容情報によって表される文字列を、単語を構成する文字列である単語文字ごとに分割し、メタデータ抽出手段が、単語分割手段で分割された各単語文字によって表される単語に対応する性質情報をメタデータとして、単語性質テーブルから抽出しても良い。
【0024】
このようなパラメータ抽出装置によれば、各単語の性質をメタデータとすることができる。
なお、本発明における単語性質テーブルとは、各単語の性質を表す性質情報を、当該単語の識別情報と対応付けたテーブルであり、予め用意されたものである。さらに、ここでいう単語の性質とは、当該単語の意味や、当該単語によって表される感情を含むものである。
【0025】
さらには、本発明における内容情報取得手段は、少なくとも一つの文を構成する文字列である文構成文字を、発声内容情報として取得しても良い。この場合、タイミング情報取得手段は、文構成文字を構成する少なくとも一つの文字を、外部に出力する出力タイミングが表された情報を、発声タイミング情報として取得し、波形取得手段は、発声内容情報に基づく文構成文字を構成する文字列の出力中に入力された音声が時間軸に沿って推移した波形を対象波形として取得しても良い。
【0026】
このようなパラメータ抽出装置によれば、文を読み上げたときの音声波形を対象波形として取得できる。すなわち、本発明のパラメータ抽出装置によれば、いわゆるアフレコ機能を有するカラオケ装置などを介して対象波形を取得できる。
【0027】
なお、ここでいう文字を外部に出力とは、少なくとも、文字を表示することを含む。
ところで、本発明は、音声合成システムとしてなされていても良い。
この場合、本発明の音声合成システムは、パラメータ抽出装置と、合成音出力装置とを備えることが望ましい。
【0028】
このうち、パラメータ抽出装置は、内容情報取得手段と、タイミング情報取得手段と、波形取得手段と、音節波形抽出手段と、パラメータ導出手段と、メタデータ生成手段と、パラメータ登録手段とを有し、パラメータ分析手段が、第一記憶装置に記憶された音声パラメータを、当該音声パラメータと対応付けられたメタデータ毎にデータ解析して、メタデータに対応する各音声パラメータの範囲を表すメタデータ対応テーブルを生成して、第二記憶装置に記憶しても良い。
【0029】
さらに、合成音出力装置では、出力性質情報取得手段が、外部から入力され、音の性質を表す出力性質情報を取得し、文言取得手段が、外部から入力された文言を表す出力文言を取得する。そして、テーブル取得手段が、出力性質情報取得手段で取得した出力性質情報に対応するメタデータを含むメタデータ対応テーブルを第二記憶装置から取得すると共に、出力性質情報に対応する情報を有した音声パラメータを第一記憶装置から取得する。
【0030】
すると、音声合成手段が、文言取得手段で取得した出力文言となるように、テーブル取得手段で取得した音声パラメータをメタデータ対応テーブルに従って音声合成し、出力手段が、音声合成手段にて音声合成することで生成された合成音を出力する。
【0031】
このような音声合成システムによれば、メタデータ対応テーブル及び音声パラメータに基づいて、多様な合成音を生成することができる。
すなわち、本発明の音声合成システムよれば、合成音を発声したとみなせる発声者の特徴を多様化できる。
【図面の簡単な説明】
【0032】
【図1】音声合成システムの全体構成を示すブロック図である。
【図2】音声パラメータ登録処理の処理手順を示すフローチャートである。
【図3】第一実施形態におけるメタデータ推定処理の処理手順を示すフローチャートである。
【図4】メタデータ推定処理の処理内容を示す図である。
【図5】メタデータ推定処理の処理内容を示す図である。
【図6】メタデータ推定処理の処理内容を示す図である。
【図7】第一実施形態における音声パラメータ登録処理の概要を示す図である。
【図8】音声分析処理の処理手順を示すフローチャートである。
【図9】メタデータ対応テーブルを例示する図である。
【図10】音声合成処理の処理手順を示すフローチャートである。
【図11】第二実施形態におけるメタデータ推定処理の処理手順を示すフローチャートである。
【図12】第二実施形態における音声パラメータ登録処理の概要を示す図である。
【発明を実施するための形態】
【0033】
以下に本発明の実施形態を図面と共に説明する。
[第一実施形態]
〈音声合成システムについて〉
図1は、本発明が適用された音声合成システムの概略構成を示す図である。
【0034】
本発明が適用された音声合成システム1は、当該音声合成システム1の利用者が指定した内容の音声が出力されるように、予め登録された音声パラメータに基づいて音声合成した音声(即ち、合成音)を出力するシステムである。
【0035】
これを実現するために、音声合成システム1は、音声を入力する音声入力装置10と、音声入力装置10を介して入力された音声(以下、音声波形データSVと称す)及びカラオケの用途に用いられる各種データ(以下、音楽データMDと称す)を格納するMIDI格納サーバ25と、MIDI格納サーバ25に格納されている音声波形データSV及び音楽データMDに基づいて、少なくとも音声パラメータを生成する処理を実行する情報処理装置30とを備えている。さらに、音声合成システム1は、情報処理装置30にて生成された音声パラメータを格納するデータ格納サーバ50と、データ格納サーバ50に格納されている音声パラメータに基づいて音声合成した合成音を出力する音声出力端末60とを備えている。なお、本実施形態における音声合成システム1は、音声出力端末60を複数台備えている。
【0036】
すなわち、本実施形態の音声合成システム1においては、情報処理装置30が、MIDI格納サーバ25に格納されている音声波形データSV及び音楽データMDに基づいて、少なくとも音声パラメータPMを生成してデータ格納サーバ50に格納する。そして、音声出力端末60は、当該音声出力端末60を介して、利用者が指定した内容の音声が出力されるように、データ格納サーバ50に格納された音声パラメータPMに基づいて音声合成した合成音を出力する。
【0037】
なお、ここで言う音声パラメータPMとは、詳しくは後述するが、いわゆるフォルマント合成に用いる音声の特徴量であり、例えば、発声音声における各音節での基本周波数、メル周波数ケプストラム(MFCC)、パワー、及びそれらの時間差分を含むものである。
〈MIDI格納サーバについて〉
まず、MIDI格納サーバ25は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して、音声入力装置10に接続されている。
【0038】
このMIDI格納サーバ25には、少なくとも、楽曲ごとに予め用意された音楽データMDが格納されている。この音楽データMDには、楽曲MIDIデータDM(特許請求の範囲における楽譜データに相当)と、歌詞データ群DLとが含まれ、これら楽曲MIDIデータDMと歌詞データ群DLとは、それぞれ対応する楽曲ごとに対応付けられている。
【0039】
このうち、楽曲MIDIデータDMは、周知のMIDI(Musical Instrument Digital Interface)規格によって、一つの楽曲の楽譜を表すデータであり、楽曲ごとに予め用意されている。この楽曲MIDIデータDMの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックと、当該楽曲において調が変化する時刻を表す変調フラグとを少なくとも有している。
【0040】
そして、楽譜トラックには、MIDI音源から出力される個々の出力音について、少なくとも、音高(いわゆるノートナンバー)と、音源モジュールが出力音を出力する期間(以下、音符長)とが規定されている。ただし、楽譜トラックの音符長は、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング(いわゆるノートオンタイミング)と、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング(いわゆるノートオフタイミング)とによって規定されている。
【0041】
なお、楽譜トラックは、例えば、鍵盤楽器(例えば、ピアノやパイプオルガンなど)、弦楽器(例えば、バイオリンやビオラ、ギター、ベースギター、琴など)、打楽器(例えば、ヴィブラフォンや、ドラム、シンバル、ティンパニー、木琴など)、及び管楽器(例えば、クラリネットやトランペット、フルート、尺八など)などの楽器ごとに用意されている。
【0042】
一方、歌詞データ群DLは、周知のカラオケ装置を構成する表示装置に表示される歌詞に関するデータであり、楽曲の歌詞を構成する文字(以下、歌詞構成文字とする)を表す歌詞テロップデータDTと、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲MIDIデータDMの演奏と対応付けるタイミング対応関係が規定された歌詞出力データDOとを備えている。
【0043】
具体的に、本実施形態におけるタイミング対応関係は、楽曲MIDIデータDMの演奏を開始するタイミングに、歌詞テロップデータDTの出力を開始するタイミングが対応付けられた上で、特定楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲MIDIデータDMの演奏を開始からの経過時間によって規定されている。なお、ここでいう経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。また、ここでいう歌詞構成文字は、歌詞を構成する文字の各々であっても良いし、その文字の各々を時間軸に沿った特定の規則に従って一群とした文節やフレーズであっても良い。
〈音声入力装置の構成について〉
次に、音声入力装置10について説明する。
【0044】
音声入力装置10は、通信部11と、入力受付部12と、表示部13と、音声入力部14と、音声出力部15と、音源モジュール16と、記憶部17と、制御部20とを備えている。すなわち、本実施形態における音声入力装置10は、いわゆる周知のカラオケ装置として構成されている。
【0045】
このうち、通信部11は、通信網(例えば、公衆無線通信網やネットワーク回線)を介して、音声入力装置10が外部との間で通信を行う。入力受付部12は、外部からの操作に従って情報や指令の入力を受け付ける入力機器(例えば、キーやスイッチ、リモコンの受付部など)である。
【0046】
表示部13は、少なくとも、文字コードで示される情報を含む画像を表示する表示装置(例えば、液晶ディスプレイやCRT等)である。また、音声入力部14は、音を電気信号に変換して制御部20に入力する装置(いわゆるマイクロホン)である。音声出力部15は、制御部20からの電気信号を音に変換して出力する装置(いわゆるスピーカ)である。さらに、音源モジュール16は、MIDI(Musical Instrument Digital Interface)規格によって規定されたデータに基づいて、音源からの音を模擬した音(即ち、出力音)を出力する装置(例えば、MIDI音源)である。
【0047】
記憶部17は、記憶内容を読み書き可能に構成された不揮発性の記憶装置(例えば、ハードディスク装置や、フラッシュメモリ)である。
また、制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM21と、処理プログラムやデータを一時的に格納するRAM22と、ROM21やRAM22に記憶された処理プログラムに従って各処理(各種演算)を実行するCPU23とを少なくとも有した周知のコンピュータを中心に構成されている。
【0048】
そして、ROM21には、周知のカラオケ演奏処理を制御部が実行する処理プログラムや、カラオケ演奏処理によって対象楽曲が演奏されている期間中に、音声入力部14を介して入力された音声を音声波形データSVとして、当該対象楽曲を識別する楽曲識別情報と対応付けて、MIDI格納サーバ25に格納する音声格納処理を制御部20が実行する処理プログラムが記憶されている。
【0049】
つまり、音声入力装置10では、カラオケ演奏処理に従って、入力受付部12を介して指定された一つの楽曲(以下、対象楽曲とする)に対応する音楽データMDをMIDI格納サーバ25から取得して、当該音楽データMD中の楽曲MIDIデータDMに基づいて、対象楽曲を演奏すると共に、当該音楽データMD中の歌詞データ群DLに基づいて対象楽曲の歌詞を表示部13に表示する。
【0050】
さらに、音声入力装置10では、カラオケ演奏処理の実行中に、音声入力部14を介して入力された音声を音声波形データSVとして、当該対象楽曲を識別する楽曲識別情報(ここでは、音楽データMDそのもの)及び音声を入力した人物(以下、発声者とする)を識別する発声者識別情報(以下、発声者IDと称す)と対応付けて、MIDI格納サーバ25に格納する。なお、MIDI格納サーバ25に格納される音声波形データSVには、発声者の特徴を表す発声者特徴情報も対応付けられており、この発声者特徴情報には、例えば、発声者の性別、年齢などを含む。
〈情報処理装置の構成について〉
次に、情報処理装置30について説明する。
【0051】
この情報処理装置30は、通信部31と、入力受付部32と、表示部33と、記憶部34と、制御部40とを備えている。
このうち、通信部31は、通信網(例えば、公衆無線通信網やネットワーク回線)を介して外部との間で通信を行う。入力受付部32は、外部からの操作に従って情報や指令の入力を受け付ける入力機器(例えば、キーボードやポインティングデバイス)である。
【0052】
表示部33は、画像を表示する表示装置(例えば、液晶ディスプレイやCRT等)である。
記憶部34は、記憶内容を読み書き可能に構成された不揮発性の記憶装置(例えば、ハードディスク装置や、フラッシュメモリ)である。また、制御部40は、ROM41、RAM42、CPU43を少なくとも有した周知のコンピュータを中心に構成されている。
【0053】
そして、情報処理装置30のROM41には、MIDI格納サーバ25に格納されている音声波形データSV及び音楽データMDに基づいて生成した音声パラメータPMを、当該音声パラメータPMの生成源である音声の性質を表すメタデータと対応付けてデータ格納サーバ50に格納する音声パラメータ登録処理を制御部40が実行するための処理プログラムが記憶されている。
【0054】
さらに、情報処理装置30のROM41には、音声パラメータ登録処理によってデータ格納サーバ50に格納された音声パラメータPMを統計処理した結果に基づいて、メタデータに対応する音声パラメータPMの傾向を表すメタデータ対応テーブル(以下、表情テーブルTDと称す)を、当該音声パラメータPMと対応付けられたメタデータの種類ごとに作成し、データ格納サーバ50に記憶する音声分析処理を制御部40が実行するための処理プログラムが記憶されている。
【0055】
本実施形態において、メタデータとは、当該音声が発声されたときの発声者の感情を少なくとも含む、音声の性質を表すものであり、例えば、情緒や、雰囲気などを含む概念である。さらに、音声の性質には、感情を推定するために必要な情報を含んでも良い。
【0056】
なお、データ格納サーバ50は、記憶内容を読み書き可能に構成された記憶装置を中心に構成された装置であり、通信網を介して情報処理装置30に接続されている。
〈音声パラメータ登録処理について〉
次に、情報処理装置30が実行する音声パラメータ登録処理について説明する。
【0057】
ここで、図2は、音声パラメータ登録処理の処理手順を示すフローチャートである。
この図2に示すように、音声パラメータ登録処理は、起動されると、入力受付部32を介して指定された楽曲(以下、対象楽曲と称す)の楽曲MIDIデータDMを取得する(S110)。続いて、対象楽曲の歌詞データ群DLを取得し(S120)、対象楽曲に対応し、かつ入力受付部32を介して指定された発声者IDに対応する一つの音声波形データSV(特許請求の範囲における対象波形に相当)を取得する(S130)。
【0058】
さらに、S130で取得した音声波形データSVにおいて、当該音声波形データSVの発声内容に含まれる音節それぞれに対応する区間での音声波形(以下、音節波形と称す)を特定する(S140)。
【0059】
具体的に、本実施形態のS140では、S110で取得した楽曲MIDIデータDMのうち、歌唱旋律を表す楽譜トラック(以下、メロディトラックと称す)に規定された各出力音の演奏開始タイミング及び演奏終了タイミングを抽出すると共に、各出力音に対応付けられた歌詞構成文字の音節を特定する。そして、音声波形データSVにおいて、各出力音の演奏開始タイミングから演奏終了タイミングまでの区間それぞれに対応する区間での音声波形を音節波形として特定する。なお、本実施形態のS140にて特定される音節波形それぞれは、当該音節波形にて発声した音節の内容と対応付けられたものである。
【0060】
さらに、音節波形それぞれから音声パラメータPMを導出する(S150)。本実施形態のS150では、基本周波数、メル周波数ケプストラム(MFCC)、パワー、それらの時間差分を、それぞれ、音声パラメータPMとして導出する。これらの基本周波数、MFCC、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、音節波形の時間軸に沿った自己相関、音節波形の周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、MFCCであれば、音節波形に対して時間分析窓を適用して、時間分析窓ごとに周波数解析(例えば、FFT)をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、音節波形に対して時間分析窓を適用して振幅の二乗した結果を時間方向に積分することで導出すれば良い。
【0061】
続いて、S140にて特定した各音節波形についてのメタデータを推定するメタデータ推定処理を実行する(S160)。
ここで、メタデータ推定処理について、図3を用いて詳細に説明する。なお、図3は、メタデータ推定処理の処理手順を示したフローチャートである。
【0062】
このメタデータ推定処理は、起動されると、まず、先のS110にて取得した楽曲MIDIデータに基づいて、対象楽曲において同一の調が継続される各区間である調同一区間を特定する(S310)。具体的に、本実施形態のS310では、図4に示すように、楽曲MIDIデータに含まれる転調フラグに基づき、時間軸に沿って互いに隣接する転調フラグの間の区間を、調同一区間として特定する。
【0063】
続いて、S310にて特定した調同一区間における主音を特定する(S320)。具体的に、本実施形態のS320では、図5に示すように、調同一区間において、時間軸に沿って最後の出力音を、当該調同一区間における主音として特定する。本実施形態では、S310にて特定した調同一区間のそれぞれについて、主音を特定する。
【0064】
そして、S320にて特定した主音の音名を起点とし、当該主音が特定された調同一区間に含まれる出力音それぞれの音名を階級とし、各音名の登場回数を度数としたヒストグラム(以下、登場音名頻度と称す)を導出する(S330)。具体的に、本実施形態のS330にて導出する登場音名頻度は、図6(A)に示すように、調同一区間に含まれる同一音名の出力音の登場回数(登場頻度)を集計したものである。そして、本実施形態においては、オクターブが異なる出力音であっても、音名が同一であれば、同一音名の出力音として集計する。なお、本実施形態では、各調同一区間について、登場音名頻度を導出する。
【0065】
続いて、S330にて導出した登場音名頻度を、各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに照合した結果に基づいて、当該調同一区間における調を特定する(S340)。具体的に、本実施形態のS340では、長調の楽曲にて利用可能な音名の分布を表す長調テンプレート(図6(B)参照)と、短調の楽曲にて利用可能な音名の分布を表す短調テンプレート(図6(C)参照)とを予め用意し、それぞれの調テンプレートにS330にて導出した登場音名頻度を照合する。その結果、最も高い相関を示す調テンプレートに対応する調を、当該調同一区間における調として特定する。なお、本実施形態のS340では、調同一区間のそれぞれについての調を特定する。
【0066】
さらに、S340で特定した調同一区間における楽曲の調に対応する音声の性質を、メタデータとして特定する(S350)。具体的に、本実施形態のS350では、調同一区間における調が長調であれば、当該調同一区間での歌詞(即ち、発声内容)が「明るい」という感情を表す音声の性質をメタデータとして特定する。また、調同一区間における調が短調であれば、当該調同一区間での歌詞が「暗い」という感情を表す音声の性質をメタデータとして特定する。なお、本実施形態においては、調同一区間に含まれる全ての音節について、当該調同一区間に対応するメタデータを割り当てている。
【0067】
そして、その後、音声パラメータ登録処理のS170へと移行する。
その音声パラメータ登録処理のS170では、S150にて導出した音声パラメータPMと、S160にて推定したメタデータとを、対応する音節毎に対応付けてデータ格納サーバ50に格納する音声パラメータ登録を実行する(S170)。なお、本実施形態のS170にてデータ格納サーバ50に格納される音声パラメータPMと対応付けられるデータは、メタデータに加えて、発声した音節の内容(種類)や、発声者ID、発声者特徴情報を含む。
【0068】
その後、本音声パラメータ登録処理を終了する。
以上説明したように、図7に示すように、本実施形態の音声パラメータ登録処理では、対象楽曲の演奏期間中に入力された音声波形を処理対象とする。そして、その音声波形に基づく音声波形データSVを、当該対象楽曲のメロディラインを構成する各出力音の演奏期間に対応する区間(即ち、発声内容に含まれる各音節)毎に分割して音節波形を生成すると共に、各音節波形から音声パラメータPMを導出する。
【0069】
これと共に、音声パラメータ登録処理では、対象楽曲において同一の調が継続する期間(即ち、調同一区間)それぞれを特定し、各調同一区間における調(調性)を特定する。そして、その特定した調からイメージされる感情として予め規定された音声の性質をメタデータとして特定する。
【0070】
その上で、音声パラメータ登録処理では、対応する音節毎に、音声パラメータPMと、メタデータとを対応付けて、データ格納サーバ50に格納する。
〈音声分析処理について〉
次に、情報処理装置30の制御部40が実行する音声分析処理について、図8を用いて説明する。
【0071】
この図8に示すように、音声分析処理は、起動されると、まず、同一の内容を表すメタデータ(以下、対象メタデータとする)と対応付けられた全ての音声パラメータ(以下、音声パラメータ群と称す)を、データ格納サーバ50から取得する(S410)。すなわち、本実施形態のS410にて取得する音声パラメータ群とは、データ格納サーバ50に格納された音声パラメータの中で、対象メタデータと対応付けられた全ての音声パラメータPMである。さらに、ここでの音声パラメータPMには、基本周波数、メル周波数ケプストラム(MFCC)、パワー、それらの時間差分のそれぞれを含む。
【0072】
続いて、S410にて取得した音声パラメータ群に基づいて表情テーブルTDを生成する(S420)。
具体的に、本実施形態のS420では、S410にて取得した音声パラメータ群に含まれる各音声パラメータ(即ち、基本周波数、メル周波数ケプストラム(MFCC)、パワー、それらの時間差分のそれぞれ)について平均値を算出する。そして、その算出した平均値と、S410にて取得した音声パラメータ群に含まれる各音声パラメータPMとの差分であるパラメータ差分を、当該音声パラメータPMと対応付けられている発声者IDごと、かつ当該音声パラメータPMと対応付けられている音節ごとに導出する。
【0073】
さらに、本実施形態のS420では、導出したパラメータ差分を、当該パラメータ差分に対応するメタデータ、発声者ID、及び音節と対応付けることで、表情テーブルTDを生成する。すなわち、S420にて生成される表情テーブルTDは、図9に示すように、発声者IDごとに、メタデータの内容が分類された上で、音節の内容と、当該音節に対応するパラメータ差分とが対応付けられたものである。
【0074】
そして、S420にて生成した表情テーブルTDを、データ格納サーバ50に格納する(S430)。
その後、本音声分析処理を終了する。
〈音声出力端末の構成について〉
次に、音声出力端末について説明する(図1参照)。
【0075】
この音声出力端末60は、情報受付部61と、表示部62と、音出力部63と、通信部64と、記憶部65と、制御部67とを備えている。本実施形態における音声出力端末60として、例えば、周知の携帯端末(携帯電話や携帯情報端末)や、周知の情報処理装置(いわゆるパーソナルコンピュータ)を想定しても良い。
【0076】
このうち、情報受付部61は、入力装置(図示せず)を介して入力された情報を受け付ける。表示部62は、制御部67からの指令に基づいて画像を表示する。音出力部63は、音を出力する周知の装置であり、例えば、PCM音源と、スピーカとを備えている。
【0077】
通信部64は、通信網(例えば、公衆無線通信網やネットワーク回線)を介して音声出力端末60が外部との間で情報通信を行うものである。記憶部65は、記憶内容を読み書き可能に構成された不揮発性の記憶装置(例えば、ハードディスク装置や、フラッシュメモリ)であり、各種処理プログラムや各種データが記憶される。
【0078】
また、制御部67は、ROM、RAM、CPUを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声合成処理について〉
次に、音声出力端末60の制御部67が実行する音声合成処理について説明する。
【0079】
ここで、図10は、音声合成処理の処理手順を示すフローチャートである。
この音声合成処理は、音声出力端末60の情報受付部61を介して起動指令が入力されると起動される。
【0080】
この図10に示すように、音声合成処理は、起動されると、まず、情報受付部61を介して入力された情報(以下、入力情報と称す)を取得する(S510)。このS510にて取得する入力情報とは、例えば、合成音として出力する音声の内容(文言)を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、ここで言う音の性質(即ち、出力性質情報)とは、発声者の性別、発声者の年齢といった、発声者の声の特徴に加えて、発声者が発声したときの感情などメタデータとして規定される情報を含むものである。
【0081】
続いて、S510にて取得した出力性質情報のうちのメタデータとして規定されるべき感情等の情報に最も類似する情報を含む表情テーブルTDを、データ格納サーバ50から抽出する(S520)。さらに、S510にて取得した出力文言を合成音として出力するために必要な音節それぞれに対応し、かつS510にて取得した出力性質情報のうちの声の特徴に最も類似する情報を有した音声パラメータPMを、データ格納サーバ50から抽出する(S530)。
【0082】
そして、S510にて取得した出力文言の内容にて合成音が出力されるように、S530にて取得した音声パラメータPMを、S520にて取得した表情テーブルTDに従って設定する(S540)。続いて、S540にて設定された音声パラメータPMに基づいて、音声合成する(S550)。このS550における音声合成は、特許文献1の他にもフォルマント合成による周知の音声合成の手法を用いれば良い。
【0083】
さらに、S550にて音声合成することによって生成された合成音を音出力部63から出力する(S560)。
その後、本音声合成処理を終了する。
[第一実施形態の効果]
以上説明したように、本実施形態において音声入力装置10は、カラオケ装置によって構成されている。このため、音声入力装置10の利用者(即ち、発声者)が歌唱(発声)した結果(音声波形)を音声波形データSVとして収集することができ、多くの利用者に歌唱させることで、多数の発声者による多様な音声波形データSVを収集できる。
【0084】
そして、本実施形態における情報処理装置30では、多くの発声者による多様な音声波形データSVから音声パラメータPMを導出することで、多様な人物が発声した多様な音声パラメータPMを導出できる。すなわち、本実施形態の情報処理装置30によれば、音声パラメータPMを多様化できる。
【0085】
また、本実施形態における音声パラメータ登録処理のメタデータ推定処理では、音楽データMDに基づいてメタデータを自動的に推定できる。このため、本実施形態の音声パラメータ登録処理によれば、特許文献1に記載の音声合成装置とは異なり、対象楽曲を歌唱するときに、メタデータとしての音声の性質を発声者らに入力させる必要を無くすことができる。
【0086】
そして、本実施形態における音声出力端末60では、音声パラメータ登録処理にて登録された多様な発声者の音声パラメータPM、及び音声分析処理にて生成された表情テーブルTDの中から、入力された出力性質情報に合致する表情テーブルTD、音声パラメータPMを抽出して、入力された出力文言が実現されるように音声合成している。
【0087】
したがって、本実施形態の音声合成システム1によれば、合成音を発声したとみなせる発声者の特徴を多様化できる。
なお、本実施形態のメタデータ推定処理では、対象楽曲における各調同一区間の調によって表される可能性が高い歌唱者の感情をメタデータとしている。すなわち、本実施形態のメタデータ推定処理によれば、各調同一区間に対応する歌詞を発声したときの発声者の感情をメタデータとすることができ、しかも、各調同一区間における調を確実に特定することができる。
[第二実施形態]
次に、本発明の第二実施形態について説明する。
【0088】
第二実施形態の音声合成システムは、第一実施形態の音声合成システム1とは、主として、メタデータ推定処理の処理内容が異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なるメタデータ推定処理を中心に説明する。
〈メタデータ推定処理について〉
ここで、図11は、本実施形態のメタデータ推定処理の処理手順を示すフローチャートである。
【0089】
この図11に示すように、音声パラメータ登録処理のS160にて起動されると、先のS120にて取得した歌詞データ群DLに含まれている歌詞テロップデータDTによって表される歌詞を形態素解析する(S710)。すなわち、本実施形態のS710では、形態素解析を実行することで、歌詞を構成する文字列を、当該歌詞中の単語を構成する文字列である単語文字ごとに分割する。なお、S710にて実行する形態素解析は、周知の処理であるため、ここでの詳しい説明は省略する。
【0090】
続いて、予め用意された単語性質テーブルが格納された単語メタデータデータベース(図中DB)100から、S710の形態素解析した結果である単語毎に単語性質情報を取得する(S720)。ただし、ここで言う単語性質テーブルとは、各単語の性質を表す単語性質情報を当該単語の識別情報と対応付けたテーブルであり、ここ言う単語の性質とは、当該単語の意味や、当該単語によって表される感情を含む。
【0091】
そして、S720にて取得した単語性質情報をメタデータとして、当該単語を発声した区間に割り当てる(S730)。
その後、本メタデータ推定処理を終了して、音声パラメータ登録処理へと戻る。
【0092】
以上説明したように、本実施形態のメタデータ推定処理では、図12に示すように、対象楽曲の歌詞に対して形態素解析を実行し、対象楽曲の歌詞を、単語を構成する文字列である単語文字ごとに分割する。その上で、予め用意された単語メタデータデータベース100に格納されている単語性質テーブルに含まれる単語性質情報の中から、各単語に対応する単語性質情報を取得し、当該単語性質情報のそれぞれを、対応する音節の音声パラメータPMに対するメタデータとしている。
[第二実施形態]
以上説明したように、本実施形態のメタデータ推定処理によれば、発声者が発声した単語の意味や、当該単語によって表される感情などを、メタデータとすることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
【0093】
例えば、上記実施形態の音声合成処理では、音声入力装置10がカラオケ演奏処理を実行して対象楽曲を演奏している期間に入力された音声に基づいて音声波形データSVを生成していたが、本発明における音声波形データSVは、これに限るものではない。
【0094】
すなわち、本発明では、音声入力装置10において、カラオケ装置などにて周知のアフレコ機能を用いて、音声波形データSVを生成しても良い。つまり、アフレコ機能を有した音声入力装置(カラオケ装置)であれば、発声すべき台詞に関するデータとして、台詞を構成する文字(以下、台詞構成文字と称す)を表す台詞テロップデータ(即ち、歌詞テロップデータと同様のデータ)と、台詞構成文字を表示部13に表示するタイミングを規定した台詞出力データ(即ち、歌詞出力データと同様のデータ)とを備えている。
【0095】
よって、アフレコ機能を用いて音声波形データSVを取得する場合、音声入力装置10は、台詞テロップデータに基づく台詞を表示部13に表示し、当該台詞が表示部13に表示されている期間に音声入力部14を介して入力された音声波形を音声波形データSVとして、MIDI格納サーバ25に格納しても良い。
【0096】
この場合、情報処理装置30では、アフレコ機能を用いて生成した音声波形データSVを音声パラメータ登録処理の処理対象としても良い。つまり、音声パラメータ登録処理においては、S110が省略された上で、S120にて、台詞テロップデータ及び台詞出力データを取得し、S140にて、その取得した台詞テロップデータ及び台詞出力データに基づいて、音節波形を特定すれば良い。このとき、S140にて、音節波形を特定する手法としては、台詞出力データによって規定された台詞構成文字を表示部13に表示するタイミングにて、音声波形データSVにおける当該台詞構成文字が発声されているものとして音節波形を特定すれば良い。
【0097】
また、上記実施形態では、音声入力装置10として、カラオケ装置を想定したが、音声入力装置10として想定する装置は、カラオケ装置に限るものではなく、例えば、周知の携帯端末(携帯電話や携帯情報端末)や、周知の情報処理装置(いわゆるパーソナルコンピュータ)を想定しても良い。
【0098】
また、上記実施形態の音声合成システムにおいては、MIDI格納サーバ25が設けられていたが、本発明の音声合成システムにおいては、MIDI格納サーバ25は設けられていなくとも良い。この場合、音楽データMDや音声波形データSVは、音声入力装置10の記憶部17に格納されても良いし、データ格納サーバ50に格納されても良いし、さらには、情報処理装置30の記憶部34に格納されても良い。
【0099】
同様に、上記実施形態の音声合成システムにおいては、データ格納サーバ50が設けられていたが、本発明の音声合成システムにおいては、データ格納サーバ50は設けられていなくとも良い。この場合、音声パラメータPMや表情テーブルTDは、情報処理装置30の記憶部34に格納されても良いし、音声入力装置10の記憶部17に格納されても良いし、さらには、MIDI格納サーバ25に格納されても良い。
【0100】
なお、音声出力端末60にて実行する音声合成処理の処理内容は、上記実施形態にて説明した内容に限るものではない。例えば、音声出力端末60にて実行する音声合成処理の処理内容としては、S310と、S360との2つのステップのみでも良い。ただし、この場合、S320〜S350の各ステップを、情報処理装置30などにて実行する必要がある。つまり、音声出力端末60にて実行する音声合成処理は、入力情報を取得して情報処理装置30に送信し、当該情報処理装置30にて音声合成した結果(即ち、合成音)を出力する処理を実行するようになされており、表情テーブルTDや音声パラメータPMを取得して、入力情報に合致するように音声合成を実行する処理は、情報処理装置30にて実行しても良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
【0101】
上記実施形態の音声パラメータ登録処理におけるS110が、特許請求の範囲の記載におけるタイミング情報取得手段、特に楽譜データ取得手段に相当し、S120が、特許請求の範囲の記載における内容情報取得手段に相当し、S130が、特許請求の範囲の記載における波形取得手段に相当する。さらに、パラメータ登録処理におけるS140が、特許請求の範囲の記載における音節波形抽出手段に相当し、S150が、特許請求の範囲の記載におけるパラメータ導出手段に相当し、S160が、特許請求の範囲の記載におけるメタデータ生成手段に相当し、S170が、特許請求の範囲の記載におけるパラメータ登録手段に相当する。
【0102】
また、上記第一実施形態のメタデータ推定処理におけるS310が、特許請求の範囲の記載における区間特定手段に相当し、S320が、特許請求の範囲の記載における主音特定手段に相当し、S330が、特許請求の範囲の記載における音名頻度導出手段に相当し、S640,S650が、調推定手段に相当する。さらに、上記第二実施形態のメタデータ推定処理におけるS710が、特許請求の範囲の記載における単語分割手段に相当し、S720が、メタデータ抽出手段に相当する。
【0103】
なお、上記実施形態の音声合成処理におけるS510が、特許請求の範囲の記載における出力性質情報取得手段及び文言取得手段に相当し、S520が、特許請求の範囲の記載におけるテーブル取得手段に相当し、S540,S550が、特許請求の範囲の記載における音声合成手段に相当し、S560が、特許請求の範囲の記載における出力手段に相当する。
【符号の説明】
【0104】
1…音声合成システム 10…音声入力装置 11…通信部 12…入力受付部 13…表示部 14…音声入力部 15…音声出力部 16…音源モジュール 17…記憶部 20…制御部 21,41…ROM 22,42…RAM 23,43…CPU 25…MIDI格納サーバ 30…情報処理装置 31…通信部 32…入力受付部 33…表示部 34…記憶部 40…制御部 50…データ格納サーバ 60…音声出力端末 61…情報受付部 62…表示部 63…音出力部 64…通信部 65…記憶部 67…制御部 100…単語メタデータデータベース

【特許請求の範囲】
【請求項1】
発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字列のうち、少なくとも一つの文字の発声開始タイミングを指定する発声タイミング情報を取得するタイミング情報取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する波形取得手段と、
少なくとも、前記タイミング情報取得手段で取得した発声タイミング情報に基づいて、前記波形取得手段で取得した対象波形から、前記特定内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音節波形を抽出する音節波形抽出手段と、
前記音節波形抽出手段で抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記特定内容情報、及び前記タイミング情報取得手段で取得した発声タイミング情報に基づいて、前記音節波形によって表される音声の性質を推定し、その推定結果をメタデータとして生成するメタデータ生成手段と、
前記パラメータ導出手段で導出された音声パラメータと、前記メタデータ生成手段で生成されたメタデータとを対応する音節ごとに対応付けて、第一記憶装置に記憶するパラメータ登録手段と
を備えることを特徴とするパラメータ抽出装置。
【請求項2】
楽曲の一つである対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データを取得する楽譜データ取得手段を備え、
前記内容情報取得手段は、
前記対象楽曲の歌詞を構成する歌詞構成文字の文字列を、前記発声内容情報として取得し、
前記タイミング情報取得手段は、
前記歌詞構成文字の少なくとも1つに対する出力タイミングが、当該歌詞構成文字に対応する前記出力音の演奏開始タイミングと対応付けられた歌詞出力タイミングを、前記発声タイミング情報として取得し、
前記波形取得手段は、
前記楽譜データに基づく前記対象楽曲の演奏中に入力された音声が時間軸に沿って推移した波形を、前記対象波形として取得し、
前記音節波形抽出手段は、
前記対象波形において、個々の出力音に対応する区間での音声波形を、前記音節波形として抽出する
ことを特徴とする請求項1に記載のパラメータ抽出装置。
【請求項3】
前記楽譜データは、
前記対象楽曲の曲中において転調していれば、時間軸に沿って前記対象楽曲が転調した時刻を表す転調フラグを含み、
前記メタデータ生成手段は、
前記楽譜データ取得手段で取得した楽譜データに基づいて、前記対象楽曲において同一の調が継続される各区間である調同一区間を特定する区間特定手段と、
前記区間特定手段にて特定した各調同一区間に含まれ、それぞれの調同一区間における時間軸に沿った最後の出力音を主音として特定する主音特定手段と、
前記区間特定手段にて特定した調同一区間に含まれる同一音名の出力音の頻度を表す登場音名頻度を、前記主音特定手段で特定した主音の音名を起点として前記調同一区間毎に導出する音名頻度導出手段と、
各調にて利用可能な音名の分布を表すテンプレートとして調毎に予め用意した調テンプレートに、前記音名頻度導出手段で導出した各登場音名頻度を照合した結果、最も相関が高い調それぞれを、前記メタデータとする調推定手段と
を備えることを特徴とする請求項2に記載のパラメータ抽出装置。
【請求項4】
前記メタデータ生成手段は、
前記内容情報取得手段で取得した発声内容情報によって表される文字列を、単語を構成する文字列である単語文字ごとに分割する単語分割手段と、
各単語の性質を表す性質情報を、当該単語の識別情報と対応付けた単語性質テーブルを予め用意し、前記単語分割手段で分割された各単語文字によって表される単語に対応する前記性質情報を前記メタデータとして、前記単語性質テーブルから抽出するメタデータ抽出手段と
を備えることを特徴とする請求項1から請求項3のいずれか一項に記載のパラメータ抽出装置。
【請求項5】
前記内容情報取得手段は、
少なくとも一つの文を構成する文字列である文構成文字を、前記発声内容情報として取得し、
前記タイミング情報取得手段は、
前記文構成文字を構成する少なくとも一つの文字を、外部に出力する出力タイミングが表された情報を、前記発声タイミング情報として取得し、
前記波形取得手段は、
前記発声内容情報に基づく前記文構成文字を構成する文字列の出力中に入力された音声が時間軸に沿って推移した波形を前記対象波形として取得する
ことを特徴とする請求項1から請求項4のいずれか一項に記載のパラメータ抽出装置。
【請求項6】
発声すべき内容の文字列を表す発声内容情報を取得する内容情報取得手段と、
前記内容情報取得手段で取得した発声内容情報である特定内容情報によって表される文字列のうち、少なくとも一つの文字の発声開始タイミングを指定する発声タイミング情報を取得するタイミング情報取得手段と、
前記特定内容情報によって表される文字列について発声された音声波形である対象波形を取得する波形取得手段と、
少なくとも、前記タイミング情報取得手段で取得した発声タイミング情報に基づいて、前記波形取得手段で取得した対象波形から、前記特定内容情報によって表される文字列を形成する各音節に対して発声した音声波形である音節波形を抽出する音節波形抽出手段と、
前記音節波形抽出手段で抽出した各音節波形から、予め規定された少なくとも一つの特徴量である音声パラメータを導出するパラメータ導出手段と、
前記特定内容情報、及び前記タイミング情報取得手段で取得した発声タイミング情報に基づいて、前記音節波形によって表される音声の性質を推定し、その推定結果をメタデータとして生成するメタデータ生成手段と、
前記パラメータ導出手段で導出された音声パラメータと、前記メタデータ生成手段で生成されたメタデータとを対応する音節ごとに対応付けて、第一記憶装置に記憶するパラメータ登録手段と、
前記第一記憶装置に記憶された音声パラメータを、当該音声パラメータと対応付けられたメタデータ毎にデータ解析して、前記メタデータに対応する各音声パラメータの範囲を表すメタデータ対応テーブルを生成して、第二記憶装置に記憶するパラメータ分析手段と
を有したパラメータ抽出装置と、
外部から入力され、音の性質を表す出力性質情報を取得する出力性質情報取得手段と、
外部から入力された文言を表す出力文言を取得する文言取得手段と、
前記出力性質情報取得手段で取得した出力性質情報に対応する前記メタデータを含むメタデータ対応テーブルを前記第二記憶装置から取得すると共に、前記出力性質情報に対応する情報を有した音声パラメータを前記第一記憶装置から取得するテーブル取得手段と、
前記文言取得手段で取得した出力文言となるように、前記テーブル取得手段で取得した前記音声パラメータを前記メタデータ対応テーブルに従って音声合成する音声合成手段と、
前記音声合成手段にて音声合成することで生成された合成音を出力する出力手段と
を有した合成音出力装置と
を備えることを特徴とする音声合成システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2013−114191(P2013−114191A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−262297(P2011−262297)
【出願日】平成23年11月30日(2011.11.30)
【出願人】(000005267)ブラザー工業株式会社 (13,856)