音合成用確率モデル生成装置および特徴量軌跡生成装置
【課題】参照音の特徴量の遷移を忠実に反映した確率モデルで自然な合成音を生成する。
【解決手段】区間設定部34は、参照音の参照ピッチPrefの変動の傾向に応じた遷移種別毎(開始部B,定常部S,終了部E)に参照音を単位区間μに区分する。確率モデル生成部421は、複数の状態Stの各々について特徴量の確率分布を示す遷移種別毎の特徴量モデルQAと、複数の状態Stの各々について継続長の確率分布を示す遷移種別毎の継続長モデルQBとを、参照音のうち当該遷移種別の単位区間μにおける参照ピッチPrefの時系列から生成する。
【解決手段】区間設定部34は、参照音の参照ピッチPrefの変動の傾向に応じた遷移種別毎(開始部B,定常部S,終了部E)に参照音を単位区間μに区分する。確率モデル生成部421は、複数の状態Stの各々について特徴量の確率分布を示す遷移種別毎の特徴量モデルQAと、複数の状態Stの各々について継続長の確率分布を示す遷移種別毎の継続長モデルQBとを、参照音のうち当該遷移種別の単位区間μにおける参照ピッチPrefの時系列から生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響の特徴量(例えばピッチやパワー)の時系列を示す確率モデルの生成と、確率モデルを利用した特徴量の時系列の生成とに関連する。確率モデルから生成される特徴量の時系列は、歌唱音等の音響の合成に好適に利用される。
【背景技術】
【0002】
収録済の音響(以下「参照音」という)に近似する特徴量の変動を合成音に付与することで聴感的に自然な合成音を生成することが可能である。例えば非特許文献1には、参照音のピッチの時系列を表現する確率モデル(例えばHMM(Hidden Markov Model))を利用して合成音を生成する技術が開示されている。具体的には、参照音が音符毎に複数の音符区間に区分され、各音符区間内のピッチの時系列に対する学習処理で音符毎に確率モデルが生成される。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】酒向慎司 才野慶二郎 南角吉彦 徳田恵一 北村正,「声質と歌唱スタイルを自動学習可能な歌声合成システム」,情報処理学会研究報告[音楽情報科学],2008(12),p.39−p.44,2008年2月
【発明の概要】
【発明が解決しようとする課題】
【0004】
図13は、楽曲の歌唱音を収録した参照音のピッチPと当該楽曲の各音符V(V1,V2,V3)の音高(すなわちピッチPの目標値)との関係を示す模式図である。図13の部分(A)および部分(B)に示すように、参照音のピッチPの遷移は、音符Vの系列が共通する場合でも例えば歌唱表現に応じて相違し得る。例えば、図13の部分(A)では、音符V1と音符V2との境界の前後で参照音のピッチPが一時的に低下する(いわゆる「しゃくり」の歌唱表現)のに対し、図13の部分(B)では、音符V1から音符V2にかけてピッチPは略一定に維持される。
【0005】
非特許文献1の技術では、参照音のうち音符が共通する各音符区間内のピッチの時系列に対する学習処理で音符毎に確率モデルが生成される。例えば、図13に例示したケースでは、前述のようにピッチPの遷移が相違するにも関わらず、音符V2の確率モデルの生成には部分(A)および部分(B)の双方における音符V2の区間内のピッチPが適用される。したがって、部分(A)と部分(B)との中間的なピッチPの遷移を表現する確率モデルが生成される。以上のように実際の参照音の特性を忠実に反映しない確率モデルを利用した場合、聴感的に不自然な合成音が生成されるという問題がある。
【0006】
なお、以上の説明ではピッチの遷移を表現する確率モデルを例示したが、他の特徴量(例えばパワー)の確率モデルについても同様の問題が発生し得る。以上の事情を考慮して、本発明は、参照音における特徴量の遷移を忠実に反映した確率モデルを生成して聴感的に自然な合成音を生成することを目的とする。
【課題を解決するための手段】
【0007】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0008】
本発明の第1態様に係る音合成用確率モデル生成装置は、特徴量(例えば参照ピッチPref)の変動の傾向に応じた遷移種別毎に参照音を単位区間に区分する区間設定手段(例えば区間設定部34)と、複数の状態(例えば状態St)の各々について特徴量の確率分布を示す遷移種別毎の特徴量モデル(例えば特徴量モデルQA)を、参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成する確率モデル生成手段(例えば確率モデル生成部421)とを具備する。以上の構成においては、参照音の遷移種別毎に特徴量モデルが生成されるから、参照音の特徴量の変動傾向の相違が特徴量モデルに忠実に反映される。したがって、例えば遷移種別の相違を加味せずに参照音から特徴量モデルを生成する構成と比較すると、参照音の特性を忠実に反映した聴感的に自然な合成音を生成可能な特徴量モデルを生成できるという利点がある。
【0009】
第1態様の好適例に係る音合成用確率モデル生成装置は、確率モデル生成手段が生成した複数の特徴量モデルを複数の集合に分類し、分類で構築される特徴量決定木(例えば特徴量決定木TA)と、各集合に分類された特徴量モデルから集合毎に生成される特徴量モデル(例えば特徴量モデルMA)とを含む特徴量情報を生成する特徴量分類手段(例えば特徴量分類部423)を具備する。以上の構成においては、確率モデル生成手段が生成した特徴量モデルを分類した複数の集合の各々について当該集合内の特徴量モデルに応じた特徴量モデルが生成されるから、参照音の多数の特徴量を反映した(すなわち統計的な妥当性の高い)特徴量モデルを生成することが可能である。また、特徴量モデルの分類で構築される特徴量決定木に合成対象の指定音を適用することで、参照音に存在しない属性の指定音についても適切な特徴量モデルを選択できるという利点もある。
【0010】
本発明の第2態様に係る音合成用確率モデル生成装置は、特徴量(例えば参照ピッチPref)の変動の傾向に応じた遷移種別毎に参照音を単位区間に区分する区間設定手段(例えば区間設定部34)と、複数の状態(例えば状態St)の各々について継続長の確率分布を示す遷移種別毎の継続長モデル(例えば継続長モデルQB)を、参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成する確率モデル生成手段(例えば確率モデル生成部421)とを具備する。以上の構成においては、参照音の遷移種別毎に継続長モデルが生成されるから、参照音の特徴量の変動傾向の相違が継続長モデルに忠実に反映される。したがって、例えば遷移種別の相違を加味せずに参照音から継続長モデルを生成する構成と比較すると、参照音の特性を忠実に反映し聴感的に自然な合成音を生成可能な継続長モデルを生成することが可能である。
【0011】
第2態様の好適例に係る音合成用確率モデル生成装置は、確率モデル生成手段が生成した複数の継続長モデルを複数の集合に分類し、分類で構築される継続長決定木(例えば継続長決定木TB)と、各集合に分類された継続長モデルから集合毎に生成される継続長モデル(例えば継続長モデルMB)とを含む継続長情報を生成する継続長分類手段(例えば継続長分類部425)を具備する。以上の構成においては、確率モデル生成手段が生成した継続長モデルを分類した複数の集合の各々について当該集合内の継続長モデルに応じた継続長モデルが生成されるから、参照音の多数の特徴量を反映した(すなわち統計的な妥当性の高い)継続長モデルを生成することが可能である。また、継続長モデルの分類で構築される継続長決定木に合成対象の指定音を適用することで、参照音に存在しない属性の指定音についても適切な継続長モデルを選択できるという利点もある。
【0012】
なお、以上の各形態における遷移種別(特徴量の変動の傾向)とは、特徴量の上昇/低下や変化/維持といった特徴量の経時的な動向(挙動)を意味する。例えば、発音の始点から特徴量が経時的に目標値に接近する過程(開始部B)や、特徴量が略一定に維持される定常的な過程(定常部S)や、発音の終点にかけて特徴量が経時的に目標値から変化する過程(終了部E)が、遷移種別の典型例として例示され得る。
【0013】
第3態様に係る音合成用確率モデル生成装置は、第1態様または第2態様の構成に加えて、参照音を音符毎に区分した各音符区間内における遷移種別の配列毎の出現確率を示す遷移配列モデル(例えば遷移配列モデルQC)を、参照音のうち当該音符に対応する音符区間内の遷移種別の配列から生成する遷移配列モデル生成手段(例えば遷移配列モデル生成部441)を具備する。以上の構成においては、音符区間内の遷移種別の配列毎の出現確率を示す遷移配列モデルが生成されるから、合成対象の指定音について適切な遷移配列を決定するとともに各遷移種別に対応する確率モデル(特徴量モデル,継続長モデル)を選択できる。したがって、参照音の特性を忠実に反映し聴感的に自然な合成音を生成することが可能である。
【0014】
第3態様の好適例に係る音合成用確率モデル生成装置は、遷移配列モデル生成手段が生成した複数の遷移配列モデルを複数の集合に分類し、分類で構築される遷移配列決定木(例えば遷移配列決定木TC)と各集合に分類された遷移配列モデルから集合毎に生成される遷移配列モデル(例えば遷移配列モデルMC)とを含む遷移配列情報を生成する遷移配列分類手段(例えば遷移配列分類部443)を具備する。以上の構成においては、遷移配列モデルが生成した遷移配列モデルを分類した複数の集合の各々について当該集合内の遷移配列モデルに応じた遷移配列モデルが生成されるから、参照音の多数の特徴量を反映した(すなわち統計的な妥当性の高い)遷移配列モデルを生成することが可能である。また、遷移配列モデルの分類で構築される遷移配列決定木に合成対象の指定音を適用することで、参照音に存在しない属性の指定音についても適切な遷移配列モデルを選択できるという利点もある。
【0015】
本発明は、以上に例示した第3態様の音合成用確率モデル生成装置が生成した遷移配列モデルを利用して特徴量の時系列を生成する特徴量軌跡生成装置としても特定される。すなわち、本発明の特徴量軌跡生成装置は、特徴量の変動の傾向に応じた遷移種別の各配列が各音符の音符区間内に出現する確率を示す複数の遷移配列モデル(例えば遷移配列モデルMC)を記憶する記憶手段(例えば記憶装置14)と、複数の遷移配列モデルのうち指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別を決定し、各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列(例えば合成ピッチ軌跡Psyn)を生成する軌跡生成手段(例えば軌跡生成部52)とを具備する。以上の構成においては、指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別が決定され、各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列が生成される。したがって、例えば遷移種別の相違を加味せずに特徴量の時系列を生成する構成と比較すると、参照音の特性を忠実に反映し聴感的に自然な合成音が生成されるように特徴量の軌跡を決定することが可能である。
【0016】
また、本発明は、以上に説明した特徴量軌跡生成装置を利用した音響合成装置(例えば音響合成装置100)としても特定され得る。本発明の音響合成装置は、特徴量の変動の傾向に応じた遷移種別の各配列が各音符の音符区間内に出現する確率を示す複数の遷移配列モデル(例えば遷移配列モデルMC)を記憶する記憶手段(例えば記憶装置14)と、複数の遷移配列モデルのうち指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別を決定し、各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列(例えば合成ピッチ軌跡Psyn)を生成する軌跡生成手段(例えば軌跡生成部52)と、軌跡生成手段が生成した特徴量の時系列に沿うように音波形データ(例えば音波形データZA)を加工して合成音データ(例えば合成音データVout)を生成する合成処理手段(例えば合成処理部54)とを具備する。
【0017】
以上の各態様に係る装置(音合成用確率モデル生成装置,特徴量軌跡生成装置,音響合成装置)は、DSP(Digital Signal Processor)等の専用の電子回路で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。以上の各態様に係る装置としてコンピュータを機能させるプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0018】
【図1】本発明の実施形態に係る音響合成装置のブロック図である。
【図2】第1処理部のブロック図である。
【図3】参照音の参照ピッチの変動を例示する説明図である。
【図4】参照音の参照ピッチの他の変動を例示する説明図である。
【図5】合成用情報生成部のブロック図である。
【図6】特徴量モデルおよび継続長モデルの説明図である。
【図7】特徴量決定木の説明図である。
【図8】継続長決定木の説明図である。
【図9】遷移配列モデルの説明図である。
【図10】遷移配列決定木の説明図である。
【図11】第2処理部のブロック図である。
【図12】軌跡生成部の動作の説明図である。
【図13】背景技術における確率モデルの生成の問題点の説明図である。
【発明を実施するための形態】
【0019】
<A:実施形態>
図1は、本発明のひとつの実施形態に係る音響合成装置100のブロック図である。図1の音響合成装置100は、所望の音符および歌詞の楽曲の歌唱音を示す合成音データVoutを生成する歌唱合成装置であり、図1に示すように、演算処理装置12と記憶装置14と入力装置16とを具備するコンピュータシステムで実現される。入力装置16(例えばマウスやキーボード)は、利用者からの指示を受付ける。
【0020】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(参照用情報X,合成用情報Y,音波形情報Z,楽譜データSC)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に利用される。
【0021】
参照用情報Xは、参照音データXAと楽譜データXBとで構成されて合成用情報Yの生成(学習)に利用される。参照音データXAは、特定の歌唱者(以下「参照歌唱者」という)が楽曲を歌唱した音声(参照音)の時間領域での音波形を表現するサンプル系列である。楽譜データXBは、参照音データXAが示す楽曲の楽譜を表現する。すなわち、楽譜データXBは、参照音の音符(音名,継続長)と歌詞(発音文字)とを時系列に指定する。
【0022】
合成用情報Yは、参照歌唱者毎(あるいは参照歌唱者が歌唱する楽曲のジャンル毎)に参照用情報Xに応じて生成され、参照歌唱者の歌唱音に特有の特徴量の時系列(軌跡)を特定するために利用される。本実施形態では、合成用情報Yから特定される特徴量としてピッチ(基本周波数)を想定する。なお、参照用情報Xを利用した合成用情報Yの生成については後述する。
【0023】
音波形情報Zは、複数の音波形データZAを含んで構成される。各音波形データZAは、参照歌唱者が発声した音声素片毎に事前に生成され、音声素片の波形の特徴(例えば時間領域での波形や周波数スペクトルの形状)を表現する。音声素片は、聴覚的に区別可能な最小単位である音素または複数の音素を連結した音素連鎖である。
【0024】
楽譜データSCは、合成対象となる各指定音の音符(音名,継続長)と歌詞(発音文字)とを時系列に指定する。入力装置16に対する利用者からの指示(各指定音の追加や編集の指示)に応じて楽譜データSCが生成される。概略的には、楽譜データSCが指定する各指定音の音符および歌詞に対応する音波形データZAのピッチを、合成用情報Yに応じて生成されるピッチの時系列(以下「合成ピッチ軌跡」という)に沿うように加工することで、合成音データVoutが生成される。すなわち、合成音データVoutで表現される合成音には、参照歌唱者に特有の歌唱表現(ピッチの変動)が付加される。
【0025】
図1の演算処理装置12は、記憶装置14に格納されたプログラムPGMの実行で、合成音データVoutの生成(音声合成)に必要な複数の機能(第1処理部21,第2処理部22)を実現する。第1処理部21は、参照用情報Xを利用して合成用情報Yを生成し、第2処理部22は、合成用情報Yと音波形情報Zと楽譜データSCとを利用して合成音データVoutを生成する。なお、演算処理装置12の各機能を専用の電子回路(DSP)で実現した構成や、演算処理装置12の各機能を複数の集積回路に分散した構成も採用され得る。第1処理部21および第2処理部22の構成や動作を順次に説明する。
【0026】
(1)第1処理部21
図2は、第1処理部21のブロック図である。図2に示すように、第1処理部21は、特徴量抽出部32と区間設定部34と合成用情報生成部36とを含んで構成される。特徴量抽出部32は、参照音データXAが示す参照音のピッチ(以下「参照ピッチ」という)Prefを順次に検出する。参照ピッチPrefの検出には公知の技術が任意に採用される。なお、参照音のうち調波構造が存在しない区間(例えばピッチが検出されない子音の区間)の参照ピッチPrefは所定値(例えば前後の参照ピッチPrefの補間値)に設定される。図3には、特徴量抽出部32が検出した参照ピッチPrefの時系列と、楽譜データXBで指定される各指定音(V1,V2,……)の時系列とが、共通の時間軸のもとで図示されている。
【0027】
図2の区間設定部34は、参照音データXAが示す参照音(参照ピッチPrefの時系列)を時間軸上で複数の単位区間μに区分する。図2に示すように、本実施形態の区間設定部34は、第1区間設定部341と第2区間設定部343と識別情報設定部345とを含んで構成される。第1区間設定部341は、図3に示すように、特徴量抽出部32が検出した参照ピッチPrefの時系列を音符毎の区間(以下「音符区間」という)σに区分する。各音符区間σの設定には参照用情報Xの楽譜データXBが使用される。すなわち、第1区間設定部341は、楽譜データXBが音符毎に指定する各指定音(V1,V2,……)の始点および終点を境界として参照ピッチPrefの時系列を複数の音符区間σに区分する。
【0028】
図2の第2区間設定部343は、参照ピッチPrefの時系列の各音符区間σを遷移種別毎の単位区間μに区分する。遷移種別は、参照ピッチPrefの変動の傾向に応じた区分を意味する。本実施形態では、図3に示すように、開始部B(Beginning)と定常部S(Sustain)と終了部E(End)とを遷移種別として例示する。開始部Bは、1個の音符の発音の直後に参照ピッチPrefが当該音符の音高に接近するように変動(例えば上昇)する区間を意味し、定常部Sは、1個の音符の発音中に参照ピッチPrefが当該音符の音高に略一定に維持される区間を意味し、終了部Eは、1個の音符の発音が終了する直前に参照ピッチPrefが当該音符の音高から変動(例えば低下)する区間を意味する。
【0029】
各音符区間σでは1種以上の遷移種別が出現する。また、開始部Bが定常部Sや終了部Eの前方に位置するとともに終了部Eが開始部Bや定常部Sの後方に位置するという時間的な関係は固定である。したがって、1個の音符区間σ内で出現し得る遷移種別の配列パターン(以下「遷移配列」という)は、「B-S-E」,「B-S」,「S-E」,「B-E」,「B」,「S」,「E」の合計7種類となる。例えば、図3の指定音V1に対応する音符区間σは定常部Sの単位区間μと終了部Eの単位区間μとに区分され(遷移配列「S-E」)、指定音V2の音符区間σは開始部Bの単位区間μと定常部Sの単位区間μと終了部Eの単位区間μとに区分され(遷移配列「B-S-E」)、指定音V3の音符区間σは定常部Sの単位区間μに設定される(遷移配列「S」)。
【0030】
以上のように各音符区間σが遷移種別毎に単位区間μに区分されるから、参照音の音符の系列(すなわち楽譜データXBの各指定音の音符)が共通する場合でも、音符区間σの区分の態様(各単位区間μの個数や時間長)は、参照ピッチPrefの変動の態様(遷移種別)に応じて変化する。例えば、図3の例示のように指定音V1および指定音V2の境界の前後で参照ピッチPrefが一時的に低下する場合(すなわち「しゃくり」の歌唱表現が参照音に付与された場合)、前述のように、指定音V1に対応する音符区間σは、定常部Sと終了部Eとに対応する2個の単位区間μに区分され、指定音V2に対応する音符区間σは、開始部Bと定常部Sと終了部Eとに対応する3個の単位区間μに区分される。他方、図4のように指定音V1および指定音V2の境界の前後で参照ピッチPrefが変動しない場合、指定音V1に対応する音符区間σは定常部Sの1個の単位区間μに設定され(遷移配列「S」)、指定音V2に対応する音符区間σは、定常部Sと終了部Eとに対応する2個の単位区間μに区分される(遷移配列「S-E」)。
【0031】
各単位区間μは利用者からの指示に応じて可変に設定される。例えば、利用者は、表示装置(図示略)に表示される参照ピッチPrefの時系列(例えば図3に例示された参照ピッチPrefの時間変動)を視認するとともに放音装置(例えばスピーカ)から再生される参照音を聴取することで各時点での遷移種別を推定しながら、入力装置16を適宜に操作することで各単位区間μを指定する。第2区間設定部343は、入力装置16に対する利用者からの指示に応じて各単位区間μを設定する。
【0032】
図2の識別情報設定部345は、第2区間設定部343が区分した単位区間μ毎に識別情報Aを設定する。識別情報Aは、単位区間μの属性を示す識別子(ラベル)であり、図3に示すように音符属性a1と遷移種別a2とを含んで構成される。遷移種別a2は、当該単位区間μの遷移種別(開始部Bと定常部Sと終了部Eとの何れか)を指定する。遷移種別a2は、例えば単位区間μの設定時に入力装置16の操作で利用者が指定する。
【0033】
音符属性a1は、当該単位区間μに対応する音符(以下「対象音符」という)の属性を示す情報であり、変数p1〜p3と変数d1〜d3とを含んで構成される。変数p2は、対象音符の音名(ノートナンバ)に設定される。変数p1は、対象音符の直前の音符の音程(対象音符に対する相対値)に設定され、変数p3は対象音符の直後の音符の音程に設定される。また、変数d2は、対象音符の継続長に設定される。変数d1は対象音符の直前の音符の継続長に設定され、変数d3は対象音符の直後の音符の継続長に設定される。音符属性a1の各変数(p1〜p3,d1〜d3)は楽譜データXBから特定される。以上の説明から理解されるように、音楽的な条件が共通する複数の単位区間μについては識別情報Aが共通する。なお、音符属性a1の内容は以上の例示に限定されない。例えば、楽曲の各小節内で対象音符が何番目の拍子に該当するのか(1拍目/2拍目)を示す情報や、参照音のひと息に相当する期間における対象音符の位置(前方/後方)を示す情報など、ピッチの時系列に影響する任意の情報が音符属性a1にて指定され得る。
【0034】
図2の合成用情報生成部36は、区間設定部34(第2区間設定部343)が設定した単位区間μ毎の参照ピッチPrefの時系列を利用して合成用情報Yを生成する。図5は、合成用情報生成部36のブロック図である。図5に示すように、合成用情報生成部36は、特徴量情報YAおよび継続長情報YBを生成する第1情報生成部42と遷移配列情報YCを生成する第2情報生成部44とを具備する。特徴量情報YAと継続長情報YBと遷移配列情報YCとが図1の合成用情報Yとして記憶装置14に格納される。
【0035】
図5に示すように、第1情報生成部42は、確率モデル生成部421と特徴量分類部423と継続長分類部425とを含んで構成される。確率モデル生成部421は、各遷移種別に対応する1個の単位区間μ内でのピッチPの出現確率を表現する確率モデルQを識別情報A毎(音符属性a1と遷移種別a2との組合せ毎)に生成する。本実施形態では、図6に示すように、複数(図6の例示では3個)の状態Stで規定されるHSMM(Hidden Semi Markov Model)を確率モデルQとして例示する。確率モデルQは、特徴量モデルQAと継続長モデルQBとを含んで構成される。特徴量モデルQAは、単位区間μ内のピッチPおよびその時間変化(微分値)ΔPの確率分布(出力分布)を状態St毎に規定し、継続長モデルQBは、単位区間μ内での状態St毎の継続長Dの確率分布(継続長分布)を規定する。なお、特徴量モデルQAが状態St毎のピッチPの2階微分値の確率分布を規定する構成も好適である。
【0036】
図5の確率モデル生成部421は、識別情報Aが共通する各単位区間μ内の参照ピッチPrefの時系列に対して学習処理(最尤推定アルゴリズム)を実行することで、当該識別情報Aに対応する確率モデルQを生成する。具体的には、各単位区間μ内の参照ピッチPrefの時系列が最大の確率で出現するように確率モデルQが生成される。確率モデルQは識別情報A毎に生成される。すなわち、複数の単位区間μで音符属性a1が共通する場合でも、各単位区間μで遷移種別a2が相違するならば、遷移種別a2毎に別個の確率モデルQが生成される。
【0037】
図5の特徴量分類部423は、確率モデル生成部421が識別情報A毎に生成した特徴量モデルQAを複数(確率モデルQの総数を下回る個数)の集合に分類する。特徴量モデルQAの分類(クラスタリング)には公知の機械学習が任意に採用され得るが、以下に例示する決定木学習が好適である。
【0038】
特徴量分類部423は、識別情報Aに関連する所定の条件の成否を各特徴量モデルQAについて順次に判定することで図7の決定木(以下「特徴量決定木」という)TAを構築する。図7に示すように、特徴量決定木TAは、分類の開始点となる始端節(ルートノード)と、各条件の判定に対応する複数の中間節(中間ノード)と、各特徴量モデルQAが最終的に分類される集合に対応するKA個の終端節(リーフノード)とで構成される分類木である。始端節および各中間節では、例えば対象音符の継続長d2が閾値を上回るか否か、対象音符と直前の音符との音程p1(あるいは直後の音符との音程p3)が閾値を上回るか否か、といった条件の成否が判定される。各特徴量モデルQAの分類を停止する時点(特徴量決定木TAを確定する時点)は、例えば最小記述長(MDL:Minimum Description Length)基準に応じて決定される。
【0039】
特徴量分類部423は、特徴量決定木TAのKA個の終端節の各々について、当該終端節に分類された複数の特徴量モデルQAに応じた1個の特徴量モデルMAを生成する。具体的には、特徴量モデルQAの生成(学習)に適用された特徴量(ピッチP)を1個の終端節の複数の特徴量モデルQAについて全体的に使用して、当該終端節に対応する新規な1個の特徴量モデルMAが再推定される。例えば、各終端節に分類された複数の特徴量モデルQAの加重和が特徴量モデルMAとして生成される。図5に示すように、特徴量分類部423は、以上の方法で生成した特徴量決定木TAとKA個の特徴量モデルMAとを含む特徴量情報YAを記憶装置14に格納する。
【0040】
特徴量分類部423と同様に、図5の継続長分類部425は、確率モデル生成部421が識別情報A毎に生成した継続長モデルQBを決定木学習で複数の集合に分類する。すなわち、継続長分類部425は、識別情報Aに関連する所定の条件の成否を各継続長モデルQBについて順次に判定することで図8の決定木(以下「継続長決定木」という)TBを構築する。継続長決定木TBの構築時に判定される条件や継続長決定木TBの構築を停止する基準は、特徴量決定木TAの構築時と同様である。継続長分類部425は、確定済の継続長決定木TBのKB個の終端節の各々について、当該終端節に分類された複数の継続長モデルQBに応じた1個の継続長モデルMB(例えば複数の継続長モデルQBの加重和)を生成する。そして、継続長分類部425は、図5に示すように、継続長決定木TBとKB個の継続長モデルMBとを含む継続長情報YBを記憶装置14に格納する。
【0041】
図5の第2情報生成部44は、遷移配列モデル生成部441と遷移配列分類部443とを含んで構成される。遷移配列モデル生成部441は、識別情報A内の音符属性a1毎(音符属性a1が共通する音符区間σ毎)に遷移配列モデルQCを生成する。各音符属性a1に対応する遷移配列モデルQCは、図9の例示のように、合計7種類の遷移配列(「B-S-E」,「B-S」,「S-E」,「B-E」,「B」,「S」,「E」)の各々が当該音符属性a1の音符区間σ内にて出現する確率(離散確率)を示す確率モデルである。
【0042】
音符属性a1が共通する各音符区間σにて各遷移配列が出現する頻度に応じて当該音符属性a1の遷移配列モデルQCが生成される。すなわち、各音符属性a1の遷移配列モデルQCのうち当該音符属性a1の各音符区間σについて多く出現した遷移配列の出現確率ほど大きい数値に設定される。例えば、音符属性a1が共通する2個の音符区間σのうち一方の音符区間σの遷移配列が図3の指定音V2のように「B-S-E」であり、他方の音符区間σの遷移配列が図4の指定音V2のように「S-E」である場合、当該音符属性a1の遷移配列モデルQCでは、遷移配列「B-S-E」および遷移配列「S-E」の各々の出現確率が0.5に設定され、他の遷移配列の出現確率が0に設定される。
【0043】
図5の遷移配列分類部443は、遷移配列モデル生成部441が音符属性a1毎(音符区間σ毎)に生成した遷移配列モデルQCを複数(遷移配列モデルQCの総数を下回る個数)の集合に分類する。遷移配列モデルQCの分類には公知の機械学習が任意に採用され得るが、特徴量分類部423や継続長分類部425での分類と同様に、以下に説明する決定木学習が好適である。
【0044】
遷移配列分類部443は、識別情報Aに関連する所定の条件の成否を各遷移配列モデルQCについて順次に判定することで図10の決定木(以下「遷移配列決定木」という)TCを構築する。前述の特徴量決定木TAや継続長決定木TBと同様に、遷移配列決定木TCは、始端節および複数の中間節と、各遷移配列モデルQCが最終的に分類される集合に対応するKC個の終端節とで構成される分類木である。
【0045】
音符区間σ内の遷移配列は、対象音符の時間長d2や対象音符と前後の音符との音程(p1,p2)等に影響される。例えば、対象音符の時間長d2が長いほど音符区間σ内の遷移種別の総数が増加するという傾向や、対象音符と前後の音符との音程(音高差)が大きいほど音符区間σ内の遷移種別の総数が増加するという傾向がある。以上の傾向を考慮して、遷移配列分類部443は、特徴量分類部423や継続長分類部425と同様に、例えば対象音符の継続長d2が閾値を上回るか否か、対象音符と直前の音符との音程p1(あるいは直後の音符との音程p3)が閾値を上回るか否か、といった様々な条件の成否を、始端節および各中間節にて判定する。各遷移配列モデルQCの分類を停止する時点(遷移配列決定木TCを確定する時点)の判定には、例えば最小記述長(MDL)基準が好適に適用される。
【0046】
遷移配列分類部443は、遷移配列決定木TCのKC個の終端節の各々について、当該終端節に分類された複数の遷移配列モデルQCに応じた1個の遷移配列モデルMCを生成する。例えば、各終端節に分類された複数の遷移配列モデルQCの加重和が遷移配列モデルMCとして生成される。遷移配列分類部443は、図5に示すように、以上の方法で生成した遷移配列決定木TCとKC個の遷移配列モデルMCとを含む遷移配列情報YCを記憶装置14に格納する。以上が第1処理部21の構成および動作である。
【0047】
(2)第2処理部22
図11は、合成音データVoutを生成する第2処理部22のブロック図である。図11に示すように、第2処理部22は、軌跡生成部52と合成処理部54とを含んで構成される。軌跡生成部52は、楽譜データSCが指定する各指定音のピッチの時系列(合成ピッチ軌跡)Psynを合成用情報Yから生成する。合成処理部54は、軌跡生成部52が生成した合成ピッチ軌跡Psynに沿うようにピッチが時間的に変化する歌唱音の合成音データVoutを生成する。具体的には、合成処理部54は、楽譜データSCが示す各指定音の歌詞に対応する音波形データZAを記憶装置14から取得し、合成ピッチ軌跡Psynに沿ってピッチが経時的に変化するように音波形データZAを加工することで合成音データVoutを生成する。したがって、合成音データVoutの再生音は、参照音を発声した参照歌唱者に特有の歌唱表現(ピッチ軌跡)が付加された歌唱音となる。
【0048】
図12は、軌跡生成部52の動作の説明図である。図12の処理は、入力装置16に対する所定の操作(合成音の生成の開始指示)を契機として開始されて楽譜データSCの指定音毎に順次に実行される。
【0049】
図12の処理を開始すると、軌跡生成部52は、楽譜データSCを参照することで指定音の音符属性a1(変数p1〜p3,変数d1〜d3)を決定する(S11)。そして、軌跡生成部52は、記憶装置14に記憶された合成用情報Yの遷移配列情報YC内のKC個の遷移配列モデルMCのうち指定音の音符属性a1に相応する1個の遷移配列モデルMCを選択する(S12)。遷移配列モデルMCの選択には遷移配列情報YC内の遷移配列決定木TCが利用される。すなわち、軌跡生成部52は、指定音の音符属性a1を遷移配列決定木TCに適用する(遷移配列決定木TCの始端節および各中間節の条件の成否を指定音の音符属性a1について順次に判定する)ことで指定音が所属すべき終端節(集合)を特定し、当該終端節に対応する遷移配列モデルMCを遷移配列情報YCから選択する。すなわち、参照音のうち指定音の音符属性a1に類似する音符属性a1の音符区間σから生成された遷移配列モデルMCが選択される。
【0050】
軌跡生成部52は、処理S12で選択した遷移配列モデルMCに応じて指定音の遷移配列を決定する(S13)。具体的には、処理S11で設定した音符属性a1が共通する各指定音について処理S13で各遷移配列を決定する確率が、遷移配列モデルMCで遷移配列毎に規定される出現確率に近似するように、軌跡生成部52は指定音の遷移配列を決定する。すなわち、遷移配列モデルMCで規定される出現確率が高い遷移配列ほど、指定音の遷移配列として高確率で選択される。そして、軌跡生成部52は、処理S13で決定した遷移配列を構成する遷移種別毎に指定音の単位区間μを設定する。例えば、処理S13で選定された遷移配列が「B-S-E」である場合には、各遷移種別に対応する3個の単位区間μが1個の指定音について設定される。軌跡生成部52は、指定音の単位区間μ毎に、当該指定音の音符属性a1と当該単位区間μについて決定した遷移種別a2とを含む識別情報Aを設定する。
【0051】
軌跡生成部52は、特徴量情報YA内のKA個の特徴量モデルMAのうち指定音の識別情報Aに相応する特徴量モデルMAを指定音の単位区間μ毎に選択する(S14)。具体的には、軌跡生成部52は、指定音の識別情報Aを特徴量情報YAの特徴量決定木TAに適用することで指定音の識別情報Aが所属すべき終端節(集合)を特定し、当該終端節に対応する1個の特徴量モデルMAを特徴量情報YAから選択する。同様に、軌跡生成部52は、継続長情報YBの継続長決定木TBに指定音の識別情報Aを適用することで、継続長情報YB内のKB個の継続長モデルMBのうち指定音の識別情報Aに相応する1個の継続長モデルMBを指定音の単位区間μ毎に選択する(S15)。
【0052】
そして、軌跡生成部52は、処理S14で選択した特徴量モデルMAと処理S15で選択した継続長モデルMBとを利用して指定音の各単位区間μ内の合成ピッチ軌跡Psynを生成する(S16)。具体的には、単位区間μ内の各状態Stの継続長Dを継続長モデルMBに応じて決定し、特徴量モデルMAで規定されるピッチPの確率分布と時間変化ΔPの確率分布とにおいて同時確率が最大化するように単位区間μ毎の合成ピッチ軌跡Psynが生成される。以上の手順で単位区間μ毎に生成された合成ピッチ軌跡Psynを時間軸上で相互に連結することで指定音の合成ピッチ軌跡Psynが生成される。
【0053】
以上の形態では、参照音を遷移種別に応じて区分した単位区間μ内の参照ピッチPrefの時系列を利用して遷移種別毎に特徴量モデルQAおよび継続長モデルQBが生成されるから、参照音の音符(音符属性a1)が共通する場合でも、参照ピッチPrefの変動の相違が特徴量モデルQAや継続長モデルQB(さらには特徴量モデルMAや継続長モデルMB)に忠実に反映される。また、楽譜データSC内の指定音の各単位区間μの遷移種別が遷移配列モデルMCに応じて決定され、当該遷移種別に対応する特徴量モデルQAおよび継続長モデルQBに応じた合成ピッチ軌跡Psynが指定音の単位区間μ毎に生成される。したがって、参照音の参照ピッチPrefの変動の相違が忠実に反映されない確率モデルを利用する場合と比較して、参照歌唱者に特有の表現を忠実に反映した合成音を、聴感的な自然性を維持しながら生成することが可能である。
【0054】
<B:変形例>
以上の実施形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0055】
(1)変形例1
参照音を音符区間σや単位区間μに区分する方法は適宜に変更される。例えば、前述の実施形態では楽譜データXBに応じて参照音を各音符区間σに区分したが、利用者からの指示に応じて各音符区間σを設定する構成も採用され得る。例えば、利用者は、表示装置に表示される参照音の波形を視認するとともに放音装置から再生される参照音を聴取することで各音符の境界を推定しながら、入力装置16を適宜に操作して各音符区間σを指定する。第1区間設定部341は、利用者からの指示に応じて各音符区間σを設定する。利用者が各音符区間σを指定する構成では、楽譜データXBは省略され得る。
【0056】
また、前述の実施形態では利用者からの指示に応じて参照音の各単位区間μを設定したが、第2区間設定部343が参照音データXAに応じて自動的に(すなわち利用者からの指示を必要とせずに)各単位区間μを設定する構成も採用され得る。例えば、第2区間設定部343は、音符区間σの始点の直後で参照ピッチPrefが変動する区間を開始部Bの単位区間μとして設定する。同様に、参照ピッチPrefが略一定に維持される区間が定常部Sの単位区間μに設定され、音符区間σの終点にかけて参照ピッチPrefが変動する区間が終了部Eの単位区間μに設定される。
【0057】
(2)変形例2
前述の実施形態では、遷移配列モデルQCの分類の結果に応じてKC個の遷移配列モデルMCを生成したが、未分類の遷移配列モデルQCを遷移配列情報YCとして指定音の合成に適用する構成(以下「構成A」という)も採用され得る。指定音に指示された音符に対応する遷移配列モデルQCを利用して指定音の遷移配列が決定される。構成Aでは遷移配列分類部443(遷移配列モデルMCや遷移配列決定木TC)が省略されるから、第1処理部21の構成が簡素化されるという利点がある。
【0058】
ただし、構成Aでは、1個の遷移配列モデルQCの生成に利用される参照ピッチPrefの個数が不足するため、遷移配列モデルQCの統計的な妥当性を担保することが困難となる。また、全種類の音符属性a1について遷移配列モデルQCを用意することが現実的には困難である以上、遷移配列モデルQCが用意されていない音符属性a1の指定音を合成できないという問題もある。前述の実施形態では、遷移配列モデルQCの分類の結果に応じてKC個の遷移配列モデルMCが生成される(すなわち遷移配列モデルQCと比較して1個の遷移配列モデルMCに多数の参照ピッチPrefが反映される)から、遷移配列モデルMCの統計的な妥当性を充分に担保することが可能である。また、合成時に指定音を遷移配列決定木TCに適用することで指定音の遷移配列が決定される(S13)から、参照音に存在しない音符の指定音についても、聴感的に自然な合成音の生成を実現し得る適切な遷移配列を選択できるという利点がある。
【0059】
前述の構成Aと同様に、特徴量モデルQAや継続長モデルQBを指定音の合成に適用する構成(特徴量分類部423や継続長分類部425を省略した構成)も採用され得るが、確率モデルQの統計的な妥当性を担保して聴感的に自然な合成音を合成するという観点からは、前述の実施形態の例示のように特徴量モデルQAの分類で生成された特徴量モデルMAや継続長モデルQBの分類で生成された継続長モデルMBを指定音の合成に利用する構成が格別に好適である。
【0060】
(3)変形例3
前述の実施形態では、記憶装置14に格納された参照音データXAから特徴量抽出部32が参照ピッチPrefを抽出したが、参照音から事前に抽出された参照ピッチPrefの時系列を記憶装置14に格納した構成(したがって特徴量抽出部32は省略される)も採用され得る。また、参照音を事前に各音符区間σに区分して記憶装置14に格納した構成(したがって第1区間設定部341は省略される)も採用され得る。
【0061】
(4)変形例4
前述の実施形態では第1処理部21と第2処理部22とを具備する音響合成装置100を例示したが、合成用情報Y(特徴量情報YA,継続長情報YB,遷移配列情報YC)を生成する第1処理部21を具備する音合成用確率モデル生成装置(第2処理部22を省略した装置)や、合成用情報Yを利用して合成音データVoutを生成する第2処理部22を具備する音響合成装置(第1処理部21を省略した装置)としても本発明は実施され得る。また、合成用情報Yを記憶する記憶装置14と第2処理部22の軌跡生成部52とを具備する装置(合成処理部54を省略した構成)は、合成音の特徴量の時系列(例えば合成ピッチ軌跡Psyn)を生成する特徴量軌跡生成装置としても把握され得る。
【0062】
(5)変形例5
前述の実施形態では参照音の参照ピッチPrefの時系列から合成用情報Yを生成するとともに合成用情報Yから合成ピッチ軌跡Psynを生成したが、合成用情報Yの生成に利用される参照音の特徴量や合成用情報Yから生成される指定音の特徴量はピッチ(基本周波数)に限定されない。例えば、参照音のパワーの時系列から合成用情報Yを生成するとともに合成用情報Yから指定音のパワーの時系列(合成パワー軌跡)を生成する構成も採用され得る。また、指定音のMFCC(Mel-Frequency cepstral coefficient)等の特徴量の生成にも、前述の実施形態と同様に本発明を適用することが可能である。
【0063】
なお、特徴量は参照音から直接的に抽出される数値に限定されない。例えば、所定の目標値に対する参照音の特徴量の相対値を利用して合成用情報Yを生成する構成も採用され得る。具体的には、所定の目標値(例えば参照音の音符の音高)に対する参照音の参照ピッチPrefの相対値から合成用情報Yを生成し、合成用情報Yに応じて生成されるピッチの相対値と指定音の音符の音高とから合成ピッチ軌跡Psynを生成する構成が採用される。
【0064】
(6)変形例6
前述の実施形態では歌唱音の合成を例示したが、本発明が適用される範囲は歌唱音の合成に限定されない。例えば、楽器の演奏音(楽音)を合成する場合にも、前述の実施形態と同様に本発明を適用することが可能である。
【符号の説明】
【0065】
100……音響合成装置、12……演算処理装置、14……記憶装置、16……入力装置、21……第1処理部、22……第2処理部、32……特徴量抽出部、34……区間設定部、341……第1区間設定部、343……第2区間設定部、345……識別情報設定部、36……合成用情報生成部、42……第1情報生成部、421……確率モデル生成部、423……特徴量分類部、425……継続長分類部、44……第2情報生成部、441……遷移配列モデル生成部、443……遷移配列分類部、52……軌跡生成部、54……合成処理部。
【技術分野】
【0001】
本発明は、音響の特徴量(例えばピッチやパワー)の時系列を示す確率モデルの生成と、確率モデルを利用した特徴量の時系列の生成とに関連する。確率モデルから生成される特徴量の時系列は、歌唱音等の音響の合成に好適に利用される。
【背景技術】
【0002】
収録済の音響(以下「参照音」という)に近似する特徴量の変動を合成音に付与することで聴感的に自然な合成音を生成することが可能である。例えば非特許文献1には、参照音のピッチの時系列を表現する確率モデル(例えばHMM(Hidden Markov Model))を利用して合成音を生成する技術が開示されている。具体的には、参照音が音符毎に複数の音符区間に区分され、各音符区間内のピッチの時系列に対する学習処理で音符毎に確率モデルが生成される。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】酒向慎司 才野慶二郎 南角吉彦 徳田恵一 北村正,「声質と歌唱スタイルを自動学習可能な歌声合成システム」,情報処理学会研究報告[音楽情報科学],2008(12),p.39−p.44,2008年2月
【発明の概要】
【発明が解決しようとする課題】
【0004】
図13は、楽曲の歌唱音を収録した参照音のピッチPと当該楽曲の各音符V(V1,V2,V3)の音高(すなわちピッチPの目標値)との関係を示す模式図である。図13の部分(A)および部分(B)に示すように、参照音のピッチPの遷移は、音符Vの系列が共通する場合でも例えば歌唱表現に応じて相違し得る。例えば、図13の部分(A)では、音符V1と音符V2との境界の前後で参照音のピッチPが一時的に低下する(いわゆる「しゃくり」の歌唱表現)のに対し、図13の部分(B)では、音符V1から音符V2にかけてピッチPは略一定に維持される。
【0005】
非特許文献1の技術では、参照音のうち音符が共通する各音符区間内のピッチの時系列に対する学習処理で音符毎に確率モデルが生成される。例えば、図13に例示したケースでは、前述のようにピッチPの遷移が相違するにも関わらず、音符V2の確率モデルの生成には部分(A)および部分(B)の双方における音符V2の区間内のピッチPが適用される。したがって、部分(A)と部分(B)との中間的なピッチPの遷移を表現する確率モデルが生成される。以上のように実際の参照音の特性を忠実に反映しない確率モデルを利用した場合、聴感的に不自然な合成音が生成されるという問題がある。
【0006】
なお、以上の説明ではピッチの遷移を表現する確率モデルを例示したが、他の特徴量(例えばパワー)の確率モデルについても同様の問題が発生し得る。以上の事情を考慮して、本発明は、参照音における特徴量の遷移を忠実に反映した確率モデルを生成して聴感的に自然な合成音を生成することを目的とする。
【課題を解決するための手段】
【0007】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0008】
本発明の第1態様に係る音合成用確率モデル生成装置は、特徴量(例えば参照ピッチPref)の変動の傾向に応じた遷移種別毎に参照音を単位区間に区分する区間設定手段(例えば区間設定部34)と、複数の状態(例えば状態St)の各々について特徴量の確率分布を示す遷移種別毎の特徴量モデル(例えば特徴量モデルQA)を、参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成する確率モデル生成手段(例えば確率モデル生成部421)とを具備する。以上の構成においては、参照音の遷移種別毎に特徴量モデルが生成されるから、参照音の特徴量の変動傾向の相違が特徴量モデルに忠実に反映される。したがって、例えば遷移種別の相違を加味せずに参照音から特徴量モデルを生成する構成と比較すると、参照音の特性を忠実に反映した聴感的に自然な合成音を生成可能な特徴量モデルを生成できるという利点がある。
【0009】
第1態様の好適例に係る音合成用確率モデル生成装置は、確率モデル生成手段が生成した複数の特徴量モデルを複数の集合に分類し、分類で構築される特徴量決定木(例えば特徴量決定木TA)と、各集合に分類された特徴量モデルから集合毎に生成される特徴量モデル(例えば特徴量モデルMA)とを含む特徴量情報を生成する特徴量分類手段(例えば特徴量分類部423)を具備する。以上の構成においては、確率モデル生成手段が生成した特徴量モデルを分類した複数の集合の各々について当該集合内の特徴量モデルに応じた特徴量モデルが生成されるから、参照音の多数の特徴量を反映した(すなわち統計的な妥当性の高い)特徴量モデルを生成することが可能である。また、特徴量モデルの分類で構築される特徴量決定木に合成対象の指定音を適用することで、参照音に存在しない属性の指定音についても適切な特徴量モデルを選択できるという利点もある。
【0010】
本発明の第2態様に係る音合成用確率モデル生成装置は、特徴量(例えば参照ピッチPref)の変動の傾向に応じた遷移種別毎に参照音を単位区間に区分する区間設定手段(例えば区間設定部34)と、複数の状態(例えば状態St)の各々について継続長の確率分布を示す遷移種別毎の継続長モデル(例えば継続長モデルQB)を、参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成する確率モデル生成手段(例えば確率モデル生成部421)とを具備する。以上の構成においては、参照音の遷移種別毎に継続長モデルが生成されるから、参照音の特徴量の変動傾向の相違が継続長モデルに忠実に反映される。したがって、例えば遷移種別の相違を加味せずに参照音から継続長モデルを生成する構成と比較すると、参照音の特性を忠実に反映し聴感的に自然な合成音を生成可能な継続長モデルを生成することが可能である。
【0011】
第2態様の好適例に係る音合成用確率モデル生成装置は、確率モデル生成手段が生成した複数の継続長モデルを複数の集合に分類し、分類で構築される継続長決定木(例えば継続長決定木TB)と、各集合に分類された継続長モデルから集合毎に生成される継続長モデル(例えば継続長モデルMB)とを含む継続長情報を生成する継続長分類手段(例えば継続長分類部425)を具備する。以上の構成においては、確率モデル生成手段が生成した継続長モデルを分類した複数の集合の各々について当該集合内の継続長モデルに応じた継続長モデルが生成されるから、参照音の多数の特徴量を反映した(すなわち統計的な妥当性の高い)継続長モデルを生成することが可能である。また、継続長モデルの分類で構築される継続長決定木に合成対象の指定音を適用することで、参照音に存在しない属性の指定音についても適切な継続長モデルを選択できるという利点もある。
【0012】
なお、以上の各形態における遷移種別(特徴量の変動の傾向)とは、特徴量の上昇/低下や変化/維持といった特徴量の経時的な動向(挙動)を意味する。例えば、発音の始点から特徴量が経時的に目標値に接近する過程(開始部B)や、特徴量が略一定に維持される定常的な過程(定常部S)や、発音の終点にかけて特徴量が経時的に目標値から変化する過程(終了部E)が、遷移種別の典型例として例示され得る。
【0013】
第3態様に係る音合成用確率モデル生成装置は、第1態様または第2態様の構成に加えて、参照音を音符毎に区分した各音符区間内における遷移種別の配列毎の出現確率を示す遷移配列モデル(例えば遷移配列モデルQC)を、参照音のうち当該音符に対応する音符区間内の遷移種別の配列から生成する遷移配列モデル生成手段(例えば遷移配列モデル生成部441)を具備する。以上の構成においては、音符区間内の遷移種別の配列毎の出現確率を示す遷移配列モデルが生成されるから、合成対象の指定音について適切な遷移配列を決定するとともに各遷移種別に対応する確率モデル(特徴量モデル,継続長モデル)を選択できる。したがって、参照音の特性を忠実に反映し聴感的に自然な合成音を生成することが可能である。
【0014】
第3態様の好適例に係る音合成用確率モデル生成装置は、遷移配列モデル生成手段が生成した複数の遷移配列モデルを複数の集合に分類し、分類で構築される遷移配列決定木(例えば遷移配列決定木TC)と各集合に分類された遷移配列モデルから集合毎に生成される遷移配列モデル(例えば遷移配列モデルMC)とを含む遷移配列情報を生成する遷移配列分類手段(例えば遷移配列分類部443)を具備する。以上の構成においては、遷移配列モデルが生成した遷移配列モデルを分類した複数の集合の各々について当該集合内の遷移配列モデルに応じた遷移配列モデルが生成されるから、参照音の多数の特徴量を反映した(すなわち統計的な妥当性の高い)遷移配列モデルを生成することが可能である。また、遷移配列モデルの分類で構築される遷移配列決定木に合成対象の指定音を適用することで、参照音に存在しない属性の指定音についても適切な遷移配列モデルを選択できるという利点もある。
【0015】
本発明は、以上に例示した第3態様の音合成用確率モデル生成装置が生成した遷移配列モデルを利用して特徴量の時系列を生成する特徴量軌跡生成装置としても特定される。すなわち、本発明の特徴量軌跡生成装置は、特徴量の変動の傾向に応じた遷移種別の各配列が各音符の音符区間内に出現する確率を示す複数の遷移配列モデル(例えば遷移配列モデルMC)を記憶する記憶手段(例えば記憶装置14)と、複数の遷移配列モデルのうち指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別を決定し、各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列(例えば合成ピッチ軌跡Psyn)を生成する軌跡生成手段(例えば軌跡生成部52)とを具備する。以上の構成においては、指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別が決定され、各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列が生成される。したがって、例えば遷移種別の相違を加味せずに特徴量の時系列を生成する構成と比較すると、参照音の特性を忠実に反映し聴感的に自然な合成音が生成されるように特徴量の軌跡を決定することが可能である。
【0016】
また、本発明は、以上に説明した特徴量軌跡生成装置を利用した音響合成装置(例えば音響合成装置100)としても特定され得る。本発明の音響合成装置は、特徴量の変動の傾向に応じた遷移種別の各配列が各音符の音符区間内に出現する確率を示す複数の遷移配列モデル(例えば遷移配列モデルMC)を記憶する記憶手段(例えば記憶装置14)と、複数の遷移配列モデルのうち指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別を決定し、各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列(例えば合成ピッチ軌跡Psyn)を生成する軌跡生成手段(例えば軌跡生成部52)と、軌跡生成手段が生成した特徴量の時系列に沿うように音波形データ(例えば音波形データZA)を加工して合成音データ(例えば合成音データVout)を生成する合成処理手段(例えば合成処理部54)とを具備する。
【0017】
以上の各態様に係る装置(音合成用確率モデル生成装置,特徴量軌跡生成装置,音響合成装置)は、DSP(Digital Signal Processor)等の専用の電子回路で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。以上の各態様に係る装置としてコンピュータを機能させるプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0018】
【図1】本発明の実施形態に係る音響合成装置のブロック図である。
【図2】第1処理部のブロック図である。
【図3】参照音の参照ピッチの変動を例示する説明図である。
【図4】参照音の参照ピッチの他の変動を例示する説明図である。
【図5】合成用情報生成部のブロック図である。
【図6】特徴量モデルおよび継続長モデルの説明図である。
【図7】特徴量決定木の説明図である。
【図8】継続長決定木の説明図である。
【図9】遷移配列モデルの説明図である。
【図10】遷移配列決定木の説明図である。
【図11】第2処理部のブロック図である。
【図12】軌跡生成部の動作の説明図である。
【図13】背景技術における確率モデルの生成の問題点の説明図である。
【発明を実施するための形態】
【0019】
<A:実施形態>
図1は、本発明のひとつの実施形態に係る音響合成装置100のブロック図である。図1の音響合成装置100は、所望の音符および歌詞の楽曲の歌唱音を示す合成音データVoutを生成する歌唱合成装置であり、図1に示すように、演算処理装置12と記憶装置14と入力装置16とを具備するコンピュータシステムで実現される。入力装置16(例えばマウスやキーボード)は、利用者からの指示を受付ける。
【0020】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(参照用情報X,合成用情報Y,音波形情報Z,楽譜データSC)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に利用される。
【0021】
参照用情報Xは、参照音データXAと楽譜データXBとで構成されて合成用情報Yの生成(学習)に利用される。参照音データXAは、特定の歌唱者(以下「参照歌唱者」という)が楽曲を歌唱した音声(参照音)の時間領域での音波形を表現するサンプル系列である。楽譜データXBは、参照音データXAが示す楽曲の楽譜を表現する。すなわち、楽譜データXBは、参照音の音符(音名,継続長)と歌詞(発音文字)とを時系列に指定する。
【0022】
合成用情報Yは、参照歌唱者毎(あるいは参照歌唱者が歌唱する楽曲のジャンル毎)に参照用情報Xに応じて生成され、参照歌唱者の歌唱音に特有の特徴量の時系列(軌跡)を特定するために利用される。本実施形態では、合成用情報Yから特定される特徴量としてピッチ(基本周波数)を想定する。なお、参照用情報Xを利用した合成用情報Yの生成については後述する。
【0023】
音波形情報Zは、複数の音波形データZAを含んで構成される。各音波形データZAは、参照歌唱者が発声した音声素片毎に事前に生成され、音声素片の波形の特徴(例えば時間領域での波形や周波数スペクトルの形状)を表現する。音声素片は、聴覚的に区別可能な最小単位である音素または複数の音素を連結した音素連鎖である。
【0024】
楽譜データSCは、合成対象となる各指定音の音符(音名,継続長)と歌詞(発音文字)とを時系列に指定する。入力装置16に対する利用者からの指示(各指定音の追加や編集の指示)に応じて楽譜データSCが生成される。概略的には、楽譜データSCが指定する各指定音の音符および歌詞に対応する音波形データZAのピッチを、合成用情報Yに応じて生成されるピッチの時系列(以下「合成ピッチ軌跡」という)に沿うように加工することで、合成音データVoutが生成される。すなわち、合成音データVoutで表現される合成音には、参照歌唱者に特有の歌唱表現(ピッチの変動)が付加される。
【0025】
図1の演算処理装置12は、記憶装置14に格納されたプログラムPGMの実行で、合成音データVoutの生成(音声合成)に必要な複数の機能(第1処理部21,第2処理部22)を実現する。第1処理部21は、参照用情報Xを利用して合成用情報Yを生成し、第2処理部22は、合成用情報Yと音波形情報Zと楽譜データSCとを利用して合成音データVoutを生成する。なお、演算処理装置12の各機能を専用の電子回路(DSP)で実現した構成や、演算処理装置12の各機能を複数の集積回路に分散した構成も採用され得る。第1処理部21および第2処理部22の構成や動作を順次に説明する。
【0026】
(1)第1処理部21
図2は、第1処理部21のブロック図である。図2に示すように、第1処理部21は、特徴量抽出部32と区間設定部34と合成用情報生成部36とを含んで構成される。特徴量抽出部32は、参照音データXAが示す参照音のピッチ(以下「参照ピッチ」という)Prefを順次に検出する。参照ピッチPrefの検出には公知の技術が任意に採用される。なお、参照音のうち調波構造が存在しない区間(例えばピッチが検出されない子音の区間)の参照ピッチPrefは所定値(例えば前後の参照ピッチPrefの補間値)に設定される。図3には、特徴量抽出部32が検出した参照ピッチPrefの時系列と、楽譜データXBで指定される各指定音(V1,V2,……)の時系列とが、共通の時間軸のもとで図示されている。
【0027】
図2の区間設定部34は、参照音データXAが示す参照音(参照ピッチPrefの時系列)を時間軸上で複数の単位区間μに区分する。図2に示すように、本実施形態の区間設定部34は、第1区間設定部341と第2区間設定部343と識別情報設定部345とを含んで構成される。第1区間設定部341は、図3に示すように、特徴量抽出部32が検出した参照ピッチPrefの時系列を音符毎の区間(以下「音符区間」という)σに区分する。各音符区間σの設定には参照用情報Xの楽譜データXBが使用される。すなわち、第1区間設定部341は、楽譜データXBが音符毎に指定する各指定音(V1,V2,……)の始点および終点を境界として参照ピッチPrefの時系列を複数の音符区間σに区分する。
【0028】
図2の第2区間設定部343は、参照ピッチPrefの時系列の各音符区間σを遷移種別毎の単位区間μに区分する。遷移種別は、参照ピッチPrefの変動の傾向に応じた区分を意味する。本実施形態では、図3に示すように、開始部B(Beginning)と定常部S(Sustain)と終了部E(End)とを遷移種別として例示する。開始部Bは、1個の音符の発音の直後に参照ピッチPrefが当該音符の音高に接近するように変動(例えば上昇)する区間を意味し、定常部Sは、1個の音符の発音中に参照ピッチPrefが当該音符の音高に略一定に維持される区間を意味し、終了部Eは、1個の音符の発音が終了する直前に参照ピッチPrefが当該音符の音高から変動(例えば低下)する区間を意味する。
【0029】
各音符区間σでは1種以上の遷移種別が出現する。また、開始部Bが定常部Sや終了部Eの前方に位置するとともに終了部Eが開始部Bや定常部Sの後方に位置するという時間的な関係は固定である。したがって、1個の音符区間σ内で出現し得る遷移種別の配列パターン(以下「遷移配列」という)は、「B-S-E」,「B-S」,「S-E」,「B-E」,「B」,「S」,「E」の合計7種類となる。例えば、図3の指定音V1に対応する音符区間σは定常部Sの単位区間μと終了部Eの単位区間μとに区分され(遷移配列「S-E」)、指定音V2の音符区間σは開始部Bの単位区間μと定常部Sの単位区間μと終了部Eの単位区間μとに区分され(遷移配列「B-S-E」)、指定音V3の音符区間σは定常部Sの単位区間μに設定される(遷移配列「S」)。
【0030】
以上のように各音符区間σが遷移種別毎に単位区間μに区分されるから、参照音の音符の系列(すなわち楽譜データXBの各指定音の音符)が共通する場合でも、音符区間σの区分の態様(各単位区間μの個数や時間長)は、参照ピッチPrefの変動の態様(遷移種別)に応じて変化する。例えば、図3の例示のように指定音V1および指定音V2の境界の前後で参照ピッチPrefが一時的に低下する場合(すなわち「しゃくり」の歌唱表現が参照音に付与された場合)、前述のように、指定音V1に対応する音符区間σは、定常部Sと終了部Eとに対応する2個の単位区間μに区分され、指定音V2に対応する音符区間σは、開始部Bと定常部Sと終了部Eとに対応する3個の単位区間μに区分される。他方、図4のように指定音V1および指定音V2の境界の前後で参照ピッチPrefが変動しない場合、指定音V1に対応する音符区間σは定常部Sの1個の単位区間μに設定され(遷移配列「S」)、指定音V2に対応する音符区間σは、定常部Sと終了部Eとに対応する2個の単位区間μに区分される(遷移配列「S-E」)。
【0031】
各単位区間μは利用者からの指示に応じて可変に設定される。例えば、利用者は、表示装置(図示略)に表示される参照ピッチPrefの時系列(例えば図3に例示された参照ピッチPrefの時間変動)を視認するとともに放音装置(例えばスピーカ)から再生される参照音を聴取することで各時点での遷移種別を推定しながら、入力装置16を適宜に操作することで各単位区間μを指定する。第2区間設定部343は、入力装置16に対する利用者からの指示に応じて各単位区間μを設定する。
【0032】
図2の識別情報設定部345は、第2区間設定部343が区分した単位区間μ毎に識別情報Aを設定する。識別情報Aは、単位区間μの属性を示す識別子(ラベル)であり、図3に示すように音符属性a1と遷移種別a2とを含んで構成される。遷移種別a2は、当該単位区間μの遷移種別(開始部Bと定常部Sと終了部Eとの何れか)を指定する。遷移種別a2は、例えば単位区間μの設定時に入力装置16の操作で利用者が指定する。
【0033】
音符属性a1は、当該単位区間μに対応する音符(以下「対象音符」という)の属性を示す情報であり、変数p1〜p3と変数d1〜d3とを含んで構成される。変数p2は、対象音符の音名(ノートナンバ)に設定される。変数p1は、対象音符の直前の音符の音程(対象音符に対する相対値)に設定され、変数p3は対象音符の直後の音符の音程に設定される。また、変数d2は、対象音符の継続長に設定される。変数d1は対象音符の直前の音符の継続長に設定され、変数d3は対象音符の直後の音符の継続長に設定される。音符属性a1の各変数(p1〜p3,d1〜d3)は楽譜データXBから特定される。以上の説明から理解されるように、音楽的な条件が共通する複数の単位区間μについては識別情報Aが共通する。なお、音符属性a1の内容は以上の例示に限定されない。例えば、楽曲の各小節内で対象音符が何番目の拍子に該当するのか(1拍目/2拍目)を示す情報や、参照音のひと息に相当する期間における対象音符の位置(前方/後方)を示す情報など、ピッチの時系列に影響する任意の情報が音符属性a1にて指定され得る。
【0034】
図2の合成用情報生成部36は、区間設定部34(第2区間設定部343)が設定した単位区間μ毎の参照ピッチPrefの時系列を利用して合成用情報Yを生成する。図5は、合成用情報生成部36のブロック図である。図5に示すように、合成用情報生成部36は、特徴量情報YAおよび継続長情報YBを生成する第1情報生成部42と遷移配列情報YCを生成する第2情報生成部44とを具備する。特徴量情報YAと継続長情報YBと遷移配列情報YCとが図1の合成用情報Yとして記憶装置14に格納される。
【0035】
図5に示すように、第1情報生成部42は、確率モデル生成部421と特徴量分類部423と継続長分類部425とを含んで構成される。確率モデル生成部421は、各遷移種別に対応する1個の単位区間μ内でのピッチPの出現確率を表現する確率モデルQを識別情報A毎(音符属性a1と遷移種別a2との組合せ毎)に生成する。本実施形態では、図6に示すように、複数(図6の例示では3個)の状態Stで規定されるHSMM(Hidden Semi Markov Model)を確率モデルQとして例示する。確率モデルQは、特徴量モデルQAと継続長モデルQBとを含んで構成される。特徴量モデルQAは、単位区間μ内のピッチPおよびその時間変化(微分値)ΔPの確率分布(出力分布)を状態St毎に規定し、継続長モデルQBは、単位区間μ内での状態St毎の継続長Dの確率分布(継続長分布)を規定する。なお、特徴量モデルQAが状態St毎のピッチPの2階微分値の確率分布を規定する構成も好適である。
【0036】
図5の確率モデル生成部421は、識別情報Aが共通する各単位区間μ内の参照ピッチPrefの時系列に対して学習処理(最尤推定アルゴリズム)を実行することで、当該識別情報Aに対応する確率モデルQを生成する。具体的には、各単位区間μ内の参照ピッチPrefの時系列が最大の確率で出現するように確率モデルQが生成される。確率モデルQは識別情報A毎に生成される。すなわち、複数の単位区間μで音符属性a1が共通する場合でも、各単位区間μで遷移種別a2が相違するならば、遷移種別a2毎に別個の確率モデルQが生成される。
【0037】
図5の特徴量分類部423は、確率モデル生成部421が識別情報A毎に生成した特徴量モデルQAを複数(確率モデルQの総数を下回る個数)の集合に分類する。特徴量モデルQAの分類(クラスタリング)には公知の機械学習が任意に採用され得るが、以下に例示する決定木学習が好適である。
【0038】
特徴量分類部423は、識別情報Aに関連する所定の条件の成否を各特徴量モデルQAについて順次に判定することで図7の決定木(以下「特徴量決定木」という)TAを構築する。図7に示すように、特徴量決定木TAは、分類の開始点となる始端節(ルートノード)と、各条件の判定に対応する複数の中間節(中間ノード)と、各特徴量モデルQAが最終的に分類される集合に対応するKA個の終端節(リーフノード)とで構成される分類木である。始端節および各中間節では、例えば対象音符の継続長d2が閾値を上回るか否か、対象音符と直前の音符との音程p1(あるいは直後の音符との音程p3)が閾値を上回るか否か、といった条件の成否が判定される。各特徴量モデルQAの分類を停止する時点(特徴量決定木TAを確定する時点)は、例えば最小記述長(MDL:Minimum Description Length)基準に応じて決定される。
【0039】
特徴量分類部423は、特徴量決定木TAのKA個の終端節の各々について、当該終端節に分類された複数の特徴量モデルQAに応じた1個の特徴量モデルMAを生成する。具体的には、特徴量モデルQAの生成(学習)に適用された特徴量(ピッチP)を1個の終端節の複数の特徴量モデルQAについて全体的に使用して、当該終端節に対応する新規な1個の特徴量モデルMAが再推定される。例えば、各終端節に分類された複数の特徴量モデルQAの加重和が特徴量モデルMAとして生成される。図5に示すように、特徴量分類部423は、以上の方法で生成した特徴量決定木TAとKA個の特徴量モデルMAとを含む特徴量情報YAを記憶装置14に格納する。
【0040】
特徴量分類部423と同様に、図5の継続長分類部425は、確率モデル生成部421が識別情報A毎に生成した継続長モデルQBを決定木学習で複数の集合に分類する。すなわち、継続長分類部425は、識別情報Aに関連する所定の条件の成否を各継続長モデルQBについて順次に判定することで図8の決定木(以下「継続長決定木」という)TBを構築する。継続長決定木TBの構築時に判定される条件や継続長決定木TBの構築を停止する基準は、特徴量決定木TAの構築時と同様である。継続長分類部425は、確定済の継続長決定木TBのKB個の終端節の各々について、当該終端節に分類された複数の継続長モデルQBに応じた1個の継続長モデルMB(例えば複数の継続長モデルQBの加重和)を生成する。そして、継続長分類部425は、図5に示すように、継続長決定木TBとKB個の継続長モデルMBとを含む継続長情報YBを記憶装置14に格納する。
【0041】
図5の第2情報生成部44は、遷移配列モデル生成部441と遷移配列分類部443とを含んで構成される。遷移配列モデル生成部441は、識別情報A内の音符属性a1毎(音符属性a1が共通する音符区間σ毎)に遷移配列モデルQCを生成する。各音符属性a1に対応する遷移配列モデルQCは、図9の例示のように、合計7種類の遷移配列(「B-S-E」,「B-S」,「S-E」,「B-E」,「B」,「S」,「E」)の各々が当該音符属性a1の音符区間σ内にて出現する確率(離散確率)を示す確率モデルである。
【0042】
音符属性a1が共通する各音符区間σにて各遷移配列が出現する頻度に応じて当該音符属性a1の遷移配列モデルQCが生成される。すなわち、各音符属性a1の遷移配列モデルQCのうち当該音符属性a1の各音符区間σについて多く出現した遷移配列の出現確率ほど大きい数値に設定される。例えば、音符属性a1が共通する2個の音符区間σのうち一方の音符区間σの遷移配列が図3の指定音V2のように「B-S-E」であり、他方の音符区間σの遷移配列が図4の指定音V2のように「S-E」である場合、当該音符属性a1の遷移配列モデルQCでは、遷移配列「B-S-E」および遷移配列「S-E」の各々の出現確率が0.5に設定され、他の遷移配列の出現確率が0に設定される。
【0043】
図5の遷移配列分類部443は、遷移配列モデル生成部441が音符属性a1毎(音符区間σ毎)に生成した遷移配列モデルQCを複数(遷移配列モデルQCの総数を下回る個数)の集合に分類する。遷移配列モデルQCの分類には公知の機械学習が任意に採用され得るが、特徴量分類部423や継続長分類部425での分類と同様に、以下に説明する決定木学習が好適である。
【0044】
遷移配列分類部443は、識別情報Aに関連する所定の条件の成否を各遷移配列モデルQCについて順次に判定することで図10の決定木(以下「遷移配列決定木」という)TCを構築する。前述の特徴量決定木TAや継続長決定木TBと同様に、遷移配列決定木TCは、始端節および複数の中間節と、各遷移配列モデルQCが最終的に分類される集合に対応するKC個の終端節とで構成される分類木である。
【0045】
音符区間σ内の遷移配列は、対象音符の時間長d2や対象音符と前後の音符との音程(p1,p2)等に影響される。例えば、対象音符の時間長d2が長いほど音符区間σ内の遷移種別の総数が増加するという傾向や、対象音符と前後の音符との音程(音高差)が大きいほど音符区間σ内の遷移種別の総数が増加するという傾向がある。以上の傾向を考慮して、遷移配列分類部443は、特徴量分類部423や継続長分類部425と同様に、例えば対象音符の継続長d2が閾値を上回るか否か、対象音符と直前の音符との音程p1(あるいは直後の音符との音程p3)が閾値を上回るか否か、といった様々な条件の成否を、始端節および各中間節にて判定する。各遷移配列モデルQCの分類を停止する時点(遷移配列決定木TCを確定する時点)の判定には、例えば最小記述長(MDL)基準が好適に適用される。
【0046】
遷移配列分類部443は、遷移配列決定木TCのKC個の終端節の各々について、当該終端節に分類された複数の遷移配列モデルQCに応じた1個の遷移配列モデルMCを生成する。例えば、各終端節に分類された複数の遷移配列モデルQCの加重和が遷移配列モデルMCとして生成される。遷移配列分類部443は、図5に示すように、以上の方法で生成した遷移配列決定木TCとKC個の遷移配列モデルMCとを含む遷移配列情報YCを記憶装置14に格納する。以上が第1処理部21の構成および動作である。
【0047】
(2)第2処理部22
図11は、合成音データVoutを生成する第2処理部22のブロック図である。図11に示すように、第2処理部22は、軌跡生成部52と合成処理部54とを含んで構成される。軌跡生成部52は、楽譜データSCが指定する各指定音のピッチの時系列(合成ピッチ軌跡)Psynを合成用情報Yから生成する。合成処理部54は、軌跡生成部52が生成した合成ピッチ軌跡Psynに沿うようにピッチが時間的に変化する歌唱音の合成音データVoutを生成する。具体的には、合成処理部54は、楽譜データSCが示す各指定音の歌詞に対応する音波形データZAを記憶装置14から取得し、合成ピッチ軌跡Psynに沿ってピッチが経時的に変化するように音波形データZAを加工することで合成音データVoutを生成する。したがって、合成音データVoutの再生音は、参照音を発声した参照歌唱者に特有の歌唱表現(ピッチ軌跡)が付加された歌唱音となる。
【0048】
図12は、軌跡生成部52の動作の説明図である。図12の処理は、入力装置16に対する所定の操作(合成音の生成の開始指示)を契機として開始されて楽譜データSCの指定音毎に順次に実行される。
【0049】
図12の処理を開始すると、軌跡生成部52は、楽譜データSCを参照することで指定音の音符属性a1(変数p1〜p3,変数d1〜d3)を決定する(S11)。そして、軌跡生成部52は、記憶装置14に記憶された合成用情報Yの遷移配列情報YC内のKC個の遷移配列モデルMCのうち指定音の音符属性a1に相応する1個の遷移配列モデルMCを選択する(S12)。遷移配列モデルMCの選択には遷移配列情報YC内の遷移配列決定木TCが利用される。すなわち、軌跡生成部52は、指定音の音符属性a1を遷移配列決定木TCに適用する(遷移配列決定木TCの始端節および各中間節の条件の成否を指定音の音符属性a1について順次に判定する)ことで指定音が所属すべき終端節(集合)を特定し、当該終端節に対応する遷移配列モデルMCを遷移配列情報YCから選択する。すなわち、参照音のうち指定音の音符属性a1に類似する音符属性a1の音符区間σから生成された遷移配列モデルMCが選択される。
【0050】
軌跡生成部52は、処理S12で選択した遷移配列モデルMCに応じて指定音の遷移配列を決定する(S13)。具体的には、処理S11で設定した音符属性a1が共通する各指定音について処理S13で各遷移配列を決定する確率が、遷移配列モデルMCで遷移配列毎に規定される出現確率に近似するように、軌跡生成部52は指定音の遷移配列を決定する。すなわち、遷移配列モデルMCで規定される出現確率が高い遷移配列ほど、指定音の遷移配列として高確率で選択される。そして、軌跡生成部52は、処理S13で決定した遷移配列を構成する遷移種別毎に指定音の単位区間μを設定する。例えば、処理S13で選定された遷移配列が「B-S-E」である場合には、各遷移種別に対応する3個の単位区間μが1個の指定音について設定される。軌跡生成部52は、指定音の単位区間μ毎に、当該指定音の音符属性a1と当該単位区間μについて決定した遷移種別a2とを含む識別情報Aを設定する。
【0051】
軌跡生成部52は、特徴量情報YA内のKA個の特徴量モデルMAのうち指定音の識別情報Aに相応する特徴量モデルMAを指定音の単位区間μ毎に選択する(S14)。具体的には、軌跡生成部52は、指定音の識別情報Aを特徴量情報YAの特徴量決定木TAに適用することで指定音の識別情報Aが所属すべき終端節(集合)を特定し、当該終端節に対応する1個の特徴量モデルMAを特徴量情報YAから選択する。同様に、軌跡生成部52は、継続長情報YBの継続長決定木TBに指定音の識別情報Aを適用することで、継続長情報YB内のKB個の継続長モデルMBのうち指定音の識別情報Aに相応する1個の継続長モデルMBを指定音の単位区間μ毎に選択する(S15)。
【0052】
そして、軌跡生成部52は、処理S14で選択した特徴量モデルMAと処理S15で選択した継続長モデルMBとを利用して指定音の各単位区間μ内の合成ピッチ軌跡Psynを生成する(S16)。具体的には、単位区間μ内の各状態Stの継続長Dを継続長モデルMBに応じて決定し、特徴量モデルMAで規定されるピッチPの確率分布と時間変化ΔPの確率分布とにおいて同時確率が最大化するように単位区間μ毎の合成ピッチ軌跡Psynが生成される。以上の手順で単位区間μ毎に生成された合成ピッチ軌跡Psynを時間軸上で相互に連結することで指定音の合成ピッチ軌跡Psynが生成される。
【0053】
以上の形態では、参照音を遷移種別に応じて区分した単位区間μ内の参照ピッチPrefの時系列を利用して遷移種別毎に特徴量モデルQAおよび継続長モデルQBが生成されるから、参照音の音符(音符属性a1)が共通する場合でも、参照ピッチPrefの変動の相違が特徴量モデルQAや継続長モデルQB(さらには特徴量モデルMAや継続長モデルMB)に忠実に反映される。また、楽譜データSC内の指定音の各単位区間μの遷移種別が遷移配列モデルMCに応じて決定され、当該遷移種別に対応する特徴量モデルQAおよび継続長モデルQBに応じた合成ピッチ軌跡Psynが指定音の単位区間μ毎に生成される。したがって、参照音の参照ピッチPrefの変動の相違が忠実に反映されない確率モデルを利用する場合と比較して、参照歌唱者に特有の表現を忠実に反映した合成音を、聴感的な自然性を維持しながら生成することが可能である。
【0054】
<B:変形例>
以上の実施形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0055】
(1)変形例1
参照音を音符区間σや単位区間μに区分する方法は適宜に変更される。例えば、前述の実施形態では楽譜データXBに応じて参照音を各音符区間σに区分したが、利用者からの指示に応じて各音符区間σを設定する構成も採用され得る。例えば、利用者は、表示装置に表示される参照音の波形を視認するとともに放音装置から再生される参照音を聴取することで各音符の境界を推定しながら、入力装置16を適宜に操作して各音符区間σを指定する。第1区間設定部341は、利用者からの指示に応じて各音符区間σを設定する。利用者が各音符区間σを指定する構成では、楽譜データXBは省略され得る。
【0056】
また、前述の実施形態では利用者からの指示に応じて参照音の各単位区間μを設定したが、第2区間設定部343が参照音データXAに応じて自動的に(すなわち利用者からの指示を必要とせずに)各単位区間μを設定する構成も採用され得る。例えば、第2区間設定部343は、音符区間σの始点の直後で参照ピッチPrefが変動する区間を開始部Bの単位区間μとして設定する。同様に、参照ピッチPrefが略一定に維持される区間が定常部Sの単位区間μに設定され、音符区間σの終点にかけて参照ピッチPrefが変動する区間が終了部Eの単位区間μに設定される。
【0057】
(2)変形例2
前述の実施形態では、遷移配列モデルQCの分類の結果に応じてKC個の遷移配列モデルMCを生成したが、未分類の遷移配列モデルQCを遷移配列情報YCとして指定音の合成に適用する構成(以下「構成A」という)も採用され得る。指定音に指示された音符に対応する遷移配列モデルQCを利用して指定音の遷移配列が決定される。構成Aでは遷移配列分類部443(遷移配列モデルMCや遷移配列決定木TC)が省略されるから、第1処理部21の構成が簡素化されるという利点がある。
【0058】
ただし、構成Aでは、1個の遷移配列モデルQCの生成に利用される参照ピッチPrefの個数が不足するため、遷移配列モデルQCの統計的な妥当性を担保することが困難となる。また、全種類の音符属性a1について遷移配列モデルQCを用意することが現実的には困難である以上、遷移配列モデルQCが用意されていない音符属性a1の指定音を合成できないという問題もある。前述の実施形態では、遷移配列モデルQCの分類の結果に応じてKC個の遷移配列モデルMCが生成される(すなわち遷移配列モデルQCと比較して1個の遷移配列モデルMCに多数の参照ピッチPrefが反映される)から、遷移配列モデルMCの統計的な妥当性を充分に担保することが可能である。また、合成時に指定音を遷移配列決定木TCに適用することで指定音の遷移配列が決定される(S13)から、参照音に存在しない音符の指定音についても、聴感的に自然な合成音の生成を実現し得る適切な遷移配列を選択できるという利点がある。
【0059】
前述の構成Aと同様に、特徴量モデルQAや継続長モデルQBを指定音の合成に適用する構成(特徴量分類部423や継続長分類部425を省略した構成)も採用され得るが、確率モデルQの統計的な妥当性を担保して聴感的に自然な合成音を合成するという観点からは、前述の実施形態の例示のように特徴量モデルQAの分類で生成された特徴量モデルMAや継続長モデルQBの分類で生成された継続長モデルMBを指定音の合成に利用する構成が格別に好適である。
【0060】
(3)変形例3
前述の実施形態では、記憶装置14に格納された参照音データXAから特徴量抽出部32が参照ピッチPrefを抽出したが、参照音から事前に抽出された参照ピッチPrefの時系列を記憶装置14に格納した構成(したがって特徴量抽出部32は省略される)も採用され得る。また、参照音を事前に各音符区間σに区分して記憶装置14に格納した構成(したがって第1区間設定部341は省略される)も採用され得る。
【0061】
(4)変形例4
前述の実施形態では第1処理部21と第2処理部22とを具備する音響合成装置100を例示したが、合成用情報Y(特徴量情報YA,継続長情報YB,遷移配列情報YC)を生成する第1処理部21を具備する音合成用確率モデル生成装置(第2処理部22を省略した装置)や、合成用情報Yを利用して合成音データVoutを生成する第2処理部22を具備する音響合成装置(第1処理部21を省略した装置)としても本発明は実施され得る。また、合成用情報Yを記憶する記憶装置14と第2処理部22の軌跡生成部52とを具備する装置(合成処理部54を省略した構成)は、合成音の特徴量の時系列(例えば合成ピッチ軌跡Psyn)を生成する特徴量軌跡生成装置としても把握され得る。
【0062】
(5)変形例5
前述の実施形態では参照音の参照ピッチPrefの時系列から合成用情報Yを生成するとともに合成用情報Yから合成ピッチ軌跡Psynを生成したが、合成用情報Yの生成に利用される参照音の特徴量や合成用情報Yから生成される指定音の特徴量はピッチ(基本周波数)に限定されない。例えば、参照音のパワーの時系列から合成用情報Yを生成するとともに合成用情報Yから指定音のパワーの時系列(合成パワー軌跡)を生成する構成も採用され得る。また、指定音のMFCC(Mel-Frequency cepstral coefficient)等の特徴量の生成にも、前述の実施形態と同様に本発明を適用することが可能である。
【0063】
なお、特徴量は参照音から直接的に抽出される数値に限定されない。例えば、所定の目標値に対する参照音の特徴量の相対値を利用して合成用情報Yを生成する構成も採用され得る。具体的には、所定の目標値(例えば参照音の音符の音高)に対する参照音の参照ピッチPrefの相対値から合成用情報Yを生成し、合成用情報Yに応じて生成されるピッチの相対値と指定音の音符の音高とから合成ピッチ軌跡Psynを生成する構成が採用される。
【0064】
(6)変形例6
前述の実施形態では歌唱音の合成を例示したが、本発明が適用される範囲は歌唱音の合成に限定されない。例えば、楽器の演奏音(楽音)を合成する場合にも、前述の実施形態と同様に本発明を適用することが可能である。
【符号の説明】
【0065】
100……音響合成装置、12……演算処理装置、14……記憶装置、16……入力装置、21……第1処理部、22……第2処理部、32……特徴量抽出部、34……区間設定部、341……第1区間設定部、343……第2区間設定部、345……識別情報設定部、36……合成用情報生成部、42……第1情報生成部、421……確率モデル生成部、423……特徴量分類部、425……継続長分類部、44……第2情報生成部、441……遷移配列モデル生成部、443……遷移配列分類部、52……軌跡生成部、54……合成処理部。
【特許請求の範囲】
【請求項1】
特徴量の変動の傾向に応じた遷移種別毎に参照音を単位区間に区分する区間設定手段と、
複数の状態の各々について特徴量の確率分布を示す遷移種別毎の特徴量モデルを、前記参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成する確率モデル生成手段と
を具備する音合成用確率モデル生成装置。
【請求項2】
前記確率モデル生成手段が生成した複数の特徴量モデルを複数の集合に分類し、前記分類で構築される特徴量決定木と前記各集合に分類された特徴量モデルから集合毎に生成される特徴量モデルとを含む特徴量情報を生成する特徴量分類手段
を具備する請求項1の音合成用確率モデル生成装置。
【請求項3】
前記確率モデル生成手段は、前記複数の状態の各々について継続長の確率分布を示す遷移種別毎の継続長モデルを、前記参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成し、
前記確率モデル生成手段が生成した複数の継続長モデルを複数の集合に分類し、前記分類で構築される継続長決定木と前記各集合に分類された継続長モデルから集合毎に生成される継続長モデルとを含む継続長情報を生成する継続長分類手段を具備する
請求項1または請求項2の音合成用確率モデル生成装置。
【請求項4】
参照音を音符毎に区分した各音符区間内における遷移種別の配列毎の出現確率を示す遷移配列モデルを、前記参照音のうち当該音符に対応する音符区間内の遷移種別の配列から生成する遷移配列モデル生成手段と、
前記遷移配列モデル生成手段が生成した複数の遷移配列モデルを複数の集合に分類し、前記分類で構築される遷移配列決定木と前記各集合に分類された遷移配列モデルから集合毎に生成される遷移配列モデルとを含む遷移配列情報を生成する遷移配列分類手段と
を具備する請求項1から請求項3の何れかの音合成用確率モデル生成装置。
【請求項5】
特徴量の変動の傾向に応じた遷移種別の各配列が各音符の音符区間内に出現する確率を示す複数の遷移配列モデルを記憶する記憶手段と、
前記複数の遷移配列モデルのうち指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別を決定し、前記各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列を生成する軌跡生成手段と
を具備する特徴量軌跡生成装置。
【請求項1】
特徴量の変動の傾向に応じた遷移種別毎に参照音を単位区間に区分する区間設定手段と、
複数の状態の各々について特徴量の確率分布を示す遷移種別毎の特徴量モデルを、前記参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成する確率モデル生成手段と
を具備する音合成用確率モデル生成装置。
【請求項2】
前記確率モデル生成手段が生成した複数の特徴量モデルを複数の集合に分類し、前記分類で構築される特徴量決定木と前記各集合に分類された特徴量モデルから集合毎に生成される特徴量モデルとを含む特徴量情報を生成する特徴量分類手段
を具備する請求項1の音合成用確率モデル生成装置。
【請求項3】
前記確率モデル生成手段は、前記複数の状態の各々について継続長の確率分布を示す遷移種別毎の継続長モデルを、前記参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成し、
前記確率モデル生成手段が生成した複数の継続長モデルを複数の集合に分類し、前記分類で構築される継続長決定木と前記各集合に分類された継続長モデルから集合毎に生成される継続長モデルとを含む継続長情報を生成する継続長分類手段を具備する
請求項1または請求項2の音合成用確率モデル生成装置。
【請求項4】
参照音を音符毎に区分した各音符区間内における遷移種別の配列毎の出現確率を示す遷移配列モデルを、前記参照音のうち当該音符に対応する音符区間内の遷移種別の配列から生成する遷移配列モデル生成手段と、
前記遷移配列モデル生成手段が生成した複数の遷移配列モデルを複数の集合に分類し、前記分類で構築される遷移配列決定木と前記各集合に分類された遷移配列モデルから集合毎に生成される遷移配列モデルとを含む遷移配列情報を生成する遷移配列分類手段と
を具備する請求項1から請求項3の何れかの音合成用確率モデル生成装置。
【請求項5】
特徴量の変動の傾向に応じた遷移種別の各配列が各音符の音符区間内に出現する確率を示す複数の遷移配列モデルを記憶する記憶手段と、
前記複数の遷移配列モデルのうち指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別を決定し、前記各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列を生成する軌跡生成手段と
を具備する特徴量軌跡生成装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−58306(P2012−58306A)
【公開日】平成24年3月22日(2012.3.22)
【国際特許分類】
【出願番号】特願2010−198710(P2010−198710)
【出願日】平成22年9月6日(2010.9.6)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【公開日】平成24年3月22日(2012.3.22)
【国際特許分類】
【出願日】平成22年9月6日(2010.9.6)
【出願人】(000004075)ヤマハ株式会社 (5,930)
[ Back to top ]