音合成用確率モデル生成装置および特徴量軌跡生成装置

【課題】参照音の特徴量の遷移を忠実に反映した確率モデルで自然な合成音を生成する。
【解決手段】区間設定部３４は、参照音の参照ピッチＰrefの変動の傾向に応じた遷移種別毎（開始部Ｂ，定常部Ｓ，終了部Ｅ）に参照音を単位区間μに区分する。確率モデル生成部４２１は、複数の状態Ｓtの各々について特徴量の確率分布を示す遷移種別毎の特徴量モデルＱAと、複数の状態Ｓtの各々について継続長の確率分布を示す遷移種別毎の継続長モデルＱBとを、参照音のうち当該遷移種別の単位区間μにおける参照ピッチＰrefの時系列から生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音響の特徴量（例えばピッチやパワー）の時系列を示す確率モデルの生成と、確率モデルを利用した特徴量の時系列の生成とに関連する。確率モデルから生成される特徴量の時系列は、歌唱音等の音響の合成に好適に利用される。
【背景技術】
【０００２】
収録済の音響（以下「参照音」という）に近似する特徴量の変動を合成音に付与することで聴感的に自然な合成音を生成することが可能である。例えば非特許文献１には、参照音のピッチの時系列を表現する確率モデル（例えばＨＭＭ（Hidden Markov Model））を利用して合成音を生成する技術が開示されている。具体的には、参照音が音符毎に複数の音符区間に区分され、各音符区間内のピッチの時系列に対する学習処理で音符毎に確率モデルが生成される。
【先行技術文献】
【非特許文献】
【０００３】
【非特許文献１】酒向慎司才野慶二郎南角吉彦徳田恵一北村正，「声質と歌唱スタイルを自動学習可能な歌声合成システム」，情報処理学会研究報告［音楽情報科学］，2008(12)，p.39−p.44，2008年2月
【発明の概要】
【発明が解決しようとする課題】
【０００４】
図１３は、楽曲の歌唱音を収録した参照音のピッチＰと当該楽曲の各音符Ｖ（Ｖ1，Ｖ2，Ｖ3）の音高（すなわちピッチＰの目標値）との関係を示す模式図である。図１３の部分(A)および部分(B)に示すように、参照音のピッチＰの遷移は、音符Ｖの系列が共通する場合でも例えば歌唱表現に応じて相違し得る。例えば、図１３の部分(A)では、音符Ｖ1と音符Ｖ2との境界の前後で参照音のピッチＰが一時的に低下する（いわゆる「しゃくり」の歌唱表現）のに対し、図１３の部分(B)では、音符Ｖ1から音符Ｖ2にかけてピッチＰは略一定に維持される。
【０００５】
非特許文献１の技術では、参照音のうち音符が共通する各音符区間内のピッチの時系列に対する学習処理で音符毎に確率モデルが生成される。例えば、図１３に例示したケースでは、前述のようにピッチＰの遷移が相違するにも関わらず、音符Ｖ2の確率モデルの生成には部分(A)および部分(B)の双方における音符Ｖ2の区間内のピッチＰが適用される。したがって、部分(A)と部分(B)との中間的なピッチＰの遷移を表現する確率モデルが生成される。以上のように実際の参照音の特性を忠実に反映しない確率モデルを利用した場合、聴感的に不自然な合成音が生成されるという問題がある。
【０００６】
なお、以上の説明ではピッチの遷移を表現する確率モデルを例示したが、他の特徴量（例えばパワー）の確率モデルについても同様の問題が発生し得る。以上の事情を考慮して、本発明は、参照音における特徴量の遷移を忠実に反映した確率モデルを生成して聴感的に自然な合成音を生成することを目的とする。
【課題を解決するための手段】
【０００７】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【０００８】
本発明の第１態様に係る音合成用確率モデル生成装置は、特徴量（例えば参照ピッチＰref）の変動の傾向に応じた遷移種別毎に参照音を単位区間に区分する区間設定手段（例えば区間設定部３４）と、複数の状態（例えば状態Ｓt）の各々について特徴量の確率分布を示す遷移種別毎の特徴量モデル（例えば特徴量モデルＱA）を、参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成する確率モデル生成手段（例えば確率モデル生成部４２１）とを具備する。以上の構成においては、参照音の遷移種別毎に特徴量モデルが生成されるから、参照音の特徴量の変動傾向の相違が特徴量モデルに忠実に反映される。したがって、例えば遷移種別の相違を加味せずに参照音から特徴量モデルを生成する構成と比較すると、参照音の特性を忠実に反映した聴感的に自然な合成音を生成可能な特徴量モデルを生成できるという利点がある。
【０００９】
第１態様の好適例に係る音合成用確率モデル生成装置は、確率モデル生成手段が生成した複数の特徴量モデルを複数の集合に分類し、分類で構築される特徴量決定木（例えば特徴量決定木ＴA）と、各集合に分類された特徴量モデルから集合毎に生成される特徴量モデル（例えば特徴量モデルＭA）とを含む特徴量情報を生成する特徴量分類手段（例えば特徴量分類部４２３）を具備する。以上の構成においては、確率モデル生成手段が生成した特徴量モデルを分類した複数の集合の各々について当該集合内の特徴量モデルに応じた特徴量モデルが生成されるから、参照音の多数の特徴量を反映した（すなわち統計的な妥当性の高い）特徴量モデルを生成することが可能である。また、特徴量モデルの分類で構築される特徴量決定木に合成対象の指定音を適用することで、参照音に存在しない属性の指定音についても適切な特徴量モデルを選択できるという利点もある。
【００１０】
本発明の第２態様に係る音合成用確率モデル生成装置は、特徴量（例えば参照ピッチＰref）の変動の傾向に応じた遷移種別毎に参照音を単位区間に区分する区間設定手段（例えば区間設定部３４）と、複数の状態（例えば状態Ｓt）の各々について継続長の確率分布を示す遷移種別毎の継続長モデル（例えば継続長モデルＱB）を、参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成する確率モデル生成手段（例えば確率モデル生成部４２１）とを具備する。以上の構成においては、参照音の遷移種別毎に継続長モデルが生成されるから、参照音の特徴量の変動傾向の相違が継続長モデルに忠実に反映される。したがって、例えば遷移種別の相違を加味せずに参照音から継続長モデルを生成する構成と比較すると、参照音の特性を忠実に反映し聴感的に自然な合成音を生成可能な継続長モデルを生成することが可能である。
【００１１】
第２態様の好適例に係る音合成用確率モデル生成装置は、確率モデル生成手段が生成した複数の継続長モデルを複数の集合に分類し、分類で構築される継続長決定木（例えば継続長決定木ＴB）と、各集合に分類された継続長モデルから集合毎に生成される継続長モデル（例えば継続長モデルＭB）とを含む継続長情報を生成する継続長分類手段（例えば継続長分類部４２５）を具備する。以上の構成においては、確率モデル生成手段が生成した継続長モデルを分類した複数の集合の各々について当該集合内の継続長モデルに応じた継続長モデルが生成されるから、参照音の多数の特徴量を反映した（すなわち統計的な妥当性の高い）継続長モデルを生成することが可能である。また、継続長モデルの分類で構築される継続長決定木に合成対象の指定音を適用することで、参照音に存在しない属性の指定音についても適切な継続長モデルを選択できるという利点もある。
【００１２】
なお、以上の各形態における遷移種別（特徴量の変動の傾向）とは、特徴量の上昇／低下や変化／維持といった特徴量の経時的な動向（挙動）を意味する。例えば、発音の始点から特徴量が経時的に目標値に接近する過程（開始部Ｂ）や、特徴量が略一定に維持される定常的な過程（定常部Ｓ）や、発音の終点にかけて特徴量が経時的に目標値から変化する過程（終了部Ｅ）が、遷移種別の典型例として例示され得る。
【００１３】
第３態様に係る音合成用確率モデル生成装置は、第１態様または第２態様の構成に加えて、参照音を音符毎に区分した各音符区間内における遷移種別の配列毎の出現確率を示す遷移配列モデル（例えば遷移配列モデルＱC）を、参照音のうち当該音符に対応する音符区間内の遷移種別の配列から生成する遷移配列モデル生成手段（例えば遷移配列モデル生成部４４１）を具備する。以上の構成においては、音符区間内の遷移種別の配列毎の出現確率を示す遷移配列モデルが生成されるから、合成対象の指定音について適切な遷移配列を決定するとともに各遷移種別に対応する確率モデル（特徴量モデル，継続長モデル）を選択できる。したがって、参照音の特性を忠実に反映し聴感的に自然な合成音を生成することが可能である。
【００１４】
第３態様の好適例に係る音合成用確率モデル生成装置は、遷移配列モデル生成手段が生成した複数の遷移配列モデルを複数の集合に分類し、分類で構築される遷移配列決定木（例えば遷移配列決定木ＴC）と各集合に分類された遷移配列モデルから集合毎に生成される遷移配列モデル（例えば遷移配列モデルＭC）とを含む遷移配列情報を生成する遷移配列分類手段（例えば遷移配列分類部４４３）を具備する。以上の構成においては、遷移配列モデルが生成した遷移配列モデルを分類した複数の集合の各々について当該集合内の遷移配列モデルに応じた遷移配列モデルが生成されるから、参照音の多数の特徴量を反映した（すなわち統計的な妥当性の高い）遷移配列モデルを生成することが可能である。また、遷移配列モデルの分類で構築される遷移配列決定木に合成対象の指定音を適用することで、参照音に存在しない属性の指定音についても適切な遷移配列モデルを選択できるという利点もある。
【００１５】
本発明は、以上に例示した第３態様の音合成用確率モデル生成装置が生成した遷移配列モデルを利用して特徴量の時系列を生成する特徴量軌跡生成装置としても特定される。すなわち、本発明の特徴量軌跡生成装置は、特徴量の変動の傾向に応じた遷移種別の各配列が各音符の音符区間内に出現する確率を示す複数の遷移配列モデル（例えば遷移配列モデルＭC）を記憶する記憶手段（例えば記憶装置１４）と、複数の遷移配列モデルのうち指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別を決定し、各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列（例えば合成ピッチ軌跡Ｐsyn）を生成する軌跡生成手段（例えば軌跡生成部５２）とを具備する。以上の構成においては、指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別が決定され、各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列が生成される。したがって、例えば遷移種別の相違を加味せずに特徴量の時系列を生成する構成と比較すると、参照音の特性を忠実に反映し聴感的に自然な合成音が生成されるように特徴量の軌跡を決定することが可能である。
【００１６】
また、本発明は、以上に説明した特徴量軌跡生成装置を利用した音響合成装置（例えば音響合成装置１００）としても特定され得る。本発明の音響合成装置は、特徴量の変動の傾向に応じた遷移種別の各配列が各音符の音符区間内に出現する確率を示す複数の遷移配列モデル（例えば遷移配列モデルＭC）を記憶する記憶手段（例えば記憶装置１４）と、複数の遷移配列モデルのうち指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別を決定し、各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列（例えば合成ピッチ軌跡Ｐsyn）を生成する軌跡生成手段（例えば軌跡生成部５２）と、軌跡生成手段が生成した特徴量の時系列に沿うように音波形データ（例えば音波形データＺA）を加工して合成音データ（例えば合成音データＶout）を生成する合成処理手段（例えば合成処理部５４）とを具備する。
【００１７】
以上の各態様に係る装置（音合成用確率モデル生成装置，特徴量軌跡生成装置，音響合成装置）は、ＤＳＰ（Digital Signal Processor）等の専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。以上の各態様に係る装置としてコンピュータを機能させるプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【００１８】
【図１】本発明の実施形態に係る音響合成装置のブロック図である。
【図２】第１処理部のブロック図である。
【図３】参照音の参照ピッチの変動を例示する説明図である。
【図４】参照音の参照ピッチの他の変動を例示する説明図である。
【図５】合成用情報生成部のブロック図である。
【図６】特徴量モデルおよび継続長モデルの説明図である。
【図７】特徴量決定木の説明図である。
【図８】継続長決定木の説明図である。
【図９】遷移配列モデルの説明図である。
【図１０】遷移配列決定木の説明図である。
【図１１】第２処理部のブロック図である。
【図１２】軌跡生成部の動作の説明図である。
【図１３】背景技術における確率モデルの生成の問題点の説明図である。
【発明を実施するための形態】
【００１９】
＜Ａ：実施形態＞
図１は、本発明のひとつの実施形態に係る音響合成装置１００のブロック図である。図１の音響合成装置１００は、所望の音符および歌詞の楽曲の歌唱音を示す合成音データＶoutを生成する歌唱合成装置であり、図１に示すように、演算処理装置１２と記憶装置１４と入力装置１６とを具備するコンピュータシステムで実現される。入力装置１６（例えばマウスやキーボード）は、利用者からの指示を受付ける。
【００２０】
記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種のデータ（参照用情報Ｘ，合成用情報Ｙ，音波形情報Ｚ，楽譜データＳC）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に利用される。
【００２１】
参照用情報Ｘは、参照音データＸAと楽譜データＸBとで構成されて合成用情報Ｙの生成（学習）に利用される。参照音データＸAは、特定の歌唱者（以下「参照歌唱者」という）が楽曲を歌唱した音声（参照音）の時間領域での音波形を表現するサンプル系列である。楽譜データＸBは、参照音データＸAが示す楽曲の楽譜を表現する。すなわち、楽譜データＸBは、参照音の音符（音名，継続長）と歌詞（発音文字）とを時系列に指定する。
【００２２】
合成用情報Ｙは、参照歌唱者毎（あるいは参照歌唱者が歌唱する楽曲のジャンル毎）に参照用情報Ｘに応じて生成され、参照歌唱者の歌唱音に特有の特徴量の時系列（軌跡）を特定するために利用される。本実施形態では、合成用情報Ｙから特定される特徴量としてピッチ（基本周波数）を想定する。なお、参照用情報Ｘを利用した合成用情報Ｙの生成については後述する。
【００２３】
音波形情報Ｚは、複数の音波形データＺAを含んで構成される。各音波形データＺAは、参照歌唱者が発声した音声素片毎に事前に生成され、音声素片の波形の特徴（例えば時間領域での波形や周波数スペクトルの形状）を表現する。音声素片は、聴覚的に区別可能な最小単位である音素または複数の音素を連結した音素連鎖である。
【００２４】
楽譜データＳCは、合成対象となる各指定音の音符（音名，継続長）と歌詞（発音文字）とを時系列に指定する。入力装置１６に対する利用者からの指示（各指定音の追加や編集の指示）に応じて楽譜データＳCが生成される。概略的には、楽譜データＳCが指定する各指定音の音符および歌詞に対応する音波形データＺAのピッチを、合成用情報Ｙに応じて生成されるピッチの時系列（以下「合成ピッチ軌跡」という）に沿うように加工することで、合成音データＶoutが生成される。すなわち、合成音データＶoutで表現される合成音には、参照歌唱者に特有の歌唱表現（ピッチの変動）が付加される。
【００２５】
図１の演算処理装置１２は、記憶装置１４に格納されたプログラムＰGMの実行で、合成音データＶoutの生成（音声合成）に必要な複数の機能（第１処理部２１，第２処理部２２）を実現する。第１処理部２１は、参照用情報Ｘを利用して合成用情報Ｙを生成し、第２処理部２２は、合成用情報Ｙと音波形情報Ｚと楽譜データＳCとを利用して合成音データＶoutを生成する。なお、演算処理装置１２の各機能を専用の電子回路（DSP）で実現した構成や、演算処理装置１２の各機能を複数の集積回路に分散した構成も採用され得る。第１処理部２１および第２処理部２２の構成や動作を順次に説明する。
【００２６】
（１）第１処理部２１
図２は、第１処理部２１のブロック図である。図２に示すように、第１処理部２１は、特徴量抽出部３２と区間設定部３４と合成用情報生成部３６とを含んで構成される。特徴量抽出部３２は、参照音データＸAが示す参照音のピッチ（以下「参照ピッチ」という）Ｐrefを順次に検出する。参照ピッチＰrefの検出には公知の技術が任意に採用される。なお、参照音のうち調波構造が存在しない区間（例えばピッチが検出されない子音の区間）の参照ピッチＰrefは所定値（例えば前後の参照ピッチＰrefの補間値）に設定される。図３には、特徴量抽出部３２が検出した参照ピッチＰrefの時系列と、楽譜データＸBで指定される各指定音（Ｖ1，Ｖ2，……）の時系列とが、共通の時間軸のもとで図示されている。
【００２７】
図２の区間設定部３４は、参照音データＸAが示す参照音（参照ピッチＰrefの時系列）を時間軸上で複数の単位区間μに区分する。図２に示すように、本実施形態の区間設定部３４は、第１区間設定部３４１と第２区間設定部３４３と識別情報設定部３４５とを含んで構成される。第１区間設定部３４１は、図３に示すように、特徴量抽出部３２が検出した参照ピッチＰrefの時系列を音符毎の区間（以下「音符区間」という）σに区分する。各音符区間σの設定には参照用情報Ｘの楽譜データＸBが使用される。すなわち、第１区間設定部３４１は、楽譜データＸBが音符毎に指定する各指定音（Ｖ1，Ｖ2，……）の始点および終点を境界として参照ピッチＰrefの時系列を複数の音符区間σに区分する。
【００２８】
図２の第２区間設定部３４３は、参照ピッチＰrefの時系列の各音符区間σを遷移種別毎の単位区間μに区分する。遷移種別は、参照ピッチＰrefの変動の傾向に応じた区分を意味する。本実施形態では、図３に示すように、開始部Ｂ（Beginning）と定常部Ｓ（Sustain）と終了部Ｅ（End）とを遷移種別として例示する。開始部Ｂは、１個の音符の発音の直後に参照ピッチＰrefが当該音符の音高に接近するように変動（例えば上昇）する区間を意味し、定常部Ｓは、１個の音符の発音中に参照ピッチＰrefが当該音符の音高に略一定に維持される区間を意味し、終了部Ｅは、１個の音符の発音が終了する直前に参照ピッチＰrefが当該音符の音高から変動（例えば低下）する区間を意味する。
【００２９】
各音符区間σでは１種以上の遷移種別が出現する。また、開始部Ｂが定常部Ｓや終了部Ｅの前方に位置するとともに終了部Ｅが開始部Ｂや定常部Ｓの後方に位置するという時間的な関係は固定である。したがって、１個の音符区間σ内で出現し得る遷移種別の配列パターン（以下「遷移配列」という）は、「Ｂ-Ｓ-Ｅ」，「Ｂ-Ｓ」，「Ｓ-Ｅ」，「Ｂ-Ｅ」，「Ｂ」，「Ｓ」，「Ｅ」の合計７種類となる。例えば、図３の指定音Ｖ1に対応する音符区間σは定常部Ｓの単位区間μと終了部Ｅの単位区間μとに区分され（遷移配列「Ｓ-Ｅ」）、指定音Ｖ2の音符区間σは開始部Ｂの単位区間μと定常部Ｓの単位区間μと終了部Ｅの単位区間μとに区分され（遷移配列「Ｂ-Ｓ-Ｅ」）、指定音Ｖ3の音符区間σは定常部Ｓの単位区間μに設定される（遷移配列「Ｓ」）。
【００３０】
以上のように各音符区間σが遷移種別毎に単位区間μに区分されるから、参照音の音符の系列（すなわち楽譜データＸBの各指定音の音符）が共通する場合でも、音符区間σの区分の態様（各単位区間μの個数や時間長）は、参照ピッチＰrefの変動の態様（遷移種別）に応じて変化する。例えば、図３の例示のように指定音Ｖ1および指定音Ｖ2の境界の前後で参照ピッチＰrefが一時的に低下する場合（すなわち「しゃくり」の歌唱表現が参照音に付与された場合）、前述のように、指定音Ｖ1に対応する音符区間σは、定常部Ｓと終了部Ｅとに対応する２個の単位区間μに区分され、指定音Ｖ2に対応する音符区間σは、開始部Ｂと定常部Ｓと終了部Ｅとに対応する３個の単位区間μに区分される。他方、図４のように指定音Ｖ1および指定音Ｖ2の境界の前後で参照ピッチＰrefが変動しない場合、指定音Ｖ1に対応する音符区間σは定常部Ｓの１個の単位区間μに設定され（遷移配列「Ｓ」）、指定音Ｖ2に対応する音符区間σは、定常部Ｓと終了部Ｅとに対応する２個の単位区間μに区分される（遷移配列「Ｓ-Ｅ」）。
【００３１】
各単位区間μは利用者からの指示に応じて可変に設定される。例えば、利用者は、表示装置（図示略）に表示される参照ピッチＰrefの時系列（例えば図３に例示された参照ピッチＰrefの時間変動）を視認するとともに放音装置（例えばスピーカ）から再生される参照音を聴取することで各時点での遷移種別を推定しながら、入力装置１６を適宜に操作することで各単位区間μを指定する。第２区間設定部３４３は、入力装置１６に対する利用者からの指示に応じて各単位区間μを設定する。
【００３２】
図２の識別情報設定部３４５は、第２区間設定部３４３が区分した単位区間μ毎に識別情報Ａを設定する。識別情報Ａは、単位区間μの属性を示す識別子（ラベル）であり、図３に示すように音符属性ａ1と遷移種別ａ2とを含んで構成される。遷移種別ａ2は、当該単位区間μの遷移種別（開始部Ｂと定常部Ｓと終了部Ｅとの何れか）を指定する。遷移種別ａ2は、例えば単位区間μの設定時に入力装置１６の操作で利用者が指定する。
【００３３】
音符属性ａ1は、当該単位区間μに対応する音符（以下「対象音符」という）の属性を示す情報であり、変数ｐ1〜ｐ3と変数ｄ1〜ｄ3とを含んで構成される。変数ｐ2は、対象音符の音名（ノートナンバ）に設定される。変数ｐ1は、対象音符の直前の音符の音程（対象音符に対する相対値）に設定され、変数ｐ3は対象音符の直後の音符の音程に設定される。また、変数ｄ2は、対象音符の継続長に設定される。変数ｄ1は対象音符の直前の音符の継続長に設定され、変数ｄ3は対象音符の直後の音符の継続長に設定される。音符属性ａ1の各変数（ｐ1〜ｐ3，ｄ1〜ｄ3）は楽譜データＸBから特定される。以上の説明から理解されるように、音楽的な条件が共通する複数の単位区間μについては識別情報Ａが共通する。なお、音符属性ａ1の内容は以上の例示に限定されない。例えば、楽曲の各小節内で対象音符が何番目の拍子に該当するのか（１拍目／２拍目）を示す情報や、参照音のひと息に相当する期間における対象音符の位置（前方／後方）を示す情報など、ピッチの時系列に影響する任意の情報が音符属性ａ1にて指定され得る。
【００３４】
図２の合成用情報生成部３６は、区間設定部３４（第２区間設定部３４３）が設定した単位区間μ毎の参照ピッチＰrefの時系列を利用して合成用情報Ｙを生成する。図５は、合成用情報生成部３６のブロック図である。図５に示すように、合成用情報生成部３６は、特徴量情報ＹAおよび継続長情報ＹBを生成する第１情報生成部４２と遷移配列情報ＹCを生成する第２情報生成部４４とを具備する。特徴量情報ＹAと継続長情報ＹBと遷移配列情報ＹCとが図１の合成用情報Ｙとして記憶装置１４に格納される。
【００３５】
図５に示すように、第１情報生成部４２は、確率モデル生成部４２１と特徴量分類部４２３と継続長分類部４２５とを含んで構成される。確率モデル生成部４２１は、各遷移種別に対応する１個の単位区間μ内でのピッチＰの出現確率を表現する確率モデルＱを識別情報Ａ毎（音符属性ａ1と遷移種別ａ2との組合せ毎）に生成する。本実施形態では、図６に示すように、複数（図６の例示では３個）の状態Ｓtで規定されるＨＳＭＭ（Hidden Semi Markov Model）を確率モデルＱとして例示する。確率モデルＱは、特徴量モデルＱAと継続長モデルＱBとを含んで構成される。特徴量モデルＱAは、単位区間μ内のピッチＰおよびその時間変化（微分値）ΔＰの確率分布（出力分布）を状態Ｓt毎に規定し、継続長モデルＱBは、単位区間μ内での状態Ｓt毎の継続長Ｄの確率分布（継続長分布）を規定する。なお、特徴量モデルＱAが状態Ｓt毎のピッチＰの２階微分値の確率分布を規定する構成も好適である。
【００３６】
図５の確率モデル生成部４２１は、識別情報Ａが共通する各単位区間μ内の参照ピッチＰrefの時系列に対して学習処理（最尤推定アルゴリズム）を実行することで、当該識別情報Ａに対応する確率モデルＱを生成する。具体的には、各単位区間μ内の参照ピッチＰrefの時系列が最大の確率で出現するように確率モデルＱが生成される。確率モデルＱは識別情報Ａ毎に生成される。すなわち、複数の単位区間μで音符属性ａ1が共通する場合でも、各単位区間μで遷移種別ａ2が相違するならば、遷移種別ａ2毎に別個の確率モデルＱが生成される。
【００３７】
図５の特徴量分類部４２３は、確率モデル生成部４２１が識別情報Ａ毎に生成した特徴量モデルＱAを複数（確率モデルＱの総数を下回る個数）の集合に分類する。特徴量モデルＱAの分類（クラスタリング）には公知の機械学習が任意に採用され得るが、以下に例示する決定木学習が好適である。
【００３８】
特徴量分類部４２３は、識別情報Ａに関連する所定の条件の成否を各特徴量モデルＱAについて順次に判定することで図７の決定木（以下「特徴量決定木」という）ＴAを構築する。図７に示すように、特徴量決定木ＴAは、分類の開始点となる始端節（ルートノード）と、各条件の判定に対応する複数の中間節（中間ノード）と、各特徴量モデルＱAが最終的に分類される集合に対応するＫA個の終端節（リーフノード）とで構成される分類木である。始端節および各中間節では、例えば対象音符の継続長ｄ2が閾値を上回るか否か、対象音符と直前の音符との音程ｐ1（あるいは直後の音符との音程ｐ3）が閾値を上回るか否か、といった条件の成否が判定される。各特徴量モデルＱAの分類を停止する時点（特徴量決定木ＴAを確定する時点）は、例えば最小記述長（ＭＤＬ：Minimum Description Length）基準に応じて決定される。
【００３９】
特徴量分類部４２３は、特徴量決定木ＴAのＫA個の終端節の各々について、当該終端節に分類された複数の特徴量モデルＱAに応じた１個の特徴量モデルＭAを生成する。具体的には、特徴量モデルＱAの生成（学習）に適用された特徴量（ピッチＰ）を１個の終端節の複数の特徴量モデルＱAについて全体的に使用して、当該終端節に対応する新規な１個の特徴量モデルＭAが再推定される。例えば、各終端節に分類された複数の特徴量モデルＱAの加重和が特徴量モデルＭAとして生成される。図５に示すように、特徴量分類部４２３は、以上の方法で生成した特徴量決定木ＴAとＫA個の特徴量モデルＭAとを含む特徴量情報ＹAを記憶装置１４に格納する。
【００４０】
特徴量分類部４２３と同様に、図５の継続長分類部４２５は、確率モデル生成部４２１が識別情報Ａ毎に生成した継続長モデルＱBを決定木学習で複数の集合に分類する。すなわち、継続長分類部４２５は、識別情報Ａに関連する所定の条件の成否を各継続長モデルＱBについて順次に判定することで図８の決定木（以下「継続長決定木」という）ＴBを構築する。継続長決定木ＴBの構築時に判定される条件や継続長決定木ＴBの構築を停止する基準は、特徴量決定木ＴAの構築時と同様である。継続長分類部４２５は、確定済の継続長決定木ＴBのＫB個の終端節の各々について、当該終端節に分類された複数の継続長モデルＱBに応じた１個の継続長モデルＭB（例えば複数の継続長モデルＱBの加重和）を生成する。そして、継続長分類部４２５は、図５に示すように、継続長決定木ＴBとＫB個の継続長モデルＭBとを含む継続長情報ＹBを記憶装置１４に格納する。
【００４１】
図５の第２情報生成部４４は、遷移配列モデル生成部４４１と遷移配列分類部４４３とを含んで構成される。遷移配列モデル生成部４４１は、識別情報Ａ内の音符属性ａ1毎（音符属性ａ1が共通する音符区間σ毎）に遷移配列モデルＱCを生成する。各音符属性ａ1に対応する遷移配列モデルＱCは、図９の例示のように、合計７種類の遷移配列（「Ｂ-Ｓ-Ｅ」，「Ｂ-Ｓ」，「Ｓ-Ｅ」，「Ｂ-Ｅ」，「Ｂ」，「Ｓ」，「Ｅ」）の各々が当該音符属性ａ1の音符区間σ内にて出現する確率（離散確率）を示す確率モデルである。
【００４２】
音符属性ａ1が共通する各音符区間σにて各遷移配列が出現する頻度に応じて当該音符属性ａ1の遷移配列モデルＱCが生成される。すなわち、各音符属性ａ1の遷移配列モデルＱCのうち当該音符属性ａ1の各音符区間σについて多く出現した遷移配列の出現確率ほど大きい数値に設定される。例えば、音符属性ａ1が共通する２個の音符区間σのうち一方の音符区間σの遷移配列が図３の指定音Ｖ2のように「Ｂ-Ｓ-Ｅ」であり、他方の音符区間σの遷移配列が図４の指定音Ｖ2のように「Ｓ-Ｅ」である場合、当該音符属性ａ1の遷移配列モデルＱCでは、遷移配列「Ｂ-Ｓ-Ｅ」および遷移配列「Ｓ-Ｅ」の各々の出現確率が０．５に設定され、他の遷移配列の出現確率が０に設定される。
【００４３】
図５の遷移配列分類部４４３は、遷移配列モデル生成部４４１が音符属性ａ1毎（音符区間σ毎）に生成した遷移配列モデルＱCを複数（遷移配列モデルＱCの総数を下回る個数）の集合に分類する。遷移配列モデルＱCの分類には公知の機械学習が任意に採用され得るが、特徴量分類部４２３や継続長分類部４２５での分類と同様に、以下に説明する決定木学習が好適である。
【００４４】
遷移配列分類部４４３は、識別情報Ａに関連する所定の条件の成否を各遷移配列モデルＱCについて順次に判定することで図１０の決定木（以下「遷移配列決定木」という）ＴCを構築する。前述の特徴量決定木ＴAや継続長決定木ＴBと同様に、遷移配列決定木ＴCは、始端節および複数の中間節と、各遷移配列モデルＱCが最終的に分類される集合に対応するＫC個の終端節とで構成される分類木である。
【００４５】
音符区間σ内の遷移配列は、対象音符の時間長ｄ2や対象音符と前後の音符との音程（ｐ1，ｐ2）等に影響される。例えば、対象音符の時間長ｄ2が長いほど音符区間σ内の遷移種別の総数が増加するという傾向や、対象音符と前後の音符との音程（音高差）が大きいほど音符区間σ内の遷移種別の総数が増加するという傾向がある。以上の傾向を考慮して、遷移配列分類部４４３は、特徴量分類部４２３や継続長分類部４２５と同様に、例えば対象音符の継続長ｄ2が閾値を上回るか否か、対象音符と直前の音符との音程ｐ1（あるいは直後の音符との音程ｐ3）が閾値を上回るか否か、といった様々な条件の成否を、始端節および各中間節にて判定する。各遷移配列モデルＱCの分類を停止する時点（遷移配列決定木ＴCを確定する時点）の判定には、例えば最小記述長（ＭＤＬ）基準が好適に適用される。
【００４６】
遷移配列分類部４４３は、遷移配列決定木ＴCのＫC個の終端節の各々について、当該終端節に分類された複数の遷移配列モデルＱCに応じた１個の遷移配列モデルＭCを生成する。例えば、各終端節に分類された複数の遷移配列モデルＱCの加重和が遷移配列モデルＭCとして生成される。遷移配列分類部４４３は、図５に示すように、以上の方法で生成した遷移配列決定木ＴCとＫC個の遷移配列モデルＭCとを含む遷移配列情報ＹCを記憶装置１４に格納する。以上が第１処理部２１の構成および動作である。
【００４７】
（２）第２処理部２２
図１１は、合成音データＶoutを生成する第２処理部２２のブロック図である。図１１に示すように、第２処理部２２は、軌跡生成部５２と合成処理部５４とを含んで構成される。軌跡生成部５２は、楽譜データＳCが指定する各指定音のピッチの時系列（合成ピッチ軌跡）Ｐsynを合成用情報Ｙから生成する。合成処理部５４は、軌跡生成部５２が生成した合成ピッチ軌跡Ｐsynに沿うようにピッチが時間的に変化する歌唱音の合成音データＶoutを生成する。具体的には、合成処理部５４は、楽譜データＳCが示す各指定音の歌詞に対応する音波形データＺAを記憶装置１４から取得し、合成ピッチ軌跡Ｐsynに沿ってピッチが経時的に変化するように音波形データＺAを加工することで合成音データＶoutを生成する。したがって、合成音データＶoutの再生音は、参照音を発声した参照歌唱者に特有の歌唱表現（ピッチ軌跡）が付加された歌唱音となる。
【００４８】
図１２は、軌跡生成部５２の動作の説明図である。図１２の処理は、入力装置１６に対する所定の操作（合成音の生成の開始指示）を契機として開始されて楽譜データＳCの指定音毎に順次に実行される。
【００４９】
図１２の処理を開始すると、軌跡生成部５２は、楽譜データＳCを参照することで指定音の音符属性ａ1（変数ｐ1〜ｐ3，変数ｄ1〜ｄ3）を決定する（Ｓ11）。そして、軌跡生成部５２は、記憶装置１４に記憶された合成用情報Ｙの遷移配列情報ＹC内のＫC個の遷移配列モデルＭCのうち指定音の音符属性ａ1に相応する１個の遷移配列モデルＭCを選択する（Ｓ12）。遷移配列モデルＭCの選択には遷移配列情報ＹC内の遷移配列決定木ＴCが利用される。すなわち、軌跡生成部５２は、指定音の音符属性ａ1を遷移配列決定木ＴCに適用する（遷移配列決定木ＴCの始端節および各中間節の条件の成否を指定音の音符属性ａ1について順次に判定する）ことで指定音が所属すべき終端節（集合）を特定し、当該終端節に対応する遷移配列モデルＭCを遷移配列情報ＹCから選択する。すなわち、参照音のうち指定音の音符属性ａ1に類似する音符属性ａ1の音符区間σから生成された遷移配列モデルＭCが選択される。
【００５０】
軌跡生成部５２は、処理Ｓ12で選択した遷移配列モデルＭCに応じて指定音の遷移配列を決定する（Ｓ13）。具体的には、処理Ｓ11で設定した音符属性ａ1が共通する各指定音について処理Ｓ13で各遷移配列を決定する確率が、遷移配列モデルＭCで遷移配列毎に規定される出現確率に近似するように、軌跡生成部５２は指定音の遷移配列を決定する。すなわち、遷移配列モデルＭCで規定される出現確率が高い遷移配列ほど、指定音の遷移配列として高確率で選択される。そして、軌跡生成部５２は、処理Ｓ13で決定した遷移配列を構成する遷移種別毎に指定音の単位区間μを設定する。例えば、処理Ｓ13で選定された遷移配列が「Ｂ-Ｓ-Ｅ」である場合には、各遷移種別に対応する３個の単位区間μが１個の指定音について設定される。軌跡生成部５２は、指定音の単位区間μ毎に、当該指定音の音符属性ａ1と当該単位区間μについて決定した遷移種別ａ2とを含む識別情報Ａを設定する。
【００５１】
軌跡生成部５２は、特徴量情報ＹA内のＫA個の特徴量モデルＭAのうち指定音の識別情報Ａに相応する特徴量モデルＭAを指定音の単位区間μ毎に選択する（Ｓ14）。具体的には、軌跡生成部５２は、指定音の識別情報Ａを特徴量情報ＹAの特徴量決定木ＴAに適用することで指定音の識別情報Ａが所属すべき終端節（集合）を特定し、当該終端節に対応する１個の特徴量モデルＭAを特徴量情報ＹAから選択する。同様に、軌跡生成部５２は、継続長情報ＹBの継続長決定木ＴBに指定音の識別情報Ａを適用することで、継続長情報ＹB内のＫB個の継続長モデルＭBのうち指定音の識別情報Ａに相応する１個の継続長モデルＭBを指定音の単位区間μ毎に選択する（Ｓ15）。
【００５２】
そして、軌跡生成部５２は、処理Ｓ14で選択した特徴量モデルＭAと処理Ｓ15で選択した継続長モデルＭBとを利用して指定音の各単位区間μ内の合成ピッチ軌跡Ｐsynを生成する（Ｓ16）。具体的には、単位区間μ内の各状態Ｓtの継続長Ｄを継続長モデルＭBに応じて決定し、特徴量モデルＭAで規定されるピッチＰの確率分布と時間変化ΔＰの確率分布とにおいて同時確率が最大化するように単位区間μ毎の合成ピッチ軌跡Ｐsynが生成される。以上の手順で単位区間μ毎に生成された合成ピッチ軌跡Ｐsynを時間軸上で相互に連結することで指定音の合成ピッチ軌跡Ｐsynが生成される。
【００５３】
以上の形態では、参照音を遷移種別に応じて区分した単位区間μ内の参照ピッチＰrefの時系列を利用して遷移種別毎に特徴量モデルＱAおよび継続長モデルＱBが生成されるから、参照音の音符（音符属性ａ1）が共通する場合でも、参照ピッチＰrefの変動の相違が特徴量モデルＱAや継続長モデルＱB（さらには特徴量モデルＭAや継続長モデルＭB）に忠実に反映される。また、楽譜データＳC内の指定音の各単位区間μの遷移種別が遷移配列モデルＭCに応じて決定され、当該遷移種別に対応する特徴量モデルＱAおよび継続長モデルＱBに応じた合成ピッチ軌跡Ｐsynが指定音の単位区間μ毎に生成される。したがって、参照音の参照ピッチＰrefの変動の相違が忠実に反映されない確率モデルを利用する場合と比較して、参照歌唱者に特有の表現を忠実に反映した合成音を、聴感的な自然性を維持しながら生成することが可能である。
【００５４】
＜Ｂ：変形例＞
以上の実施形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。
【００５５】
（１）変形例１
参照音を音符区間σや単位区間μに区分する方法は適宜に変更される。例えば、前述の実施形態では楽譜データＸBに応じて参照音を各音符区間σに区分したが、利用者からの指示に応じて各音符区間σを設定する構成も採用され得る。例えば、利用者は、表示装置に表示される参照音の波形を視認するとともに放音装置から再生される参照音を聴取することで各音符の境界を推定しながら、入力装置１６を適宜に操作して各音符区間σを指定する。第１区間設定部３４１は、利用者からの指示に応じて各音符区間σを設定する。利用者が各音符区間σを指定する構成では、楽譜データＸBは省略され得る。
【００５６】
また、前述の実施形態では利用者からの指示に応じて参照音の各単位区間μを設定したが、第２区間設定部３４３が参照音データＸAに応じて自動的に（すなわち利用者からの指示を必要とせずに）各単位区間μを設定する構成も採用され得る。例えば、第２区間設定部３４３は、音符区間σの始点の直後で参照ピッチＰrefが変動する区間を開始部Ｂの単位区間μとして設定する。同様に、参照ピッチＰrefが略一定に維持される区間が定常部Ｓの単位区間μに設定され、音符区間σの終点にかけて参照ピッチＰrefが変動する区間が終了部Ｅの単位区間μに設定される。
【００５７】
（２）変形例２
前述の実施形態では、遷移配列モデルＱCの分類の結果に応じてＫC個の遷移配列モデルＭCを生成したが、未分類の遷移配列モデルＱCを遷移配列情報ＹCとして指定音の合成に適用する構成（以下「構成Ａ」という）も採用され得る。指定音に指示された音符に対応する遷移配列モデルＱCを利用して指定音の遷移配列が決定される。構成Ａでは遷移配列分類部４４３（遷移配列モデルＭCや遷移配列決定木ＴC）が省略されるから、第１処理部２１の構成が簡素化されるという利点がある。
【００５８】
ただし、構成Ａでは、１個の遷移配列モデルＱCの生成に利用される参照ピッチＰrefの個数が不足するため、遷移配列モデルＱCの統計的な妥当性を担保することが困難となる。また、全種類の音符属性ａ1について遷移配列モデルＱCを用意することが現実的には困難である以上、遷移配列モデルＱCが用意されていない音符属性ａ1の指定音を合成できないという問題もある。前述の実施形態では、遷移配列モデルＱCの分類の結果に応じてＫC個の遷移配列モデルＭCが生成される（すなわち遷移配列モデルＱCと比較して１個の遷移配列モデルＭCに多数の参照ピッチＰrefが反映される）から、遷移配列モデルＭCの統計的な妥当性を充分に担保することが可能である。また、合成時に指定音を遷移配列決定木ＴCに適用することで指定音の遷移配列が決定される（Ｓ13）から、参照音に存在しない音符の指定音についても、聴感的に自然な合成音の生成を実現し得る適切な遷移配列を選択できるという利点がある。
【００５９】
前述の構成Ａと同様に、特徴量モデルＱAや継続長モデルＱBを指定音の合成に適用する構成（特徴量分類部４２３や継続長分類部４２５を省略した構成）も採用され得るが、確率モデルＱの統計的な妥当性を担保して聴感的に自然な合成音を合成するという観点からは、前述の実施形態の例示のように特徴量モデルＱAの分類で生成された特徴量モデルＭAや継続長モデルＱBの分類で生成された継続長モデルＭBを指定音の合成に利用する構成が格別に好適である。
【００６０】
（３）変形例３
前述の実施形態では、記憶装置１４に格納された参照音データＸAから特徴量抽出部３２が参照ピッチＰrefを抽出したが、参照音から事前に抽出された参照ピッチＰrefの時系列を記憶装置１４に格納した構成（したがって特徴量抽出部３２は省略される）も採用され得る。また、参照音を事前に各音符区間σに区分して記憶装置１４に格納した構成（したがって第１区間設定部３４１は省略される）も採用され得る。
【００６１】
（４）変形例４
前述の実施形態では第１処理部２１と第２処理部２２とを具備する音響合成装置１００を例示したが、合成用情報Ｙ（特徴量情報ＹA，継続長情報ＹB，遷移配列情報ＹC）を生成する第１処理部２１を具備する音合成用確率モデル生成装置（第２処理部２２を省略した装置）や、合成用情報Ｙを利用して合成音データＶoutを生成する第２処理部２２を具備する音響合成装置（第１処理部２１を省略した装置）としても本発明は実施され得る。また、合成用情報Ｙを記憶する記憶装置１４と第２処理部２２の軌跡生成部５２とを具備する装置（合成処理部５４を省略した構成）は、合成音の特徴量の時系列（例えば合成ピッチ軌跡Ｐsyn）を生成する特徴量軌跡生成装置としても把握され得る。
【００６２】
（５）変形例５
前述の実施形態では参照音の参照ピッチＰrefの時系列から合成用情報Ｙを生成するとともに合成用情報Ｙから合成ピッチ軌跡Ｐsynを生成したが、合成用情報Ｙの生成に利用される参照音の特徴量や合成用情報Ｙから生成される指定音の特徴量はピッチ（基本周波数）に限定されない。例えば、参照音のパワーの時系列から合成用情報Ｙを生成するとともに合成用情報Ｙから指定音のパワーの時系列（合成パワー軌跡）を生成する構成も採用され得る。また、指定音のＭＦＣＣ（Mel-Frequency cepstral coefficient）等の特徴量の生成にも、前述の実施形態と同様に本発明を適用することが可能である。
【００６３】
なお、特徴量は参照音から直接的に抽出される数値に限定されない。例えば、所定の目標値に対する参照音の特徴量の相対値を利用して合成用情報Ｙを生成する構成も採用され得る。具体的には、所定の目標値（例えば参照音の音符の音高）に対する参照音の参照ピッチＰrefの相対値から合成用情報Ｙを生成し、合成用情報Ｙに応じて生成されるピッチの相対値と指定音の音符の音高とから合成ピッチ軌跡Ｐsynを生成する構成が採用される。
【００６４】
（６）変形例６
前述の実施形態では歌唱音の合成を例示したが、本発明が適用される範囲は歌唱音の合成に限定されない。例えば、楽器の演奏音（楽音）を合成する場合にも、前述の実施形態と同様に本発明を適用することが可能である。
【符号の説明】
【００６５】
１００……音響合成装置、１２……演算処理装置、１４……記憶装置、１６……入力装置、２１……第１処理部、２２……第２処理部、３２……特徴量抽出部、３４……区間設定部、３４１……第１区間設定部、３４３……第２区間設定部、３４５……識別情報設定部、３６……合成用情報生成部、４２……第１情報生成部、４２１……確率モデル生成部、４２３……特徴量分類部、４２５……継続長分類部、４４……第２情報生成部、４４１……遷移配列モデル生成部、４４３……遷移配列分類部、５２……軌跡生成部、５４……合成処理部。

【特許請求の範囲】
【請求項１】
特徴量の変動の傾向に応じた遷移種別毎に参照音を単位区間に区分する区間設定手段と、
複数の状態の各々について特徴量の確率分布を示す遷移種別毎の特徴量モデルを、前記参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成する確率モデル生成手段と
を具備する音合成用確率モデル生成装置。
【請求項２】
前記確率モデル生成手段が生成した複数の特徴量モデルを複数の集合に分類し、前記分類で構築される特徴量決定木と前記各集合に分類された特徴量モデルから集合毎に生成される特徴量モデルとを含む特徴量情報を生成する特徴量分類手段
を具備する請求項１の音合成用確率モデル生成装置。
【請求項３】
前記確率モデル生成手段は、前記複数の状態の各々について継続長の確率分布を示す遷移種別毎の継続長モデルを、前記参照音のうち当該遷移種別の単位区間における特徴量の時系列から生成し、
前記確率モデル生成手段が生成した複数の継続長モデルを複数の集合に分類し、前記分類で構築される継続長決定木と前記各集合に分類された継続長モデルから集合毎に生成される継続長モデルとを含む継続長情報を生成する継続長分類手段を具備する
請求項１または請求項２の音合成用確率モデル生成装置。
【請求項４】
参照音を音符毎に区分した各音符区間内における遷移種別の配列毎の出現確率を示す遷移配列モデルを、前記参照音のうち当該音符に対応する音符区間内の遷移種別の配列から生成する遷移配列モデル生成手段と、
前記遷移配列モデル生成手段が生成した複数の遷移配列モデルを複数の集合に分類し、前記分類で構築される遷移配列決定木と前記各集合に分類された遷移配列モデルから集合毎に生成される遷移配列モデルとを含む遷移配列情報を生成する遷移配列分類手段と
を具備する請求項１から請求項３の何れかの音合成用確率モデル生成装置。
【請求項５】
特徴量の変動の傾向に応じた遷移種別の各配列が各音符の音符区間内に出現する確率を示す複数の遷移配列モデルを記憶する記憶手段と、
前記複数の遷移配列モデルのうち指定音の音符に対応する遷移配列モデルが示す確率に応じて指定音の各単位区間の遷移種別を決定し、前記各遷移種別に応じた傾向で各単位区間内の特徴量が変動するように特徴量の時系列を生成する軌跡生成手段と
を具備する特徴量軌跡生成装置。

【図１】