説明

音声合成データ編集装置

【課題】音声合成データに対して実行可能な編集処理を多様化する。
【解決手段】編集処理部34は、合成対象音を指定する音声合成データDBを編集プログラムPAにより生成および編集する。記憶装置14は、編集処理部34が生成した音声合成データDBを記憶する。選択処理部32は、音声合成データDBが指定する合成対象音の処理対象範囲Bを利用者からの指示に応じて選択する。拡張編集部36は、相異なる編集処理に対応する複数の拡張プログラムQのうち利用者が選択した拡張プログラムQにより実現され、記憶装置14に記憶された音声合成データDBのうち選択処理部32が選択した処理対象範囲Bを編集する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成に使用される音声合成データを編集する技術に関する。
【背景技術】
【0002】
合成対象として指定された音声(以下「合成対象音」という)に対応する複数の音声素片を相互に連結することで音声信号を生成する素片接続型の音声合成技術が従来から提案されている。特許文献1に開示されるように、合成対象音の音符の時系列は、例えばピアノロール型の編集画面に表示され、利用者からの指示に応じて編集される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−165130号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1の技術で実行可能な編集処理は、編集用のプログラムで用意された既定の編集処理に制限される。したがって、利用者が希望する編集処理が実行できない可能性や利用者の作業負担を充分に軽減できない可能性がある。以上の事情を考慮して、本発明は、音声合成データに対して実行可能な編集処理を多様化することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0006】
本発明の音声合成データ編集装置は、合成対象音を指定する音声合成データを編集プログラムにより生成および編集する編集処理手段(例えば編集処理部34)と、編集処理手段が生成した音声合成データを編集プログラムに対応する拡張プログラムにより編集する拡張編集手段(例えば拡張編集部36)とを具備する。本発明では、編集プログラムによる編集に加えて拡張プログラムによる編集も実行される。すなわち、拡張プログラムを利用できない構成と比較して音声合成データに対する編集処理が多様化されるという利点がある。なお、拡張プログラムが編集プログラムに「対応する」とは、編集プログラムにより編集された音声合成データを編集可能な形式で拡張プログラムが記述されていることを意味する。
【0007】
本発明の好適な態様の音声合成データ編集装置は、相異なる編集処理に対応する複数の拡張プログラムのうち利用者からの指示に応じた拡張プログラムを選択する処理選択手段(例えば選択処理部32)を具備し、拡張編集手段は、処理選択手段が選択した拡張プログラムにより音声合成データを編集する。以上の態様では、複数の拡張プログラムのうち利用者からの指示に応じた拡張プログラムにより音声合成データが編集されるから、特定の拡張プログラムが固定的に適用される構成と比較して、利用者毎の意図を反映した編集処理を音声合成データに実行できるという利点がある。
【0008】
本発明の好適な態様の音声合成データ編集装置は、編集処理手段が生成した音声合成データが指定する合成対象音の処理対象範囲を利用者からの指示に応じて選択する対象選択手段(例えば選択処理部32)を具備し、拡張編集手段は、音声合成データのうち対象選択手段が選択した処理対象範囲を拡張プログラムにより編集する。以上の態様では、音声合成データのうち拡張プログラムによる編集処理の対象となる処理対象範囲が利用者からの指示に応じて選択されるから、例えば拡張プログラムによる編集処理が音声合成データの全体のみに一律に適用される構成と比較して、利用者の意図を精緻に反映した音声を合成可能な音声合成データを生成できるという利点がある。
【0009】
本発明の好適な態様において、拡張編集手段は、処理対象範囲の直前の音符を最初の特定音符として選択してから処理対象範囲内の音符数と同じ回数にわたり単位処理(例えば単位処理SU)を反復し、各単位処理は、処理対象範囲の音符のうち当該単位処理の開始時の特定音符の直後の音符を新規な特定音符として選択する選択処理(例えば選択処理SU1)と、選択処理で選択した特定音符に対する編集処理(例えば編集処理SU2)とを含む。以上の態様では、処理対象範囲の直前の音符を最初の特定音符として選択してから単位処理が実行されるから、処理対象範囲内の最初の音符を最初の特定音符として選択する場合と比較して拡張プログラムの内容が簡素化されるという利点がある。
【0010】
本発明の好適な態様において、拡張編集手段は、処理対象範囲内の各音符の音響特性に関する変数データ(例えば変数データXC)を所定値(例えば所定値α0)に変更し、処理対象範囲の前方に位置する第1区間(例えば区間b1)内の各音符の変数データを、第1区間の始点から終点にかけて所定値に変化するように調整するとともに、処理対象範囲の後方に位置する第2区間(例えば区間b2)内の各音符の変数データを、第2区間の始点から終点にかけて所定値から変化するように調整する。以上の態様では、処理対象範囲内の各音符に加えて処理対象範囲の前方の第1区間および後方の第2区間の各々の音符についても変数データが調整されるから、処理対象範囲の始点や終点における変数データの不連続な変化を抑制できるという利点がある。変数データの典型例は音量であるが、音声合成に適用される他の特性値(制御変数)も変数データの概念に包含される。なお、以上の態様の具体例は例えば第2実施形態として後述される。
【0011】
本発明の好適な態様において、拡張編集手段は、記憶手段(例えば記憶装置14)の第1記憶領域(例えば領域A1)から第2記憶領域(例えば領域A2)に複製された音声合成データを拡張プログラムにより編集し、編集処理手段は、拡張編集手段による編集が正常終了した場合に、第1記憶領域の音声合成データを、第2記憶領域に記憶された編集後の音声合成データに更新する。以上の態様では、第2記憶領域に複製された音声合成データについて拡張プログラムによる編集処理が実行され、編集処理が正常終了した場合に第1記憶領域の音声合成データが編集後の音声合成データに更新される。したがって、拡張プログラムによる編集が異常終了した場合でも、第1領域に記憶された編集前の音声合成データを利用できるという利点がある。
【0012】
本発明の好適な態様の音声合成データ編集装置は、第2領域に記憶された編集後の音声合成データが指定する合成対象音を利用者に報知する報知手段を具備し、編集処理手段は、拡張編集手段による編集が正常終了し、かつ、報知手段による報知後に編集内容の確定が利用者から指示された場合に、第1記憶領域の音声合成データを、第2記憶領域に記憶された編集後の音声合成データに更新する。以上の態様では、編集後の音声合成データが指定する合成対象音の報知後に利用者が編集内容の確定を指示した場合に第1記憶領域の音声合成データが編集後の音声合成データに更新されるから、利用者の意図しない編集が音声合成データに実行される可能性を低減できるという利点がある。報知手段は、例えば、第2領域に記憶された編集後の音声合成データが指定する合成対象音の確認画面を表示装置に表示させる表示制御手段を含み、編集処理手段は、拡張編集手段による編集が正常終了し、かつ、確認画面の表示後に編集内容の確定が利用者から指示された場合に、第1記憶領域の音声合成データを、第2記憶領域に記憶された編集後の音声合成データに更新する。第1領域に記憶された音声合成データが指定する合成対象音の編集画面と、第2領域に記憶された編集後の音声合成データが指定する合成対象音の確認画面とを、表示制御手段が対比可能に表示装置に表示させる構成も好適である。
【0013】
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、合成対象音を指定する音声合成データを生成および編集する編集プログラムに対応する拡張プログラムであって、編集プログラムの実行で生成された音声合成データを編集する拡張編集手段としてコンピュータを機能させる。以上のプログラムによれば、本発明の音声合成データ編集装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0014】
【図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
【図2】音声合成データの模式図である。
【図3】編集画面の模式図である。
【図4】処理選択画面の模式図である。
【図5】拡張プログラムの実行時の動作のフローチャートである。
【図6】第2実施形態の動作の説明図である。
【図7】第3実施形態の動作の説明図である。
【図8】変形例に係る編集画面の模式図である。
【発明を実施するための形態】
【0015】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と通信装置22と表示装置24と入力装置26と放音装置28とを具備するコンピュータシステムで実現される。例えば、音声合成装置100は、据置型の情報処理装置(パーソナルコンピュータ)で実現されるほか、携帯電話機や携帯情報端末等の携帯型の情報処理装置でも実現される。
【0016】
演算処理装置12は、記憶装置14に記憶されたプログラムを実行することで、合成対象音の波形を示す音声信号Vを生成するための複数の機能(表示制御部30,選択処理部32,編集処理部34,拡張編集部36,音声合成部38)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が一部の機能を実現する構成も採用され得る。
【0017】
記憶装置14は、音声合成に使用される各種のデータ(音声素片群DA,音声合成データDB)やプログラム(編集プログラムPA,音声合成プログラムPB、拡張プログラムQ)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に利用される。音声素片群DAと音声合成データDBとを別個の記録媒体に格納した構成や、音声素片群DAまたは音声合成データDBと各プログラム(PA,PB,Q)とを別個の記録媒体に格納した構成も採用され得る。
【0018】
音声素片群DAは、相異なる音声素片に対応する複数の素片データ(例えば音声素片の波形のサンプル系列)で構成されて音声合成の素材として使用される音声合成用ライブラリである。音声素片は、言語的な意味の区別の最小単位(例えば母音や子音)である音素、または複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。
【0019】
記憶装置14は、合成対象音(複数の音符の時系列)を指定する音声合成データDBを記憶する。図2に示すように、音声合成データDBは、合成対象音の各音符に対応する単位データUを時系列に配列した時系列データ(スコアデータ)である。各単位データUは、音符データXAと発音データXBと変数データXCとを含んで構成される。
【0020】
音符データXAは、各音符の音高と発音時刻と継続長とを指定する。発音データXBは、各音符で発声する発音文字(歌詞)とその発音文字に対応する発音記号とを指定する。発音記号は例えばSAMPA(Speech Assessment Methods Phonetic Alphabet)に準拠した形式で記述される。変数データXCは、各音符の音響特性に関する変数を指定する。例えば変数データXCは、各音符の音量(ベロシティ)を指定する。また、音声(特に歌唱音)の音楽的な表情を制御する表情パラメータを変数データXCで指定することも可能である。例えばビブラートの時間長や種類,明瞭度(発声時の開口の度合),音高の揺らぎ(ピッチベンド)の深さおよび時間長,ポルタメントの有無等の表情パラメータが変数データXCとして指定される。
【0021】
図1に示すように、記憶装置14は、編集プログラムPAと音声合成プログラムPBと複数の拡張プログラムQとを記憶する。編集プログラムPAは、利用者からの指示に応じて音声合成データDBを生成および編集するためのソフトウェア(スコアエディタ)であり、音声合成プログラムPBは、音声素片群DAを利用して音声合成データDBが指定する合成対象音の音声信号Vを生成するソフトウェア(音声合成エンジン)である。各拡張プログラムQは、編集プログラムPAに組込まれて編集プログラムPAの機能を拡張または追加するプラグインソフトウェアであり、編集プログラムPAでは実行できない音声合成データDBの編集処理を演算処理装置12に実行させる。編集処理の種類毎に拡張プログラムQが用意されて記憶装置14に格納される。
【0022】
図1の通信装置22は、通信網(例えばインターネット)を介して他の通信機器と通信する。例えば、配信サーバ装置から配信された拡張プログラムQが通信装置22により受信されたうえで記憶装置14に格納される。表示装置24(例えば液晶表示装置)は、演算処理装置12から指示された画像を表示する。入力装置26は、利用者からの指示を受付ける機器(例えばマウス等のポインティングデバイスやキーボード)である。図1の選択処理部32は、入力装置26に対する利用者からの指示を受付ける。放音装置28(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号Vに応じた音波を放射する。
【0023】
演算処理装置12が編集プログラムPAを実行することで表示制御部30と選択処理部32と編集処理部34とが実現される。表示制御部30は、音声合成データDBの生成および編集のために利用者が視認する図3の編集画面50を表示装置24に表示させる。編集画面50のうち時間軸(横軸)と音高軸(縦軸)とが設定されたピアノロール型の領域内には、合成対象音の各音符を表現する音指示子(ノートバー)52が入力装置26に対する利用者からの指示に応じて配置される。音指示子52の位置やサイズは利用者からの指示に応じて変更される。また、利用者は、入力装置26を適宜に操作することで音指示子52毎に発音文字を指定することが可能である。利用者が指定した発音文字とその発音文字に対応する発音記号とが各音指示子52に付加される。図3の再生点54は、音声合成の開始点を意味し、入力装置26に対する利用者からの指示に応じて時間軸の方向に移動する。
【0024】
編集処理部34は、編集画面50に対する利用者からの指示に応じて音声合成データDBを生成および編集する。具体的には、編集処理部34は、利用者が設定した音指示子52毎に単位データUを生成する。単位データUのうち音符データXAが指定する音高は音指示子52の音高軸上の位置に応じて設定される。また、単位データUのうち音符データXAが指定する発音時刻は音指示子52の時間軸上の位置に応じて設定され、音符データXAが指定する継続長は音指示子52の時間軸上のサイズに応じて設定される。単位データUの発音データXBは、利用者が音指示子52に付加した発音文字とその発音文字に対応する発音記号とを指定する。変数データXCの各変数も同様に、入力装置26に対する利用者からの指示に応じて可変に設定される。
【0025】
利用者は、入力装置26を適宜に操作することで、1個以上の音指示子52を含む所望の領域(以下「選択領域」という)56を編集画面50内で指定することが可能である。図1の選択処理部32は、利用者が指定した選択領域56に応じて音声合成データDBの処理対象範囲Bを選択する。音声合成データDBのうち処理対象範囲B内の単位データUが拡張プログラムQによる編集処理の対象となる。すなわち、音声合成データDBの複数の単位データUのうち選択領域56内の音指示子52に対応する各音符の単位データUが処理対象範囲B内の単位データUとして選択される。選択領域56が指定された状態で利用者が入力装置26に所定の操作を付与すると、表示制御部30は図4の処理選択画面60を表示装置24に表示させる。
【0026】
処理選択画面60は、処理対象範囲B内の単位データUに対する編集処理を利用者が選択するための画像であり、第1領域61と第2領域62とを含んで構成される。第1領域61には、処理対象範囲Bの始点および終点の時刻と再生点54の時刻とが表示される。
【0027】
第2領域62には、記憶装置14に記憶された各拡張プログラムQに対応する複数の行領域64を配列した画像(すなわち拡張プログラムQのリスト)が表示される。各行領域64には、拡張プログラムQの名称,作者,バージョンおよびパス(記憶装置14内の保存位置)と、拡張プログラムQで実現される編集処理の概要(処理概要)とが表示される。図4に例示されるように、各拡張プログラムQで提供される編集処理には、処理対象範囲B内の音符の時系列にビブラートを付加する処理(ビブラート)や、各音符の継続長を所定長に短縮する処理(スタッカート),処理対象範囲B内の音量を所定値に変更する処理(ゲイン),処理対象範囲B内の音符を削除する処理(削除),発音文字を所定の文字(例えば「ら」)に変更する処理(ららら)等がある。
【0028】
利用者は、入力装置26を適宜に操作することで、処理選択画面60の第2領域62に表示された複数の拡張プログラムQのうち所望の拡張プログラムQ(編集処理)を選択することが可能である。選択処理部32は、記憶装置14が記憶する複数の拡張プログラムQのうち利用者が選択した拡張プログラム(以下「選択プログラム」という)Qを特定する。以上に説明したように、選択処理部32は、複数の拡張プログラムQのうち利用者からの指示に応じた1個の拡張プログラムQを選択する要素(処理選択手段)および音声合成データDBの処理対象範囲Bを利用者からの指示に応じて選択する要素(対象選択手段)として機能する。
【0029】
記憶装置14に記憶された複数の拡張プログラムQのうち選択処理部32が選択した選択プログラムQを演算処理装置12が実行することで図1の拡張編集部36が実現される。図5は、選択プログラムQが選択された場合の編集処理部34および拡張編集部36の動作(選択プログラムQを実行する演算処理装置12の動作)のフローチャートである。
【0030】
図5の処理を開始すると、編集処理部34は、記憶装置14の領域A1に記憶された音声合成データDBを領域A2に複製する(SA11)。領域A2は領域A1とは別個の記憶領域である。例えば記憶装置14が主記憶回路とキャッシュメモリとを含む構成では、主記憶回路内に領域A1が設定されるとともにキャッシュメモリ内に領域A2が設定される。ただし、記憶装置14を構成する単一の記憶回路内に領域A1と領域A2とを設定することも可能である。
【0031】
拡張編集部36は、処理対象範囲B内の先頭(最先)の音符の直前に位置する仮想的な音符(すなわち処理対象範囲Bの始点前に仮定される音符)を最初の特定音符として選択する(SA12)。そして、拡張編集部36は、領域A2に複製された音声合成データDBについて、処理対象範囲B内の音符の総数に相当する回数(N回)にわたり単位処理SUを反復する。
【0032】
単位処理SUは、選択処理SU1と編集処理SU2とを含んで構成される。選択処理SU1は、現時点の特定音符の直後の音符を新規な特定音符として選択する処理である。第1回目の単位処理SUの直前には処理対象範囲Bの直前の音符が特定音符として指定されているから、第1回目の単位処理SUの選択処理SU1では処理対象範囲B内の先頭の音符が特定音符として選択される。また、第N回目の単位処理SUの選択処理SU1では処理対象範囲B内の最後の音符が特定音符として選択される。すなわち、処理対象範囲B内のN個の音符が単位処理SU毎に1個ずつ時系列の順番で特定音符として順次に選択される。
【0033】
拡張編集部36は、領域A2に記憶された音声合成データDBのうち直前の選択処理SU1で新規に選択した特定音符について、選択プログラムQで規定された編集処理SU2を実行する。例えば、選択プログラムQが図4の「ビブラート」の編集処理に対応する場合、拡張編集部36は、処理対象範囲B内で各音符の音高が経時的に増減するように変数データXCが指定するビブラートを調整する。選択プログラムQが図4の「スタッカート」の編集処理に対応する場合、拡張編集部36は、処理対象範囲B内の各音符の音符データXAが指定する継続長を所定長(スタッカートと知覚される程度の短時間)に短縮する。選択プログラムQが「ゲイン」の編集処理に対応する場合、拡張編集部36は、処理対象範囲B内の各音符の変数データXCが指定する音量を所定値に変更する。選択プログラムQが「削除」の編集処理に対応する場合、拡張編集部36は、音声合成データDBのうち処理対象範囲B内の単位データUを削除する。単位データUの削除後に処理対象範囲B以降の各音符を削除分だけ前方に移動させる(すなわち各音符の音符データXAが指定する発音時刻を処理対象範囲Bの時間長だけ早める)プログラムQや、処理対象範囲B以降の各音符の発音時刻を削除前と同様に維持する(すなわち各音符の音符データXAが指定する発音時刻を変更せずに処理対象範囲Bを空白とする)プログラムQが作成されて利用者が選択的に取得する。処理対象範囲B以降の各音符を削除分だけ前方に移動させるか削除前と同様に維持するかを利用者に選択させる構成も好適である。また、選択プログラムQが図4の「ららら」の編集処理に対応する場合、拡張編集部36は、処理対象範囲B内の各音符の発音データXBが指定する発音文字および発音記号を「ら」に対応する数値に変更する。
【0034】
処理対象範囲B内のN個の音符の各々について単位処理SUが順次に実行される。拡張編集部36が単位処理SUをN回にわたり反復すると、編集処理部34は、N回の単位処理SUが正常終了したか否かを判定する(SA21)。N回の単位処理SUが正常終了した場合(SA21:YES)、編集処理部34は、領域A1に記憶された音声合成データDBを、領域A2に記憶された編集後の音声合成データDBに更新する(SA22)。すなわち、領域A1の音声合成データDBが編集後の音声合成データDBに置換される。他方、単位処理SUが異常終了した場合(例えば選択プログラムQが暴走した場合(SA21:NO))、表示制御部30は、異常終了(エラー)を利用者に報知するメッセージを表示装置24に表示する(SA23)。なお、選択プログラムQによる編集処理の中断を利用者が指示するための操作子(例えば「処理中断」ボタン)を編集処理の実行中に表示装置24に表示させる構成も好適である。例えば選択プログラムQの実行時間が長過ぎる(不具合の発生の可能性が高い)と感じた利用者が操作子を操作すると、編集処理が中断(強制終了)されて異常終了のメッセージが表示装置24に表示される。また、選択プログラムQの実行の許容時間を設定し、選択プログラムQの実行時間が許容時間に到達した場合に、編集処理を中断して異常終了のメッセージを表示させることも可能である。以上が選択プログラムQを利用した音声合成データDBの編集の手順である。
【0035】
演算処理装置12は、記憶装置14に記憶された音声合成プログラムPBを実行することで図1の音声合成部38として機能する。音声合成部38は、記憶装置14の領域A1に記憶された音声合成データDBで指定される合成対象音の音声信号Vを生成する。具体的には、音声合成部38は、第1に、音声合成データDB内の各単位データUの発音データXBが指定する発音記号に対応する音声素片の素片データを記憶装置14の音声素片群DAから順次に取得する。第2に、音声合成部38は、音声素片群DAから取得した各素片データを、各単位データUの音符データXAが指定する音高および継続長に調整するとともに変数データXCが指定する変数に応じて調整する。第3に、音声合成部38は、調整後の素片データを音符データXAが指定する発音時刻に配置して相互に連結することで音声信号Vを生成する。音声合成部38が生成した音声信号Vが放音装置28に供給されて音波として再生される。
【0036】
以上に説明した第1実施形態では、基本的な編集プログラムPAによる編集処理に加えて拡張プログラムQによる編集処理も実行される。すなわち、拡張プログラムQを利用できない構成と比較して、音声合成データDBに対する編集処理が多様化される。したがって、利用者が希望する編集処理や利用者の作業負担を軽減可能な編集処理を追加することが可能である。第1実施形態では特に、複数の拡張プログラムQから利用者の指示に応じた選択プログラムQが選択されて音声合成データDBの編集に適用されるから、利用者毎の意図を反映した編集処理を音声合成データDBに対して実行できるという利点もある。
【0037】
また、第1実施形態では、音声合成データDBのうち選択プログラムQによる編集処理の対象となる処理対象範囲Bが利用者からの指示に応じて選択されるから、例えば選択プログラムQによる編集処理が音声合成データDBの全体のみに適用される構成と比較して、利用者の意図を精緻に反映した合成音を生成できるという利点がある。
【0038】
ところで、図5のステップSA12において処理対象範囲B内の最初の音符を特定音符として選択した場合、処理対象範囲B内の最初の音符に対する編集処理SU2の実行後に(N−1)回の単位処理SUが実行されるように拡張プログラムQを記述する必要がある。すなわち、処理対象範囲B内の第1個目の音符と第2個目以降の各音符とで処理を個別に規定する必要がある。第1実施形態では、処理対象範囲Bの直前の音符を仮想的な特定音符としてステップSA12で選択してから単位処理SUが開始されるため、処理対象範囲B内のN個の音符について共通の単位処理SUを実行することが可能である。したがって、拡張プログラムQの内容が簡素化されるという利点がある。
【0039】
なお、領域A1内の音声合成データDBについて拡張プログラムQによる編集処理を直接的に実行する構成では、N回の単位処理SUが途中で異常終了した場合に編集前の音声合成データDBを回復できない可能性がある。第1実施形態では、領域A1から領域A2に複製された音声合成データDBについて拡張プログラムQによる編集処理が実行され、編集処理(N回の単位処理SU)が正常終了した場合だけ領域A1の音声合成データDBが編集後の音声合成データDBに置換される。したがって、N回の単位処理SUが仮に異常終了した場合でも、領域A1に記憶された編集前の音声合成データDBを利用して引続き編集を実行することが可能である。
【0040】
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0041】
図6は、処理対象範囲B内の各音符の音量を所定値に設定する図4の「ゲイン」の編集処理の拡張プログラムQが選択プログラムQとして選択された場合の拡張編集部36の動作の説明図である。図6に示すように、拡張編集部36は、N回にわたる単位処理SUで処理対象範囲B内の各音符の音量を所定値α0に変更すると、処理対象範囲Bの直前の区間b1と処理対象範囲Bの直後の区間b2とについて各音符の音量を調整する。区間b1および区間b2の各々は所定長(例えば1小節分)に設定される。
【0042】
具体的には、拡張編集部36は、区間b1内の各音符の音量が区間b1の始点から終点(処理対象範囲Bの始点)にかけて指定値α1から処理対象範囲B内の所定値α0に経時的(直線的または曲線的)に変化するように、区間b1内の各変数データXCが指定する音量を調整する。指定値α1は、例えば区間b1の最初の音符に指定された音量である。同様に、拡張編集部36は、区間b2内の各音符の音量が区間b2の始点から終点にかけて処理対象範囲B内の所定値α0から指定値α2に経時的に変化するように、区間b2内の各変数データXCが指定する音量を調整する。指定値α2は、例えば区間b2の最後の音符に指定された音量である。
【0043】
処理対象範囲B内の各音符の音量を所定値α0に変更するだけでは、区間b1と処理対象範囲Bとの境界点や処理対象範囲Bと区間b2との境界点にて合成音の音量が不連続に変化して不自然な印象となる。第2実施形態では、処理対象範囲B内の音量に加えて前方の区間b1および後方の区間b2内の音量も調整されるから、区間b1と処理対象範囲Bとの境界点や処理対象範囲Bと区間b2との境界点で音量が連続的に変化する自然な合成音を生成できるという利点がある。なお、以上の説明では音量を例示したが、明瞭度(発声時の開口の度合)や音高の揺らぎの深さおよび時間長,ビブラートの時間長や種類等の他の変数データXC(表情パラメータ)の数値についても第2実施形態と同様に調整することが可能である。
【0044】
<第3実施形態>
図7は、第3実施形態における演算処理装置12の動作のフローチャートである。ステップSA20までの処理は第1実施形態と同様である。第1実施形態と同様に、単位処理SUをN回にわたり反復すると、編集処理部34は、N回の単位処理SUが正常終了したか否かを判定する(SA21)。N回の単位処理SUが正常終了した場合(SA21:YES)、表示制御部30は、選択プログラムQによる編集内容の確認画面を表示装置24に表示させる(SA31)。確認画面は、領域A2に記憶された編集後の音声合成データDBを編集画面50と同様の形式で表示する画像である。すなわち、確認画面では、編集後の音声合成データDBの各単位データUを表現する音指示子52が音高軸および時間軸のもとで配置される。利用者は、確認画面を視認することで選択プログラムQによる編集内容を確認することが可能である。領域A1内の音声合成データDBを表示する図3の編集画面50と対比できるように確認画面を表示する構成が好適である。
【0045】
利用者は、入力装置26を適宜に操作する(例えば確認画面の「適用」ボタンまたは「取消」ボタンを操作する)ことで編集内容の確定/破棄を指示することが可能である(SA32)。編集内容の確定が指示された場合(SA32:YES)、編集処理部34は、第1実施形態と同様に、領域A1の音声合成データDBを編集後の音声合成データDBに置換する。他方、編集内容の破棄が指示された場合(SA32:NO)、編集処理部34は、領域A2の音声合成データDBを消去する(SA33)。すなわち、選択プログラムQによる編集処理が取消されて領域A1の音声合成データDBは編集前の内容に維持される。
【0046】
第3実施形態では、選択プログラムQを適用した編集後の合成対象音の確認画面が表示装置24に表示され、利用者が編集内容の確定を指示した場合に領域A1の音声合成データDBが編集後の内容に更新される。したがって、利用者の意図しない編集が音声合成データDBに実行される可能性を低減できるという利点がある。
【0047】
なお、以上の説明では、編集後の音声合成データDBの確認画面を表示したが、確認画面の表示とともに(または確認画面の表示に代えて)、編集後の音声合成データDBを適用して生成される音声信号Vを放音装置28から再生することも可能である。すなわち、第3実施形態の演算処理装置12は、編集後の音声合成データDAを利用者に報知する要素(報知手段)として機能し、確認画面を表示装置24に表示させる表示制御部30は、報知手段の例示である。また、以上の説明から理解されるように、編集前後の音声合成データDAを対比できる構成の有無は本発明において不問である。
【0048】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0049】
(1)拡張プログラムQによる編集処理の内容は以上の例示に限定されない。例えば、処理対象範囲B内で相前後する各音符の間に所定長の休符を挿入する編集処理や、処理対象範囲B内の各音符の音高を変化させる(例えば1オクターブだけ上下させる)編集処理を拡張プログラムQにより実現することも可能である。
【0050】
(2)前述の各形態では、選択領域56内の音指示子52に対応する複数の単位データUを処理対象範囲B内の単位データUとして選択したが、処理対象範囲B内の複数の単位データUが時間軸上で相互に隣合う必要はない。すなわち、処理対象範囲B内の各単位データUが複数の単位データUから散発的(飛び飛び)に選択される構成も好適である。例えば、所定の操作子(例えばコントロールキー)を操作しながら任意の音指示子52を順次に指示(例えばクリック)することで、利用者は、各音指示子52に対応する単位データUを処理対象範囲B内の単位データUとして散発的に選択することが可能である。具体的には、選択状態/非選択状態を示す選択データ(フラグ)が各単位データUに追加され、図5のステップSA11では、複数の単位データUのうち選択データが選択状態に設定された単位データUが領域A1から領域A2に複製される。また、図5の選択処理SU1では、単位データUの選択データが選択状態に設定された音符のうち特定音符の直後の音符が選択される。なお、例えば複数の音指示子52が散発的に選択された場合、処理選択画面60の第1領域61における処理対象範囲Bの始点および終点の表示は無効状態(例えばグレーアウト)に維持される。
【0051】
(3)前述の各形態では、時間軸と音高軸とが設定されたピアノロール型の編集画面50を例示したが、処理対象範囲Bを選択するための画像は図3の編集画面50(ピアノロール画面)に限定されない。例えば図8の編集画面70を表示装置24に表示させることも可能である。編集画面70は、単位領域72を含んで構成される。図8では1個の単位領域72のみが図示されているが、楽曲のパート毎(トラック)毎に単位領域72が並列に配置される。単位領域72には、図3の編集画面50を縮小した音指示子74の時系列が配置されるが、利用者は各音指示子72を直接的に操作することはできない。単位領域72のうち特定の区間がピアノロール型の編集画面50として表示されて利用者により操作される。なお、編集画面50と編集画面70とを並列(同時)に表示する構成や、利用者からの指示(例えば編集画面70のダブルクリック)を契機として編集画面50を表示する構成が採用され得る。
【0052】
利用者は、入力装置26を適宜に操作することで単位領域72内に所望の選択領域76を指定することが可能である。図8に示すように、時間軸上で相互に離間する複数の選択領域76を選択することもできる。選択処理部32は、利用者が指定した選択領域76内の各音符に対応する単位データUを処理対象範囲B内の単位データUとして選択する。
【0053】
(4)前述の各形態では、編集プログラムPAによる編集機能を拡張プログラムQにより拡張または追加する構成(すなわち拡張プログラムQが存在しない状態でも編集プログラムPAによる編集処理は可能な構成)を例示したが、編集プログラムPAによる編集処理を省略することも可能である。例えば、楽曲の演奏音を指定する音楽ファイルを再生する音響再生装置では、音楽ファイルが指定する各音符の時系列を編集画面50と同様の形態で表示する構成が採用される。拡張プログラムQが導入されていない段階では音楽ファイルを編集することはできないが、拡張プログラムQの導入後には、前述の各形態と同様に、拡張プログラムQによる編集処理を音楽ファイルに対して実行することが可能となる。
【0054】
(5)前述の各形態では、音声素片群DAと音声合成データDBとを記憶する記憶装置14を音声合成装置100に搭載したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が音声素片群DAおよび音声合成データDBの一方または双方を記憶する構成も採用され得る。音声合成装置100は、例えば通信網を介して音声素片群DAまたは音声合成データDBを取得して、編集画面50(編集画面70)または処理選択画面60の表示や音声合成データDBの編集や音声信号Vの合成を実行する。以上の説明から理解されるように、音声素片群DAや音声合成データDBを記憶する要素(前述の各形態における記憶装置14)は音声合成装置100の必須の要素ではない。
【0055】
(6)前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意であり、日本語には限定されない。例えば、英語,スペイン語,中国後,韓国語等の任意の言語の音声を生成する場合にも以上の各形態を同様に適用することが可能である。
【0056】
(7)前述の各形態では、音声合成部38を含む音声合成装置100を例示したが、音声合成データDBを編集するための装置(音声合成データ生成装置)としても本発明は実現される。音声合成データ生成装置は、例えば図1の音声合成装置100から音声合成プログラムPB(音声合成部38)を省略した構成である。音声合成データ生成装置に音声合成部38を追加することで音声合成装置100が実現されると換言することも可能である。
【符号の説明】
【0057】
100……音声合成装置、12……演算処理装置、14……記憶装置、22……通信装置、24……表示装置、26……入力装置、28……放音装置、30……表示制御部、32……選択処理部、34……編集処理部、36……拡張編集部、38……音声合成部。

【特許請求の範囲】
【請求項1】
合成対象音を指定する音声合成データを編集プログラムにより生成および編集する編集処理手段と、
前記編集処理手段が生成した音声合成データが指定する合成対象音の処理対象範囲を利用者からの指示に応じて選択する対象選択手段と、
前記編集処理手段が生成した音声合成データのうち前記対象選択手段が選択した処理対象範囲を、前記編集プログラムに対応する拡張プログラムにより編集する拡張編集手段と
を具備する音声合成データ編集装置。
【請求項2】
前記拡張編集手段は、前記処理対象範囲の直前の音符を最初の特定音符として選択してから前記処理対象範囲内の音符数と同じ回数にわたり単位処理を反復し、
前記各単位処理は、前記処理対象範囲の音符のうち当該単位処理の開始時の特定音符の直後の音符を新規な特定音符として選択する選択処理と、前記選択処理で選択した特定音符に対する編集処理とを含む
請求項1の音声合成データ編集装置。
【請求項3】
前記拡張編集手段は、前記処理対象範囲内の各音符の音響特性に関する変数データを所定値に変更し、前記処理対象範囲の前方に位置する第1区間内の各音符の変数データを、前記第1区間の始点から終点にかけて前記所定値に変化するように調整するとともに、前記処理対象範囲の後方に位置する第2区間内の各音符の変数データを、前記第2区間の始点から終点にかけて前記所定値から変化するように調整する
請求項1または請求項2の音声合成データ編集装置。
【請求項4】
前記拡張編集手段は、記憶手段の第1記憶領域から第2記憶領域に複製された音声合成データを拡張プログラムにより編集し、
前記編集処理手段は、前記拡張編集手段による編集が正常終了した場合に、前記第1記憶領域の音声合成データを、前記第2記憶領域に記憶された編集後の音声合成データに更新する
請求項1から請求項3の何れかの音声合成データ編集装置。
【請求項5】
前記第2領域に記憶された編集後の音声合成データが指定する合成対象音を利用者に報知する報知手段を具備し、
前記編集処理手段は、前記拡張編集手段による編集が正常終了し、かつ、前記報知手段による報知後に編集内容の確定が利用者から指示された場合に、前記第1記憶領域の音声合成データを、前記第2記憶領域に記憶された編集後の音声合成データに更新する
請求項4の音声合成データ編集装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−101325(P2013−101325A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2012−226038(P2012−226038)
【出願日】平成24年10月11日(2012.10.11)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】