音楽情報表示装置
【課題】拍点基準で規定された音楽情報の時系列と実時間基準で規定された音楽情報の時系列との時間的な対応を利用者に容易に確認させる。
【解決手段】記憶装置12は、合成対象音の音高を拍点単位で時系列に指定する合成音情報と、実時間軸上の音響信号の波形を示す波形情報とを記憶する。制御処理部22は、利用者からの指示に応じてテンポを可変に設定する。表示制御部26は、合成音情報が指定する合成対象音の時系列を示す対象音画像と音響信号の波形を示す波形画像とを拍点単位の共通の拍点軸のもとで表示させ、制御処理部22が設定するテンポに応じて波形画像を拍点軸の方向に伸縮する。
【解決手段】記憶装置12は、合成対象音の音高を拍点単位で時系列に指定する合成音情報と、実時間軸上の音響信号の波形を示す波形情報とを記憶する。制御処理部22は、利用者からの指示に応じてテンポを可変に設定する。表示制御部26は、合成音情報が指定する合成対象音の時系列を示す対象音画像と音響信号の波形を示す波形画像とを拍点単位の共通の拍点軸のもとで表示させ、制御処理部22が設定するテンポに応じて波形画像を拍点軸の方向に伸縮する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音楽に関連する情報(音楽情報)の時系列を表示する技術に関する。
【背景技術】
【0002】
音声合成の対象となる音声(以下「合成対象音」という)の時系列を生成および編集する技術が従来から提案されている。例えば特許文献1には、拍点を単位とする横方向の時間軸(以下では「拍点軸」という)と音高を示す縦方向の音高軸とが規定されたピアノロール型の編集画面を参照して利用者が各合成対象音を編集する技術が開示されている。合成対象音を示す音指示子(ノートバー)を編集画面に適宜に配置することで、利用者は、拍点を単位(基準)として所望の合成対象音を指定することが可能である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−259768号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、編集画面で指定された各合成対象音の時系列は、実時間(例えば秒)を単位とする時間軸(以下「実時間軸」という)のもとで生成された他の音楽情報の時系列と並列に処理され得る。例えば、実時間軸での時間波形として収録された伴奏音を合成対象音の時系列と並列に再生することが可能である。また、合成対象音毎に音指示子が配置された編集画面と伴奏音の時間波形とが並列に表示されれば、例えば伴奏音のうち音量が瞬間的に増加する時点(すなわち拍点)に合致するように合成対象音を配置するといった調整が実現されて便利である。
【0005】
しかし、各合成対象音の時系列が拍点軸のもとで表示され、伴奏音の時間波形が実時間軸のもとで表示される構成では、両者間の時間的な対応(同期)を利用者が把握することが困難であるという問題がある。なお、以上の説明では伴奏音の時間波形を実時間上の時系列情報として例示したが、伴奏音の時間波形以外の実時間上の時系列情報を拍点軸上の時系列情報と並列に処理する場合にも、同様の問題が発生し得る。以上の事情を背景として、本発明は、拍点基準で規定された音楽情報の時系列と実時間基準で規定された音楽情報の時系列との時間的な対応を利用者に容易に確認させることを目的とする。
【課題を解決するための手段】
【0006】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0007】
本発明の音楽情報表示装置は、第1音楽情報を拍点単位で時系列に指定する第1時系列情報(例えば合成音情報DS)を記憶する第1記憶手段(例えば記憶装置12)と、第2音楽情報を実時間単位で時系列に指定する第2時系列情報(例えば波形情報DWや合成音情報DR)を記憶する第2記憶手段(例えば記憶装置12)と、テンポを可変に設定するテンポ設定手段(例えば制御処理部22)と、第1時系列情報を示す第1時系列画像(例えば対象音画像42)と第2時系列情報を示す第2時系列画像(例えば波形画像44や音素列画像62Bや特徴量画像64B)とを拍点単位の共通の拍点軸のもとで表示装置に表示させ、テンポ設定手段が設定するテンポに応じて第2時系列画像を拍点軸の方向に伸縮する表示制御手段(例えば表示制御部26)とを具備する。以上の構成によれば、第1時系列画像と第2時系列画像とが共通の拍点軸のもとで表示されるとともに第2時系列画像がテンポに応じて拍点軸の方向に伸縮されるから、拍点基準で規定される第1音楽情報の時系列と実時間基準で規定される第2音楽情報の時系列との時間的な対応を利用者が容易に把握できるという利点がある。
【0008】
本発明の好適な態様において、第2時系列情報(例えば波形情報DW)は、振幅値を第2音楽情報として音響信号(例えば音響信号AW)の時間波形を指定し、表示制御手段は、第2時系列情報から特定される推定拍点に対応する拍点指示子(例えば拍点指示子442)を第2時系列画像とともに拍点軸のもとで表示装置に表示させ、テンポ設定手段が設定するテンポに応じて各拍点指示子を拍点軸の方向に移動させる。以上の態様では、第2時系列情報から特定される推定拍点に対応する拍点指示子が拍点軸のもとで表示されるとともに各拍点指示子がテンポに応じて拍点軸の方向に移動されるから、第1時系列情報が示す第1音楽情報の時系列と第2時系列情報が指定する音響信号の推定拍点との時間的な対応を利用者が容易に把握できるという利点がある。
【0009】
本発明の好適な態様において、第2時系列情報から特定される推定拍点が拍点軸上の各拍点に合致するように、表示制御手段が第2時系列画像を拍点軸の方向に伸縮するとともにテンポ設定手段がテンポを設定する。以上の態様では、推定拍点が拍点軸上の各拍点に合致するようにテンポが設定されるから、例えば第1時系列画像と第2時系列画像との対応を確認しながら第1音楽情報の時系列と第2音楽情報の時系列とが同期するように利用者が手動でテンポを調整する構成と比較して、利用者の負担が軽減されるという利点がある。なお、以上の態様の具体例は例えば第4実施形態として後述される。
【0010】
本発明の好適な態様に係る音楽情報表示装置は、第2音楽情報の再生速度(例えば再生速度V2)の変更の許可/禁止を選択し、再生速度の変更を許可した場合に、テンポ設定手段が設定するテンポに応じて第2音楽情報の時系列が時間軸上で伸縮するように第2時系列情報を変更し、再生速度の変更を禁止した場合には第2時系列情報を変更しない制御手段(例えば制御処理部22)を具備する。以上の態様においては、第2音楽情報の再生速度の変更の許否が選択されるから、例えば第2音楽情報の時系列を拍点に同期させる必要がない場合にはテンポに応じた再生速度の変更を禁止し、第2音楽情報の時系列を拍点に同期させる必要がある場合にはテンポに応じた再生速度の変更を許可するといった制御が可能である。なお、以上の態様の具体例は例えば第2実施形態として後述される。
【0011】
本発明の好適な態様において、制御手段は、第2音楽情報の再生速度の変更の許可/禁止を利用者からの指示に応じて選択する。以上の態様では、第2音楽情報の再生速度の変更の許可/禁止が利用者からの指示に応じて選択されるから、第2音楽情報の時系列を拍点に同期させるか否かを利用者の意図に応じて変更できるという利点がある。
【0012】
以上の各態様に係る音楽情報表示装置は、音楽情報の表示制御に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、第1音楽情報を拍点単位で時系列に指定する第1時系列情報を記憶する第1記憶手段と、第2音楽情報を実時間単位で時系列に指定する第2時系列情報を記憶する第2記憶手段とを具備するコンピュータに、テンポを可変に設定するテンポ設定処理と、第1時系列情報を示す第1時系列画像と第2時系列情報を示す第2時系列画像とを拍点単位の共通の拍点軸のもとで表示装置に表示させ、テンポ設定処理で設定したテンポに応じて第2時系列画像を拍点軸の方向に伸縮する表示制御処理とを実行させる。以上のプログラムによれば、本発明に係る音楽情報表示装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0013】
【図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
【図2】合成指示情報の模式図である。
【図3】編集画面の模式図である。
【図4】操作画面の模式図である。
【図5】テンポに応じた波形画像の伸縮の説明図である。
【図6】対象音編集画面の模式図である。
【図7】第2実施形態における合成指示情報の模式図である。
【図8】第2実施形態における編集画面の模式図である。
【図9】第2実施形態における操作画面の模式図である。
【図10】対象音編集画面(実時間基準)での音素列画像および特徴量画像の伸縮の説明図である。
【図11】編集画面(拍点基準)での音素列画像および特徴量画像の伸縮の説明図である。
【図12】第3実施形態における操作画面の模式図である。
【図13】第3実施形態におけるテンポに応じた対象音画像の伸縮の説明図である。
【図14】第4実施形態における操作画面の模式図である。
【発明を実施するための形態】
【0014】
<A:第1実施形態>
図1は、本発明の第1実施形態の音声合成装置100のブロック図である。音声合成装置100は、音響信号Aを合成する音響処理装置であり、図1に示すように、演算処理装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。入力装置14(例えばマウスやキーボード)は、利用者からの指示を受付ける。表示装置16(例えば液晶表示装置)は、演算処理装置10から指示された画像を表示する。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音響信号Aに応じた音響を再生する。
【0015】
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する情報(例えば音声素片群QA,合成指示情報QB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用され得る。
【0016】
音声素片群QAは、相異なる音声素片に対応する複数の素片情報(例えば音声素片の波形のサンプル系列)で構成されて音響信号Aの素材として利用される音声合成用ライブラリである。音声素片は、言語上の意味の区別の最小単位(例えば母音や子音)である1個の音素、または複数の音素を連結した音素連鎖である。合成指示情報QBは、音響信号Aが示す音響の内容を指示する情報であり、図2に示すように、合成音情報DSと波形情報DWとテンポ情報DTとを含んで構成される。
【0017】
合成音情報DSは、合成対象音の時系列を指定する時系列情報(スコアデータ)である。図2に示すように、合成音情報DSは、相異なる合成対象音に対応する複数の単位情報USの時系列で構成される。各単位情報USは、合成対象音の音高(ノートナンバ)s1と発音文字s2と発音期間s3とを指定する。発音文字s2は、合成対象音の発音の音節(文字)である。
【0018】
発音期間s3は、合成対象音の発音の始点と終点とで規定される。発音の始点および終点の各々は、秒単位等の実時間ではなく拍点を基準として(あるいは複数の拍点を含む小節を基準として)指定される。具体的には、発音期間s3の各端点(始点,終点)は、小節番号σ1と拍点番号σ2と区間番号σ3との組合せで指定される。区間番号σ3は、相前後する2個の拍点の間隔(以下「拍点区間」という)を区分した複数の単位区間の何れかを識別する番号である。すなわち、第σ1番目の小節のうち第σ2番目の拍点から合計σ3個の単位区間が経過した時点が発音期間s3の端点として指定される。以上の説明から理解されるように、合成音情報DSは、合成対象音の音高s1や発音文字s2を拍点基準で(すなわち実時間ではなく拍点や小節を基準として)時系列に指定する。
【0019】
図2の波形情報DWは、楽曲の伴奏音等の音楽を収録した音響信号AWの時間波形を指定する。例えば利用者が選択した音響信号AWが光記録媒体や半導体記録媒体等の各種の記録媒体から波形情報DWとして記憶装置12に転送される。波形情報DWは、事前に収録された音響信号AWの振幅値を実時間軸上の所定の周期毎に抽出した多数のサンプルの時系列で構成される。すなわち、波形情報DWは、音響信号AWの振幅値を実時間基準で(すなわち実時間を単位(例えば秒単位)として)時系列に指定する。
【0020】
図2のテンポ情報DTは、拍点が到来するテンポ(速度)を時系列に指定する情報であり、テンポの指定単位となる速度調整区間毎に単位情報(テンポチェンジメッセージ)UTを含んで構成される。各単位情報UTは、テンポを変更する時点t1(すなわち速度調整区間の始点)と時点t1以後のテンポt2とを指定する。速度調整区間の開始の時点t1は、前述の発音期間s3の端点と同様に拍点基準で指定される。すなわち、例えば小節番号σ1と拍点番号σ2と区間番号σ3との組合せで各単位情報UTの時点t1が指定される。以上が合成指示情報QBの具体的な内容である。
【0021】
図1の演算処理装置10は、記憶装置12に格納されたプログラムPGMの実行で、音響信号Aの生成に必要な複数の機能(制御処理部22,音声合成部24,表示制御部26)を実現する。なお、演算処理装置10の各機能を専用の電子回路(DSP)で実現した構成や、演算処理装置10の各機能を複数の集積回路に分散した構成も採用され得る。制御処理部22は、入力装置14に対する利用者からの指示に応じて合成指示情報QB(合成音情報DS,波形情報DW,テンポ情報DT)を生成および更新する(詳細は後述)。
【0022】
音声合成部24は、記憶装置12に格納された音声素片群QAおよび合成指示情報QBを利用して音響信号Aを生成する。第1実施形態の音声合成部24は、図2に示すように、合成音情報DSに応じた音響信号ASと波形情報DWが示す音響信号AWとの混合で音響信号Aを生成する。具体的には、音声合成部24は、記憶装置12に格納された音声素片群QAのうち合成音情報DSの各単位情報USが指定する発音文字s2に対応した素片情報を、テンポ情報DTの単位情報UTが指定するテンポt2と当該単位情報USの発音期間s3とに応じた時間長に伸縮するとともに当該単位情報USが指定する音高s1に調整し、調整後の各素片情報を相互に連結することで音響信号ASを生成する。そして、音声合成部24は、音響信号ASと波形情報DWが指定する音響信号AWとを混合することで音響信号Aを生成する。音響信号Aは、放音装置18に供給されて音響として再生される。
【0023】
図1の表示制御部26は、合成対象音の編集時に利用者が視認する図3の編集画面30を表示装置16に表示させる。図3に示すように、拍点を示す拍点軸Xbが編集画面30に規定される。拍点軸Xb上には複数の拍点が所定の間隔(等間隔)で離散的に設定され、拍点を示す直線状の基準指示子40が拍点軸Xb上の各拍点の位置に配置される。図3に示すように、編集画面30は、第1領域31と第2領域32と第3領域33とを含んで構成される。
【0024】
第1領域31には、拍点軸Xbに直交する縦方向の音高軸Xpが規定される。表示制御部26は、合成対象音の時系列を表現する対象音画像42を第1領域31内に配置する。対象音画像42は、各合成対象音を図形化した複数の音指示子422を拍点軸Xbの方向に時系列に配列したピアノロール型の画像である。音高軸Xpの方向における音指示子422の位置は合成対象音の音高に応じて可変に設定される。また、拍点軸Xbの方向における音指示子422の位置(例えば音指示子422の右端部の位置)は合成対象音の発音の時点(例えば発音期間s3の始点)に応じて可変に設定され、拍点軸Xbの方向における音指示子422の長さは合成対象音の発音期間s3の長短に応じて可変に設定される。
【0025】
利用者は、編集画面30を確認しながら入力装置14を適宜に操作することで、合成対象音の編集を指示することが可能である。例えば、第1領域31内の任意の位置に対する音指示子422の追加や既存の音指示子422の削除、または音指示子422の発音文字s2の指定または変更等の編集が利用者から指示される。表示制御部26は、第1領域31に対する利用者からの指示に応じて対象音画像42を随時に更新する。
【0026】
制御処理部22は、第1領域31に配置された音指示子422毎に合成音情報DSの各単位情報USを生成して記憶装置12に格納する。すなわち、制御処理部22は、音高軸Xpの方向における音指示子422の位置に応じた音高s1と、音指示子422に指定された発音文字s2と、拍点軸Xbの方向における音指示子422の位置や長さに応じた発音期間s3とを含む単位情報USを生成して利用者からの指示に応じて随時に更新する。
【0027】
表示制御部26は、波形情報DWが示す音響信号AWの時間波形の画像(以下「波形画像」という)44を第2領域32に配置する。波形情報DWは前述のように実時間基準で規定されるが、第2領域32の波形画像44は、実時間軸Xtではなくて、第1領域31内の対象音画像42と共通の拍点軸Xbのもとで表示される。また、表示制御部26は、音響信号AWの拍点(以下「推定拍点」という)を波形情報DWから推定し、各推定拍点を表現する拍点指示子442を波形画像44とともに第2領域32に配置する。図3の各拍点指示子442は、各推定拍点の位置に配置された直線状の図形である。なお、音響信号AWの拍点の推定には公知の技術が任意に採用される。
【0028】
表示制御部26は、音声合成のテンポt2の時系列を第3領域33に表示する。具体的には、拍点軸Xb上に区画された速度調整区間46毎にテンポt2が指定される。合成音情報DSの編集が開始された直後の段階では拍点軸Xbの全区間を速度調整区間46としてテンポt2が初期値に設定され、以下に説明するように、利用者が拍点軸Xb上に任意に区画した速度調整区間46毎にテンポt2が可変に設定される。
【0029】
利用者は、入力装置14に対する所定の操作(例えば第3領域33のダブルクリック)により、拍点軸Xb上の任意の時点t1を速度調整区間46の始点として指定したうえでテンポt2の変更を指示する。利用者がテンポt2の変更を指示すると、表示制御部26は、利用者がテンポt2を指定するための図4の操作画面50(ダイアログボックス)を表示装置16に表示させる。
【0030】
操作画面50には指定領域52が配置される。指定領域52にはテンポt2(図4では「125」)が表示される。利用者は、入力装置14に対する所定の操作で指定領域52内のテンポt2の変更を指示すること(増加/減少の指示または数値の直接入力)が可能である。制御処理部22は、利用者が選択した速度調整区間46に対応する単位情報UTのテンポt2を、指定領域52に対する利用者からの指示に応じて可変に設定する。
【0031】
拍点軸Xbは各拍点が等間隔で配列するように設定されるから、テンポt2が変化した場合でも、拍点軸Xb上の各拍点の間隔(相互に隣合う各基準指示子40の間隔)は変化しない。また、合成音情報DSは拍点基準で合成対象音の時系列を指定するから、テンポt2が変化した場合でも対象音画像42は変化しない(拍点軸Xbの方向に伸縮しない)。他方、各拍点の間隔である拍点区間δの実時間長(例えば秒単位の時間長)はテンポt2に応じて変化する。例えばテンポt2が速いほど1個の拍点区間δの実時間長は短くなる。前述のように波形情報DWは実時間基準で音響信号AWを規定するから、表示制御部26は、制御処理部22が設定するテンポt2に応じて第2領域32内の波形画像44を拍点軸Xbの方向に伸縮させ、波形画像44の伸縮とともに各拍点指示子442を拍点軸Xbの方向に移動させる。
【0032】
例えば、テンポt2が速いほど各拍点区間δの実時間長は短くなるから、図5に矢印a1で示すように、表示制御部26は、速度調整区間46内のテンポt2が上昇するほど、その速度調整区間46に対応する波形画像44を拍点軸Xbの方向に伸長させる。すなわち、波形画像44の各推定拍点を示す拍点指示子442の間隔が増加する(拍点区間δ内の推定拍点の個数が減少する)。また、速度調整区間46内のテンポt2が低下した場合(拍点区間δの実時間長が長くなる場合)、図5に矢印a2で示すように、表示制御部26は、その速度調整区間46に対応する波形画像44を拍点軸Xbの方向に縮小する。
【0033】
操作画面50に対する操作に応じたテンポt2の変更と拍点軸Xbの方向の波形画像44の伸縮とは並列に実行される。すなわち、利用者からの指示に応じて制御処理部22がテンポt2を変更(増減/数値指定)するたびに、テンポt2の変更に応じた波形画像44の伸縮が逐次的に実行される。したがって、利用者は、波形画像44の伸縮(各拍点指示子442の移動)を視覚的に確認しながらテンポt2を変更することが可能である。具体的には、波形画像44の各拍点指示子442と拍点軸Xb上の各拍点に対応する基準指示子40とが拍点軸Xb上で合致するように速度調整区間46毎のテンポt2を設定することで、合成音情報DSに応じて生成される音響信号ASの拍点と波形情報DWが指定する音響信号AWの拍点とを同期させることが可能である。すなわち、拍点基準の合成音情報DSから生成される音響信号ASと実時間基準の波形情報DWが指定する音響信号AWとの時間的な対応を利用者が容易に確認できるという利点がある。
【0034】
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。第2実施形態では、第1実施形態と同様に拍点基準で規定される合成対象音(以下では特に「第1合成対象音」という)の時系列のほか、実時間基準で規定される合成対象音(以下「第2合成対象音」という)の時系列について音響信号Aが生成される。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0035】
利用者は、入力装置14に対する所定の操作で第2合成対象音の編集を指示することが可能である。第2合成対象音の編集が利用者から指示されると、表示制御部26は、図6の対象音編集画面60を表示装置16に表示させる。
【0036】
図6に示すように、対象音編集画面60には、音素列画像62Tと特徴量画像64Tとが共通の実時間軸Xt(横軸)のもとで配置される。音素列画像62Tは、第2合成対象音を構成する音素を実時間軸Xtに沿って時系列に配列した画像である。他方、特徴量画像64Tは、第2合成対象音の特徴量(以下の例示では音高)の時間変化を表現する画像である。図6では、実時間軸Xtに沿って時系列に配列された複数の編集点α(ブレークポイント)を相互に連結した折線を特徴量画像64Tとして例示した。
【0037】
利用者は、対象音編集画面60を確認しながら入力装置14を適宜に操作することで第2合成対象音の編集を指示することが可能である。具体的には、音素列画像62Tを構成する各音素の追加や変更等の編集や、任意の位置に対する編集点αの追加または既存の編集点αの移動および削除等の特徴量画像64Tの編集が利用者から指示される。表示制御部26は、利用者からの指示に応じて対象音編集画面60の音素列画像62Tおよび特徴量画像64Tを更新する。
【0038】
図7は、第2実施形態の合成指示情報QBの模式図である。図7に示すように、第2実施形態の合成指示情報QBは、第1実施形態と同様の要素(合成音情報DS,波形情報DW,テンポ情報DT)に合成音情報DRを追加した構造である。合成音情報DRは、第2合成対象音の時系列を指定する情報であり、音素列画像62Tに対応する音素列情報RAと特徴量画像64Tに対応する特徴量情報RBとを含んで構成される。
【0039】
音素列情報RAは、第2合成対象音の各音素に対応する単位情報URaの時系列である。単位情報URaは、音素の識別情報rA1と発音期間rA2(例えば始点および終点)とを指定する。合成音情報DSの単位情報USが第1合成対象音の発音期間s3を拍点基準で指定するのに対し、合成音情報DRの単位情報URaは、第2合成対象音の発音期間rA2を実時間基準で(例えば音響信号Aの始点から経過した実時間)で指定する。
【0040】
特徴量情報RBは、第2合成対象音の特徴量(音高)の時間変化を指定する情報であり、特徴量画像64Tの相異なる編集点αに対応する複数の単位情報URbの時系列で構成される。各単位情報URbは、編集点αの時刻rB1とその編集点αに対応する特徴量の数値rB2とを指定する。時刻rB1は、単位情報URaの発音期間rA2と同様に実時間基準で指定される。すなわち、合成音情報DRは、第2合成対象音の音素と特徴量とを実時間基準で(すなわち実時間を単位として)時系列に指定する。
【0041】
第2実施形態の制御処理部22は、対象音編集画面60に対する利用者からの指示に応じて合成音情報DRを随時に更新する。具体的には、制御処理部22は、音素列画像62Tに対する音素の追加や変更が利用者から指示された場合には音素列情報RAの単位情報URaを追加または変更し、特徴量画像64Tに対する編集点αの追加や変更(移動,削除)が利用者から指示された場合には特徴量情報RBの単位情報URbを追加または変更する。また、利用者は、以上の例示のように所望の音素や編集点αを直接的に指定するほか、拍点基準で指定された既存の第1合成対象音から実時間基準の第2合成対象音への変換を指示することも可能である。利用者から変換が指示されると、制御処理部22は、拍点基準の合成音情報DSを実時間基準の合成音情報DRに変換して記憶装置12に格納する。変換後の合成音情報DRについては、利用者が直接的に指定した合成音情報DRと同様に音素列情報RAや特徴量情報RBの編集が可能である。
【0042】
図7に示すように、第2実施形態の音声合成部24は、合成音情報DRに応じて音響信号ARを生成する。具体的には、音素列情報RAの各単位情報URaが指定する識別情報rA1に対応する素片情報を音声素片群QAから順次に取得し、各素片情報を、当該単位情報URaの発音期間rA2と特徴量情報RBの各単位情報URbの特徴量rB2(音高)とに調整したうえで相互に連結することで音響信号ARを生成する。そして、音声合成部24は、合成音情報DSに応じた音響信号ASと波形情報DWが示す音響信号AWと合成音情報DRから生成した音響信号ARとを合成することで音響信号Aを生成する。
【0043】
図8は、第2実施形態の編集画面30の模式図である。図8に示すように、第2実施形態の編集画面30は、第1実施形態と同様の要素(第1領域31,第2領域32,第3領域33)に第4領域34を追加した構造である。表示制御部26は、音素列画像62Bと特徴量画像64Bとを第4領域34に配置する。音素列画像62Bおよび特徴量画像64Bは、図6の対象音編集画面60にて実時間軸Xtのもとで表示される音素列画像62Tおよび特徴量画像64Tを拍点軸Xb上に展開した画像である。すなわち、音素列画像62Bは、音素列情報RAが指定する各音素の時系列を拍点軸Xbのもとで表示し、特徴量画像64Bは、特徴量情報RBが指定する特徴量の時間変化を拍点軸Xbのもとで表示する。表示制御部26は、対象音編集画面60内の音素列画像62Tや特徴量画像64Tの編集(音素列情報RAや特徴量情報RBの更新)に応じて編集画面30内の音素列画像62Bや特徴量画像64Bを随時に更新する。
【0044】
第1実施形態と同様に、利用者が速度調整区間46を指定してテンポt2の変更を指示すると、表示制御部26は、図9の操作画面50を表示装置16に表示させる。第2実施形態の操作画面50は、第1実施形態と同様のテンポt2の指定領域52に加えて、第2合成対象音の再生速度V2をテンポt2に連動して変化させるか否か(再生速度V2の変更の許可/禁止)を利用者が選択する操作領域(チェックボックス)54を含んで構成される。
【0045】
再生速度V2の変更の禁止が選択された状態(例えば操作領域54のチェックオフ)では、合成音情報DRが実時間基準で規定する第2合成対象音の再生速度V2が変化しないように、制御処理部22は、利用者からの指示に応じてテンポt2を変化させた場合でも合成音情報DR(すなわち実時間軸Xt上の第2合成対象音の時系列)を変更しない。したがって、図10に矢印A1_OFFで示すように、対象音編集画面60に実時間基準で表示された音素列画像62Tおよび特徴量画像64Tはテンポt2の変更の前後で変化しない。他方、拍点区間δの実時間長はテンポt2に応じて変化するから、表示制御部26は、編集画面30の第4領域34に拍点基準で表示される音素列画像62Bおよび特徴量画像64Bをテンポt2に応じて伸縮する。具体的には、表示制御部26は、図11に矢印A2_OFFで示すように、速度調整区間46内のテンポt2が上昇する(拍点区間δの実時間長が短くなる)ほど、編集画面30内の速度調整区間46内の音素列画像62Bおよび特徴量画像64Bを拍点軸Xbの方向に伸長させる。また、速度調整区間46内のテンポt2が低下した場合(拍点区間δの実時間長が長くなる場合)、表示制御部26は、編集画面30内の音素列画像62Bおよび特徴量画像64Bを拍点軸Xbの方向に縮小させる。
【0046】
他方、再生速度V2の変更の許可が選択された状態(例えば操作領域54のチェックオン)では、合成音情報DRが実時間基準で規定する第2合成対象音の再生速度V2がテンポt2に連動して変化するように表示制御部26および制御処理部22が動作する。すなわち、例えば速度調整区間46内のテンポt2が上昇した場合(拍点区間δの実時間長が短くなる場合)、表示制御部26は、図10に矢印A1_ONで示すように、対象音編集画面60に実時間基準で表示された音素列画像62Tおよび特徴量画像64Tを実時間軸Xtの方向に縮小し、制御処理部22は、第2合成対象音の再生速度V2がテンポt2に応じて上昇するように合成音情報DRを更新する。例えば、制御処理部22は、合成音情報DRが指定する音素の発音期間rA2や編集点αの時刻rB1を実時間軸Xtの前方(遡及方向)に移動させる。また、テンポt2が低下した場合、対象音編集画面60の音素列画像62Tや特徴量画像64Tが実時間軸Xtの方向に伸長するように、表示制御部26による対象音編集画面60の更新と制御処理部22による合成音情報DRの更新とが実行される。他方、編集画面30の音素列画像62Bおよび特徴量画像64Bは拍点軸Xbのもとで表示されるから、図11の矢印A2_ONで示すように、対象音編集画面60の音素列画像62Tおよび特徴量画像64Tはテンポt2の変更の前後で変化しない。
【0047】
例えば楽曲中の台詞のように拍点に同期させる必要がない音声が第2合成対象音として指定された状態では、拍点のテンポt2が変更された場合でも第2合成対象音の再生速度V2は維持される必要がある。以上のような場合に、利用者は、操作領域54に対する指示で再生速度V2の変更を禁止することが可能である。他方、第1合成対象音の変換で第2合成対象音を指定した場合のように第2合成対象音が拍点に同期するように指定された場合、第2合成対象音の再生速度V2を第1合成対象音とともにテンポt2に応じて変化させる必要がある。以上のような場合に、利用者は、操作領域54に対する指示で再生速度V2の変更を許可することが可能である。すなわち、第2実施形態によれば、実時間基準で規定された第2合成対象音の再生速度V2をテンポt2に連動して変化させるか否かを利用者が任意に選択できるという利点がある。
【0048】
<C:第3実施形態>
第2実施形態では、実時間基準で規定される第2合成対象音の再生速度V2の変更の許可/禁止を制御した。第3実施形態では、拍点基準で規定される第1合成対象音の再生速度V1の変更の許可/禁止を制御する。
【0049】
第1実施形態と同様に、利用者がテンポt2の変更を指示すると、表示制御部26は、図12の操作画面50を表示装置16に表示させる。第3実施形態の操作画面50は、第1実施形態と同様のテンポt2の指定領域52に加えて、第1合成対象音の再生速度V1をテンポt2に連動して変化させるか否か(再生速度V1の変更の許可/禁止)を利用者が選択する操作領域56を含んで構成される。
【0050】
再生速度V1の変更の禁止が選択された状態では、合成音情報DSが拍点基準で規定する第1合成対象音の再生速度V1が変化しないように表示制御部26および制御処理部22が動作する。すなわち、例えば速度調整区間46内のテンポt2が上昇した場合(拍点区間δの実時間長が短くなる場合)、表示制御部26は、図13に矢印b1で示すように、第1領域31に表示された対象音画像42(音指示子422の時系列)を拍点軸Xbの方向に伸長し、制御処理部22は、第1合成対象音の再生速度V1がテンポt2の変更の前後で維持されるように合成音情報DSを更新する。例えば、制御処理部22は、合成音情報DSが指定する第1合成対象音の発音期間s3を拍点軸Xbの後方(経過方向)に移動させる。また、テンポt2が低下した場合(拍点区間δの実時間長が長くなる場合)、図13に矢印b2で示すように、第1領域31に拍点基準で表示された対象音画像42が拍点軸Xbの方向に縮小するように、表示制御部26による対象音画像42の更新と制御処理部22による合成音情報DRの更新とが実行される。
【0051】
他方、再生速度V2の変更の許可が選択された状態では、表示制御部26による対象音画像42の更新や制御処理部22による合成音情報DRの更新は実行されない。したがって、第1合成対象音の再生速度V1はテンポt2に連動して変化する。すなわち、テンポt2が上昇するほど再生速度V1も上昇する。
【0052】
例えば楽曲の歌唱音が拍点に同期するように第1合成対象音として指定された状態では、拍点のテンポt2に応じて第1合成対象音の再生速度V1を変化させる必要がある。以上のような場合に、利用者は、操作領域56に対する指示で再生速度V1の変更を許可することが可能である。他方、利用者は、楽曲中の台詞のように拍点に同期させる必要がない音声を第1合成対象音として直接的に指定することも可能であり、この場合には、拍点のテンポt2が変更された場合でも第1合成対象音の再生速度V1は維持される必要がある。以上のような場合に、利用者は、操作領域56に対する指示で再生速度V1の変更を禁止することが可能である。すなわち、第3実施形態によれば、拍点基準で規定された第1合成対象音の再生速度V1をテンポt2に連動して変化させるか否かを利用者が任意に選択できるという利点がある。
【0053】
なお、以上の形態では第1実施形態を基礎とした構成を例示したが、再生速度V1の変更の許可/禁止を制御する構成を第2実施形態に追加した形態も当然に採用され得る。具体的には、拍点基準で規定された第1合成対象音の再生速度V1の変更の許可/禁止(第3実施形態)と、実時間基準で規定された第2合成対象音の再生速度V2の変更の許可/禁止(第2実施形態)とが、操作画面50に対する利用者からの指示に応じて個別に選択される。すなわち、相異なる合成対象音に対応する複数の再生速度の各々について変更の許可/禁止を個別に指定する構成も好適である。例えば、トラック1からトラック3の3種類が併存する場合に、トラック1およびトラック3について再生速度の変更の許可を指示するとともにトラック2について再生速度の変更の禁止を指示することが可能である。
【0054】
<D:第4実施形態>
第1実施形態では、例えば波形画像44の各拍点指示子442と拍点軸Xb上の各基準指示子40とが拍点軸Xb上で同期するように利用者が入力装置14の操作でテンポt2を調整した。第4実施形態では、波形画像44の各拍点指示子442が拍点軸Xb上の各基準指示子40に合致する(クオンタイズされる)ようにテンポt2が自動的に(すなわち利用者による調整を必要とせずに)設定される。
【0055】
利用者が第3領域33内の速度調整区間46を選択してテンポt2の変更を指示すると、表示制御部26は、図14の操作画面50を表示装置16に表示させる。第4実施形態の操作画面50は、第1実施形態と同様のテンポt2の指定領域52に加えて、テンポt2の自動的な調整を指示する操作子(「Quantize」コマンドボタン)58を含んで構成される。利用者は、第1実施形態と同様に指定領域52に対する操作でテンポt2を任意に調整するほか、操作子58に対する操作でテンポt2の自動的な調整を指示することが可能である。
【0056】
利用者がテンポt2の自動的な調整を指示すると、波形画像44で表現される音響信号AWの各推定拍点(拍点指示子442)が拍点軸Xb上の各拍点(基準指示子40)に合致するように、表示制御部26が速度調整区間46内の波形画像44を拍点軸Xbの方向に伸縮するとともに制御処理部22がテンポt2を設定する。具体的には、速度調整区間46内の波形画像44における特定の推定拍点(例えば速度調整区間46内の最初の推定拍点)が、拍点軸Xb上で当該推定拍点に最も近い拍点に合致するように表示制御部26が波形画像44を伸縮し、速度調整区間46内のテンポt2を制御処理部22が波形画像44の伸縮の度合に応じた数値に更新する。例えば、表示制御部26が波形画像44を伸長させるほどテンポt2が低下するように制御処理部22はテンポt2を調整する。
【0057】
第4実施形態においては、音響信号AWの推定拍点が拍点軸Xb上の各拍点に合致するようにテンポt2が自動的に調整されるから、利用者が編集画面30を確認しながらテンポt2を調整する第1実施形態と比較して、合成音情報DSに応じた音響信号ASの拍点と波形情報DWに応じた音響信号AWの拍点とを容易に同期させることが可能である。また、テンポt2の自動的な調整に加えて、利用者によるテンポt2の指定も可能であるから、例えば、拍点指示子422が基準指示子40に充分に接近するように利用者がテンポt2を調整してから操作子58を操作して拍点指示子422と基準指示子40とを合致させるといった運用も可能である。なお、以上の説明では第1実施形態を基礎としたが、テンポt2を自動的に調整する第4実施形態の構成は第2実施形態や第3実施形態にも同様に適用され得る。
【0058】
<E:変形例>
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は併合され得る。
【0059】
(1)変形例1
合成音情報DSや波形情報DWや合成音情報DRの内容は適宜に変更される。例えば、合成音情報DSが合成対象音の音素の時系列や特徴量(例えば音高)の時間変化を拍点基準で指定する構成や、合成音情報DRが合成対象音の音高や発音期間を実時間基準で指定する構成も採用され得る。また、例えば音響信号ASや音響信号ARに付加される音響効果の度合の時間変化を波形情報DWが実時間基準で規定する構成も採用され得る。
【0060】
以上の説明から理解されるように、前述の各形態における合成音情報DSは、第1音楽情報(第1合成対象音の音高s1や発音文字s2)を拍点単位で時系列に指定する第1時系列情報として包括される。他方、前述の各形態における波形情報DWや第2実施形態の合成音情報DRは、第2音楽情報を実時間単位で時系列に指定する第2時系列情報として包括される。第2音楽情報は、波形情報DWが指定する音響信号AWの各振幅値や、合成音情報DRが指定する第2合成対象音の情報(音素の識別情報rA1,発音期間rA2,特徴量rB2)を包含する概念である。
【0061】
(2)変形例2
以上の各形態では、合成音情報DSと波形情報DWと合成音情報DRとを単一の記憶装置12に格納したが、合成音情報DSと波形情報DWと合成音情報DRとを別個の記憶装置に格納した構成も採用される。すなわち、拍点基準の時系列情報(合成音情報DS)を記憶する要素(第1記憶手段)と実時間基準の時系列情報(波形情報DW,合成音情報DR)を記憶する要素(第2記憶手段)との別体/一体は本発明において不問である。また、第2実施形態や第3実施形態では波形情報DWは省略され得る。
【0062】
(3)変形例3
以上の各形態では、音声合成部24を含む音声合成装置100を例示したが、音声合成部24は省略され得る。例えば、表示制御部26が音楽情報を表示装置16に表示させる音楽情報表示装置としても本発明は実現され得る。音楽情報表示装置が表示する音楽情報を参照して生成された合成指示情報QBを別体の音声合成装置(音声合成部24)に提供することで音響信号Aが生成される。
【符号の説明】
【0063】
100……音声合成装置、10……演算処理装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……制御処理部、24……音声合成部、26……表示制御部、30……編集画面、31……第1領域、32……第2領域、33……第3領域、34……第4領域、40……基準指示子、42……対象音画像、422……音指示子、44……波形画像、442……拍点指示子、46……速度調整区間、50……操作画面、52……指定領域、54……操作領域、56……操作領域、58……操作子、60……対象音編集画面、62T,62B……音素列画像62T、64T,64B……特徴量画像、α……編集点、Xb……拍点軸、Xt……実時間軸、Xp……音高軸、
【技術分野】
【0001】
本発明は、音楽に関連する情報(音楽情報)の時系列を表示する技術に関する。
【背景技術】
【0002】
音声合成の対象となる音声(以下「合成対象音」という)の時系列を生成および編集する技術が従来から提案されている。例えば特許文献1には、拍点を単位とする横方向の時間軸(以下では「拍点軸」という)と音高を示す縦方向の音高軸とが規定されたピアノロール型の編集画面を参照して利用者が各合成対象音を編集する技術が開示されている。合成対象音を示す音指示子(ノートバー)を編集画面に適宜に配置することで、利用者は、拍点を単位(基準)として所望の合成対象音を指定することが可能である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−259768号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、編集画面で指定された各合成対象音の時系列は、実時間(例えば秒)を単位とする時間軸(以下「実時間軸」という)のもとで生成された他の音楽情報の時系列と並列に処理され得る。例えば、実時間軸での時間波形として収録された伴奏音を合成対象音の時系列と並列に再生することが可能である。また、合成対象音毎に音指示子が配置された編集画面と伴奏音の時間波形とが並列に表示されれば、例えば伴奏音のうち音量が瞬間的に増加する時点(すなわち拍点)に合致するように合成対象音を配置するといった調整が実現されて便利である。
【0005】
しかし、各合成対象音の時系列が拍点軸のもとで表示され、伴奏音の時間波形が実時間軸のもとで表示される構成では、両者間の時間的な対応(同期)を利用者が把握することが困難であるという問題がある。なお、以上の説明では伴奏音の時間波形を実時間上の時系列情報として例示したが、伴奏音の時間波形以外の実時間上の時系列情報を拍点軸上の時系列情報と並列に処理する場合にも、同様の問題が発生し得る。以上の事情を背景として、本発明は、拍点基準で規定された音楽情報の時系列と実時間基準で規定された音楽情報の時系列との時間的な対応を利用者に容易に確認させることを目的とする。
【課題を解決するための手段】
【0006】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0007】
本発明の音楽情報表示装置は、第1音楽情報を拍点単位で時系列に指定する第1時系列情報(例えば合成音情報DS)を記憶する第1記憶手段(例えば記憶装置12)と、第2音楽情報を実時間単位で時系列に指定する第2時系列情報(例えば波形情報DWや合成音情報DR)を記憶する第2記憶手段(例えば記憶装置12)と、テンポを可変に設定するテンポ設定手段(例えば制御処理部22)と、第1時系列情報を示す第1時系列画像(例えば対象音画像42)と第2時系列情報を示す第2時系列画像(例えば波形画像44や音素列画像62Bや特徴量画像64B)とを拍点単位の共通の拍点軸のもとで表示装置に表示させ、テンポ設定手段が設定するテンポに応じて第2時系列画像を拍点軸の方向に伸縮する表示制御手段(例えば表示制御部26)とを具備する。以上の構成によれば、第1時系列画像と第2時系列画像とが共通の拍点軸のもとで表示されるとともに第2時系列画像がテンポに応じて拍点軸の方向に伸縮されるから、拍点基準で規定される第1音楽情報の時系列と実時間基準で規定される第2音楽情報の時系列との時間的な対応を利用者が容易に把握できるという利点がある。
【0008】
本発明の好適な態様において、第2時系列情報(例えば波形情報DW)は、振幅値を第2音楽情報として音響信号(例えば音響信号AW)の時間波形を指定し、表示制御手段は、第2時系列情報から特定される推定拍点に対応する拍点指示子(例えば拍点指示子442)を第2時系列画像とともに拍点軸のもとで表示装置に表示させ、テンポ設定手段が設定するテンポに応じて各拍点指示子を拍点軸の方向に移動させる。以上の態様では、第2時系列情報から特定される推定拍点に対応する拍点指示子が拍点軸のもとで表示されるとともに各拍点指示子がテンポに応じて拍点軸の方向に移動されるから、第1時系列情報が示す第1音楽情報の時系列と第2時系列情報が指定する音響信号の推定拍点との時間的な対応を利用者が容易に把握できるという利点がある。
【0009】
本発明の好適な態様において、第2時系列情報から特定される推定拍点が拍点軸上の各拍点に合致するように、表示制御手段が第2時系列画像を拍点軸の方向に伸縮するとともにテンポ設定手段がテンポを設定する。以上の態様では、推定拍点が拍点軸上の各拍点に合致するようにテンポが設定されるから、例えば第1時系列画像と第2時系列画像との対応を確認しながら第1音楽情報の時系列と第2音楽情報の時系列とが同期するように利用者が手動でテンポを調整する構成と比較して、利用者の負担が軽減されるという利点がある。なお、以上の態様の具体例は例えば第4実施形態として後述される。
【0010】
本発明の好適な態様に係る音楽情報表示装置は、第2音楽情報の再生速度(例えば再生速度V2)の変更の許可/禁止を選択し、再生速度の変更を許可した場合に、テンポ設定手段が設定するテンポに応じて第2音楽情報の時系列が時間軸上で伸縮するように第2時系列情報を変更し、再生速度の変更を禁止した場合には第2時系列情報を変更しない制御手段(例えば制御処理部22)を具備する。以上の態様においては、第2音楽情報の再生速度の変更の許否が選択されるから、例えば第2音楽情報の時系列を拍点に同期させる必要がない場合にはテンポに応じた再生速度の変更を禁止し、第2音楽情報の時系列を拍点に同期させる必要がある場合にはテンポに応じた再生速度の変更を許可するといった制御が可能である。なお、以上の態様の具体例は例えば第2実施形態として後述される。
【0011】
本発明の好適な態様において、制御手段は、第2音楽情報の再生速度の変更の許可/禁止を利用者からの指示に応じて選択する。以上の態様では、第2音楽情報の再生速度の変更の許可/禁止が利用者からの指示に応じて選択されるから、第2音楽情報の時系列を拍点に同期させるか否かを利用者の意図に応じて変更できるという利点がある。
【0012】
以上の各態様に係る音楽情報表示装置は、音楽情報の表示制御に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、第1音楽情報を拍点単位で時系列に指定する第1時系列情報を記憶する第1記憶手段と、第2音楽情報を実時間単位で時系列に指定する第2時系列情報を記憶する第2記憶手段とを具備するコンピュータに、テンポを可変に設定するテンポ設定処理と、第1時系列情報を示す第1時系列画像と第2時系列情報を示す第2時系列画像とを拍点単位の共通の拍点軸のもとで表示装置に表示させ、テンポ設定処理で設定したテンポに応じて第2時系列画像を拍点軸の方向に伸縮する表示制御処理とを実行させる。以上のプログラムによれば、本発明に係る音楽情報表示装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0013】
【図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
【図2】合成指示情報の模式図である。
【図3】編集画面の模式図である。
【図4】操作画面の模式図である。
【図5】テンポに応じた波形画像の伸縮の説明図である。
【図6】対象音編集画面の模式図である。
【図7】第2実施形態における合成指示情報の模式図である。
【図8】第2実施形態における編集画面の模式図である。
【図9】第2実施形態における操作画面の模式図である。
【図10】対象音編集画面(実時間基準)での音素列画像および特徴量画像の伸縮の説明図である。
【図11】編集画面(拍点基準)での音素列画像および特徴量画像の伸縮の説明図である。
【図12】第3実施形態における操作画面の模式図である。
【図13】第3実施形態におけるテンポに応じた対象音画像の伸縮の説明図である。
【図14】第4実施形態における操作画面の模式図である。
【発明を実施するための形態】
【0014】
<A:第1実施形態>
図1は、本発明の第1実施形態の音声合成装置100のブロック図である。音声合成装置100は、音響信号Aを合成する音響処理装置であり、図1に示すように、演算処理装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。入力装置14(例えばマウスやキーボード)は、利用者からの指示を受付ける。表示装置16(例えば液晶表示装置)は、演算処理装置10から指示された画像を表示する。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音響信号Aに応じた音響を再生する。
【0015】
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する情報(例えば音声素片群QA,合成指示情報QB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用され得る。
【0016】
音声素片群QAは、相異なる音声素片に対応する複数の素片情報(例えば音声素片の波形のサンプル系列)で構成されて音響信号Aの素材として利用される音声合成用ライブラリである。音声素片は、言語上の意味の区別の最小単位(例えば母音や子音)である1個の音素、または複数の音素を連結した音素連鎖である。合成指示情報QBは、音響信号Aが示す音響の内容を指示する情報であり、図2に示すように、合成音情報DSと波形情報DWとテンポ情報DTとを含んで構成される。
【0017】
合成音情報DSは、合成対象音の時系列を指定する時系列情報(スコアデータ)である。図2に示すように、合成音情報DSは、相異なる合成対象音に対応する複数の単位情報USの時系列で構成される。各単位情報USは、合成対象音の音高(ノートナンバ)s1と発音文字s2と発音期間s3とを指定する。発音文字s2は、合成対象音の発音の音節(文字)である。
【0018】
発音期間s3は、合成対象音の発音の始点と終点とで規定される。発音の始点および終点の各々は、秒単位等の実時間ではなく拍点を基準として(あるいは複数の拍点を含む小節を基準として)指定される。具体的には、発音期間s3の各端点(始点,終点)は、小節番号σ1と拍点番号σ2と区間番号σ3との組合せで指定される。区間番号σ3は、相前後する2個の拍点の間隔(以下「拍点区間」という)を区分した複数の単位区間の何れかを識別する番号である。すなわち、第σ1番目の小節のうち第σ2番目の拍点から合計σ3個の単位区間が経過した時点が発音期間s3の端点として指定される。以上の説明から理解されるように、合成音情報DSは、合成対象音の音高s1や発音文字s2を拍点基準で(すなわち実時間ではなく拍点や小節を基準として)時系列に指定する。
【0019】
図2の波形情報DWは、楽曲の伴奏音等の音楽を収録した音響信号AWの時間波形を指定する。例えば利用者が選択した音響信号AWが光記録媒体や半導体記録媒体等の各種の記録媒体から波形情報DWとして記憶装置12に転送される。波形情報DWは、事前に収録された音響信号AWの振幅値を実時間軸上の所定の周期毎に抽出した多数のサンプルの時系列で構成される。すなわち、波形情報DWは、音響信号AWの振幅値を実時間基準で(すなわち実時間を単位(例えば秒単位)として)時系列に指定する。
【0020】
図2のテンポ情報DTは、拍点が到来するテンポ(速度)を時系列に指定する情報であり、テンポの指定単位となる速度調整区間毎に単位情報(テンポチェンジメッセージ)UTを含んで構成される。各単位情報UTは、テンポを変更する時点t1(すなわち速度調整区間の始点)と時点t1以後のテンポt2とを指定する。速度調整区間の開始の時点t1は、前述の発音期間s3の端点と同様に拍点基準で指定される。すなわち、例えば小節番号σ1と拍点番号σ2と区間番号σ3との組合せで各単位情報UTの時点t1が指定される。以上が合成指示情報QBの具体的な内容である。
【0021】
図1の演算処理装置10は、記憶装置12に格納されたプログラムPGMの実行で、音響信号Aの生成に必要な複数の機能(制御処理部22,音声合成部24,表示制御部26)を実現する。なお、演算処理装置10の各機能を専用の電子回路(DSP)で実現した構成や、演算処理装置10の各機能を複数の集積回路に分散した構成も採用され得る。制御処理部22は、入力装置14に対する利用者からの指示に応じて合成指示情報QB(合成音情報DS,波形情報DW,テンポ情報DT)を生成および更新する(詳細は後述)。
【0022】
音声合成部24は、記憶装置12に格納された音声素片群QAおよび合成指示情報QBを利用して音響信号Aを生成する。第1実施形態の音声合成部24は、図2に示すように、合成音情報DSに応じた音響信号ASと波形情報DWが示す音響信号AWとの混合で音響信号Aを生成する。具体的には、音声合成部24は、記憶装置12に格納された音声素片群QAのうち合成音情報DSの各単位情報USが指定する発音文字s2に対応した素片情報を、テンポ情報DTの単位情報UTが指定するテンポt2と当該単位情報USの発音期間s3とに応じた時間長に伸縮するとともに当該単位情報USが指定する音高s1に調整し、調整後の各素片情報を相互に連結することで音響信号ASを生成する。そして、音声合成部24は、音響信号ASと波形情報DWが指定する音響信号AWとを混合することで音響信号Aを生成する。音響信号Aは、放音装置18に供給されて音響として再生される。
【0023】
図1の表示制御部26は、合成対象音の編集時に利用者が視認する図3の編集画面30を表示装置16に表示させる。図3に示すように、拍点を示す拍点軸Xbが編集画面30に規定される。拍点軸Xb上には複数の拍点が所定の間隔(等間隔)で離散的に設定され、拍点を示す直線状の基準指示子40が拍点軸Xb上の各拍点の位置に配置される。図3に示すように、編集画面30は、第1領域31と第2領域32と第3領域33とを含んで構成される。
【0024】
第1領域31には、拍点軸Xbに直交する縦方向の音高軸Xpが規定される。表示制御部26は、合成対象音の時系列を表現する対象音画像42を第1領域31内に配置する。対象音画像42は、各合成対象音を図形化した複数の音指示子422を拍点軸Xbの方向に時系列に配列したピアノロール型の画像である。音高軸Xpの方向における音指示子422の位置は合成対象音の音高に応じて可変に設定される。また、拍点軸Xbの方向における音指示子422の位置(例えば音指示子422の右端部の位置)は合成対象音の発音の時点(例えば発音期間s3の始点)に応じて可変に設定され、拍点軸Xbの方向における音指示子422の長さは合成対象音の発音期間s3の長短に応じて可変に設定される。
【0025】
利用者は、編集画面30を確認しながら入力装置14を適宜に操作することで、合成対象音の編集を指示することが可能である。例えば、第1領域31内の任意の位置に対する音指示子422の追加や既存の音指示子422の削除、または音指示子422の発音文字s2の指定または変更等の編集が利用者から指示される。表示制御部26は、第1領域31に対する利用者からの指示に応じて対象音画像42を随時に更新する。
【0026】
制御処理部22は、第1領域31に配置された音指示子422毎に合成音情報DSの各単位情報USを生成して記憶装置12に格納する。すなわち、制御処理部22は、音高軸Xpの方向における音指示子422の位置に応じた音高s1と、音指示子422に指定された発音文字s2と、拍点軸Xbの方向における音指示子422の位置や長さに応じた発音期間s3とを含む単位情報USを生成して利用者からの指示に応じて随時に更新する。
【0027】
表示制御部26は、波形情報DWが示す音響信号AWの時間波形の画像(以下「波形画像」という)44を第2領域32に配置する。波形情報DWは前述のように実時間基準で規定されるが、第2領域32の波形画像44は、実時間軸Xtではなくて、第1領域31内の対象音画像42と共通の拍点軸Xbのもとで表示される。また、表示制御部26は、音響信号AWの拍点(以下「推定拍点」という)を波形情報DWから推定し、各推定拍点を表現する拍点指示子442を波形画像44とともに第2領域32に配置する。図3の各拍点指示子442は、各推定拍点の位置に配置された直線状の図形である。なお、音響信号AWの拍点の推定には公知の技術が任意に採用される。
【0028】
表示制御部26は、音声合成のテンポt2の時系列を第3領域33に表示する。具体的には、拍点軸Xb上に区画された速度調整区間46毎にテンポt2が指定される。合成音情報DSの編集が開始された直後の段階では拍点軸Xbの全区間を速度調整区間46としてテンポt2が初期値に設定され、以下に説明するように、利用者が拍点軸Xb上に任意に区画した速度調整区間46毎にテンポt2が可変に設定される。
【0029】
利用者は、入力装置14に対する所定の操作(例えば第3領域33のダブルクリック)により、拍点軸Xb上の任意の時点t1を速度調整区間46の始点として指定したうえでテンポt2の変更を指示する。利用者がテンポt2の変更を指示すると、表示制御部26は、利用者がテンポt2を指定するための図4の操作画面50(ダイアログボックス)を表示装置16に表示させる。
【0030】
操作画面50には指定領域52が配置される。指定領域52にはテンポt2(図4では「125」)が表示される。利用者は、入力装置14に対する所定の操作で指定領域52内のテンポt2の変更を指示すること(増加/減少の指示または数値の直接入力)が可能である。制御処理部22は、利用者が選択した速度調整区間46に対応する単位情報UTのテンポt2を、指定領域52に対する利用者からの指示に応じて可変に設定する。
【0031】
拍点軸Xbは各拍点が等間隔で配列するように設定されるから、テンポt2が変化した場合でも、拍点軸Xb上の各拍点の間隔(相互に隣合う各基準指示子40の間隔)は変化しない。また、合成音情報DSは拍点基準で合成対象音の時系列を指定するから、テンポt2が変化した場合でも対象音画像42は変化しない(拍点軸Xbの方向に伸縮しない)。他方、各拍点の間隔である拍点区間δの実時間長(例えば秒単位の時間長)はテンポt2に応じて変化する。例えばテンポt2が速いほど1個の拍点区間δの実時間長は短くなる。前述のように波形情報DWは実時間基準で音響信号AWを規定するから、表示制御部26は、制御処理部22が設定するテンポt2に応じて第2領域32内の波形画像44を拍点軸Xbの方向に伸縮させ、波形画像44の伸縮とともに各拍点指示子442を拍点軸Xbの方向に移動させる。
【0032】
例えば、テンポt2が速いほど各拍点区間δの実時間長は短くなるから、図5に矢印a1で示すように、表示制御部26は、速度調整区間46内のテンポt2が上昇するほど、その速度調整区間46に対応する波形画像44を拍点軸Xbの方向に伸長させる。すなわち、波形画像44の各推定拍点を示す拍点指示子442の間隔が増加する(拍点区間δ内の推定拍点の個数が減少する)。また、速度調整区間46内のテンポt2が低下した場合(拍点区間δの実時間長が長くなる場合)、図5に矢印a2で示すように、表示制御部26は、その速度調整区間46に対応する波形画像44を拍点軸Xbの方向に縮小する。
【0033】
操作画面50に対する操作に応じたテンポt2の変更と拍点軸Xbの方向の波形画像44の伸縮とは並列に実行される。すなわち、利用者からの指示に応じて制御処理部22がテンポt2を変更(増減/数値指定)するたびに、テンポt2の変更に応じた波形画像44の伸縮が逐次的に実行される。したがって、利用者は、波形画像44の伸縮(各拍点指示子442の移動)を視覚的に確認しながらテンポt2を変更することが可能である。具体的には、波形画像44の各拍点指示子442と拍点軸Xb上の各拍点に対応する基準指示子40とが拍点軸Xb上で合致するように速度調整区間46毎のテンポt2を設定することで、合成音情報DSに応じて生成される音響信号ASの拍点と波形情報DWが指定する音響信号AWの拍点とを同期させることが可能である。すなわち、拍点基準の合成音情報DSから生成される音響信号ASと実時間基準の波形情報DWが指定する音響信号AWとの時間的な対応を利用者が容易に確認できるという利点がある。
【0034】
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。第2実施形態では、第1実施形態と同様に拍点基準で規定される合成対象音(以下では特に「第1合成対象音」という)の時系列のほか、実時間基準で規定される合成対象音(以下「第2合成対象音」という)の時系列について音響信号Aが生成される。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0035】
利用者は、入力装置14に対する所定の操作で第2合成対象音の編集を指示することが可能である。第2合成対象音の編集が利用者から指示されると、表示制御部26は、図6の対象音編集画面60を表示装置16に表示させる。
【0036】
図6に示すように、対象音編集画面60には、音素列画像62Tと特徴量画像64Tとが共通の実時間軸Xt(横軸)のもとで配置される。音素列画像62Tは、第2合成対象音を構成する音素を実時間軸Xtに沿って時系列に配列した画像である。他方、特徴量画像64Tは、第2合成対象音の特徴量(以下の例示では音高)の時間変化を表現する画像である。図6では、実時間軸Xtに沿って時系列に配列された複数の編集点α(ブレークポイント)を相互に連結した折線を特徴量画像64Tとして例示した。
【0037】
利用者は、対象音編集画面60を確認しながら入力装置14を適宜に操作することで第2合成対象音の編集を指示することが可能である。具体的には、音素列画像62Tを構成する各音素の追加や変更等の編集や、任意の位置に対する編集点αの追加または既存の編集点αの移動および削除等の特徴量画像64Tの編集が利用者から指示される。表示制御部26は、利用者からの指示に応じて対象音編集画面60の音素列画像62Tおよび特徴量画像64Tを更新する。
【0038】
図7は、第2実施形態の合成指示情報QBの模式図である。図7に示すように、第2実施形態の合成指示情報QBは、第1実施形態と同様の要素(合成音情報DS,波形情報DW,テンポ情報DT)に合成音情報DRを追加した構造である。合成音情報DRは、第2合成対象音の時系列を指定する情報であり、音素列画像62Tに対応する音素列情報RAと特徴量画像64Tに対応する特徴量情報RBとを含んで構成される。
【0039】
音素列情報RAは、第2合成対象音の各音素に対応する単位情報URaの時系列である。単位情報URaは、音素の識別情報rA1と発音期間rA2(例えば始点および終点)とを指定する。合成音情報DSの単位情報USが第1合成対象音の発音期間s3を拍点基準で指定するのに対し、合成音情報DRの単位情報URaは、第2合成対象音の発音期間rA2を実時間基準で(例えば音響信号Aの始点から経過した実時間)で指定する。
【0040】
特徴量情報RBは、第2合成対象音の特徴量(音高)の時間変化を指定する情報であり、特徴量画像64Tの相異なる編集点αに対応する複数の単位情報URbの時系列で構成される。各単位情報URbは、編集点αの時刻rB1とその編集点αに対応する特徴量の数値rB2とを指定する。時刻rB1は、単位情報URaの発音期間rA2と同様に実時間基準で指定される。すなわち、合成音情報DRは、第2合成対象音の音素と特徴量とを実時間基準で(すなわち実時間を単位として)時系列に指定する。
【0041】
第2実施形態の制御処理部22は、対象音編集画面60に対する利用者からの指示に応じて合成音情報DRを随時に更新する。具体的には、制御処理部22は、音素列画像62Tに対する音素の追加や変更が利用者から指示された場合には音素列情報RAの単位情報URaを追加または変更し、特徴量画像64Tに対する編集点αの追加や変更(移動,削除)が利用者から指示された場合には特徴量情報RBの単位情報URbを追加または変更する。また、利用者は、以上の例示のように所望の音素や編集点αを直接的に指定するほか、拍点基準で指定された既存の第1合成対象音から実時間基準の第2合成対象音への変換を指示することも可能である。利用者から変換が指示されると、制御処理部22は、拍点基準の合成音情報DSを実時間基準の合成音情報DRに変換して記憶装置12に格納する。変換後の合成音情報DRについては、利用者が直接的に指定した合成音情報DRと同様に音素列情報RAや特徴量情報RBの編集が可能である。
【0042】
図7に示すように、第2実施形態の音声合成部24は、合成音情報DRに応じて音響信号ARを生成する。具体的には、音素列情報RAの各単位情報URaが指定する識別情報rA1に対応する素片情報を音声素片群QAから順次に取得し、各素片情報を、当該単位情報URaの発音期間rA2と特徴量情報RBの各単位情報URbの特徴量rB2(音高)とに調整したうえで相互に連結することで音響信号ARを生成する。そして、音声合成部24は、合成音情報DSに応じた音響信号ASと波形情報DWが示す音響信号AWと合成音情報DRから生成した音響信号ARとを合成することで音響信号Aを生成する。
【0043】
図8は、第2実施形態の編集画面30の模式図である。図8に示すように、第2実施形態の編集画面30は、第1実施形態と同様の要素(第1領域31,第2領域32,第3領域33)に第4領域34を追加した構造である。表示制御部26は、音素列画像62Bと特徴量画像64Bとを第4領域34に配置する。音素列画像62Bおよび特徴量画像64Bは、図6の対象音編集画面60にて実時間軸Xtのもとで表示される音素列画像62Tおよび特徴量画像64Tを拍点軸Xb上に展開した画像である。すなわち、音素列画像62Bは、音素列情報RAが指定する各音素の時系列を拍点軸Xbのもとで表示し、特徴量画像64Bは、特徴量情報RBが指定する特徴量の時間変化を拍点軸Xbのもとで表示する。表示制御部26は、対象音編集画面60内の音素列画像62Tや特徴量画像64Tの編集(音素列情報RAや特徴量情報RBの更新)に応じて編集画面30内の音素列画像62Bや特徴量画像64Bを随時に更新する。
【0044】
第1実施形態と同様に、利用者が速度調整区間46を指定してテンポt2の変更を指示すると、表示制御部26は、図9の操作画面50を表示装置16に表示させる。第2実施形態の操作画面50は、第1実施形態と同様のテンポt2の指定領域52に加えて、第2合成対象音の再生速度V2をテンポt2に連動して変化させるか否か(再生速度V2の変更の許可/禁止)を利用者が選択する操作領域(チェックボックス)54を含んで構成される。
【0045】
再生速度V2の変更の禁止が選択された状態(例えば操作領域54のチェックオフ)では、合成音情報DRが実時間基準で規定する第2合成対象音の再生速度V2が変化しないように、制御処理部22は、利用者からの指示に応じてテンポt2を変化させた場合でも合成音情報DR(すなわち実時間軸Xt上の第2合成対象音の時系列)を変更しない。したがって、図10に矢印A1_OFFで示すように、対象音編集画面60に実時間基準で表示された音素列画像62Tおよび特徴量画像64Tはテンポt2の変更の前後で変化しない。他方、拍点区間δの実時間長はテンポt2に応じて変化するから、表示制御部26は、編集画面30の第4領域34に拍点基準で表示される音素列画像62Bおよび特徴量画像64Bをテンポt2に応じて伸縮する。具体的には、表示制御部26は、図11に矢印A2_OFFで示すように、速度調整区間46内のテンポt2が上昇する(拍点区間δの実時間長が短くなる)ほど、編集画面30内の速度調整区間46内の音素列画像62Bおよび特徴量画像64Bを拍点軸Xbの方向に伸長させる。また、速度調整区間46内のテンポt2が低下した場合(拍点区間δの実時間長が長くなる場合)、表示制御部26は、編集画面30内の音素列画像62Bおよび特徴量画像64Bを拍点軸Xbの方向に縮小させる。
【0046】
他方、再生速度V2の変更の許可が選択された状態(例えば操作領域54のチェックオン)では、合成音情報DRが実時間基準で規定する第2合成対象音の再生速度V2がテンポt2に連動して変化するように表示制御部26および制御処理部22が動作する。すなわち、例えば速度調整区間46内のテンポt2が上昇した場合(拍点区間δの実時間長が短くなる場合)、表示制御部26は、図10に矢印A1_ONで示すように、対象音編集画面60に実時間基準で表示された音素列画像62Tおよび特徴量画像64Tを実時間軸Xtの方向に縮小し、制御処理部22は、第2合成対象音の再生速度V2がテンポt2に応じて上昇するように合成音情報DRを更新する。例えば、制御処理部22は、合成音情報DRが指定する音素の発音期間rA2や編集点αの時刻rB1を実時間軸Xtの前方(遡及方向)に移動させる。また、テンポt2が低下した場合、対象音編集画面60の音素列画像62Tや特徴量画像64Tが実時間軸Xtの方向に伸長するように、表示制御部26による対象音編集画面60の更新と制御処理部22による合成音情報DRの更新とが実行される。他方、編集画面30の音素列画像62Bおよび特徴量画像64Bは拍点軸Xbのもとで表示されるから、図11の矢印A2_ONで示すように、対象音編集画面60の音素列画像62Tおよび特徴量画像64Tはテンポt2の変更の前後で変化しない。
【0047】
例えば楽曲中の台詞のように拍点に同期させる必要がない音声が第2合成対象音として指定された状態では、拍点のテンポt2が変更された場合でも第2合成対象音の再生速度V2は維持される必要がある。以上のような場合に、利用者は、操作領域54に対する指示で再生速度V2の変更を禁止することが可能である。他方、第1合成対象音の変換で第2合成対象音を指定した場合のように第2合成対象音が拍点に同期するように指定された場合、第2合成対象音の再生速度V2を第1合成対象音とともにテンポt2に応じて変化させる必要がある。以上のような場合に、利用者は、操作領域54に対する指示で再生速度V2の変更を許可することが可能である。すなわち、第2実施形態によれば、実時間基準で規定された第2合成対象音の再生速度V2をテンポt2に連動して変化させるか否かを利用者が任意に選択できるという利点がある。
【0048】
<C:第3実施形態>
第2実施形態では、実時間基準で規定される第2合成対象音の再生速度V2の変更の許可/禁止を制御した。第3実施形態では、拍点基準で規定される第1合成対象音の再生速度V1の変更の許可/禁止を制御する。
【0049】
第1実施形態と同様に、利用者がテンポt2の変更を指示すると、表示制御部26は、図12の操作画面50を表示装置16に表示させる。第3実施形態の操作画面50は、第1実施形態と同様のテンポt2の指定領域52に加えて、第1合成対象音の再生速度V1をテンポt2に連動して変化させるか否か(再生速度V1の変更の許可/禁止)を利用者が選択する操作領域56を含んで構成される。
【0050】
再生速度V1の変更の禁止が選択された状態では、合成音情報DSが拍点基準で規定する第1合成対象音の再生速度V1が変化しないように表示制御部26および制御処理部22が動作する。すなわち、例えば速度調整区間46内のテンポt2が上昇した場合(拍点区間δの実時間長が短くなる場合)、表示制御部26は、図13に矢印b1で示すように、第1領域31に表示された対象音画像42(音指示子422の時系列)を拍点軸Xbの方向に伸長し、制御処理部22は、第1合成対象音の再生速度V1がテンポt2の変更の前後で維持されるように合成音情報DSを更新する。例えば、制御処理部22は、合成音情報DSが指定する第1合成対象音の発音期間s3を拍点軸Xbの後方(経過方向)に移動させる。また、テンポt2が低下した場合(拍点区間δの実時間長が長くなる場合)、図13に矢印b2で示すように、第1領域31に拍点基準で表示された対象音画像42が拍点軸Xbの方向に縮小するように、表示制御部26による対象音画像42の更新と制御処理部22による合成音情報DRの更新とが実行される。
【0051】
他方、再生速度V2の変更の許可が選択された状態では、表示制御部26による対象音画像42の更新や制御処理部22による合成音情報DRの更新は実行されない。したがって、第1合成対象音の再生速度V1はテンポt2に連動して変化する。すなわち、テンポt2が上昇するほど再生速度V1も上昇する。
【0052】
例えば楽曲の歌唱音が拍点に同期するように第1合成対象音として指定された状態では、拍点のテンポt2に応じて第1合成対象音の再生速度V1を変化させる必要がある。以上のような場合に、利用者は、操作領域56に対する指示で再生速度V1の変更を許可することが可能である。他方、利用者は、楽曲中の台詞のように拍点に同期させる必要がない音声を第1合成対象音として直接的に指定することも可能であり、この場合には、拍点のテンポt2が変更された場合でも第1合成対象音の再生速度V1は維持される必要がある。以上のような場合に、利用者は、操作領域56に対する指示で再生速度V1の変更を禁止することが可能である。すなわち、第3実施形態によれば、拍点基準で規定された第1合成対象音の再生速度V1をテンポt2に連動して変化させるか否かを利用者が任意に選択できるという利点がある。
【0053】
なお、以上の形態では第1実施形態を基礎とした構成を例示したが、再生速度V1の変更の許可/禁止を制御する構成を第2実施形態に追加した形態も当然に採用され得る。具体的には、拍点基準で規定された第1合成対象音の再生速度V1の変更の許可/禁止(第3実施形態)と、実時間基準で規定された第2合成対象音の再生速度V2の変更の許可/禁止(第2実施形態)とが、操作画面50に対する利用者からの指示に応じて個別に選択される。すなわち、相異なる合成対象音に対応する複数の再生速度の各々について変更の許可/禁止を個別に指定する構成も好適である。例えば、トラック1からトラック3の3種類が併存する場合に、トラック1およびトラック3について再生速度の変更の許可を指示するとともにトラック2について再生速度の変更の禁止を指示することが可能である。
【0054】
<D:第4実施形態>
第1実施形態では、例えば波形画像44の各拍点指示子442と拍点軸Xb上の各基準指示子40とが拍点軸Xb上で同期するように利用者が入力装置14の操作でテンポt2を調整した。第4実施形態では、波形画像44の各拍点指示子442が拍点軸Xb上の各基準指示子40に合致する(クオンタイズされる)ようにテンポt2が自動的に(すなわち利用者による調整を必要とせずに)設定される。
【0055】
利用者が第3領域33内の速度調整区間46を選択してテンポt2の変更を指示すると、表示制御部26は、図14の操作画面50を表示装置16に表示させる。第4実施形態の操作画面50は、第1実施形態と同様のテンポt2の指定領域52に加えて、テンポt2の自動的な調整を指示する操作子(「Quantize」コマンドボタン)58を含んで構成される。利用者は、第1実施形態と同様に指定領域52に対する操作でテンポt2を任意に調整するほか、操作子58に対する操作でテンポt2の自動的な調整を指示することが可能である。
【0056】
利用者がテンポt2の自動的な調整を指示すると、波形画像44で表現される音響信号AWの各推定拍点(拍点指示子442)が拍点軸Xb上の各拍点(基準指示子40)に合致するように、表示制御部26が速度調整区間46内の波形画像44を拍点軸Xbの方向に伸縮するとともに制御処理部22がテンポt2を設定する。具体的には、速度調整区間46内の波形画像44における特定の推定拍点(例えば速度調整区間46内の最初の推定拍点)が、拍点軸Xb上で当該推定拍点に最も近い拍点に合致するように表示制御部26が波形画像44を伸縮し、速度調整区間46内のテンポt2を制御処理部22が波形画像44の伸縮の度合に応じた数値に更新する。例えば、表示制御部26が波形画像44を伸長させるほどテンポt2が低下するように制御処理部22はテンポt2を調整する。
【0057】
第4実施形態においては、音響信号AWの推定拍点が拍点軸Xb上の各拍点に合致するようにテンポt2が自動的に調整されるから、利用者が編集画面30を確認しながらテンポt2を調整する第1実施形態と比較して、合成音情報DSに応じた音響信号ASの拍点と波形情報DWに応じた音響信号AWの拍点とを容易に同期させることが可能である。また、テンポt2の自動的な調整に加えて、利用者によるテンポt2の指定も可能であるから、例えば、拍点指示子422が基準指示子40に充分に接近するように利用者がテンポt2を調整してから操作子58を操作して拍点指示子422と基準指示子40とを合致させるといった運用も可能である。なお、以上の説明では第1実施形態を基礎としたが、テンポt2を自動的に調整する第4実施形態の構成は第2実施形態や第3実施形態にも同様に適用され得る。
【0058】
<E:変形例>
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は併合され得る。
【0059】
(1)変形例1
合成音情報DSや波形情報DWや合成音情報DRの内容は適宜に変更される。例えば、合成音情報DSが合成対象音の音素の時系列や特徴量(例えば音高)の時間変化を拍点基準で指定する構成や、合成音情報DRが合成対象音の音高や発音期間を実時間基準で指定する構成も採用され得る。また、例えば音響信号ASや音響信号ARに付加される音響効果の度合の時間変化を波形情報DWが実時間基準で規定する構成も採用され得る。
【0060】
以上の説明から理解されるように、前述の各形態における合成音情報DSは、第1音楽情報(第1合成対象音の音高s1や発音文字s2)を拍点単位で時系列に指定する第1時系列情報として包括される。他方、前述の各形態における波形情報DWや第2実施形態の合成音情報DRは、第2音楽情報を実時間単位で時系列に指定する第2時系列情報として包括される。第2音楽情報は、波形情報DWが指定する音響信号AWの各振幅値や、合成音情報DRが指定する第2合成対象音の情報(音素の識別情報rA1,発音期間rA2,特徴量rB2)を包含する概念である。
【0061】
(2)変形例2
以上の各形態では、合成音情報DSと波形情報DWと合成音情報DRとを単一の記憶装置12に格納したが、合成音情報DSと波形情報DWと合成音情報DRとを別個の記憶装置に格納した構成も採用される。すなわち、拍点基準の時系列情報(合成音情報DS)を記憶する要素(第1記憶手段)と実時間基準の時系列情報(波形情報DW,合成音情報DR)を記憶する要素(第2記憶手段)との別体/一体は本発明において不問である。また、第2実施形態や第3実施形態では波形情報DWは省略され得る。
【0062】
(3)変形例3
以上の各形態では、音声合成部24を含む音声合成装置100を例示したが、音声合成部24は省略され得る。例えば、表示制御部26が音楽情報を表示装置16に表示させる音楽情報表示装置としても本発明は実現され得る。音楽情報表示装置が表示する音楽情報を参照して生成された合成指示情報QBを別体の音声合成装置(音声合成部24)に提供することで音響信号Aが生成される。
【符号の説明】
【0063】
100……音声合成装置、10……演算処理装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……制御処理部、24……音声合成部、26……表示制御部、30……編集画面、31……第1領域、32……第2領域、33……第3領域、34……第4領域、40……基準指示子、42……対象音画像、422……音指示子、44……波形画像、442……拍点指示子、46……速度調整区間、50……操作画面、52……指定領域、54……操作領域、56……操作領域、58……操作子、60……対象音編集画面、62T,62B……音素列画像62T、64T,64B……特徴量画像、α……編集点、Xb……拍点軸、Xt……実時間軸、Xp……音高軸、
【特許請求の範囲】
【請求項1】
第1音楽情報を拍点単位で時系列に指定する第1時系列情報を記憶する第1記憶手段と、
第2音楽情報を実時間単位で時系列に指定する第2時系列情報を記憶する第2記憶手段と、
テンポを可変に設定するテンポ設定手段と、
前記第1時系列情報を示す第1時系列画像と前記第2時系列情報を示す第2時系列画像とを拍点単位の共通の拍点軸のもとで表示装置に表示させ、前記テンポ設定手段が設定するテンポに応じて前記第2時系列画像を前記拍点軸の方向に伸縮する表示制御手段と
を具備する音楽情報表示装置。
【請求項2】
前記第2時系列情報は、振幅値を前記第2音楽情報として音響信号の時間波形を指定し、
前記表示制御手段は、前記第2時系列情報から特定される推定拍点に対応する拍点指示子を前記第2時系列画像とともに前記拍点軸のもとで前記表示装置に表示させ、前記テンポ設定手段が設定するテンポに応じて前記各拍点指示子を前記拍点軸の方向に移動させる
請求項1の音楽情報表示装置。
【請求項3】
前記第2時系列情報から特定される推定拍点が前記拍点軸上の各拍点に合致するように、前記表示制御手段が前記第2時系列画像を前記拍点軸の方向に伸縮するとともに前記テンポ設定手段がテンポを設定する
請求項2の音楽情報表示装置。
【請求項4】
前記第2音楽情報の再生速度の変更の許可/禁止を選択し、前記再生速度の変更を許可した場合に、前記テンポ設定手段が設定するテンポに応じて前記第2音楽情報の時系列が時間軸上で伸縮するように前記第2時系列情報を変更し、前記再生速度の変更を禁止した場合には前記第2時系列情報を変更しない制御手段
を具備する請求項1の音楽情報表示装置。
【請求項5】
前記制御手段は、前記第2音楽情報の再生速度の変更の許可/禁止を利用者からの指示に応じて選択する
請求項4の音楽情報表示装置。
【請求項1】
第1音楽情報を拍点単位で時系列に指定する第1時系列情報を記憶する第1記憶手段と、
第2音楽情報を実時間単位で時系列に指定する第2時系列情報を記憶する第2記憶手段と、
テンポを可変に設定するテンポ設定手段と、
前記第1時系列情報を示す第1時系列画像と前記第2時系列情報を示す第2時系列画像とを拍点単位の共通の拍点軸のもとで表示装置に表示させ、前記テンポ設定手段が設定するテンポに応じて前記第2時系列画像を前記拍点軸の方向に伸縮する表示制御手段と
を具備する音楽情報表示装置。
【請求項2】
前記第2時系列情報は、振幅値を前記第2音楽情報として音響信号の時間波形を指定し、
前記表示制御手段は、前記第2時系列情報から特定される推定拍点に対応する拍点指示子を前記第2時系列画像とともに前記拍点軸のもとで前記表示装置に表示させ、前記テンポ設定手段が設定するテンポに応じて前記各拍点指示子を前記拍点軸の方向に移動させる
請求項1の音楽情報表示装置。
【請求項3】
前記第2時系列情報から特定される推定拍点が前記拍点軸上の各拍点に合致するように、前記表示制御手段が前記第2時系列画像を前記拍点軸の方向に伸縮するとともに前記テンポ設定手段がテンポを設定する
請求項2の音楽情報表示装置。
【請求項4】
前記第2音楽情報の再生速度の変更の許可/禁止を選択し、前記再生速度の変更を許可した場合に、前記テンポ設定手段が設定するテンポに応じて前記第2音楽情報の時系列が時間軸上で伸縮するように前記第2時系列情報を変更し、前記再生速度の変更を禁止した場合には前記第2時系列情報を変更しない制御手段
を具備する請求項1の音楽情報表示装置。
【請求項5】
前記制御手段は、前記第2音楽情報の再生速度の変更の許可/禁止を利用者からの指示に応じて選択する
請求項4の音楽情報表示装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2012−113271(P2012−113271A)
【公開日】平成24年6月14日(2012.6.14)
【国際特許分類】
【出願番号】特願2010−264643(P2010−264643)
【出願日】平成22年11月29日(2010.11.29)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成24年6月14日(2012.6.14)
【国際特許分類】
【出願日】平成22年11月29日(2010.11.29)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]