説明

音響処理装置およびプログラム

【課題】歌詞や楽譜の表示と音響信号の再生とを高精度に同期させる。
【解決手段】記憶装置14は、楽曲を構成する楽音の時系列を指定する楽音データDAと楽曲の歌詞の時系列を指定する表示データDBとを記憶する。同期解析部48は、音響信号P1の参照区間σREFのクロマベクトルΨ1と音響信号P2の候補区間σXのクロマベクトルΨ2とを、始点SXの位置が相違する複数の候補区間σXの各々について実行し、複数の候補区間σXのうちクロマベクトルΨ2が参照区間σREFのクロマベクトルΨ1に類似する候補区間σXを、当該参照区間σREFに対応する同期区間σSとして特定する。表示制御部60は、音響信号P1の再生に同期するように、表示データDBが指定する文字を同期解析部48による処理の結果に基づいて表示装置72に表示させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、楽曲の楽音の波形を表す複数の音響信号の相互間の対応を特定する技術に関する。
【背景技術】
【0002】
楽曲のMIDI(Musical Instrument Digital Interface)データが時系列に指定する歌詞や楽譜(例えばコード譜やタブ譜)の表示と、例えばCDから取得した当該楽曲の音響信号(以下「再生音響信号」という)の再生とを並列に実行すれば、再生音響信号の高音質な伴奏音のもとで歌詞や楽譜を確認しながら歌唱や演奏を練習することが可能である。しかし、時間軸上で相互に同期するようにMIDIデータと再生音響信号とを作成するという煩雑な作業が必要となる。
【0003】
そこで、例えば特許文献1には、楽曲の歌詞の表示が再生音響信号の再生に同期するようにMIDIデータを変換する技術が開示されている。具体的には、再生音響信号の再生の総時間とMIDIデータの再生の総時間との長短に応じてMIDIデータのテンポを調整する構成や、再生音響信号における歌唱音の開始点とMIDIデータの歌詞の開始点とが合致するようにMIDIデータのテンポを調整する構成が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004−212473号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、再生音響信号の再生と歌詞や楽譜の表示とを特許文献1の技術で高精度に同期させることは実際には困難である。例えば、再生音響信号の始点から実際に楽曲が開始するまでの時間長と、MIDIデータの始点から実際に楽曲が開始するまでの時間長とは必ずしも一致しないから、特許文献1のように再生音響信号の再生区間とMIDIデータの再生区間とで始点および終点を合致させても、伴奏音の再生と歌詞や楽譜の表示とが同期しない可能性がある。また、再生音響信号の再生点が例えば利用者により変更された場合には、変更後の再生点から伴奏音の再生と歌詞や楽譜の表示とを同期させることが困難であるという問題もある。なお、以上の説明では歌詞の表示を例示したが、歌詞の表示以外の様々な動作を指示する制御データの処理を再生音響信号の再生に同期させる場合にも同様の問題が発生し得る。以上の事情を考慮して、本発明は、制御データの処理と音響信号の再生とを高精度に同期させることを目的とする。
【課題を解決するための手段】
【0006】
以上の課題を解決するために、本発明の音響処理装置は、楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段と、楽曲の楽音の波形を表す第1音響信号の特徴量を順次に生成する第1特徴抽出手段と、制御データが指定する情報の時系列に同期する楽音の波形を表す第2音響信号の特徴量を順次に生成する第2特徴抽出手段と、第1音響信号のうちの参照区間の特徴量と第2音響信号の候補区間の特徴量との比較を、時間軸上の位置(例えば始点や終点の位置)が相違する複数の候補区間の各々について実行し、複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する同期点検出手段と、第1音響信号の参照区間の再生と、当該参照区間について同期点検出手段が特定した同期区間に対応する制御データの処理とが同期するように、制御データを処理する制御手段とを具備する。
【0007】
以上の形態においては、時間軸上の位置が相違する複数の候補区間の各々について第1音響信号の参照区間の特徴量と第2音響信号の候補区間の特徴量とが比較され、複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間が、当該参照区間に対応する同期区間として特定される。したがって、実際に楽曲が開始する時点(始点からの時間長)が第1音響信号と第2音響信号とで相違する場合でも、制御データの処理と第1音響信号の再生とを高精度に同期させることが可能である。
【0008】
本発明の好適な態様において、同期点検出手段は、第2音響信号のうち始点の位置が共通で時間長が相違する複数の候補区間の各々の特徴量と参照区間の特徴量との比較を、始点の位置を変化させた複数の場合について実行し、参照区間と比較した複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間を同期区間として特定する。以上の態様においては、候補区間について時間軸上の位置に加えて時間長も変化させながら第1音響信号の参照区間と第2音響信号との候補区間が比較されるから、第1音響信号と第2音響信号とでテンポが相違する場合でも、参照区間に楽曲中で対応する同期区間を高精度に検出できるという利点がある。
【0009】
本発明の第1の態様において、同期点検出手段は、第1音響信号のうち強度が最初に閾値を上回る第1基準点と、第2音響信号のうち強度が最初に閾値を上回る第2基準点とを特定し、第1基準点を始点とする参照区間の特徴量と、第2基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量と比較する。以上の態様においては、第2基準点を含む所定の範囲内で候補区間の始点を変化させながら、第1音響信号のうち第1基準点から開始する参照区間の特徴量と第2音響信号の候補区間の特徴量とが比較されるから、例えば、第1音響信号には存在しない音響(例えば拍子音)が第2音響信号の先頭の部分に含まれる場合であっても、第1音響信号と第2音響信号とが最初に対応する時点を正確に検出できるという利点がある。なお、以上の態様の具体例は、例えば第1実施形態として後述される。
【0010】
本発明の第2の態様において、同期点検出手段は、第1音響信号のうち利用者からの指示に応じて可変に設定された再生指示点を含む参照区間の特徴量と、第2音響信号のうち再生指示点に応じて設定された基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量とを比較する。以上の態様においては、再生指示点に応じて設定された基準点を含む所定の範囲内で候補区間の始点を変化させながら、第1音響信号のうち再生指示点から開始する参照区間の特徴量と第2音響信号の候補区間の特徴量とが比較されるから、第1音響信号の再生と制御データの処理とを任意の再生指示点から同期させることが可能である。なお、以上の態様の具体例は、例えば第2実施形態として後述される。
【0011】
以上の各態様の具体例において、記憶手段は、楽曲を構成する楽音の時系列を指定する楽音データを記憶し、楽音データから第2音響信号を生成するデータ変換手段を具備する。以上の態様においては、同期解析手段による処理(同期解析)に適用される第2音響信号が楽音データから生成されるので、例えばカラオケ用の楽曲データを流用できるという利点がある。また、第2音響信号が楽音データとは別個に用意された構成と比較すると、記憶装置に必要な容量が削減されるという利点もある。
【0012】
以上の各形態における特徴量は、例えばクロマベクトルである。すなわち、第1特徴抽出手段は、第1音響信号のクロマベクトルを単位区間毎に順次に生成し、第2特徴抽出手段は、第2音響信号のクロマベクトルを単位区間毎に順次に生成する。以上の構成においては、音響信号の和声感の指標となるクロマベクトルが特徴量として生成されるから、例えば第1音響信号の拍点と第2音響信号の拍点とを同期させる構成と比較して、第1音響信号と第2音響信号とで相対応する位置を高精度に特定できるという利点がある。クロマベクトルは、相異なる音名(クロマ)に対応する複数の要素の各々が、音響信号のうち当該要素に対応する音名の成分の強度を複数のオクターブにわたって加算した数値(例えば加算値や平均値)に応じて設定されたベクトル(ピッチクラスプロファイル)を意味する。
【0013】
以上の各態様に係る音響処理装置は、音響の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段を具備するコンピュータに、楽曲の楽音の波形を表す第1音響信号の特徴量を順次に生成する第1特徴抽出処理と、制御データが指定する情報の時系列に同期する楽音の波形を表す第2音響信号の特徴量を順次に生成する第2特徴抽出処理と、第1音響信号のうちの参照区間の特徴量と第2音響信号の候補区間の特徴量との比較を、時間軸上の位置が相違する複数の候補区間の各々について実行し、複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する同期点検出処理と、第1音響信号の参照区間の再生と、当該記参照区間について同期点検出処理で特定した同期区間に対応する制御データの処理とが同期するように、制御データを処理する制御処理とを実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0014】
【図1】第1実施形態に係る音響処理装置のブロック図である。
【図2】複数の音響信号の相互間の対応を示す対応テーブルの模式図である。
【図3】同期点検出部の動作のフローチャートである。
【図4】基準点を特定する動作のフローチャートである。
【図5】同期点検出部の動作の説明図である。
【図6】同期点検出部の詳細な動作のフローチャートである。
【図7】区間対照部の動作を説明するための模式図である。
【図8】歌詞の表示が楽音の再生に先行する場合の表示制御部の動作の説明図である。
【図9】歌詞の表示が楽音の再生に遅延する場合の表示制御部の動作の説明図である。
【図10】第2実施形態に係る音響処理装置の動作の説明図である。
【図11】第2実施形態に係る音響処理装置の動作のフローチャートである。
【発明を実施するための形態】
【0015】
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。音響処理装置100は、楽曲の楽音の再生と楽曲の歌詞の表示とを並列に実行するカラオケ装置として好適に利用される。図1に示すように、音響処理装置100には、表示装置72と収音装置74と放音装置76と入力装置78と信号供給装置80とが接続される。
【0016】
表示装置(例えば液晶表示装置)72は、音響処理装置100による制御のもとに楽曲の歌詞を表示する。収音装置(マイク)74は、周囲の音響(歌唱音や楽器の演奏音など)に応じた音響信号QBを生成する。なお、周囲の音響に応じたアナログ信号をデジタルの音響信号QBに変換するA/D変換器の図示は省略されている。放音装置(例えばスピーカやヘッドホン)76は、音響処理装置100から出力される音響信号QCに応じた音響を再生する。入力装置78は、利用者からの操作を受付ける操作子で構成される。
【0017】
信号供給装置80は、楽曲の楽音(歌唱音や伴奏音)の波形を表すデジタルの音響信号P1を音響処理装置100に供給する。例えば、半導体記録媒体や光ディスクなどの記録媒体から音響信号P1を取得して音響処理装置100に出力する再生装置(例えば、携帯型の音楽再生装置)や、インターネットなどの通信網から音響信号P1を受信して音響処理装置100に出力する通信装置が、信号供給装置80として好適に採用される。
【0018】
音響処理装置100は、演算処理装置12と記憶装置14とで構成されるコンピュータシステムである。記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用するデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置14として任意に採用される。なお、音響信号P1を記憶装置14に格納した構成も採用される。
【0019】
図1に示すように、記憶装置14は、相異なる楽曲に対応する複数の楽曲データD0を記憶する。例えばインターネットなどの通信網を介して受信された楽曲データD0が記憶装置14に格納される。楽曲データD0は、楽曲を構成する各楽音を時系列に指定する楽音データDAと、楽曲の歌詞の文字を時系列に指定する表示データDBとを含んで構成される。例えば、楽音の音高・強度や歌詞の文字を指定するイベントデータと各イベントデータの処理の時点(例えば相前後するイベントデータの処理の間隔)を指定するタイミングデータとを時系列に配列したMIDI形式(具体的にはXF形式)のデータ列が楽曲データD0(DA,DB)として好適に採用される。
【0020】
楽音データDAが指定する楽音の時系列と表示データDBが指定する歌詞の時系列とが時間軸上で相互に対応(同期)するように楽音データDAと表示データDBとは作成される。他方、楽曲データD0の楽曲と音響信号P1の楽曲とは共通し得るが、楽曲データD0と音響信号P1とは別個に作成されるから、楽音データDAが指定する楽音の時系列(表示データDBが指定する歌詞の時系列)と音響信号P1が表す楽音の波形とは完全には同期しない。
【0021】
演算処理装置12は、記憶装置14に格納されたプログラムを実行することで、音響信号P1の再生(楽曲のストリーミング再生)と表示データDBが指定する歌詞の表示とを同期させるための複数の機能(第1保持部161,第2保持部162,再生制御部20,出力処理部30,解析処理部40,表示制御部60)を実現する。したがって、音響処理装置100の利用者は、音響信号P1の再生音(楽音データDAから生成される楽音よりも一般的には高音質な楽音)のもとで歌詞を確認しながら歌唱を練習することが可能である。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
【0022】
入力装置78の操作で利用者が指定した楽曲の音響信号P1が信号供給装置80から第1保持部161に供給される。第1保持部161は、信号供給装置80から供給される音響信号P1を順次に取得および保持するバッファ回路である。他方、第2保持部162は、入力装置78の操作で利用者が選択した楽曲の楽曲データD0(楽音データDAおよび表示データDB)を記憶装置14から順次に取得および保持するバッファ回路である。
【0023】
再生制御部20は、第1保持部161に保持された音響信号P1から音響信号QAを生成する。具体的には、再生制御部20は、成分抑制部22とピッチ変換部24とテンポ調整部26とを含んで構成される。成分抑制部22は、音響信号P1のうち特定のパートの成分を抑制(理想的には除去)する。例えば、音響処理装置100の利用者が音響信号P1の再生音(伴奏音)に合わせて歌唱する場合、成分抑制部22は、音響信号P1のうち歌唱音のパートの成分を抑制する。成分抑制部22による処理(マイナスワン処理)には公知の技術が任意に採用される。ピッチ変換部24は、入力装置78に対する利用者からの操作(キー指定)に応じて音響信号P1のピッチを変更する。テンポ調整部26は、入力装置78に対する利用者からの操作(テンポ指定)に応じて音響信号P1のテンポを変更する。
【0024】
再生制御部20(テンポ調整部26)による処理後の音響信号QAは出力処理部30に供給される。出力処理部30は、音響信号QAおよび音響信号QBから音響信号QCを生成して放音装置76に出力する。出力処理部30は、再生制御部20からの音響信号QAと収音装置74からの音響信号QBとを混合する混合部(ミキサ)32と、混合部32による処理後の音響信号に各種の効果(例えばリバーブやエコー)を付与する効果付与部34と、効果付与部34による処理後の音響信号をアナログの音響信号QCに変換するD/A変換部36とを含んで構成される。音響信号QCに応じた音響が放音装置76から放射される。
【0025】
図1の解析処理部40は、第1保持部161に保持された音響信号P1と楽音データDAが指定する各楽音の時系列とについて楽曲中で相対応する位置を特定(同期解析)する。解析処理部40は、第1特徴抽出部42とデータ変換部44と第2特徴抽出部46と同期解析部48とを含んで構成される。
【0026】
第1特徴抽出部42は、第1保持部161が保持する音響信号P1を時間軸上で区分した単位区間(フレーム)F1毎に(図2参照)、音響信号P1のクロマベクトル(ピッチクラスプロファイル(PCP:pitch class profile))Ψ1を順次に算定する。クロマベクトルΨ1は、音響信号P1の和声感(ハーモニー感)の指標となる特徴量であり、音階中の相異なる音名(C,C#,D,D#,E,F,F#,G,G#,A,A#,B)に対応する12次元のベクトルで表現される。クロマベクトルΨ1を構成する12個の要素の各々は、音響信号P1のうち当該要素に対応する音名の周波数成分(1オクターブに相当する周波数帯域を音名毎に区分した12個の周波数帯域のうち当該音名に対応する周波数帯域の成分)の強度を複数のオクターブについて加算または平均した数値に相当する。すなわち、第1特徴抽出部42は、高速フーリエ変換などの公知の技術で音響信号P1の単位区間F1毎に周波数スペクトル(パワースペクトル)を生成し、周波数スペクトルのうち1オクターブに相当する周波数帯域を複数のオクターブについて加算することでクロマベクトルΨ1を生成する。
【0027】
図1のデータ変換部44は、第2保持部162が保持する楽曲データD0のうち楽音データDAが指定する楽音の波形を表す音響信号P2を生成する。具体的には、楽音データDAのイベントデータが指定する楽音の波形を順次に発生する公知の音源(MIDI音源)がデータ変換部44として好適に採用される。データ変換部44が生成する音響信号P2が表す楽音の波形は表示データDBが指定する歌詞の時系列に同期する。すなわち、音響信号P2を再生したときに各楽音が発生する時点と、当該楽音の再生の時点で歌唱すべき歌詞を表示データDBが指定する時点とは時間軸上で対応(理想的には合致)する。
【0028】
第2特徴抽出部46は、データ変換部44が生成した音響信号P2を時間軸上で区分した単位区間F2毎に(図2参照)、音響信号P2のクロマベクトル(ピッチクラスプロファイル)Ψ2を順次に算定する。クロマベクトルΨ2は、クロマベクトルΨ1と同様に、相異なる音名(クロマ)に対応する12個の要素の各々が、音響信号P2のうち当該要素に対応する音名の成分の強度を複数のオクターブにわたって加算または平均した数値に設定された12次元のベクトルである。第2特徴抽出部46は、第1特徴抽出部42と同様の方法で、音響信号P2のクロマベクトルΨ2を単位区間F2毎に生成する。単位区間F1と単位区間F2とは同じ時間長の区間である。ただし、単位区間F1と単位区間F2とを相異なる時間長に設定した構成も採用され得る。
【0029】
図1の同期解析部48は、第1特徴抽出部42が単位区間F1毎に生成した各クロマベクトルΨ1と第2特徴抽出部46が単位区間F2毎に生成した各クロマベクトルΨ2とを比較し、音響信号P1と音響信号P2とにおいて楽曲中で相互に対応する時間軸上の位置(例えば楽曲の同じ楽音に対応する位置)を比較の結果に応じて特定する。具体的には、同期解析部48は、図2に例示した対応テーブルTBL1を生成する。対応テーブルTBL1は、音響信号P1の複数の単位区間F1(F1[1]〜F1[M])と音響信号P2の複数の単位区間F2(F2[1]〜F2[N])とのうちクロマベクトルΨ1とクロマベクトルΨ2とが相互に類似する単位区間F1と単位区間F2とを対応させるデータテーブルである。
【0030】
図1に示すように、同期解析部48は、同期点検出部52と区間対照部54とを含んで構成される。同期点検出部52は、音響信号P1の同期点S1と音響信号P2の同期点S2とを検出する。同期点S1および同期点S2は、楽曲の歌唱や伴奏が開始する時点(楽曲の開始前の無音の区間が終了する時点)である。すなわち、同期点S1および同期点S2は、音響信号P1と音響信号P2とが最初に同期する時点に相当する。同期点S1は単位区間F1の番号で指定され、同期点S2は単位区間F2の番号で指定される。
【0031】
図3は、同期点検出部52の動作のフローチャートである。例えば入力装置78に対する所定の操作を契機として音響信号P1の再生の開始前に図3の処理が実行される。同期点検出部52は、音響信号P1の基準点α1と音響信号P2の基準点α2とを特定する(SA1,SA2)。基準点αk(k=1,2)は、音響信号Pkの強度(音量)が最初に閾値を上回る時点である。
【0032】
図4は、同期点検出部52が基準点αkを特定する処理(SA1,SA2)のフローチャートである。同期点検出部52は、基準点αkをゼロ(音響信号Pkの最初の単位区間Fk)に初期化したうえで(SB1)、音響信号Pkのうち基準点αkでの強度Lkが所定の閾値LTHを上回るか否かを判定する(SB2)。強度Lkが閾値LTHを下回る場合(SB2:NO)、同期点検出部52は、基準点αkを所定値δ(例えばδ=1)だけ後方の時点に更新し(SB3)、更新後の基準点αkについてステップSB2の処理を実行する。強度Lkが閾値LTHを上回ると(SB2:YES)、同期点検出部52は図4の処理を終了する。したがって、音響信号Pkのうち強度Lkが最初に閾値LTHを上回る時点が基準点αkとして確定する。
【0033】
ところで、音響信号P2のうち強度L2が最初に閾値LTHを上回る基準点α2は、楽曲が実際に開始する時点(音響信号P1にて楽曲が開始する時点)に該当しない可能性がある。例えば、伴奏音に先立って歌唱音が開始する楽曲のカラオケ用の楽曲データD0を想定すると、楽曲データD0(楽音データDA)から生成される音響信号P2においては、歌唱者が拍子を把握するための拍子音が伴奏音の開始前に発生する。したがって、拍子音の時点が基準点α2として検出される可能性がある。そこで、同期点検出部52は、図3のステップSA3において、音響信号P1の各クロマベクトルΨ1と音響信号P2の各クロマベクトルΨ2とを比較する(すなわち両者の音楽的な類否を判断する)ことで、音響信号P2における正確な同期点S2を特定する。音響信号P1の同期点S1は、ステップSA1で特定した基準点α1に設定される。
【0034】
図5は、図3のステップSA3の処理の概要を示す説明図である。同期点検出部52は、音響信号P1のうち同期点S1(基準点α1)を始点とする参照区間σREFのクロマベクトルΨ1と、音響信号P2のうち始点SXや時間長WXが相違する複数の候補区間σXの各々のクロマベクトルΨ2とを比較する。すなわち、同期点検出部52は、図5に示すように、時間軸上の始点SXを変化させた複数の場合の各々について、音響信号P2のうち当該始点SXからの時間長WXが相違する複数の候補区間σXの各々のクロマベクトルΨ2を、音響信号P1の参照区間σREFのクロマベクトルΨ1と比較する。そして、同期点検出部52は、複数の候補区間σXのうちクロマベクトルΨ2が参照区間σREFのクロマベクトルΨ1に最も類似する候補区間σXを、参照区間σREFに対応する同期区間σSとして特定する。同期区間σSの始点が同期点S2に相当する。
【0035】
図6は、図5の動作のフローチャートである。図6に示すように、同期点検出部52は、候補区間σXと参照区間σREFとの音楽的な類否の指標(以下「類否指標」という)γが代入される変数βを最大値γMAXに初期化し、参照区間σREFの同期点S1を基準点α1に設定する(SC1)。また、同期点検出部52は、候補区間σXの時間長WXを下限値LAに初期化し、候補区間σXの始点SXを、図5に示すように、図3のステップSA2で特定した基準点α2から所定の時間長Tだけ手前の時点(α2−T)に初期化する(SC2)。下限値LAは、参照区間σREFよりも短い時間(例えば時間長WREFの半分)に設定される。また、時間長Tは、例えば参照区間σREFの時間長WREFの半分(WREF/2)に設定される。
【0036】
同期点検出部52は、音響信号P1の参照区間σREF内の各単位区間F1のクロマベクトルΨ1と、音響信号P2のうち始点SXから時間長WXにわたる候補区間σX内の各単位区間F2のクロマベクトルΨ2とを比較する(SC3,SC4)。具体的には、同期点検出部52は、候補区間σXを参照区間σREFの時間長WREFに伸縮し(すなわち、始点および終点を参照区間σREFに合致させ)、伸縮後の候補区間σXのうち参照区間σREF内の各単位区間F1に対応する時点のクロマベクトルΨ2を、伸縮前の候補区間σX内の各単位区間F2のクロマベクトルΨ2の補間により算定する(SC3)。そして、同期点検出部52は、参照区間σREF内のクロマベクトルΨ1と候補区間σX内の補間後のクロマベクトルΨ2との距離Dを、相対応する時点のクロマベクトルΨ1とクロマベクトルΨ2との対毎に算定し、距離Dの総和または平均を類否指標γとして算定する(SC4)。距離Dは、クロマベクトルΨ1とクロマベクトルΨ2との類否の尺度となる指標値である。例えば、クロマベクトルΨ1とクロマベクトルΨ2との内積や幾何距離が距離Dとして算定される。したがって、類否指標γが小さいほど、音響信号P1の参照区間σREFと音響信号P2の候補区間σXとが音楽的に類似するという傾向がある。
【0037】
同期点検出部52は、ステップSC4で算定した類否指標γが変数βを下回るか否かを判定する(SC5)。類否指標γが変数βを下回る場合(SC5:YES)、同期点検出部52は、直前のステップSC4で算定した類否指標γを変数βに代入し、現時点の候補区間σXの時間長WXを同期区間σSの暫定的な時間長WSとして設定し、現時点の候補区間σXの始点SXを暫定的な同期点S2(同期区間σSの始点)として設定する(SC6)。他方、類否指標γが変数βを上回る場合(SC5:NO)、同期点検出部52は、ステップSC6を実行せずに処理をステップSC7に移行する。すなわち、時間長WSおよび同期点S2は、参照区間σREFに音楽的に類似する候補区間σXの時間長WXおよび始点SXに順次に更新される。
【0038】
次いで、同期点検出部52は、現時点の候補区間σXの時間長WXに所定値Bを加算し(SC7)、加算後の時間長WXが上限値LBを上回るか否かを判定する(SC8)。上限値LBは、参照区間σREFよりも長い時間(例えば時間長WREFの1.5倍)に設定される。ステップSC8の結果が否定である場合、同期点検出部52は処理をステップSC3に移行する。すなわち、図5に示すように、更新前の候補区間σXと始点SXが共通で時間長WXが相違する(所定値Bだけ長い)新たな候補区間σXについて参照区間σREFとの類否が判定される(SC3〜SC8)。
【0039】
他方、ステップSC8の結果が肯定である場合(WX>LB)、同期点検出部52は、図5に示すように、候補区間σXの始点SXを所定値Cだけ後方に移動し、候補区間σXの時間長WXを下限値LA(例えば参照区間σREFの時間長WREFの半分)に初期化する(SC9)。そして、同期点検出部52は、ステップSC9での更新後の始点SXが、図5に示すように音響信号P2の基準点α2から所定値T(例えば時間長WREFの半分)だけ経過した時点よりも後方か否かを判定する(SC10)。ステップSC10の結果が否定である場合、同期点検出部52は、ステップSC9での更新後の始点SXについてステップSC3以降の処理(候補区間σXの時間長WXを変化させながら参照区間σREFと始点SXからの候補区間σXとを比較する処理)を反復する。他方、ステップSC10の結果が肯定である場合、同期点検出部52は図6の処理を終了する。
【0040】
以上の処理の結果、図5に示すように、音響信号P2の基準点α2から前後の時間長T(合計2T)にわたる範囲内で始点SXを所定値Cずつ移動させた複数の場合の各々について、下限値LAから上限値LBまでの範囲内で時間長WXを所定値Bずつ変化させた複数の候補区間σXの各々と参照区間σREFとの音楽的な類否が判定される。そして、図6の処理が終了した段階では、複数の候補区間σXのうち類否指標γが最小となる候補区間σX(参照区間σREFに最も類似する候補区間σX)の時間長WXおよび始点SXが、同期区間σSの時間長WSおよび同期点S2として確定する。以上が同期点検出部52の動作である。
【0041】
図1の区間対照部54は、音響信号P1の各単位区間F1と音響信号P2の各単位区間F2との対応を解析することで対応テーブルTBL1を生成する。区間対照部54による音響信号P1と音響信号P2との対比には、以下に例示するDP(dinamic programming:動的計画法)マッチングが好適に採用される。図7に示すように、区間対照部54は、音響信号P1のうち同期点S1に対応する単位区間F1[1]から最後の単位区間F1[M]までの時系列(横軸)と、音響信号P2のうち同期点検出部52が図6の処理で特定した同期点S2に対応する単位区間F2[1]から最後の単位区間F2[N]までの時系列(縦軸)とを対比する。すなわち、同期点検出部52による前述の処理は、区間対照部54による解析の対象となる区間の先頭(楽曲の開始点)を音響信号P1と音響信号P2とで対応させる処理(先頭合わせ)に相当する。
【0042】
区間対照部54は、まず、音響信号P1の単位区間F1[1]〜F1[M]の時系列と音響信号P2の単位区間F2[1]〜F2[N]の時系列との各々から単位区間F1[m](m=1〜M)および単位区間F2[n](n=1〜N)を選択する全通りの組合せについて、単位区間F1[m]のクロマベクトルΨ1と単位区間F2[n]のクロマベクトルΨ2との距離D[m,n](例えば内積や幾何距離)を算定する。したがって、距離D[1,1]〜D[M,N]で構成されるM行×N列の行列(コストマトリクス)が生成される。
【0043】
区間対照部54は、単位区間F1[1](同期点S1)および単位区間F2[1](同期点S2)の組合せに対応する時点p[1,1]から、任意の単位区間F1[m]および単位区間F2[n]の組合せに対応する時点p[m,n]までの複数の経路のうち、距離D[1,1]〜D[m,n]の累積値g[m,n]が最小値となる経路について当該累積値g[m,n]を順次に特定する。そして、区間対照部54は、図7に示すように、音響信号P1の最後の単位区間F1[M]と音響信号P2の最後の単位区間F2[N]とに対応する時点p[M,N]での累積値g[M,N]が最小となる最適経路(マッチングパス)MPを特定し、最適経路MP上の各時点に対応する単位区間F1[m]と単位区間F2[n]とを対応させた図2の対応テーブルTBL1を作成する。
【0044】
図1の表示制御部60は、第2保持部162に保持された表示データDBが指定する歌詞の各文字を表示装置72に順次に表示させる。表示制御部60は、音響信号P1の再生に同期するように表示データDBの処理(表示装置72に対する表示の指示)のテンポを対応テーブルTBL1に応じて可変に設定する。具体的には、対応テーブルTBL1にて各単位区間F1に対応づけられた単位区間F2の歌詞の文字が、音響信号P1のうち当該単位区間F1が再生される時点で表示装置72に表示されるように、表示制御部60は表示データDBの処理のテンポを制御する。また、表示データDBの処理のテンポはテンポ調整部26が設定したテンポにも依存する。すなわち、表示制御部60は、テンポ調整部26が設定したテンポが速いほど表示データDBの処理のテンポを上昇させる。
【0045】
例えば、図8のように、音響信号P1の単位区間F1[1]と音響信号P2の単位区間F2[1]とが対応し、音響信号P1の単位区間F1[2]およびF1[3]と音響信号P2の単位区間F2[2]とが対応する場合を想定する。図8の関係のもとで表示データDBの処理のテンポを固定した場合、音響信号P1の再生に対して歌詞の表示が先に進み、音響信号P1の再生と歌詞の表示とが同期しない状態となる。そこで、表示制御部60は、図8に示すように、単位区間F2[1]の表示データDBを処理するテンポの半分のテンポ(tempo×1/2)で単位区間F2[2]内の表示データDBを処理する。したがって、音響信号P1の単位区間F1[2]および単位区間F1[3]が再生される区間内(単位区間F1[2]の始点から単位区間F1[3]の終点まで)では、表示データDBのうち単位区間F2[2]の歌詞が表示され、音響信号P1の単位区間F1[4]の再生が開始する時点で単位区間F2[3]の歌詞の表示が開始する。
【0046】
他方、図9のように、音響信号P1の単位区間F1[1]と音響信号P2の単位区間F2[1]とが対応し、音響信号P1の単位区間F1[2]と音響信号P2の単位区間F2[2]〜F2[4]とが対応する場合を想定する。図9の関係のもとで表示データDBの処理のテンポを固定した場合、歌詞の表示が音響信号P1の再生に対して遅延し、音響信号P1の再生と歌詞の表示とが同期しない状態となる。そこで、表示制御部60は、図9に示すように、単位区間F2[1]の表示データDBを処理するテンポの3倍のテンポ(tempo×3)で単位区間F2[2]〜F2[4]内の表示データDBを処理する。したがって、音響信号P1の単位区間F1[2]が再生される区間内(単位区間F1[2]の始点から終点まで)では、表示データDBのうち単位区間F2[2]〜F2[4]の歌詞が順次に表示され、音響信号P1の単位区間F1[3]の再生が開始する時点で単位区間F2[5]の歌詞の表示が開始する。
【0047】
表示データDBの処理のテンポは例えば以下の方法で制御される。まず、表示制御部60は、単位区間F1と単位区間F2との先後に応じて、表示データDBの再生速度(例えば、所定の時間内に処理する単位区間F2の個数(frame/sec))を算出する。例えば、歌詞の表示が音響信号P1の再生に先行する場合(図8の場合)には再生速度を低速に設定し、歌詞の表示が音響信号P1の再生に遅延する場合(図9の場合)には再生速度を高速に設定する。そして、表示制御部60は、表示データDBの処理の間隔の単位(分解能)を規定するチック(tick)の間隔を再生速度に応じて可変に設定する(例えば、再生速度が高いほどチックの間隔を短縮する)ことで表示データDBの処理のテンポを可変に制御する。
【0048】
以上の形態においては、候補区間σXの始点SXを移動させながら音響信号P1の参照区間σREFと音響信号P2の候補区間σXとが比較され、複数の候補区間σXのうち参照区間σREFに類似する候補区間σX(同期区間σS)の始点SXが、音響信号P1の同期点S1に対応する同期点S2として特定される。したがって、音響信号P1の同期点S1と音響信号P2の同期点S2とで時間軸上の位置が相違する場合でも、音響信号P1の再生と歌詞の表示とを高精度に同期させることが可能である。しかも、第1実施形態においては、候補区間σXについて始点SXに加えて時間長WXも変化させるから、音響信号P1と音響信号P2とでテンポが相違する場合でも、音響信号P1の再生と歌詞の表示とを高精度に同期させることができる。
【0049】
さらに、音響信号P2の強度L2が最初に閾値LTHを上回る基準点α2を含む所定の範囲内で始点SXを変化させるから、例えば、音響信号P1に存在しない音響(例えば拍子音)が音響信号P2の先頭の部分に含まれる場合でも、音響信号P1と音響信号P2とで相互に同期する同期点(S1,S2)を正確に検出できるという利点がある。
【0050】
また、音響信号P1の各単位区間F1と音響信号P2の各単位区間F2との音楽的な類否に応じて楽曲中での単位区間F1と単位区間F2との対応が解析され、相対応する単位区間F1と単位区間F2とが同期するように表示データDBの処理のテンポが可変に制御される。したがって、例えば楽曲の全区間や歌唱区間の始点または終点のみで音響信号の再生と歌詞の表示とを同期させる特許文献1の構成と比較すると、例えば楽曲の途中で音響信号P1と楽曲データD0との同期が外れる場合でも、音響信号P1の再生と歌詞の表示とを高精度に同期させることが可能である。
【0051】
ところで、音響信号P1の再生と歌詞の表示とを同期させる方法としては、例えば、音響信号P1の拍点と音響信号P2の拍点とを対応させる方法も想定され得る。しかし、拍点を利用する方法では、例えば音響信号P1または音響信号P2の拍点の検出漏れに起因して音響信号P1の再生と歌詞の表示とがずれた場合(例えば音響信号P1の再生に対して1拍分だけ遅延して歌詞が表示される場合)に、両者の同期を回復することが困難であるという問題がある。本実施形態においては、和声感の指標となるクロマベクトル(Ψ1,Ψ2)の比較の結果に応じて音響信号P1の再生と歌詞の表示との同期が確保されるから、両者の同期が外れる可能性が低く、仮に何らかの事情で両者の同期が外れた場合でも速やかに同期を回復することが可能である。
【0052】
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
【0053】
第2実施形態の音響処理装置100においては、入力装置78に対する利用者からの操作に応じて音響信号P1の再生点が変更される。例えば、表示制御部60は、図10の操作画面720を表示する。操作画面720は、楽曲(音響信号P1)の全区間を表す直線状の再生領域721と、再生領域721上に配置された指示子722とを含むGUIである。指示子722は、楽曲のうち再生中の時点を示す画像である。したがって、楽曲の再生が進行するにつれて、指示子722は再生領域721の左端から右端に向けて経時的に移動する。利用者は、入力装置78を操作して指示子722を移動することで楽曲の再生点を任意に変更することが可能である。
【0054】
第2実施形態の同期点検出部52は、第1実施形態と同様の機能のほか(または第1実施形態の機能に代えて)、音響信号P1のうち利用者による変更後の再生点(以下「再生指示点」という)に楽曲中で対応する音響信号P2の時点を特定する機能を具備する。図11は、再生点の変更が指示された場合に同期点検出部52が実行する処理のフローチャートである。利用者による再生点の変更を契機として図11の処理が開始される。
【0055】
図11の処理を開始すると、同期点検出部52は、音響信号P1のうち再生指示点t1を含む参照区間σREFを設定する(SE1)。例えば、図10に示すように、再生指示点t1を始点とする所定の時間長WREFの区間が参照区間σREFとして特定される。次いで、同期点検出部52は、音響信号P2のうち再生指示点t1に対応する基準点t2を特定する(SE2)。例えば、同期点検出部52は、図10に示すように音響信号P2のうち再生指示点t1と同時刻の時点や、音響信号P2の全区間に対する位置が音響信号P1の全区間に対する再生指示点t1の位置と同等となる時点(例えば音響信号P2の始点からみて全区間の1/3に相当する時点)を基準点t2として特定する。
【0056】
そして、同期点検出部52は、基準点α1および基準点α2から同期点S1および同期点S2を特定する第1実施形態と同様の方法で、再生指示点t1および基準点t2から同期点S1および同期点S2を特定する(SE3)。すなわち、同期点検出部52は、基準点α1を再生指示点t1に置換するとともに基準点α2を基準点t2に置換して図6の処理を実行することで同期点S1および同期点S2を特定する。
【0057】
具体的には、同期点検出部52は、図10に示すように、音響信号P1のうちステップSE1で特定した参照区間σREF内の各クロマベクトルΨ1と音響信号P2に画定された候補区間σX内の各クロマベクトルΨ2との類否指標γを、候補区間σXの始点SXおよび時間長WXを変化させた複数の場合の各々について算定する。始点SXは、ステップSE2で特定した基準点t2から前後に所定の時間長T(合計2T)にわたる範囲内で順次に変更され、時間長WXは、下限値LAから上限値LBまでの範囲内(例えば時間長WREFの半分から1.5倍の範囲内)で順次に変更される。同期点検出部52は、複数の候補区間σXのうち類否指標γが最小となる候補区間σX(すなわちステップSE1で特定した参照区間σREFに音楽的に最も類似する候補区間σX)を同期区間σSとして探索し、同期区間σSの始点を同期点S2として特定する。
【0058】
区間対照部54は、音響信号P1のうち同期点S1(再生指示点t1)以降の各単位区間F1(単位区間F1[1],F1[2],……)と、音響信号P2のうち図11のステップSE3で特定した同期点S2以降の各単位区間F2(単位区間F2[1],F2[2],……)との楽曲中の対応を第1実施形態と同様の方法(DPマッチング)で特定する。
【0059】
第2実施形態においては、利用者からの指示に応じて可変に設定された再生指示点t1と再生指示点t1に応じた基準点t2とから同期点S1および同期点S2が特定されるから、音響信号P1の再生と歌詞の表示とを任意の再生指示点t1から同期させることが可能である。また、音響信号P1の再生と歌詞の表示とが任意の再生指示点t1から同期するから、音響信号P1および音響信号P2の全区間にわたる相互間の対応を楽曲の再生前に特定しておく必要はない。すなわち、音響信号P1と音響信号P2とにおける楽曲中の対応を解析する処理を音響信号P1の再生と並列に実行する構成でも、利用者が再生指示点t1を指示した場合には、音響信号P1の再生と歌詞の表示とを当該再生指示点t1から同期させることが可能である。したがって、楽曲の全区間にわたる音響信号P1を第1保持部161に格納する構成や、楽曲の全区間にわたる楽音データDAを第2保持部162に格納する構成は不要である。すなわち、第1保持部161や第2保持部162の容量が削減されるという利点もある。
【0060】
<C:変形例>
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は併合され得る。
【0061】
(1)変形例1
第1実施形態においては、候補区間σXの始点SXおよび時間長WXを変化させて参照区間σREFと順次に比較したが、図6の処理では同期点S2が特定されれば足りる(同期区間σSの時間長WSの特定までは必須ではない)から、時間長WXを所定値(例えば時間長WREF)に固定して始点SXのみを変化させる構成も採用される。すなわち、図6のステップSC7およびステップSC8は省略され得る。再生指示点t1および基準点t2から同期点S1および同期点S2を特定する第2実施形態の処理でも同様に、時間長WXを所定値に固定して始点SXのみを変化させる構成が採用され得る。
【0062】
(2)変形例2
以上の各形態で固定値として例示した各数値は可変値に適宜に変更され得る。例えば、以上の各形態では参照区間σREFの時間長WREFを所定値に固定したが、時間長WREFを可変に制御する構成も好適である。具体的には、楽曲データD0が指定するテンポや楽音データDAが指定する音数に応じて同期解析部48が時間長WREFを可変に制御する構成が採用される。例えば、同期解析部48は、テンポが速いほど時間長WREFを短い時間に設定し、単位時間あたりの音数が多いほど時間長WREFを短い時間に設定する。以上の構成によれば、テンポが速い楽曲や音数が多い楽曲についても音響信号P1と音響信号P2との対応を高精度に特定できるという利点がある。
【0063】
また、以上の各形態においては、候補区間σXの時間長WXを変動させる範囲(探索範囲)を規定する時間長Tを所定値に固定したが、時間長Tを可変に制御する構成も好適である。例えば、同期解析部48は、楽曲データD0が指定するテンポが速いほど時間長Tを短い時間に設定し(探索範囲を狭い範囲に設定し)、楽音データDAが単位時間あたりに指定する音数が多いほど時間長Tを短い時間に設定する。以上の構成によれば、楽曲のテンポが速い場合や音数が多い場合でも適切な同期区間σSを高精度に特定できるという利点がある。
【0064】
さらに、以上の各形態においては、候補区間σXの時間長WXの変化量Bや始点SXの移動量Cを所定値に固定したが、変化量Bや移動量Cを可変に制御する構成も好適である。例えば、同期解析部48は、楽曲データD0で指定されるテンポが速いほど変化量Bや移動量Cを小さい数値に設定し、楽音データDAが単位時間あたりに指定する音数が多いほど変化量Bや移動量Cを小さい数値に設定する。以上の構成によれば、楽曲のテンポが速い場合や音数が多い場合でも適切な同期区間σSを高精度に特定できるという利点がある。
【0065】
また、楽曲の後方ほど音響信号P1と音響信号P2との同期のずれが顕著となる。そこで、第2実施形態では、参照区間σREFの時間長WREFや探索範囲を規定する時間長Tを、図10の指示子722の移動量Δtに応じて可変に制御する構成が好適である。具体的には、同期解析部48は、移動量Δtが大きいほど(すなわち、再生指示点t1が楽曲の後方に位置するほど)、時間長WREFまたは時間長Tを長い時間に設定する。以上の構成によれば、移動量Δtが大きい場合でも、再生指示点t1以後における音響信号P1と音響信号P2との対応を正確に特定することが可能である。
【0066】
(3)変形例3
表示装置72に表示される情報は歌詞に限定されない。例えば、楽曲の楽譜(コード譜やタブ譜)を表示データDBが時系列に指定する構成や、楽曲に関する画像(例えばカラオケの背景画像)を表示データDBが時系列に指定する構成も好適である。すなわち、表示データDBは、楽曲の歌唱や演奏に関する画像(歌詞,楽譜,背景画像)を時系列に指定するデータとして包括される。なお、表示データDBが楽音データDAとは別個に用意された構成は必須ではない。例えば、楽音データDAが時系列に指定する楽音を楽曲の楽譜の表示に流用する構成も採用される。
【0067】
また、音響信号P1の再生と同期させるべき動作は、歌詞や楽譜の表示に限定されない。具体的には、楽曲の再生に関する動作を時系列に指示する指示データの処理(当該動作を実行する要素の制御)を音響信号P1の再生と同期させる構成が採用される。指示データは、表示データDBと同様に、楽音データDAが指定する楽音の時系列と指示データによる指示の時系列とが時間軸上で相互に対応(同期)するように作成される。例えば、楽曲の再生時における照明機器の動作(明滅や照度)を時系列に指定する指示データや、効果付与部34が付加する音響効果の態様(効果の種類や程度)を時系列に指定する指示データを、表示データDBの代わりに(または表示データDBとともに)、音響信号P1の再生と同期して処理する構成も好適である。
【0068】
以上の例示から理解されるように、表示データDBや指示データは、楽曲に関する情報(歌詞や楽譜、または、楽曲の再生に関する要素の動作の指示)を時系列に指定する制御データとして包括され、制御データを処理する要素(例えば以上の各形態における表示制御部60)は、音響信号P1の再生と制御データの処理とが同期するように、同期解析部48による解析の結果に応じて制御データを処理する要素(制御手段)として包括される。
【0069】
(4)変形例4
以上の形態においてはデータ変換部44が楽音データDAから音響信号P2を生成する構成を例示したが、同期解析用の音響信号P2を楽音データDAの代わりに(または楽音データDAとともに)記憶装置14に格納した構成も採用される。解析処理部40は、記憶装置14に格納された音響信号P2について同期解析を実行する。音響信号P2を記憶装置14に格納した構成ではデータ変換部44が省略され得る。もっとも、データ変換部44を具備する構成によれば、カラオケ用に作成された既存の楽曲データD0の楽音データDAを解析処理部40による同期解析に流用できるという利点や、音響信号P2を記憶装置14に格納する構成と比較して記憶装置14に必要な容量が削減されるという利点がある。
【0070】
(5)変形例5
以上の形態においては楽音データDAを音響信号P1との同期解析のみに利用する構成を例示したが、楽音データDAに応じた音響信号P2を音響信号P1とともに再生する構成も好適に採用される。例えば、ガイドメロディを示す楽音データDAから音響信号P2を生成して音響信号P1とともに再生すれば、利用者による歌唱や演奏の練習を支援することが可能である。また、再生制御部20は適宜に省略される。例えば、成分抑制部22を省略して音響信号P1の全部のパートを再生する構成や、ピッチ変換部24やテンポ調整部26を省略してピッチやテンポを変化させない構成も採用され得る。
【0071】
(6)変形例6
同期点S1および同期点S2の特定後に音響信号P1と音響信号P2との同期を解析する方法は適宜に変更される。例えば、各単位区間F1と各単位区間F2との対応を解析する方法は、第1実施形態のDPマッチングに限定されない。また、以上の各形態においては、音響信号P1の各単位区間F1と音響信号P2の各単位区間F2との対応を特定したが、複数の単位区間(F1,F2)を単位として音響信号P1と音響信号P2との対応を特定する構成も採用される。例えば、区間対照部54は、複数の単位区間F1に相当する時間長WREFで同期点S1以降の音響信号P1を区分した各参照区間σREF内の各単位区間F1のクロマベクトルΨ1と、音響信号P2の候補区間σXの各単位区間F2のクロマベクトルΨ2との類否指標γを、候補区間σXの時間長WXを変化させた複数の場合の各々について算定する。類否指標γの算定には、図6のステップSC3およびステップSC4と同様の方法が適用される。そして、区間対照部54は、複数の候補区間σXのうち類否指標値γが最小となる候補区間σXを、参照区間σREFに対応する同期区間σSとして特定する。以上の処理が反復されることで、音響信号P1を区分した複数の参照区間σREFの各々に対応する同期区間σSが音響信号P2に特定される。
【0072】
(7)変形例7
第1特徴抽出部42や第2特徴抽出部46が抽出する特徴量はクロマベクトル(Ψ1,Ψ2)に限定されない。例えば、音響信号P1や音響信号P2のピッチを抽出して同期解析に適用する構成が採用され得る。以上の説明から理解されるように、特徴量は、音響信号P1と音響信号P2との音楽的な類否を判定するための尺度として包括される。
【0073】
(8)変形例8
以上の各形態では、音響信号Pkの強度(音量)に応じて基準点αkを特定する図4の処理と、クロマベクトル(Ψ1,Ψ2)の比較で同期点S2を特定する図6の処理とを同期点検出部52が実行した。しかし、クロマベクトルは和声感(和音感)を示す特徴量であるから、楽曲が例えば打楽器の楽音から開始する場合には同期点S2の正確な特定が困難となる。したがって、同期点検出部52が図4の処理のみを実行する構成(図6の処理を省略した構成)も採用される。図4の処理で特定した基準点αkが同期点Skとして区間対照部54による処理に適用される。
【符号の説明】
【0074】
100……音響処理装置、12……演算処理装置、14……記憶装置、161……第1保持部、162……第2保持部、20……再生制御部、22……成分抑制部、24……ピッチ変換部、26……テンポ調整部、30……出力処理部、32……混合部、34……効果付与部、36……D/A変換部、40……解析処理部、42……第1特徴抽出部、44……データ変換部、46……第2特徴抽出部、48……同期解析部、52……同期点検出部、54……区間対照部、60……表示制御部、72……表示装置、74……収音装置、76……放音装置、78……入力装置、80……信号供給装置。


【特許請求の範囲】
【請求項1】
楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段と、
楽曲の楽音の波形を表す第1音響信号の特徴量を順次に生成する第1特徴抽出手段と、
前記制御データが指定する情報の時系列に同期する楽音の波形を表す第2音響信号の特徴量を順次に生成する第2特徴抽出手段と、
前記第1音響信号のうちの参照区間の特徴量と前記第2音響信号の候補区間の特徴量との比較を、時間軸上の位置が相違する複数の候補区間の各々について実行し、前記複数の候補区間のうち特徴量が前記参照区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する同期点検出手段と、
前記第1音響信号の前記参照区間の再生と、当該記参照区間について前記同期点検出手段が特定した同期区間に対応する前記制御データの処理とが同期するように、前記制御データを処理する制御手段と
を具備する音響処理装置。
【請求項2】
前記同期点検出手段は、前記第2音響信号のうち始点の位置が共通で時間長が相違する複数の候補区間の各々の特徴量と前記参照区間の特徴量との比較を、前記始点の位置を変化させた複数の場合について実行し、前記参照区間と比較した複数の候補区間のうち特徴量が前記参照区間の特徴量に類似する候補区間を前記同期区間として特定する
請求項1の音響処理装置。
【請求項3】
前記同期点検出手段は、前記第1音響信号のうち強度が最初に閾値を上回る第1基準点と、前記第2音響信号のうち強度が最初に閾値を上回る第2基準点とを特定し、前記第1基準点を始点とする前記参照区間の特徴量と、前記第2基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量と比較する
請求項1または請求項2の音響処理装置。
【請求項4】
前記同期点検出手段は、前記第1音響信号のうち利用者からの指示に応じて可変に設定された再生指示点を含む前記参照区間の特徴量と、前記第2音響信号のうち前記再生指示点に応じて設定された基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量とを比較する
請求項1から請求項3の何れかの音響処理装置。
【請求項5】
楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段を具備するコンピュータに、
楽曲の楽音の波形を表す第1音響信号の特徴量を順次に生成する第1特徴抽出処理と、
前記制御データが指定する情報の時系列に同期する楽音の波形を表す第2音響信号の特徴量を順次に生成する第2特徴抽出処理と、
前記第1音響信号のうちの参照区間の特徴量と前記第2音響信号の候補区間の特徴量との比較を、時間軸上の位置が相違する複数の候補区間の各々について実行し、前記複数の候補区間のうち特徴量が前記参照区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する同期点検出処理と、
前記第1音響信号の前記参照区間の再生と、当該記参照区間について前記同期点検出処理で特定した同期区間に対応する前記制御データの処理とが同期するように、前記制御データを処理する制御処理と
を実行させるプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2011−53590(P2011−53590A)
【公開日】平成23年3月17日(2011.3.17)
【国際特許分類】
【出願番号】特願2009−204513(P2009−204513)
【出願日】平成21年9月4日(2009.9.4)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】