説明

音楽データの頭出し位置を検出して歌詞字幕を表示する音楽再生装置

【課題】利用者録音の音楽データに同期して歌詞字幕を表示させる。
【解決手段】オリジナル音楽波形データA1に同期する歌詞字幕の表示・消去・色替えに関わるタイミングデータと、音楽波形データA1の先頭部分を時間間隔t1で複数区間に分割した各区間の波形の代表値の順列を含んだ先頭波形特徴データB1を含む歌詞描出データを記憶し、音楽波形データA2の先頭部分をt1で分割して各区間の波形の代表値を抽出して音楽波形データA2の先頭波形特徴データB2を生成し、先頭波形特徴データB1とB2を、相対的に時間シフトさせながら対比させ、類似度が最も高い時間シフト値に基づいて特定したオフセット時間に基づいて、音楽波形データA2と歌詞描出データの頭出しを相対的に加減して、音楽波形データA2に基づく音声信号と歌詞描出データに基づく歌詞字幕を出力させる。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、ユーザが用意した音楽データに同期して歌詞字幕を表示させる音楽再生装置に関する。
【背景技術】
【0002】
周知のカラオケ装置は、カラオケデータに基づいて、伴奏音楽の演奏と同期して色変わりする歌詞字幕をディスプレイに表示する。各曲のカラオケデータは、楽曲番号と、伴奏音楽データと、歌詞描出データなどを組織化したデータ群である。通信カラオケシステムにおいて主に採用されているMIDI形式の伴奏音楽データは、多種類のカラオケ音源のそれぞれを1つの楽器として、それぞれの楽器が発音すべき演奏音の発音/消去タイミング、音高、音量などを指定している。またその曲全体のテンポやビートを指定している。演奏処理時には、このテンポに基づいてタイミングクロック信号が生成され、各楽器演奏音の発音/消去タイミングが決定され時系列に演奏音が生成される。
【0003】
また歌詞字幕の生成起源となる歌詞描出データは、適宜に区切られた複数の歌詞文字列ブロックのほか、各歌詞文字列ブロックの表示レイアウトを規定するデータと、各ブロックの表示タイミングや消去タイミングを規定するデータと、各ブロック中の文字列を音楽の進行に合わせて色替えするタイミングを指定するデータから構成される。タイミング情報は、伴奏音楽に合わせたデータ形式で記述されており、伴奏音楽と同期をとることができる。
【0004】
最近では、伴奏音楽として生録音したカラオケ作品の音の良さが見直され、楽曲によってはMIDIタイプの他に生録音タイプが用意されている。特許第3294526号公報には、2つのタイプのカラオケデータを併用するカラオケ装置について開示されている。また、特開2007−264190号公報には、同一楽曲についての生録音タイプの伴奏音楽にMIDIタイプのデータを流用する際に、両タイプ用の歌詞描出データのタイミング情報に基づいて対応付ける技術が開示されている。
【特許文献1】特許第3294526号公報
【特許文献2】特開2007−264190号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
利用者が自宅でカラオケを練習したり楽しんだりする場合には、通常、CDなど歌入りのオリジナル音楽にあわせて歌う。このときに、紙媒体の歌詞本を見ながら歌うのではなく、パソコンのディスプレイにでも色替えつきの歌詞字幕が出ると、臨場感にあふれカラオケ練習効果も高くなり便利であろう。そこで本発明者は、オリジナル音楽データに同期するように作成した歌詞描出データを独立した商材にしたいと考えた。
【0006】
一方、利用者が自宅で歌詞描出データを再生する場面で合わせて再生される音楽データは、同じいわゆる生録音タイプとはいえ、歌詞描出データ作成時のものと同一とは限らない。たとえばオリジナル音楽CDを再生したアナログ音楽信号を記憶媒体にデジタル録音したものであったり、カラオケボックスでCDに録音したものであったりする。そうすると、音楽データの先頭に余白が入っていたり、イントロ部分の一部が欠けていたりして、テンポは同じでも頭出しの位置がオリジナル音楽データと異なっており、歌詞字幕を同期させることができない。
【0007】
そこで本発明者は、音楽データの頭出しの位置を解析して、歌詞描出データと同期させて音楽データを再生できる音楽再生装置を提供したいと考え、本発明を創作した。
【課題を解決するための手段】
【0008】
この発明に係る音楽再生装置は、つぎの事項(1)〜(9)により特定されるものである。
(1)記憶手段と、制御手段と、音響出力手段と、表示手段を備え、ある楽曲のオリジナル音楽波形データA1に同期して作成された歌詞描出データに基づいて、頭出しにオフセット時間を含む同一楽曲の音楽波形データA2に同期して歌詞表示を行なう音楽再生装置であること
(2)記憶手段は、音楽波形データA2と歌詞描出データを記憶すること
(3)歌詞描出データは、音楽波形データA1に同期する歌詞字幕の表示・消去・色替えに関わるタイミングデータと、音楽波形データA1の先頭部分の特徴を示す先頭波形特徴データB1を含むこと
(4)先頭波形特徴データB1は、音楽波形データA1の先頭部分を時間間隔t1で複数区間に分割した各区間の波形の代表値の順列を含むこと
(5)制御手段は、オフセット時間検出処理と、音楽再生処理を行なうこと
(6)オフセット時間検出処理は、第1〜第2処理を含むこと
(7)第1処理は、音楽波形データA2の先頭部分を時間間隔t1で分割して各区間の波形の代表値を抽出して音楽波形データA2の先頭波形特徴データB2を生成すること
(8)第2処理は、先頭波形特徴データB1とB2を、相対的に時間シフトさせながら類似度を判定してそれらを対比させ、類似度が最も高い時間シフト値に基づいてオフセット時間Fを特定すること
(9)音楽再生処理は、特定したオフセット時間Fに基づいて音楽波形データA2と歌詞描出データの頭出しを相対的に加減して、音楽波形データA2に基づく音声信号を音響出力手段に出力させるとともに、歌詞描出データに基づく歌詞字幕を表示手段に出力させること
【0009】
この発明において、次の事項(11)〜(16)を備えることが望ましい。
(11)先頭波形特徴データB1に加え、当該先頭波形特徴データB1の2点間の傾斜が最大の時間位置情報Tと、時間位置Tを中心にしてその前後の微少区間をt1より短い時間間隔t2で分割した各区間の波形代表値の順列である微細波形特徴データC1を含むこと
(12)オフセット時間検出処理は、第1〜第4処理を含むこと
(13)第1処理は、音楽波形データA2の先頭部分を時間間隔t1で分割して各区間の波形の代表値を抽出して音楽波形データA2の先頭波形特徴データB2を生成すること
(14)第2処理は、先頭波形特徴データB1とB2を、相対的に時間シフトさせながら類似度を判定してそれらを対比させ、類似度が最も高い時間シフト値に基づいてオフセット時間Dを特定すること
(15)第3処理は、特定したオフセット時間Dと時間位置情報Tに基づく音楽波形データA2の微少部分を時間間隔t2で分割した各区間の波形代表値の順列である微細波形特徴データC2を生成すること
(16)第4処理は、微細波形特徴データC1とC2を、相対的に時間シフトさせながら類似度を判定してそれらを対比させ、類似度が高い時間シフト値に基づいてオフセット時間Eを特定し、オフセット時間DとEに基づきオフセット時間Fを特定すること
【0010】
さらに波形代表値は、時間間隔t1またはt2で分割した区間内の最大ピーク値または最小ディップ値であることが望ましい。
【0011】
さらにまた、オフセット時間検出処理において、2つの波形特徴データの類似度を比較する際、いずれか一方の極性を反転させた場合の類似度もあわせて比較することが望ましい。
【発明の効果】
【0012】
本発明の音楽再生装置によれば、利用者が録音した音楽データなどオリジナル音楽データとは頭出しの位置が異なる音楽データにも同期させて歌詞字幕を表示させることができる。そのため、カラオケ業者は歌詞描出データを独立した商材として扱える。利用者も、自宅で色替え表示する歌詞字幕を見ながらカラオケを練習したりできる。効率よく練習ができるようになったり、家で簡単かつ気軽にカラオケを楽しめるようになったりするので、カラオケ利用者層が拡大する効果を期待できる。
【発明を実施するための最良の形態】
【0013】
===実施の概要===
本発明の一実施例として、利用者が自宅などに所有する汎用のパソコンを利用した形態を例示する。汎用パソコンは、CPU・RAM・ROMを含む中央制御部の制御により、MP3形式などのデジタル形式の音楽データを再生し音響出力可能であるとともに、歌詞字幕を表示可能なディスプレイと、java(登録商標)などのアプリケーションソフトウェア実行環境と、インターネットに接続可能な通信インタフェースを実装している。そして利用者の汎用パソコンを本発明に係る音楽再生装置として機能させるための専用アプリケーションソフトは、カラオケ事業者が運営するWebサイトなどに公開しておき、これをダウンロードするなどしてインストールできるものとする。また、後述する専用の歌詞描出データも、同Webサイトなどで購入するなどして入手してメモリに記憶させることができるものとする。
【0014】
なお本発明の実施形態には、インターネットに接続可能な携帯音楽プレーヤーや、インターネットに接続された汎用パソコンとデータ通信可能な携帯音楽プレーヤーを音楽再生装置とする構成を含んでもよい。
【0015】
===歌詞描出データの構成===
本実施例に係る歌詞描出データは、適宜に区切られた複数の歌詞文字列ブロックと、各歌詞文字列ブロックの表示レイアウトを規定するデータと、各ブロックの表示タイミングや消去タイミングを規定するデータと、各ブロック中の文字列を音楽の進行に合わせて色替えするタイミングを指定するデータからなるよく知られたデータ構成に加え、先頭波形特徴データB1を含んでいることに特徴がある。
【0016】
先頭波形特徴データB1は、歌詞描出データ作成時に同期させたオリジナル音楽の波形データA1の先頭部分の特徴を示すデータであって、オリジナル音楽波形データA1から抽出して作成されたものである。図1に先頭波形特徴データB1の作成方法を例示している。オリジナル音楽波形データA1の先頭から20秒の部分を時間間隔t1(本実施例では0.1秒)で区分し、図1(a)に例示しているように、各区間内で波形のピークの最高値とディップの最低値を抽出し、それぞれを当該区間のピーク代表値、ディップ代表値とする。そして、図1(b)に例示したように、それら代表値を時系列に並べた折れ線グラフとして、先頭波形特徴データB1を作成する。
【0017】
なお、代表値の抽出方法は上記に限定されない。各区間内の複数あるピークの平均値やディップの平均値をそれぞれのピーク代表値、ディップ代表値としてもよい。
【0018】
===オフセット時間検出処理===
本実施例に係る音楽再生装置は、音楽データの再生音響出力に際し、歌詞描出データを同期させてディスプレイに表示させるものである。適宜なユーザインタフェースにより、利用者が楽曲を指定すると、演奏に先立って音楽データの頭出し(オフセット)位置を分析するオフセット時間検出処理を行なう。たとえば利用者が音楽再生装置としてのパソコンにインストールされている本発明専用アプリケーションを起動させると、歌唱描出データがメモリに記録されている楽曲を一覧的に表示させ、いずれかを選択指定できるようになっている。そこで利用者が楽曲を選択し、また再生対象の音楽データが指定されると、中央制御部は以下に説明するオフセット時間検出処理を開始する。
【0019】
図2にオフセット時間検出処理のフロー図を例示している。オフセット時間検出処理とは、歌詞描出データに付帯されている先頭波形特徴データB1に基づいて、再生対象曲の音楽波形データA2の頭出し(オフセット)位置を検出する処理である。そのために、再生対象曲の歌詞描出データに先頭波形特徴データB1が付帯する場合に(s1)、中央制御部はまず、音楽波形データA2の先頭部分から先頭波形特徴データB2を抽出する(s2)。すなわち、音楽波形データA2の先頭部分30秒程度を時間間隔t1で複数区間に分割し、各区間の代表値を抽出して時系列に並べて先頭波形特徴データB2とする。ここでは、音楽波形データA2の先頭にt1より長い空白が含まれている場合を考慮して、オリジナル音楽波形データA1から先頭波形特徴データB1を抽出した部分(本実施例では20秒)より長い区間(本実施例では30秒程度)を先頭部分として対象にしている。
【0020】
そして、まず先頭波形特徴データB1とB2とを対比させる(s3〜s4)。先頭からの時間が等しい区間どうしでピーク代表値の差分をとり、対比させる全区間についての差分絶対値を合計する。図3に対比方法を例示した。つまり、図3(a)に例示しているように、先頭波形特徴データB1のうち、ピーク代表値の順列が先頭から
(α1,α2,α3,・・・)
であり、また図3(b)に例示しているように、先頭波形特徴データB2のうち、ピーク代表値の順列が先頭から
(β1,β2,β3,・・・)
である場合に、
差分合計Z0={|α1―β1|+|α2−β2|+|α3−β3|+・・・}
を算出する(s4)。この差分合計は、2つの波形が一致していれば0になり、2つの波形が類似しているほど小さくなると言える。言い換えれば、この2つの波形の類似度が最も高い場合に差分合計が最小となると言える。
【0021】
そこで、2つの波形が一致していない場合に、一方の波形を時間軸にそってシフトさせて、類似度が高くなる位置を検出する。類似度が最も高いときに2つの音楽データの頭だし位置がほぼ一致したということができるので、シフトさせた時間幅を音楽波形データA2のオフセット時間と判定できる。
【0022】
図3の例では、(c)に例示しているように、対比させる区間をt1だけシフトさせ、同じように対比させた区間のピーク代表値の差分を合計する(s6)。つまり、
差分合計Z1={|α1−β2|+|α2−β3|+|α3−β4|+・・・}
を算出する。
【0023】
Z1が0でない場合には、図3(d)に例示しているように、さらに対比させる区間をt1だけシフトさせ(s9→s5)、
差分合計Z2={|α1−β3|+|α2−β4|+|α3−β5|+・・・}
を算出する(s6)。
【0024】
このように対比させる区間をt1ずつシフトさせて差分合計を算出する処理(s5〜s6)を繰り返しながら、差分合計Zx(シフト回数x=0,1,2,・・・)が最小となるシフト時間(=t1×シフト回数x)を求める。すなわち、Zxが最小値レジスタ値Zmin(初期値=Z0)を下回った場合に上書きするとともに、そのときのシフト回数を最小シフト回数レジスタS(初期値=0)に上書きする(s8)。そして対比させる区間の全区間についてシフトさせた後(s9→s10)、差分合計の最小値Zminに対応するシフト時間(最小シフト回数レジスタ値S×t1)を音楽波形データA2のオフセット時間と判定する(s10)。
【0025】
ここで求めたオフセット時間に基づいて、歌詞描出データの起点または音楽波形データA2の起点を相対的に時間シフトすれば、音楽波形データA2の再生と歌詞字幕表示とをほぼ同期させることができる。
【0026】
図3の例では、(a)と(d)を対比させればわかるように、2回シフトすれば2つの先頭波形特徴データの類似度が最も高くなるため、オフセット時間は2×t1と検出される。
【0027】
なお、ここではピーク代表値のみを対比させることとしているが、ディップ代表値もあわせて対比させると、より確実にオフセット時間を検出することができる。
【0028】
以上のようにして、中央制御部はオフセット時間検出処理を行なって検出したシフト時間=オフセット時間に基づいて、音楽波形データA2の音響出力に際して、歌詞描出データの出力タイミングをオフセット時間だけ遅延させて映像出力する。これにより、音楽波形データA2と歌詞字幕とを同期して出力させることができる。
【0029】
===第2の実施例===
上記実施例では、オフセット時間の検出に際して、誤差は±t1の範囲で生じることになる。そこで、第2の実施例の歌唱描出データは、先頭波形特徴データB1に加え、オリジナル音楽波形データA1から抽出した微細波形特徴データC1を付帯することとする。これは、先頭波形特徴データB1との対比で得られたオフセット時間に内在する±t1の誤差を改善するためのものである。第2の実施例においては、先頭波形特徴データB1との対比で得られたオフセット時間をオフセット時間Dとする。
【0030】
微細波形特徴データC1は、図4に例示しているように、先頭波形特徴データB1のピーク代表値の遷移を示す各折れ線のうち傾きが最大の折れ線を含む2区間を特定し、オリジナル音楽波形データA1から、当該2区間をさらにt1より小さい時間間隔t2(たとえば0.001秒)で細分した各区間の代表値(ピーク代表値、ディップ代表値)を抽出して時系列に並べて作成する。波形の傾きが最大となる時点とは、音量が急激に変化していることを意味している。このような現象は、特に演奏開始位置に特徴的に現れるため、本発明に係るオフセット時間検出に特に有効な部分ということができる。
【0031】
歌詞描出データには時間位置情報Tとともに微細波形特徴データC1を付帯させておく。時間位置情報Tとは、微細波形特徴データC1を抽出した位置の中心を、オリジナル音楽波形データA1の先頭を起点とした時間で示したものである。
【0032】
微細波形特徴データC1を使用してオフセット時間Dに内在する±t1の誤差を改善するに際し、まずは、再生対象の音楽波形データA2をオフセット時間Dに基づいてシフトする。そうすると音楽波形データA2の起点はオリジナル音楽波形データA1の起点と±t1の誤差でほぼ一致している。その状態で微細波形特徴データC1に該当する波形が存在するはずの位置は、音楽波形データA2の先頭から時間位置情報Tだけ経過した部分であり、それも±t1の誤差範囲の中である。したがって、その位置を中心にして前後に時間間隔t1の2区間に類似度の高い部分が存在する。そこで本実施例では4区間分を微細波形特徴データC1と対比させ、より精細なオフセット時間を検出することとしている。
【0033】
つまり、オフセット時間検出処理においては、音楽波形データA2をオフセット時間Dでシフトさせ、その先頭起点から時間位置情報Tだけ経過した位置の前後について、時間間隔t1の4区間分を特定し、その区間から微細波形特徴データC2を抽出する。つまり、特定した区間を時間間隔t2で細分して各区間の代表値(ピーク代表値、ディップ代表値)を抽出し、時系列に並べて微細波形特徴データC2とする。
【0034】
そして、抽出した微細波形特徴データC2と、微細波形特徴データC1とをt2ずつ時間をシフトさせながら対比させ、差分合計が最小になるオフセット時間Eを検出する。このオフセット時間Eをオフセット時間Dに加算する。こうすると、誤差は±t2(<t1)の範囲となるので、より正確にオフセット時間を特定できることになる。つまり、オフセット時間Dによって粗調整され、さらにオフセット時間Eで加減することで、より正確に微調整されたオフセット時間Fを検出できる。
【0035】
同様にして、さらに微細化した微細波形特徴データを用意して対比する区間を細かく絞り込んでいけば、オフセット時間の検出精度を高められる。
【0036】
===他の実施形態===
音楽波形データA2がオリジナル音楽波形データA1と同じ音楽CDをコピーしたものであっても、たとえばWAVE形式からMP3形式など形式変換された場合や、一度アナログ信号にしたものを再びデジタルエンコードした場合などに、波形の極性が反転したり、振幅レベルが異なる場合がある。そこで、オフセット時間検出処理においては、一方の波形データの極性を反転させたり振幅の倍率を変更したりしながら、差分合計が最小となる時点を求めるようにする。
通常、波形データは縦軸中央をゼロレベルとする正負の値をもつので、振幅の倍率を変更するとゼロレベルを中心とした振幅の変化となる。
極性反転させるためには、たとえば、ピーク代表値同士、ディップ代表値同士を対比させる代わりに、ピーク代表値とディップ代表値とを一方の正負符号を反転させて対比させることで可能となる。
【図面の簡単な説明】
【0037】
【図1】本実施例に係る先頭波形特徴データの作成方法を例示している。
【図2】本実施例に係るオフセット時間検出処理のフロー図である。
【図3】本実施例に係るオフセット時間検出処理における先頭波形特徴データB1、B2の対比方法を例示している。
【図4】本実施例に係る微細波形特徴データの作成方法を例示している。
【符号の説明】
【0038】
A1,A2 音楽波形データ
B1,B2 先頭波形特徴データ
C1,C2 微細波形特徴データ
t1 先頭波形特徴データ抽出時の区分時間
t2 微細波形特徴データ抽出時の区分時間

【特許請求の範囲】
【請求項1】
記憶手段と、制御手段と、音響出力手段と、表示手段を備え、ある楽曲のオリジナル音楽波形データA1に同期して作成された歌詞描出データに基づいて、頭出しにオフセット時間を含む同一楽曲の音楽波形データA2に同期して歌詞表示を行なう音楽再生装置であって、
記憶手段は、音楽波形データA2と歌詞描出データを記憶し、
歌詞描出データは、音楽波形データA1に同期する歌詞字幕の表示・消去・色替えに関わるタイミングデータと、音楽波形データA1の先頭部分の特徴を示す先頭波形特徴データB1を含み、
先頭波形特徴データB1は、音楽波形データA1の先頭部分を時間間隔t1で複数区間に分割した各区間の波形の代表値の順列を含み、
制御手段は、オフセット時間検出処理と、音楽再生処理を行ない、
オフセット時間検出処理は、第1〜第2処理を含み、
第1処理は、音楽波形データA2の先頭部分を時間間隔t1で分割して各区間の波形の代表値を抽出して音楽波形データA2の先頭波形特徴データB2を生成し、
第2処理は、先頭波形特徴データB1とB2を、相対的に時間シフトさせながら類似度を判定してそれらを対比させ、類似度が最も高い時間シフト値に基づいてオフセット時間Fを特定し、
音楽再生処理は、特定したオフセット時間Fに基づいて音楽波形データA2と歌詞描出データの頭出しを相対的に加減して、音楽波形データA2に基づく音声信号を音響出力手段に出力させるとともに、歌詞描出データに基づく歌詞字幕を表示手段に出力させる
音楽再生装置。
【請求項2】
先頭波形特徴データB1に加え、当該先頭波形特徴データB1の2点間の傾斜が最大の時間位置情報Tと、時間位置Tを中心にしてその前後の微少区間をt1より短い時間間隔t2で分割した各区間の波形代表値の順列である微細波形特徴データC1を含み、
オフセット時間検出処理は、第1〜第4処理を含み、
第1処理は、音楽波形データA2の先頭部分を時間間隔t1で分割して各区間の波形の代表値を抽出して音楽波形データA2の先頭波形特徴データB2を生成し、
第2処理は、先頭波形特徴データB1とB2を、相対的に時間シフトさせながら類似度を判定してそれらを対比させ、類似度が最も高い時間シフト値に基づいてオフセット時間Dを特定し、
第3処理は、特定したオフセット時間Dと時間位置情報Tに基づく音楽波形データA2の微少部分を時間間隔t2で分割した各区間の波形代表値の順列である微細波形特徴データC2を生成し、
第4処理は、微細波形特徴データC1とC2を、相対的に時間シフトさせながら類似度を判定してそれらを対比させ、類似度が高い時間シフト値に基づいてオフセット時間Eを特定し、オフセット時間DとEに基づきオフセット時間Fを特定する
請求項1に記載の音楽再生装置。
【請求項3】
波形代表値は、時間間隔t1またはt2で分割した区間内の最大ピーク値または最小ディップ値である
請求項1または2に記載の音楽再生装置。
【請求項4】
オフセット時間検出処理において、2つの波形特徴データの類似度を比較する際、いずれか一方の極性を反転させた場合の類似度もあわせて比較する
請求項1〜3のいずれかに記載の音楽再生装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate