説明

歌曲を歌詞と並べる方法及び電気デバイス

歌曲を歌詞と並べる方法であって、この方法は、前記歌曲の歌詞中の類似の歌詞フラグメントのグループCの各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントのグループA4のオーディオフラグメントと並べるステップと、前記歌曲の歌詞中の類似の歌詞フラグメントの他のグループV2の各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントの他のグループA2のオーディオフラグメントと並べるステップとを有する。この方法は、電気デバイスにより実行されることが可能であり、場合により、コンピュータプログラムにより可能である。この方法の態様により決定されたマッピングは、信号の態様により出力及び受信され、及び/又は、データベースに格納される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歌曲を歌詞と並べる方法に関する。
【0002】
本発明は、更に、歌曲を歌詞と並べる電気デバイスに関する。
【0003】
本発明は、また、プログラム可能なデバイスに、歌曲を歌詞と並べる方法を実行させることを可能とするソフトウェアを有するコンピュータプログラムに関する。
【0004】
本発明は、更に、歌曲のオーディオフラグメントと歌詞フラグメントとの間のマッピングを有するデータベースに関する。
【0005】
本発明は、また、歌曲のオーディオフラグメントと歌詞フラグメントとの間のマッピングを有する信号に関する。
【背景技術】
【0006】
この方法の態様は、Ye Wang et al (ACM MM'04, October 10-16, 2004, New York, USA)による"LyricAlly: Automatic Synchronization of Acoustic Musical Signals and Textual Lyrics"という論文で知られている。この論文は、音響音楽信号(acoustic music signal)とテキストの歌詞を自動的に並べるための多様なアプローチを提案している。これは、リズム、コーラスの検出及び歌声の検出に関して音楽的に理解し、オーディオ処理に制約を追加するためのテキスト処理を利用し、不要な計算を取り除き、オーディオ処理により洗練されるが、期間の概算を生成する組み合わせモジュールを提案している。特定の構造を持つ歌曲とだけ連動するということが既知の方法の欠点である。
【発明の開示】
【発明が解決しようとする課題】
【0007】
本発明の第1の目的は、未知の構造を持つ歌曲と連動することができる、冒頭の段落に記述されたタイプの電気デバイスを提供することにある。
【0008】
本発明の第2の目的は、未知の構造を持つ歌曲で用いることができる、冒頭の段落に記述されたタイプの方法を提供することにある。
【課題を解決するための手段】
【0009】
本発明によれば、第1の目的は、電気回路が、歌曲の歌詞中の類似の歌詞フラグメントのグループの各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントのグループのオーディオフラグメントと並べ、前記歌曲の歌詞中の類似の歌詞フラグメントの他のグループの各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントの他のグループのオーディオフラグメントと並べるように構成される、という点において実現される。発明者らは、歌曲の構造が未知である場合には、コーラスがない歌詞フラグメントを独立したものとして考慮することは不十分であるとわかった。なぜならば、特に、インストルメンタルオーディオフラグメント(instrumental audio fragment)の存在のため、歌詞フラグメントをオーディオフラグメントにマッピングするための数学的な問題についての解(solution)の数があまりにも多すぎるからである。
【0010】
本発明の方法は、例えば、対応するオーディオフラグメントが再生されながら、歌詞フラグメントを表示するために用いられてもよい。代わりに、本発明の方法は、歌曲及び歌詞の自動的なフレーズ毎の、単語毎の、又は音節毎の配列を生成する第1のステップであってもよい。歌曲の歌詞は、例えば、インターネットから検索されてもよい。歌詞フラグメントをオーディオフラグメントと並べることで、歌詞フラグメントとオーディオフラグメントとの間のマッピングを生成してもよく、及び/又は、このマッピングに従って歌曲を再生してもよい。
【0011】
本発明の電気デバイスの実施形態においては、類似の歌詞フラグメントのグループ及び/又は他のグループは、歌曲の歌詞における、歌詞フラグメント毎の音節の量、ライン毎の音節の量、及び/又は、歌詞フラグメントのリズム体系を比較することにより決定される。これらの3つの特徴、特に、ライン毎の音節の量は、詩の類似性の正確な評価を与える。コーラスは、これらの間での高い単語の繰り返し(high word repetition)を伴う歌詞フラグメントを探すことにより決定されることが可能となる。
【0012】
類似のオーディオフラグメントのグループ及び/又は他のグループは、調和級数的解析(harmonic progression analysis)により決定される。調和級数的解析は、実験において非常に正しく良く動作することが証明されている。
【0013】
本発明によれば、第2の目的は、方法が、歌曲の歌詞中の類似の歌詞フラグメントのグループの各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントのグループのオーディオフラグメントと並べ、前記歌曲の歌詞中の類似の歌詞フラグメントの他のグループの各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントの他のグループのオーディオフラグメントと並べるステップを有する、という点において実現される。
【0014】
本発明の方法の実施形態においては、類似の歌詞フラグメントのグループ及び/又は他のグループは、歌曲の歌詞における、歌詞フラグメント毎の音節の量、ライン毎の音節の量、及び/又は、歌詞フラグメントのリズム体系を比較することにより決定される。
【0015】
類似のオーディオフラグメントのグループ及び/又は他のグループは、調和級数的解析により決定される。
【0016】
本発明のこれら及び他の態様は、図面を参照することで、一例を経て、はっきりと理解でき、更に明らかにされるだろう。
【発明を実施するための最良の形態】
【0017】
図中の対応するエレメントは、同一の参照数字で示されている。
【0018】
歌曲を歌詞と並べる方法は、ステップ1及びステップ3を有する(図1参照)。ステップ1は、歌曲の歌詞における類似の歌詞フラグメントのグループの各歌詞フラグメントを、歌曲の類似のオーディオフラグメントのグループのオーディオフラグメントと並べることを有する。ステップ3は、歌曲の歌詞における類似の歌詞フラグメントの他のグループの各歌詞フラグメントを、歌曲の類似のオーディオフラグメントの他のグループのオーディオフラグメントと並べることを有する。
【0019】
類似の歌詞フラグメントのグループ及び/又は他のグループは、歌曲の歌詞における、歌詞フラグメント毎の音節の量(例えば、30)、ライン毎の音節の量(例えば、5ラインの或る歌詞フラグメントについて3,10,9,4,4)、及び/又は、歌詞フラグメントのリズム体系を比較することにより決定されてもよい。類似のオーディオフラグメントのグループ及び/又は他のグループは、調和級数的解析により決定される。
【0020】
方法の一実施形態は、図2を参照して、4つのステップ、即ち、歌曲の歌詞における類似の歌詞フラグメントのグループ及び他のグループを決定するステップ11と、歌曲の類似のオーディオフラグメントのグループ及び他のグループを決定するステップ13と、歌詞フラグメントをオーディオフラグメントにマッピングするステップ15と、マッピングに基づいて歌詞フラグメント及び歌曲を再生するステップ17とを有する。ステップ15とステップ17とのいずれか又は双方は、歌曲の歌詞における歌詞フラグメントを、歌曲のオーディオフラグメントと並べるように考慮されてもよい。
【0021】
ステップ11の実行においては、コーラスが最初に決定されてから、類似の詩(verse)が決定される。以下の技術がコーラスを決定するために用いられる。
1.(ほとんど)同じように繰り返される歌詞の部分を決定する。
2.曲名が述べられているフラグメントを決定する。
3.各フラグメントの自己相似性(self-similarity)を決定する。
【0022】
概して、歌曲のコーラスは、同じように繰り返される歌詞の部分であり、曲名を含み、一つの詩よりもより多くの繰り返しを含む。或る歌詞を与えると、いくつかの前処理が、注釈から実際の歌詞(実際に歌われる部分)を識別するために行われてもよい。いくつかの注釈(例えば、誰が歌っているのか、誰が楽曲を作っているのかを特定することをいう)は、歌詞をオーディオと同期させるための関連性がないので、直ちに除去される。他の注釈(例えば、"コーラス"、"2回繰り返す"等)は、歌詞の部分を拡張することになり、コーラスが歌われる度に歌詞中に出現する。
【0023】
次に、識別は、細分化された歌詞(fragmented lyrics)と細分化されない歌詞(non-fragmented lyrics)との間で行われてもよい。細分化された歌詞は、複数のフラグメントからなり、空白行がフラグメントを分離する。概して、フラグメントは、詩、コーラス、イントロ、間奏等に関連する。歌詞が既に細分化されている場合には、コーラスがこれらのフラグメントの完全な1つにより与えられると推定される。歌詞が細分化される場合には、以下のステップを実行することができる。
1.第一に、各フラグメントについて、(厳密に又は近似的に)曲名を含むか否かが決定される。曲名の近似の発生を探すことは、例えば、歌詞が"I love you"と言う一方で曲名が"I love U"である場合に有用である。全ての種類の可能な限り少ないバリエーションがある。これらの少ないバリエーションから成るために、近似のマッチング技術が適用されてもよい。
2.第二に、フラグメントの各組について、これらがどのくらい似ているかが決定される。この目的を達成するために、最適な配列がフラグメントの各組について決定される。最適な配列は、いずれかのフラグメントにおいて空白の挿入を許容することにより、及びミスマッチを許容することにより、一のフラグメント中の文字と他のフラグメント中の文字とを最大数整合させる配列である。最適な配列は、挿入、削除、及び交換を最小数用いることにより、一のフラグメントを他のフラグメントに変換することに関する。このような最適な配列は、O(nm)の多項式時間で動的計画法(dynamic programming)により構築されることができ、n及びmは、2つのフラグメントの長さである。
3.第三に、各フラグメント内での繰り返しの量が決定される。これは、以下のように実行される。最初に、フラグメント内で完全に同じように繰り返されるサブの文字列(substring)が決定される。拡張(enlarge)することができないサブの文字列(substring)が識別される。このようなサブの文字列は、最大限の広がり(maximum extent)であることが知られている。"the more I want you"をこの最大限の広がりとすると、この際、このサブの文字列の2つの存在(occurrence)は、異なる文字が先行し、異なる文字が後に続くだろう(そうでなければ、最大限の広がりではないだろう)。次に、最小サイズの最大限の広がりの全ての存在(第一の存在を除く)は、フラグメントにおいて今まで存在していない特有の単語(例えば、r#1、r#2等)により繰り返して交換される。これは、最大限の広がりが残らなくなるまで繰り返される。
【0024】
結果として生じる文字列の長さをオリジナルの文字列の長さにより分割した割合が、フラグメント内での繰り返しの尺度として用いられる。上述の3つの尺度を用いて、恐らくコーラスであるフラグメントが選択される。
【0025】
歌詞がフラグメント中で繰り返されていない場合には、類似の指示は、可能であれば、コーラスを識別するために未だ用いられる。再び、動的計画法を用いることにより、ほとんど完全に繰り返される歌詞の部分を見つけることができる。この場合においては、コーラスは、一連の完全なライン(complete line)からなることが推定される。局所的配列動的計画法(local alignment dynamic programming)は、一連の完全なラインだけが考慮される方法で適合されてもよい。これは、

の多項式時間で計算でき、nは、歌詞の長さである。より多く又はより少なく完全に繰り返される1又はそれ以上のパーツを与えると、歌詞は、フラグメント中で自動的に繰り返される。
【0026】
コーラスが決定された後、追加の手がかりが、フラグメント間でのポテンシャル境界(potential border)を見つけるために用いられてもよい。例えば、2つの連続するラインが韻を踏む場合には、高い確実性で同一のフラグメントに属する。加えて、音素の数を数えることができる。結果として生じるフラグメントは、好ましくは、フラグメント毎の複数の音素の繰り返しパターンを示すべきである。
【0027】
ステップ13の実行においては、調和級数的解析が、類似のオーディオフラグメントを決定するために用いられる。この目的を達成するために、彩度スペクトルが等距離間隔で計算される。最高の成果のために、間隔は、楽曲において単一の小節(single bar)であるべきである。この小節を配置するために、音楽の拍、グローバルテンポ、及びダウンビートを知る必要がある。彩度スペクトルは、全ての12ピッチクラスの尤度スコア(likelihood score)を表す。これらのスペクトルは、オーディオを連続する離散したコード記号に変換するコード記号(即ち、最尤キー)上にマッピングされる。標準近似パターンマッチング(standard approximate pattern matching)を用いて、類似下位配列(similar sub-sequence)は、クラスタにグループ化され、名前でタグ付けされる。
【0028】
ステップ15の実行においては、歌詞フラグメント(LF;lyrics fragment)及びオーディオフラグメント(AF;audio fragment)の自動配列の問題が、以下の態様により解決される。
【0029】
所与の歌曲について、1,2,…,nで番号付けされたn個のLF及び1,2,…,mで番号付けされたm個のAFがあると仮定する。ここで、通常、n<mである。更に、LFiのラベルを、l(i)で示し、表記を少し乱用してAFjのラベルをl(j)で示す。配列を見つけるために、全て順序を維持しながら一貫性のあるLFのAFへの割り当て(consistent assignment)を生じる検索ツリーを用いて、検索アプローチが用いられる。
割り当ては、マッピング、即ち、各LFを一のAFに正確に割り当てるa:

である。割り当ては、{1,2,…,n-1}における各LFについてa(i)<=a(i+1)を持つ場合には、順序維持である。割り当ては、完全に一致してラベルを付けられたLFが、完全に一致したラベルを付けられたAFに割り当てられる場合、即ち、LFの各組i,jについて、l(i)=l(j)=>l(a(i))=l(a(j))の場合には、一貫性があると呼ばれる。時々、一貫性のある割り当ては存在しない。この場合においては、不一致が最小数の割り当てが選択される。
【0030】
非常に多くの場合、順序維持及び一貫性のある割り当ての数は、極めて大きく、時々、数千の割り当てである。連続するLFを同じAFに割り当てることが必要かもしれないが、正確な割り当ては、いつも、最大範囲を持つ特性を持つ、即ちLFがAFに割り当てられる組が最大濃度であることに留意されたい。最大範囲の割り当てのサブの組は、通常、順序維持及び一貫性のある解の完全な組よりも大幅に小さい。結果として生じるサブの組は、通常、10よりも少ない解からなる。
【0031】
最後に、{d(a(1))/s(1),d(a(2))/s(2),…,d(a(n))/s(n)}における分散は、残りの解のそれぞれについて考慮される。ここで、AFjに対して、d(j)はオーディオフラグメントの期間を示し、LFiに対して、s(i)は歌詞フラグメントにおける音節の数を示す。前提は、最小分散を伴う解が正確な割り当てに対応することである。
【0032】
他の手がかりは、
・第1のオーディオフラグメントは、通常、インストルメンタルである(特に、比較的短い場合)こと、
・複数のオーディオフラグメントがこれに割り当てられた歌詞フラグメントを取得しない場合に、この際、これらは、好ましくは、同一のラベルを持つべきであること、
・後処理ステップとして、AFjに割り当てられたLFiが、jとその隣の1又はそれ以上とに再割り当てされてもよく、これらの隣がjのような同一のラベルを持つことが提供され、期間/音節のより良い分散を生じさせることが提供されること、
である。
【0033】
図3は、歌詞フラグメント(LF)のオーディオフラグメント(AF)への割り当ての一例を示している。オーディオフラグメントは、AからAにラベルが付されており、AとAとが類似のオーディオフラグメントのグループである。歌詞フラグメントは、VからV(詩に関する)及びC(コーラスに関する)にラベルが付されており、VとCが類似の歌詞フラグメントのグループである。グループVの各歌詞フラグメントがグループAのオーディオフラグメントにマッピングされ、グループCの各歌詞フラグメントがグループAのオーディオフラグメントにマッピングされる。この例においては、コーラスと詩との間の識別はなされるが、これは要求されない。歌詞が、間奏又は独唱のようなインストルメンタル部分の明確な表示を含む場合には、これらは、歌詞フラグメントとして識別されてもよく、割り当ての実行に用いられてもよい。結果として生じる歌詞ラベルの順序は、また、楽曲の解析に役立つものであってもよい。歌詞の解析に基づいて、歌曲のグローバル構造が知られている場合には、オーディオ信号中の様々なパーツを識別することがより容易になるだろう。
【0034】
図4は、本発明の電気デバイス31を示している。電気デバイス31は、歌曲の歌詞中の類似の歌詞フラグメントのグループの各歌詞フラグメントを、歌曲の類似のオーディオフラグメントのグループのオーディオフラグメントと並べ、歌曲の歌詞中の類似の歌詞フラグメントの他のグループの各歌詞フラグメントを、歌曲の類似のオーディオフラグメントの他のグループのオーディオフラグメントと並べるように構成された電気回路33を有する。電気デバイス31は、格納手段35、複製手段37、入力39及び/又は出力41を更に有する。電気デバイス31は、専門家向けのデバイス又は固定型又は持ち運び型の音楽プレイヤ等の消費者向けのデバイスであってもよい。電気回路33は、一般目的又はアプリケーション特化のプロセッサであってもよく、コンピュータプログラムを実行可能であってもよい。
【0035】
格納手段35は、例えば、ハードディスク、固体メモリ、光ディスク読み取り器又は立体画像格納手段を有してもよい。格納手段35は、歌曲のオーディオフラグメントと歌詞フラグメントとの間に少なくとも1つのマッピングを持つデータベースを有してもよい。複製手段37は、例えば、ディスプレイ及び/又はラウドスピーカを有してもよい。並べられた歌曲及び歌詞フラグメントは、複製手段37を介して複製されてもよい。
【0036】
代わりに、出力41は、外部のディスプレイ(図示されていない)上に歌詞フラグメントを表示するために、及び/又は外部のラウドスピーカ(図示されていない)でオーディオフラグメントを再生するために用いられてもよい。入力39及び出力41は、例えば、ネットワークコネクタ、例えば、USBコネクタ若しくはイーサネット(登録商標)コネクタ、シンチコネクタ(cinch connector)若しくはSCARTコネクタのようなアナログオーディオ及び/若しくはビデオコネクタ、又はHDMI若しくはSPDIFコネクタのようなデジタルオーディオ及び/若しくはビデオコネクタを有してもよい。入力39及び出力41は、無線レシーバ及び/又はトランスミッタを有してもよい。入力39及び/又は出力41は、歌曲のオーディオフラグメントと歌詞フラグメントとの間のマッピングを有する信号をそれぞれ受信及び出力するために用いられてもよい。
【0037】
本発明が好ましい実施形態に関して説明された一方で、上記で概説された原理の範囲内での変更が当業者により明らかであることが理解されるだろう。それ故、本発明は、好ましい実施形態に限定されず、このような変更を包含することを意図する。本発明は、それぞれ及びあらゆる新規な特性並びに特性のそれぞれ及びあらゆる組み合わせに属する。特許請求の範囲における参照番号は、保護範囲を限定するものではない。"有する"という語の使用及びその活用は、特許請求の範囲に記載されたもの以外の要素の存在を除外しない。要素における単数表記は、複数の要素の存在を除外しない。
【0038】
本発明は、いくつかの異なるエレメントを有するハードウェアで、及び適切にプログラムされたコンピュータで実行されてもよい。コンピュータプログラムは、フロッピー(登録商標)ディスク等のコンピュータ読み取り可能な媒体に格納された、インターネット等のネットワークを介してダウンロード可能な、又はいかなる他の態様で取引可能な、いかなるソフトウェアを意味するものと理解されるべきである。
【図面の簡単な説明】
【0039】
【図1】本発明の方法のフロー図である。
【図2】本発明の方法の一実施形態のフロー図である。
【図3】本発明の方法の手段により生成されたマッピングの一例である。
【図4】本発明の電気デバイスのブロック図である。

【特許請求の範囲】
【請求項1】
歌曲の歌詞中の類似の歌詞フラグメントのグループの各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントのグループのオーディオフラグメントと並べ、
前記歌曲の歌詞中の類似の歌詞フラグメントの他のグループの各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントの他のグループのオーディオフラグメントと並べる、電気回路を有する、電気デバイス。
【請求項2】
類似の歌詞フラグメントのグループ及び/又は他のグループは、前記歌曲の歌詞における、歌詞フラグメント毎の音節の量、ライン毎の音節の量、及び/又は、歌詞フラグメントのリズム体系を比較することにより決定される、請求項1に記載の電気デバイス。
【請求項3】
類似のオーディオフラグメントのグループ及び/又は他のグループは、調和級数的解析により決定される、請求項1に記載の電気デバイス。
【請求項4】
歌曲を歌詞と並べる方法であって、
前記歌曲の歌詞中の類似の歌詞フラグメントのグループの各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントのグループのオーディオフラグメントと並べるステップと、
前記歌曲の歌詞中の類似の歌詞フラグメントの他のグループの各歌詞フラグメントを、前記歌曲の類似のオーディオフラグメントの他のグループのオーディオフラグメントと並べるステップとを有する、方法。
【請求項5】
類似の歌詞フラグメントのグループ及び/又は他のグループは、前記歌曲の歌詞における、歌詞フラグメント毎の音節の量、ライン毎の音節の量、及び/又は、歌詞フラグメントのリズム体系を比較することにより決定される、請求項4に記載の方法。
【請求項6】
類似のオーディオフラグメントのグループ及び/又は他のグループは、調和級数的解析により決定される、請求項4に記載の方法。
【請求項7】
プログラム可能なデバイスに、請求項4の方法を実行させることが可能なソフトウェアを有する、コンピュータプログラム。
【請求項8】
歌曲のオーディオフラグメントと歌詞フラグメントとの間のマッピングを有し、
前記マッピングは、請求項4の方法により生成される、データベース。
【請求項9】
歌曲のオーディオフラグメントと歌詞フラグメントとの間のマッピングを有し、
前記マッピングは、請求項4の方法により生成される、信号。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公表番号】特表2009−536368(P2009−536368A)
【公表日】平成21年10月8日(2009.10.8)
【国際特許分類】
【出願番号】特願2009−508589(P2009−508589)
【出願日】平成19年4月27日(2007.4.27)
【国際出願番号】PCT/IB2007/051566
【国際公開番号】WO2007/129250
【国際公開日】平成19年11月15日(2007.11.15)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】