説明

オーサリングシステムおよびプログラム

【課題】ガイドボーカルの各音素の発音タイミングと歌詞との対応付けを自動的に生成する。
【解決手段】CPU11は、楽曲データを読み出し(SA1)、歌詞テキストデータに対して形態素解析を施して、各文字の発音を表す平仮名列を取得する(SA2)。そして、CPU11は、平仮名列の各文字に対応付けて歌詞発音タイミングデータを生成する(SA3)。次に、CPU11は、歌詞発音タイミングデータを参照して、処理単位に対応する区間の音声データを抽出する(SA4)。CPU11は、歌詞の文字に対応付けられている歌詞発音タイミングデータに代えて、対応する音声データの区間の音素の発音タイミングを各歌詞(仮名)に対応付ける(SA5)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歌詞の発音の区切りを示すタイミングを検出する技術に関する。
【背景技術】
【0002】
カラオケ装置においては、楽曲の自動伴奏に伴ってモニタ画面に歌詞を表示するとともに、曲の進行に対応して歌詞の色を変えるワイプ処理が行われている。(例えば、特許文献1)
【0003】
また、カラオケ装置には、歌唱者の歌唱の巧拙を採点する採点機能を備えたものがある。一般にこの種のカラオケ装置においては、カラオケ演奏時に、カラオケの楽曲データに含まれるガイドメロディのデータと歌唱者の音声をデジタル化した歌唱音声データとの比較結果に基づいて歌唱の評価を行う。その評価手法のひとつとして、1楽曲を小節単位等の複数部分に区切って比較を行うものがある。(例えば、特許文献2)
【特許文献1】特開平10−124075号公報
【特許文献2】特開2004−109265号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
このような採点機能を備えたカラオケ装置を応用し、歌唱力の指導を行うことも考えられている。その歌唱力を指導する方法として、予め記憶された見本となる歌唱音声と利用者の歌唱音声とを比較して、その比較結果から指導内容を提示する方法がある。
【0005】
しかしながら、見本となる歌唱(以下、ガイドボーカルという)は、ガイドメロディのように音符の通りに歌唱されている理由ではなく、曲に味わいを持たせるため、音符の発音タイミングを少しずらして歌っていたり、音符の音高に対して少し低い音程から歌い上げるなどの技巧を組み合わせたりして歌唱している。この場合に、利用者の歌声についてガイドメロディを基準に評価してしまうと、ガイドボーカルに近い上手な歌声でも低く評価され、不適切な指導内容を提示してしまうことになる。
【0006】
一方、利用者の歌声とガイドボーカルとを比較する場合、ガイドボーカルが歌詞のどの部分を歌っているかを正確に認識していないと、それに対応する箇所の利用者の歌声と比較することはできない。しかしながら、ガイドボーカルのデータは見本となる歌手の歌声を記録した音声データであるから、歌詞との対応関係を示すデータは含まれていない。そこで、ガイドボーカルの各音素について、その発音タイミングを検出してデータとして添付すればよいが、このような編集作業には、編集者が耳で発音を確認しながら、音声データの音素の区切りを見つけなければならず、非常に多くの労力がかかってしまう。
【0007】
本発明は、上述の事情を鑑みてなされたものであり、一般的なカラオケ装置に含まれるカラオケコンテンツを利用して、ガイドボーカルの各音素の発音タイミングと歌詞との対応付けを生成するコンテンツオーサリングシステムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明は、楽曲における歌詞の各文字を示すテキストデータと、前記テキストデータの各々の文字に対して発音タイミングを示すタイミングデータとを有する曲データを記憶する記憶手段と、音声を表す音声データを記憶する音声データ記憶手段と、前記音声データの各部の特徴からその発音を特定するとともに、特定した発音と前記記憶手段内のテキストデータとを前記タイミングデータを参照することにより比較し、比較結果から前記テキストデータが示す各文字に対応している前記音声データの区間を検出する対応区間検出手段と、前記対応区間検出手段が検出した各区間の開始タイミングを、対応する文字の発音タイミングとして特定する発音タイミング特定手段と、前記発音タイミング特定手段が特定した発音タイミングと、これに対応する文字を対にしてコンテンツデータを生成するコンテンツデータ生成手段とを具備することを特徴とするオーサリングシステムを提供する。
【0009】
このオーサリングシステムの好ましい態様において、前記発音タイミングを示すタイミングデータは歌詞の文字の色変えタイミングを示すワイプ開始タイミングデータである。
【0010】
また、本発明は、コンピュータに、楽曲における歌詞の各文字を示すテキストデータと、前記テキストデータの各々の文字に対して発音タイミングを示すタイミングデータとを有する曲データを記憶手段に記憶させる機能と、音声を表す音声データを音声データ記憶手段に記憶させる機能と、前記音声データの各部の特徴からその発音を特定するとともに、特定した発音と前記記憶手段内のテキストデータとを前記タイミングデータを参照することにより比較し、比較結果から前記テキストデータが示す各文字に対応している前記音声データの区間を検出する機能と、検出した各区間の開始タイミングを、対応する文字の発音タイミングとして特定する機能と、特定した発音タイミングと、これに対応する文字を対にしてコンテンツデータを生成する機能とを実現させるプログラムを提供する。
【発明の効果】
【0011】
本発明によれば、ガイドボーカルの各音素の発音タイミングと歌詞との対応付けを自動的に生成することができる。
【発明を実施するための最良の形態】
【0012】
<A:構成>
図1は、本実施形態に係るコンピュータ装置1の構成を示すブロック図である。図1に示すように、コンピュータ装置1は、CPU(Central Processing Unit)11が、ROM(Read Only Memory)12又は記憶部14に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、コンピュータ装置1の各部を制御する。記憶部14は、例えばハードディスクなどの大容量の記憶手段であり、楽曲データ記憶領域14aと、音響モデルテーブル14bと、コンテンツ記憶領域14cとを有している。表示部15は、例えば液晶ディスプレイなどであり、CPU11の制御の下で、コンピュータ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部16は、各種のキーを備えており、押下されたキーに対応した信号をCPU11へ出力する。
【0013】
楽曲データ記憶領域14aには、楽曲を表す楽曲データが記憶されている。この楽曲データはガイドボーカルトラック141a、ワイプデータトラック142aおよび伴奏データトラック143aを有している。
ガイドボーカルトラック141aには、ガイドボーカルを表す音声データ(ガイドボーカルデータ)が記録される。ワイプデータトラック142aには、楽曲の歌詞を表す歌詞テキストデータと、曲の進行に合わせて表示部15や図示せぬカラオケ装置のモニタに表示される画面上での歌詞の表示色を変更(これをワイプと呼ぶ)するタイミングを示す情報と、歌詞の改行を示す改行情報とが記録される。この場合、ワイプのタイミングを示す情報は、歌詞テキストデータに含まれる各キャラクタ(文字)を表すテキストデータ毎にワイプの開始時刻を示す時刻情報(以下、ワイプ開始タイミングデータという)として記憶されている。また、改行情報は、後述する処理において、歌詞を1行ずつ表示するための処理単位を識別する情報として用いられる。
なお、実施形態では、ワイプの開始時刻になると、対応する歌詞テロップの文字の領域が左側から色が変化され始めて、次の文字のワイプの開始時刻が到来すると、ワイプが終了するようにしている。
【0014】
図2は、ワイプデータトラック142aのデータ構造を説明する図である。図においては、まず「ゆきどけ」の各文字にワイプの開始時刻が設定され、さらに、「/」で表される改行情報には、この行の改行すべき表示終了時刻が設定されている。なお、改行情報として、便宜上「/」として表しているが、これは歌詞テロップとして表示されるのではなく、表示単位の区切り(改行)を示す符号として用いられる。
図2に示す例では、「ゆ」の文字にはワイプ開始タイミングデータt1が指定されており、「き」の文字にはワイプ開始タイミングデータt2が指定され、以下同様に、「ど」の文字にはt3、「け」の文字にはt4が指定されている。また、改行を示す符号「/」には、改行時刻として時刻t5が指定されている。また、次の行の「まぢかの」という歌詞テロップについても上記と同様になっており、ワイプ開始タイミングデータt6〜t10が指定されている。
【0015】
伴奏データトラック143aには、例えばMIDI(Musical Instruments Digital Interface:登録商標)形式の伴奏データが記録されており、伴奏データには各曲の伴奏を行う各種楽器の旋律の音程(ピッチ)や強さ(ベロシティ)や効果の付与等を示す情報が含まれている。これらのデータは、楽曲の進行に従って読み出されるようになっている。また、この伴奏データの中には、楽曲のメロディの音階を示すメロディデータが含まれている。
【0016】
音響モデルテーブル14bには、音声から抽出した特徴量と、発音を示す文字(この実施形態の場合は平仮名)の候補とが対応付けて記憶されたデータベース(以下、音響モデルという)が記憶されている。ここで、図3に音響モデルのデータ構造の一例を示す。音響モデルは、図3に示すように、音声波形の特徴量を表す特徴量データ(#1,#2・・・)と、これに対応する仮名の候補とがテーブル形式で記憶されている。
図において、一つの特徴量データに対して、複数の仮名の候補が対応付けられ、これらの候補は確率が高い順に「候補1」、「候補2」、「候補3」・・・という順番で並べられている。例えば、特徴量「♯1」に対しては「あ」である確率が80%、「い」である確率が20%であることを示している。また、特徴量「♯2」に対しては「わ」である確率が40%、「や」である確率が30%、「ゆ」である確率が20%であることを示している。
【0017】
次に、コンテンツ記憶領域14cは、後述するコンテンツ生成処理によって生成されるコンテンツが記憶される領域である。
【0018】
<B:動作>
次に、本実施形態の動作について、図4に示すフローチャートを参照しつつ説明する。図4は、コンピュータ装置1のCPU11が行う処理の流れを示すフローチャートである。
CPU11は、まず、楽曲データを読み出す(ステップSA1)。CPU11は、読み出した楽曲データ内の歌詞テキストデータの改行情報に基づいて処理を行う単位を決定する。本実施形態においては、歌詞テキストデータの1行分を処理単位として順次処理を実行する。次に、最初の処理単位、すなわち、第1行目の歌詞テキストデータに対して形態素解析を施して、各文字の発音を表す平仮名列を取得する(ステップSA2)。
形態素解析は、処理単位に含まれる歌詞テキストデータを形態素に分解し、歌詞テキストデータの各文字の発音を表す平仮名列を得る処理である。
ここで、形態素解析とは、文章から単語を認識する処理である。この場合、日本語文章は英語文書と異なり、“分かち書き”されていないため単語間にスペースがなく、単語を切り出して認識することが困難である。そこで、形態素解析においては、予め記憶した形態素辞書(図示略)に基づいて形態素解析を行って単語単位に分割して品詞を判定する。また、本実施形態においては、実際に発音される音に対応する仮名に変換する。例えば、「こんにちは」という単語について説明すると、この発音を表す平仮名列は「こんにちわ」となる。すなわち、形態素辞書を用いて「こんにちは」という単語を抽出し、さらにその実際の発音は「こんにちわ」であると認識され、その認識結果に対応する仮名が求められる。
【0019】
また、歌詞テロップに漢字が含まれている場合にも同様にして文字と発音との関係が求められる。例えば、「いい日旅立ち」というテキストデータについて形態素解析を行って、「いい」「ひ」「たびだち」というかな文字のテキストデータへの変換を行う。なお、漢字に対してルビが振られている場合は、そのルビを参照して形態素解析を行う。
【0020】
上述のようにして歌詞1行分に対応する平仮名列が得られる。また、ワイプデータトラック142aのうち、処理単位に対応する部分から各文字についてのワイプ開始タイミングデータを読み出し、平仮名列の各文字に対応付けた「歌詞発音タイミングデータ」を生成する(ステップSA3)。
そして、CPU11は、処理単位内の各文字のワイプ開始タイミングデータを参照して、ガイドボーカルトラック141aから処理単位に対応する区間(1行分)の音声データを抽出する(ステップSA4)。この場合、大凡対応する区間を抽出できればよいので、処理単位に対応する開始時刻よりも少し早いタイミングから、処理単位に対応する終了時刻よりも少し遅いタイミングまでの区間を抽出する。
【0021】
そして、CPU11は、上記のようにして抽出した音声データに対して、図3に示す音響モデルテーブル14bを参照して、その発音、すなわち、仮名を特定する。この特定に際して、歌詞発音タイミングデータの各仮名文字に対応付けられているワイプ開始タイミングデータを参照し、その仮名文字が現れる音声データのおおよその位置を推定してもよく、また、その位置には、歌詞発音タイミングデータの対応する各仮名文字が現れるはずであるから、音響モデルテーブル14bの候補の順位についても、歌詞発音タイミングデータ内の対応する仮名文字を優先するように処理してもよい。
【0022】
今、歌詞発音タイミングデータが図5(a)に示すように、「ゆ」「き」「ど」「け」という仮名文字であり、かつ、各仮名文字に対応つけられているワイプ開始タイミングデータがt1,t2,t3,t4であったとする。ここで、音響モデルテーブル14bを参照して上述のようにして音声データの発音(仮名)を特定した結果、図5(b)に示すように時刻t1’から始まる音声データの波形が「ゆ」と特定されたとする。ここで、音声データの「ゆ」の部分と歌詞発音タイミングデータの「ゆ」とがマッチングされ、歌詞発音タイミングデータの「ゆ」に対応付けられていたワイプ開始タイミングデータに代えて、音声データから検出された時刻t1’が対応付けられる。
以下同様にして、「き」「ど」「け」について処理が行われ、これらの仮名文字に対応付けられていたワイプ開始タイミングデータに代えて、マッチングにより音声データから検出された時刻t2’,t3’,t4’が対応付けられる。これにより、ガイドボーカルの音声データの各音素の発音タイミングと歌詞の文字との対応付けが正確に行われる(ステップSA5)。
【0023】
次に、CPU11は、全ての行(処理単位)について処理が終了したか否かを判定し(ステップSA6)、未処理の行が残っていると判定すれば(ステップSA6;NO)、ステップSA2からの処理を繰り返し、全ての処理単位について処理が終了したと判定すれば(ステップSA6;YES)、全ての処理結果をコンテンツとして、コンテンツデータをコンテンツ記憶領域14cに記憶させる(ステップSA7)。なお、記憶処理を省略して他の機器やネットワーク上に出力してもよい。
【0024】
本実施形態においては、一行分の歌詞テキストデータを1つの処理単位として処理を行っているので、以下の効果が得られる。コンピュータ装置1が歌詞テロップのワイプの開始時刻と、ガイドボーカルの音素と発音タイミングとの対応関係を求める場合に、その途中で何らかの事情により、それらの対応関係がずれる場合がある。このとき、楽曲全体を一連の処理単位として処理する方法では、楽曲が終了するまで、このような“ずれ”が影響してしまい、正確な対応関係を求めることができなくなってしまう。よって、楽曲データが適当な処理単位に分割されていれば、“ずれ”が生じた場合にも処理単位の中で調整することができ、他の処理単位について影響を及ぼさない。なお、処理単位は1行単位と限ることはなく、2行単位、3行単位、あるいは他の任意の長さを単位としてもよい。
【0025】
また、音響モデルは、一般に市販されている汎用のものを用いることができるが、歌唱音声をもとに作成されたものを用いると好適である。ガイドボーカルデータは歌唱音声特有の特徴を持つためである。また、ガイドボーカルが収録される場所は、主にスタジオであるから、リバーブのかかった歌唱音声となる場合がしばしばある。リバーブは、スタジオ以外にも、例えば映画館、コンサートホールおよび教会などの空間の違いによってその成分の大きさは異なり、比較的狭い空間ではリバーブ成分は比較的少なくなるし、コンサートホールのように大きな空間では、リバーブ成分は比較的大きくなる。よって、ガイドボーカルの収録される環境に応じて作成された音響モデルが用いられれば、コンテンツの精度を向上させることに寄与することができる。
【0026】
<C:変形例>
なお、本発明は上述した実施形態にのみ限定されるものではなく、種々の態様にて実施することが可能である。具体的には、例えば以下のような変形が挙げられる。なお、これらの変形は、各々を適宜に組み合わせることも可能である。
【0027】
(1)上述した実施形態においては、ワイプデータトラック142aにおいて、歌詞の各文字に対してワイプの開始時刻が設定されていたが、さらにワイプの終了時刻が設定されていてもよい。このようにすれば、CPU11は、各文字がワイプされる時刻をさらに精度良く認識することができるため、ガイドボーカルデータから処理単位に対応する音声データを抽出する際の精度も向上する。よって、CPU11は、処理単位の音声データをガイドボーカルトラックから抽出する際に、より正確な範囲を抽出することができ、処理に関わる余分な音声データを削減することができるから、コンテンツデータの生成処理に要する時間を低減させることができる。
【0028】
(2)上述した実施形態においては、ガイドボーカルトラック141aに記録されるガイドボーカルデータはWAVEやMP3形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
なお、上述した実施形態においては、ガイドボーカルデータをガイドボーカルトラック141aに記録させて、コンピュータ装置1のCPU11がガイドボーカルトラック141aからガイドボーカルデータを読み出すようにしたが、これに代えて、通信ネットワークを介してガイドボーカルデータを受信するようにしてもよい。
【0029】
(3)上述した実施形態においては、或る1つの音響モデルについてのみ説明したが、複数の音響モデルを併用しても良い。例えば、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」などの歌唱技法を用いた歌唱をするか否かによって、同じ発音を表す音素でも歌唱方法により、その特徴量が大きく異なる場合があるが、複数の音響モデルを使用するとこれらに対応させることができる。
【0030】
(4)上述した実施形態においては、歌詞の発音タイミングを示すデータとしてワイプ開始タイミングデータを用いたが、その他のデータを使用してもよい。例えば、メロディの各音を示すガイドメロディデータを用い、対応する歌詞の発音タイミングを求め、この結果得られるデータを、発音タイミングを示すデータとして用いてもよい。また、歌唱の優劣を判定するために、メロディデータの音高や強さを示す歌唱採点用のデータがある場合には、このデータを用いて発音タイミングを示すデータを生成してもよい。要するに、歌詞の発音タイミングを示すデータが生成されるなら、どのようなデータを用いてもよい。
【0031】
(5)上述した実施形態におけるコンピュータ装置1のCPU11によって実行されるプログラムは、磁気テープ、磁気ディスク、フロッピー(登録商標)ディスク、光記録媒体、光磁気記録媒体、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)、RAMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でコンピュータ装置1にダウンロードさせることも可能である。
【図面の簡単な説明】
【0032】
【図1】本発明の実施形態に係るコンピュータ装置のハードウェア構成を示したブロック図である。
【図2】ワイプデータトラックのデータ構造を説明する図である。
【図3】音響モデルのデータ構造を説明する図である。
【図4】CPUが行う処理の流れを示すフローチャートである。
【図5】音素の発音タイミングと歌詞の文字との関係を説明する図である。
【符号の説明】
【0033】
1…コンピュータ装置、11…CPU、12…ROM、13…RAM、14…記憶部、15…表示部、16…操作部。

【特許請求の範囲】
【請求項1】
楽曲における歌詞の各文字を示すテキストデータと、前記テキストデータの各々の文字に対して発音タイミングを示すタイミングデータとを有する曲データを記憶する記憶手段と、
音声を表す音声データを記憶する音声データ記憶手段と、
前記音声データの各部の特徴からその発音を特定するとともに、特定した発音と前記記憶手段内のテキストデータとを前記タイミングデータを参照することにより比較し、比較結果から前記テキストデータが示す各文字に対応している前記音声データの区間を検出する対応区間検出手段と、
前記対応区間検出手段が検出した各区間の開始タイミングを、対応する文字の発音タイミングとして特定する発音タイミング特定手段と、
前記発音タイミング特定手段が特定した発音タイミングと、これに対応する文字を対にしてコンテンツデータを生成するコンテンツデータ生成手段と
を具備することを特徴とするオーサリングシステム。
【請求項2】
前記発音タイミングを示すタイミングデータは歌詞の文字の色変えタイミングを示すワイプ開始タイミングデータであることを特徴とする請求項1記載のオーサリングシステム。
【請求項3】
コンピュータに、
楽曲における歌詞の各文字を示すテキストデータと、前記テキストデータの各々の文字に対して発音タイミングを示すタイミングデータとを有する曲データを記憶手段に記憶させる機能と、
音声を表す音声データを音声データ記憶手段に記憶させる機能と、
前記音声データの各部の特徴からその発音を特定するとともに、特定した発音と前記記憶手段内のテキストデータとを前記タイミングデータを参照することにより比較し、比較結果から前記テキストデータが示す各文字に対応している前記音声データの区間を検出する機能と、
検出した各区間の開始タイミングを、対応する文字の発音タイミングとして特定する機能と、
特定した発音タイミングと、これに対応する文字を対にしてコンテンツデータを生成する機能と
を実現させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate