楽曲再生装置およびデータファイル制作ツール

【課題】特定の歌唱音または伴奏音を消去しても、利用者に違和感を与えない演奏を実現することができる楽曲再生装置およびデータファイル制作ツールを提供すること。
【解決手段】楽曲オーディオデータと楽曲シーケンスデータとが再生時に同期するように所定のデータフォーマットで格納されたデータファイルを再生するための楽曲再生装置であって、前記楽曲オーディオデータから楽曲の特定の歌唱音または伴奏音を消去して該楽曲オーディオデータを再生する第１再生手段（オーディオデコーダ２０３、歌唱音消去モジュール２０４、ピッチチェンジ部２０５）と、前記楽曲オーディオデータと同期させて前記楽曲シーケンスデータを再生する第２再生手段（シーケンサ２０６、音源１１１）とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、楽曲再生装置および楽曲データファイル制作ツールに関し、詳しくは、ＭＰ３等の楽曲オーディオデータ及びＭＩＤＩ(Musical Instrument Digital Interface)データ等の楽曲シーケンスデータがＳＭＡＦ(Synthetic music Mobile Application Format)等のマルチメディアデータフォーマットで格納されたデータファイルを再生するための技術に関する。
【背景技術】
【０００２】
従来、ボイスキャンセル技術を利用して、オーディオデータから歌唱音のみを消去して再生することによりカラオケ機能を実現した装置が知られている（特許文献１参照）。この装置によれば、カラオケ用の楽曲データを準備する必要がなく、一般に流通しているＣＤ(Compact Disc)などのオリジナルのオーディオデータを用いてカラオケを手軽に楽しむことができる。
【特許文献１】特開平８−０１６１８０号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、上述のボイスキャンセル技術を利用した従来技術によれば、オーディオデータから歌唱音もしくは特定の伴奏音を消去する際に、他の伴奏音の楽音も消去されるため、再生される楽曲が不自然になるという問題がある。
【０００４】
即ち、上述のボイスキャンセル技術によれば、歌唱音を消去する場合、歌唱音と同じ定位、或いは歌唱音と同じ特定周波数帯域にある音を減衰させるので、例えばバスドラムやスネアドラムのように、歌唱音と同様にセンターに定位するリズムセクション等の伴奏音も誤って消去される場合がある。このように歌唱音と共に一部の伴奏音が消去されると、リズム感が欠落するなど、カラオケ曲の演奏が不自然になり、利用者に違和感を与える。特定周波数帯域を減衰させて歌唱音を消去する場合にも、この周波数帯域にある伴奏音が歌唱音と共に消去されるので、同様に利用者に違和感を与える。
【０００５】
本発明は、上記事情に鑑みてなされたものであり、特定の歌唱音または伴奏音の楽音を消去しても、利用者に違和感を与えない演奏を実現することができる楽曲再生装置と、該楽曲再生装置で再生される楽曲データファイルの制作ツールを提供することを目的とする。
【課題を解決するための手段】
【０００６】
本発明に係る第１の楽曲再生装置は、楽曲オーディオデータと楽曲シーケンスデータとが再生時に同期するように所定のデータフォーマットで格納されたデータファイルを再生するための楽曲再生装置であって、前記楽曲オーディオデータから楽曲の特定の歌唱音または伴奏音を消去して該楽曲オーディオデータを再生する第１再生手段と、前記楽曲オーディオデータと同期させて前記楽曲シーケンスデータを再生する第２再生手段とを備える。
【０００７】
この構成によれば、特定の歌唱音または伴奏音の楽音が消去されたオーディオデータと、ＭＩＤＩシーケンスデータとが同期して再生される。従って、例えば歌唱音と共に消去される伴奏音をＭＩＤＩシーケンスデータとして準備しておけば、歌唱音と共に消去された伴奏音がＭＩＤＩシーケンスデータによる楽音で補完され、利用者に違和感のないように歌唱なしの楽曲を再生することが可能になる。
【０００８】
本発明に係る第２の楽曲再生装置は、楽曲オーディオデータと楽曲シーケンスデータとが所定のデータフォーマットで格納されたデータファイルを再生するための楽曲再生装置であって、前記楽曲オーディオデータから楽曲のビートを抽出するビート抽出手段と、前記楽曲オーディオデータから楽曲の特定の歌唱音または伴奏音を消去して該楽曲オーディオデータを再生する第１再生手段と、前記ビート抽出手段によって抽出されたビートと同期させて前記楽曲シーケンスデータを再生する第２再生手段とを備える。
【０００９】
この構成によれば、特定の歌唱音または伴奏音の楽音が消去されたオーディオデータと、ＭＩＤＩシーケンスデータとが同期して再生される。このとき、オーディオデータの楽曲のビートと同期するように補正されてＭＩＤＩシーケンスデータが再生される。従って、上記第１の楽曲再生装置による効果に加え、オーディオデータとＭＩＤＩシーケンスデータとを容易に同期させることが可能になり、従ってデータファイルの構成を簡略化することが可能になる。
【００１０】
本発明に係る第３の楽曲再生装置は、楽曲オーディオデータが所定のデータフォーマットで格納されたデータファイルを再生するための楽曲再生装置であって、楽曲シーケンスデータを予め記憶する記憶手段と、前記楽曲オーディオデータから楽曲のビートを抽出するビート抽出手段と、前記楽曲オーディオデータから楽曲の特定の歌唱音または伴奏音を消去して該楽曲オーディオデータを再生する第１再生手段と、前記記憶手段から前記楽曲シーケンスデータを読み出し、該楽曲シーケンスデータを、前記ビート抽出手段によって抽出されたビートと同期させて再生する第２再生手段とを備える。
【００１１】
この構成によれば、特定の歌唱音または伴奏音の楽音が消去されたオーディオデータと、ＭＩＤＩシーケンスデータとが同期して再生される。このとき、上記第２の楽曲再生装置と同様に、オーディオデータの楽曲のビートと同期するように補正されてＭＩＤＩシーケンスデータが再生されるが、本第３の楽曲再生装置によれば、ＭＩＤＩシーケンスデータは記憶手段に格納されたものであるから、ＭＩＤＩシーケンスデータをオーディオデータに付加したデータファイルを制作する必要はないため、データファイルを簡略化することが可能になる。また、この記憶手段に格納するＭＩＤＩシーケンスデータを利用者が準備することにより、利用者の趣向に合った楽音で伴奏音を補完することが可能になる。
【００１２】
前記楽曲再生装置において、例えば、前記楽曲シーケンスデータは、前記楽曲オーディオデータから前記特定の歌唱音または伴奏音と共に消去される他の伴奏音を補完するためのデータであることを特徴とする。
前記楽曲再生装置において、例えば、前記楽曲オーディオデータまたは前記シーケンスデータの再生と同期させてグラフィックデータを再生するための再生手段を更に備え、前記データファイルは、前記グラフィックデータを更に格納したことを特徴とする。
前記楽曲再生装置において、例えば、利用者の音声を入力するための音声入力手段と、前記音声入力手段により入力された音声を再生するための音声再生手段とを更に備えたことを特徴とする。
本発明に係るデータファイル制作ツールは、前記楽曲再生装置における前記データファイルを制作するためのものである。
【発明の効果】
【００１３】
本発明によれば、楽曲オーディオデータを楽曲シーケンスデータで補完するので、楽曲オーディオデータから特定の歌唱音または伴奏音を消去する際に他の伴奏音が誤って消去されても、これに代わる楽音を挿入することができ、従って利用者にとって違和感のない演奏を実現することができる。
【発明を実施するための最良の形態】
【００１４】
以下、図面を参照しながら、本発明の実施形態を説明する。
[第１実施形態]
図１は、本発明の第１実施形態に係る楽曲再生装置を搭載する携帯電話機の構成を示す図である。本楽曲再生装置は、概略的には、ＭＰ３等のオーディオデータ（楽曲オーディオデータ）とＭＩＤＩシーケンスデータ（楽曲シーケンスデータ）の再生機能を備えると共に、オーディオデータから歌唱音を消去するボイスキャンセル機能を備えている。また、上記ＭＩＤＩシーケンスデータは、歌唱音を消去する際に歌唱音と共に消去される伴奏音を補完するために使用される。
【００１５】
図１において、１０１は、各種の情報を表示するための表示部であり、１０２は、利用者が情報を入力するための各種のキーが配列された操作部である。１０３は、電話機または楽曲再生装置として必要とされる各種の処理を実行するためのプログラムが格納されたＲＯＭ(Read Only Memory)であり、１０４は、上記処理の過程で発生するデータを一時的に格納するＲＡＭ(Random Access Memory)である。
【００１６】
１０５は、アンテナ１０５Ａを介した無線通信のための変調／復調処理を実行する無線通信部である。１０６は、通話用マイク１０６Ａを介して受信された音声信号を符号化して無線通信部１０５へ出力すると共に、無線通信部１０５で復調されたデジタル音声データを復号化してスピーカ１０６Ｂに出力する音声処理部である。１０６Ｃは、利用者が本携帯電話機を楽曲再生装置として機能させてカラオケを楽しむ際に使用する歌唱用マイク（音声入力手段）である。歌唱用マイク１０６Ｃとして、通話用マイク１０６Ａを代用することも可能である。上記音声処理部１０６は、上記音声デジタルデータの符号化／複号化に加え、歌唱用マイク１０６Ｃを介して入力される音声信号の増幅機能も備えている。
【００１７】
１０８は、マイクロハードディスク等からなるデータディスクであり、本携帯電話機に搭載された楽曲再生装置により再生される楽曲データファイルが格納される。この楽曲データファイルは、後述するように、マルチメディアデータフォーマットに準拠しており、一般に流通しているＣＤに収録されているデータと同様の歌唱付きのオリジナルのオーディオデータ等を含んでいる。
【００１８】
１０９は、ＲＯＭ１０３に格納されたプログラムに基づき各種の処理を実行して携帯電話機（楽曲再生装置）の各部を制御するＣＰＵ(Central Processing Unit)である。このＣＰＵ１０９は、携帯電話機が楽曲再生装置として機能する場合にはプレイヤー機能を実現し、とりわけＭＩＤＩシーケンスデータの再生時には後述の音源を制御するシーケンサとして機能する。１１０は、オーディオデータの再生に必要な処理を実行するＤＳＰ(Digital Signal Processor)であり、上述のボイスキャンセル機能もＤＳＰ１１０で実現される。
【００１９】
１１１は、ＭＩＤＩイベントデータをリアルタイムに解釈して楽音データを生成する音源である。この音源１１１は、例えば、ＦＭ(Frequency Modulation)音源、ＷＴ(Wave Table)音源であり、ソフトウェア又はハードウェアとして実装される。１１２は、デジタル量の楽音データをアナログ量の楽音信号に変換するＤ／Ａ変換器であり、１１３は、楽音信号を入力して楽音を放音するスピーカである。上記各構成要素は、バス１１４を介して相互に接続されている。
【００２０】
なお、本実施形態に係る携帯電話機は、電話機としての基本的な機能に加え、電子メールによりデータファイルを送受信する通信機能や、インターネット経由でデータファイルをアップロード／ダウンロードする通信機能を備えている。上述のデータディスク１０８に格納された楽曲データファイルとして、上記通信機能を利用してインターネット上の楽曲配信サイトからダウンロードされたものを用いることもできる。
【００２１】
図２は、本実施形態に係る携帯電話機に搭載された楽曲再生装置の機能ブロック図であり、上述の図１に示す構成要素と共通する要素には同一符号を付している。
図２において、２００は、データディスク１０８に格納された楽曲のデータファイルである。このデータファイル２００の中には、オーディオデータとＭＩＤＩシーケンスデータとが、時間軸で同期できるように、即ち再生時に各楽音が同期するように、ＳＭＡＦ(Synthetic music Mobile Application Format)等の所定のマルチメディアデータフォーマットで制作（作成）されて格納されている。
【００２２】
本実施形態では、データファイル２００に格納されるオーディオデータは、例えば一般に市販されているＣＤに収録されているデータと同様の歌唱つきのオリジナルのオーディオデータであり、本楽曲再生装置は、このオリジナルのオーディオデータから歌唱音（もしくは特定の伴奏音）を消去してカラオケ用のオーディオデータを生成して再生する。また、データファイル２００に格納されるＭＩＤＩシーケンスデータは、オリジナルのオーディオデータから歌唱音を消去する際に歌唱音と共に消去される伴奏音を補完するためのデータであり、データファイル２００を制作する段階で、上記歌唱音と共に消去される伴奏音を予め推定して制作されたものである。このようなデータファイル２００の制作ツールとしては、既存の楽曲用オーサリングツールを用いることができる。
【００２３】
図３に、上述の楽曲用オーサリングツール上の表示画面の一例を示す。この例は、オーディオデータによる楽音波形（上段）と、これを補完するためのＭＩＤＩデータ（下段）との時間上の対応関係を示す。同図において、横軸は時間軸であり、演奏上の時刻に対応する。この例では、上段のオーディオデータは、歌唱音と共に消去されると推定される例えばバスドラムによる伴奏音であり、下段のＭＩＤＩデータは、バスドラムを補完する楽音データである。
【００２４】
データファイルの制作者は、同図に示すように、オーディオデータの音量振幅のピーク（打音の時刻位置）に対応づけて、バスドラムの発音を制御するＭＩＤＩデータを画面上に配置する。これにより、仮にオーディオデータからバスドラムの伴奏音が消去されたとしても、ＭＩＤＩデータでバスドラムの伴奏音を補完することが可能になる。このような楽曲用オーサリングツールによれば、ＭＩＤＩデータを含むデータファイル２００の制作作業をＧＵＩ上で容易に行うことができる。
【００２５】
図４に、上述のデータファイル２００のマルチメディアデータフォーマットの一例を示す。同図に示すように、このデータフォーマットによれば、各データはチャンク(chunk)単位で管理され、このデータフォーマットのデータファイルは、コンテンツ情報チャンク２００Ａ、ＭＩＤＩトラックチャンク２００Ｂ、オーディオトラックチャンク２００Ｃ、グラフィックトラックチャンク２００Ｄを含む。このうち、コンテンツ情報チャンク２００Ａには、コンテンツの種別やコンテンツ複製許可等のファイル管理用のデータなどの楽曲データの固有情報が格納される。
【００２６】
また、ＭＩＤＩトラックチャンク２００Ｂには、セットアップデータチャンク及びシーケンスデータチャンクが含まれる。このうち、セットアップデータチャンクには、ＭＩＤＩトラックチャンク全体における設定パラメータ、音色パラメータ、エフェクトデータ等が格納され、シーケンスデータチャンクには、音源１１１によって再生されるＭＩＤＩシーケンスデータ等が格納される。ここで、ＭＩＤＩシーケンスデータとは、時間情報を持つＭＩＤＩイベントを規定するデータの集合体である。ＭＩＤＩイベントとしては、例えば、発音イベント（ノートオン／オフ）、音色イベント（プログラムチェンジ）、音量変更やパンポット変更のためのイベント（コントロールチェンジ）、ピッチ変更イベント（ピッチチェンジ）等がある。
【００２７】
オーディオトラックチャンク２００Ｃには、セットアップデータチャンクと複数のオーディオデータチャンク（＃１〜＃ｎ）が含まれる。このうち、セットアップデータチャンクには、オーディオトラック全体における設定パラメータが格納され、オーディオデータチャンクには、サンプリングされたオーディオデータと、その発音を制御するためのシーケンスデータが格納される。オーディオトラックチャンク２００Ｃ内のオーディオデータは、ＭＰ３形式やＡＡＣ形式等の特定の圧縮オーディオフォーマットで圧縮されている。オーディオデータのヘッダーには、オーディオデータの種類、サンプリング周波数、ビット等の情報が格納される。
【００２８】
また、オーディオトラックチャンク２００Ｃ内のシーケンスデータは、時間に同期して発音／消音するためにオーディオデータと結び付けられたイベントと、タイミングを指定するためのデュレーション(duration)から構成される。このシーケンスデータには、音量変更やパンポット変更のためのイベント等も含まれる。
【００２９】
オーディオトラックチャンク２００Ｃ内では、各オーディオデータチャンクに対してＩＤを割り当てることで各オーディオデータチャンクが管理され、このＩＤによってシーケンスデータの発音イベントと関連づけられる。なお、オーディオデータに同期して後述のグラフィックトラックチャンクに格納されたグラフィック（画像）やテキストを表示させることも可能である。
【００３０】
グラフィックトラックチャンク２００Ｄには、セットアップデータチャンク、シーケンスデータチャンク、フォントデータチャンク、イメージデータチャンクが含まれる。このうち、セットアップデータチャンクには、グラフィックトラックチャンク全体における設定パラメータが格納される。シーケンスデータチャンクには、表示部１０１に画像を表示するための描画シーケンスデータが格納される。この描画シーケンスデータは、座標を指定するための数値表現(coordinate)と表示タイミングや表示時間長を指定するための数値表現(duration)で表され、テキストや画像を時間に同期して表示／消去するためのシーケンスが記述される。
【００３１】
グラフィックトラックチャンク２００Ｄは複数の仮想プレーンを持つ表示デバイスを想定しており、このグラフィックトラックチャンク２００Ｄには、各仮想プレーンに対応したシーケンスデータチャンクを複数格納することができる。この場合、表示部１０１には、複数の仮想プレーンを合成した結果が表示される。
フォントデータチャンクにはフォントデータが格納され、イメージデータチャンクにはイメージデータが格納される。これらグラフィックデータ（イメージデータ、フォントデータ）は、上記オーディオデータ及びＭＩＤＩシーケンスデータの再生と同期して表示される。
【００３２】
ここで、説明を図２に戻す。
２０２は、上述のＣＰＵ１０９により実現されるプレイヤーであり、データディスク１０８からデータファイル２００を読み込んで管理すると共にその再生制御を行うものである。このプレイヤー２０２により、データファイル２００に含まれるオーディオデータとＭＩＤＩシーケンスデータとが、それぞれ、後述のオーディオデコーダまたはシーケンサに適応的に振り分けられて再生される。
【００３３】
２０３は上述のＤＳＰ１１０により実現されるオーディオデコーダであり、ＭＰ３やＡＡＣ等の特定の圧縮オーディオフォーマットで圧縮されたオーディオデータをリニアなオーディオフォーマットのデータにリアルタイムにデコードするものである。２０４は同じくＤＳＰ１１０により実現される歌唱音消去モジュールであり、オーディオデータから歌唱音を消去するためのボイスキャンセル処理を実行するものである。これらオーディオデコーダ２０３及び歌唱音消去モジュール２０４により、オリジナルのオーディオデータから歌唱音を消去して該オーディオデータを再生する第１再生手段が構成される。
【００３４】
図５に、歌唱音消去モジュール２０４の構成例を示す。
同図に示す例では、右チャンネルの入力データ信号Ｒｉｎを反転回路２０４Ａにより位相反転させ、この反転結果を加算器２０４Ｈにより左チャンネルの入力データ信号Ｌｉｎと加算することにより、左チャンネルの入力データ信号Ｌｉｎから右チャンネルの入力データ信号Ｒｉｎを減算し、センターに定位する歌唱音を含む信号成分を消去する。そして、一次のＩＩＲからなるローパスフィルタ２０４Ｄとハイパスフィルタ２０４Ｅとにより得られるバンドパス特性により、音声帯域の非センター成分を抽出する。
【００３５】
また、ＩＩＲからなるローパスフィルタ２０４Ｂとハイパスフィルタ２０４Ｃとにより、左チャンネルの入力データ信号Ｌｉｎの非音声帯域成分を抽出する。このうち、ハイパスフィルタ２０４Ｃにより抽出された非音声帯域成分は、加算器２０４Ｊにより上述の音声帯域の非センター成分と加算される。この加算結果は、加算器２０４Ｉにより、上述のローパスフィルタ２０４Ｂにより抽出された左チャンネルの非音声帯域成分と加算され、この加算結果が左チャンネルの出力データ信号Ｌｏｕｔとされる。
【００３６】
同様に、ＩＩＲからなるローパスフィルタ２０４Ｆとハイパスフィルタ２０４Ｇとにより、右チャンネルの入力データ信号Ｒｉｎの非音声帯域成分を抽出して、上述の音声帯域の非センター成分を加算器２０４Ｋ，２０４Ｌにより加算することにより、右チャンネルの出力データ信号Ｒｏｕｔを得る。
以上により、歌唱音が消去された左チャンネル及び右チャンネルの各オーディオデータが得られる。なお、この例では、センターに定位する歌唱音を消去する場合を例として説明したが、反転回路２０４Ａの反転パラメータを調整してパンニング量を制御すれば、任意の位置に定位する伴奏音を選択的に消去することも可能である。
【００３７】
ここで、説明を再び図２に戻す。
２０５は上述のＤＳＰ１１０により実現されるピッチチェンジ部であり、利用者の発声帯域に合うように楽曲のピッチ（音高）を変更するためのものである。
２０６は上述のＣＰＵ１０９により実現されるシーケンサであり、プレイヤー２０２により振り分けられたＭＩＤＩシーケンスデータに基づき音源１１１による発音処理を制御するためのものである。ＣＰＵ１０９がＲＯＭ１０３に記憶されたシーケンサプログラムを実行することにより、シーケンサ２０６の機能が実現される。シーケンサ２０６は、プレイヤー２０２から振り分けられたＭＩＤＩシーケンスデータに基づき適切なタイミングでＭＩＤＩイベントデータを音源１１１に出力する。
【００３８】
音源１１１は、楽音合成処理用ＬＳＩ（大規模集積回路）により実現され、音源回路１１１Ａとミキサー１１１Ｂとを含む。このうち、音源回路１１１Ａは、シーケンサ２０６から順次供給されるＭＩＤＩイベントデータに含まれるノートオン、ノートオフ、ノートナンバ、ベロシティ、音色等のＭＩＤＩの各パラメータに基づき楽音データを生成するものである。ミキサー１１１Ｂは、上述のピッチチェンジ部２０５から出力されたオーディオデータに、音源回路１１１Ａから出力された楽音データをミキシング（合成）するものである。
【００３９】
上述のシーケンサ２０６と音源回路１１１Ａとにより、オーディオデータと同期させてＭＩＤＩシーケンスデータを再生する第２再生手段が構成される。
ミキサー１１１Ｂから出力されたデジタルデータは、Ｄ／Ａ変換器１１２でアナログ信号に変換され、Ｄ／Ａ変換器２０８から出力されたアナログ信号は、図示しない増幅器により増幅されてスピーカ１１３に供給される。
【００４０】
なお、特に図示しないが、本楽曲再生装置は画像再生手段を更に備える。この画像表示手段は、データファイル２００のＭＩＤＩトラックチャンク２００Ｂ及びオーディオトラックチャンク２００Ｃにそれぞれ格納されたＭＩＤＩシーケンスデータ及びオーディオデータの再生と同期させて、グラフィックトラックチャンク２００Ｄに格納されたグラフィックデータ（フォントデータ、イメージデータ）を再生して表示部１０１に表示するものである。
【００４１】
次に、図６に示すフローに沿って、本実施形態に係る楽曲再生装置の動作を説明する。
ここでは、本楽曲再生装置をカラオケ装置として機能させる場合を説明する。
利用者が操作部１０２を使用して歌唱曲選択指示を行うと、プレイヤー２０２は、データディスク１０８から該当するデータファイル２００を読み出す（ステップＳ６０１）。
【００４２】
続いて、利用者が操作部１０２を操作して歌唱曲再生指示を行うと、プレイヤー２０２は、上述のステップＳ６０１で読み出したデータファイル２００の再生処理を開始し（ステップＳ６０２）、そして、データファイル２００の各チャンク内に格納されたシーケンスデータに従って各時刻に行うべき処理を判断し、処理すべきデータの種類に応じて、当該データをオーディオデコーダ２０３またはシーケンサ２０６に振り分ける（ステップＳ６０３）。
【００４３】
ここで、プレイヤー２０２は、データファイル２００のオーディオトラックチャンク２００Ｃ内に格納されたオーディオデータを処理する場合、このオーディオデータをオーディオデコーダ２０３へ出力する。オーディオデコーダ２０３は、入力したオーディオデータをリニアなオーディオデータフォーマットにリアルタイムでデコードする（ステップＳ６０４）。オーディオデコーダ２０３でデコードされたオーディオデータは、歌唱音消去モジュール２０４へ出力される。歌唱音消去モジュール２０４は、入力したオーディオデータから歌唱音を消去するボイスキャンセル処理を行い（ステップＳ６０５）、歌唱なしのオーディオデータを生成する。
【００４４】
なお、図４に示すデータフォーマットのデータファイルに、歌唱音を消去する期間（例えば、歌唱曲の開始からの時間）を指定するデータを加えることにより、歌唱音消去モジュール２０４が、指定された期間内のオーディオデータに対して選択的にボイスキャンセル処理を行うようにすることも可能である。また、図１に示す表示部１０１の画面にボイスキャンセル処理のオン／オフを選択するためのボタンを表示し、歌唱曲の再生中に利用者が操作部１０２を操作してボイスキャンセル処理のオン／オフを指示することも可能である。利用者の指示により歌唱音消去モジュール２０４はボイスキャンセル処理を実行または停止する。
【００４５】
ボイスキャンセル処理のための構成としては、本実施形態では図５に示すものを採用しているが、この構成によれば、歌唱音を消去する過程で行われる帯域制限等の処理により、歌唱音のみならず、同じ帯域の伴奏音をも消去する場合があり、伴奏音の音質に影響を与えるおそれがある。しかし、歌唱音を消去する期間を指定するための上記データにより、例えば歌唱音が存在する区間のみをボイスキャンセル処理の区間として指定すれば、歌唱音と共に消去される伴奏音を最小限に抑えることができる。
【００４６】
説明を図６のフローに戻す。
歌唱音消去モジュール２０４から出力された歌唱なしのオーディオデータは、ピッチチェンジ部２０５へ出力される。ピッチチェンジ部２０５は、入力したオーディオデータのピッチチェンジ処理を行い（ステップＳ６０６）、利用者が操作部１０２を操作して指示したピッチ（音高）に変更する。ピッチが変更された歌唱なしのオーディオデータは、音源１１１内のミキサー１１１Ｂに出力される。
【００４７】
一方、上述のステップＳ６０３において、プレイヤー２０２は、データファイル２００のＭＩＤＩトラックチャンク内に格納されたＭＩＤＩシーケンスデータを処理する場合、このＭＩＤＩシーケンスデータをシーケンサ２０６へ出力する。シーケンサ２０６は、入力したＭＩＤＩシーケンスデータに基づきシーケンス処理を行い（ステップＳ６０７）、所定のタイミングでＭＩＤＩイベントデータを音源１１１内の音源回路１１１Ａに出力する。即ち、トラック毎にデュレーションをカウントし、カウントを終了したタイミングでＭＩＤＩイベントデータを出力する。
【００４８】
音源回路１１１Ａは、シーケンサ２０６から入力したＭＩＤＩイベントデータを解釈して楽音データを生成する（ステップＳ６０８の音源再生処理）。この生成された楽音データはミキサー１１１Ｂに出力される。
ミキサー１１１Ｂは、前述のピッチチェンジ部２０５から入力する歌唱なしのオーディオデータに、音源回路１１１Ａから入力する楽音データをミキシング（合成）して（ステップＳ６０９）、これをＤ／Ａ変換器１１２に出力する。
【００４９】
ここで、音源回路１１１Ａから出力される楽音データは、上述の歌唱音消去モジュール２０４でのボイスキャンセル処理により歌唱音と共に消去される伴奏音に対応するデータであるから、ミキサー１１１Ｂによりオーディオデータに楽音データを合成して得られるデータは、ボイスキャンセル処理により歌唱音と共に消去された伴奏音が補完された歌唱なしのオーディオデータとなる。
【００５０】
ミキサー１１１Ｂにより楽音データが合成されたオーディオデータは、Ｄ／Ａ変換器１１２によりアナログ信号に変換され、図示しない増幅器で増幅された後にスピーカ１１３に供給され、このスピーカ１１３から歌唱音のない楽曲が放音される。
楽曲の再生が終了していなければ（ステップＳ６１０：ＮＯ）、処理は、ステップＳ６０３に戻り、再生すべきデータが尽きるまで上述のステップＳ６０３〜Ｓ６０９を繰り返し実行する。
【００５１】
なお、プレイヤー２０２は、グラフィックトラックチャンク２００Ｄ内のイメージデータを処理する場合、ＣＰＵ１０９により実現される図示しないイメージデコーダへイメージデータを出力する。イメージデコーダは、プレイヤー２０２から入力したイメージデータ（例えば、ＪＰＥＧ形式やＰＮＧ形式で圧縮されている）を表示部１０１に画像を表示するためのデータにデコードする。
【００５２】
また、グラフィックトラックチャンク内のフォントデータ（テキストデータ）を処理する場合には、プレイヤー２０２はＣＰＵ１０９により実現される図示しないフォントデコーダへフォントデータを出力する。フォントデコーダは、プレイヤー２０２から入力したフォントデータを、表示部１０１に歌詞（テキスト）を表示するためのデータにデコードする。デコードされたイメージデータ及びフォントデータは、図示しない描画モジュールにより、プレイヤー２０２から出力された描画シーケンスデータに従って、歌詞（テキスト）のワイプや画像の移動、表示切り替え等の処理が施され、表示部１０１に表示される。
【００５３】
以上により、ボイスキャンセル処理により歌唱音と共に消去されたオーディオデータの伴奏音がＭＩＤＩシーケンスデータで補完されて、違和感のないカラオケ用の楽曲がスピーカ１１３から放音される。利用者は、スピーカ１１３から放音される楽曲に合わせて、マイク１０６Ｃを使用して歌唱する。この歌唱音の音声信号は音声処理部１０６により増幅されてスピーカ１１３から楽曲と共に放音される。
【００５４】
このように、本実施形態に係る楽曲再生装置によれば、歌唱つきのオーディオデータから歌唱音が消去された楽曲を再生することができ、利用者は、歌唱用のマイク１０６Ｃを使用して、表示部１０１に表示される歌詞（テキスト）や画像を見ながらカラオケを楽しむことができる。
また、カラオケで用いるオーディオデータは、オリジナルの歌唱つきのＣＤに収録されているデータと同様のオーディオデータであるため、利用者はオリジナルのＣＤと同様の伴奏で歌唱することができる。
さらにまた、音楽鑑賞用とカラオケ用とで複数のオーディオデータを用意する必要がなくなり、一つのオーディオデータを音楽鑑賞とカラオケの双方に用いることができる。
【００５５】
[第２実施形態]
次に、本発明の第２実施形態を説明する。
図７に、第２実施形態に係る楽音再生装置の機能ブロック図を示す。図７において、上述の図２に示す第１実施形態に係る楽音再生装置と同様の要素には同一符号を付す。
本実施形態では、データディスク１０８に格納されたデータファイル７００は、オリジナルの歌唱つきのオーディオデータと、その伴奏音を補完するためのＭＩＤＩシーケンスデータとを含む点で第１実施形態のデータファイル２００と共通するが、これらオーディオデータとＭＩＤＩシーケンスデータは、時間軸で同期するようには配慮して制作されていない点でデータファイル２００と相違する。例えば、ドラム音のＭＩＤＩデータであれば、所定のテンポでドラム音を発音する様に制作されたシーケンスデータである。ただし、データファイル７００は、第１実施形態と同様に、図４に示すマルチメディアデータフォーマットに準拠したものである。
【００５６】
また、本実施形態の楽曲再生装置はビート抽出部７０１を更に備えると共に、上述の図２に示す第１実施形態に係るシーケンサ２０６に代えてシーケンサ７０２を備える。ここで、ビート抽出部７０１は、オーディオデータから楽曲のビートを抽出するものであり、シーケンサ７０２は、プレイヤー２０２によって振り分けられたＭＩＤＩシーケンスデータを、ビート抽出部７０１によって抽出されたビートと同期させて再生するものである。その他の構成は上述の第１実施形態に係る楽音再生装置と同様である。
【００５７】
次に、図８に示すフローに沿って、本実施形態に係る楽曲再生装置の動作を説明する。
ここでも、本楽曲再生装置をカラオケ装置として機能させる場合を説明するが、プレイヤー２０２、オーディオデコーダ２０３、歌唱音消去モジュール２０４、ピッチチェンジ部２０５、音源１１１、Ｄ／Ａ変換器１１２、スピーカ１１３については上述の第１実施形態と同様であるので、ここでは、本実施形態の特徴部であるビート抽出部７０１に着目して説明する。
【００５８】
上述の第１実施形態と同様に、プレイヤー２０２は、利用者が歌唱曲の選択指示を行うと、データファイル７００を読み出し（ステップＳ６０１）、利用者が歌唱曲の再生指示を行うと、データファイル７００の再生処理を開始し（ステップＳ６０２）、再生処理すべきデータをオーディオデコーダ２０３またはシーケンサ７０２に振り分ける（ステップＳ６０３）。オーディオデコーダ２０３は、プレイヤー２０２から入力したオーディオデータをリニアなオーディオデータにデコードする（ステップＳ６０４）。この後のボイスキャンセル処理（ステップＳ６０５）及びピッチチェンジ（ステップＳ６０６）についても第１実施形態と同様である。
【００５９】
ビート抽出部７０１は、オーディオデコーダ２０３でデコードされたリニアなオーディオデータから楽曲のビートを抽出してビート情報を取得する（ステップＳ８０１）。ビートの抽出方法としては周知の技術を利用することができる。例えば、リニアなオーディオデータから音量振幅波形（エンベロープ波形）のピークを検出し、そのピーク間隔から最小ビートを抽出する方法を使用することができる。この方法によれば、小節単位でビートを抽出することも可能である。また、音量振幅波形を平滑化（平均化）することにより、ビートの抽出を安定的に行うことができる。更に、オーディオデータの周波数特性に基づき音源分離（フィルタリング）を行い、例えばドラム音の周波数特性からドラムの伴奏音波形を抽出し、上記の音量振幅波形のピークを検出するようにすれば、より一層精度よくビートを抽出することができる。
【００６０】
シーケンサ７０２は、プレイヤー２０２から入力したＭＩＤＩシーケンスデータに基づきシーケンス処理を行ってＭＩＤＩイベントデータを生成する（ステップＳ８０２）。このとき、シーケンサ７０２は、上述のビート抽出部７０１で得られたビート情報でシーケンス時刻を補正する。つまり、シーケンサ７０２は、ＭＩＤＩシーケンスデータ中のＭＩＤＩイベントデータが、抽出されたビートと同じタイミングになる様にシーケンス時刻を補正する。これにより、上述のオーディオデコーダ２０３でデコードされたリニアなオーディオデータに同期した適切なタイミングで、ＭＩＤＩイベントデータが音源回路１１１Ａに出力される。
【００６１】
ここで、本実施形態では、プレイヤー２０２からシーケンサ７０２に振り分けられるＭＩＤＩシーケンスデータは、前述のように、時間軸上でオーディオデータと同期されるように制作されてはいないが、シーケンサ７０２は、ビート抽出部７０１によって得られたオーディオデータのビート情報でシーケンス時刻を補正することにより、オーディオデータのビートと同期させてＭＩＤＩイベントデータを出力する。これにより、歌唱なしのオーディオデータによる楽音とＭＩＤＩイベントデータによる伴奏音とが互いに同期した状態となり、伴奏音が補完された歌唱なしのオーディオデータが得られる。
【００６２】
以上により、ボイスキャンセル処理により歌唱音と共に消去されたオーディオデータの伴奏音が、オーディオデータの楽曲のビートに同期した適切なタイミングでＭＩＤＩシーケンスデータにより補完され、違和感のないカラオケ用の楽曲として再生される。
このように、本実施形態に係る楽曲再生装置によれば、上述の第１実施形態による効果に加え、ビート抽出部７０１により得られたビート情報を用いてオーディオデータにＭＩＤＩイベントデータを同期させるので、予めオーディオデータとＭＩＤＩシーケンスデータとを時間軸で同期するようにデータファイルを制作する必要がなくなる。従って、データファイルの構成を簡略化することが可能になる。
【００６３】
[第３実施形態]
次に、上述の図７を援用して、本発明の第３実施形態を説明する。
本実施形態に係る楽曲再生装置は、基本的には、上述の図７に示す第２実施形態に係る楽曲再生装置と同様であるが、補完用のＭＩＤＩシーケンスデータがデータファイル７００には格納されておらず、例えば携帯電話機を構成する図１に示すＲＡＭ１０４に予め格納されている。即ち、ＲＡＭ１０４には、上述の歌唱音消去モジュール２０４によるボイスキャンセル処理を行った場合に歌唱音と共に消去される伴奏音のＭＩＤＩシーケンスデータが予め格納されている。ＲＡＭ１０４に格納されたＭＩＤＩシーケンスデータは、携帯電話機のメーカにより予めプリセットされているものでもよいが、携帯電話機の利用者が独自に制作したものでもよい。さらに、無線通信部１０５等を介して外部よりダウンロードしたものでもよい。その他の構成は、上述の第２実施形態に係る楽曲再生装置と同様である。
【００６４】
本実施形態では、楽曲によりボイスキャンセル処理にて消去される伴奏音は様々であるので、オーディオデータによる楽曲とＭＩＤＩシーケンスデータによる伴奏音とのマッチングをとる必要がある。そのため、ＲＡＭ１０４に格納されるＭＩＤＩシーケンスデータに種別情報を付加すると共に、データディスク１０８内のデータファイルのオーディオデータには、補完に使用するＭＩＤＩシーケンスデータの種別情報を予め付加しておく。ただし、利用者の指示により、補完に使用するＭＩＤＩシーケンスデータの種別を変更し、或いはＭＩＤＩシーケンスデータによる楽音の音量をコントロールするための手段を設けてもよい。
【００６５】
次に、図９に示すフローに沿って、本実施形態に係る楽音再生装置の動作を説明する。
ここでも、本楽曲再生装置をカラオケ装置として機能させる場合を説明する。
上述の第２実施形態と同様に、プレイヤー２０２は、利用者が歌唱曲選択指示を行うと、データディスク１０８から該当するデータファイルを読み出し（ステップＳ６０１）、利用者が歌唱曲再生指示を行うと、データファイルの再生処理を開始する（ステップＳ６０２）。
【００６６】
プレイヤー２０２は、データファイルの各チャンク内に格納されたシーケンスデータに従ってオーディオデータをオーディオデコーダ２０３に振り分けると共に、このオーディオデータに付加されたＭＩＤＩシーケンスデータの種別情報を参照して、ＲＡＭ１０４から該当するＭＩＤＩシーケンスデータを読み出し、これをシーケンサ７０２に振り分ける（ステップＳ９０１）。以下は上述の第２実施形態と同様である。
【００６７】
本実施形態に係る楽曲再生装置によれば、ＭＩＤＩシーケンスデータをオーディオデータに付加したデータファイルを制作する必要はないため、データファイルを簡略化することができる。また、利用者がＲＡＭ１０４に格納されたＭＩＤＩシーケンスデータの種別を変更することにより、オーディオデータの伴奏音を補完するためのＭＩＤＩシーケンスデータを利用者が自由に決定することができる。従って、利用者の趣向に合わせて、多様な伴奏音のＭＩＤＩシーケンスデータでオーディオデータを補完することが可能になる。
【００６８】
以上、本発明の実施形態を詳述したが、具体的な構成は本実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述の実施形態では、歌唱音消去モジュール２０４におけるボイスキャンセル処理により歌唱音を消去する場合を例として説明したが、これに限定されることなく、歌唱音以外の伴奏音を消去し、この伴奏音と共に消去される他の伴奏音の楽音をＭＩＤＩシーケンスデータで補完するようにしてもよい。この場合、歌唱音消去モジュール２０４は、歌唱音以外の伴奏音の楽音を消去する例えば「特定楽音消去モジュール」として構成され、そのモジュールの名称は本発明の本質を限定するものではない。
【００６９】
また、上述の実施形態では、ＭＩＤＩシーケンスデータを例に説明したが、これに限定されることなく、時間情報に従って一連の発音処理に関するイベントを制御するデータであれば、どのようなシーケンスデータであってもよい。
また、上述の実施形態では、データファイルに格納されたオーディオデータは、ＭＰ３やＡＡＣ等で圧縮されたものであるとしたが、これに限定されることなく、圧縮されないリニアなオーディオデータを入力するものとしてもよい。この場合、オーディオデコーダは省略できる。
【図面の簡単な説明】
【００７０】
【図１】本発明の第１実施形態に係る携帯電話機の構成図である。
【図２】本発明の第１実施形態に係る携帯電話機に搭載された楽曲再生装置の機能ブロック図である。
【図３】本発明の第１実施形態に係る楽曲用オーサリングツールの説明図である。
【図４】本発明の第１実施形態に係るマルチメディアデータフォーマットの一例を示す図である。
【図５】本発明の第１実施形態に係る歌唱音消去モジュールの構成図である。
【図６】本発明の第１実施形態に係る楽曲再生装置の動作の流れを示すフローチャートである。
【図７】本発明の第２実施形態に係る楽曲再生装置の機能ブロック図である。
【図８】本発明の第２実施形態に係る楽曲再生装置の動作の流れを示すフローチャートである。
【図９】本発明の第３実施形態に係る楽曲再生装置の動作の流れを示すフローチャートである。
【符号の説明】
【００７１】
１０１；表示部、１０２；操作部、１０３；ＲＯＭ、１０４；ＲＡＭ、１０５；無線通信部、１０５Ａ；アンテナ、１０６；音声処理部、１０６Ａ；通話用マイク、１０６Ｂ；通話用スピーカ、１０６Ｃ；歌唱用マイク、１０８；データディスク、１０９；ＣＰＵ、１１０；ＤＳＰ、１１１；音源、１１１Ａ；音源回路、１１１Ｂ；ミキサー、１１２；Ｄ／Ａ変換器、１１３；スピーカ、２００，７００；データファイル、２０２；プレイヤー、２０３；オーディオデコーダ、２０４；歌唱音消去モジュール、２０５；ピッチチェンジ部、２０６，７０２；シーケンサ、７０１；ビート抽出部。

【特許請求の範囲】
【請求項１】
楽曲オーディオデータと楽曲シーケンスデータとが再生時に同期するように所定のデータフォーマットで格納されたデータファイルを再生するための楽曲再生装置であって、
前記楽曲オーディオデータから楽曲の特定の歌唱音または伴奏音を消去して該楽曲オーディオデータを再生する第１再生手段と、
前記楽曲オーディオデータと同期させて前記楽曲シーケンスデータを再生する第２再生手段と
を備えた楽曲再生装置。
【請求項２】
楽曲オーディオデータと楽曲シーケンスデータとが所定のデータフォーマットで格納されたデータファイルを再生するための楽曲再生装置であって、
前記楽曲オーディオデータから楽曲のビートを抽出するビート抽出手段と、
前記楽曲オーディオデータから楽曲の特定の歌唱音または伴奏音を消去して該楽曲オーディオデータを再生する第１再生手段と、
前記ビート抽出手段によって抽出されたビートと同期させて前記楽曲シーケンスデータを再生する第２再生手段と
を備えた楽曲再生装置。
【請求項３】
楽曲オーディオデータが所定のデータフォーマットで格納されたデータファイルを再生するための楽曲再生装置であって、
楽曲シーケンスデータを予め記憶する記憶手段と、
前記楽曲オーディオデータから楽曲のビートを抽出するビート抽出手段と、
前記楽曲オーディオデータから楽曲の特定の歌唱音または伴奏音を消去して該楽曲オーディオデータを再生する第１再生手段と、
前記記憶手段から前記楽曲シーケンスデータを読み出し、該楽曲シーケンスデータを、前記ビート抽出手段によって抽出されたビートと同期させて再生する第２再生手段と
を備えた楽曲再生装置。
【請求項４】
前記楽曲シーケンスデータは、前記楽曲オーディオデータから前記特定の歌唱音または伴奏音と共に消去される他の伴奏音を補完するためのデータであることを特徴とする請求項１乃至３の何れか１項記載の楽曲再生装置。
【請求項５】
前記楽曲オーディオデータまたは前記楽曲シーケンスデータの再生と同期させてグラフィックデータを再生するための再生手段を更に備え、
前記データファイルは、前記グラフィックデータを更に格納したことを特徴とする請求項１乃至４の何れか１項記載の楽曲再生装置。
【請求項６】
利用者の音声を入力するための音声入力手段と、
前記音声入力手段により入力された音声を再生するための音声再生手段と
を更に備えたことを特徴とする請求項１乃至５の何れか１項記載の楽曲再生装置。
【請求項７】
請求項１乃至６の何れか１項記載のデータファイルを制作するためのデータファイル制作ツール。

【図１】