説明

楽曲処理装置、およびプログラム

【課題】新たな楽曲の素材となる音声素片を音楽的な特徴で選択することができるようにする。
【解決手段】各々が音響的な特徴を示す音響的特徴量が複数種算出された、複数の音声素片を記憶した楽音処理装置に、複数種の前記音響的特徴量から新たな特徴量を生成し、当該新たな特徴量に基づいて、前記複数の音声素片から一部の音声素片を選択する素片選択手段と、前記素片選択手段により選択された音声素片をユーザに提示する提示手段と、を設ける。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の音声素片から新たな楽曲を生成することを支援する技術に関する。
【背景技術】
【0002】
例えばディスクジョッキ(DJ)は、複数の楽曲を途切れなく連結しながら次々に再生する。特許文献1には、このような楽曲再生を実現する技術が開示されている。同文献の技術においては、複数の楽曲の各々を拍単位で複数の音声素片に区分し、それら音声素片から好みのものを選択してつなぎ合わせることで新たな楽曲の生成を実現している。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−129135号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のようにして生成される音声素片のうちから所望のものをユーザに選択させる場合、例えばアタックが明瞭でエッジ感の強いもの(以下、このような音声素片を「エッジ」と呼ぶ)や、ノイズのように聴こえダスティーな感じの強いもの(以下、「ダスト」と呼ぶ)、といった具合に聴感などの音楽的な特徴を手掛かりに所望の音声素片を選択できると便利である。このようなことを実現するためには、複数の音声素片の各々を試聴し音楽的な特徴でエッジやダストなどのカテゴリに分類しておく必要があるが、このような分類作業には多大な手間を要する。また、楽曲を拍単位で区分して音声素片を生成する態様では、エッジ感の強い区間やダスティーな感じの強い区間が拍を跨ぐようなものである場合、その拍を境に音声素片が切り出されることとなり、そのような音声素片にアタック感やダスティーな感じが反映されているとは限らない。つまり、拍単位で切り出される音声素片は、音楽的な特徴でのカテゴリ分類という観点からは扱い難いといった問題がある。
本発明は上記課題に鑑みて為されたものであり、新たな楽曲の素材となる音声素片を、音楽的な特徴で選択することができるようにする技術を提供することを目的する。
【課題を解決するための手段】
【0005】
上記課題を解決するため本発明は、各々が音響的な特徴を示す音響的特徴量が複数種算出された、複数の音声素片について、複数種の前記音響的特徴量から新たな特徴量を生成し、当該新たな特徴量に基づいて、前記複数の音声素片から一部の音声素片を選択する素片選択手段と、前記素片選択手段により選択された音声素片をユーザに提示する提示手段と、を有することを特徴とする楽曲処理装置、またはコンピュータを上記各手段として機能させることを特徴とするプログラムを提供する。
【0006】
このような楽曲処理装置およびプログラムによれば、複数種の音響的特徴量を用いて生成された新たな特徴量に基づいて複数の音声素片のうちから選択された音声素片がユーザに提示される。より好ましい態様においては、上記新たな特徴量として音声素片を分類する際のカテゴリの特徴を顕著に示す特徴量をカテゴリ毎に生成する態様が考えられる。このような態様によれば、カテゴリ毎にそのカテゴリの特徴が顕著に表れている音声素片を選択してユーザに提示することが可能になる。
【0007】
例えば、ダストらしさを表すダストネスを上記新たな特徴量として用いるのである。ダストネスは、音声素片を構成するフレーム毎にスペクトラルクレスト、スペクトラルフラットネス、デルタスペクトラルエナジおよびコードストレングスの積を算出し、その値の0.6乗値を、その音声フレームを構成する全フレームについて平均値することで算出される。
【0008】
より好ましい態様においては、楽曲の波形を音のオンセットで区切って得られる音声素片の各々について複数種の音響的特徴量を算出する特徴量算出手段と、各音声素片を当該複数種の音響的特徴量および分類ルールしたがって音楽的な特徴に応じたカテゴリに分類する素片分類手段とを、上記楽曲処理装置に設けても良い。このような態様によれば、楽曲の波形を音のオンセットで区切って音声素片が生成されるため、拍単位で区切って音声素片を生成する場合のように音が途中で分割されることはなく、音楽的な特徴での分類の際に特段の支障は生じないと考えられる。また、上記分類ルールを機械学習により見出すようにすれば、分類対象の音声素片を試聴してその聴感に基づいてカテゴリ分類するといった繁雑な作業を行う必要はない。具体的には、学習用データを複数読み込み、当該複数の学習用データの各々が示す音声素片を、特徴量算出手段により算出される複数種の音響的特徴量に基づいて当該学習用データの示すカテゴリに分類するための分類ルールを所定の機械学習アルゴリズムにしたがってカテゴリ毎に見出す機械学習手段を上記楽曲処理装置に設け、素片分類手段には、機械学習手段により見出される分類ルールにしたがって音声素片をカテゴリ分類する処理を実行させるようにすれば良い。
【0009】
なお、このような態様においては、素片分類手段によりカテゴリ分類された音声素片のうちから、利用者により指定されたカテゴリに属するものを選択して提示する処理を素片選択手段に実行させるようにすれば良い。素片分類手段によりカテゴリ分類が為された音声素片のうちから所望のカテゴリに属するものを利用者に選択させ、新たな楽曲の生成や音声素片ライブラリの生成を支援することが可能になるからである。
【0010】
また、別の好ましい態様においては、上記楽曲処理装置の素片分類手段は、楽曲の波形を音のオンセットにおいて区切って得られる音声素片を分類ルールにしたがってカテゴリ分類する際に、その分類の確信度を算出し、当該確信度が所定の閾値を超えている場合に当該音声素片を当該カテゴリに分類することを特徴とする。ここで分類の確信度とは、例えばベイズ推定等により算出される0から1の範囲の値であり、その値が1に近いほど分類の信頼度が高いことを示す値である。このような態様によれば、所定の閾値以上の信頼度でそのカテゴリに分類されると推測される音声素片のみが該当カテゴリに分類される。これにより、上記分類結果に対して音楽的な特徴を手掛かりとした検索を行った際に、そのカテゴリには属しないと感じられる音声素片がヒットすることが回避される。また、利用者に所望のカテゴリに属するものを選択させる際には、カテゴリの指定だけではなく、確信度についての閾値や他の属性を指定することで選択範囲を絞り込むようにしても良い。
【0011】
さらに別の好ましい態様においては、上記楽曲処理装置の素片分類手段は、楽曲の波形を音のオンセットにおいて区切った区間の各々から、互いに時間長が異なる複数の音声素片を抽出し、当該複数の音声素片の各々を前記分類ルールにしたがってカテゴリ分類することを特徴とする。例えば、各区間から抽出される複数の音声素片を各カテゴリに分類する際に、上記確信度が所定の閾値を超えているもののみを該当カテゴリに分類するといった具合である。
【図面の簡単な説明】
【0012】
【図1】この発明の一実施形態である楽曲処理装置100の構成例を示す図である。
【図2】同楽曲処理装置100の制御部110が制御プログラムにしたがって実行する学習処理SA100、素片分類処理SA200、および素片選択処理SA300を説明するための図である。
【図3】同学習処理SA100の流れを示す図である。
【図4】同素片分類処理SA200の流れを示す図である。
【図5】ダストネスを利用した素片選択処理SA300の一例を示す図である。
【図6】同素片選択処理SA300にて表示部140に表示されるユーザインタフェース画面の一例を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について図面を参照しつつ説明する。
(A:構成)
図1は、本発明の一実施形態に係る楽曲処理装置100の構成例を示すブロック図である。この楽曲処理装置100は、楽曲の波形を音のオンセットで区切って得られる各区間から抽出される音声素片の各々を音楽的な特徴でカテゴリ分類してデータベース化するとともに、それら音声素片のうちから利用者により指定されたカテゴリに属するもの(すなわち、利用者により指定された音楽的な特徴(聴感など)を有するもの)を選択して提示するコンピュータ装置である。図1に示すように、楽曲処理装置100は、制御部110、インタフェース群120、操作部130、表示部140、記憶部150、およびこれら構成要素間のデータ授受を仲介するバス160を有している。
【0014】
制御部110は、例えばCPU(Central Processing Unit)である。制御部110は、記憶部150に格納されている制御プログラムを実行することにより、楽曲処理装置100の制御中枢の役割を果たす。より詳細に説明すると、制御部110は、上記制御プログラムにしたがって、図2に示す学習処理SA100、素片分類処理SA200および素片選択処理SA300の3つの処理を実行する。
これら3つの処理の概要は以下の通りである。
【0015】
図2の学習処理SA100は、楽曲の波形を音のオンセットで区切って得られる音声素片の波形を示すとともにその音声素片のカテゴリを示す学習用データを複数読み込み、その学習用データの示す音声素片の波形から算出される各種の音響的特徴量(例えば、MFCC(Mel Frequency Cepstrum Coefficient)やスペクトラルエナジなど、以下、単に「特徴量」と呼ぶ)のうちのいずれに着目すれば、その音声素片をその学習用データの示すカテゴリに正しく分類することができるのかを示す分類ルールを見出す処理である。本実施形態では、エッジのカテゴリの分類される音声素片についての学習用データと、ダストのカテゴリに分類される音声素片についての学習用データとを用いて学習処理SA100が実行される。この学習処理SA100によって見出される分類ルールにしたがってカテゴリ分類することで、カテゴリ分類されていない新たな音声素片をエッジやダストの各カテゴリに分類することが可能になる。
【0016】
素片分類処理SA200は、利用者により指定された1または複数の楽曲の各々の波形を音のオンセットで区切って得られる各区間から音声素片を抽出し、それら音声素片の各々を上記分類ルールにしたがってカテゴリ分類しつつデータベース化して音声素片データベースを生成する処理である。そして、素片選択処理SA300は、素片分類処理SA200により生成される音声素片データベースから、利用者により指定されたカテゴリに属する音声素片を選択して提示する処理である。
【0017】
インタフェース群120は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、CD−ROM(Compact Disk-Read Only Memory)などの外部記録媒体との間でデータの授受を行うためのドライバなどである。本実施形態では、インタフェース群120のうちの適当なものを介して、学習用データや、新たな音声素片の切り出し元となる楽曲の楽曲データ(波形データ)が入力される。
【0018】
操作部130は、例えばマウスなどのポンティングデバイスや複数の操作子を備えたキーボードなどであり、各種の入力操作を利用者に行わせるためのものである。操作部130は、操作子等に対して為された操作を示すデータを制御部110に与える。これにより操作部130に対して利用者が行った操作の内容が制御部110に伝達される。表示部140は、例えば液晶ディスプレイとその駆動回路である。この表示部140には、楽曲処理装置100の利用を促すためのユーザインタフェース画面が表示される。このユーザインタフェース画面の一例としては、図2に示す3つの処理の実行指示の入力を促すメニュー画面や、新たな楽曲の素材にする音声素片の条件(例えば、その音声素片のカテゴリなど)を利用者に指定させるための画面などが挙げられる。
【0019】
記憶部150は、図1に示すように、揮発性記憶部150aと不揮発性記憶部150bを含んでいる。揮発性記憶部150aは、例えばRAM(Random Access Memory)であり、上記制御プログラムを実行するためのワークエリアとして利用される。一方、不揮発性記憶部150bは、例えばハードディスクである。不揮発性記憶部150bには、図2に示す3つの処理を制御部110に実行させるための制御プログラムが格納されている他、学習処理SA100にて見出される分類ルールを示す分類ルールデータや、素片分類処理SA200にて生成される音声素片データベースが格納される。
以上が楽曲処理装置100の構成である。
【0020】
(B:動作)
楽曲処理装置100の利用者が操作部130を操作して制御プログラムの実行を指示すると、制御部110は、制御プログラムを不揮発性記憶部150bから揮発性記憶部150aに読み出し、その実行を開始する。制御部110は、制御プログラムの実行を開始すると、前述したメニュー画面を表示部140に表示させる。このメニュー画面を視認した利用者は、操作部130を操作してメニュー項目の選択などにより各処理の実行を指示することができる。制御部110は、操作部130を介して与えられる指示に応じて図2に示す3つの処理のうちの該当するものを実行するのである。以下、学習処理SA100、素片分類処理SA200、および素片選択処理SA300の各処理にて制御部110が実行する動作について説明する。
【0021】
(B−1:学習処理SA100における動作)
図3は、制御部110が実行する学習処理SA100の流れを示す図である。
前述したように、この学習処理SA100は、複数の学習用データを用いて機械学習を行い、カテゴリ分類されていない新たな音声素片を各種の特徴量に基づいてカテゴリ分類するための分類ルールを見出す処理である。この学習処理SA100の入力データとなる学習用データとしては、種々の態様のものを用いることが考えられる。図3では、波形データトラックとラベルデータトラックとからなる学習用データが例示されている。波形データトラックは、一つの楽曲のオーディオ波形を示すデータトラック(そのオーディオ波形を所定のサンプリング周期でサンプリングしたサンプル列)である。ラベルデータトラックは、波形データトラックと時間軸を共通にするデータトラックである。このラベルデータトラックには、波形データトラックの示す波形にて各音声素片が占める位置(音声素片の開始時刻(図3:t0やt2)および終了時刻(図3:t1やt3))を示すデータに対応付けて、その音声素片のカテゴリ(エッジやダスト)を示すラベルデータが書き込まれている。図3に示す態様の学習用データの他に、音声素片の波形を示す波形データとその音声素片の属するカテゴリを示すラベルデータとを対にした学習用データを用いても勿論良い。
【0022】
学習処理SA100では、制御部110は、まず、学習用データの示す音声素片の各々について、特徴量を計算する(ステップSA110)。より詳細に説明すると、制御部110は、各音声素片を所定サンプル数(本実施形態では2048サンプル)からなるフレームに分割し、それらフレーム毎にスペクトラルエナジやMCFF等の音響的特徴量を計算する。次いで、制御部110は、各音声素片について、その音声素片を構成するフレーム単位で算出した特徴量の統計量(各特徴量の時間変化を表す傾き、平均、分散など)を算出し、これら統計量をその音声素片についての特徴量とする。ここで、各音声素片について何種類の特徴量を算出するのかについては、後述する機械学習の精度との兼ね合いで定めるようにすれば良い。本実施形態では、1つの音声素片あたり2465種類の特徴量を算出する。このため、本実施形態では、各音声素片は上記2465種類の特徴量に各々対応する座標軸で規定される2465次元空間(以下、特徴量空間)の1つの座標点に対応付けられる。
【0023】
次いで、制御部110は、ステップSA110による演算結果を元に機械学習アルゴリズムにしたがった機械学習を行い(ステップSA120)、各学習用データの示す音声素片をその学習用データの示すカテゴリに分類するための分類ルールをカテゴリ毎に見出し、それら分類ルールを表す分類ルールデータを生成する。前述したように、学習用データの示す音声素片の各々は、特徴量空間内の1つの座標点に対応付けられる。したがって、ステップSA110の処理は、特徴量空間にてエッジのカテゴリに属する音声素片に対応する座標点が集まっている領域と、その他の領域とを区分けする超平面を見出す処理、或いは、同特徴量空間にてダストのカテゴリに属する音声素片に対応する座標点が集まっている領域と、その他の領域とを区分けする超平面を見出す処理に他ならず、これら超平面の各々が上記分類ルールに対応する。このステップSA110で使用する機械学習アルゴリズムとしては、種々のものを利用することが考えられる。本実施形態では、単純ロジスティック回帰分析(Simple logistic regression)アルゴリズムを用いたが、SVM(Support
Vector Machine)等の他の機械学習アルゴリズムを用いても勿論良い。カテゴリ分類のためには上記2465種類の特徴量の全てが必要に成る訳ではない。本出願人の行った実験によれば、エッジのカテゴリに属するか否かの分類を行うための分類ルールは、上記2465種類のうちの73種類の特徴量により定まり、ダストのカテゴリに属するか否かを分類するための分類ルールは、同2465種類のうちの37種類の特徴量で定まることが判明した。
【0024】
以上の動作が為される結果、カテゴリ分類されていない音声素片がエッジのカテゴリに分類されるか否かを判定するための分類ルールを示す第1の分類ルールデータと、同音声素片がダストのカテゴリに分類されるか否かを判定するための分類ルールを示す第2の分類ルールデータとが生成され、不揮発性記憶部150bに格納される。
【0025】
(B−2:素片分類処理SA200における動作)
前述したように、素片分類処理SA200は、カテゴリ分類されていない音声素片を上記第1または第2の分類ルールデータの示す分類ルールにしたがってカテゴリ分類しつつデータベース化する処理である。上記第1および第2の分類ルールデータにしたがって、この素片分類処理SA200を行うことにより、制御部110は、カテゴリ分類が為されていない新たな音声素片をエッジのカテゴリに属するか否かで分類する第1の識別器、および同音声素片をダストのカテゴリに属するか否かで分類する第2の識別器として機能する。
【0026】
本実施形態では、インタフェース群120を介して入力される1または複数の楽曲データの各々が表す波形を音のオンセットで区切って得られる各区間から抽出される音声素片の各々が分類対象とされる。図4に示すように、この素片分類処理SA200では、制御部110は、まず、インタフェース群120を介して与えられる楽曲データに対して、フレーム単位で特徴量を計算し、音のオンセットを検出する(ステップSA210)。このようにして検出されるオンセットの各々が音声素片の切り出しの際の指標となる。
【0027】
次いで、制御部110は、ステップSA210にて検出されたオンセットで区画される各区間から、互いに時間長の異なる波形データ(以下、セグメント)を抽出する(ステップSA220)。これらセグメントの各々がエッジまたはダストのカテゴリに分類される音声素片の候補となる。このように時間長の異なる複数のセグメントを抽出する際には、セグメントについての最小および最大の時間長(或いはサンプル数)を定めておき、当該最小の時間長から上記最大の時間長に達するまで一定量ずつ時間長を増加させたセグメントを抽出するようにすれば良い。そして、エッジ候補のセグメントを抽出する際には、図4に示すように、セグメントの開始位置をオンセットの位置に合わせ、その終了位置を調整することで様々な時間長のセグメントを抽出すれば良い。これは、セグメントの開始位置をオンセットに合わせることでアタック部分の波形が確実に含まれるようにするためである。これに対して、ダスト候補のセグメントを抽出する際には、図4に示すように、開始位置を各々異ならせてセグメントを抽出するようにすれば良い。
【0028】
制御部110は、ステップSA220にて抽出した全てのセグメントについて特徴量(フレーム単位で算出した特徴量の統計量)を算出する(ステップSA230)。このステップSA230における特徴量の算出は前述したステップSA110におけるものと同様であるため説明を省略する。そして、制御部110は、ステップSA230にて計算した特徴量と上記第1および第2の分類ルールデータの示す分類ルールに基づいて、ステップSA220にて抽出した各セグメントをカテゴリ分類し、音声素片データベースを生成する。ここで、音声素片データベースを生成するとは、インタフェース群120を介して入力された楽曲データ毎に、その楽曲データからステップSA220の処理で抽出される各セグメント(音声素片)の開始時刻および終了時刻を示すデータとそのセグメントのラベルデータとからなるラベルデータトラックを生成してその楽曲データと対応付けて不揮発性記憶部150bに書き込む態様であっても良く、また、楽曲データから音声素片の波形データを取り出し、その波形データと上記ラベルデータとを対応付けて不揮発性記憶部150bに書き込む態様であっても良い。
【0029】
より詳細に説明すると、ステップSA220にてエッジ候補として抽出された各セグメントは、第1の分類ルールデータの示す分類ルールにしたがってカテゴリ分類され、ダスト候補として抽出された各セグメントは、第2の分類ルールデータの示す分類ルールにしたがってカテゴリ分類される。ここで、各分類ルールにしたがって各セグメントのカテゴリ分類を行う際には、制御部110は、分類対象のセグメント毎に分類の確信度(0から1までの値で、値が1に近いほど分類の信頼度が高い)をベイズ推定等の手法により算出し、その確信度の値が所定の閾値(例えば、0.5)を超えている場合には、その分類ルールに対応するカテゴリに分類し、当該閾値未満の場合には、カテゴリ不明とする。これは、音声素片データベースに対して音楽的な特徴(聴感)を指定して素片検索を行った場合に、利用者により指定された聴感とは感じられない音声素片がヒットすることを回避するためである。また、上記確信度を加味してカテゴリ分類する態様では、各音声素片にカテゴリ分類の確信度を示す確信度データを対応付けてデータベース化しても良い。例えば、楽曲データにラベルデータトラックを対応付けてデータベース化する態様においては、各音声素片の開始時刻および終了時刻を示すデータとその音声素片についての確信度データとからなる確信度データトラックを生成し、この確信度データトラックを上記楽曲データおよびラベルデータトラックに対応付けて不揮発性記憶部150bに書き込むようにすれば良い。
【0030】
(B−3:素片選択処理SA300における動作)
素片選択処理SA300は、利用者により指定されたカテゴリに属する音声素片を音声素片データベースから選択して提示することにより、それらの音声素片を用いた楽曲生成等を促す処理である。この素片選択処理SA300の実施態様としては種々のものが考えられる。例えば、利用者により指定されたカテゴリに属するもの全てを音声素片データベースから読み出して提示する態様の他に、以下に述べる態様が考えられる。
【0031】
第1の態様は、利用者により指定されたカテゴリと、前述した確信度とに基づいて音声素片を選択する態様である。例えば、利用者により指定されたカテゴリに属するもののうち、確信度が所定の閾値(例えば、0.8など、この閾値を利用者に指定させても勿論良い)を超えているものを選択する態様や、楽曲の波形を音のオンセットで区切って得られる区間の各々から抽出される音声素片のうち、利用者により指定されたカテゴリに属すると推測される確信度が最も高いものを選択する態様である。この態様によれば、利用者により指定されたカテゴリに属するとは感じられないものがヒットすることを回避することができると期待される。
【0032】
第2の態様は、カテゴリに加えて、他の属性に基づいて音声素片を選択する態様である。例えば、音声素片の時間長といったエッジとダストとに共通して利用できる属性(以下、共通属性)や、各カテゴリに固有の属性(例えば、エッジであれば、音声素片の開始時刻から音量振幅がピークになるまでの時間やそのピーク値、ダストであれば、低域、中域および高域の各帯域のスペクトラルエナジ比など)を利用することが考えられる。このように、カテゴリに加えて他の属性を指定することで、きめ細やかな検索を行うことが可能になる。
【0033】
そして、第3の態様は、複数種の特徴量から算出される新たな特徴量を用いて音声素片の絞り込みを行う態様である。このように複数種の特徴量から算出される新たな特徴量の一例としては、以下に説明するダストネスが挙げられる。ダストネスとは、音声素片のダストらしさを0から1の範囲の値(1に近いほどダストらしさが強い)で表す新たな特徴量であり、本出願人の行った研究により発見されたものである。ダストネスを利用した素片選択処理SA300の一例は、図5に示す通りである。
【0034】
図5(A)は、楽曲の波形を示す図であり、図5(B)は、この楽曲から切り出される音声素片を表すラベルデータトラックを示す図である。制御部110は、まず、素片分類処理SA200の結果、ダストのカテゴリに分類されている音声素片について、その構成フレーム毎にスペクトラルクレスト、スペクトラルフラットネス、デルタスペクトラルエナジおよびコードストレングスの積の所定のべき乗(例えば、0.6乗)を上記ダストネスとして算出する。なお、上記4種類の特徴量x(例えば、xはスペクトラルクレスト、xはスペクトラルフラットネス、xはデルタスペクトラルエナジ、xはコードストレングス)の値そのものの積に代えて、以下の数1に示す確率分布関数p(x)を特徴量x毎に計算し、それら確率分布関数p(x)の関数値の積を使用しても良い。この数1においてμは特徴量xの平均値であり、σは特徴量xの分散である。これら平均値μおよび分散σは特徴量x毎に統計データにしたがって算出される。
【数1】

【0035】
スペクトラルクレストとスペクトラルフラットネスは、スペクトラムの平坦さを示す特徴量である。スペクトラルクレストは、フレーム内でのスペクトラルエナジの最大値を同フレーム内での平均値で除算して算出され、スペクトラルフラットネスは、フレーム内でのスペクトラルエナジの幾何平均(相乗平均)を算術平均(相加平均)で除算して算出される。そして、デルタスペクトラルエナジは、スペクトラルエナジの時間変化を示す。これら3種類の特徴量をダストネスの算出に利用するのは、スペクトラルエナジの時間変化とスペクトラムが平坦であるほどダストらしさが強くなると推測されるからである。これに対して、コードストレングスは、コード感があるか否か(すなわち、調和的であるか否か)を示す特徴量である。このコードレングスは、対象音に対してコード判定処理を行って得られるコード判定結果の信頼度の指標である。このコードストレングスをダストネスの算出に利用するのは、コード感が弱いほどダストらしさが強くなると推測されるからである。
【0036】
図5(C)は、上記のようにして計算されるダストネスの時間変化を示すグラフであり、ダストに分類される音声素片に対応する部分は実線で、その他の部分は点線で描かれている。次いで、制御部110は、各音声素片について、その音声素片を構成する全てのフレームについてのダストネスの平均値を算出し(図5(D)では、ダストに分類される部分についてのみ平均値を表記)、その平均値が所定の閾値を上回っている音声素片のみを選択する(図5(E)参照)。このような態様によれば、素片分類処理SA200にてダストのカテゴリに分類された音声素片のうちから、ダストらしさが所定の閾値を超えるもののみを選択することが可能になる。なお、本実施形態では、ダストらしさが所定の閾値を超えるもののみを選択する場合について説明したが、ダストネスの範囲を利用者に指定させ、その範囲に収まるものを抽出するようにしても良い。
【0037】
また、上記第1から第3の態様の任意の2つ、或いは全部を組み合わせて素片選択を行うようにしても良い。図6は、エッジのカテゴリに属する音声素片を上記3つの態様を組み合わせて選択する素片選択処理SA300にて表示部140に表示されるユーザインタフェース画面の一例を示す図である。図6に示すユーザインタフェース画面では、表示領域A01には、楽曲の波形から切り出されるエッジが一点鎖線矩形および点線三角形で表示されている。ここで、一点鎖線矩形の高さは確信度を表し、点線三角形の高さは音量振幅のピークの高さを表している。利用者は、同画面の仮想スイッチSW1を操作することで、エッジのカテゴリに対する確信度についての閾値を指定することができる。なお、図6の仮想スイッチSW2およびSW3は、ダストのカテゴリに対する確信度およびダストネスについての閾値を各々指定するためのものである。また、利用者は、仮想スイッチSW4およびSW5を操作することでエッジについての他の属性(例えば、音声素片の開始からピークまでの時間や、ピーク値)を指定することができ、仮想スイッチSW6からSW8を操作することでダストについての他の属性(例えば、各帯域のスペクトラルエナジ比)を指定することができる。そして、図6の表示領域A01では、仮想スイッチSW1、SW4およびSW5に対する操作により指定された条件を満たす音声素片の属する区間がハイライト表示で示される。楽曲処理装置100の利用者は図6に示すユーザインタフェース画面を参照しつつ、所望の条件を満たす音声素片を選択することができる。そして、利用者により何れかの音声素片が選択されると、制御部110は、その音声素片を示す識別子(例えば、音声素片の切り出し元の楽曲の名称、その音声素片の開始および終了時刻など)を表示領域A02に表示させ、その音声素片と似た属性の音声素片の識別子を表示領域A03に表示させる。楽曲処理装置100の利用者、表示領域A02或いはA03に表示される各識別子の示す音声素片を素材として新たな楽曲を生成したり、これら音声素片の集合を新たな音声素片データベースとして不揮発性記憶部150bやCD−ROMなどのコンピュータ読み取り可能な記録媒体に記憶させたりすることができる。
【0038】
以上説明したように、本実施形態に係る楽曲処理装置100によれば、任意の楽曲の波形を音のオンセットで区分して得られる音声素片の各々を音楽的な特徴で分類し検索することが可能になる。これにより楽曲処理装置100の利用者は、所望のカテゴリに属する音声素片をつなぎ合わせて新たな楽曲を生成したり、新たな音声素片データベースを生成することができる。
【0039】
(C:変形)
以上、本発明の一実施形態について説明したが、かかる実施形態に以下に述べる変形を加えても勿論良い。
(1)上述した実施形態では、カテゴリ分類がされていない音声素片をエッジまたはダストの各カテゴリに分類するための分類ルールを機械学習により見出したが、ベンド(音程が変化する音声素片)やボイス(人の声のように聴こえる音声素片)などの他のカテゴリに分類するための分類ルールを見出しても良い。このようなことは、ベンドやボイスなど他のカテゴリに分類される音声素片についての学習用データを用いて機械学習を行わせることで実現される。
【0040】
(2)上述した実施形態では、特徴量算出処理SA230で算出された複数種の特徴量から、ダストらしさを表す新たな特徴量であるダストネスを算出し、素片分類処理SA200にてダストのカテゴリに分類された音声素片のうちからダストらしさの強いものをダストネスを用いて絞り込む態様について説明した。このように、特徴量算出処理SA230で算出された複数種の特徴量から、あるカテゴリの特徴を顕著に示す新たな特徴量を算出することはエッジなど他のカテゴリについても同様に行い得ると期待される。そこで、特徴量算出処理SA230で算出される複数種の特徴量のうちから所望のものを利用者に指定させるとともに、それら特徴量を用いた新たな特徴量の算術式を利用者に指定させ、当該新たな特徴量の時間変化を示す画像(例えば、図5(C)に示すようなグラフ)と素片分類処理SA200による分類結果を示す画像(例えば、ラベルデータトラックを示す画像(図5(B)参照))とを時間軸を揃えて表示するユーザインタフェース画面を制御部110に表示させるようにしても良い。このようなユーザインタフェース画面を用いることで、あるカテゴリの特徴を顕著に示す新たな特徴量を見出すことが容易になると期待される。
【0041】
(3)上述した実施形態では、素片分類処理SA200により生成される音声素片データベースを不揮発性記憶部150bに格納した。しかし、素片分類処理SA200により生成される音声素片データベースを素片分類処理SA200から素片選択処理SA300へ引渡す中間データとしてのみ使用する場合には、その音声素片データベースを揮発性記憶部150aに書き込むようにしても勿論良い。また、素片分類処理SA200により生成される音声素片データベースをCD−ROMなどのコンピュータ読み取り可能な記録媒体に書き込み配布しても良い。
【0042】
(4)上述した実施形態では、制御部110を制御プログラムにしたがって作動させることで、その制御部110を、音声素片の各々から当該音声素片の音響特徴を示す複数種の特徴量を算出する特徴量算出手段、学習処理SA100を実行する機械学習手段、素片分類処理SA200を実行する素片分類手段、および素片選択処理SA300を実行する素片選択手段として機能させた。しかし、制御部110をこれら各手段として機能させる複数のプログラムモジュールに分割して不揮発性記憶部150に書き込んでも良く、また、上記特徴量算出手段、機械学習手段、素片分類手段および素片選択手段の各々を電子回路で構成し、これら電子回路を組み合わせて楽曲処理装置を構成しても勿論良い。
【0043】
(5)上述した実施形態では、本発明の特徴を顕著に示す学習処理、素片分類処理および素片選択処理の各々を制御部110に実行させる制御プログラムが記憶部150に予め格納されていた。しかし、CD−ROMなどのコンピュータ読み取り可能な記録媒体に上記制御プログラムを書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより上記制御プログラムを配布しても良い。このようにして配布される制御プログラムにしたがって、パーソナルコンピュータなどの一般的なコンピュータを作動させることにより、そのコンピュータに楽曲処理装置100と同一の機能を付与することが可能になる。
【0044】
(6)上述した実施形態では、複数の学習用データを楽曲処理装置100へ入力し学習処理SA100(図3参照)を実行させることで、音声素片をエッジまたはダストのカテゴリに分類するための分類ルールを示す分類ルールデータを生成したが、学習処理SA100により生成された分類ルールデータを不揮発性記憶部150bに予め書き込んだ状態(すなわち、カテゴリ分類されていない音声素片のカテゴリ分類を行う識別器として機能し得る状態)で楽曲処理装置100を提供しても勿論良い。このように、カテゴリ分類されていない音声素片のカテゴリ分類を行う識別器として機能し得る状態で楽曲処理装置100を提供する態様においては、特徴量算出手段、素片分類手段および素片選択手段として制御部110を機能させる制御プログラムを不揮発性記憶部150bに記憶させておけば良い。
【符号の説明】
【0045】
100…楽曲処理装置、110…制御部、120…インタフェース群、130…操作部、140…表示部、150…記憶部、150a…揮発性記憶部、150b…不揮発性記憶部、160…バス。

【特許請求の範囲】
【請求項1】
各々が音響的な特徴を示す音響的特徴量が複数種算出された、複数の音声素片について、複数種の前記音響的特徴量から新たな特徴量を生成し、当該新たな特徴量に基づいて、前記複数の音声素片から一部の音声素片を選択する素片選択手段と、
前記素片選択手段により選択された音声素片をユーザに提示する提示手段と、
を有することを特徴とする楽曲処理装置。
【請求項2】
前記新たな特徴量として音声素片を分類する際のカテゴリの特徴を顕著に示す特徴量をカテゴリ毎に生成することを特徴とする請求項1に記載の楽曲処理装置。
【請求項3】
コンピュータを、
各々が音響的な特徴を示す音響的特徴量が複数種算出された、複数の音声素片について、複数種の前記音響的特徴量から新たな特徴量を生成し、当該新たな特徴量に基づいて、前記複数の音声素片から一部の音声素片を選択する素片選択手段と、
前記素片選択手段により選択された音声素片をユーザに提示する提示手段と、
して機能させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−68975(P2013−68975A)
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願番号】特願2013−8329(P2013−8329)
【出願日】平成25年1月21日(2013.1.21)
【分割の表示】特願2009−37564(P2009−37564)の分割
【原出願日】平成21年2月20日(2009.2.20)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】