説明

楽曲検索装置および楽曲検索方法

【課題】 本発明は、印象の異なるフレーズを考慮して検索することができ、ユーザが所望する印象の楽曲を精度良く検索することができる楽曲検索装置および楽曲検索方法を提供することを課題とする。
【解決手段】 特徴データ抽出部13は、楽曲データから複数組の特徴データを抽出し、印象度データ変換部14は、抽出された複数組の特徴データを人間の感性で判断する印象度データにそれぞれ変換し、範囲データ決定部15は、変換された複数組の印象度データに基づいて範囲データを決定し、楽曲検索部17は、受け付けた検索条件を含む範囲データの楽曲データを特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、楽曲データベースに記憶された楽曲データを検索する楽曲検索装置および楽曲検索方法関し、特に楽曲データから抽出した特徴データを用いて楽曲データベースに記憶された楽曲データを検索する楽曲検索装置および楽曲検索方法に関する。
【背景技術】
【0002】
近年、HDD等の大容量の記憶手段が開発され、大容量の記憶手段に大量の楽曲データを記憶させることができるようになっている。大容量の記憶手段に記憶されている大量の楽曲データの検索は、アーティスト名や曲名、その他のキーワード等の書誌データを用いて行うのが一般的であるが、書誌データで検索した場合には、楽曲が持っている情感を考慮することができず、印象の異なる楽曲が検索される可能性がある。
【0003】
そこで、楽曲に対する主観的な印象に基づいて利用者の希望する楽曲を検索可能にするために、検索を希望する楽曲に対するユーザの主観的な要件を入力して数値化して出力し、その出力から、検索対象の楽曲の印象を数量化した予測印象値を算出し、算出した予測印象値をキーとして、複数の楽曲の音響信号およびその楽曲の印象を数量化した印象値を記憶した楽曲データベースを検索することにより、利用者の楽曲に対する主観的なイメージに基づいて、希望する楽曲を検索する装置が提案されている(例えば、特許文献1参照)。
【0004】
しかしながら、楽曲には、印象の異なるフレーズが含まれていることが多いにもかかわらず、従来技術では、楽曲の印象を印象値に集約しているため、印象の異なるフレーズが平均化した印象値になってしまったり、1箇所のフレーズに基づく印象値になってしまったりしてしまうため、ユーザが所望する印象の楽曲を必ずしも検索することができないという問題点があった。
【特許文献1】特開2002−278547号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明は斯かる問題点に鑑みてなされたものであり、その目的とするところは、印象の異なるフレーズを考慮して検索することができ、ユーザが所望する印象の楽曲を精度良く検索することができる楽曲検索装置および楽曲検索方法を提供する点にある。
【課題を解決するための手段】
【0006】
本発明は上記課題を解決すべく、以下に掲げる構成とした。
本発明の楽曲検索装置は、楽曲データベースに記憶された楽曲データを検索する楽曲検索装置であって、前記楽曲データから複数組の特徴データを抽出する特徴データ抽出手段と、該特徴データ抽出手段によって抽出された複数組の前記特徴データに基づいて、幅を持って前記楽曲データの印象を表す範囲データを決定する範囲データ決定手段と、検索条件の入力を受け付ける操作手段と、該操作手段から入力された前記検索条件を含む前記範囲データの前記楽曲データを特定する楽曲検索手段とを具備することを特徴とする。
【0007】
さらに、本発明の楽曲検索装置は、前記特徴データ抽出手段によって抽出された複数組の前記特徴データを人間の感性で判断する印象度データにそれぞれ変換する印象度データ変換手段を具備し、前記範囲データ決定手段は、前記印象度データ変換手段によって変換された複数組の前記印象度データに基づいて前記範囲データを決定することを特徴とする。
【0008】
さらに、本発明の楽曲検索装置は、前記印象度データ変換手段によって変換された前記印象度データは、複数の項目からなり、前記範囲データ決定手段は、前記印象度データの各項目の最大値から最小値の間を前記範囲データとして決定し、前記操作手段は、前記検索条件として前記印象度データの各項目の値を受け付けることを特徴とする。
【0009】
さらに、本発明の楽曲検索装置は、前記特徴データ抽出手段は、前記楽曲データの時間軸上の異なる箇所からそれぞれ前記特徴データを抽出することを特徴とする。
【0010】
また、本発明の楽曲検索方法は、楽曲データベースに記憶された楽曲データを検索する楽曲検索方法であって、前記楽曲データから複数組の特徴データを抽出し、該抽出した複数組の前記特徴データに基づいて、幅を持って前記楽曲データの印象を表す範囲データを決定し、検索条件の入力を受け付け、該検索条件を含む前記範囲データの前記楽曲データを特定することを特徴とする。
【0011】
さらに、本発明の楽曲検索方法は、前記抽出した複数組の前記特徴データを人間の感性で判断する印象度データにそれぞれ変換し、該変換した複数組の前記印象度データに基づいて前記範囲データを決定することを特徴とする。
【0012】
さらに、本発明の楽曲検索方法は、前記変換した前記印象度データは、複数の項目からなり、前記印象度データの各項目の最大値から最小値の間を前記範囲データとして決定し、前記検索条件として前記印象度データの各項目の値を受け付けることを特徴とする。
【0013】
さらに、本発明の楽曲検索方法は、前記楽曲データの時間軸上の異なる箇所からそれぞれ前記特徴データを抽出することを特徴とする。
【発明の効果】
【0014】
本発明の楽曲検索装置および楽曲検索方法は、楽曲データから複数組の特徴データを抽出し、抽出した複数組の前記特徴データに基づいて、幅を持って楽曲データの印象を表す範囲データを決定し、受け付けた検索条件を含む範囲データの楽曲データを特定するように構成することにより、印象が異なるフレーズの中のいずれかにユーザが所望する印象が含まれている場合には、該当する楽曲データが検索されるため、印象の異なるフレーズを考慮して検索することができ、ユーザが所望する印象の楽曲を精度良く検索することができるという効果を奏する。
【発明を実施するための最良の形態】
【0015】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0016】
図1は、本発明に係る楽曲検索装置の実施の形態の構成を示すブロック図であり、図2は、図1に示す楽曲検索装置に用いられるニューラルネットワークを事前に学習させるニューラルネットワーク学習装置の構成を示すブロック図である。
【0017】
本実施の形態の楽曲検索装置10は、図1を参照すると、パーソナルコンピュータ等のプログラム制御で動作する情報処理装置であり、楽曲データ入力部11と、圧縮処理部12と、特徴データ抽出部13と、印象度データ変換部14と、範囲データ決定部15と、楽曲データベース16と、楽曲検索部17と、PC操作部18と、PC表示部19と、音声出力部20とからなる。
【0018】
楽曲データ入力部11は、CD、DVD等の楽曲データが記憶されている記憶媒体を読み取る機能を有し、CD、DVD等の記憶媒体から楽曲データを入力し、圧縮処理部12および特徴データ抽出部13に出力する。CD、DVD等の記憶媒体以外にインターネット等のネットワークを経由した楽曲データ(配信データ)を入力するように構成しても良い。なお、圧縮された楽曲データが入力される場合には、圧縮された楽曲データを伸長して特徴データ抽出部13に出力する。
【0019】
圧縮処理部12は、楽曲検索時には、楽曲データ入力部11から入力された楽曲データをMP3やATRAC(Adaptive Transform Acoustic Coding )等の圧縮形式で圧縮し、圧縮した楽曲データを、アーティスト名、曲名等の書誌データと共に楽曲データベース16に記憶させる。
【0020】
特徴データ抽出部13は、楽曲データ入力部11から入力された楽曲データから特徴データを抽出し、抽出した特徴データを印象度データ変換部14に出力する。
【0021】
印象度データ変換部14は、図2に示すニューラルネットワーク学習装置40によって予め学習が施された階層型ニューラルネットワークを用いて、特徴データ抽出部13から入力された特徴データを、人間の感性によって判断される印象度データに変換し、変換した印象度データを範囲データ決定部15に出力する。
【0022】
範囲データ決定部15は、印象度データ変換部14から入力された印象度データに基づいて範囲データを決定し、決定した範囲データを楽曲データに関連づけて楽曲データベース16に登録する。
【0023】
楽曲データベース16は、HDD等の大容量の記憶手段であり、圧縮処理部12によって圧縮された楽曲データ、書誌データと、範囲データ決定部15によって決定された範囲データとが関連づけられて記憶される。
【0024】
楽曲検索部17は、PC操作部18から印象度データの各項目の値を検索条件として受け付け、受け付けた検索条件に基づいて楽曲データベース16に記憶されている楽曲データを検索し、受け付けた検索条件が範囲データに含まれる楽曲データを特定する。
【0025】
PC操作部18は、キーボードやマウス等の入力手段であり、楽曲データベース16に記憶されている楽曲データを検索する検索条件の入力が行われる。
【0026】
PC表示部19は、例えば液晶ディスプレイ等の表示手段であり、楽曲データベース16に記憶されている楽曲データを検索する検索条件の表示、検索された楽曲データ(検索結果)の表示等が行われる。
【0027】
音声出力部20は、楽曲データベース16に記憶されている楽曲データを伸長して再生するオーディオプレーヤであり、接続されたスピーカ21から伸長した楽曲データを音声出力させる。
【0028】
ニューラルネットワーク学習装置40は、印象度データ変換部14で用いられる階層型ニューラルネットワークの学習を行う装置であり、図2を参照すると、楽曲データ入力部41と、音声出力部42と、特徴データ抽出部43と、印象度データ入力部44と、結合重み値学習部45と、結合重み値出力部46とからなる。
【0029】
楽曲データ入力部41は、CD、DVD等の楽曲データが記憶されている記憶媒体を読み取る機能を有し、CD、DVD等の記憶媒体から楽曲データを入力し、音声出力部42および特徴データ抽出部43に出力する。CD、DVD等の記憶媒体以外にインターネット等のネットワークを経由した楽曲データ(配信データ)を入力するように構成しても良い。なお、圧縮された楽曲データが入力される場合には、圧縮された楽曲データを伸長して音声出力部42および特徴データ抽出部43に出力する。
【0030】
音声出力部42は、楽曲データ入力部41から入力された楽曲データを伸長して再生するオーディオプレーヤであり、接続されたスピーカ21から伸長した楽曲データを音声出力させる。
【0031】
特徴データ抽出部43は、楽曲データ入力部41から入力された楽曲データから特徴データを抽出し、抽出した特徴データを結合重み値学習部45に出力する。なお、特徴データ抽出部43によって楽曲データから抽出される特徴データと、楽曲検索装置10の特徴データ抽出部13で楽曲データから抽出される特徴データとは、同一のものとする。
【0032】
印象度データ入力部44は、音声出力部42からの音声出力に基づく、評価者による印象度データの入力を受け付け、受け付けた印象度データを、階層型ニューラルネットワークの学習に用いる教師信号として結合重み値学習部45に出力する。
【0033】
結合重み値学習部45は、特徴データ抽出部43から入力された特徴データと、印象度データ入力部44から入力された印象度データとに基づいて階層型ニューラルネットワークに学習を施し、各ニューロンの結合重み値を更新し、結合重み値出力部46を介して更新した結合重み値を出力する。学習が施された階層型ニューラルネットワーク(更新された結合重み値)は、楽曲検索装置10の印象度データ変換部14に移植される。
【0034】
まず、楽曲検索装置10における楽曲登録動作について図3乃至図8を参照して詳細に説明する。
図3は、図1に示す楽曲検索装置における楽曲登録動作を説明するためのフローチャートであり、図4は、図1に示す特徴データ抽出部における特徴データ抽出動作を説明するためのフローチャートであり、図5は、図1に示す特徴データ抽出部から出力される特徴データ例を示す図であり、図6は、図1に示す印象度データ変換部で用いられる階層型ニューラルネットワーク例を示す説明図であり、図7は、図1に示す印象度データ変換部から出力される印象度データ例を示す図であり、図8は、図1に示す範囲データ決定部における範囲データ決定動作を説明するための説明図である。
【0035】
楽曲データ入力部11にCD、DVD等の楽曲データが記憶されている記憶媒体をセットし、楽曲データ入力部11から楽曲データを入力する(ステップA1)。
【0036】
圧縮処理部12は、楽曲データ入力部11から入力された楽曲データを圧縮し(ステップA2)、圧縮した楽曲データを、アーティスト名、曲名等の書誌データと共に楽曲データベース16に記憶させる(ステップA3)。
【0037】
特徴データ抽出部13は、楽曲データ入力部11から入力された楽曲データから複数組の特徴データを抽出する(ステップA4)。なお、楽曲データから抽出する特徴データとしては、テンポ、ビート、ビート強度、平均音数、スペクトル変化量等の各種データが考えられ、いずれを用いても良いが、本実施の形態では、特徴データ抽出部13において、ゆらぎ情報の6項目を特徴データとして抽出するように構成した。
【0038】
また、特徴データ抽出部13は、楽曲データの時間軸上の異なる箇所からそれぞれ特徴データを抽出するように構成されている。すなわち、特徴データ抽出部13においては、楽曲データの一部分から特徴データを抽出するようになっており、例えば、開始から30s後、60s後、120s後のように時間をずらした複数箇所で特徴データをそれぞれ抽出する。
【0039】
特徴データ抽出部13における特徴データの抽出動作は、図4を参照すると、楽曲データ入力部11にCDプレーヤ等の楽曲再生装置やインターネット等のネットワークから楽曲データが入力されると(ステップB1)、楽曲データ入力部11は、高速化を目的とし、楽曲データ入力部11に入力された楽曲データを44.1kHzから22.05kHzにダウンサンプリングし、ダウンサンプリングした楽曲データを特徴データ抽出部13に出力する。
【0040】
次に、特徴データ抽出部13は、変数mに1を設定し(ステップB2)、n番目のデータ解析開始点から一定のフレーム長に対してのFFT処理を行い、パワースペクトルを算出する(ステップB3)。なお、特徴データ抽出部13には、楽曲データの時間軸上においてそれぞれ異なる箇所を示すN個のデータ解析開始点(例えば、楽曲の先頭から30s、60s、120s〜)が予め設定されているものとする。また、本実施の形態においては、特徴データの1つである楽曲のテンポとしてテンポの周期を抽出し、テンポの周期が0.3〜1sの範囲にあることを想定し、サンプリング周期が22.05kHzである楽曲データに対して1024ポイントのFFT処理を行うように構成した。すなわち、FFT処理を行うフレーム長を、1024/22.05kHz≒46msとし、想定した楽曲におけるテンポの周期の最小値よりも短い値としている。
【0041】
次に、特徴データ抽出部13は、Low(0〜200Hz)、Middle(200〜600Hz)、High(600〜11050Hz)の周波数帯域を予め設定しておき、Low、Middle、Highの3帯域のパワースペクトルを積分し、平均パワーを算出し(ステップB4)、ステップB3〜ステップB4の処理動作を行ったフレーム個数が予め定められた設定値(2048)に達したか否かを判断し(ステップB5)、ステップB3〜ステップB4の処理動作を行ったフレーム個数が予め定められた設定値に達していない場合には、データ解析開始点をシフトしながら(ステップB6)、ステップB3〜ステップB4の処理動作を繰り返す。これにより、ステップB3〜ステップB4の処理動作は、予め定められたフレーム個数の設定値分行われることになり、Low、Middle、High3帯域の平均パワーの時系列データをそれぞれ求めることができる。なお、本実施の形態では、解析時間長を60sとし、データ解析開始点を60s*22.05kHz/2048≒646ポイントずつシフトしながらFFT処理を行い、2048ポイント、60sの平均パワーの時系列データを作成するように構成した。
【0042】
次に、特徴データ抽出部13は、ステップB3〜ステップB5の処理動作によって算出したLow、Middle、Highの平均パワーの時系列データに対しそれぞれFFTを行い、ゆらぎ情報を算出する(ステップB7)。なお、本実施の形態では、平均パワーの時系列データに対して2048ポイントのFFT処理を行うように構成した。
【0043】
次に、特徴データ抽出部13は、Low、Middle、HighにおけるFFT分析結果から、横軸を対数周波数、縦軸を対数パワースペクトルとしたグラフにおける近似直線を最小2乗法等によって算出し(ステップB8)、近似直線の傾きと、近似直線のY切片とを求め(ステップB9)、Low、Middle、Highのそれぞれにおける近似直線の傾きおよびY切片を特徴データとして抽出する。
【0044】
次に、特徴データ抽出部13は、変数mが予め定められた設定数Mであるか否かを判断し(ステップB10)、変数mが設定数Mに到達していない場合には、変数mをインクリメントし(ステップB11)、ステップB3の処理に戻り、変数mが設定数Mに到達した場合には、特徴データの抽出動作を終了する。これにより、特徴データ抽出部13においては、図5に示すような、Low、Middle、Highのそれぞれにおける近似直線の傾きおよびY切片の6項目の特徴データがM組求められることになり、特徴データ抽出部13は、求めたM組の特徴データを印象度データ変換部14に出力する。
【0045】
次に、印象度データ変換部14は、図6に示すような入力層(第1層)、中間層(第n層)、出力層(第N層)からなる階層型ニューラルネットワークを用い、入力層(第1層)に特徴データ抽出部13で抽出されたM組の特徴データをそれぞれ入力することによって、出力層(第N層)からM組の印象度データを出力、すなわちM組(複数組)の特徴データをそれぞれ印象度データに変換する(ステップA5)。印象度データは、出力層(第N層)のニューロン数Lと同数の項目数N(本実施の形態では、N=2)となり、印象度データ変換部14では、図7に示すような、項目数Nの印象度データがM組求められることになり、印象度データ変換部14は、求めたM組の印象度データを範囲データ決定部15に出力する。なお、中間層(第n層)の各ニューロンの結合重み値wは、評価者によって予め学習が施されている。
【0046】
また、本実施の形態では、入力層(第1層)に入力される特徴データ、すなわち特徴データ抽出部13によって抽出される特徴データの項目は、前述のようにLow、Middle、Highのそれぞれにおける近似直線の傾きおよびY切片の6項目であり、入力層(第1層)のニューロン数Lは、6個となっている。さらに、印象度データの項目数は、任意であるが、本実施の形態では、印象度データの項目としては、人間の感性によって判断される「明るい、暗い」、「激しい、穏やか」の2項目を設定し、各項目を7段階評価で表すように設定した。従って、出力層(第N層)のニューロン数Lは、2個となっている。中間層(第n層:n=2,…,N−1)のニューロン数Lnは、適宜設定すると良い。
【0047】
さらに、出力層(第N層)から出力される印象度データの各項目の値は、後述するように階層型ニューラルネットワークを学習させる教師信号として7段階評価の印象度データを用いているため、それぞれほぼ1〜7の範囲の実数となり、1以下は、1に、7以上は、7に変換するように構成した。印象度データにおいて、項目「明るい、暗い」が最小値(1)に近いほど「明るい」印象を与える楽曲データであり、最大値(7)に近いほど「暗い」印象を与える楽曲データである。また、印象度データにおいて、項目「激しい、穏やか」が最小値(1)に近いほど「激しい」印象を与える楽曲データであり、最大値(7)に近いほど「穏やか」な印象を与える楽曲データである。
【0048】
範囲データ決定部15は、印象度データ変換部14から入力されたM組(複数組)の印象度データに基づいて範囲データを決定し(ステップA6)、決定した範囲データを楽曲データに関連づけて楽曲データベース16に記憶させる(ステップA7)。範囲データは、幅を持たせて楽曲データの印象を表すデータであり、本実施の形態では、M組の印象度データにおいて、各項目の最大値から最小値の間を範囲データとした。すなわち、図8に示すように、M組の印象度データにおける項目「明るい、暗い」の最大値が(3.2)、最小値が(2.3)であり、項目「激しい、穏やか」の最大値が(4.2)、最小値が(3.5)である場合には、範囲データ決定部15は、項目「明るい、暗い」における値の範囲(2.3〜3.2)と、項目「激しい、穏やか」における値の範囲(3.5〜4.2)とを範囲データとして決定する。
【0049】
次に、印象度データ変換部14における変換動作(ステップA5)に用いられる階層型ニューラルネットワークの学習動作について図9を参照して詳細に説明する。
図9は、図2に示すニューラルネットワーク学習装置における階層型ニューラルネットワークの学習動作を説明するためのフローチャートである。
【0050】
評価者による階層型ニューラルネットワーク(結合重み値w)の学習は、例えば、図2に示すニューラルネットワーク学習装置40を用いて行われ、まず、階層型ニューラルネットワーク(結合重み値w)を事前学習させるための事前学習データ(楽曲データの特徴データ+印象度データ)の入力が行われる。
【0051】
楽曲データ入力部41にCD、DVD等の楽曲データが記憶されている記憶媒体をセットし、楽曲データ入力部41から楽曲データを入力し(ステップC1)、特徴データ抽出部43は、楽曲データ入力部41から入力された楽曲データから特徴データを抽出する(ステップC2)。なお、特徴データ抽出部43によって抽出する特徴データは、楽曲検索装置10の特徴データ抽出部13で抽出する特徴データと同一である。
【0052】
また、音声出力部42は、楽曲データ入力部41から入力された楽曲データを音声出力し(ステップC3)、評価者は、音声出力部42からの音声出力を聞くことによって、楽曲の印象度を感性によって評価し、評価結果を印象度データとして印象度データ入力部44から入力し(ステップC4)、結合重み値学習部45は、印象度データ入力部44から入力された印象度データを教師信号として受け付ける。なお、本実施の形態では、印象度データの項目としては、人間の感性によって判断される「明るい、暗い」、「激しい、穏やか」の2項目を設定し、各項目についての7段階評価を印象度データとして印象度データ入力部44で受け付けるように構成した。
【0053】
次に、特徴データと入力された印象度データとからなる学習データが予め定められたサンプル数Tに達したか否かを判断し(ステップC5)、学習データがサンプル数Tに達するまでステップC1〜ステップC4の動作が繰り返される。
【0054】
結合重み値学習部45における階層型ニューラルネットワークの学習、すなわち各ニューロンの結合重み値wの更新は、誤差逆伝播学習法を用いて行う。
まず、初期値として、中間層(第n層)の全てのニューロンの結合重み値wを乱数によって−0.1〜0.1程度の範囲の小さな値に設定しておき、結合重み値学習部45は、特徴データ抽出部43によって抽出された特徴データを入力信号x(j=1,2,…,8) として入力層(第1層)に入力し、入力層(第1層)から出力層(第N層)に向けて、各ニューロンの出力を計算する。
【0055】
次に、結合重み値学習部45は、印象度データ入力部44から入力された印象度データを教師信号y(j=1,2,…,8) とし、出力層(第N層)の出力outjと、教師信号yとの誤差から、学習則δjを次式によって計算する。
【0056】
【数1】

【0057】
次に、結合重み値学習部45は、学習則δjを使って、中間層(第n層)の誤差信号 δjn を次式によって計算する。
【0058】
【数2】

【0059】
なお、数式2において、wは、第 n 層 j 番目と第 n -1 層k番目のニューロンの間の結合重み値を表している。
【0060】
次に、結合重み値学習部45は、中間層(第n層)の誤差信号 δjn を用いて各ニューロンの結合重み値wの変化量Δwを次式によって計算し、各ニューロンの結合重み値wを更新する(ステップC6)。なお、次式において、ηは、学習率を表し、評価者による学習では、η(0<η≦1)に設定されている。
【0061】
【数3】

【0062】
ステップC6では、サンプル数Tの事前学習データのそれぞれについて学習が行われ、次に、次式に示す2乗誤差Eが予め定められた事前学習用の基準値Eよりも小さいか否かが判断され(ステップC7)、2乗誤差Eが基準値Eよりも小さくなるまでステップC6の動作が繰り返される。なお、2乗誤差Eが基準値Eよりも小さくなると想定される学習反復回数Sを予め設定しておき、ステップC6の動作を学習反復回数S回繰り返すようにしても良い。
【0063】
【数4】

【0064】
ステップC7で2乗誤差Eが基準値Eよりも小さいと判断された場合には、結合重み値学習部45は、事前学習させた各ニューロンの結合重み値wを結合重み値出力部46によって出力し(ステップC8)、結合重み値出力部46から出力された各ニューロンの結合重み値wは、印象度データ変換部14に記憶される。
【0065】
次に、楽曲検索部17における楽曲検索動作について図10を参照して詳細に説明する。
図10は、図1に示す楽曲検索部における楽曲検索動作を説明するための説明図である。
【0066】
楽曲検索部17は、PC操作部18から印象度データの各項目の値を検索条件として受け付け、受け付けた検索条件に基づいて楽曲データベース16に記憶されている楽曲データを検索し、受け付けた検索条件が範囲データに含まれる楽曲データを特定する。例えば、印象度データの項目である「明るい、暗い」、「激しい、穏やか」の2項目の範囲を示す範囲データと共に、楽曲A〜Gが楽曲データベース16に記憶されている場合には、図10に示すように、7個の範囲データが存在しており、PC操作部18から検索条件として受け付けた印象度データの各項目の値を含む範囲データの楽曲データが楽曲検索部17によって特定される。図10に示すように、印象度データの項目「明るい、暗い」の値(3)と、項目「激しい、穏やか」の値(4)とを検索条件として受け付けた場合には、楽曲Aと、楽曲Gとが特定される。
【0067】
次に、楽曲検索部17は、特定した楽曲データの書誌データを検索結果としてPC表示部19に表示させることで検索結果をユーザに通知し、PC操作部18から再生指示が入力されると、特定した楽曲データを順次もしくはランダムに楽曲データベース16から読み出し、読み出した楽曲データを音声出力部20に出力してスピーカ21から音声出力させる。
【0068】
以上説明したように、本実施の形態によれば、特徴データ抽出部13は、楽曲データから複数組の特徴データを抽出し、範囲データ決定部15は、抽出した複数組の前記特徴データに基づいて、幅を持って楽曲データの印象を表す範囲データを決定し、楽曲検索部17は、受け付けた検索条件を含む範囲データの楽曲データを特定するように構成することにより、印象が異なるフレーズの中のいずれかにユーザが所望する印象が含まれている場合には、該当する楽曲データが検索されるため、印象の異なるフレーズを考慮して検索することができ、ユーザが所望する印象の楽曲を精度良く検索することができるという効果を奏する。
【0069】
なお、本実施の形態では、楽曲データの時間軸上の異なる箇所からそれぞれ特徴データを抽出すると共に、複数組の特徴データをそれぞれ印象度データに変換することで、複数組の印象度データを求め、求めた複数組の印象度データに基づいて範囲データを決定するように構成したが、楽曲データの時間軸上の同一箇所から幅を持たせた特徴データを抽出するように構成し、幅を持たせた特徴データを変換した印象度データに基づいて範囲データを決定するようにしても良い。
【0070】
図11は、図1に示す特徴データ抽出部で幅を持たせた特徴データの抽出例を説明するための説明図である。
図4に示すステップB8において、近似直線を算出する代わりに、図11に示すように上限直線と下限直線とを求め、ステップB9において、上限直線と下限直線との傾きと、Y切片とをそれぞれ求めるように構成する。なお、図11は、Lowのパワースペクトルを示しており、Middle、Highについても同様に上限直線と下限直線とを求める。また、上限直線と下限直線とを求めるに際し、対数周波数は、マスクする範囲(例えば0.1Hz未満をマスクし、0.1Hzのデータに基づいて上限直線と下限直線とを求める等)を設定してもよい。
【0071】
これにより、2組の特徴データ(上限直線に基づく特徴データと下限直線に基づく特徴データ)が求められることになり、2組の特徴データをそれぞれ印象度データに変換し、変換された2組の印象度データに基づいて範囲データを決定することができる。
【0072】
さらに、本実施の形態では、楽曲データの時間軸上の異なる箇所からそれぞれ特徴データを抽出すると共に、複数組の特徴データをそれぞれ印象度データに変換することで、複数組の印象度データを求め、求めた複数組の印象度データに基づいて範囲データを決定するように構成したが、特徴データを印象度データに変換することなく、直接複数組の特徴データに基づいて範囲データを決定するように構成しても良い。
【0073】
なお、本発明が上記各実施の形態に限定されず、本発明の技術思想の範囲内において、各実施の形態は適宜変更され得ることは明らかである。また、上記構成部材の数、位置、形状等は上記実施の形態に限定されず、本発明を実施する上で好適な数、位置、形状等にすることができる。なお、各図において、同一構成要素には同一符号を付している。
【図面の簡単な説明】
【0074】
【図1】本発明に係る楽曲検索装置の実施の形態の構成を示すブロック図である。
【図2】図1に示す楽曲検索装置に用いられるニューラルネットワークを事前に学習させるニューラルネットワーク学習装置の構成を示すブロック図である。
【図3】図1に示す楽曲検索装置における楽曲登録動作を説明するためのフローチャートである。
【図4】図1に示す特徴データ抽出部における特徴データ抽出動作を説明するためのフローチャートである。
【図5】図1に示す特徴データ抽出部から出力される特徴データ例を示す図である。
【図6】図1に示す印象度データ変換部で用いられる階層型ニューラルネットワーク例を示す説明図である。
【図7】図1に示す印象度データ変換部から出力される印象度データ例を示す図である。
【図8】図1に示す範囲データ決定部における範囲データ決定動作を説明するための説明図である。
【図9】図2に示すニューラルネットワーク学習装置における階層型ニューラルネットワークの学習動作を説明するためのフローチャートである。
【図10】図1に示す楽曲検索部における楽曲検索動作を説明するための説明図である。
【図11】図1に示す特徴データ抽出部で幅を持たせた特徴データの抽出例を説明するための説明図である。
【符号の説明】
【0075】
10 楽曲検索装置
11 楽曲データ入力部
12 圧縮処理部
13 特徴データ抽出部
14 印象度データ変換部
15 範囲データ決定部
16 楽曲データベース
17 楽曲検索部
18 PC操作部
19 PC表示部
20 音声出力部
21 スピーカ
40 ニューラルネットワーク学習装置
41 楽曲データ入力部
42 音声出力部
43 特徴データ抽出部
44 印象度データ入力部
45 結合重み値学習部
46 結合重み値出力部

【特許請求の範囲】
【請求項1】
楽曲データベースに記憶された楽曲データを検索する楽曲検索装置であって、
前記楽曲データから複数組の特徴データを抽出する特徴データ抽出手段と、
該特徴データ抽出手段によって抽出された複数組の前記特徴データに基づいて、幅を持って前記楽曲データの印象を表す範囲データを決定する範囲データ決定手段と、
検索条件の入力を受け付ける操作手段と、
該操作手段から入力された前記検索条件を含む前記範囲データの前記楽曲データを特定する楽曲検索手段とを具備することを特徴とする楽曲検索装置。
【請求項2】
前記特徴データ抽出手段によって抽出された複数組の前記特徴データを人間の感性で判断する印象度データにそれぞれ変換する印象度データ変換手段を具備し、
前記範囲データ決定手段は、前記印象度データ変換手段によって変換された複数組の前記印象度データに基づいて前記範囲データを決定することを特徴とする請求項1記載の楽曲検索装置。
【請求項3】
前記印象度データ変換手段によって変換された前記印象度データは、複数の項目からなり、
前記範囲データ決定手段は、前記印象度データの各項目の最大値から最小値の間を前記範囲データとして決定し、
前記操作手段は、前記検索条件として前記印象度データの各項目の値を受け付けることを特徴とする請求項2記載の楽曲検索装置。
【請求項4】
前記特徴データ抽出手段は、前記楽曲データの時間軸上の異なる箇所からそれぞれ前記特徴データを抽出することを特徴とする請求項1乃至3のいずれかに記載の楽曲検索装置。
【請求項5】
楽曲データベースに記憶された楽曲データを検索する楽曲検索方法であって、
前記楽曲データから複数組の特徴データを抽出し、
該抽出した複数組の前記特徴データに基づいて、幅を持って前記楽曲データの印象を表す範囲データを決定し、
検索条件の入力を受け付け、
該検索条件を含む前記範囲データの前記楽曲データを特定することを特徴とする楽曲検索方法。
【請求項6】
前記抽出した複数組の前記特徴データを人間の感性で判断する印象度データにそれぞれ変換し、
該変換した複数組の前記印象度データに基づいて前記範囲データを決定することを特徴とする請求項5記載の楽曲検索方法。
【請求項7】
前記変換した前記印象度データは、複数の項目からなり、
前記印象度データの各項目の最大値から最小値の間を前記範囲データとして決定し、
前記検索条件として前記印象度データの各項目の値を受け付けることを特徴とする請求項6記載の楽曲検索方法。
【請求項8】
前記楽曲データの時間軸上の異なる箇所からそれぞれ前記特徴データを抽出することを特徴とする請求項5乃至7のいずれかに記載の楽曲検索方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2006−323008(P2006−323008A)
【公開日】平成18年11月30日(2006.11.30)
【国際特許分類】
【出願番号】特願2005−144381(P2005−144381)
【出願日】平成17年5月17日(2005.5.17)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】