楽曲検索装置および楽曲検索方法

【課題】本発明は、印象の異なるフレーズを考慮して検索することができ、ユーザが所望する印象の楽曲を精度良く検索することができる楽曲検索装置および楽曲検索方法を提供することを課題とする。
【解決手段】特徴データ抽出部１３は、楽曲データから複数組の特徴データを抽出し、印象度データ変換部１４は、抽出された複数組の特徴データを人間の感性で判断する印象度データにそれぞれ変換し、範囲データ決定部１５は、変換された複数組の印象度データに基づいて範囲データを決定し、楽曲検索部１７は、受け付けた検索条件を含む範囲データの楽曲データを特定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、楽曲データベースに記憶された楽曲データを検索する楽曲検索装置および楽曲検索方法関し、特に楽曲データから抽出した特徴データを用いて楽曲データベースに記憶された楽曲データを検索する楽曲検索装置および楽曲検索方法に関する。
【背景技術】
【０００２】
近年、ＨＤＤ等の大容量の記憶手段が開発され、大容量の記憶手段に大量の楽曲データを記憶させることができるようになっている。大容量の記憶手段に記憶されている大量の楽曲データの検索は、アーティスト名や曲名、その他のキーワード等の書誌データを用いて行うのが一般的であるが、書誌データで検索した場合には、楽曲が持っている情感を考慮することができず、印象の異なる楽曲が検索される可能性がある。
【０００３】
そこで、楽曲に対する主観的な印象に基づいて利用者の希望する楽曲を検索可能にするために、検索を希望する楽曲に対するユーザの主観的な要件を入力して数値化して出力し、その出力から、検索対象の楽曲の印象を数量化した予測印象値を算出し、算出した予測印象値をキーとして、複数の楽曲の音響信号およびその楽曲の印象を数量化した印象値を記憶した楽曲データベースを検索することにより、利用者の楽曲に対する主観的なイメージに基づいて、希望する楽曲を検索する装置が提案されている（例えば、特許文献１参照）。
【０００４】
しかしながら、楽曲には、印象の異なるフレーズが含まれていることが多いにもかかわらず、従来技術では、楽曲の印象を印象値に集約しているため、印象の異なるフレーズが平均化した印象値になってしまったり、１箇所のフレーズに基づく印象値になってしまったりしてしまうため、ユーザが所望する印象の楽曲を必ずしも検索することができないという問題点があった。
【特許文献１】特開２００２−２７８５４７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
本発明は斯かる問題点に鑑みてなされたものであり、その目的とするところは、印象の異なるフレーズを考慮して検索することができ、ユーザが所望する印象の楽曲を精度良く検索することができる楽曲検索装置および楽曲検索方法を提供する点にある。
【課題を解決するための手段】
【０００６】
本発明は上記課題を解決すべく、以下に掲げる構成とした。
本発明の楽曲検索装置は、楽曲データベースに記憶された楽曲データを検索する楽曲検索装置であって、前記楽曲データから複数組の特徴データを抽出する特徴データ抽出手段と、該特徴データ抽出手段によって抽出された複数組の前記特徴データに基づいて、幅を持って前記楽曲データの印象を表す範囲データを決定する範囲データ決定手段と、検索条件の入力を受け付ける操作手段と、該操作手段から入力された前記検索条件を含む前記範囲データの前記楽曲データを特定する楽曲検索手段とを具備することを特徴とする。
【０００７】
さらに、本発明の楽曲検索装置は、前記特徴データ抽出手段によって抽出された複数組の前記特徴データを人間の感性で判断する印象度データにそれぞれ変換する印象度データ変換手段を具備し、前記範囲データ決定手段は、前記印象度データ変換手段によって変換された複数組の前記印象度データに基づいて前記範囲データを決定することを特徴とする。
【０００８】
さらに、本発明の楽曲検索装置は、前記印象度データ変換手段によって変換された前記印象度データは、複数の項目からなり、前記範囲データ決定手段は、前記印象度データの各項目の最大値から最小値の間を前記範囲データとして決定し、前記操作手段は、前記検索条件として前記印象度データの各項目の値を受け付けることを特徴とする。
【０００９】
さらに、本発明の楽曲検索装置は、前記特徴データ抽出手段は、前記楽曲データの時間軸上の異なる箇所からそれぞれ前記特徴データを抽出することを特徴とする。
【００１０】
また、本発明の楽曲検索方法は、楽曲データベースに記憶された楽曲データを検索する楽曲検索方法であって、前記楽曲データから複数組の特徴データを抽出し、該抽出した複数組の前記特徴データに基づいて、幅を持って前記楽曲データの印象を表す範囲データを決定し、検索条件の入力を受け付け、該検索条件を含む前記範囲データの前記楽曲データを特定することを特徴とする。
【００１１】
さらに、本発明の楽曲検索方法は、前記抽出した複数組の前記特徴データを人間の感性で判断する印象度データにそれぞれ変換し、該変換した複数組の前記印象度データに基づいて前記範囲データを決定することを特徴とする。
【００１２】
さらに、本発明の楽曲検索方法は、前記変換した前記印象度データは、複数の項目からなり、前記印象度データの各項目の最大値から最小値の間を前記範囲データとして決定し、前記検索条件として前記印象度データの各項目の値を受け付けることを特徴とする。
【００１３】
さらに、本発明の楽曲検索方法は、前記楽曲データの時間軸上の異なる箇所からそれぞれ前記特徴データを抽出することを特徴とする。
【発明の効果】
【００１４】
本発明の楽曲検索装置および楽曲検索方法は、楽曲データから複数組の特徴データを抽出し、抽出した複数組の前記特徴データに基づいて、幅を持って楽曲データの印象を表す範囲データを決定し、受け付けた検索条件を含む範囲データの楽曲データを特定するように構成することにより、印象が異なるフレーズの中のいずれかにユーザが所望する印象が含まれている場合には、該当する楽曲データが検索されるため、印象の異なるフレーズを考慮して検索することができ、ユーザが所望する印象の楽曲を精度良く検索することができるという効果を奏する。
【発明を実施するための最良の形態】
【００１５】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【００１６】
図１は、本発明に係る楽曲検索装置の実施の形態の構成を示すブロック図であり、図２は、図１に示す楽曲検索装置に用いられるニューラルネットワークを事前に学習させるニューラルネットワーク学習装置の構成を示すブロック図である。
【００１７】
本実施の形態の楽曲検索装置１０は、図１を参照すると、パーソナルコンピュータ等のプログラム制御で動作する情報処理装置であり、楽曲データ入力部１１と、圧縮処理部１２と、特徴データ抽出部１３と、印象度データ変換部１４と、範囲データ決定部１５と、楽曲データベース１６と、楽曲検索部１７と、ＰＣ操作部１８と、ＰＣ表示部１９と、音声出力部２０とからなる。
【００１８】
楽曲データ入力部１１は、ＣＤ、ＤＶＤ等の楽曲データが記憶されている記憶媒体を読み取る機能を有し、ＣＤ、ＤＶＤ等の記憶媒体から楽曲データを入力し、圧縮処理部１２および特徴データ抽出部１３に出力する。ＣＤ、ＤＶＤ等の記憶媒体以外にインターネット等のネットワークを経由した楽曲データ（配信データ）を入力するように構成しても良い。なお、圧縮された楽曲データが入力される場合には、圧縮された楽曲データを伸長して特徴データ抽出部１３に出力する。
【００１９】
圧縮処理部１２は、楽曲検索時には、楽曲データ入力部１１から入力された楽曲データをＭＰ３やＡＴＲＡＣ（Adaptive Transform Acoustic Coding ）等の圧縮形式で圧縮し、圧縮した楽曲データを、アーティスト名、曲名等の書誌データと共に楽曲データベース１６に記憶させる。
【００２０】
特徴データ抽出部１３は、楽曲データ入力部１１から入力された楽曲データから特徴データを抽出し、抽出した特徴データを印象度データ変換部１４に出力する。
【００２１】
印象度データ変換部１４は、図２に示すニューラルネットワーク学習装置４０によって予め学習が施された階層型ニューラルネットワークを用いて、特徴データ抽出部１３から入力された特徴データを、人間の感性によって判断される印象度データに変換し、変換した印象度データを範囲データ決定部１５に出力する。
【００２２】
範囲データ決定部１５は、印象度データ変換部１４から入力された印象度データに基づいて範囲データを決定し、決定した範囲データを楽曲データに関連づけて楽曲データベース１６に登録する。
【００２３】
楽曲データベース１６は、ＨＤＤ等の大容量の記憶手段であり、圧縮処理部１２によって圧縮された楽曲データ、書誌データと、範囲データ決定部１５によって決定された範囲データとが関連づけられて記憶される。
【００２４】
楽曲検索部１７は、ＰＣ操作部１８から印象度データの各項目の値を検索条件として受け付け、受け付けた検索条件に基づいて楽曲データベース１６に記憶されている楽曲データを検索し、受け付けた検索条件が範囲データに含まれる楽曲データを特定する。
【００２５】
ＰＣ操作部１８は、キーボードやマウス等の入力手段であり、楽曲データベース１６に記憶されている楽曲データを検索する検索条件の入力が行われる。
【００２６】
ＰＣ表示部１９は、例えば液晶ディスプレイ等の表示手段であり、楽曲データベース１６に記憶されている楽曲データを検索する検索条件の表示、検索された楽曲データ（検索結果）の表示等が行われる。
【００２７】
音声出力部２０は、楽曲データベース１６に記憶されている楽曲データを伸長して再生するオーディオプレーヤであり、接続されたスピーカ２１から伸長した楽曲データを音声出力させる。
【００２８】
ニューラルネットワーク学習装置４０は、印象度データ変換部１４で用いられる階層型ニューラルネットワークの学習を行う装置であり、図２を参照すると、楽曲データ入力部４１と、音声出力部４２と、特徴データ抽出部４３と、印象度データ入力部４４と、結合重み値学習部４５と、結合重み値出力部４６とからなる。
【００２９】
楽曲データ入力部４１は、ＣＤ、ＤＶＤ等の楽曲データが記憶されている記憶媒体を読み取る機能を有し、ＣＤ、ＤＶＤ等の記憶媒体から楽曲データを入力し、音声出力部４２および特徴データ抽出部４３に出力する。ＣＤ、ＤＶＤ等の記憶媒体以外にインターネット等のネットワークを経由した楽曲データ（配信データ）を入力するように構成しても良い。なお、圧縮された楽曲データが入力される場合には、圧縮された楽曲データを伸長して音声出力部４２および特徴データ抽出部４３に出力する。
【００３０】
音声出力部４２は、楽曲データ入力部４１から入力された楽曲データを伸長して再生するオーディオプレーヤであり、接続されたスピーカ２１から伸長した楽曲データを音声出力させる。
【００３１】
特徴データ抽出部４３は、楽曲データ入力部４１から入力された楽曲データから特徴データを抽出し、抽出した特徴データを結合重み値学習部４５に出力する。なお、特徴データ抽出部４３によって楽曲データから抽出される特徴データと、楽曲検索装置１０の特徴データ抽出部１３で楽曲データから抽出される特徴データとは、同一のものとする。
【００３２】
印象度データ入力部４４は、音声出力部４２からの音声出力に基づく、評価者による印象度データの入力を受け付け、受け付けた印象度データを、階層型ニューラルネットワークの学習に用いる教師信号として結合重み値学習部４５に出力する。
【００３３】
結合重み値学習部４５は、特徴データ抽出部４３から入力された特徴データと、印象度データ入力部４４から入力された印象度データとに基づいて階層型ニューラルネットワークに学習を施し、各ニューロンの結合重み値を更新し、結合重み値出力部４６を介して更新した結合重み値を出力する。学習が施された階層型ニューラルネットワーク（更新された結合重み値）は、楽曲検索装置１０の印象度データ変換部１４に移植される。
【００３４】
まず、楽曲検索装置１０における楽曲登録動作について図３乃至図８を参照して詳細に説明する。
図３は、図１に示す楽曲検索装置における楽曲登録動作を説明するためのフローチャートであり、図４は、図１に示す特徴データ抽出部における特徴データ抽出動作を説明するためのフローチャートであり、図５は、図１に示す特徴データ抽出部から出力される特徴データ例を示す図であり、図６は、図１に示す印象度データ変換部で用いられる階層型ニューラルネットワーク例を示す説明図であり、図７は、図１に示す印象度データ変換部から出力される印象度データ例を示す図であり、図８は、図１に示す範囲データ決定部における範囲データ決定動作を説明するための説明図である。
【００３５】
楽曲データ入力部１１にＣＤ、ＤＶＤ等の楽曲データが記憶されている記憶媒体をセットし、楽曲データ入力部１１から楽曲データを入力する（ステップＡ１）。
【００３６】
圧縮処理部１２は、楽曲データ入力部１１から入力された楽曲データを圧縮し（ステップＡ２）、圧縮した楽曲データを、アーティスト名、曲名等の書誌データと共に楽曲データベース１６に記憶させる（ステップＡ３）。
【００３７】
特徴データ抽出部１３は、楽曲データ入力部１１から入力された楽曲データから複数組の特徴データを抽出する（ステップＡ４）。なお、楽曲データから抽出する特徴データとしては、テンポ、ビート、ビート強度、平均音数、スペクトル変化量等の各種データが考えられ、いずれを用いても良いが、本実施の形態では、特徴データ抽出部１３において、ゆらぎ情報の６項目を特徴データとして抽出するように構成した。
【００３８】
また、特徴データ抽出部１３は、楽曲データの時間軸上の異なる箇所からそれぞれ特徴データを抽出するように構成されている。すなわち、特徴データ抽出部１３においては、楽曲データの一部分から特徴データを抽出するようになっており、例えば、開始から３０ｓ後、６０ｓ後、１２０ｓ後のように時間をずらした複数箇所で特徴データをそれぞれ抽出する。
【００３９】
特徴データ抽出部１３における特徴データの抽出動作は、図４を参照すると、楽曲データ入力部１１にＣＤプレーヤ等の楽曲再生装置やインターネット等のネットワークから楽曲データが入力されると（ステップＢ１）、楽曲データ入力部１１は、高速化を目的とし、楽曲データ入力部１１に入力された楽曲データを４４．１ｋＨｚから２２．０５ｋＨｚにダウンサンプリングし、ダウンサンプリングした楽曲データを特徴データ抽出部１３に出力する。
【００４０】
次に、特徴データ抽出部１３は、変数ｍに１を設定し（ステップＢ２）、ｎ番目のデータ解析開始点から一定のフレーム長に対してのＦＦＴ処理を行い、パワースペクトルを算出する（ステップＢ３）。なお、特徴データ抽出部１３には、楽曲データの時間軸上においてそれぞれ異なる箇所を示すＮ個のデータ解析開始点（例えば、楽曲の先頭から３０ｓ、６０ｓ、１２０ｓ〜）が予め設定されているものとする。また、本実施の形態においては、特徴データの１つである楽曲のテンポとしてテンポの周期を抽出し、テンポの周期が０．３〜１ｓの範囲にあることを想定し、サンプリング周期が２２．０５ｋＨｚである楽曲データに対して１０２４ポイントのＦＦＴ処理を行うように構成した。すなわち、ＦＦＴ処理を行うフレーム長を、１０２４／２２．０５ｋＨｚ≒４６ｍｓとし、想定した楽曲におけるテンポの周期の最小値よりも短い値としている。
【００４１】
次に、特徴データ抽出部１３は、Ｌｏｗ（０〜２００Ｈｚ）、Ｍｉｄｄｌｅ（２００〜６００Ｈｚ）、Ｈｉｇｈ（６００〜１１０５０Ｈｚ）の周波数帯域を予め設定しておき、Ｌｏｗ、Ｍｉｄｄｌｅ、Ｈｉｇｈの３帯域のパワースペクトルを積分し、平均パワーを算出し（ステップＢ４）、ステップＢ３〜ステップＢ４の処理動作を行ったフレーム個数が予め定められた設定値（２０４８）に達したか否かを判断し（ステップＢ５）、ステップＢ３〜ステップＢ４の処理動作を行ったフレーム個数が予め定められた設定値に達していない場合には、データ解析開始点をシフトしながら（ステップＢ６）、ステップＢ３〜ステップＢ４の処理動作を繰り返す。これにより、ステップＢ３〜ステップＢ４の処理動作は、予め定められたフレーム個数の設定値分行われることになり、Ｌｏｗ、Ｍｉｄｄｌｅ、Ｈｉｇｈ３帯域の平均パワーの時系列データをそれぞれ求めることができる。なお、本実施の形態では、解析時間長を６０ｓとし、データ解析開始点を６０ｓ＊２２．０５ｋＨｚ／２０４８≒６４６ポイントずつシフトしながらＦＦＴ処理を行い、２０４８ポイント、６０ｓの平均パワーの時系列データを作成するように構成した。
【００４２】
次に、特徴データ抽出部１３は、ステップＢ３〜ステップＢ５の処理動作によって算出したＬｏｗ、Ｍｉｄｄｌｅ、Ｈｉｇｈの平均パワーの時系列データに対しそれぞれＦＦＴを行い、ゆらぎ情報を算出する（ステップＢ７）。なお、本実施の形態では、平均パワーの時系列データに対して２０４８ポイントのＦＦＴ処理を行うように構成した。
【００４３】
次に、特徴データ抽出部１３は、Ｌｏｗ、Ｍｉｄｄｌｅ、ＨｉｇｈにおけるＦＦＴ分析結果から、横軸を対数周波数、縦軸を対数パワースペクトルとしたグラフにおける近似直線を最小２乗法等によって算出し（ステップＢ８）、近似直線の傾きと、近似直線のＹ切片とを求め（ステップＢ９）、Ｌｏｗ、Ｍｉｄｄｌｅ、Ｈｉｇｈのそれぞれにおける近似直線の傾きおよびＹ切片を特徴データとして抽出する。
【００４４】
次に、特徴データ抽出部１３は、変数ｍが予め定められた設定数Ｍであるか否かを判断し（ステップＢ１０）、変数ｍが設定数Ｍに到達していない場合には、変数ｍをインクリメントし（ステップＢ１１）、ステップＢ３の処理に戻り、変数ｍが設定数Ｍに到達した場合には、特徴データの抽出動作を終了する。これにより、特徴データ抽出部１３においては、図５に示すような、Ｌｏｗ、Ｍｉｄｄｌｅ、Ｈｉｇｈのそれぞれにおける近似直線の傾きおよびＹ切片の６項目の特徴データがＭ組求められることになり、特徴データ抽出部１３は、求めたＭ組の特徴データを印象度データ変換部１４に出力する。
【００４５】
次に、印象度データ変換部１４は、図６に示すような入力層（第１層）、中間層（第ｎ層）、出力層（第Ｎ層）からなる階層型ニューラルネットワークを用い、入力層（第１層）に特徴データ抽出部１３で抽出されたＭ組の特徴データをそれぞれ入力することによって、出力層（第Ｎ層）からＭ組の印象度データを出力、すなわちＭ組（複数組）の特徴データをそれぞれ印象度データに変換する（ステップＡ５）。印象度データは、出力層（第Ｎ層）のニューロン数Ｌ_Ｎと同数の項目数Ｎ（本実施の形態では、Ｎ＝２）となり、印象度データ変換部１４では、図７に示すような、項目数Ｎの印象度データがＭ組求められることになり、印象度データ変換部１４は、求めたＭ組の印象度データを範囲データ決定部１５に出力する。なお、中間層（第ｎ層）の各ニューロンの結合重み値ｗは、評価者によって予め学習が施されている。
【００４６】
また、本実施の形態では、入力層（第１層）に入力される特徴データ、すなわち特徴データ抽出部１３によって抽出される特徴データの項目は、前述のようにＬｏｗ、Ｍｉｄｄｌｅ、Ｈｉｇｈのそれぞれにおける近似直線の傾きおよびＹ切片の６項目であり、入力層（第１層）のニューロン数Ｌ_１は、６個となっている。さらに、印象度データの項目数は、任意であるが、本実施の形態では、印象度データの項目としては、人間の感性によって判断される「明るい、暗い」、「激しい、穏やか」の２項目を設定し、各項目を７段階評価で表すように設定した。従って、出力層（第Ｎ層）のニューロン数Ｌ_Ｎは、２個となっている。中間層（第ｎ層：ｎ＝２，…，Ｎ−１）のニューロン数Ｌｎは、適宜設定すると良い。
【００４７】
さらに、出力層（第Ｎ層）から出力される印象度データの各項目の値は、後述するように階層型ニューラルネットワークを学習させる教師信号として７段階評価の印象度データを用いているため、それぞれほぼ１〜７の範囲の実数となり、１以下は、１に、７以上は、７に変換するように構成した。印象度データにおいて、項目「明るい、暗い」が最小値（１）に近いほど「明るい」印象を与える楽曲データであり、最大値（７）に近いほど「暗い」印象を与える楽曲データである。また、印象度データにおいて、項目「激しい、穏やか」が最小値（１）に近いほど「激しい」印象を与える楽曲データであり、最大値（７）に近いほど「穏やか」な印象を与える楽曲データである。
【００４８】
範囲データ決定部１５は、印象度データ変換部１４から入力されたＭ組（複数組）の印象度データに基づいて範囲データを決定し（ステップＡ６）、決定した範囲データを楽曲データに関連づけて楽曲データベース１６に記憶させる（ステップＡ７）。範囲データは、幅を持たせて楽曲データの印象を表すデータであり、本実施の形態では、Ｍ組の印象度データにおいて、各項目の最大値から最小値の間を範囲データとした。すなわち、図８に示すように、Ｍ組の印象度データにおける項目「明るい、暗い」の最大値が（３．２）、最小値が（２．３）であり、項目「激しい、穏やか」の最大値が（４．２）、最小値が（３．５）である場合には、範囲データ決定部１５は、項目「明るい、暗い」における値の範囲（２．３〜３．２）と、項目「激しい、穏やか」における値の範囲（３．５〜４．２）とを範囲データとして決定する。
【００４９】
次に、印象度データ変換部１４における変換動作（ステップＡ５）に用いられる階層型ニューラルネットワークの学習動作について図９を参照して詳細に説明する。
図９は、図２に示すニューラルネットワーク学習装置における階層型ニューラルネットワークの学習動作を説明するためのフローチャートである。
【００５０】
評価者による階層型ニューラルネットワーク（結合重み値ｗ）の学習は、例えば、図２に示すニューラルネットワーク学習装置４０を用いて行われ、まず、階層型ニューラルネットワーク（結合重み値ｗ）を事前学習させるための事前学習データ（楽曲データの特徴データ＋印象度データ）の入力が行われる。
【００５１】
楽曲データ入力部４１にＣＤ、ＤＶＤ等の楽曲データが記憶されている記憶媒体をセットし、楽曲データ入力部４１から楽曲データを入力し（ステップＣ１）、特徴データ抽出部４３は、楽曲データ入力部４１から入力された楽曲データから特徴データを抽出する（ステップＣ２）。なお、特徴データ抽出部４３によって抽出する特徴データは、楽曲検索装置１０の特徴データ抽出部１３で抽出する特徴データと同一である。
【００５２】
また、音声出力部４２は、楽曲データ入力部４１から入力された楽曲データを音声出力し（ステップＣ３）、評価者は、音声出力部４２からの音声出力を聞くことによって、楽曲の印象度を感性によって評価し、評価結果を印象度データとして印象度データ入力部４４から入力し（ステップＣ４）、結合重み値学習部４５は、印象度データ入力部４４から入力された印象度データを教師信号として受け付ける。なお、本実施の形態では、印象度データの項目としては、人間の感性によって判断される「明るい、暗い」、「激しい、穏やか」の２項目を設定し、各項目についての７段階評価を印象度データとして印象度データ入力部４４で受け付けるように構成した。
【００５３】
次に、特徴データと入力された印象度データとからなる学習データが予め定められたサンプル数Ｔ_１に達したか否かを判断し（ステップＣ５）、学習データがサンプル数Ｔ_１に達するまでステップＣ１〜ステップＣ４の動作が繰り返される。
【００５４】
結合重み値学習部４５における階層型ニューラルネットワークの学習、すなわち各ニューロンの結合重み値ｗの更新は、誤差逆伝播学習法を用いて行う。
まず、初期値として、中間層（第ｎ層）の全てのニューロンの結合重み値ｗを乱数によって−０．１〜０．１程度の範囲の小さな値に設定しておき、結合重み値学習部４５は、特徴データ抽出部４３によって抽出された特徴データを入力信号ｘ_ｊ(ｊ＝１，２，…，８) として入力層（第１層）に入力し、入力層（第１層）から出力層（第Ｎ層）に向けて、各ニューロンの出力を計算する。
【００５５】
次に、結合重み値学習部４５は、印象度データ入力部４４から入力された印象度データを教師信号ｙ_ｊ(ｊ＝１，２，…，８) とし、出力層（第Ｎ層）の出力out_j^Ｎと、教師信号ｙ_ｊとの誤差から、学習則δ_j^Ｎを次式によって計算する。
【００５６】
【数１】

【００５７】
次に、結合重み値学習部４５は、学習則δ_j^Ｎを使って、中間層（第ｎ層）の誤差信号 δ_jⁿ を次式によって計算する。
【００５８】
【数２】

【００５９】
なお、数式２において、ｗは、第 n 層 j 番目と第 n -1 層ｋ番目のニューロンの間の結合重み値を表している。
【００６０】
次に、結合重み値学習部４５は、中間層（第ｎ層）の誤差信号 δ_jⁿ を用いて各ニューロンの結合重み値ｗの変化量Δｗを次式によって計算し、各ニューロンの結合重み値ｗを更新する（ステップＣ６）。なお、次式において、ηは、学習率を表し、評価者による学習では、η_１(0＜η_１≦1)に設定されている。
【００６１】
【数３】

【００６２】
ステップＣ６では、サンプル数Ｔ_１の事前学習データのそれぞれについて学習が行われ、次に、次式に示す２乗誤差Ｅが予め定められた事前学習用の基準値Ｅ_１よりも小さいか否かが判断され（ステップＣ７）、２乗誤差Ｅが基準値Ｅ_１よりも小さくなるまでステップＣ６の動作が繰り返される。なお、２乗誤差Ｅが基準値Ｅ_１よりも小さくなると想定される学習反復回数Ｓを予め設定しておき、ステップＣ６の動作を学習反復回数Ｓ回繰り返すようにしても良い。
【００６３】
【数４】

【００６４】
ステップＣ７で２乗誤差Ｅが基準値Ｅ_１よりも小さいと判断された場合には、結合重み値学習部４５は、事前学習させた各ニューロンの結合重み値ｗを結合重み値出力部４６によって出力し（ステップＣ８）、結合重み値出力部４６から出力された各ニューロンの結合重み値ｗは、印象度データ変換部１４に記憶される。
【００６５】
次に、楽曲検索部１７における楽曲検索動作について図１０を参照して詳細に説明する。
図１０は、図１に示す楽曲検索部における楽曲検索動作を説明するための説明図である。
【００６６】
楽曲検索部１７は、ＰＣ操作部１８から印象度データの各項目の値を検索条件として受け付け、受け付けた検索条件に基づいて楽曲データベース１６に記憶されている楽曲データを検索し、受け付けた検索条件が範囲データに含まれる楽曲データを特定する。例えば、印象度データの項目である「明るい、暗い」、「激しい、穏やか」の２項目の範囲を示す範囲データと共に、楽曲Ａ〜Ｇが楽曲データベース１６に記憶されている場合には、図１０に示すように、７個の範囲データが存在しており、ＰＣ操作部１８から検索条件として受け付けた印象度データの各項目の値を含む範囲データの楽曲データが楽曲検索部１７によって特定される。図１０に示すように、印象度データの項目「明るい、暗い」の値（３）と、項目「激しい、穏やか」の値（４）とを検索条件として受け付けた場合には、楽曲Ａと、楽曲Ｇとが特定される。
【００６７】
次に、楽曲検索部１７は、特定した楽曲データの書誌データを検索結果としてＰＣ表示部１９に表示させることで検索結果をユーザに通知し、ＰＣ操作部１８から再生指示が入力されると、特定した楽曲データを順次もしくはランダムに楽曲データベース１６から読み出し、読み出した楽曲データを音声出力部２０に出力してスピーカ２１から音声出力させる。
【００６８】
以上説明したように、本実施の形態によれば、特徴データ抽出部１３は、楽曲データから複数組の特徴データを抽出し、範囲データ決定部１５は、抽出した複数組の前記特徴データに基づいて、幅を持って楽曲データの印象を表す範囲データを決定し、楽曲検索部１７は、受け付けた検索条件を含む範囲データの楽曲データを特定するように構成することにより、印象が異なるフレーズの中のいずれかにユーザが所望する印象が含まれている場合には、該当する楽曲データが検索されるため、印象の異なるフレーズを考慮して検索することができ、ユーザが所望する印象の楽曲を精度良く検索することができるという効果を奏する。
【００６９】
なお、本実施の形態では、楽曲データの時間軸上の異なる箇所からそれぞれ特徴データを抽出すると共に、複数組の特徴データをそれぞれ印象度データに変換することで、複数組の印象度データを求め、求めた複数組の印象度データに基づいて範囲データを決定するように構成したが、楽曲データの時間軸上の同一箇所から幅を持たせた特徴データを抽出するように構成し、幅を持たせた特徴データを変換した印象度データに基づいて範囲データを決定するようにしても良い。
【００７０】
図１１は、図１に示す特徴データ抽出部で幅を持たせた特徴データの抽出例を説明するための説明図である。
図４に示すステップＢ８において、近似直線を算出する代わりに、図１１に示すように上限直線と下限直線とを求め、ステップＢ９において、上限直線と下限直線との傾きと、Ｙ切片とをそれぞれ求めるように構成する。なお、図１１は、Ｌｏｗのパワースペクトルを示しており、Ｍｉｄｄｌｅ、Ｈｉｇｈについても同様に上限直線と下限直線とを求める。また、上限直線と下限直線とを求めるに際し、対数周波数は、マスクする範囲（例えば０．１Ｈｚ未満をマスクし、０．１Ｈｚのデータに基づいて上限直線と下限直線とを求める等）を設定してもよい。
【００７１】
これにより、２組の特徴データ（上限直線に基づく特徴データと下限直線に基づく特徴データ）が求められることになり、２組の特徴データをそれぞれ印象度データに変換し、変換された２組の印象度データに基づいて範囲データを決定することができる。
【００７２】
さらに、本実施の形態では、楽曲データの時間軸上の異なる箇所からそれぞれ特徴データを抽出すると共に、複数組の特徴データをそれぞれ印象度データに変換することで、複数組の印象度データを求め、求めた複数組の印象度データに基づいて範囲データを決定するように構成したが、特徴データを印象度データに変換することなく、直接複数組の特徴データに基づいて範囲データを決定するように構成しても良い。
【００７３】
なお、本発明が上記各実施の形態に限定されず、本発明の技術思想の範囲内において、各実施の形態は適宜変更され得ることは明らかである。また、上記構成部材の数、位置、形状等は上記実施の形態に限定されず、本発明を実施する上で好適な数、位置、形状等にすることができる。なお、各図において、同一構成要素には同一符号を付している。
【図面の簡単な説明】
【００７４】
【図１】本発明に係る楽曲検索装置の実施の形態の構成を示すブロック図である。
【図２】図１に示す楽曲検索装置に用いられるニューラルネットワークを事前に学習させるニューラルネットワーク学習装置の構成を示すブロック図である。
【図３】図１に示す楽曲検索装置における楽曲登録動作を説明するためのフローチャートである。
【図４】図１に示す特徴データ抽出部における特徴データ抽出動作を説明するためのフローチャートである。
【図５】図１に示す特徴データ抽出部から出力される特徴データ例を示す図である。
【図６】図１に示す印象度データ変換部で用いられる階層型ニューラルネットワーク例を示す説明図である。
【図７】図１に示す印象度データ変換部から出力される印象度データ例を示す図である。
【図８】図１に示す範囲データ決定部における範囲データ決定動作を説明するための説明図である。
【図９】図２に示すニューラルネットワーク学習装置における階層型ニューラルネットワークの学習動作を説明するためのフローチャートである。
【図１０】図１に示す楽曲検索部における楽曲検索動作を説明するための説明図である。
【図１１】図１に示す特徴データ抽出部で幅を持たせた特徴データの抽出例を説明するための説明図である。
【符号の説明】
【００７５】
１０楽曲検索装置
１１楽曲データ入力部
１２圧縮処理部
１３特徴データ抽出部
１４印象度データ変換部
１５範囲データ決定部
１６楽曲データベース
１７楽曲検索部
１８ＰＣ操作部
１９ＰＣ表示部
２０音声出力部
２１スピーカ
４０ニューラルネットワーク学習装置
４１楽曲データ入力部
４２音声出力部
４３特徴データ抽出部
４４印象度データ入力部
４５結合重み値学習部
４６結合重み値出力部

【特許請求の範囲】
【請求項１】
楽曲データベースに記憶された楽曲データを検索する楽曲検索装置であって、
前記楽曲データから複数組の特徴データを抽出する特徴データ抽出手段と、
該特徴データ抽出手段によって抽出された複数組の前記特徴データに基づいて、幅を持って前記楽曲データの印象を表す範囲データを決定する範囲データ決定手段と、
検索条件の入力を受け付ける操作手段と、
該操作手段から入力された前記検索条件を含む前記範囲データの前記楽曲データを特定する楽曲検索手段とを具備することを特徴とする楽曲検索装置。
【請求項２】
前記特徴データ抽出手段によって抽出された複数組の前記特徴データを人間の感性で判断する印象度データにそれぞれ変換する印象度データ変換手段を具備し、
前記範囲データ決定手段は、前記印象度データ変換手段によって変換された複数組の前記印象度データに基づいて前記範囲データを決定することを特徴とする請求項１記載の楽曲検索装置。
【請求項３】
前記印象度データ変換手段によって変換された前記印象度データは、複数の項目からなり、
前記範囲データ決定手段は、前記印象度データの各項目の最大値から最小値の間を前記範囲データとして決定し、
前記操作手段は、前記検索条件として前記印象度データの各項目の値を受け付けることを特徴とする請求項２記載の楽曲検索装置。
【請求項４】
前記特徴データ抽出手段は、前記楽曲データの時間軸上の異なる箇所からそれぞれ前記特徴データを抽出することを特徴とする請求項１乃至３のいずれかに記載の楽曲検索装置。
【請求項５】
楽曲データベースに記憶された楽曲データを検索する楽曲検索方法であって、
前記楽曲データから複数組の特徴データを抽出し、
該抽出した複数組の前記特徴データに基づいて、幅を持って前記楽曲データの印象を表す範囲データを決定し、
検索条件の入力を受け付け、
該検索条件を含む前記範囲データの前記楽曲データを特定することを特徴とする楽曲検索方法。
【請求項６】
前記抽出した複数組の前記特徴データを人間の感性で判断する印象度データにそれぞれ変換し、
該変換した複数組の前記印象度データに基づいて前記範囲データを決定することを特徴とする請求項５記載の楽曲検索方法。
【請求項７】
前記変換した前記印象度データは、複数の項目からなり、
前記印象度データの各項目の最大値から最小値の間を前記範囲データとして決定し、
前記検索条件として前記印象度データの各項目の値を受け付けることを特徴とする請求項６記載の楽曲検索方法。
【請求項８】
前記楽曲データの時間軸上の異なる箇所からそれぞれ前記特徴データを抽出することを特徴とする請求項５乃至７のいずれかに記載の楽曲検索方法。

【図１】