説明

特徴量照合装置,プログラム

【課題】特徴量を照合した結果を用いて処理を実行する技術において、出力結果が、利用者が意図したものとなる可能性の向上。
【解決手段】特徴量照合処理では、入力音声の音高推移を導出し(S250)、その導出した音高推移を平滑化した平滑化推移を導出する(S260)。さらに、音声特徴量として、平滑化推移における音高極値の間の相対音高及び相対音長を導出する(S280)。その導出された音声特徴量を単語化した照合音声特徴量を生成し(S290)、比較頂点データに照合する(S330)。その照合の結果、入力音声の時間進行に沿った照合特徴量が連続して、比較頂点データに一致するほど、大きな値の特徴量一致度を導出する(S350)。それら導出された特徴量一致度が反映された統合一致度の中で、値が最大であるものに対応する楽曲を意図予想曲として特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音高の推移から抽出した特徴量を用いた処理を実行する特徴量照合装置、及びプログラムに関する。
【背景技術】
【0002】
従来、予め用意された複数の曲の中から、利用者が発声することで入力された音声に従って、その利用者が意図した曲を検索する楽曲検索装置が知られている。
この種の楽曲検索装置では、曲毎に、各曲の譜面を表す譜面データ(即ち、各音の音高と音価との両方が表されたデータ)が予め用意されている。そして、当該楽曲検索装置に入力された音声を採譜し、その採譜した結果である音符(即ち、各音の音高と音価との両方)それぞれを、音声が入力された順序に従って譜面データに照合する。その照合の結果、一致度が基準値よりも高い譜面データに対応する曲を、利用者が意図した曲として推定することがなされている(例えば、特許文献1参照)。
【0003】
つまり、特許文献1に記載の楽曲検索装置では、採譜した結果(即ち、各音の音高と音長とによって規定される音符)を特徴量として用いて、利用者が意図した曲を予め用意された曲の中から検索している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2002−157255号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、一般的に、専門的な訓練を受けていない人物(以下、一般ユーザと称す)が歌唱する場合、その一般ユーザが思い描く全ての音高を正確に発声することは困難である。よって、一般ユーザが歌唱する場合、その一般ユーザが意図した曲に対応する譜面データに表された音高(以下、譜面音高と称す)に一致しない音高にて発声される分量・割合が多い。
【0006】
このような状況下においては、特許文献1に記載の楽曲検索装置では、譜面音高に一致しない音高のまま採譜される。このため、特許文献1に記載の楽曲検索装置では、採譜結果である音符の中に、譜面データに一致しない音符が含まれることになり、採譜結果が、利用者が意図した曲とは別の曲になるという問題があった。
【0007】
つまり、採譜した結果である音符を特徴量として用いると、音高の細かな推移まで一致しなければ、出力結果が、利用者が意図したものにならないという問題があった。
そこで、本発明は、特徴量を照合した結果を用いて処理を実行する技術において、出力結果が、利用者が意図したものとなる可能性を向上させることを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するためになされた本発明の特徴量照合装置では、音高推移導出手段が、時間進行に沿って連続して入力された入力音声から、音高の推移を表す音高推移を導出し、平滑化手段が、その導出された音高推移を平滑化した平滑音高推移を導出する。これと共に、極値検出手段が、平滑音高推移から、その平滑音高推移についての音高極値である平滑音高極値を検出し、その検出された平滑音高極値に基づいて、特徴量導出手段が、平滑音高極値についての推移特徴量である音声特徴量を導出する。なお、ここでいう音高極値とは、音高推移における音高変化の極値であり、ここでいう推移特徴量とは、時間進行に沿って連続する音高極値の間での音高差及び時間長の比率である。
【0009】
さらに、本発明の特徴量照合装置では、特徴量照合手段が、特徴量導出手段で導出された音声特徴量それぞれを旋律特徴量それぞれに照合することで、音声特徴量と旋律特徴量との一致度が高いほど大きな値となる特徴量一致度を曲毎に導出すると共に、結果出力手段が、少なくとも、特徴量一致度に基づき、特徴量一致度の中で、値が最大の特徴量一致度に対応する曲である入力対応曲を出力する。ただし、ここでいう旋律特徴量とは、曲毎に予め用意され、かつ曲を構成する構成音の音高推移が平滑化された平滑化旋律における音高極値についての推移特徴量である。
【0010】
つまり、本発明の特徴量照合装置では、音声特徴量として、平滑音高推移における音高極値の間の音高差及び時間長の比率、即ち、相対的な音高及び音長を用いている。しかも、本発明の特徴量照合装置では、音高推移を平滑化することで、平滑音高推移を導出している。
【0011】
よって、本発明の特徴量照合装置によって導出される音声特徴量は、入力音声における音高の推移の全体的な傾向を表すものとなり、この結果、音声特徴量は、細かな音高の推移を無視した特徴量とすることができる。
【0012】
したがって、このような音声特徴量を旋律特徴量に照合することで導出された特徴量一致度が最も大きなものに対応する曲を入力対応曲とすることで、出力結果が、利用者が意図したものとなる可能性を向上させることができる。換言すれば、本発明の特徴量照合装置によれば、利用者が意図した曲が検索され、出力される可能性を向上させることができる。
【0013】
また、本発明の特徴量照合装置における特徴量照合手段は、請求項2に記載のように、時間進行に沿った音声特徴量それぞれが連続して一致する旋律特徴量が多いほど、大きな値の特徴量一致度を導出するように構成されていても良い。
【0014】
このように構成された特徴量照合装置では、時間進行の中で導出された1つの音声特徴量が、偶発的に旋律特徴量に一致しただけでは、導出される特徴量一致度の値は大きなものとならない。このため、本発明の特徴量照合装置によれば、誤って、利用者が意図しない結果となることを防止できる。
【0015】
なお、本発明の特徴量照合装置において、平滑化手段が実行する平滑化は、請求項3に記載のように、単位区間それぞれに含まれる全音高の中央値の算出、及び移動平均値の算出の少なくとも一方によって実行されていても良い。
【0016】
このような平滑化により、音高遷移から平滑化音高遷移を導出する際に、使用者が意図しない音高の細かな揺らぎや、ノイズを除去できる。
特に、中央値の算出と、移動平均の算出との両方を実行すれば、音高の細かな揺らぎや、ノイズをより確実に実行することができる。
【0017】
また、本発明の特徴量照合装置において、特徴量照合手段が実行する出力とは、請求項4に記載のように、入力対応曲を画像にて表示、入力対応曲を音声にて通知すること、またはそれらの組合せであっても良い。
【0018】
このような特徴量照合装置によれば、当該特徴量照合装置の使用者に入力対応曲を認識させることができる。
なお、ここでいう画像とは、表示装置に表示されるものであり、表示装置に表示される画面(例えば、文字列などからなる)を含むものである。
【0019】
さらに、本発明の特徴量照合装置は、請求項5に記載のように、音高推移に従って、音符化手段が、入力音声の音高及び音価を表す音符データに変換し、音符照合手段が、曲毎に予め用意され、かつ曲を構成する構成音それぞれの音高及び音価を表す基準音符データに、音符化手段にて変換された音符データそれぞれを曲毎に照合することで音符一致度を導出するように構成されていても良い。
【0020】
ただし、このように構成された特徴量照合装置における照合結果出力手段は、特徴量一致度、及び音符一致度に基づいて、特徴量一致度及び音符一致度の両方が大きいほど大きな値となるように演算した結果、最も大きな値に対応する曲を入力対応曲として出力するように構成されている必要がある。
【0021】
このような特徴量照合装置では、音高の推移に対して傾向が異なる2つの特徴量を用いて、入力対応曲を検索して出力する。このため、本発明の特徴量照合装置によれば、利用者が意図した曲を出力結果(即ち、入力対応曲)とすることを、様々な音高推移の傾向を有した曲、即ち、より多くの曲に対して実現できる。
【0022】
本発明は、コンピュータに実行させるプログラムとしてなされたものでも良い。
ただし、本発明のプログラムは、請求項6に記載のように、入力音声から音高推移を導出する音高推移導出手順と、その導出された音高推移を平滑化した平滑音高推移を導出する平滑化手順と、その導出された平滑音高推移から、その平滑音高推移の平滑音高極値を検出する極値検出手順と、極値検出手順にて検出された平滑音高極値に基づいて、入力音声の音声特徴量を導出する特徴量導出手順と、特徴量導出手順にて導出された音声特徴量それぞれを旋律特徴量それぞれに照合することで、特徴量一致度を曲毎に導出する特徴量照合手順と、その特徴量照合手順で導出された特徴量一致度に基づき、入力対応曲を出力する結果出力手順とをコンピュータに実行させる必要がある。
【0023】
本発明がこのようになされたプログラムであれば、コンピュータ読み取り可能な記録媒体(例えば、DVD−ROM、CD−ROM、ハードディスクや、フラッシュメモリ等)に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項1に記載された特徴量照合装置として機能させることができる。
【図面の簡単な説明】
【0024】
【図1】楽曲検索システムの概略構成を示すブロック図である。
【図2】ガイドメロディを模式的に示した模式図である。
【図3】頂点データの作成手順を説明するための説明図である。
【図4】頂点データの作成手順を説明するための説明図である。
【図5】頂点データの概要を示した説明図である。
【図6】楽曲検索処理の処理手順を示したフローチャートである。
【図7】特徴量照合検索処理の処理手順を示したフローチャートである。
【図8】音符照合検索処理の処理手順を示したフローチャートである。
【発明を実施するための形態】
【0025】
以下に本発明の実施形態を図面と共に説明する。
まず、図1は、本発明が適用された楽曲検索システムの概略構成を示すブロック図である。
〈楽曲検索システムについて〉
楽曲検索システム1は、利用者が発声することで入力された入力音声から、その音声を入力する際に利用者が意図したと推定される楽曲(以下、意図予想曲と称す)を検索するものである。なお、検索結果として出力される意図予想曲が、本発明の入力対応曲に相当する。
【0026】
このため、図1に示すように、楽曲検索システム1は、楽曲毎に予め用意された楽曲データを格納するサーバ40と、入力音声から特徴量を抽出して、その抽出した特徴量を楽曲データに照合することで入力対応曲を出力する音声処理装置20とを備えている。なお、音声処理装置20は、ネットワーク(例えば、専用回線やWAN)を介してサーバ40に接続されている。
【0027】
このうち、サーバ40は、楽曲データを格納する記憶装置41と、ROM,RAM,CPUを少なくとも有した周知のマイクロコンピュータ42とを備えた情報処理装置を中心に構成された周知のサービス用サーバ装置である。
〈楽曲データについて〉
次に、記憶装置41に格納される楽曲データについて説明する。
【0028】
この楽曲データは、当該楽曲を識別するためのデータである楽曲情報と、当該楽曲1曲の演奏開始から演奏終了までに要する時間を示す時間情報とを有している。さらに、楽曲データは、当該楽曲の旋律に関するデータであるガイドメロディと、当該楽曲における音高の時間軸に沿った推移の特徴を表す頂点データとを有している。
【0029】
そして、楽曲情報には、楽曲を特定するための曲番号データと、その楽曲の曲名を示す曲名データとが少なくとも含まれている。
また、ガイドメロディは、図2に示すように、楽曲の主旋律(以下、基準旋律と称す)を形成する各構成音(図2中:no1,no2,…no9)について、それぞれの音高及び音価が表された周知のデータであり、本発明の基準音符データに相当するものである。具体的に、本実施形態における構成音の音長は、楽音出力開始時間及び楽音出力終了時間によって表されている。ただし、ここで言う楽音出力開始時間とは、その構成音の出力を開始するまでの完成楽曲の演奏開始からの時間であり、楽音出力終了時間とは、その構成音の出力を終了するまでの完成楽曲の演奏開始からの時間である。つまり、楽音出力開始時間と楽音出力終了時間との間の時間長が、当該構成音の音長となる。
〈頂点データについて〉
次に、楽曲データに含まれる頂点データは、予め作成されたものであり、ガイドメロディによって表される基準旋律を平滑化した平滑化旋律についての推移特徴量からなる。この推移特徴量とは、時間進行に沿った音高の推移(以下、音高推移と称す、頂点データにおいては、基準旋律が、この「音高の推移」に相当)を平滑化した平滑化推移(頂点データにおいては、平滑化旋律が、この「平滑化推移」に相当)にて、時間進行に沿って隣接する極値間の相対音高、及び相対音長である。以下、平滑化旋律(即ち、基準旋律)についての推移特徴量を旋律推移特徴量と称す。
【0030】
その相対音高及び相対音長について、図3,4を用いて説明する。
この図3(A)は、平滑化旋律を簡易的に示した図面であり、図3(B)は、平滑化旋律における極値(以下、平滑音高極値と称す)を簡易的に示した図面である。
【0031】
そして、相対音高及び相対音長を導出する際には、まず、基準旋律において、時間進行に沿って互いに連続するように規定された時間長それぞれ(以下、単位区間とする)に含まれる全音高を取得する。なお、単位区間は、互いに重複するように基準旋律に対して規定される。そして、単位区間毎に取得された全音高の中央値を算出し、その算出された中央値の移動平均を求めることで、基準旋律を平滑化する。この平滑化を規定回数実行した結果を、時間進行に沿って分布させることにより、図3(A)に示すような平滑化旋律が導出される。
【0032】
続いて、その導出された平滑化旋律を平滑化微分した結果から、図3(B)に示すような、平滑音高極値それぞれ(図3(B)中、exg1、exg2、…exg6)を検出する。そして、図4に示すように、その検出された平滑音高極値exgの中で、時間進行に沿って互いに隣接する平滑音高極値exgの組それぞれ(図4中、exg1とexg2との組、exg2とexg3との組、…exg5とexg6との組))から、音高差dpg(図4中、第1音高差dpg1,2、第2音高差dpg2,3、…、第5音高差dpg5,6)をそれぞれ導出する。さらに、時間進行に沿って互いに隣接する平滑音高極値exg間(以下、対象区間とする)の時間長tg(図4中、第1時間長tg1,2、第2時間長tg2,3、…、第5時間長tg5,6)をそれぞれ導出する。そして、導出された時間長tgに従って、時間進行に沿って互いに隣接する対象区間の時間長tg同士の比率(以下、時間比率とする)dtgを導出する。
【0033】
続いて、それらの導出された音高差dpg、及び時間比率dtgを単純化し、その単純化された音高差dpgを相対音高、単純化された時間比率dtgを相対音長として特定する。
なお、本実施形態における単純化は、音高差dp及び時間比率dtそれぞれに予め設定された範囲を表す区分基準に従って実施される。
【0034】
具体的に、本実施形態では、単純化の対象が音高差dpである場合、音高差dpの絶対値が、予め規定された第1特定値未満であれば、相対音高を「1」と特定する。また、音高差dpの絶対値が、第1特定値以上かつ第2特定値(ただし、第2特定値>第1特定値)未満であれば、相対音高を「2」と特定し、第2特定値以上であれば、相対音高を「3」と特定している。さらに、本実施形態では、音高差dpが負の値であれば、各相対音高の前に「マイナス記号」を付す。
【0035】
一方、本実施形態では、単純化の対象が時間比率dtである場合、その時間比率dtが、予め規定された第3特定値(ただし、第3特定値<1)未満であれば、相対音長を「1」と特定する。また、時間比率dtが第2特定値(ただし、第2特定値>1)以上であれば、相対音長を「3」と特定し、時間比率dtが第1特定値以上かつ第2特定値未満であれば、相対音長を「2」と特定している。
【0036】
このように特定された相対音高及び相対音長(即ち、旋律推移特徴量)それぞれを、当該相対音高及び相対音長が時間進行に沿って何番目の旋律推移特徴量であるのかを表すデータ番号に対応付けることで、図5に示すような頂点データが生成される。
【0037】
なお、平滑音高極値exg、音高差dpg、時間長tg、時間比率dtgに付された添え字gは、これらの平滑音高極値ex、音高差dp、時間長t、時間比率dtが基準旋律から導出されたものであることを表すものである。
〈音声処理装置について〉
次に、音声処理装置20について説明する。
【0038】
ここで図1へと戻り、音声処理装置20は、通信部21と、表示部22と、操作受付部23と、マイクロホン24と、音声入力部25と、音声出力部26と、スピーカ27と、記憶部28と、制御部30とを備えている。
【0039】
このうち、通信部21は、音声処理装置20をネットワーク(例えば、専用回線や、WAN)に接続し、その接続されたネットワークを介して外部(即ち、サーバ40)と通信を行うための通信インタフェースである。
【0040】
そして、表示部22は、例えば、液晶ディスプレイ等から構成された周知の表示装置である。また、操作受付部23は、例えば、キーボードやポインティングデバイス(例えば、マウス)等の周知の入力装置からなる。
【0041】
マイクロホン24は、音声を入力するための周知の装置である。そして、音声入力部25は、マイクロホン24を介して入力された音声(アナログ信号)をサンプリングし、そのサンプリング値(標本値)を制御部30に入力するAD変換器として構成されている。なお、以下では、音声入力部25にてサンプリング値へと変換された入力音声全体を音声データと称す。
【0042】
さらに、音声出力部26は、制御部30からの指令に基づく制御信号を、スピーカ27に出力するように構成されている。そして、スピーカ27は、音声出力部26からの制御信号を音に変換して放音するように構成されている。
【0043】
また、記憶部28は、電源が切断されても記憶内容を保持すると共に、記憶内容を読み書き可能に構成された記憶装置(例えば、ハードディスクドライブ)であり、プログラムや通信部21を介してサーバから取得した楽曲データ等が格納される。
【0044】
次に、制御部30は、ROM31と、RAM32と、CPU33とを少なくとも有した周知のマイクロコンピュータを中心に構成されている。
このうち、ROM31は、電源が切断されても記憶内容を保持する必要のあるプログラムやデータを格納するものである。また、RAM32は、プログラムやデータを一時的に格納するものであり、記憶部28からの処理プログラムが転送されて格納されるものである。
【0045】
そして、CPU33は、ROM31やRAM32に記憶された処理プログラムに従って各処理を実行して、音声処理装置20を構成する各部21,22,23,25(24),26(27),28に対する制御する。
【0046】
なお、本実施形態では、制御部30(より正確には、CPU33)が実行する処理プログラムとして、利用者がマイクロホン24を介して入力した入力音声に基づいて、予め用意された楽曲の中から、入力対応曲を検索する楽曲検索処理を実行するためのものが用意されている。
【0047】
そして、楽曲検索処理には、入力音声についての推移特徴量である音声特徴量を、入力音声から導出し、その導出された音声特徴量を頂点データに照合した結果に基づいて、意図予想曲を検索する特徴量照合処理が含まれている。さらに、楽曲検索処理には、入力音声を採譜した採譜結果を、音符データに照合した結果に基づいて意図予想曲を検索する音符照合処理が含まれている。
【0048】
つまり、音声処理装置20が楽曲検索処理を実行することにより、本発明の特徴量照合装置として機能する。
なお、詳しくは後述する特徴量照合処理において音声特徴量を導出する過程で導出される平滑音高極値ex、音高差dp、時間長t、時間比率dtには、添え字iを付す。この添え字iは、その添え字iが付されたそれらの指標が、音声処理装置20に入力された入力音声から導出されたことを意味するものであり、基準旋律から導出されたそれらの指標と区別するためのものである。なお、平滑音高極値exi、音高差dpi、時間長ti、時間比率dtiは、導出する際に入力される対象が異なること(すなわち、基準旋律であるか入力音声であるか)を除けば、平滑音高極値exg、音高差dpg、時間長tg、時間比率dtgと同様の処理によって導出されている。
〈楽曲検索処理について〉
次に、制御部30が実行する楽曲検索処理について説明する。
【0049】
ここで、図6は、楽曲検索処理の処理手順を示すフローチャートである。
この楽曲検索処理は、マイクロホン24を介して入力された入力音声に基づく音声データが、少なくとも1つ記憶部28に格納された後、操作受付部23を介して起動指令を受け付けると起動される。ここでの入力音声は、時間の進行に沿って、一定時間以上連続(継続)したものであることが望ましい。
【0050】
そして、図6に示すように、楽曲検索処理は、起動されると、まず、S110にて、記憶部28に記憶された音声データの1つから音声特徴量を導出し、その導出した音声特徴量を、各楽曲の頂点データに照合する特徴量照合処理を実行する。この特徴量照合処理により、音声特徴量を頂点データに照合した結果として、音声特徴量と頂点データとの一致度合いが高いほど値が大きい特徴量一致度が、楽曲毎に導出される。
【0051】
続く、S120では、記憶部28に記憶された音声データの1つから、その音声データに対応する入力音声を採譜した結果である音声音符データを導出し、その導出した音声音符データを各楽曲のガイドメロディに照合する音符照合処理を実行する。この音符照合処理により、音声音符データをガイドメロディに照合した結果として、音声音符データとガイドメロディとの一致度合いが高いほど大きな値となる音符一致度が、楽曲毎に導出される。
【0052】
そして、S130では、S110にて導出された特徴量一致度、及びS120にて導出された音符一致度に基づいて、同一楽曲に対する特徴量一致度及び音符一致度の両方が大きな値であるほど、大きな値となる統合一致度を楽曲毎に導出する。
【0053】
続く、S140では、S130にて導出された統合一致度の中で、値が最大である統合一致度に対応する楽曲を意図予想曲として特定する。さらに、S150では、S140にて特定された意図予想曲についての曲名データを取得し、その取得された曲名データに対応する曲名を、表示部22に表示すると共に、その曲名をスピーカ27から音声にて出力する。すなわち、意図予想曲の曲名が報知される。
【0054】
その後、本楽曲検索処理を終了する。
〈特徴量照合処理について〉
次に、楽曲検索処理のS110にて起動される特徴量照合処理について説明する。
【0055】
ここで、図7は、特徴量照合処理の処理手順を示したフローチャートである。
この特徴量照合処理は、図7に示すように、楽曲検索処理のS110にて起動されると、まず、S210にて、記憶部28に記憶されている音声データの中から、ひとつの音声データを取得する。
【0056】
続く、S220では、S210にて取得した音声データに対して、周知のノーマライズ及び周知のノイズ除去処理を事前処理として実行する。
さらに、S230では、S220にて事前処理が実行された音声データを周波数解析する。この周波数解析として、本実施形態では、音声データにおける予め規定されたサンプリング数の標本値をFFT(Fast Fourier Transform)する。これにより、サンプリング数に対応する分析期間内での音声の振幅スペクトル(即ち、周波数成分の分布)が導出される。なお、この周波数解析は、サンプリング数の標本値を、音声データの開始から終了までの間を、時間進行に沿った一部を重複させながら繰り返し取得して実行される。
【0057】
続いて、S240では、周知の手法により、S230にて導出した振幅スペクトルに基づいて、各分析期間における音高(音声基本周波数f0)を推定する。この基本周波数f0を検出する方法として、本実施形態では、振幅スペクトルの周波数軸の自己相関値を用いる。
【0058】
その周波数軸の自己相関値は、1つの振幅スペクトルの各周波数成分における振幅値と、その振幅スペクトルにおける各周波数成分から規定周波数幅だけ増加させた周波数成分における振幅値との積和である。このため、規定周波数幅だけ変位させた際に、基本周波数成分、またはその基本周波数の倍音成分が一致すると、自己相関値は大きな値となる。よって、周波数軸の自己相関値は、振幅スペクトル同士を、周波数軸に沿って規定周波数幅ずつ変位させた際の相関の強さであり、基本周波数成分の確からしさを表すものとなる。
【0059】
よって、本実施形態においては、変位幅そのものを周波数として捉え、周波数軸の自己相関値が最大となるポジションの周波数を音声基本周波数f0として推定する。
続く、S250では、S240にて推定された音高(音声基本周波数f0)に基づいて、その音高の時間進行に沿った推移(即ち、音高推移、以下、音声音高推移と称す)を導出する。
【0060】
そして、S260では、S250にて導出された音声音高推移を平滑化する。この平滑化として、本実施形態では、音声音高推移における単位区間(即ち、規定された時間長を有す区間)に含まれる全音高を取得する。その取得した全音高の中央値を算出し、その算出された中央値の移動平均を求めることで、音声音高推移を平滑化する。この平滑化を規定回数実行した結果を、時間進行に沿って分布させることにより、平滑化推移(本発明の平滑音高推移に相当)として導出する。なお、単位区間は、音声音高推移において、時間進行に沿って互いに連続かつ重複するように繰り返し規定される。
【0061】
さらに、S270では、S260にて導出された平滑化推移を平滑化微分し、その平滑化微分の結果に従って、平滑音高推移についての平滑音高極値exiを検出する。
続く、S280では、S270にて検出された平滑音高極値exiの中で、時間進行に沿って隣接する平滑音高極値exiに基づいて、入力音声についての相対音高及び相対音長を導出する。具体的には、時間進行に沿って隣接する平滑音高極値exiから、音高差dpiそれぞれ、及び時間比率dtiそれぞれを導出する。そして、それらの導出した音高差dpi、及び時間比率dtiを、区分基準に従って単純化し、その単純化された音高差dpiを相対音高として、単純化された時間比率dtiを相対音長として特定する。つまり、S280では、相対音高および相対音長が音声特徴量として導出される。
【0062】
続く、S290では、S280にて導出された音声特徴量を、入力音声の時間進行に沿って連続する予め規定された特徴量規定数毎に単語化(即ち、グループ化)する。この単語化に際しては、音声特徴量の一部が互いに重複するように実施する。以下、単語化された音声特徴量それぞれを、照合音声特徴量と称す。
【0063】
さらに、S300では、サーバ40から取得され記憶部28に記憶されている楽曲データに対応する楽曲の中から、照合音声特徴量を頂点データに照合する楽曲である照合楽曲を1つ決定する。
【0064】
続く、S310では、S290にて生成された全ての照合音声特徴量の中から、1つの照合音声特徴量を取得する。ただし、照合音声特徴量を取得する際には、入力音声の時間進行において、音声開始に近い音声特徴量からなる照合特徴量を取得する。
【0065】
そして、S320では、S300にて決定された照合楽曲に対応する頂点データを形成する全ての旋律推移特徴量の中から、基準旋律の時間進行に沿って連続する特徴量規定数分だけ、旋律推移特徴量を単語化して取得する。この特徴量規定数分の旋律推移特徴量を単語化する際には、基準旋律の時間進行において、その基準旋律の開始に近い平滑音高極値から導出された旋律推移特徴量から実行する。以下、S320にて単語化した特徴量規定数分の旋律推移特徴量を、比較頂点データと称す。
【0066】
続いて、S330では、S310にて取得した照合音声特徴量を、S320にて取得した比較頂点データに照合する。その照合の結果、照合音声特徴量と比較頂点データとが一致すれば(S340:YES)、S350へと進む。
【0067】
そのS350では、特徴量一致度を導出すると共に、その導出した特徴量一致度をデータ番号と対応付けて記憶し、その後、S360へと進む。この特徴量一致度と対応付けられるデータ番号は、比較頂点データを形成する複数の旋律推移特徴量の中で、基準旋律の時間進行に沿って最初の旋律推移特徴量と対応付けられたものである。
【0068】
一方、S340での照合の結果、照合音声特徴量と比較頂点データとが一致しなければ(S340:NO)、S360へと進む。
そのS360では、全ての旋律推移特徴量を単語化して、それらの単語化した旋律推移特徴量(即ち、比較頂点データ)に、S310にて取得した照合音声特徴量を照合したか否かを判定する。その判定の結果、全ての比較頂点データに照合音声特徴量を照合していなければ、S320へと戻る。そのようにして移行したS320では、前回のS320にて単語化した旋律推移特徴量に、基準旋律の時間進行に沿った一部が重複するように特徴量規定数分だけ、旋律推移特徴量を単語化して取得する。すなわち、新たな比較頂点データを生成して、S330へと進む。
【0069】
これにより、1つの楽曲における全ての比較頂点データに対して、1つの照合音声特徴量の照合が完了するまで、S320からS350が繰り返し実行される。
なお、S360での判定の結果、全ての比較頂点データに照合音声特徴量を照合していれば、S370へと進む。そのS370では、全ての照合音声特徴量を取得して、各照合音声特徴量を比較頂点データに照合済みであるか否かを判定する。
【0070】
そのS370での判定の結果、全ての照合音声特徴量を比較頂点データに照合していなければ、S310へと戻る。そのようにして移行したS310では、比較頂点データに対して未照合の照合音声特徴量の中から、1つの照合音声特徴量を取得する。ただし、照合音声特徴量を取得する際には、入力音声の時間進行において、音声開始に近い音声特徴量からなる照合特徴量を取得する。
【0071】
その後、S370にて肯定判定されるまで、S310〜S370までのステップを繰り返す。以下、S310〜S370までの一回の流れを、別特徴照合サイクルと称す。また、別特徴照合サイクルにて、照合音声特徴量を取得してから新たな照合音声特徴量を取得するまでのS320〜S360の一回の流れを、同一特徴照合サイクルと称す。
【0072】
この同一特徴照合サイクルを繰り返す過程の中で、S340にて肯定判定されると、S350へと進む。そのようにして移行したS350では、今回の別特徴照合サイクルにて照合音声特徴量と一致した比較頂点データが、前回の別特徴照合サイクルにて照合音声特徴量と一致した比較頂点データと、基準旋律の時間進行上連続するものであるか否かを判定(以下、連続判定とする)する。具体的には、前回の別特徴照合サイクルにて特徴量一致度に対応付けられたデータ番号の中に、今回S350へと進んだ際に、照合音声特徴量に一致したと判定された比較頂点データを形成する旋律推移特徴量のデータ番号よりも、照合楽曲における時間進行上1つ前であることを示すデータ番号があれば、連続判定における判定結果が肯定されたものとする。
【0073】
その連続判定の結果が肯定判定であれば、連続して肯定判定された別特徴量照合サイクルの回数を「べき指数」として、予め規定された初期規定値を累乗した値を、特徴量一致度として導出する。一方、連続判定の結果が否定判定であれば、初期規定値そのものを、特徴量一致度として導出する。
【0074】
つまり、特徴量一致度は、入力音声の時間進行に沿った照合特徴量が連続して、楽曲の時間進行に沿った比較頂点データに一致するほど、大きな値となる。
なお、S370にて肯定判定されると、S380へと進む。
【0075】
そのS380では、先のS310にて決定された照合楽曲に対する特徴量一致度の中で、値が最大のものを、その照合楽曲に対応する曲名データと対応付けて、記憶部28に記憶する。つまり、S380にて曲名データと対応付けられる特徴量一致度は、一つの照合楽曲に対する別特徴照合サイクルの繰り返しにて導出された全特徴量一致度の中で、値が最大のものである。
【0076】
続く、S390では、記憶部28に記憶されている楽曲データに対応する全ての楽曲を、照合楽曲として決定済みであるか否かを判定する。その判定の結果、全ての楽曲を照合楽曲として決定済みでなければ、S300へと戻る。そのようにして移行したS300では、照合楽曲として未決定の楽曲の中から、新たな楽曲を照合楽曲として決定して、S310へと進む。つまり、S300からS390までのステップを、記憶部28に記憶されている全ての楽曲データ中の頂点データに照合音声特徴量の照合が完了するまで繰り返す。
【0077】
なお、S390での判定の結果、記憶部28に記憶されている全ての楽曲を照合楽曲として決定済みであれば、楽曲検索処理へと戻り、その楽曲検索処理のS120へと進む。
つまり、本実施形態の特徴量照合処理では、入力音声の音高推移の特徴を表す特徴量(即ち、音声特徴量)として、平滑化推移における音高極値の間の音高差dpi及び時間比率dti、即ち、相対的な音高及び音長を導出する。そして、その導出された音声特徴量を単語化した照合音声特徴量を生成して、その生成された照合音声特徴量を、全ての比較頂点データに照合する。その照合の結果、入力音声の時間進行に沿った照合特徴量が連続して、比較頂点データに一致するほど、大きな値の特徴量一致度を導出する。
〈音符照合処理について〉
次に、楽曲検索処理のS120にて起動される音符照合処理について説明する。
【0078】
ここで、図8は、音符照合処理の処理手順を示したフローチャートである。
この音符照合処理は、図8に示すように、楽曲検索処理のS120にて起動されると、まず、S410にて、記憶部28に記憶されている音声データの中から、先のS210にて取得されたものと同一の音声データを取得する。
【0079】
続く、S420では、S410にて取得した音声データに対して、事前処理を実行する。さらに、S430では、S420にて事前処理が実行された音声データを分析期間毎に周波数解析する。続いて、S440では、S430における周波数解析の結果に従って、各分析期間における音高(音声基本周波数f0)を推定する。なお、これらS420、S430、S440での処理は、特徴量照合処理におけるS210,S230,S240と同様であるため、ここでの説明は省略する。
【0080】
続く、S450では、S410にて取得した音声データの音圧変動に従って、1つの音符とみなせる音符期間を推定する周知の音符期間推定処理を実行する。具体的には、音声データの音圧が単調増加である区間において、時間進行上最初に規定値以上の増加率となる分析期間を音符開始タイミングする。また、音符開始タイミング以降にて、音声データの音圧が単調減少である区間において、時間進行上最初に規定値以上の減少率となる分析期間を音符終了タイミングとする。そして、それらの音符開始タイミング及び音符終了タイミングの間の期間それぞれを音符期間とする。
【0081】
さらに、S460では、S450にて推定された音符期間それぞれに対応する全ての分析期間の音高(音声基本周波数f0)に従って、その音符期間における音高を表す音符音高を推定する。具体的には、音符期間に対応する分析期間に占める割合がもっとも高い基本周波数に対応する音高を、音符音高として推定する。これにより、入力音声の時間進行に沿って、音符期間毎に、その音符期間の時間長(即ち、音価)と、その音符期間における音高と対応付けた音声音符データを生成する。つまり、S460では、入力音声が音符化される。
【0082】
続く、S470では、S460にて生成された音声音符データを、入力音声の時間進行に沿って連続する予め規定された音符規定数毎に単語化(即ち、グループ化)する。この単語化に際しては、音声音符データの一部が互いに重複するように実施する。以下、単語化された音声音符データそれぞれを、単語音符データと称す。
【0083】
さらに、S480では、サーバ40から取得され記憶部28に記憶されている楽曲データに対応する楽曲の中から、単語音符データを基準音符データ(即ち、ガイドメロディ)に照合する楽曲(以下、音符照合楽曲と称す)を1つ決定する。
【0084】
続く、S490では、S470にて生成された全ての単語音符データの中から、1つの単語音符データを取得する。ただし、単語音符データを取得する際には、入力音声の時間進行において、音声開始に近い音声音符データを含むものを取得する。
【0085】
そして、S500では、S480にて決定された音符照合楽曲に対応する基準音符データを形成する構成音の音高及び音価の中から、時間進行に沿って連続する音符規定数分だけ単語化して取得する。この音符規定数分の音高及び音価を単語化する際には、基準旋律の時間進行において、その基準旋律の開始に近い構成音についての音高及び音価から実行する。以下、S500にて単語化して取得した音符規定数分の構成音についての音高及び音価を、比較音符データとする。
【0086】
続いて、S510では、S490にて取得した単語音符データを、S500にて取得した比較音符データに照合する。その照合の結果、単語音符データと比較音符データとが一致すれば(S520:YES)、S530へと進む。
【0087】
そのS530では、音符一致度を導出すると共に、その導出した音符一致度を構成音の番号と対応付けて記憶し、その後、S540へと進む。この音符一致度と対応付けられる構成音の番号は、比較音符データを形成する音符規定数の構成音の中で、基準旋律の時間進行に沿った最初の構成音に対応付けられたものである。
【0088】
一方、S510での照合の結果、単語音符データと比較音符データとが一致しなければ(S520:NO)、S540へと進む。
そのS540では、全ての構成音についての音高及び音価を単語化して、その単語化によって生成された比較音符データに、S490にて取得した単語音符データを照合したか否かを判定する。その判定の結果、全ての比較音符データに単語音符データを照合していなければ、S500へと戻る。そのようにして移行したS500では、前回のS500にて単語化した構成音についての音高及び音価と、基準旋律の時間進行に沿った一部が重複するように音符規定数分だけ、構成音についての音高及び音価を単語化して取得する。すなわち、新たな比較音符データを生成して、S510へと進む。
【0089】
これにより、1つの楽曲における全ての構成音についての音高及び音価に対して、1つの単語音符データの照合が完了するまで、S500からS540が繰り返し実行される。
なお、S540での判定の結果、全ての構成音についての音高及び音価を単語化して、その単語化によって生成された比較音符データに、単語音符データを照合していれば、S550へと進む。そのS550では、全ての単語音符データを取得して、比較音符データに照合済みであるか否かを判定する。
【0090】
そのS550での判定の結果、全ての単語音符データを比較音符データに照合していなければ、S490へと戻る。そのS490では、比較音符データに対して未照合の単語音符データの中から、1つの単語音符データを取得する。ただし、単語音符データを取得する際には、入力音声の時間進行において、音声開始に近い音声音符データからなる単語音符データを取得する。
【0091】
その後、S550にて肯定判定されるまで、S490〜S550までのステップを繰り返す。以下、S490〜S550までの一回の流れを、別音符照合サイクルと称す。また、別音符照合サイクルにて、単語音符データを取得してから新たな単語音符データを取得するまでの、S500〜S540の一回の流れを、同一音符照合サイクルと称す。
【0092】
この同一音符照合サイクルを繰り返す過程の中で、S520にて肯定判定されると、S530へと進む。そのようにして移行したS530では、今回の別音符照合サイクルにて単語音符データと一致した比較音符データが、前回の別音符照合サイクルにて単語音符データと一致した比較音符データと、基準旋律の時間進行上連続するものであるか否かを判定(以下、音符接続判定とする)する。具体的には、前回の別音符照合サイクルにて音符一致度に対応付けられた構成音の番号の中に、今回S530へと進んだ際に、単語音符データに一致したと判定された比較音符データを形成する構成音の番号よりも、基準旋律における時間進行上1つ前の構成音であることを示す番号があれば、音符接続判定における判定結果が肯定されたものとする。
【0093】
その音符接続判定の判定結果が肯定であれば、連続して肯定判定された別音符照合サイクルの回数を「べき指数」として、初期規定値を累乗した値を音符一致度として導出する。一方、音符接続判定の判定結果が否定であれば、初期規定値そのものを音符一致度として導出する。
【0094】
つまり、音符一致度は、入力音声の時間進行に沿った単語音符データが連続して、音符照合楽曲の基準旋律における時間進行に沿った比較音符データに一致するほど、大きな値となる。
【0095】
なお、S550にて肯定判定されると、S560へと進む。そのS560では、先のS480にて決定された音符照合楽曲に対する音符一致度の中で、値が最大のものを、その音符照合楽曲に対応する曲名データと対応付けて、記憶部28に記憶する。つまり、S560にて曲名データと対応付けられる音符一致度は、一つの音符照合楽曲に対する別音符照合サイクルの繰り返しにて導出された全音符一致度の中で、値が最大のものである。
【0096】
続く、S570では、記憶部28に記憶されている楽曲データに対応する全ての楽曲を、音符照合楽曲として決定済みであるか否かを判定する。その判定の結果、全ての楽曲を音符照合楽曲として決定済みでなければ、S480へと戻る。そのようにして移行したS480では、音符照合楽曲として未決定の楽曲の中から、新たな楽曲を音符照合楽曲として決定して、S490へと進む。つまり、S490からS570までのステップを、記憶部28に記憶されている全ての楽曲データ中の基準音符データに、単語音符データの照合が完了するまで繰り返す。
【0097】
なお、S570での判定の結果、記憶部28に記憶されている全ての楽曲を音符照合楽曲として決定済みであれば、楽曲検索処理へと戻り、その楽曲検索処理のS130へと進む。
【0098】
つまり、本実施形態の音符照合処理では、入力音声を音符化した音声音符データを生成し、その音声音符データを、楽曲毎に予め用意された基準音符データに照合する。そして、その照合結果として、入力音声の時間進行に沿って連続する音声音符データが、音符照合楽曲の基準旋律における時間進行に沿って連続して一致する比較音符データの数が多いほど、大きな値の音符一致度を導出している。
【0099】
そして、本実施形態の楽曲検索処理では、特徴量一致度と、音声一致度とに基づいて導出した統合一致度が最も高いものに対応する楽曲を、意図予想曲として検出している。
[実施形態の効果]
以上説明したように、本実施形態の音声処理装置20では、音声特徴量として、平滑化推移における極値の間の相対音高及び相対音長を導出している。しかも、本実施形態の音声処理装置20にて導出される平滑化推移は、入力音声の音高推移を平滑化したものである。
【0100】
よって、本実施形態にて導出される音声特徴量は、入力音声における音高推移の全体的な傾向を表すものになると共に、細かな音高の推移を無視したものとすることができる。
したがって、このような音声特徴量を旋律推移特徴量に照合することで導出された特徴量一致度を反映した結果から意図予想曲を特定することで、その特定結果(即ち、入力対応曲)が、利用者が意図したものに一致することになる。このため、本実施形態の音声処理装置20によれば、採譜結果のみから意図予想曲を特定する場合に比べて、より多くの楽曲に対して、利用者が意図した曲が正しく検索される可能性を向上させることができる。
【0101】
特に、本実施形態の楽曲検索処理では、特徴量一致度と、音符一致度という、音高の推移に対して傾向が異なる2つの特徴量を用いて検索した結果から、意図予想曲を特定している。このため、本実施形態の楽曲検索処理によれば、意図予想曲が、利用者が意図したものに正しく一致することを、様々な音高推移の傾向を有した曲、即ち、より多くの曲に対して実現できる。
【0102】
なお、本実施形態の特徴量照合処理、及び音符照合処理では、音声特徴量または音声音符データがそれぞれの時間進行に沿って連続して、旋律推移特徴量または基準音符データに一致する数が多いほど、大きな値の特徴量一致度または音符一致度を導出している。
【0103】
このため、本実施形態の楽曲検索処理では、時間進行の中で導出された1つの音声特徴量または音声音符データが、旋律推移特徴量または基準音符データに偶発的に一致しただけでは、特徴量一致度または音符一致度の値は大きなものとならない。よって、本実施形態の楽曲検索処理によれば、誤って、利用者が意図しない楽曲が、意図予想曲として特定されることを低減できる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
【0104】
例えば、上記実施形態における楽曲検索処理では、意図予想曲を検索する際に、特徴量照合処理と、音符照合処理との両方の処理結果に基づいて検索を実行していたが、楽曲検索処理における意図予想曲の検索は、特徴量照合処理にて導出された特徴量一致度にのみ基づくものでもよい。つまり、楽曲検索処理では、値が最大である特徴量一致度に対応する楽曲を意図予想曲としてもよい。この場合、楽曲検索処理のS120は、実行しなくとも良く、楽曲検索処理のS130では、特徴量一致度そのものを統合一致度として導出すれば良い。
【0105】
ところで、上記実施形態における楽曲検索処理では、信号処理する対象の音声データを、記憶部28に記憶された音声データとしていたが、楽曲検索処理にて信号処理の対象とする音声データは、音声入力部25にてサンプリングされた直後の音声データであっても良い。つまり、楽曲検索処理では、マイクロホン24を介して入力された音声をリアルタイムに処理しても良い。
【0106】
また、上記実施形態では、特徴量照合処理において、音声特徴量が照合される頂点データを、楽曲データの一部として予め用意していたが、頂点データは、これに限るものではない。例えば、特徴量照合処理を実行する過程にて生成しても良い。
【0107】
なお、上記実施形態では、頂点データを形成する相対音長として、時間比率dtを導出していたが、相対音長は、時間比率dtに限るものではなく、例えば、対象区間の時間長そのもの、即ち、極値間の時間差であっても良い。
【0108】
また、上記実施形態では、推移特徴量を導出する過程にて実行する音高推移の平滑化として、中央値の算出と、移動平均値の算出とを組み合わせて実行していたが、音高推移の平滑化は、これに限るものではなく、例えば、中央値の算出と、移動平均値の算出とのいずれか一方のみを実行することでなされても良い。さらに言えば、中央値の算出または移動平均の導出以外の周知の方法にて平滑化されていてもよい。
【0109】
また、上記実施形態における特徴量照合処理、及び音符照合処理では、音声特徴量または音声音符データを、旋律推移特徴量または基準音符データに照合する際に、単語化して照合していたが、これらを照合する際には、音声特徴量または音声音符データを単語化することなく、旋律推移特徴量または基準音符データに照合しても良い。
【0110】
なお、上記実施形態における音声処理装置20は、スピーカ27と音声出力部26とを備えていなくとも良い。
ところで、上記実施形態では、音声処理装置20にて楽曲検索処理を実行していたが、楽曲検索処理は、サーバ40にて実行されていても良い。
【0111】
逆に、楽曲検索システム1は、音声処理装置20のみから構成されていても良い。この場合、楽曲データは、予め記憶部28に記憶されている必要がある。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
【0112】
上記実施形態の特徴量照合処理におけるS250を実行することで得られる機能が、本発明の音高推移導出手段に相当し、S260を実行することで得られる機能が、本発明の平滑化手段に相当する。さらに、特徴量照合処理におけるS270を実行することで得られる機能が、本発明の極値検出手段に相当し、S280を実行することで得られる機能が、本発明の特徴量導出手段に相当する。また、特徴量照合処理におけるS290〜S390を実行することで得られる機能が、本発明の特徴量照合手段に相当する。
【0113】
そして、上記実施形態の楽曲検索処理におけるS130〜S150を実行することで得られる機能が、本発明の結果出力手段に相当する。
なお、上記実施形態の音符照合処理におけるS430〜S460を実行することで得られる機能が、本発明の音符化手段に相当し、S470〜S570を実行することで得られる機能が、本発明の音符照合手段に相当する。
【符号の説明】
【0114】
1…楽曲検索システム 20…音声処理装置 21…通信部 22…表示部 23…操作受付部 24…マイクロホン 25…音声入力部 26…音声出力部 27…スピーカ 28…記憶部 30…制御部 31…ROM 32…RAM 33…CPU 40…サーバ 41…記憶装置 42…マイクロコンピュータ

【特許請求の範囲】
【請求項1】
時間進行に沿って連続して入力された入力音声から、音高の推移を表す音高推移を導出する音高推移導出手段と、
前記音高推移導出手段で導出された音高推移を平滑化した平滑音高推移を導出する平滑化手段と、
前記音高推移における音高変化の極値を音高極値とし、前記平滑化手段で導出された平滑音高推移から、その平滑音高推移についての前記音高極値である平滑音高極値を検出する極値検出手段と、
時間進行に沿って連続する前記音高極値の間での音高差及び時間長の比を推移特徴量とし、前記極値検出手段で検出された平滑音高極値に基づいて、その平滑音高極値についての前記推移特徴量である音声特徴量を導出する特徴量導出手段と、
曲毎に予め用意され、かつ曲を構成する構成音の音高推移が平滑化された平滑化旋律における前記音高極値についての前記推移特徴量を旋律特徴量とし、前記特徴量導出手段で導出された音声特徴量それぞれを前記旋律特徴量それぞれに照合することで、前記音声特徴量と前記旋律特徴量との一致度が高いほど大きな値となる特徴量一致度を前記曲毎に導出する特徴量照合手段と、
少なくとも、前記特徴量照合手段で導出された特徴量一致度に基づき、前記特徴量一致度の中で、値が最大の前記特徴量一致度に対応する曲である入力対応曲を出力する結果出力手段と
を備えることを特徴とする特徴量照合装置。
【請求項2】
前記特徴量照合手段は、
時間進行に沿った前記音声特徴量それぞれが連続して一致する前記旋律特徴量が多いほど、大きな値の前記特徴量一致度を導出することを特徴とする請求項1に記載の特徴量照合装置。
【請求項3】
前記平滑化手段は、
前記音高推移の時間進行に対して連続するように規定された時間長それぞれを単位区間とし、前記単位区間それぞれに含まれる全音高の中央値の算出、及び移動平均値の算出の少なくとも一方を前記平滑化として実行することを特徴とする請求項1または請求項2に記載の特徴量照合装置。
【請求項4】
前記結果出力手段は、
前記入力対応曲を画像にて表示、及び前記入力対応曲を音声にて通知することの少なくとも一方を前記出力として実行することを特徴とする請求項1ないし請求項3のいずれか一項に記載の特徴量照合装置。
【請求項5】
前記音高推移導出手段で導出された音高推移に従って、前記入力音声の音高及び音価を表す音符データに変換する音符化手段と、
曲毎に予め用意され、かつ曲を構成する構成音それぞれの音高及び音価を表すデータを基準音符データとし、前記音符化手段にて変換された音符データそれぞれを前記基準音符データに曲毎に照合することで音符一致度を導出する音符照合手段と
を備え、
前記照合結果出力手段は、
前記特徴量照合手段にて導出された特徴量一致度、及び前記音符照合手段で導出された音符一致度に基づいて、前記特徴量一致度及び前記音符一致度の両方が大きいほど大きな値となるように演算した結果、最も大きな値に対応する曲を前記入力対応曲として出力することを特徴とする請求項1ないし請求項4の何れか一項に記載の特徴量照合装置。
【請求項6】
時間進行に沿って連続して入力された入力音声から、音高の推移を表す音高推移を導出する音高推移導出手順と、
前記音高推移導出手順で導出された音高推移を平滑化した平滑音高推移を導出する平滑化手順と、
前記音高推移における音高変化の極値を音高極値とし、前記平滑化手順で導出された平滑音高推移から、その平滑音高推移についての前記音高極値である平滑音高極値を検出する極値検出手順と、
時間進行に沿って連続する前記音高極値の間での音高差及び時間長の比を推移特徴量とし、前記極値検出手順で検出された平滑音高極値に基づいて、その平滑音高極値についての前記推移特徴量である音声特徴量を導出する特徴量導出手順と、
曲毎に予め用意され、かつ曲を構成する構成音の音高推移が平滑化された平滑化旋律における前記音高極値についての前記推移特徴量を旋律特徴量とし、前記特徴量導出手順で導出された音声特徴量それぞれを前記旋律特徴量それぞれに照合することで、前記音声特徴量と前記旋律特徴量との一致度が高いほど大きな値となる特徴量一致度を前記曲毎に導出する特徴量照合手順と、
少なくとも、前記特徴量照合手順で導出された特徴量一致度に基づき、前記特徴量一致度の中で、値が最大の前記特徴量一致度に対応する曲である入力対応曲を出力する結果出力手順と
をコンピュータに実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate