説明

コンテンツ再生装置および方法、並びにプログラム

【課題】常に快適に音楽を聴きながら、周囲の音にも配慮することができるようにする。
【解決手段】マイク21は、周囲の音を集音し、集音した音に対応する信号を出力する。音楽検出部22は、マイク21から出力される信号に音楽が含まれているか否かを判定することで、周囲の音の中の音楽を検出する。加工部23は、音楽検出部22の検出結果に基づいて、マイク21から出力される信号を加工する。加工部25は、音楽検出部22の検出結果に基づいて、音楽信号を加工する。加算器24は、加工部23から出力された信号と、加工部25から出力された信号を加算してスピーカ26から出力し、その音がユーザの耳に聞こえる音となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ再生装置および方法、並びにプログラムに関し、特に、常に快適に音楽を聴きながら、周囲の音にも配慮することができるようにするコンテンツ再生装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
従来より、音響信号が音楽であるのか、音声であるのかを分類する技術の研究が行われている。
【0003】
例えば、音楽に比べて重畳した音声や背景音などの音量が大きい場合などは、音響信号が音楽であるのか、音声であるのかを分類することが難しい。このため、音楽区間検出のための技術として、入力音響信号から短時間フレーム毎に音響特徴ベクトル列を算出して各フレームについて音楽を含むか否かを表す音楽情報評価値を算出し、音楽開始・終了時刻を判定する技術などが提案されている(例えば、特許文献1参照)。
【0004】
また、目的とするオーディオ信号源を聴取しつつも、周囲音についても的確に聴取可能としたヘッドフォンを提供するために、聴取音レベル検知器にて検知された聴取音レベルと外部音検知器にて検知された外部音レベルとに基づいて可変利得増幅器の利得を制御する技術も提案されている(例えば、引用文献2参照)。
【0005】
【特許文献1】特開2009−8836号公報
【特許文献2】特開2005−295175号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、例えば、ユーザがヘッドフォンで音楽を聴いている場合、周囲音として音楽が流れているときに、周囲音をヘッドフォンの内部で聴こえるようにすると、極めて煩わしく感じられる。
【0007】
本発明はこのような状況に鑑みてなされたものであり、常に快適に音楽を聴きながら、周囲の音にも配慮することができるようにするものである。
【課題を解決するための手段】
【0008】
本発明の一側面は、筐体の周囲の騒音を集音するマイクと、前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出する距離算出手段と、前記算出された距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定する判定手段と、前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工する加工手段と、前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力する加算手段とを備えるコンテンツ再生装置である。
【0009】
前記特徴量抽出手段は、前記マイクにより集音された音の信号の波形を所定の時間的長さを有するフレームに分割し、前記判定手段はさらに、予め設定された複数の前記フレームにおいて前記マイクにより集音された音に音楽が含まれていたか否かを判定し、前記加工手段は、前記判定手段により予め設定された複数の前記フレームにおいて前記マイクにより集音された音に音楽が含まれていたと判定された場合、前記マイクにより集音された音の信号を加工するようにすることができる。
【0010】
前記マイクにより集音された音のリズムを検出するリズム検出手段をさらに備え、前記判定手段は、前記リズム検出手段の検出結果に基づいて、前記算出されたベクトル間距離の重み付けをするようにすることができる。
【0011】
前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、再生されたコンテンツの音の音量または周波数特性を変更するように再生された前記コンテンツの音の信号を加工する他の加工手段をさらに備えるようにすることができる。
【0012】
前記リズム検出手段は、前記マイクにより集音された音の信号の波形のピークを検出し、前記検出されたピークの時間的位置と、予め設定されたビート間隔におけるビートの時間的位置との適合度を算出して、前記ビートと前記ピークが合致したか否かを判定し、単位時間内に前記ピークと合致した前記ビートの数を保持するようにすることができる。
【0013】
前記リズム検出手段はさらに、前記単位時間より短い所定の時間内に前記ビートと前記ピークが合致したか否かを判定し、前記判定結果に基づいて前記ビート間隔を更新するようにすることができる。
【0014】
前記単位時間毎に前記ピークと合致した前記ビートの数に応じた重み係数を設定し、前記距離算出手段が算出した前記ベクトル間距離に乗じる重み制御手段をさらに備えるようにすることができる。
【0015】
前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定されてから音楽が含まれていないと判定されるまでの間、前記重み制御手段は、前記ビートの数に応じた重み係数の値を変更するようにすることができる。
【0016】
本発明の一側面は、マイクが、筐体の周囲の騒音を集音し、特徴量抽出手段が、前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出し、距離算出手段が、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出し、判定手段が、前記算出された距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定し、加工手段が、前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工し、加算手段が、前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力するステップを含むコンテンツ再生方法である。
【0017】
本発明の一側面は、コンピュータを、筐体の周囲の騒音を集音するマイクと、前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出する距離算出手段と、前記算出された距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定する判定手段と、前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工する加工手段と、前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力する加算手段とを備えるコンテンツ再生装置として機能させるプログラムである。
【0018】
本発明の一側面においては、筐体の周囲の騒音が集音され、前記マイクにより集音された音の信号の波形から得られる複数の特徴量が特徴量ベクトルとして抽出され、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離が算出され、前記算出された距離を閾値判定することにより、前記集音された音に音楽が含まれているか否かが判定され、前記判定手段により前記集音された音に音楽が含まれていると判定された場合、前記集音された音の音量または周波数特性を変更するように前記集音された音の信号が加工され、前記集音された音の信号と、再生されたコンテンツの音の信号とが加算されて出力される。
【発明の効果】
【0019】
本発明によれば、常に快適に音楽を聴きながら、周囲の音にも配慮することができる。
【図面の簡単な説明】
【0020】
【図1】本発明を適用した音楽再生装置の一実施の形態に係る構成例を示すブロック図である。
【図2】本発明を適用した音楽再生装置の一実施の形態に係る構成例を示すブロック図である。
【図3】本発明を適用した音楽再生装置の一実施の形態に係る構成例を示すブロック図である。
【図4】音楽検出部の詳細な構成例を示すブロック図である。
【図5】図4のフレーム分割部と音響特徴量抽出部の処理を説明する図である。
【図6】音楽再生処理の例を説明するフローチャートである。
【図7】音楽検出処理の例を説明するフローチャートである。
【図8】音楽検出部の別の詳細な構成例を示すブロック図である。
【図9】リズム検出部の処理を説明する図である。
【図10】リズム検出部の詳細な構成例を示すブロック図である。
【図11】トラッカーの詳細な構成例を示すブロック図である。
【図12】ビート数と重み係数を説明する図である。
【図13】ビート数と重み係数を説明する図である。
【図14】音楽検出部による音楽の検出結果を、F値(F-measure)により評価した評価結果を説明する図である。
【図15】音楽検出処理の別の例を説明するフローチャートである。
【図16】リズム検出処理の例を説明するフローチャートである。
【図17】パーソナルコンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0021】
以下、図面を参照して、本発明の実施の形態について説明する。
【0022】
図1は、本発明を適用した音楽再生装置20の一実施の形態に係る構成例を示すブロック図である。音楽再生装置20は、例えば、いわゆるヘッドフォンステレオとして構成されるようにしてもよいし、あるいは、単にヘッドフォンとして構成されるようにしてもよい。すなわち、ここで説明する音楽再生装置20は、必ずしも音楽のコンテンツを再生する機能などを一体的に有している必要はなく、例えば、デジタルオーディオプレーヤと接続されるヘッドフォンなどのように構成されるようにしてもよい。
【0023】
同図に示されるように音楽再生装置20は、マイク21、音楽検出部22、加工部23、加算器24、加工部25、およびスピーカ26により構成されている。
【0024】
マイク21は、周囲の音を集音し、集音した音に対応する信号を出力する。ここで、集音される音には、例えば、ユーザが歩いている道を通る自動車の音、ユーザの周囲にいる人たちの話し声、ユーザが訪れた店舗などにおいてBGMとして流れている音楽などが含まれる。
【0025】
音楽検出部22は、マイク21から出力される信号に音楽が含まれているか否かを判定することで、周囲の音の中の音楽を検出するようになされている。なお、音楽検出部22の詳細な構成については後述する。
【0026】
加工部23は、音楽検出部22の検出結果に基づいて、マイク21から出力される信号を加工するようになされている。加工部23は、例えば、マイク21から出力される信号の音量を調節するような加工をするものであってもよいし、マイク21から出力される信号の周波数特性を変更するような加工をするものであってもよい。
【0027】
加工部25は、音楽検出部22の検出結果に基づいて、図示せぬ再生部により再生された音楽のコンテンツの信号(音楽信号)を加工するようになされている。加工部25は、例えば、音楽信号の音量を調節するような加工をするものであってもよいし、音楽信号の周波数特性を変更するような加工をするものであってもよい。
【0028】
なお、加工部25は設けられないようにしてもよい。
【0029】
加算器24は、加工部23から出力された信号と、加工部25から出力された信号を加算してスピーカ26から出力するようになされている。
【0030】
スピーカ26は、入力された信号に対応する音を出力し、その音がユーザの耳に聞こえる音となる。
【0031】
すなわち、音楽再生装置20は、再生された音楽とともに、必要に応じて周囲の音を聴くことができるようになされている。
【0032】
つまり、例えば、ヘッドフォンで音楽を聴いている場合、周囲の音が聞こえにくいため、音楽に重畳して周囲の音を聴かせるようになされているのである。これにより、人の呼びかけに気付くことができたり、車の走行音が聞こえてくることによって安全性が向上したりすることが期待される。
【0033】
しかしながら、周囲で音楽が流れている場合にはこれを重畳してしまうと、再生中のコンテンツの音楽と競合してしまう。このため、音楽検出部22で音楽が検出され、音量が変更されたり、周波数特性を変えるフィルタ処理が行われるなどといった加工が加工部23、または、加工部25によりなされるのである。
【0034】
音楽検出部22乃至加工部25は、図2に示されるように、図中の点線で示されるヘッドフォンなどの筐体の内部に設けられるようにしてもよい。あるいはまた、音楽検出部22乃至加工部25は、図3に示されるように、図中の点線で示されるデジタルオーディオプレーヤなどの筐体の外部に設けられるようにしてもよい。
【0035】
図4は、音楽検出部22の詳細な構成例を示すブロック図である。同図に示されるように、音楽検出部22は、フレーム分割部41、音響特徴量抽出部42、および識別部43により構成されている。
【0036】
フレーム分割部41は、入力された信号に短時間の窓関数を乗じるなどして、入力された信号を所定の時間的長さを有する複数のフレームに分割する。そして、フレームに分割された信号のそれぞれについてフーリエ変換を行うことにより周波数解析を行うようになされている。
【0037】
ここで、短時間の窓関数は時間の一部が重なり合うように(オーバーラップさせて)設定することができ、例えば、ハミング窓、ハニング窓やブラックマン窓などの窓関数が用いられる。
【0038】
音響特徴量抽出部42は、例えば、フレーム分割部41によりフーリエ変換が行われる前後で、特徴量を数種類抽出する。
【0039】
図5を参照してさらに説明する。図5は、フレーム分割部41と音響特徴量抽出部42の処理の例を説明する図である。同図の上側に記載された波形61は、図1乃至図3のマイク21により集音された音の信号の波形を表している。
【0040】
フレーム分割部41は、波形61を、所定の時間的長さのフレームである、フレーム62−1、フレーム62−2、フレーム62−3、・・・に分割するようになされている。
【0041】
音響特徴量抽出部42は、上述したように、例えば、フレーム分割部41によりフーリエ変換が行われる前後で、次元の小さい特徴量を数種類抽出する。
【0042】
例えば、フーリエ変換前に零交差率(Zero Cross)、フーリエ変換後にメル周波数ケプストラム係数(MFCC)、スペクトル重心(Centroid)、スペクトルフラックス(Flux)、ロールオフ(Roll off)などの特徴量が抽出される。
【0043】
図5の例では、フレーム62−1に含まれる波形から、特徴量群63−1が抽出されている。同様に、フレーム62−2に含まれる波形から、特徴量群63−2が抽出され、フレーム62−3に含まれる波形から、特徴量群63−3が抽出され、・・・のように特徴量群が抽出されることになる。
【0044】
特徴量群63−1、特徴量群63−2、特徴量群63−3、・・・は、それぞれ各フレームの特徴量ベクトルとして識別部43に供給される。
【0045】
識別部43は、例えば、予め音楽の信号から抽出された複数の特徴量ベクトルを用いて、正解のラベル付きでの一般的な教師学習により、音楽の信号の特徴量を学習しておくようになされている。例えば、ガウシアンミクスチャーモデル、kNN分類器、サポートベクトルマシンなどを用いた学習が行われる。
【0046】
この学習により、例えば、特徴量群63−1、特徴量群63−2、特徴量群63−3、・・・と同次元の特徴量ベクトルであって、音楽の信号に対応する代表的な特徴量ベクトルが得られることになる。代表的な特徴量ベクトルは、例えば、バラードの音楽の信号に対応する特徴量ベクトル、ロックの音楽の信号に対応する特徴量ベクトル、・・・などのように複数の特徴量ベクトルが得られるようにしてもよい。
【0047】
識別部43は、各フレームの特徴量ベクトルと、上述した代表的な特徴量ベクトルとの距離を算出し、算出されたベクトル間の距離を閾値と比較し、ベクトル間の距離が閾値以下である場合、そのフレームに対応付けられた識別フラグをオンにする。なお、代表的な特徴量ベクトルが複数ある場合、各フレームの特徴量ベクトルと、複数の代表的な特徴量ベクトルとの距離がそれぞれ算出され、いずれかの距離が閾値以下である場合、そのフレームに対応付けられた識別フラグがオンとされる。
【0048】
そして、識別部43は、例えば、過去10フレーム分の識別フラグがオンである場合、現在のフレームは、音楽の信号のフレームであると判定するようになされている。
【0049】
なお、上記の判定の方式は例であり、他の方式により、音楽の信号のフレームであるか否かが判定されるようにしてもよい。
【0050】
このようにして、マイク21により集音された音の中の音楽が検出されることになる。
【0051】
そして、音楽検出部22により音楽が検出された場合、加工部23が、マイク21から出力される信号の音量を小さくしたり、マイク21から出力される信号における所定の周波数帯域の信号を除去して周波数特性を変えるなどの加工を行うようになされている。
【0052】
このようにすることで、例えば、人の呼びかけに気付くことができたり、車の走行音が聞こえてくることによって安全性を向上させることができるとともに、ユーザの周囲で音楽が流れているときでも煩わしさを感じさせないようにすることができる。
【0053】
次に、図6のフローチャートを参照して、図1の音楽再生装置20による音楽再生処理の例について説明する。
【0054】
ステップS21において、マイク21は、周囲の音を集音する。ここで、集音された音の信号は、音楽検出部22と加工部23に出力される。
【0055】
ステップS22において、音楽検出部22は、図7を参照して後述する音楽検出処理を実行する。
【0056】
ステップS23において、加工部23または加工部25は、音楽が検出されたか否かを判定する。
【0057】
ステップS23において、音楽が検出されたと判定された場合、処理は、ステップS24に進み、加工部23または加工部25は、入力された信号を加工する。このとき、例えば、音量を小さく(または大きく)したり、周波数特性を特殊なものとするフィルタ処理などがなされることになる。すなわち、加工部23または加工部25から出力される信号に対応する音の音量、周波数特性などが、通常の値とは異なる特殊な値に設定される。
【0058】
要は、マイク21により集音された音に音楽が含まれている場合、加工部23または加工部25によりコンテンツの音楽を聴き易くするような加工がなされるのである。
【0059】
一方、ステップS23において、音楽が検出されなかったと判定された場合、ステップS24の処理はスキップされる。すなわち、加工部23または加工部25は、入力された信号の加工を行わず、そのまま出力する。
【0060】
なお、加工部23から出力された信号は、加算器24により音楽信号と加算されて出力されることになる。
【0061】
このようにして音楽再生処理が実行される。
【0062】
次に、図7のフローチャートを参照して、図6のステップS22の音楽検出処理の詳細な例について説明する。
【0063】
ステップS41において、フレーム分割部41は、入力された信号に短時間の窓関数を乗じるなどして、入力された信号を所定の時間的長さを有する複数のフレームに分割する。そして、フレームに分割された信号のそれぞれについてフーリエ変換を行うことにより周波数解析を行う。
【0064】
ステップS42において、ステップS41の処理に伴って、フレーム分割部41によりフーリエ変換が行われる前後で、特徴量を数種類抽出する。このとき、上述したように、例えば、零交差率(Zero Cross)、フーリエ変換後にメル周波数ケプストラム係数(MFCC)、スペクトル重心(Centroid)、スペクトルフラックス(Flux)、ロールオフ(Roll off)などの特徴量が抽出される。
【0065】
ステップS43において、音響特徴量抽出部42は、ステップS42で抽出された特徴量からなる特徴量ベクトルと、予め学習されている音楽の信号に対応する代表的な特徴量ベクトルとの距離を算出する。
【0066】
ステップS44において、識別部43は、ステップS43で算出されたベクトル間の距離が閾値以下であるか否かを判定する。ステップS44において、算出されたベクトル間の距離が閾値以下であると判定された場合、処理は、ステップS45に進む。
【0067】
ステップS45において、識別部43は、当該フレームに対応付けられた識別フラグをオンにする。
【0068】
ステップS46において、識別部43は、例えば、過去の所定数のフレーム(例えば、10フレーム)分の識別フラグがオンであるか否かを判定する。
【0069】
ステップS46において、過去の所定数のフレーム分の識別フラグがオンであると判定された場合、処理は、ステップS47に進み、識別部43は、識別結果として音楽検出信号を出力する。これにより、加工部23、または加工部25に、音楽が検出されたことが通知されることになる。
【0070】
一方、ステップS46において、過去の所定数のフレーム分の識別フラグがオフであると判定された場合、ステップS47の処理は、スキップされる。
【0071】
また、ステップS44において、算出されたベクトル間の距離が閾値以下ではないと判定された場合、ステップS45乃至ステップS47の処理は、スキップされる。
【0072】
このようにして、音楽検出処理が実行される。
【0073】
ところで、図4を参照して上述した例においては、特徴量ベクトルのベクトル間距離の比較の結果に基づいて音楽が検出されるものとした。しかしながら、この方式では、安定的に音楽を検出できない場合がある。
【0074】
例えば、短時間で音楽検出部22の検出結果が変動して安定しなかったり、あるいはまた、周囲の音に雑音が多く含まれている場合などは、検出結果の精度を欠いたりする可能性がある。
【0075】
そこで、本発明においては、より安定的かつ正確に音楽を検出できるようにする方式も提案する。
【0076】
図8は、図1の音楽検出部22の別の構成例を示すブロック図である。図8において、音楽検出部22は、フレーム分割部81、音響特徴量抽出部82、識別部83、およびリズム検出部84により構成されている。
【0077】
図8のフレーム分割部81、音響特徴量抽出部82、および識別部83は、それぞれ図4のフレーム分割部41、音響特徴量抽出部42、および識別部43と同様の機能ブロックであるので、詳細な説明は省略する。図8の例では、図4の場合と異なり、リズム検出部84が設けられている。
【0078】
リズム検出部84は、マイク21により集音された音の中のリズムを検出する。そして、リズム検出部84によるリズムの検出の結果に基づいて、例えば、識別部83による閾値判定の重みを調節することにより、より安定的かつ正確に音楽を検出できるようになされている。
【0079】
図9は、リズム検出部の処理を説明する図である。同図は、横軸が時間とされ、領域91には、マイク21により集音された音の信号の波形であって、フレーム分割部81により分割された複数フレーム分の波形が示されている。
【0080】
領域92には、領域91に示された波形の包絡線(エンベロープ)が示されている。エンベロープは、例えば、領域91に示された波形の信号を、ローパスフィルタを通過させることにより得られる。エンベロープを得ることにより波形のピークを検出することが容易になる。
【0081】
領域93には、エンベロープに基づいて得られた波形のピークが図中垂直方向に伸びたバーによって示されている。すなわち、領域93に示された複数のバーのそれぞれの図中水平方向の位置が波形のピークの時間的な位置に対応することになる。
【0082】
図9の領域93の下側には、トラッカー1、トラッカー2、トラッカー3、トラッカー4、・・・による検出結果が示されている。
【0083】
トラッカー1、トラッカー2、トラッカー3、トラッカー4、・・・は、それぞれリズム検出部84に設けられた機能ブロックであり、例えば、テンポに応じたビート間隔を設定するようになされている。なお、トラッカー1、トラッカー2、トラッカー3、トラッカー4、・・・を個々に区別する必要がない場合、単にトラッカーと称する。
【0084】
例えば、トラッカー1はbpm(beats per minute)=100、トラッカー2はbpm(beats per minute)=50、・・・などのようにそれぞれ異なるテンポのビート間隔が予め設定されている。
【0085】
個々のトラッカーのそれぞれは、設定されたビート間隔と領域93に示されたピークの位置の適合度を算出するようになされている。図9において、トラッカー1、トラッカー2、トラッカー3、トラッカー4と記載された部分の右側に示される図中水平方向の線上に図中垂直方向に伸びたバーによって示された図中水平方向の位置が、個々のトラッカーに設定されたビートの位置とされる。
【0086】
例えば、トラッカー1は、バー101−1乃至バー101−7で示された位置に対応するビート間隔を設定している。トラッカー1は、バー101−1と領域93に示されるピークの位置との時間的差異に基づいて、ビートの位置(ビート位置)とピークの位置(ピーク位置)の適合度(ピーク適合度)を算出する。例えば、ピーク適合度が閾値を超えた場合、トラッカー1が設定したビートとピークが合致したものと判定されるようになされている。図9の例では、ピークと合致したビートに円が付されており、例えば、トラッカー1のバー101−1、バー101−2、バー101−4、バー101−6においてビートとピークが合致している。
【0087】
そして、トラッカー1は、例えば、単位時間においてピークと合致したビートの数をカウントして保持するようになされている。図9に示される時間を単位時間とすると、トラッカー1の場合、4つのビートがピークと合致したことになる。
【0088】
なお、例えば、単位時間より短い所定の時間内にピークと合致したビートが検出されない場合、トラッカー1のテンポが変更されてビート間隔の更新が行われる。例えば、bpm=100であったテンポが、bpm=105に変更されて新たにビート間隔が設定される。あるいはまた、トラッカー1の曲調が変更されることによりビート間隔の更新が行われるようにしてもよい。例えば、初期値としてトラッカー1に設定されていたビート間隔がロックの曲調の短いビート間隔であった場合、曲調がボサノバに変更されて、新たに長いビート間隔が設定されるようにしてもよい。
【0089】
トラッカー2、トラッカー3、トラッカー4、・・・においても同様の処理が行われることになる。このようにして、個々のトラッカーは、それぞれ自分が設定したビート間隔においてピークと合致したビートの数(ビート数)を保持するようになされている。
【0090】
リズム検出部84は、例えば、個々のトラッカーのビート数のうち、最大のものを選択し、そのビート数を識別部83に供給するようになされている。この場合、識別部83は、例えば、ビート数に対応する重み係数を、上述した特徴量ベクトルのベクトル間距離に乗じて閾値判定するようになされている。
【0091】
図10は、リズム検出部84の詳細な構成例を示すブロック図である。同図に示されるように、リズム検出部84は、エンベロープ算出部121、ピーク検出部122、選択部123、トラッカー131−1、トラッカー131−2、・・・により構成されている。なお、図10のトラッカー131−1、トラッカー131−2、・・・が、図9のトラッカー1、トラッカー2、・・・に対応する。
【0092】
エンベロープ算出部121は、フレーム分割部81から出力されるフレーム分割された信号の波形に基づいてエンベロープを算出する。これにより、例えば、図9の領域92に示されるようなエンベロープが得られることになる。
【0093】
ピーク検出部122は、エンベロープ算出部121により算出されたエンベロープに基づいて、波形のピークを検出する。これにより、例えば、図9の領域93に示されるようなピーク位置が得られることになる。ピーク検出部122の検出結果は、トラッカー131−1、トラッカー131−2、・・・に供給されるようになされている。
【0094】
選択部123は、トラッカー131−1、トラッカー131−2、・・・が保持するビート数のうち、最大のものを選択するようになされている。
【0095】
図11は、図10のトラッカー131の詳細な構成例を示すブロック図である。なお、図10のトラッカー131−1、トラッカー131−2、・・・は、それぞれ同様に構成されるものなので、ここではまとめてトラッカー131と称している。
【0096】
図11に示されるように、トラッカー131は、ビート間隔設定部151、ピーク適合度算出部152、ビート間隔更新部153、およびビート数保持部154により構成されている。
【0097】
ビート間隔設定部151は、例えば、図9を参照して上述したバー101−1、バー101−2、・・・のようにビート間隔を設定する。
【0098】
ピーク適合度算出部152は、例えば、図9を参照して上述したように、ビート位置とピーク位置との時間的差異に基づいて、ピーク適合度を算出する。
【0099】
ビート間隔更新部153は、例えば、所定の時間内にピークと合致したビートが検出されない場合、テンポ、曲調などを変更してビート間隔を新たに設定する(更新する)ようになされている。
【0100】
ビート数保持部154は、単位時間内にピークと合致したビートの数であるビート数を保持するようになされている。
【0101】
このようにして、ビート数が保持され、そのビート数に応じた重み係数が設定されて重みづけがなされることになる。
【0102】
図12と図13は、ビート数と重み係数を説明する図である。
【0103】
図12は、音楽検出部22から音楽検出信号が出力されていない場合(すなわち、音楽が検出されていない場合)のビート数と重み係数の関係を説明する図である。
【0104】
同図に示されるように、ビート数が多くなるに従って、重み係数の値が減少するようになされている。特にビート数がNを超えてから、急峻に重みが減少するようになされている。例えば、識別部83が、図7のステップS44の処理において閾値判定する際に、ステップS43で算出されたベクトル間距離に図12に示されるような重み係数を乗じるようにすれば、ビート数の値が大きくなるほど、音楽検出信号が出力される可能性が高くなる。ただし、ビート数がN以下である場合は、ビート数の値が大きくなっても音楽検出信号が出力される可能性はあまり高くならない。
【0105】
図13は、音楽検出部22から音楽検出信号が出力されている場合(すなわち、音楽が検出された場合)のビート数と重み係数の関係を説明する図である。
【0106】
同図に示されるように、ビート数が多くなるに従って、重み係数の値が減少するようになされている。特にビート数が0からMの間において、急峻に重みが減少するようになされている。例えば、識別部83が、図6のステップS44の処理において閾値判定する際に、ステップS43で算出されたベクトル間距離に図13に示されるような重み係数を乗じるようにすれば、ビート数の値が大きくなるほど、音楽検出信号が出力される可能性が高くなる。ただし、ビート数がMを超える場合は、ビート数の値が小さくても音楽検出信号が出力される可能性は高い。
【0107】
すなわち、音楽が検出されるまでは、ある程度のビート数が検出されない限り、音楽検出信号が出力されないように重み係数が設定され、音楽が検出された後は、検出されたビート数がよほど少なくない限り、音楽検出信号が出力されるように重み係数が設定される。このようにすることで、より正確かつ安定的に音楽を検出することが可能となる。
【0108】
このように、リズム検出部84による検出結果に基づいて識別部83の処理が行われるようにすることで、より正確、かつ安定的に音楽を検出することができるようになる。例えば、周囲の音に大きな雑音が含まれている場合であっても、音楽のビート位置を検出することは比較的容易だからである。
【0109】
図14は、音楽検出部22による音楽の検出結果を、F値(F-measure)により評価した評価結果を説明する図である。同図の横軸は、周囲の音におけるノイズの大きさの度合(SNR)を表しており、同図の縦軸はF値を表している。また、図中四角形の記号でプロットされた点からなる線181は、図8に示される構成の音楽検出部22による検出結果を表しており、図中菱形の記号でプロットされた点からなる線182は、図4に示される構成の音楽検出部22による検出結果を表している。
【0110】
図14に示されるように、線182は、図中右方向に向かって大きく下降しており、周囲の音におけるノイズの度合が大きくなるほど、F値が低くなり総合性能が低下している。一方、線181は、図中右方向に向かって緩やかに下降しており、周囲の音におけるノイズの度合が大きくなっても、F値はあまり低くならず総合性能が低下していない。
【0111】
すなわち、図8に示される構成の音楽検出部22を用いれば、周囲の音に大きな雑音が含まれている場合であっても、より正確、かつ安定的に音楽を検出できることが分かる。
【0112】
次に、図15のフローチャートを参照して、図8の構成を採用した場合における図6のステップS22の音楽検出処理の例について説明する。
【0113】
図15のステップS81乃至ステップS83は、それぞれ図7のステップS41乃至ステップS43と同様の処理なので詳細な説明は省略する。
【0114】
ステップS84において、リズム検出部84は、図16を参照して後述するリズム検出処理を実行する。これにより周囲の音の中のリズムの検出が行われることになる。
【0115】
ステップS85において、識別部83は、ステップS84の処理に伴って出力されたビート数に対応する重み係数を設定し、ステップS83の処理で算出されたベクトル間距離にその重み係数を乗じる。このとき、例えば、図12と図13を参照して上述したように、重み係数が設定されてベクトル間距離に乗じられる。
【0116】
図15のステップS86乃至ステップS89の処理は、図7のステップS44乃至ステップS47の処理と同様なので詳細な説明は省略する。
【0117】
次に、図16のフローチャートを参照して、図15のステップS84のリズム検出処理の詳細な例について説明する。
【0118】
ステップS101において、エンベロープ算出部121は、フレーム分割部81から出力されるフレーム分割された信号の波形に基づいてエンベロープを算出する。これにより、例えば、図9の領域92に示されるようなエンベロープが得られることになる。
【0119】
ステップS102において、ピーク検出部122は、ステップS101の処理により算出されたエンベロープに基づいて、波形のピークを検出する。これにより、例えば、図9の領域93に示されるようなピーク位置が得られることになる。ピーク検出部122の検出結果は、トラッカー131−1、トラッカー131−2、・・・に供給されるようになされている。従って、ステップS103乃至ステップS109の処理は、それぞれのトラッカーで並行して実行される処理となる。
【0120】
ステップS103において、ビート間隔設定部151は、例えば、図9を参照して上述したバー101−1、バー101−2、・・・のようにビート間隔を設定する。
【0121】
ステップS104において、ピーク適合度算出部152は、例えば、ビート位置とピーク位置との時間的差異に基づいて、ピーク適合度を算出する。
【0122】
ステップS105において、ピーク適合度算出部152は、例えば、ステップS104の処理で算出されたピーク適合度を閾値判定することで、ピーク位置がビート位置と合致したか否かを判定する。
【0123】
ステップS105において、合致したと判定された場合、処理は、ステップS106に進む。
【0124】
ステップS106において、ビート数保持部154は、ビート数をカウントアップして保持する。
【0125】
一方、ステップS105において、合致しなかったと判定された場合、処理は、ステップS107に進む。
【0126】
ステップS107において、ビート間隔更新部153は、例えば、所定の時間内にピークと合致したビートが検出されたか否かを判定する。
【0127】
ステップS107において、所定の時間内にピークと合致したビートが検出されなかったと判定された場合、処理は、ステップS108に進む。
【0128】
ステップS108において、ビート間隔更新部153は、ビート間隔を新たに設定する(更新する)。例えば、テンポ、曲調などを変更してビート間隔が更新される。なお、このとき、ビート数保持部154に保持されているビート数がクリアされるようになされている。
【0129】
一方、ステップS107において、所定の時間内にピークと合致したビートが検出されたと判定された場合、ステップS108の処理はスキップされる。
【0130】
ステップS107において、所定の時間内にピークと合致したビートが検出されたと判定された場合若しくはステップS108の処理の後、または、ステップS106の処理の後、処理は、ステップS109に進む。
【0131】
ステップS109において、単位時間分のフレームの処理がなされたか否かが判定され、まだ、単位時間分のフレームの処理がなされていないと判定された場合、処理は、ステップS103に戻り、それ以降の処理が繰り返し実行される。
【0132】
一方、ステップS109において、単位時間分のフレームの処理がなされたと判定された場合、処理は、ステップS110に進む。ステップS110において、選択部123は、トラッカー131−1、トラッカー131−2、・・・のそれぞれが、ステップS106の処理により保持してビート数のうち、最大のものを選択して出力する。
【0133】
このようにして、リズム検出処理が実行される。
【0134】
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータにネットワークや記録媒体からインストールされる。また、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図17に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
【0135】
図17において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
【0136】
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
【0137】
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707が接続されている。また、入出力インタフェース705には、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
【0138】
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着されている。そして、それらのリムーバブルメディアから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
【0139】
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
【0140】
なお、この記録媒体は、図17に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
【0141】
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0142】
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0143】
20 音楽再生装置, 21 マイク, 22 音楽検出部, 23 加工部, 24 加算器, 25 加工部, 26 スピーカ, 41 フレーム分割部, 42 音響特徴量抽出部, 43 識別部, 81 フレーム分割部, 82 音響特徴量抽出部, 83 識別部, 84 リズム検出部, 121 エンベロープ算出部, 122 ピーク検出部, 123 選択部, 131 トラッカー, 151 ビート間隔設定部, 152 ピーク適合度算出部, 153 ビート間隔更新部, 154 ビート数保持部

【特許請求の範囲】
【請求項1】
筐体の周囲の騒音を集音するマイクと、
前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、
前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出する距離算出手段と、
前記算出された距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定する判定手段と、
前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工する加工手段と、
前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力する加算手段と
を備えるコンテンツ再生装置。
【請求項2】
前記特徴量抽出手段は、
前記マイクにより集音された音の信号の波形を所定の時間的長さを有するフレームに分割し、
前記判定手段はさらに、予め設定された複数の前記フレームにおいて前記マイクにより集音された音に音楽が含まれていたか否かを判定し、
前記加工手段は、前記判定手段により予め設定された複数の前記フレームにおいて前記マイクにより集音された音に音楽が含まれていたと判定された場合、前記マイクにより集音された音の信号を加工する
請求項1に記載のコンテンツ再生装置。
【請求項3】
前記マイクにより集音された音のリズムを検出するリズム検出手段をさらに備え、
前記判定手段は、前記リズム検出手段の検出結果に基づいて、前記算出されたベクトル間距離の重み付けをする
請求項1に記載のコンテンツ再生装置。
【請求項4】
前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、再生されたコンテンツの音の音量または周波数特性を変更するように再生された前記コンテンツの音の信号を加工する他の加工手段をさらに備える
請求項1に記載のコンテンツ再生装置。
【請求項5】
前記リズム検出手段は、
前記マイクにより集音された音の信号の波形のピークを検出し、
前記検出されたピークの時間的位置と、予め設定されたビート間隔におけるビートの時間的位置との適合度を算出して、前記ビートと前記ピークが合致したか否かを判定し、
単位時間内に前記ピークと合致した前記ビートの数を保持する
請求項3に記載のコンテンツ再生装置。
【請求項6】
前記リズム検出手段はさらに、
前記単位時間より短い所定の時間内に前記ビートと前記ピークが合致したか否かを判定し、
前記判定結果に基づいて前記ビート間隔を更新する
請求項5に記載のコンテンツ再生装置。
【請求項7】
前記単位時間毎に前記ピークと合致した前記ビートの数に応じた重み係数を設定し、前記距離算出手段が算出した前記ベクトル間距離に乗じる重み制御手段をさらに備える
請求項5に記載のコンテンツ再生装置。
【請求項8】
前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定されてから音楽が含まれていないと判定されるまでの間、
前記重み制御手段は、前記ビートの数に応じた重み係数の値を変更する
請求項7に記載のコンテンツ再生装置。
【請求項9】
マイクが、筐体の周囲の騒音を集音し、
特徴量抽出手段が、前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出し、
距離算出手段が、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出し、
判定手段が、前記算出された距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定し、
加工手段が、前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工し、
加算手段が、前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力するステップ
を含むコンテンツ再生方法。
【請求項10】
コンピュータを、
筐体の周囲の騒音を集音するマイクと、
前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、
前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出する距離算出手段と、
前記算出された距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定する判定手段と、
前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工する加工手段と、
前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力する加算手段とを備えるコンテンツ再生装置として機能させる
プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate