オーディオ入力信号についての特徴のセットを導出する方法

【課題】本発明の目的は、オーディオ信号を特徴付け、分類し又は比較する、より頑強で正確な方法を提供することにある。
【解決手段】本発明は、オーディオ入力信号Mの特徴のセットSを導出する方法であって、オーディオ入力信号Mの幾つかの1次特徴f、f、…、fを識別するステップと、1次特徴f、f、…、fの少なくとも一部から幾つかの相関値ρ、ρ、…、ρを生成するステップと、相関値ρ、ρ、…、ρを利用して、オーディオ入力信号Mについての特徴のセットSを編集するステップと、を有する方法を記述する。本発明は更に、オーディオ入力信号Mを群に分類する方法、及びオーディオ入力信号M、M'を比較してオーディオ入力信号M、M'間の類似度を決定する方法を記述する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ入力信号の特徴のセットを導出する方法、及びオーディオ入力信号の特徴のセットを導出するためのシステムに関する。本発明はまた、オーディオ入力信号を分類するための方法及びシステム、及びオーディオ入力信号を比較するための方法及びシステムに関する。
【背景技術】
【0002】
ディジタルコンテンツのための記憶容量は、劇的に増大している。少なくとも1テラバイトの記憶容量を持つハードディスクが、近い将来利用可能となることが予想される。これに加えて、MPEG規格のような、マルチメディアコンテンツのための圧縮アルゴリズムの発展が、オーディオ又はビデオファイル毎に必要とされる記憶容量を著しく低減させている。その結果、消費者は、単一のハードディスク又はその他の記憶媒体に、何時間ものビデオ及びオーディオコンテンツを保存することが可能となるであろう。ビデオ及びオーディオは、常に増大し続ける数のラジオ及びTV局から記録され得る。消費者は、ますます一般的になっている機能であるワールドワイドウェブから、ビデオ及びオーディオコンテンツを単にダウンロードすることによって、該消費者のコレクションを容易に増やすことができる。更に、大きな記憶容量を持つ携帯型音楽プレイヤが利用可能となりまた実用的となり、ユーザがいつでも、選択を為すための豊富な音楽のセレクションにアクセスすることを可能としている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、選択を為すための大量のビデオ及びオーディオデータのセレクションは、問題のないものではない。例えば、数千もの音楽トラックを持つ大量の音楽のデータベースからの音楽の構成及び選択は、困難であり時間を浪費するものである。該問題は、メタデータを含ませること(実際のオーディオデータファイルに何らかの方法で添付された付加的な情報タグと理解され得る)によって、部分的に対処され得る。メタデータは時折オーディオファイルに対して提供されるが、常にというわけではない。時間を浪費する不快な取得及び分類の問題に直面するとき、ユーザは諦めてしまうか、又は全くしようとしない見込みが高い。
【0004】
音楽信号の分類の問題への対処において、幾つかの試みが為されてきた。例えば国際特許出願公開WO01/20609A2は、オーディオ信号、即ち楽曲又は音楽トラックが、リズムの複雑さ、調音、演奏の冒頭等のような特定の特徴又は変数に従って分類される分類システムを示唆している。各楽曲は、幾つかの選択された変数について、各変数が当該楽曲にどの程度当てはまるかに依存する加重値を割り当てられる。しかしながら、斯かるシステムは、類似する楽曲の音楽トラックの分類又は比較の精度のレベルが、あまり高くないという欠点を持つ。
【0005】
それ故、本発明の目的は、オーディオ信号を特徴付け、分類し又は比較する、より頑強で正確な方法を提供することにある。
【課題を解決するための手段】
【0006】
この目的のため、本発明は、とりわけオーディオ入力信号の分類及び/又はオーディオ入力信号の他のオーディオ信号との比較及び/又はオーディオ入力信号の特徴付けにおける使用のための、オーディオ入力信号の特徴のセットを導出する方法であって、前記オーディオ入力信号の幾つかの1次特徴を識別するステップと、前記1次特徴の少なくとも一部から幾つかの相関値を生成するステップと、前記相関値を利用して、前記オーディオ入力信号についての特徴のセットを編集するステップと、を有する方法を提供する。前記識別するステップは例えば、オーディオ入力信号から幾つかの1次特徴を抽出するステップ、又はデータベースから幾つかの1次特徴を取得するステップを有しても良い。
【0007】
前記1次特徴は、オーディオ入力信号の特定の選択された記述的な特徴であり、信号帯域幅、ゼロ交差率、信号の音量、信号の明るさ、信号エネルギー又はパワースペクトル値等を記述しても良い。1次特徴によって記述される他の特徴は、スペクトルロールオフ周波数、スペクトル重心等であり得る。オーディオ入力信号から導出される1次特徴は、基本的に直交となるように選択されても良い。即ち、1次特徴は、或る程度互いと独立となるように選択されても良い。1次特徴のシーケンスが、一般に「特徴ベクトル」と呼ばれるものへとまとめられても良く、ここでは特徴ベクトルにおける特定の位置が、常に同一のタイプの特徴により占有される。
【0008】
1次特徴のセレクションから生成される相関値(それ故2次特徴とも呼ばれる)が、これら1次特徴間の相互依存性又は共分散を記述し、オーディオ入力信号についての強力な記述子である。しばしば、1次特徴では不十分である場合には、斯かる2次特徴を用いて音楽トラックが正確に比較、分類又は特徴付けされ得ることが分かっている。
【0009】
本発明による方法の明らかな利点は、強力で記述的な特徴のセットが、いずれのオーディオ入力信号についても容易に導出され得、該特徴のセットが、例えばオーディオ入力信号を正確に分類するために又は他の類似するオーディオ信号を迅速且つ正確に識別するために利用され得る点である。例えば、1次及び2次特徴の要素を有する、オーディオ信号について編集された好適な特徴のセットは、特定の選択された記述的な特徴を記述するのみならず、これら選択された記述的な特徴間の相互関係をも記述する。
【0010】
オーディオ入力信号の特徴のセットを導出するための適切なシステムは、オーディオ入力信号の幾つかの1次特徴を識別するための特徴識別ユニットと、少なくとも一部の前記1次特徴から幾つかの相関値を生成するための相関値生成ユニットと、前記相関値を利用して前記オーディオ入力信号についての特徴のセットを編集するための特徴セット編集ユニットと、を有する。前記特徴識別ユニットは例えば、特徴抽出ユニット及び/又は特徴取得ユニットを有しても良い。
【0011】
従属請求項及び以下の説明が、本発明の特に有利な実施例及び特徴を開示する。
【0012】
オーディオ入力信号は、いずれの適切な供給源に源を持つものであっても良い。最も一般的には、オーディオ信号は、幾つかのフォーマットのうちいずれか1つを持ち得るオーディオファイルに源を持つものであっても良い。オーディオファイルのフォーマットの例は、例えばWAVのような圧縮されていないもの、例えばWMA(Windows(登録商標) Media Audio)のような無損失圧縮されたもの、及びMP3(MPEG-1 Audio Layer 3)ファイル、AAC(Advanced Audio Codec)等のような損失性圧縮されたフォーマットである。同様に、オーディオ入力信号は、当業者には良く知られているであろう、いずれかの適切な技術を用いてオーディオ信号をディジタル化することにより得られても良い。
【0013】
本発明による方法においては、オーディオ入力信号についての1次特徴(時々観測情報(observation)とも呼ばれる)は好ましくは、所与のドメインにおける1以上のセクションから抽出されても良く、相関値の生成は好ましくは、適切なドメインにおける対応するセクションの1次特徴の対を利用して相関を実行することを有する。セクションは例えば時間ドメインにおける時間フレーム又はセグメントであっても良く、ここで「時間フレーム」は単に、幾つかのオーディオ入力サンプルをカバーする時間の範囲である。セクションは、周波数ドメインにおける周波数帯域であっても良く、又はフィルタバンクドメインにおける時間/周波数の「タイル」であっても良い。これら時間/周波数タイル、時間フレーム及び周波数帯域は一般に、均一のサイズ又は継続時間のものである。オーディオ信号のセクションに関連する特徴はそれ故、時間の関数として、周波数の関数として、又は両方の組み合わせとして表現され得、それにより一方の又は両方のドメインにおいて斯かる特徴についての相関が実行され得る。以下、「セクション」及び「タイル」なる用語は、交換可能に用いられる。
【0014】
本発明の更なる好適な実施例においては、異なる、好ましくは隣接した時間フレームから抽出された1次特徴についての相関値の生成は、これら時間フレームの1次特徴を利用した相関の実行を有し、それにより、該相関値が、これら隣接した特徴間の相互関係を記述する。
【0015】
本発明の1つの好適な実施例においては、オーディオ入力信号の各時間フレームについて時間ドメインにおいて1次特徴が抽出され、好ましくは特徴ベクトルの全体の範囲に亘って、幾つかの連続する特徴ベクトルに亘って特徴の対の間の相互相関を実行することにより相関値が生成される。
【0016】
本発明の代替の好適な実施例においては、1次特徴は、オーディオ入力信号の各時間フレームについて周波数ドメインにおいて抽出され、周波数ドメインの周波数帯域に亘る2つの時間フレームの特徴ベクトルの特定の特徴間の相互相関を実行することにより、相関値が計算される。ここで、2つの時間フレームは好ましくは(必須ではないが)、隣接する時間フレームである。換言すれば、複数の時間フレームの各時間フレームについて、少なくとも2つの周波数帯域について少なくとも2つの1次特徴が抽出され、相関値の生成は、時間フレーム及び周波数帯域に亘る2つの特徴の間の相互相関を実行することを有する。
【0017】
特徴ベクトルの1次特徴は、互いに対して独立な又は直交するものとして選択されるため、オーディオ信号の異なる側面を記述し、それ故異なる単位で表現される。変数の集合の異なる変数間の共分散のレベルを比較するため、2つの変数の間の積率相関又は相互相関を計算するために利用される一般に知られた手法で、各変数の平均偏差が該変数の標準偏差によって除算されても良い。それ故、本発明の特に好適な実施例においては、相関値を生成する際に用いられる1次特徴が、全ての適切な特徴の中間値又は平均値を該1次特徴から減算することによって調節される。例えば、特徴ベクトルの全体の範囲に亘って2つの時間ドメインの1次特徴についての相関値を計算する場合、平均偏差及び標準偏差のような特徴の変動性についての尺度を算出する前に、各1次特徴の中間値が最初に計算され、1次特徴の値から減算される。同様に、2つの隣接する特徴ベクトルから2つの周波数ドメインの特徴についての相関値を計算する場合、2つの選択された1次特徴についての積率相関又は相互相関を算出する前に、2つの特徴ベクトルのそれぞれに対する1次特徴の中間値が最初に算出され、それぞれの特徴ベクトルの各1次特徴から減算される。
【0018】
例えば第1及び第2の、第1及び第3の並びに第2及び第3の1次特徴等についての相関値といったように、幾つかの斯かる相関値が計算されても良い。これら相関値は、オーディオ入力信号についての特徴の対の間の共分散又は相互依存性を記述する値であり、組み合わせられてオーディオ入力信号についての特徴の集合的なセットを与えても良い。特徴のセットの情報量を増大させるために、特徴のセットは好ましくは、1次特徴に直接関連する幾つかの情報、即ち特徴ベクトルの範囲に亘ってとられた1次特徴のそれぞれについての中間値又は平均値のような、1次特徴の適切な派生物を有しても良い。同様に、例えば特徴ベクトルの選択された範囲に亘ってとられた第1、第3及び第5の特徴についての平均値のような、1次特徴のサブセットのみについて斯かる2次特徴を取得することで十分であり得る。
【0019】
本発明による方法を利用して得られる特徴のセット(実際には1次及び2次特徴を有する拡張された特徴ベクトル)は、該セットが導出されたオーディオ信号とは独立して保存されても良いし、又は例えばメタデータの形態で該オーディオ入力信号と共に保存されても良い。
【0020】
音楽トラック又は曲はこのとき、上述した方法によって、該音楽トラック又は曲について導出された特徴のセットによって、正確に記述されることができる。斯かる特徴のセットは、高い精度で、楽曲についての分類及び比較を実行することを可能とする。
【0021】
例えば、同様の性質を持つ幾つかのオーディオ信号(単一のクラス例えば「バロック」に属するもののような)についての特徴セット又は拡張された特徴ベクトルが導出され、これらの特徴セットが次いでクラス「バロック」についてのモデルを構築するために利用されることができる。斯かるモデルは例えば、拡張された特徴ベクトルにより占有される特徴空間において各クラスが自身の平均ベクトルと自身の共分散マトリクスとを持つ、ガウス多変量モデルであっても良い。いずれの数の群又はクラスがトレーニングされても良い。音楽のオーディオ入力信号については、斯かるクラスは例えば「レゲエ」、「カントリー」、「クラシック」等のように、広く定義されても良い。同様にモデルが「80年代ディスコ」、「20年代ジャズ」、「フィンガースタイルギター」等のように、より狭い又は細分化されたものであっても良く、オーディオ入力信号の適切な代表集合を用いてトレーニングされても良い。
【0022】
最適な分類結果を保証するため、モデル空間の次元は可能な限り低く保たれる。即ち、クラス間のとり得る最良の区別を与える1次特徴を選択しつつ、最小限の数の1次特徴を選択する。特徴整列及び次元低減の既知の方法が、選択する最良の1次特徴を決定するために適用されても良い。群又はクラスについてのモデルが、当該群又はクラスに属することが分かっている幾つかのオーディオ信号を利用してトレーニングされると、「未知の」オーディオ信号は、当該オーディオ入力信号についての特徴のセットが特定の類似度内で該モデルに合致するか否かを単にチェックすることにより、該オーディオ信号が当該クラスに属するか否かをテストされることができる。
【0023】
それ故、オーディオ入力信号を群に分類する方法は好ましくは、入力オーディオ信号についての特徴のセットを導出し、該特徴のセットに基づいて、該オーディオ入力信号が幾つかの群又はクラスのうちのいずれかに対応する確率を決定することを有する。ここで、各群又はクラスが、特定のオーディオクラスに対応する。
【0024】
オーディオ入力信号を1以上の群へと分類するための対応する分類システムは、オーディオ入力信号の特徴のセットを導出するためのシステムと、前記オーディオ入力信号の特徴のセットに基づいて、該入力オーディオ信号が幾つかの群のうちのいずれかに当てはまる確率を決定するための確率決定ユニットとを有しても良い。ここで、各群が特定のオーディオクラスに対応する。
【0025】
本発明による方法の他の用途は、例えば2つの曲のようなオーディオ信号間の類似度のレベル(もしあれば)を決定するために、該オーディオ信号のそれぞれの特徴のセットに基づいて、該オーディオ信号を比較することであり得る。
【0026】
それ故、斯かる比較の方法は好ましくは、第1のオーディオ入力信号についての第1の特徴のセットを導出するステップと、第2のオーディオ入力信号についての第2の特徴のセットを導出するステップと、次いで定義された距離尺度に従って特徴空間における第1の特徴のセットと第2の特徴のセットとの間の距離を算出し、その後に最後に該算出された距離に基づいて、第1のオーディオ信号と第2のオーディオ信号との間の類似度を決定するステップとを有する。利用される距離尺度は例えば、特徴空間における特定の点間のユークリッド距離であっても良い。
【0027】
オーディオ入力信号間の類似度を決定するために該オーディオ入力信号を比較するための対応する比較システムは、第1のオーディオ入力信号についての第1の特徴のセットを導出するためのシステムと、第2のオーディオ入力信号についての第2の特徴のセットを導出するためのシステムと、定義された距離尺度に従って特徴空間における第1の特徴のセットと第2の特徴のセットとの間の距離を算出し、該算出された距離に基づいてオーディオ信号間の類似度を決定するための比較ユニットと、を有しても良い。明らかに、第1の特徴のセットを導出するためのシステムと第2の特徴のセットを導出するためのシステムとは、同一のシステムであっても良い。
【0028】
本発明は、種々のオーディオ処理アプリケーションにおいて用途を見出し得る。例えば、好適な実施例においては、上述したようなオーディオ入力信号を分類するための分類システムは、オーディオ処理装置に組み込まれても良い。該オーディオ処理装置は、オーディオ入力信号が分類される先のクラス又は群によって構成される音楽データベース又は集合へのアクセスを持ち得る。他のタイプのオーディオ処理装置は、データベースにおける音楽の特定の群又はクラスから1以上の音楽データファイルを選択するための音楽クエリシステムを有しても良い。斯かる装置のユーザはそれ故、例えばテーマが決められた音楽イベントのために、娯楽目的で曲の集合を容易にまとめることができる。曲がジャンル及び年代によって分類されている音楽データベースを利用するユーザは、「80年代のポップス」のようなカテゴリに属する幾つかの曲がデータベースから取得されるべきであることを指定し得る。斯かるオーディオ処理装置の他の有用な用途は、運動トレーニングや余暇のスライドショーのプレゼンテーション等に付随するために適切な特定の雰囲気又はリズムを持つ曲の集合を集めることであり得る。本発明の更なる有用な用途は、既知の音楽トラックに類似する、1以上の音楽トラックを探して音楽データベースを検索することであり得る。
【0029】
特徴のセットを導出し、オーディオ入力信号を分類し、入力信号を比較するための本発明によるシステムは、コンピュータプログラムとして直接的な態様で実現され得る。特徴抽出ユニット、相関値生成ユニット、特徴セット編集ユニット等のような、入力信号の特徴のセットを導出するための全てのコンポーネントは、コンピュータプログラムモジュールの形態で実現され得る。いずれの必要とされるソフトウェア又はアルゴリズムも、ハードウェア装置のプロセッサにおいてエンコードされても良く、それにより既存のハードウェア装置が、本発明の特徴から利益を得るように構成され得る。代替として、オーディオ入力信号の特徴のセットを導出するためのコンポーネントは、少なくとも部分的にハードウェアモジュールを利用して同様に実現されても良く、それにより本発明はディジタル及び/又はアナログオーディオ入力信号に適用されることができる。
【0030】
本発明の他の目的及び特徴は、添付図面に関連して考察される以下の詳細な説明から明らかとなるであろう。しかしながら、図面は単に説明の目的のためにデザインされたものであり、本発明の限定の定義としてデザインされたものではないことは、理解されるべきである。
【図面の簡単な説明】
【0031】
【図1】時間フレームと入力オーディオ信号から抽出された特徴との間の関係の抽象的な表現である。
【図2a】本発明の第1の実施例によるオーディオ入力信号から特徴のセットを導出するためのシステムの模式的なブロック図である。
【図2b】本発明の第2の実施例によるオーディオ入力信号から特徴のセットを導出するためのシステムの模式的なブロック図である。
【図3】本発明の第3の実施例によるオーディオ入力信号から特徴のセットを導出するためのシステムの模式的なブロック図である。
【図4】オーディオ信号を分類するためのシステムの模式的なブロック図である。
【図5】オーディオ信号を比較するためのシステムの模式的なブロック図である。
【発明を実施するための形態】
【0032】
図において、同様の番号は図を通して同様のオブジェクトを示す。
【0033】
本発明による以下に説明される方法の理解を簡単にするため、図1は、時間フレームt、t、…、t又は入力信号Mのセクションと、該入力信号Mについて最終的に得られる特徴のセットSとの間の抽象的な表現を示す。
【0034】
特徴のセットが導出される入力信号は、いずれの適切な供給源に源を持つものであっても良く、サンプリングされたアナログ信号、MP3又はAACファイルのようなオーディオ符号化された信号等であっても良い。本図において、オーディオ入力Mは最初に適切なディジタル化ユニット10においてディジタル化され、該ディジタル化ユニット10は該ディジタル化されたサンプルのストリームから一連の解析ウィンドウを出力する。解析ウィンドウは、例えば743msのような、特定の継続時間のものであっても良い。ウィンドウ化ユニット11は更に、合わせてI個のオーバラップする時間フレームt、t、…、tへと解析ウィンドウを分割し、各時間フレームt、t、…、tは、オーディオ入力信号Mの特定の数のサンプルをカバーする。連続する解析ウィンドウは、図示されていないが、幾つかのタイルによりオーバラップするように選択されても良い。代替として、単一の十分に広い解析ウィンドウが利用されても良く、該ウィンドウから特徴が抽出される。
【0035】
これらの時間フレームt、t、…、tIのそれぞれについて、幾つかの1次特徴f、f、…、fが、特徴抽出ユニット12において抽出される。以下により詳細に説明されるように、これら1次特徴f、f、…、fは、時間ドメイン又は周波数ドメインの信号表現から計算されても良く、時間及び/又は周波数の関数として変化しても良い。時間/周波数タイル又は時間フレームについての1次特徴f、f、…、fの各群は1次特徴ベクトルと呼ばれ、特徴ベクトルfv、fv、…、fvがタイルt、t、…、tについて抽出される。
【0036】
相関値生成ユニット13において、1次特徴f、f、…、fの特定の対について相関値が生成される。特徴の対は、単一の特徴ベクトルfv、fv、…、fvから、又は異なる特徴ベクトルfv、fv、…、fv全体からとられても良い。例えば、相関は、異なる特徴ベクトルからとられた特徴の対(fv[i],fv[i])について計算されても良いし、又は同一の特徴ベクトルからの特徴の対(fv[j],fv[k])についてとられても良い。
【0037】
特徴処理ブロック15において、1次特徴fv、fv、…、fvの1以上の派生物fm、fm、…、fm(例えば中間値、平均値又は平均値のセット)が、1次特徴ベクトルfv、fv、…、fv全体について計算されても良い。
【0038】
相関値生成ユニット13において生成された相関値は、特徴セット編集ユニット14において、特徴処理ブロック15において計算された1次特徴f、f、…fの派生物fm、fm、…、fmと組み合わせられ、オーディオ入力信号Mについての特徴のセットSを与える。斯かる特徴のセットSは、全ての解析ウィンドウについて導出されても良く、全体のオーディオ入力信号Mについての平均の特徴のセットを計算するために利用されても良い。該平均の特徴のセットは次いで、必要に応じてオーディオ信号と共にオーディオファイルに、又は別個のメタデータデータベースに、メタデータとして保存されても良い。
【0039】
図2aにおいて、オーディオ入力信号x(n)について時間ドメインにおいて特徴のセットSを導出するステップが、より詳細に説明される。オーディオ入力信号Mは最初にディジタル化ブロック10においてディジタル化され、サンプリングされた信号:
【数1】

を与える。
【0040】
続いて、サンプリングされた入力信号x[n]がウィンドウ化ブロック20においてウィンドウ化され、ウィンドウw[n]を利用して時間ドメインにおけるタイルについてサイズN及びホップサイズHを持つウィンドウ化されたサンプルx[n]の群を導出する:
【数2】

【0041】
図において時間ドメインtに対応する各サンプルの群x[n]は次いで、本例においては高速フーリエ変換(FFT)をとることにより、周波数ドメインへと変換される:
【数3】

【0042】
続いて、対数べき乗算出ユニット21において、各周波数サブバンドbについてフィルタカーネルW[k]を利用して、周波数サブバンドのセットについて対数ドメインのサブバンドべき乗P[b]が計算される:
【数4】

【0043】
最後に、係数算出ユニット22において、B個のべき乗サブバンドに亘る各サブバンドのべき乗値P[b]のDCT(direct cosine transform)により、各時間フレームについてのメルケプストラム係数(Mel-frequency cepstral coefficients、MFCC)が得られる:
【数5】

【0044】
ウィンドウ化ユニット20、対数べき乗算出ユニット21及び係数算出ユニット22は、合わせて特徴抽出ユニット12を与える。斯かる特徴抽出ユニット12は、入力信号Mの幾つかの解析ウィンドウのそれぞれについて特徴f、f、…fを算出するために利用される。特徴抽出ユニット12は一般に、ソフトウェア(ことによるとソフトウェアパッケージとして組み合わせられる)で実現される幾つかのアルゴリズムを有する。明らかに、単一の特徴抽出ユニット12が各解析ウィンドウを別個に処理するために利用されても良いし、又は幾つかの解析ウィンドウが同時に処理されることができるように幾つかの別個の特徴抽出ユニット12が実装されても良い。
【0045】
時間フレームIの特定のセットが以上に説明されたように処理されると、特定のフレームベースの特徴間の(正規化された)相関係数から成る2次特徴が(I個のサブフレームの解析フレームに亘って)計算されても良い。このことは、相関値生成ユニット13において行われる。例えば、時間に沿ってy番目のMFCC係数とz番目のMFCC係数との間の相関は、以下のように式(6)により与えられる:
【数6】

ここでμ及びμは、それぞれ(I個に亘る)MFCC[y]及びMFCC[z]の中間値である。該中間値を減算することによる各係数の調節は、2次特徴としてピアソン相関係数を与える。該係数は、事実上、2つの変数(本例の場合には2つの係数MFCC[y]及びMFCC[z])の間の直線関係の強さの尺度である。
【0046】
以上に算出された相関値ρ(y,z)は次いで、特徴のセットSに対する寄与として利用されることができる。特徴のセットSの他の要素は、特徴処理ブロック15において算出された、時間フレームの1次の特徴ベクトルfv、fv、…、fvの派生物(例えば特徴ベクトルfv、fv、…、fvの全体の範囲に亘ってとられた各特徴ベクトルfv、fv、…、fvの最初の数個の特徴f、f、…fの中間値又は平均値)であっても良い。
【0047】
1次の特徴ベクトルfv、fv、…、fvの斯かる派生物は、特徴結合ユニット14において相関値と組み合わせられ、出力として特徴のセットSを与える。特徴のセットSは、オーディオ入力信号Mと共に若しくは該信号Mとは別個にファイルに保存されても良いし、又は保存の前に更に処理されても良い。その後、特徴のセットSは例えば、オーディオ入力信号Mを分類するために、オーディオ入力信号Mを他のオーディオ信号と比較するために、又はオーディオ入力信号Mを特徴付けするために、利用されても良い。
【0048】
図2bは、全体でB個の離散的な周波数サブバンドについて周波数ドメインで特徴が抽出される、本発明の第2の実施例のブロック図を示す。対数サブバンドべき乗値の計算までの(該計算を含めた)最初の数段階は、図2aの下で既に説明されたものと実質的に同一である。しかしながら本実施化においては、各周波数サブバンドについてのべき乗の値が特徴として直接利用され、そのため本例における特徴ベクトルfv、fvi+1は、式(4)において与えられたような周波数サブバンドの範囲に亘る各周波数サブバンドについてのべき乗の値を有する。それ故、特徴抽出ユニット12'は、ウィンドウ化ユニット20及び対数べき乗算出ユニット21のみを必要とする。
【0049】
本例における相関値又は2次特徴の算出は、連続する時間フレームの対t、ti+1について、即ち特徴ベクトルの対f、fi+1に亘って、相関値生成ユニット13'において実行される。ここでもまた、各特徴ベクトルf、fi+1における各特徴が、該特徴から中間値μPi、μPi+1を減算することにより最初に調節される。本例においては、例えばμPiは、特徴ベクトルfの全ての要素を合計し、該合計を周波数サブバンドの総数Bで除算することにより算出される。特徴ベクトルの対f、fi+1についての相関値ρ(P,Pi+1)は、以下のように計算される:
【数7】

【0050】
以上において図2aの下で説明されたように、特徴ベクトルの対についての相関値は、特徴結合ユニット14'において、特徴処理ブロック15'において算出された1次特徴の派生物と組み合わせられ、出力として特徴のセットSを与える。ここでもまた、既に上述したように、特徴のセットSは、オーディオ入力信号と共に若しくは該信号とは別個にファイルに保存されても良いし、又は保存の前に更に処理されても良い。
【0051】
図3は、入力信号から抽出された特徴が時間ドメイン情報と周波数ドメイン情報との両方を含む、本発明の第3の実施例を示す。ここでは、オーディオ入力信号x[n]は、サンプリングされた信号である。各サンプルは、全体でK個のフィルタを有するフィルタバンク17に入力される。入力サンプルx[n]についてのフィルタバンク17の出力はそれ故、値y[m,k]のシーケンスであり、ここで1≦k≦Kである。各kインデクスはフィルタバンク17の異なる周波数バンドを表し、各mインデクスは時間即ちフィルタバンク17のサンプリングレートを表す。各フィルタバンク出力y[m,k]について、特徴f[m,k]及びf[m,k]が算出される。本例における特徴タイプf[m,k]は入力y[m,k]のパワースペクトル値であっても良く、一方特徴タイプf[m,k]は前のサンプルについて算出されたパワースペクトル値であっても良い。これら特徴の対f[m,k]、f[m,k]は、周波数サブバンドの範囲に亘って(即ち1≦k≦Kの値について)相関付けられ、相関値ρ(f,f)を与えても良い:
【数8】

【0052】
図4において、オーディオ信号Mの分類のためのシステム4の簡略化されたブロック図が示される。ここでは、オーディオ信号Mが、例えばハードディスク、CD、DVD、音楽データベース等のような記憶媒体40から取得される。第1の段階において、特徴セット導出のためのシステム1を利用して、特徴のセットSがオーディオ信号Mについて導出される。その結果の特徴のセットSは、確率決定ユニット43へと送られる。該確率決定ユニット43はまた、該オーディオ信号がことによると割り当てられ得るクラスの特徴空間における特徴位置を記述するクラス特徴情報42を、データ源45から供給される。
【0053】
確率決定ユニット43において、距離測定ユニット46が、例えば特徴のセットSの特徴とクラス特徴情報42により供給された特徴との間の特徴空間におけるユークリッド距離を測定する。決定ユニット47は、該測定に基づいて、特徴のセットS、それ故オーディオ信号Mが、どのクラス(もしあれば)に割り当てられ得るかを決定する。
【0054】
分類が成功した場合、適切なリンク48によってオーディオ信号Mに関連付けられたメタデータファイル41に、適切な情報44が保存されても良い。情報44又はメタデータは、オーディオ信号Mの特徴のセットSと、オーディオ信号Mが割り当てられたクラスとを、例えば該オーディオ信号Mが当該クラスに属する度合いの尺度と共に有し得る。
【0055】
図5は、データベース50及び51から取得され得るようなオーディオ信号M及びM'を比較するためのシステム5の簡略化されたブロック図を示す。特徴セット導出のための2つのシステム1及び1'によって、特徴セットS及び特徴セットS'が、それぞれ音楽信号M及び音楽信号M'について導出される。単に簡単さのため、本図は、特徴セット導出のための2つの別個のシステム1及び1'を示している。当然、単に一方のオーディオ信号Mについての導出を実行し、次いで他方のオーディオ信号M'についての導出を実行することにより、単一の斯かるシステムが実装されても良い。
【0056】
特徴セットS及びS'は、比較器ユニット52に入力される。該比較器ユニット52において、特徴セットS及びS'は距離解析ユニット53において解析され、特徴セットS及びS'のそれぞれの特徴間の特徴空間における距離を決定する。その結果は決定ユニット54に送られ、該決定ユニット54は距離解析ユニット53の結果を用いて、2つのオーディオ信号M及びM'が同一の群に属するとみなされるほど十分に類似しているか否かを決定する。決定ユニット54により得られた結果は適切な信号55として出力され、単純なYes/No型の結果であっても良いし、又は2つのオーディオ信号M及びM'の間の類似さ又は類似さの欠如に関する情報量のより多い判定であっても良い。
【0057】
本発明は好適な実施例及びその変形の形で開示されたが、多くの付加的な変更及び変形が本発明の範囲から逸脱することなく為され得ることは理解されるであろう。例えば、音楽信号についての特徴セットを導出するための方法は、ことによると音楽トラックについての記述的なメタデータの生成のための用途を持つ、音楽トラックを特徴付けするオーディオ処理装置において利用されても良い。更に本発明は、説明された解析の方法を利用することに限定されるものではなく、いずれの適切な解析的な方法をも適用し得る。
【0058】
明確さのため、本明細書を通して「1つの(a又はan)」の使用は複数を除外するものではなく、「有する(comprise)」は他のステップ又は要素を除外するものではないことも、理解されるべきである。「ユニット」又は「モジュール」は、単一のエンティティとして明示的に記載されない限り、適宜幾つかのブロック又は装置を有しても良い。

【特許請求の範囲】
【請求項1】
オーディオ入力信号の特徴のセットを導出するシステムであって、
前記オーディオ入力信号の複数のセクションから1次特徴を抽出し、各セクションについて特徴ベクトルを抽出する手段であって、単一の前記特徴ベクトルは、当該特徴ベクトルについての前記セクションにおける複数の異なる前記1次特徴を含む、手段と、
前記単一の特徴ベクトルからの前記1次特徴の対について、相関係数を導出する手段と、
前記相関係数を利用して、前記オーディオ入力信号についての特徴のセットを編集する手段と、
を有するシステム。
【請求項2】
前記相関係数を導出する手段は、前記対をなす前記1次特徴を、前記相関係数の導出の前に、対応する1次特徴の中間値により調節する、請求項1に記載のシステム。
【請求項3】
前記特徴のセットは、幾つかの前記相関係数に加え、少なくとも幾つかの前記1次特徴の派生物および/または前記1次特徴自体を含む、請求項1又は2に記載のシステム。
【請求項4】
前記オーディオ入力信号の前記特徴のセットに基づいて、該オーディオ入力信号が、特定のオーディオクラスを表す複数の群のうちのいずれかに入る確率を決定する手段をさらに有する、請求項1乃至3のいずれか一項に記載のシステム。
【請求項5】
前記抽出する手段、前記導出する手段および前記編集する手段により導出された、第1のオーディオ入力信号についての第1の特徴のセット、及び第2のオーディオ入力信号についての第2の特徴のセットにつき、定義された距離尺度に従って、特徴空間における前記第1の特徴のセットと前記第2の特徴のセットとの間の距離を算出する手段と、
前記算出された距離に基づいて、前記第1のオーディオ信号と前記第2のオーディオ信号との間の類似度を決定する手段と、
をさらに有する、請求項1乃至3のいずれか一項に記載のシステム。
【請求項6】
オーディオ入力信号の特徴のセットを導出するための方法であって、
前記オーディオ入力信号の複数のセクションから1次特徴を抽出し、各セクションについて特徴ベクトルを抽出するステップであって、単一の前記特徴ベクトルは、当該特徴ベクトルについての前記セクションにおける複数の異なる前記1次特徴を含む、ステップと、
前記単一の特徴ベクトルからの前記1次特徴の対について、相関係数を導出するステップと、
前記相関係数を利用して、前記オーディオ入力信号についての特徴のセットを編集するステップと、
を有する方法を、コンピュータに実行させるためのコンピュータプログラム。
【請求項7】
前記方法は、前記対をなす前記1次特徴を、前記相関係数の導出の前に、対応する1次特徴の中間値により調節するステップをさらに有する、請求項6に記載のコンピュータプログラム。
【請求項8】
前記特徴のセットは、幾つかの前記相関係数に加え、少なくとも幾つかの前記1次特徴の派生物または前記1次特徴自体を含む、請求項6又は7に記載のコンピュータプログラム。
【請求項9】
前記方法は、前記オーディオ入力信号の前記特徴のセットに基づいて、該オーディオ入力信号が、特定のオーディオクラスを表す複数の群のうちのいずれかに入る確率を決定するステップをさらに有する、請求項6乃至8のいずれか一項に記載のコンピュータプログラム。
【請求項10】
前記方法は、
前記抽出するステップ、前記導出するステップおよび前記編集するステップにより導出された、第1のオーディオ入力信号についての第1の特徴のセット、及び第2のオーディオ入力信号についての第2の特徴のセットにつき、定義された距離尺度に従って、特徴空間における前記第1の特徴のセットと前記第2の特徴のセットとの間の距離を算出するステップと、
前記算出された距離に基づいて、前記第1のオーディオ信号と前記第2のオーディオ信号との間の類似度を決定するステップと、
をさらに有する、請求項6乃至8のいずれか一項に記載のコンピュータプログラム。

【図1】
image rotate

【図2a】
image rotate

【図2b】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2013−77025(P2013−77025A)
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−283302(P2012−283302)
【出願日】平成24年12月26日(2012.12.26)
【分割の表示】特願2008−535174(P2008−535174)の分割
【原出願日】平成18年10月16日(2006.10.16)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)