説明

オーディオトラックのオーディオサムネイルを生成するシステムおよび方法

【課題】 歌唱等の第1の内容の特徴がオーディオトラックの特性として検出されるオーディオトラックのオーディオサムネイルを生成する方法およびシステムを提供する。
【解決手段】 オーディオトラック内で第1の内容の特徴を検出すること、該検出した第1の内容の特徴に対応する前記オーディオトラックの第1の部分(122)を抽出すること、前記オーディオトラック内でエネルギーの増加の発生を検出すること、該検出したエネルギーの増加に対応する前記オーディオトラックの第2の部分(122)を抽出すること、および前記オーディオトラックの前記抽出した第1の部分および第2の部分(122)を結合して前記オーディオトラックのオーディオサムネイル(126)にすること、を含む、オーディオトラックのオーディオサムネイルを生成する方法とする。

【発明の詳細な説明】
【技術分野】
【0001】
[発明の背景]
発明の分野
本発明は、歌曲のコレクションのプレビューに関し、特に、オーディオトラックからサムネイルおよびハイライトを生成するシステムおよび方法に関する。
【背景技術】
【0002】
背景情報
コンパクトディスク(以下「CD」)、MP3ディスク、手頃な価格のパーソナルコンピュータシステム、インターネット、およびオンラインメディア共有ウェブサイト(online media sharing websites)の出現で、マルチメディアデータベースおよびマルチメディアコレクションの個数およびサイズは、個人用であろうと商用であろうと、近年、急速に増大してきた。これらのファイルを効率的にブラウジングして、それらの内容を迅速に見分けることを可能にすることは、多くの個別のオーディオビジュアル作品のデータベースまたはコレクションからの聴くことの決定および/または購入の決定を行いたいユーザにとって重要な助けとなる。
【0003】
歌曲の所有者は、特定の歌曲を聴きたいが、そのタイトルおよび/またはアーティストを思い出すことができない場合がある。数百の歌曲を有する所有者の場合、特定の歌曲を見つけるには、所望の歌曲を見つける前に、何十もの歌曲のすべてまたは一部を聴くことが必要となる場合がある。CDプレーヤの中には、リスナが歌曲の最初の10秒ないし20秒を聴くことができる特徴を有するものがあるが、歌曲の最初の部分は、歌曲の内容または歌詞を表していない楽器の前奏曲である場合がある。潜在的な購入者が音楽のショートクリップを聴くことを可能にする一システムが、Fritschに付与された「Distribution of Musical Products by a Web Site Vendor Over the Internet」という発明の名称の米国特許第6,247,130号(特許文献1)に開示されている。この米国特許の内容は参照により本明細書に援用される。あるいは、歌曲アルバムまたはCDの潜在的な購入者は、購入決定をするために、特定の歌曲または興味のある歌曲をプレビューできる前に、コレクションの歌曲全体を聴く。
【0004】
ユーザがサウンドトラックおよび歌曲のコレクションをブラウジングできる一技法は、そのコレクションの各オーディオトラックおよび/または各歌曲の短いサンプルを作成してカタログを作成することである。オーディオサンプルの一作成手法は、コーラスやリフレイン等の歌曲の繰り返し部分を識別することによるものである。このような方法は、Mark A. BartschおよびGregory H. Wakefield著「To Catch a Chorus: Using Chroma-Based Representations for Audio Thumbnailing」、Proceedings of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp 15-18, New York, Oct. 2001(非特許文献1)に記載されている。この文献の内容は、参照により本明細書に援用される。歌曲の繰り返しパターンを見つけることによって歌曲のインデックスおよび取り出しを行う別の技法は、Hsuan-Huei Shih等著「Comparison of Dictionary-Based Approaches to Automatic Repeating Melody Extraction」、Proceedings of SPIE: Storage and Retrieval for Media Databases, vol 4767, pp 306-317, San Jose, Jan. 2002(非特許文献2)に記載されているような辞書ベースの手法によるものである。この文献の内容は参照により本明細書に援用される。
【0005】
インデックスならびにその後の認識および取り出しを行うために歌曲を要約するさらに別の方法は、歌曲の歌詞を転写することによるものである。インデックスシステムは、オーディオトラックの音声部分と楽器部分とを区別する。この区別する方法は、Adam L. BerenzweigおよびDaniel P. W. Ellis著「Locating Singing Voice Segments Within Music Signals」、Proceedings of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp 119-122, New York, Oct. 2001(非特許文献3)に記載されている。この文献の内容は参照により本明細書に援用される。
【特許文献1】米国特許第6,247,130号
【特許文献2】国際公開第01/69575号
【特許文献3】欧州特許出願公開第0367191号
【特許文献4】米国特許第5048390号
【非特許文献1】Mark A. BartschおよびGregory H. Wakefield著「To Catch a Chorus: Using Chroma-Based Representations for Audio Thumbnailing」、Proceedings of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp 15-18, New York, Oct. 2001
【非特許文献2】Hsuan-Huei Shih等著「Comparison of Dictionary-Based Approaches to Automatic Repeating Melody Extraction」、Proceedings of SPIE: Storage and Retrieval for Media Databases, vol 4767, pp 306-317, San Jose, Jan. 2002
【非特許文献3】Adam L. BerenzweigおよびDaniel P. W. Ellis著「Locating Singing Voice Segments Within Music Signals」、Proceedings of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp 119-122, New York, Oct. 2001
【非特許文献4】Wu ChouおよびLiang Gu著「Robust Singing Detection in Speech/Music Discriminator Design」、Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pp 865-868, 2001
【非特許文献5】Eric ScheirerおよびMalcolm Slaney著「Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator」、Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pp 1331-1334, 1997
【非特許文献6】Lawrence R. RabinerおよびRonald W. Schafer著、DIGITAL PROCESSING OF SPEECH SIGNALS, 120-131, (Prentice-Hall 1978)
【発明の開示】
【課題を解決するための手段】
【0006】
[発明の概要]
本発明の例示の実施の形態は、オーディオトラックのオーディオサムネイルを生成する方法およびシステムを対象とする。本方法およびシステムは、オーディオトラック内で第1の内容の特徴を検出すること、検出した第1の内容の特徴に対応するオーディオトラックの第1の部分を抽出すること、オーディオトラック内でエネルギーの増加の発生を検出すること、検出したエネルギーの増加に対応するオーディオトラックの第2の部分を抽出すること、および、オーディオトラックの抽出した第1の部分および第2の部分を結合してオーディオトラックのオーディオサムネイルにすること、を含む。
【0007】
また、実施の形態は、オーディオトラックのオーディオサムネイルを生成する方法も対象とする。この方法は、オーディオトラック内で第1の特性を検出すること、オーディオトラック内で検出した第1の特性にポインタをマッピングすること、第1の時間継続期間を設定すること、オーディオトラック内でエネルギーの増加の発生を検出すること、オーディオトラック内で検出したエネルギーの増加の発生にポインタをマッピングすること、第2の時間継続期間を設定すること、および、検出した第1の特性へのポインタ、第1の時間継続期間、検出したエネルギーの増加の発生へのポインタ、および第2の時間継続期間をオーディオトラックのオーディオサムネイルとして記憶すること、を含む。
【0008】
別の例示の実施の形態は、オーディオトラックにおいてハイライトを検出する方法を対象とする。この方法は、オーディオトラックにおける人間の音の位置を決定すること、オーディオトラックの第1のセグメントの第1の時間的エネルギーのエンベロープを計算すること、オーディオトラックの第2のセグメントの第2の時間的エネルギーのエンベロープを計算すること、計算した第1の時間的エネルギーのエンベロープと計算した第2の時間的エネルギーのエンベロープとを比較すること、および、第2のセグメントがオーディオトラックにおける人間の音の位置に対応し、かつ、第2のセグメントの計算した時間的エネルギーが、第1のセグメントの計算した時間的エネルギーを所定のしきい値だけ超えている場合には、第2のセグメントの位置に対応するオーディオトラックにおける位置を、オーディオトラックにおけるハイライトとして選択すること、を含む。
【0009】
代替的な実施の形態は、オーディオトラックのサムネイルを生成するコンピュータベースのシステムを提供する。このシステムは、歌唱および器楽から成るオーディオトラックを記録するように構成されたレコーダと、オーディオトラック内で第1の内容の特徴を検出するように構成されたプロセッサと、検出した第1の内容の特徴に対応するオーディオトラックの第1の部分を抽出し、オーディオトラック内でエネルギーの増加の発生を検出し、検出したエネルギーの増加に対応するオーディオトラックの第2の部分を抽出し、オーディオトラックの抽出した第1の部分および第2の部分を結合してオーディオトラックのオーディオサムネイルにするように構成されたプロセッサと、を備える。
【0010】
さらなる実施の形態はまた、オーディオトラック内で第1の内容の特徴を検出し、検出した第1の内容の特徴に対応するオーディオトラックの第1の部分を抽出し、オーディオトラック内でエネルギーの増加の発生を検出し、検出したエネルギーの増加に対応するオーディオトラックの第2の部分を抽出し、オーディオトラックの抽出した第1の部分および第2の部分を結合してオーディオトラックのオーディオサムネイルにすることにより、オーディオトラックのオーディオサムネイルを生成するためのソフトウェアで符号化されたコンピュータ可読媒体を対象とする。
【0011】
本発明のこれらの目的および利点ならびに他の目的および利点は、添付図面と共に取り入れられた好ましい実施の形態の以下の説明を読むことによって、当業者にはより明らかになり、より容易に理解されるであろう。
【発明を実施するための最良の形態】
【0012】
[好ましい実施の形態の詳細な説明]
図1は、本発明の例示の実施の形態による歌曲および器楽を含むオーディオトラックのオーディオサムネイルを生成するコンピュータベースのシステムを示している。用語「サムネイル」は、本明細書で使用されるように、歌曲、マルチメディアファイル、またはオーディオビジュアル信号トラックの短い抜粋またはサンプルであって、当該歌曲、ファイル、またはトラックを表し、歌曲またはファイルの内容の識別を助けるためにレビューできる短い抜粋またはサンプルを指すためのものである。特に、図1は、オーディオトラックを記録するように構成されたテープレコーダ102等の記録デバイスを示している。代替的に、ビデオカメラ104等の任意の個数の記録デバイスを使用して、歌曲および器楽を含む音の電子トラックを取り込むことができる。その結果記録されたオーディオトラックは、カセットテープ106および/またはCD108のような媒体に記憶することができる。本発明の実施の形態によってオーディオトラックを処理する都合上、オーディオトラックは、その後コンピュータ100が処理するメモリまたは記憶デバイス110にも記憶することができる。コンピュータ100は、1つまたは2つ以上のプロセッサを備える。さらに、例示の実施の形態は、インターネットを含むさまざまなネットワークと互換性を有し、これらのネットワークによって、オーディオトラックをコンピュータ100にダウンロードして処理することができ、その結果出力されたオーディオサムネイルを、ネットワークにわたってアップロードし、その後、記憶し、かつ/または、コンピュータ100から遠隔に位置するユーザによってブラウジングすることができる。
【0013】
1つまたは2つ以上のオーディオトラックは、例示の実施の形態によるコンピュータ100のプロセッサに入力される。コンピュータ100のプロセッサは、単一のプロセッサとすることもできるし、第1のプロセッサ、第2のプロセッサ、第3のプロセッサ等の複数のプロセッサとすることもできる。各プロセッサは、例示の実施の形態のソフトウェアまたは命令によって、オーディオトラック内の第1の特性を検出し、検出した第1の特性に対応するオーディオトラックの第1の部分を抽出し、オーディオトラック内のエネルギーの増加の発生を検出し、検出したエネルギーの増加に対応するオーディオトラックの第2の部分を抽出し、オーディオトラックの抽出した第1の部分および第2の部分を結合してオーディオトラックのオーディオサムネイルにする、ように適合される。複数のプロセッサは、コンピュータ100内に統合することもできるし、図1に図示しない別個のコンピュータに構成することもできる。コンピュータ100は、コンピュータ100における処理を制御および指示して、オーディオトラックのオーディオサムネイルを生成するソフトウェアまたは命令で符号化されたコンピュータ可読媒体を含むことができる。
【0014】
コンピュータ100は、処理を制御し、その結果をモニタ120に表示し、かつ/または、スピーカ118を介してサムネイルを聴くための表示装置、グラフィカルユーザインターフェース、パーソナルコンピュータ116等を含むことができる。オーディオトラックは、1つまたは2つ以上のレコーダ102、カメラ104等によって取り込まれた歌曲または他の音楽イベントのライブプレゼンテーションから、および/または、テープ106やCD108等の媒体に記憶された従来の歌曲の記録から、コンピュータ100に入力される。図1は、レコーダ102、カメラ104、テープ106、およびCD108からのオーディオトラックが、コンピュータ100に入力されて処理される前に、オーディオトラック記憶媒体110に記憶されることを示しているが、オーディオトラックは、例示の実施の形態の特徴を損なうことなく、これらのデバイスのいずれかから直接コンピュータ100に入力することもできる。また、歌曲または音楽イベントの記録と同時または記録後すぐにオーディオサムネイルを生成できるように、実施の形態は、レコーダ102自体またはカメラ104自体の内部で実施することもできる。
【0015】
コンピュータ100は、例示の実施の形態の処理を制御する1つまたは2つ以上の変数をパラメータとして受け取る。例えば、オーディオトラックから抽出された2つの部分を有するオーディオサムネイルを生成することができ、ユーザは、これら2つのオーディオトラック部分のそれぞれのサイズを制御する長さパラメータを、コンピュータまたはグラフィカルユーザインターフェース116によって、制御パラメータストレージ112から選択することができる。これらの制御パラメータは、記憶デバイス112に存在するものとして示されているが、例示の実施の形態の特徴を損なうことなく、この制御情報は、コンピュータ100のメモリに存在することもできるし、別の記憶媒体に存在することもできる。図2、図7、および図10に示す処理ステップに関して以下でより詳細に説明するように、例示の実施の形態は、選択された制御パラメータおよびデフォルト制御パラメータを利用して、オーディオトラックから人間の音声部分およびハイライトオーディオ部分を検出して抽出し、抽出したオーディオ部分を1つまたは2つ以上の記憶デバイス122および126に記憶する。代替的な実施の形態では、オーディオトラック内で検出した特性および特徴へのポインタが、オーディオトラック上の検出位置にマッピングされ、そのポインタ情報が、検出したオーディオトラックの対応する長さと共に記憶デバイス124に記憶される。例示の実施の形態の制御下で動作するプロセッサは、さらに、オーディオサムネイルを出力して、記憶デバイス126に記憶する。これに加えて、サムネイル生成プロセスの結果物をプリンタ130に出力することもできる。
【0016】
本発明の例示の実施の形態は、歌曲、器楽、およびそれらの組み合わせのサムネイルを生成するシステムおよび方法を対象にするが、あらゆるオーディオトラックまたは信号に実施の形態を適用して、そのトラックのオーディオ情報および信号の内容のカタログ作成、インデックス、プレビュー、および/または識別を行うのに使用できるそのトラックのサムネイルまたはオーディオ要約を生成することもできる。例えば、各歌曲を表すオーディオサムネイルを作成することによって、歌曲のコレクションまたはデータベースをインデックスすることができる。このような適用では、例えばCDに記録することができる歌曲のオーディオトラックは、コンピュータ100に入力して、オーディオサムネイルを生成することができる。その後、例えば、特定の歌曲を再生または購入するために探索しているユーザは、その歌曲のサムネイルを聴いて、インデックスされた歌曲が求めるものまたは購入したいものであるかどうかを識別することができる。例示の実施の形態の説明は、歌曲が音声および/または歌唱等の人間の音ならびに器楽で構成される電子形態の歌曲としてオーディオトラックを説明するが、オーディオトラックは、そのトラックがオーディオデータを含む限り、オーディオビジュアル作品を含めて、任意の形態のマルチメディアデータとすることができる。例示の実施の形態は、人間の音声が話し言葉であろうが、歌唱であろうが、話し言葉でない音から構成されようが、任意のタイプの人間の音声のオーディオトラックのオーディオサムネイルを生成することができる。このように、例示の実施の形態は、オーディオトラックのオーディオの内容によって制限を受けず、さまざまなオーディオ記録物およびオーディオ表現物のインデックスおよびプレビューを行うのに使用できるサムネイルを生成することができる。本明細書で説明するような歌曲は、オーディオトラックのすべてまたは一部を含み、その点で、オーディオトラックは、音楽作品の搬送、伝送、および/または記憶を行う任意の形態の媒体または電子表現であると理解される。限定のためではなく説明のために、オーディオトラックには、CD108上のトラック、テープカセット106上のトラック、記憶デバイス112上のトラック、および、レコーダ102等の或るデバイスからコンピュータ100等の別のデバイスへの電子形態での音楽の伝送が含まれる。
【0017】
次に図1、図2、および図3を参照して、オーディオトラックのオーディオサムネイルを生成するシステムの一例示の実施の形態の説明を示す。図2は、オーディオトラックのオーディオサムネイルを生成する方法を示している。この方法は、ステップ200において、演奏やコンサート等の歌曲または音楽イベントのオーディオトラックを記録することから開始する。図3は、オーディオトラックの波形300を示し、縦軸はオーディオ信号の振幅を表し、横軸は時間にわたる信号を示している。オーディオトラックの対応するスペクトログラフを302に示す。縦軸はオーディオ信号の周波数を示し、横軸は時間を示す。この図において、オーディオトラックの開始の間奏をボックス304に示す一方、破線306は、この間奏に続く歌曲の音声(ボックス308で示す)の開始を示す。
【0018】
オーディオトラックが記録される媒体は、任意の既知のアナログ媒体またはデジタル媒体とすることができ、イベントのサイトから、オーディオトラックストレージ110および/またはコンピュータ100のサイトへのオーディオ信号の伝送を含むことができる。ステップ202において、サムネイル生成システムの例示の実施の形態は、オーディオトラック内に存在する第1の内容の特徴または特性の発生を探索して検出する。歌曲は、図3の304として示すように、楽器の前奏曲から開始する可能性があるが、このような前奏曲は、その歌曲または音楽曲を特徴付けるだけ十分固有なものでない場合がある。したがって、例示の実施の形態は、オーディオトラックにおいて、歌唱等の人間の音の最初の発生を探索することができる。歌唱は、ソロのアーティストによる場合もあるし、歌唱グループや合唱団等の複数のアーティストによる場合もある。制御パラメータストレージ112から1つまたは2つ以上のパラメータを選択することによって、ユーザは、ステップ202において、例示の実施の形態が歌唱、話し言葉、または特定の人間の1つもしくは複数の音を探索するかどうかを制御することができる。例示のオーディオクリップは、ストレージ114に記憶され、例えば、オーディオトラック内の音および信号と比較して特定のアーティストまたは人間の音との一致を見つけるために、実施の形態により利用することができる。
【0019】
例示の実施の形態は、ステップ202で1つまたは2つ以上の音声検出方法またはアルゴリズムを利用して、オーディオトラックにおける人間の音声の開始を見分けることができる。これらの方法は、人間の音声を他のタイプの音と区別する特別な特徴を利用することができる。この特別な特徴には、短時間平均ゼロクロスレート(short-time average zero crossing rate)、調波係数(harmonic coefficient)、スペクトルフラックス、フィルタ解析、および短時間エネルギー関数が含まれる。これらのそれぞれを本明細書で簡単に説明する。
【0020】
離散時間信号の状況では、ゼロクロスは、連続したオーディオサンプルが異なる符号を有する場合に発生すると言われる。ゼロクロスが発生するレートは、信号の周波数内容の1つの尺度とすることができる。短時間平均ゼロクロスレート(ZCR)は、次のように定義される。
【0021】
【数1】

【0022】
ここで、
【0023】
【数2】

【0024】
また、
【0025】
【数3】

【0026】
Nは、オーディオトラック上のウィンドウの長さである。オーディオ信号が小さな区間内で比較的ゆっくりと変化すると仮定することによって、Zは、通常、10〜20msごとに計算される。例えば、オーディオ信号のサンプリングレートが16000Hzであると仮定すると、Zは、約200個のオーディオサンプルごとに計算することができる。オーディオトラックウィンドウ長は、隣接したオーディオフレーム間で重なりが存在できるように、通常、この区間よりも長くなるように設定される。例えば、Zが200サンプルごとに計算される場合、オーディオトラックウィンドウ長は250サンプルに設定することができる。
【0027】
器楽のZCR値は、通常、小さな範囲内にあるのに対して、歌声は、一般に、歌唱信号の無声成分(例えば、子音)が原因で、高い振幅のZCRピークによって示される。したがって、オーディオトラックのZCR値の差異を解析することによって、オーディオトラックにおける人間の音声の開始を検出することができる。ZCR方法の適用の一例を図4に示す。図4では、歌曲の短時間平均ゼロクロスレートの波形が示されている。y軸はZCRレートの振幅を表し、x軸は時間にわたる信号を示している。この図では、ボックス400は、オーディオトラックの間奏曲の期間を示す一方、ライン402は、この間奏曲に続く歌声の開始を示している。この開始点において、ZCR値の差異の相対的な増加が見られる。
【0028】
オーディオ信号の調波係数は、オーディオ信号に存在する調波成分の良好な表示を提供できる時間自己相関係数および空間自己相関係数の加重結合である。調波成分の説明は、Wu ChouおよびLiang Gu著「Robust Singing Detection in Speech/Music Discriminator Design」、Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pp 865-868, 2001(非特許文献4)から入手することができる。この文献の内容は参照により本明細書に援用される。調波係数は次のように定義される。すなわち、オーディオ信号x(m)が与えられると、候補ピッチτの時間自己相関は次のように定義される。
【0029】
【数4】

【0030】
ここで、
【0031】
【数5】

【0032】
は、x(m)をゼロ平均したものであり、Nは、特徴解析のサンプル数である。スペクトル自己相関は次のように定義される。
【0033】
【数6】

【0034】
ここで、ω=2π/τ、X(ω)は、x(m)のスペクトルの大きさであり、
【0035】
【数7】

【0036】
は、X(ω)をゼロ平均したものである。次に、スペクトル時間自己相関は次のように定義される。
R(τ)=β・R(τ)+(1−β)・R(τ)
ここで、βは、0と1との間の任意の値とすることができる(例えば、βは0.5を選択することができる)。R(τ)とR(τ)を結合することによって、R(τ)を使用すると、R(τ)またはR(τ)のみを使用する場合よりも良好なローバスト性が得られる。調波係数Hは次のように定義される。
【0037】
【数8】

【0038】
例えば、Hは、20msのサンプルオーディオデータのウィンドウにわたって15msごとに計算することができる。歌声は、強い調波成分を有することがあり、したがって、器楽よりも高い値の調波係数を有することがあり、それによって、器楽上での人間の音声の検出が可能になる。
【0039】
スペクトルフラックスは、2ノルムのフレーム間スペクトル振幅差ベクトルである。この方法は、Eric ScheirerおよびMalcolm Slaney著「Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator」、Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pp 1331-1334, 1997(非特許文献5)に説明されている。この文献の内容は参照により本明細書に援用される。例えば、x(m)をオーディオ信号のn番目のフレームであると仮定し、X(ω)をx(m)のスペクトルの大きさであると仮定すると、スペクトルフラックスは次のように定義される。
=‖|X(ω)|−|Xn+1(ω)|‖ (3)
【0040】
例えば、Fは20msごとに計算することができる。オーディオトラック内では、人間の音声信号は、器楽よりも高い変化レートを有する傾向があるので、スペクトルフラックス値の高いピークの出現によって、歌声の開始を示すことができる。一例を図5に示す。図5では、破線500は、オーディオトラックのスペクトルフラックス値のこのグラフにおける歌声の開始を示している。
【0041】
フィルタ解析方法の下では、オーディオトラックにくし形フィルタが適用されて、歌手の音声と楽器の音との差が検出される。フィルタからのオーディオ信号出力は、入力信号が歌唱の音であるのか、それとも楽器の音であるのかに基づいて異なる。これらの差を認識することによって、例示の実施の形態は、オーディオトラックにおける人間の歌唱の開始箇所を識別することができる。
【0042】
オーディオ信号の短時間エネルギー関数は次のように定義される。
【0043】
【数9】

【0044】
ここで、x(m)は離散時間オーディオ信号であり、mはオーディオサンプルの時間インデックスであり、nは短時間エネルギーの時間インデックスであり、w(m)は長方形ウィンドウである。ここで、
【0045】
【数10】

【0046】
Nはウィンドウw(m)の長さである。短時間エネルギー関数は、時間上のオーディオ信号の振幅変動の便利な表現を提供する。平均ゼロクロスレートと同様に、Eも10〜20msごとに計算することができ、ウィンドウの長さは、隣接するオーディオフレームが互いに重なるように、その区間よりも長く設定される。オーディオトラックにおける歌声の開始は、歌曲におけるオーディオ信号のエネルギーレベルの急な上昇とみなすことができる。一般的な例を図6に示す。図6には、歌曲の短時間エネルギー関数値が表示され、破線600は歌声の開始点を示している。また、比較的長い期間の連続した高エネルギー値の後に低レベルエネルギーの最小値が出現することも、歌声の開始を示すことがある。短期間エネルギー関数および短時間平均ゼロクロスレートは、Lawrence R. RabinerおよびRonald W. Schafer著、DIGITAL PROCESSING OF SPEECH SIGNALS, 120-131, (Prentice-Hall 1978)(非特許文献6)に説明されている。この文献の内容は参照により本明細書に援用される。
【0047】
上記音声検出方法の2つ以上のものを利用することによって、たとえ、1つの検出方法の結果がオーディオトラックにおける人間の音の識別に関して結論に到達しない場合であっても、例示の実施の形態は、オーディオトラックにおいて人間の音を識別することができる。例えば、オーディオトラックの音楽の間奏曲部分と歌唱部分との間のZCRレートの相対的な振幅の値が類似している場合、オーディオトラックの人間の部分の検出は、難しくなるか、または、結論に到達しない可能性がある。人間の音声を示す高いZCR振幅ピークを検出できない場合、実施の形態は、調波係数等の異なる音声検出方法を適用して、オーディオトラックにおける人間の音の発生の検出を試みることができる。
【0048】
また、例示の実施の形態は、オーディオトラックにおける人間以外の音を第1の内容の特徴または特性として検出することも可能にする。これらの実施の形態では、ユーザは、ステップ202において、拍手や特定の楽器の音等の特定の1つまたは複数の音を選択することができる。このように、純粋な楽器のオーディオトラックの一部等の特定の音を、そのオーディオトラックを表す特性として選択して探索することができる。例示のオーディオクリップ、統計的モデル、および/またはパラメータは、ストレージ114に記憶され、実施の形態によって利用されて、例えば、特定の人間以外の音または楽器との一致を見つけるために、オーディオトラック内の音および信号と比較することができる。
【0049】
図1および図2を再び参照して、オーディオトラック内の第1の内容の特徴または特性の検出に続いて、オーディオトラックの一部がステップ204で抽出され、その後、ストレージ122に記憶され、オーディオトラックのサムネイルのすべてまたは一部として使用される。抽出した部分は、探索した特性がオーディオトラックにおいて最初に検出された箇所で始まる、すなわち、開始する。抽出した部分の長さは、ユーザによって選択されるが、第1の長さパラメータの選択が行われない場合には、例えば、デフォルトで10秒または他の任意の指定された時間フレームとすることができる。代替的に、抽出される部分の長さは、ファイブバー(five bars)や音楽の或る測定単位(one measure of music)等の音楽用語で計測することができる。当該技術分野で既知のように、音符(note)は、音楽スコアの基本単位であり、この音符は、ピッチ情報および継続期間情報の双方を表す。1つまたは2つ以上の音符はビートを含み、1つまたは2つ以上のビートはバーを含む。バーは、時間における音楽セグメントを表す。例示の実施の形態は、時間順または音楽セグメント単位で拍子を揃えて計測されたサムネイルを作成することができる。
【0050】
次に図1、図2、図7、図8、および図9を参照して、ステップ206において、システムは、オーディオトラック内の第2の特性の発生を検出する。このステップでは、例示の実施の形態は、歌曲を表すことができる歌曲のハイライトを探索して検出を試みている。ハイライトは、歌曲内のコーラスまたはリフレインとすることができ、それによってオーディオトラック内のコーラスまたはリフレインとすることができるが、例示の実施の形態は、音声や歌唱等の人間の音に対応するオーディオトラックにおける時間的エネルギー(temporal energy)の突然の増加の発生を探索する。この実施の形態では、オーディオトラックの時間的エネルギーのエンベロープがステップ700で計算される。歌曲の例示の時間的エネルギーのエンベロープを図8に示す。図8では、エンベロープは、歌曲のエネルギーだけでなく、歌曲の内容をも示す4つの部分に分割されている。800の部分Aは、楽器の前奏曲と、歌唱の最初の2つのパラグラフとを含む。主要メロディーの歌唱は802の部分Bに表されている。804の部分Cは、別の間奏曲および歌唱の別のパラグラフから成る。806の部分Dは、主要メロディーが2回繰り返されることを示している。802および806の主要メロディーの歌唱は、800および804に示すような歌唱の通常のパラグラフよりも高いボリュームの音等、より高いエネルギーを有するものとして見ることができる。図9に示すような2つの隣接するウィンドウ900および902は、ステップ702において、オーディオトラックの2つのセグメントの各エネルギーのエンベロープにマッピングされる。図9のオーディオトラックの第1のセグメント上のウィンドウ900および第2のセグメント上のウィンドウ902の例示の配置は、ウィンドウ902の始点のエネルギースパイクで分かるように、ウィンドウ902の時間的エネルギーの突然の増加に偶然対応している。このウィンドウ902の時間的エネルギーの突然の増加については以下で更に詳細に説明する。しかしながら、ウィンドウ900の初期配置は、通常、オーディオトラックの始点から開始し、ウィンドウ902はウィンドウ900のすぐ右に配置される。ウィンドウの幅は、制御パラメータストレージ112から選択され、2つのウィンドウの幅は等しくなる必要はない。一方、各ウィンドウの幅は、例えばデフォルトで10msとすることができる。
【0051】
図9に示すオーディオトラックは、左から右に聞こえるオーディオ信号として表され、これに対応して、例示の実施の形態により左から右に処理される。最も右のウィンドウ902にマッピングされたオーディオデータが、音声検出方法または他の任意の人間の音の認識手段の1つまたは2つ以上のものによって、人間の音でないと判断されると、オーディオトラックへのウィンドウのマッピングは、2つのウィンドウの小さい方の長さだけ右へシフトされる。最も右のウィンドウ902にマッピングされたオーディオデータが、ステップ704におけるように、人間の音であると判断されると、最も左のウィンドウ900内のオーディオトラックのセグメントにおけるオーディオデータの時間的エネルギーは、ステップ706において、最も右のウィンドウ902内のオーディオトラックのセグメントにおけるオーディオデータの時間的エネルギーと比較される。この比較が、左ウィンドウ900から右ウィンドウ902へのオーディオデータの時間的エネルギーの突然の増加を示す場合、ステップ708において、その増加の大きさが、制御パラメータストレージ112から選択された所定のしきい値、または、デフォルトとしての所定のしきい値と比較される。比較された時間的エネルギーの増加がしきい値を超えている場合、比較された増加、および、右ウィンドウ902の始点に対応するオーディオトラックにおける位置が、オーディオトラックにおけるハイライトを示すものとして、コンピュータ100のメモリまたはストレージデバイス114に保持される。次に、オーディオトラックにおけるウィンドウのマッピングが、小さい方のウィンドウの幅だけ右にシフトされ、このように、オーディオトラックの長さ全体が処理されて、ステップ710において、ウィンドウからウィンドウへ、人間の音に対応する時間的エネルギーの最も高い増加が決定される。オーディオエネルギーのこの最大の増加に対応するオーディオトラックにおける位置は、オーディオトラックにおける最も重要なハイライトとみなすことができる。代替的に、人間の音に対応し、所定のしきい値を超える時間的エネルギーの増加の発生のそれぞれをオーディオトラックにおけるハイライトとみなすこともできる。
【0052】
ステップ208において、時間的エネルギーの最大の増加に対応するオーディオトラックの部分が抽出され、その後、オーディオトラックのサムネイルの一部としてストレージ122に記憶される。抽出される部分は、隣接するウィンドウ間の各時間的エネルギーがステップ710で比較され、その後、オーディオトラックにおける時間的エネルギーの最大の増加であると判断された時に、オーディオトラックにマッピングされたウィンドウ902の始点、すなわち左端においてオーディオトラックで始まる、すなわち、開始する。抽出される部分の長さは、ユーザによって選択されるが、第2の長さパラメータの選択が行われていない場合には、デフォルトで10秒とすることもできるし、右ウィンドウ902の幅とすることもできる。代替的に、抽出される部分の長さは、ファイブバーや音楽の或る測定単位等の音楽用語で計測することができる。オーディオトラックの第1の抽出部分およびオーディオトラックの第2の抽出部分は、ステップ210で結合され、その結果生成されたオーディオサムネイルは、ステップ212でストレージ126に記憶されて、その後、再生、購入等のための歌曲のプレビューを行うのにブラウジングされる。
【0053】
いくつかの音楽片は、オーディオエネルギーに関して、オーディオトラック全体を通じて比較的一定の場合がある。これらの音楽作品に対応するオーディオトラックの解析は、オーディオトラックに沿って、或るウィンドウから次のウィンドウへの時間的エネルギーの大幅な増加の発生を生成できないことがある。このような場合に、例示の実施の形態は、オーディオトラックの第2の部分の抽出ステップ208を実行しない。これに対応して、ステップ210がスキップされ、ステップ212は、オーディオトラックのオーディオサムネイルとして、第1の特性の発生に対応するオーディオトラックの第1の部分のみを記憶する。
【0054】
代替的な実施の形態を図10に示す。図10では、オーディオトラックの対応する部分が図2に示すように抽出および記憶される代わりに、オーディオトラックにおける特性の発生へのポインタがマッピングおよび記憶される。ステップ1000および1002は、図2のステップ200および202に対応し、オーディオトラックの記録およびオーディオトラック内の第1の内容の特徴または特性の発生の検出を示している。ステップ1004において、ポインタが、オーディオトラックにおける歌唱の始点等の第1の特性が検出されたオーディオトラックにおける位置にマッピングされる。オーディオトラック内のエネルギーの増加の発生が、ステップ1008で検出される。これに対応して、ステップ1010において、第2のポインタが、オーディオトラック内の時間的エネルギーの最大の増加等のハイライトの発生が検出されたオーディオトラックにおける位置にマッピングされる。ステップ1006および1012において、第1の時間継続期間および第2の時間継続期間は、当該継続期間が時間の関数として計測されようが、音楽の関数として計測されようが、例えば、デフォルトの10秒として、または、グラフィカルユーザインターフェース116を通じてかつ/もしくは制御パラメータストレージ112からユーザによって選択されたものとして設定される。ステップ1014において、オーディオトラックのオーディオサムネイルは、オーディオトラックにおける第1の特性の検出された発生へのポインタ、第1の時間継続期間、オーディオトラックにおけるエネルギーの増加の検出された発生へのポインタ、および第2の時間継続期間の形でストレージ126に記憶される。第1の内容の特徴または特性の発生へのポインタは、第1のポインタとみなすことができ、エネルギーの増加の発生へのポインタは、第2のポインタとみなすことができる。この実施の形態では、音楽片は、それぞれの第1のポインタおよび第1の時間継続期間ならびに第2のポインタおよび第2の時間継続期間を適用することによって、第1のポインタが指示する箇所で開始する音楽片を第1の継続期間の間再生し、次いで、第2のポインタが指示する箇所で開始する音楽片を第2の継続期間の間再生するものとみなすことができる。このように、聴くことおよび購入の最終的な決定を行うために、歌曲または他のオーディオ曲の抜粋をプレビューすることができる。
【0055】
本発明の好ましい実施の形態を図示して説明してきたが、本発明の原理および精神から逸脱することなく、これらの実施の形態を変更できることが当業者には理解されよう。本発明の範囲は、添付の特許請求の範囲およびその等価物で画定される。
【図面の簡単な説明】
【0056】
【図1】本発明の例示の実施の形態によるオーディオトラックのサムネイルを生成するシステムのコンポーネント図である。
【図2】オーディオトラックのサムネイルを生成する例示の方法のブロックフローチャートである。
【図3】例示のオーディオトラックの波形および対応するスペクトログラフを示す図である。
【図4】オーディオトラックの短時間平均ゼロクロスレートの波形を示す図である。
【図5】オーディオトラックのスペクトルフラックス値のグラフを示す図である。
【図6】オーディオトラックの短時間エネルギー関数値のグラフを示す図である。
【図7】オーディオトラックにおいてハイライトを検出する例示の方法のブロックフローチャートである。
【図8】歌曲の時間的エネルギーのエンベロープを示す図である。
【図9】オーディオトラックにおけるオーディオ信号の時間的エネルギーレベルを示す図である。
【図10】オーディオトラックのサムネイルを生成する代替的な方法のブロックフローチャートである。
【符号の説明】
【0057】
100 コンピュータ
102 レコーダ(テープレコーダ)
104 カメラ(ビデオカメラ)
106 テープ(カセットテープ)
108 CD
110 オーディオトラックストレージ
112 制御パラメータストレージ
114 ストレージ
116 グラフィカルユーザインターフェース
118 スピーカ
120 モニタ
122、124、126 記憶デバイス
130 プリンタ

【特許請求の範囲】
【請求項1】
オーディオトラックのオーディオサムネイルを生成する方法であって、
オーディオトラック内で第1の内容の特徴を検出すること、
該検出した第1の内容の特徴に対応する前記オーディオトラックの第1の部分(122)を抽出すること、
前記オーディオトラック内でエネルギーの増加の発生を検出すること、
該検出したエネルギーの増加に対応する前記オーディオトラックの第2の部分(122)を抽出すること、および
前記オーディオトラックの前記抽出した第1の部分および第2の部分(122)を結合して前記オーディオトラックのオーディオサムネイル(126)にすること、
を含む、オーディオトラックのオーディオサムネイルを生成する方法。
【請求項2】
第1の内容の特徴を検出することは、前記オーディオトラックにおいて人間の音の最初の発生を検出することを含む、請求項1に記載のオーディオトラックのオーディオサムネイルを生成する方法。
【請求項3】
前記オーディオトラックは歌曲であり、前記第1の内容の特徴は該歌曲内の人間の音声の開始であり、
前記オーディオサムネイル(126)を記憶すること、および
該記憶したオーディオサムネイル(126)を聴くことであって、それによって、前記歌曲をプレビューする、該記憶したオーディオサムネイル(126)を聴くこと、
を含む、請求項1に記載のオーディオトラックのオーディオサムネイルを生成する方法。
【請求項4】
第1の内容の特徴を検出することは、短時間平均ゼロクロスレートの音声検出方法、調波係数の音声検出方法、スペクトルフラックスの音声検出方法、フィルタ解析の音声検出方法、および短時間エネルギー関数の音声検出方法のうちの少なくとも1つの適用を含む、請求項1に記載のオーディオトラックのオーディオサムネイルを生成する方法。
【請求項5】
第1の時間継続期間を選択すること、および
該選択した第1の時間継続期間に対応する継続期間を有する前記オーディオトラックの前記第1の部分(122)を抽出すること、
を含む、請求項1に記載のオーディオトラックのオーディオサムネイルを生成する方法。
【請求項6】
前記エネルギーの増加は所定のしきい値を超える、請求項1に記載のオーディオトラックのオーディオサムネイルを生成する方法。
【請求項7】
エネルギーの増加の発生を検出することは、前記オーディオトラックの隣接する2つの部分の間の時間的エネルギーの増加を所定のしきい値と比較することを含む、請求項1に記載のオーディオトラックのオーディオサムネイルを生成する方法。
【請求項8】
エネルギーの増加の発生を検出することは、
前記オーディオトラックの時間的エネルギーのエンベロープを計算すること、
前記オーディオトラック上に隣接する2つのウィンドウ(900および902)をマッピングすること、
人間の音に対応する前記オーディオトラックにおける位置を検出すること、
前記オーディオトラックにおける検出した人間の音の各位置について、前記人間の音の前記検出した位置に対応する前記ウィンドウ(902)の前記計算した時間的エネルギーを、前記前の隣接したウィンドウ(900)の前記計算した時間的エネルギーと比較すること、
前記オーディオトラックの前記前の隣接する部分の前記エネルギーを上回る時間的エネルギーの増加が前記所定のしきい値を超える前記オーディオトラックの部分を決定すること、および
最大の時間的エネルギーの増加を有する前記オーディオトラックの前記決定した部分を前記オーディオトラックの前記第2の部分として選択すること、
を含む、請求項7に記載のオーディオトラックのオーディオサムネイルを生成する方法。
【請求項9】
人間の音に対応する前記位置は、ゼロクロスレート、調波係数、スペクトルフラックス、フィルタ解析、および短期エネルギー関数を含む1つまたは2つ以上の音声検出方法によって検出される、請求項8に記載のオーディオトラックのオーディオサムネイルを生成する方法。
【請求項10】
請求項1に記載の方法を実施するコンピュータベースのシステムであって、
歌唱および器楽から成るオーディオトラックを記録するように構成されたレコーダ(102)と、
プロセッサであって、
前記オーディオトラック内で前記第1の内容の特徴を検出し、
該検出した第1の内容の特徴に対応する前記オーディオトラックの前記第1の部分(122)を抽出し、
前記オーディオトラック内でエネルギーの増加の発生を検出し、
該検出したエネルギーの増加に対応する前記オーディオトラックの前記第2の部分(122)を抽出し、
前記オーディオトラックの前記抽出した第1の部分および第2の部分を結合して前記オーディオトラックの前記オーディオサムネイル(126)にする、
ように構成されたプロセッサと、
を備える、コンピュータベースのシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公表番号】特表2006−501502(P2006−501502A)
【公表日】平成18年1月12日(2006.1.12)
【国際特許分類】
【出願番号】特願2004−540352(P2004−540352)
【出願日】平成15年9月30日(2003.9.30)
【国際出願番号】PCT/US2003/031324
【国際公開番号】WO2004/029927
【国際公開日】平成16年4月8日(2004.4.8)
【出願人】(503003854)ヒューレット−パッカード デベロップメント カンパニー エル.ピー. (1,145)