説明

音響解析装置

【課題】既存の音響情報から局所的な音響表現を出力する。
【解決手段】本発明の音響解析装置は、音響に関する任意の情報から音響表現を出力する音響解析装置であって、音階を示す情報または分散和音を示す情報の少なくとも一方を含む任意の音型情報、または、音圧レベルを示す情報またはビート位置を示す情報の少なくとも一方を含む任意の同期情報における所定時間の変化に基づいて、前記音型情報または前記同期情報の印象およびタイミングを表す音響表現を抽出する表現抽出部30−2と、前記抽出した音響表現を示すデータを出力する表現出力部30−3と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響に関する任意の情報から音響表現を出力する音響解析装置に関する。
【背景技術】
【0002】
従来から、音響信号を処理する技術が知られている。例えば、特許文献1には、変化に富む多様な音楽表現の楽曲を生成するとともに、楽曲の演奏時間を自由に変更し、時間的に変化する各種の事象に対応した楽曲の生成を行なう技術が開示されている。この技術では、電話番号、名前、スケジュールなどのデータや情報に基づいて音楽を生成し、音楽データに埋め込まれたイベントデータによって映像を変化させて再生する。具体的には、メロディ(主旋律)についてはメロディフレーズテーブルが用意されており、メロディ以外のジャンルやテンポ、キーなどについては、アレンジメント(伴奏)テーブルが用意されている。メロディフレーズテーブルから電話番号などに対応して選択した複数のメロディフレーズと、所望のアレンジメント要素とを拡張フレーズを用いながら合成することで、音楽表現の豊かな楽曲を生成する。
【0003】
また、特許文献2には、音楽に対する印象に対応する画像を自動で選択しつつ、ユーザの好みに調整された画像を表示する技術が開示されている。この技術では、音楽の印象と画像の印象を自動で判定し、この判定に従って、音楽を再生する際の画像を自動で選択して表示する。具体的には、音楽を再生する際に、予め記憶されている音楽の印象を取得し、その音楽の印象に対応する印象を有する画像を、選択して画像表示部に表示する。このように選択され、画像表示部に表示している画像に対して加えられた使用者の操作情報を記憶し、画像を選択する際に反映する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−352425号公報
【特許文献2】特開2010−210746号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示されている技術では、イベントデータを音楽データに埋め込む必要があるため、音楽データを完成途中や完成状態ではなく、初めから生成する場合に限られてしまう。このため、利用者が手間を省きたい場合や好みの音楽を再生したい場合などのように、既存の音楽を再生する場合は、この技術を使うことができない。また、特許文献2に開示されている技術では、音楽の印象語が楽曲単位で割り当てられており、同一楽曲では異なる印象を連続的に表示することは困難である。一方、印象の異なる画像を連続的に表示する場合は、画像毎に楽曲を切り替えなければならないという課題がある。
【0006】
本発明は、このような事情に鑑みてなされたものであり、既存の音響情報から局所的な音響表現を出力することができる音響解析装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の音響解析装置は、音響に関する任意の情報から音響表現を出力する音響解析装置であって、音階を示す情報または分散和音を示す情報の少なくとも一方を含む任意の音型情報、または、音圧レベルを示す情報またはビート位置を示す情報の少なくとも一方を含む任意の同期情報における所定時間の変化に基づいて、前記音型情報または前記同期情報の印象およびタイミングを表す音響表現を抽出する表現抽出部と、前記抽出した音響表現を示すデータを出力する表現出力部と、を備えることを特徴とする。
【0008】
このように、音階を示す情報または分散和音を示す情報の少なくとも一方を含む任意の音型情報、または、音圧レベルを示す情報またはビート位置を示す情報の少なくとも一方を含む任意の同期情報における所定時間の変化に基づいて、前記音型情報または同期情報の印象およびタイミングを表す音響表現を示すデータを出力するので、既存の音響データから音響表現を出力することが可能となる。例えば、市販の音楽データなどの既存の音響コンテンツを利用することができる。
【0009】
(2)また、本発明の音響解析装置は、任意の音響データを読み取り、前記音響データにおける任意の音響特徴量を解析し、前記音響特徴量に基づいて、前記音型情報または前記同期情報を抽出する音響解析部、を備えることを特徴とする。
【0010】
このように、任意の音響データを読み取り、前記音響データにおける任意の音響特徴量を解析し、前記音響特徴量に基づいて、前記音型情報または前記同期情報を抽出するので、入力し得るあらゆる音響データを対象とし、音響表現を得ることが可能となる。
【0011】
(3)また、本発明の音響解析装置は、前記音型情報または前記同期情報が記録された媒体を計算機またはスキャナで読み取り、前記音型情報または前記同期情報を抽出する音響解析部、を備えることを特徴とする。
【0012】
このように、音型情報または前記同期情報が記録された媒体を計算機またはスキャナで読み取り、前記音型情報または前記同期情報を抽出するので、信号化できるあらゆる音響データを対象とし、音響表現を得ることが可能となる。
【0013】
(4)また、本発明の音響解析装置において、前記表現出力部は、前記音響表現を示すデータを、画面に表示し、または他のマルチメディアシステムに対して出力することを特徴とする。
【0014】
このように、音響表現を示すデータを、画面に表示し、または他のマルチメディアシステムに対して出力するので、音響データを視覚的に表現することが可能となる。この場合、音響表現を示すデータを自動的に出力するので、ユーザは予め作業をする必要はない。
【0015】
(5)また、本発明の音響解析装置において、前記音響データは、コンピュータファイル、光学メディア、または磁気メディアのいずれかであることを特徴とする。
【0016】
このように、音響データは、コンピュータファイル、光学メディア、または磁気メディアのいずれかであるので、あらゆる音響データを対象とし、音響表現を得ることが可能となる。
【0017】
(6)また、本発明の音響解析装置において、前記媒体は、MIDI、楽譜、または歌詞のいずれかであることを特徴とする。
【0018】
このように、媒体は、MIDI、楽譜、または歌詞のいずれかであるので、あらゆるオーディオデータを対象とし、音響表現を得ることが可能となる。
【0019】
(7)また、本発明の音響解析装置において、前記画面は、スクリーン、ディスプレイ、テレビ、ビルの壁面、窓、ガラス、鏡、またはパネルのいずれかであることを特徴とする。
【0020】
このように、画面は、スクリーン、ディスプレイ、テレビ、ビルの壁面、窓、ガラス、鏡、またはパネルのいずれかであるので、あらゆる画面に音響表現を表示することが可能となる。また、音響データの再生に合わせて音響表現を自動的に付与することによって、予め作業は必要としない。さらに、同一楽曲内の局所的な変化に応じて音響表現を付与すれば、楽曲を切り替えることなく、印象の異なる音響表現を表示することが可能である。
【発明の効果】
【0021】
本発明によれば、音階を示す情報または分散和音を示す情報の少なくとも一方を含む任意の音型情報、または、音圧レベルを示す情報またはビート位置を示す情報の少なくとも一方を含む任意の同期情報における所定時間の変化に基づいて、前記音型情報または同期情報の印象およびタイミングを表す音響表現を示すデータを出力するので、既存の音響データから音響表現を出力することが可能となる。例えば、市販の音楽データなどの既存の音響コンテンツを利用することができる。
【図面の簡単な説明】
【0022】
【図1】本実施形態に係るマルチメディアシステムの概略構成を示す図である。
【図2】本実施形態に係るマルチメディアシステム1の機能を示すブロック図である。
【図3】本実施形態に係るマルチメディアシステム1の動作を示すフローチャートである。
【発明を実施するための形態】
【0023】
本発明の実施形態に係る音響解析装置は、入力される音楽データから音響特徴量を解析し、解析した音響特徴量における任意時間内の変化に基づいて、音楽の表現を抽出する。この構成により、楽曲を切り替えることなく、局所的な音響表現を出力することが可能となる。また、本実施形態では、市販の音楽など既存の音楽コンテンツを利用することができる。
【0024】
本発明の実施形態に係るマルチメディアシステムでは、入力として音響信号を利用する。音響信号とは、いずれの音波も含む概念であるが、好ましくは、音楽データを利用する。本実施形態では、一例として、音楽データを用いた例を示すが、本発明の技術的思想は、音楽データに限定されるわけではない。さらに、本発明の実施形態に係るマルチメディアシステムでは、入力される音楽データの音響特徴量の解析にspecmurt法を利用する。本明細書では、一例として、specmurt法を示すが、本発明の技術的思想は、specmurt法に限定されるわけではない。
【0025】
図1は、本実施形態に係るマルチメディアシステムの概略構成を示す図である。図1に示すように、マルチメディアシステム1は、ディスプレイ10と、スピーカ20(20a、20b)と、PC(Personal Computer)30と、から構成されている。音響データ40は、例えば、CDプレイヤから入力される。図1では、2つのスピーカ20a、20bが、ディスプレイ10の両脇に設けられている。
【0026】
PC30は、ケーブル30aを介して映写装置としてのディスプレイ10に接続されている。また、PC30は、ケーブル30bを介して音響装置としてのスピーカ20に接続されている。PC30は、入力される音響データ40から音響特徴量を解析し、解析した音響特徴量における任意時間内の変化に基づいて音楽の表現を抽出する。
【0027】
PC30は、抽出した音響データ40の音響表現を記した映像信号をディスプレイ10に発信すると共に、音響データ40の音響信号をスピーカ20に発信する。その際、映像信号はディスプレイ10にA1として映写され、音響信号はスピーカ20からA2として放射される。
【0028】
図2は、本実施形態に係るマルチメディアシステム1の機能を示すブロック図である。PC30の音響解析部30−1は、入力される音響データ40から音響特徴量を解析し、解析した音響特徴量に基づいて、音型情報または同期情報を出力する。また、PC30の表現抽出部30−2は、音響解析部30−1が出力した音型情報または同期情報における任意時間内の変化に基づいて音響データ40の音響表現を抽出する。さらに、PC30の表現出力部30−3は、表現抽出部30−2が抽出した音響表現をディスプレイ10に出力する。その他の構成については、図1で説明したとおりであるため、説明を省略する。
【0029】
図3は、本実施形態に係るマルチメディアシステム1の動作を示すフローチャートである。初めに、PC30に、音響データ40を入力する(ステップS1)。次に、PC30において、入力された音響データ40の対数周波数スペクトルを獲得する(ステップS2)。まず、時刻tにおける音響データ40の入力信号をI(t)とする時、式(1)に基づいて、帯域xのサブバンド信号Bx(t)を算出する。
【0030】
【数1】

式(1)において、gt(t)はガンマトーンフィルタのインパルス応答、Sはスケールパラメータである。ここで、中心周波数fHzのガンマトーンフィルタのインパルス応答は、式(2)で与えられる。
【0031】
【数2】

式(2)において、nはフィルタの次元数でbはインパルス応答の長さ、つまりフィルタのバンド幅に関係するパラメータである。人間の聴覚フィルタを想定した場合、n=4、b=1.019ERB(f)とすれば良い。ただし,ERB(f)は中心周波数がfHzである等価方形幅(ERB:Equivalent Rectangular Bandwidth)を表しており、式(3)で算出される。
【0032】
【数3】

以上のように、算出されたサブバンド信号B(t)から、式(4)で示される対数周波数スペクトルv(x)を得る。
【0033】
【数4】

次に、PC30において、入力された音響データ40の共通調波構造パターンを獲得する(ステップS3)。まず、単一音の性質として、その基本周波数に依らず対数周波数軸上の倍音の強度の比のパターンは一定であると仮定する。これを共通調波構造パターンと呼び、対数基本周波数を原点に取ってh(x)と表すことにする。モノラル音楽音響信号の場合、h(x)は周波数に反比例するので、式(5)で表わすことができる。
【0034】
【数5】

ここで、h(x)は基本周波数に相当する位置を原点とし、基本波成分エネルギーを1(h(0)=1)とする。一方、異なる基本周波数の単一音xα、xβが重畳した多重音の場合は、対数周波数軸上にこれら異なる基本周波数の対数の位置ごとにh(x)を配置すれば、式(6)で示すように、それらの和がそのスペクトルになる。
【0035】
【数6】

また、構成音の強度(エネルギー)が異なるならば、強度p係数として、式(7)に示すように、h(x)に乗ずる。
【0036】
【数7】

次に、PC30において、フーリエ変換を実行し、入力された音響データ40の基本周波数分布を算出する(ステップS4)。まず、得られた対数周波数スペクトルv(x)を、式(8)に示すように、逆フーリエ変換して、V(y)を算出する。
【0037】
【数8】

一方、得られた共通調波構造パターンh(x)を逆フーリエ変換して、H(y)を得る。
【0038】
【数9】

ここで、V(y)、H(y)をy領域で除算をし、逆畳み込み演算を行えば、入力された音響データ40の基本周波数分布が得られる。入力された音響データ40の基本周波数分布をu(x)とすると、式(10)で表わすことができる。
【0039】
【数10】

次に、PC30において、入力された音響データ40の基本周波数を解析する(ステップS5)。まず、算出された基本周波数分布u(x)の最大値Oを、式(11)に示すように、算出する。
【0040】
【数11】

ここで、最大値Oを取るxをxとし、xを時刻tにおける音響データ40の基本周波数とする。
【0041】
同様に、音響データ40の音圧レベルを解析する(ステップS1−1)。ここで、時刻tにおける音圧レベルをyとする。また、同様に、音響データ40のビート情報を解析する(ステップS1−2)。ここで、時刻tにおいて、音響データ40のビートが検出された場合は、z=1とし、音響データ40のビートが検出されない場合は、z=0とする。本実施形態では、ビート位置を示す情報が同期情報を構成する。ただし、本発明は、これに限定されるわけではない。すなわち、同期情報を、音圧レベルを示す情報またはビート位置を示す情報の少なくとも一方を含む任意の情報とすることが可能である。
【0042】
次に、PC30において、任意の時間内における入力された音響データ40の表現を抽出する(ステップS6)。本実施形態では、一例として、一定時間内における基本周波数列を示す。ただし、本発明の技術的思想は、これに限定されるわけではない。ここで、時刻tから時刻tまでの基本周波数列Xとする。
【0043】
【数12】

そして、例えば、無音を示す式(13)が得られれば、音響データ40の表現として「無し」を抽出する。
【数13】

また、開始を示す式(14)が得られれば、音響データ40の表現として「挿入」を抽出する。
【0044】
【数14】

また、終了を示す式(15)が得られれば、音響データ40の表現として「削除」を抽出する。
【0045】
【数15】

また、長音を示す式(16)が得られれば、音響データ40の表現として「静止」を抽出する。
【0046】
【数16】

また、上昇を示す式(17)が得られれば、音響データ40の表現として「拡大」を抽出する。
【0047】
【数17】

また、下降を示す式(18)が得られれば、音響データ40の表現として「縮小」を抽出する。
【0048】
【数18】

また、繰返を示す式(19)が得られれば、音響データ40の表現として「回転」を抽出する。
【0049】
【数19】

また、θHzより高音を示す式(20)が得られれば、音響データ40の表現として「遠方」を抽出する。
【0050】
【数20】

また、θHzより低音を示す式(21)が得られれば、音響データ40の表現として「近接」を抽出する。
【0051】
【数21】

また、短音を示す式(22)が得られれば、音響データ40の表現として「軽快」を抽出する。
【0052】
【数22】

最後に、抽出された音響表現をディスプレイ10に映写すると共に、音響データ40をスピーカ20から放射する(ステップS7)。
【0053】
このように、本実施形態によれば、PC30に入力される音響データ40の基本周波数、音圧情報およびビート情報を解析し、一定時間内における基本周波数列を入力された音響データ40の表現として抽出する。そして、抽出した音響表現をディスプレイ10に映写する。例えば、抽出した音響表現を、テキストで表示することが可能である。さらに、音響データ40をスピーカ20a、20bから放射する。これにより、楽曲を切り替えることなく、局所的な音響表現を出力することが可能となる。また、市販の音楽など既存の音楽コンテンツを利用することができる。なお、音響表現の出力は、リアルタイムであっても良いし、そうでなくても良い。例えば、解析したビート情報に基づいて、音響表現を音響データと同期させて出力させても良いし、出力のタイミングをずらしても良い。
【0054】
以上説明したように、本実施形態によれば、音階を示す情報または分散和音を示す情報の少なくとも一方を含む任意の音型情報、または、音圧レベルを示す情報またはビート位置を示す情報の少なくとも一方を含む任意の同期情報における所定時間の変化に基づいて、音型情報または同期情報の印象およびタイミングを表す音響表現を抽出し、抽出した音響表現を示すデータを出力するので、局所的な音響表現を出力することが可能となる。また、任意の音響データを読み取り、音響データにおける任意の音響特徴量を解析し、解析した音響特徴量に基づいて、音型情報または同期情報を出力すれば、市販の音楽など既存の音楽コンテンツを利用することができる。
【符号の説明】
【0055】
1 マルチメディアシステム
10 ディスプレイ
20a スピーカ
20b スピーカ
20 スピーカ
30 PC
30−1 音響解析部
30−2 表現抽出部
30−3 表現出力部
30a ケーブル
30b ケーブル
40 音楽データ

【特許請求の範囲】
【請求項1】
音響に関する任意の情報から音響表現を出力する音響解析装置であって、
音階を示す情報または分散和音を示す情報の少なくとも一方を含む任意の音型情報、または、音圧レベルを示す情報またはビート位置を示す情報の少なくとも一方を含む任意の同期情報における所定時間の変化に基づいて、前記音型情報または前記同期情報の印象およびタイミングを表す音響表現を抽出する表現抽出部と、
前記抽出した音響表現を示すデータを出力する表現出力部と、を備えることを特徴とする音響解析装置。
【請求項2】
任意の音響データを読み取り、前記音響データにおける任意の音響特徴量を解析し、前記音響特徴量に基づいて、前記音型情報または前記同期情報を抽出する音響解析部、を備えることを特徴とする請求項1記載の音響解析装置。
【請求項3】
前記音型情報または前記同期情報が記録された媒体を計算機またはスキャナで読み取り、前記音型情報または前記同期情報を抽出する音響解析部、を備えることを特徴とする請求項1記載の音響解析装置。
【請求項4】
前記表現出力部は、前記音響表現を示すデータを、画面に表示し、または他のマルチメディアシステムに対して出力することを特徴とする請求項1から請求項3のいずれかに記載の音響解析装置。
【請求項5】
前記音響データは、コンピュータファイル、光学メディア、または磁気メディアのいずれかであることを特徴とする請求項2記載の音響解析装置。
【請求項6】
前記媒体は、MIDI、楽譜、または歌詞のいずれかであることを特徴とする請求項3記載の音響解析装置。
【請求項7】
前記画面は、スクリーン、ディスプレイ、テレビ、ビルの壁面、窓、ガラス、鏡、またはパネルのいずれかであることを特徴とする請求項4記載の音響解析装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−88671(P2013−88671A)
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2011−229993(P2011−229993)
【出願日】平成23年10月19日(2011.10.19)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】