説明

オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム

2以上の前記特定音量モデル関数のグループから選択された1つの特定音量モデル又は2以上の特定音量モデルの1つの組み合わせがオーディオ信号の感知音量の計算に用いられる。この関数は、例えば、オーディオ信号が狭帯域なのか広帯域なのかの程度を示す指標により選択される。あるいは、関数のグループからのこのような選択と共に、ゲイン値G[t]が計算され、オーディオ信号にこのゲインが適用されると、参照音量と実質的に同じ感知音量となる。ゲインの計算は、感知音量の計算を含む反復的処理ループを用いる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号の計測と、このような計測に応答するオーディオ信号の音量を制御する装置、方法及びコンピュータプログラムに関する。
【背景技術】
【0002】
音量は、サウンドを静寂から大音響までの範囲での尺度で並べることができる聴覚の属性であると主観的に認識されている。音量はリスナーにより感知される感覚なので、物理的に直接計測することに適せず、それゆえ定量化することが難しい。音量を知覚する器官により、「正常な」聴覚を持ったリスナーが同じサウンドに対して異なった認識を持つことがある。個人の聴覚差によるばらつきを抑制しオーディオ素材の音量の一般的計測に到達する唯一の方法は、リスナーのグループを作り、音量の値又は音量の順位を統計的に導き出すことである。標準的な日常の音量計測において、このような方法は明らかに実用的ではない。
【0003】
音量を計測する十分客観的な方法を開発する試みは何度もなされてきた。フレッチャーとマンソンは、人間の聴覚は中間周波より低周波又は高周波において感度が鈍くなることを1933年に明らかにした。彼らはまた、サウンドのレベルが上がってゆくにつれて感度が相対的に下がってゆくことも発見した。初期のサウンドレベルメータは、マイクロフォン、増幅器、及び、低サウンドレベル、中間サウンドレベル、及び高サウンドレベルにおける聴覚の周波数応答を大雑把に模倣するよう組み合わせたフィルターにより構成されていた。
【0004】
このような装置が単一で孤立したトーンの一定レベルの音量の計測を行なうが、もっと複雑なサウンドの計測においては、音量の主観的な印象とうまく合致しなかった。このタイプのサウンドレベルメータは標準化されているが、工業的なノイズの監視と制御のような特定の目的にのみ使われる。
【0005】
1950年代前半、ツビッカーとスチーブンスが、フレッチャーとマンソンの研究を拡張して音量認識プロセスのより現実的なモデルを開発した。スチーブンスは、1956年に、Journal of the Acoustical Society of Americaに、「複合ノイズの音量の測定」方法を発表し、ツビッカーは、1956年に、Acousticaに、彼の「音量の心理的理論」の論文を発表した。1959年にツビッカーは、音量計算の図式的な手順を発表し、そのすぐ後いくつかの類似の論文を発表した。スチーブンスとツビッカーの方法は、ISO 532の(それぞれ)パートA及びパートBとして規格化された。両方法は、クリティカル帯域化や周波数マスクや特定ラウドネスのような音響心理学的現象を盛り込んでいる。これらの方法は、周波数の「クリティカル帯域」に落とし込んだ複合したサウンドの一部分に基づき、ある信号成分が他の信号成分をマスクし、特定ラウドネスを各クリティカル帯域に追加することによりサウンドの全体的な音量に到達するようにする。
【0006】
オーストラリア放送局(ABA)により証明された最近の研究「広告における音量の調査」(2002年7月)では、多くの広告(及び一部のプログラム)は他のプログラムと比較して音量が大きすぎ、それによりリスナーに非常に迷惑がられていることが分かった。ABAの調査は、事実上全ての放送素材及び全ての国で長年存在していた問題に対処するほんのつい最近の一試みである。その結果、もし信頼性が高くて矛盾のないプログラムの音量の計測ができ、それを迷惑な音量の変動を削減するために用いることができるなら、プログラム素材による音量の相違に起因する聴衆の不快感は、軽減もしくは削減が可能であることが分かった。
【0007】
バークスケールは、最近のクリティカル帯域の概念に使われる計測単位である。クリティカル帯域スケールは、人間の聴覚は広域スペクトルを小さなクリティカルサブ帯域に対応する部分に分解して検知するという事実に基づいている。低いクリティカル帯域の上限が次のそれより高いクリティカル帯域の下限になるような方法でクリティカル帯域を次のクリティカル帯域に付加することによりクリティカル帯域比のスケールが導かれる。もしクリティカル帯域がこのような方法で加えられていけば、特定の周波数は各つなぎ目に対応する。第1番目のクリティカル帯域は0から100Hzまでとなり、第2番目は、100から200Hzまでとなり、第3番目は200から300Hzまでというようにして500Hzまで各クリティカル帯域の範囲が増加する。0から16kHz間での可聴周波数範囲は、周波数が増えてゆくにしたがって帯域幅が増加する24の隣接するクリティカル帯域に分割される。クリティカル帯域は0から20まで番号がつけられ、バークスケールにより定義される「バーク」の単位を持つ。クリティカル帯域比と周波数との関係は人間の耳の特性を理解する上で重要である。例えば、E.ツビッカーとH.ファステルによる「音響心理学‐実際とモデル」1990年ベルリン、を参照のこと。
【0008】
等価直角帯域幅(Equivalent Rectangular Bandwidth)(ERB)スケールは、バークスケールに類似する人間の聴覚に対する周波数計測の方法である。ムーア、グラスバーグ及びベーアにより、ツビッカーの音量についての成果の改良がなされた。ムーア、グラスバーグ及びベーアの(B. C. J. Moore, B. Glasberg, T. Baer, 「閾値音量と部分音量の予想のためのモデル」Journal of the Audio Engineering Society, Vol. 45, No. 4, 1997年4月, 224〜240ページ)参照のこと。そのような低周波数では人間の聴覚システムの効率と感度が急速に減少するため、500Hz以下のクリティカル帯域の計測は難しい。聴覚フィルター帯域幅の計測を改良することによりERB比のスケールが導かれた。このような計測は、聴覚フィルター帯域幅を計測するための刻み目のあるマスカーとして用いられる。一般に、ERBスケールのために、聴覚フィルター帯域幅(ERB単位で表現される)はバークスケールより小さい。この差は低周波になるにしたがって大きくなる。
【0009】
人間の聴覚システムの周波数選択特性は、サウンドの強度をクリティカル帯域に入る部分に分割することにより近似することができる。このような近似により、クリティカル帯域の強度が導かれる。傾きが無限大の仮想的なクリティカル帯域フィルターの代わりに人間の聴覚システムにおける実際の傾きを考慮すると、このような手順によりエキサイテーションと呼ばれる中間的な強度値が導かれる。多くは、このような値は線形値としてではなく音圧レベルに似た対数値として用いられる。クリティカル帯域とエキサイテーションレベルは、多くのモデルにおいて中間値として重要な役割を果たす値に対応する。(上記「音響心理学‐実際とモデル」参照のこと)
音量レベルは「フォン」の単位で計測してもよい。1フォンは、1dBの音圧レベル (SPL)で演奏した純粋な1kHzの正弦波に対して感知する音量であり、圧力2×10‐5パスカルの2乗平均平方根に相当する。Nフォンは、1kHzの音色でNdB(SPL)で演奏に対して感知する音量である。1kHz以外の音色での音量を1kHzの音色での音量と比較することで、フォンで与えられたレベルの音量が等しくなる曲線を決定することができる。図7は、20Hzと12.5kHzとの間の周波数、及び、4.2フォン(聴覚の閾値を考慮した)から120フォン(IS0226:1987(E)、「音質‐標準等音量レベル曲線」)までのフォンレベルにおける等音量レベルの曲線を示す。
【0010】
音量レベルはまた単位「ソーン」で計測することもできる。図7に示すようにフォン単位とソーン単位との間で1対1に対応づけることができる。1ソーンは1kHzの純粋な正弦波で40dB(SPL)の音量で定義され、40フォンと同等である。ソーン単位は感知する音量が2倍になったときソーン単位で2倍になるような単位である。例えば、4ソーンは2ソーンの2倍の大きさで感知される。このようにソーンで音量レベルを表現することはより参考になる。
【0011】
ソーンはオーディオ信号の音量単位なので、特定音量は単に周波数ごとの音量である。したがって、バーク周波数スケールを用いるとき、特定音量は、バーク毎にソーン単位を持ち、同様にERB周波数スケールを用いるとき、単位はソーン/ERBとなる。
【0012】
本明細書全般を通して、「フィルター」又は「フィルターバンク」の語は、IIRフィルター又は変換のように、本質的に再帰的フィルター処理や非再帰的フィルター処理のようなどのような形態も含まれ、「フィルターされた」情報は、このようなフィルターを適用した結果に用いられる。以下に記載の実施形態では、IIRフィルター及び変換に組み込まれたフィルターバンクを採用する。
【発明の開示】
【0013】
本発明の特徴によれば、オーディオ信号を処理する方法であって、前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、前記エキサイテーション信号と前記オーディオ信号の特性を示す指標に応答してオーディオ信号の感知音量を計算するステップとを具備し、前記計算するステップでは、2以上の特定音量モデル関数のグループから、1つの特定音量モデル関数又は2以上の特定音量モデル関数の1つの組み合わせを選択し、この選択は、入力オーディオ信号の特性を示す指標により制御される。
【0014】
本発明の他の特徴によれば、オーディオ信号を処理する方法であって、前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、少なくとも前記エキサイテーション信号に応答して、ゲイン値G[t]を計算するステップとを具備し、前記ゲイン値は、前記オーディオ信号に適用した場合、参照音量と実質的に同じ感知音量となり、前記計算するステップには、少なくとも1つの非線形処理を含む反復的処理ループが含まれる。
【0015】
さらに本発明の他の特徴によれば、複数のオーディオ信号を処理する方法であって複数の処理を含み、各処理では前記オーディオ信号のそれぞれ1つを受け取るステップを具備し、各処理において、前記それぞれのオーディオ信号に応答して、エキサイテーション信号を作り、少なくとも前記エキサイテーション信号に応答して、ゲイン値G[t]を計算し、前記ゲイン値は、前記オーディオ信号に適用した場合、参照音量と実質的に同じ感知音量となり、前記計算するステップには、少なくとも1つの非線形処理を含む反復的処理ループが含まれており、その結果前記それぞれのオーディオ信号の感知音量が参照音量と実質的に同じとなり、前記同じ参照音量を前記複数の処理の各々に適用するように、前記ゲイン値G[t]でそれぞれのオーディオ信号の振幅を制御する。
【0016】
前記発明の特徴で採用される実施の形態において、信号処理のための方法又は装置は入力オーディオ信号を受け取る。前記信号は、人間の外耳及び中耳の特性を模擬するフィルター又はフィルター機能により、そして、前記フィルターされた信号を内耳基底膜にそって発生するエキサイテーションパターンを模擬する周波数帯域に分割するフィルターバンク又はフィルターバンク機能により直線的にフィルターされる。各周波数帯域に対して、特定音量は1以上の特定音量機能又はモデルを用いて計算され、機能又はモデルの選択は、前記入力オーディオ信号から抽出される特性又は特徴により制御される。各周波数帯域における前記特定音量は、広帯域の入力オーディオ信号を代表する音量指標として統合される。前記音量指標の1つの値は前記入力信号の有限時間範囲で計算してもよく、又は、前記音量指標は、前記入力オーディオ信号の時間間隔又は時間ブロックにおいて繰り返し計算してもよい。
【0017】
前記発明の特徴で採用される他の実施形態において、信号処理のための方法又は装置は入力オーディオ信号を受け取る。前記信号は、人間の外耳及び中耳の特性を模擬するフィルター又はフィルター機能により、そして、前記フィルターされた信号を内耳基底膜にそって発生するエキサイテーションパターンを模擬する周波数帯域に分割するフィルターバンク又はフィルターバンク機能により直線的にフィルターされる。各周波数帯域に対して、特定音量は1以上の特定音量機能又はモデルを用いて計算され、機能又はモデルの選択は、前記入力オーディオ信号から抽出される特性又は特徴により制御される。各周波数帯域における前記特定音量は、広帯域の入力オーディオ信号を代表する音量指標として統合される。前記音量指標は、参照音量値と比較され、その差が先に特定音量計算に入力していた周波数帯域化した信号の縮小又はゲイン調整に用いられる。前記特定音量計算は、音量と参照音量とが実質的に等しくなるまで音量計算と参照音量との比較が繰り返される。このようにして、周波数帯域化した信号に適用したゲインは、入力オーディオ信号に適用したとき入力オーディオ信号の感知音量が参照音量と実質的に同じになるようなゲインを表すようになる。前記音量指標の1つの値は前記入力信号の有限時間範囲で計算してもよく、又は、前記音量指標は、前記入力オーディオ信号の時間間隔又は時間ブロックにおいて繰り返し計算してもよい。音量計測処理の構成上の理由と同様に、感知音量が非線形特性を持つことから、ゲインの再帰的適用が好ましい。
【0018】
本発明のさまざまな態様及びその好ましい実施の形態は、以下の開示と、いくつかの図面において同様の参照番号は同様の構成要素を意味する添付図を参照することにより、よく理解できるであろう。種々の装置や処理を示す図面は、本発明を理解する手助けとなる主な構成要素を示す。分かりやすくするために、実際の実施の形態に必要であって本技術分野の当業者によく知られているが、本発明の概念を理解する上で重要でない多くの要素は省略した。本発明を実施するための信号処理は、マイクロプロセッサ、ディジタル信号プロセッサ、ロジックアレー、及び他の計算回路形態により実行されるプログラムを含む広くさまざまな方法で実行することができる
【発明を実施するための最良の形態】
【0019】
以下に詳細を示すように、本発明の第1の実施の形態は、図1に示すように、入力オーディオ信号の特性を分析し抽出する特定音量制御装置又は特定音量制御機能(「特定音量制御」)124を具備する。このオーディオ特性は、特定音量変換装置又は特定音量変換機能(「特定音量」)におけるパラメータを制御するために用いられる。信号特性として用いられる特定音量パラメータを調整することにより、本発明の客観的音量計測技術は、多数のリスナーに用いられた統計的な音量計測により形成される主観的音量にさらに厳密に一致するであろう。信号特性を音量パラメータの制御に用いることにより、信号音量がリスナーに不快感を与える結果となるような不適切な計測値の発生を減少させることができる。
【0020】
以下に詳細を示すように、本発明の第2の特徴による実施の形態では、図2に示すように、ゲイン装置又はゲイン機能(「反復ゲイン更新」)が追加されている。これは、図2における関連づけられた音量223が図2の230での好ましい参照音量と一致するまで入力オーディオ信号から導き出された時間平均されたエキサイテーション信号のゲインを反復的に調整することを目的とする。感知音量の客観的な計測は本質的に非線形処理を必要とするため、入力オーディオ信号の音量が好ましい参照音量と一致するような適切なゲインを決定するために、反復ループを採用することが有利となる。しかし、反復ゲインループは、全体の音量計測システムにかかわっているので、ゲイン調整が元の各音量の反復で用いられるオーディオ信号入力に適用されため、反復ゲインループを長期的な音量の正確な指標を生成させるために必要な時間的積分に用いることは高価となる。一般に、このような構成において、時間積分では、反復計算における各ゲインの変化に対して再計算が必要となる。しかし以下に説明するように、図2さらには図3及び図10〜12の実施の形態に示した本発明の特徴によれば、時間積分は、反復ゲインループの一部を構成する非線形処理を行なう、及び/又は、非線形処理に従う線形処理経路で行なうことができる。線形処理経路は反復ループの一部を構成する必要はない。したがって、例えば図2の実施の形態に示すように、入力201から特定音量変換装置又は特定音量変換機能(「特定音量」)220までの音量計測経路は、線形であり、時間平均機能(「時間平均化」)206を具備する。したがって、ゲイン反復は、音量計測装置又は音量計測機能にのみ縮減されて適用され、時間積分を含む必要がなくなる。図2の実施の形態において、伝達フィルター又は、伝達フィルター機能(「伝達フィルター」)202、フィルターバンク又はフィルターバンク機能(「フィルターバンク」)204、時間平均化装置又は時間平均化機能(「時間平均化」)206及び特定音量制御装置又は特定音量制御機能(「特定音量制御」)224は反復ループの一部とはならず、反復ゲイン制御を効率的かつ正確なリアルタイムシステムに組み込むことができる。
【0021】
再度図1を参照すると、本発明の第1の特徴による音量計測又は音量計測処理100の実施の形態の機能ブロック図が示されている。音量計測を行なうべきオーディオ信号が音量計測装置又は音量計測処理100の入力101に入力される。この入力は2つの経路に送られる。第1の(主)経路は、内耳の基底膜に沿って生じるエキサイテーションパターンの周波数帯域を模擬する、複数の周波数帯域の各々の特定音量を計算する経路であり、第2の(副)経路は、主経路で用いられる特定音量機能又は特定音量モデルを線選択する特定音量制御装置を有する経路である。
【0022】
好ましい実施の形態において、オーディオの処理はディジタル領域で行なわれる。したがって、オーディオ入力信号は、サンプリング周波数fでオーディオ源からサンプリングした離散時間数列x[n]で表される。数列x[n]は、以下の式のデシベルで与えられるx[n]のrmsパワーが、リスナーが聞くdB単位のサウンド音圧レベルに等しくなるように適切にスケーリングされる。
【数1】

【0023】
さらに、オーディオ信号は説明を簡単にするためにモノラルであると仮定する。本実施の形態ではしかしながら後で説明するように複数チャンネルオーディオに適用される。
【0024】
伝達フィルター102
主経路において、オーディオ入力信号は伝達フィルター又は伝達フィルター機能(「伝達フィルター」)102に入力され、その出力は、フィルターされたオーディオ信号となる。伝達フィルター102は、線形フィルターP(z)を適用することにより外耳と中耳を通るオーディオ伝達の効果を模擬する。図4に示すように、P(z)の1つの適切な振幅周波数応答は、1kHz以下では一様となり1kHz以上では、1kHzにおいて一様に正規化された閾値を持つIS0226規格に記載された聴覚の閾値の逆数に従う。伝達フィルターを適用することにより、音量計測工程で処理されるオーディオが、人間の聴覚で感知されるオーディオにさらに厳密に類似するようになり、これにより客観的な音量計測が改善される。したがって、伝達フィルター102の出力は時間領域での入力オーディオサンプルx[n]の周波数に依存してスケーリングされたものとなる。
【0025】
フィルターバンク104
フィルターされたオーディオ信号は、フィルターバンク又はフィルターバンク機能(「フィルターバンク」)104(図1)に入力される。フィルターバンク104は内耳の基底膜に沿って生じるエキサイテーションパターンを模擬するように設計する。フィルターバンク104は、ムーア、グラスバーグ及びベーアの(B. C. J. Moore, B. Glasberg, T. Baer, 「閾値音量と部分音量の予想のためのモデル」前出)により定義された等価直角帯域幅(Equivalent Rectangular Bandwidth)(ERB)周波数スケールにおいて、その帯域幅と間隔が一定である1組の線形フィルターを具備することができる。
【0026】
ERB周波数スケールがより厳密に人間の聴覚と一致し、主観的音量の効果と一致する客観的音量計測値を生成するための効率の改善を示していたとしても、バーク周波数は効率の低減を伴う。
【0027】
ヘルツで表した周波数fに対して、ヘルツで表したERB帯域の幅は以下のように近似される。
【0028】

ERB(f) = 24.7 (4.37f/1000+1) (1)

この関係から歪ませた周波数スケールは、歪ませたスケールのどの点においても、歪ませたスケールのユニットにおいて対応するERBは等しいと定義される。ヘルツで表した線形周波数からこのERB周波数スケールへの変換のための関数は、式(1)の逆数を積分することにより得られる。
【数2】

【0029】
式(2a)をfについて解く事によりERBスケールから線形周波数スケールに戻す関数を表現することは有益なことである。
【数3】

【0030】
ここで、eはERBスケールのユニットである。図5は、ERBスケールとヘルツで表した周波数との関係を示す。
【0031】
フィルターバンク104に対する聴覚フィルターの応答は、標準的なIIRフィルターを用いることで特徴づけ、実施することができる。もっと具体的には、フィルターバンク104で実施されるヘルツで表した中心周波数fにおける個々の聴覚フィルターは、12次のIIR伝達関数により定義することができる。
【数4】

【0032】
ここで
【数5】

【0033】
はヘルツで表したサンプリング周波数であり、Gは、各フィルターが周波数応答のピークにおいて確実に一様なゲインを持つようにした正規化定数であり、以下のように選択される。
【数6】

【0034】
フィルターバンク104に、ERBスケールに沿って一様な間隔を持った中央周波数f[1]...f[M]において参照される帯域である聴覚フィルターMを含ませてもよい。もっと具体的には、

「1」=fmin (5a)
[1]=fc[m-1]+ERBToHz(HzToERB(fc[m-1])+Δ)m = 2...M (5b)
[M]<fmax (5c)

ここでΔはフィルターバンク104における好ましいERBの間隔であり、fmin及びfmaxは、それぞれ中央周波数の好ましい最小値と最大値である。Δ=1を選択することができ、人間の耳が感知できる周波数範囲を考慮して、fmin=50Hzと、またfmax=20,000Hzと設定することができる。このようなパラメータを用いて、例えば、式(5a)〜(5c)を適用することでM=40の聴覚フィルターが作られる。このようなMの聴覚フィルターの大きさは、ERBスケールのクリティカル帯域に近似し、図6に示される。
【0035】
あるいは、フルレート実施と呼ばれるようなオーディオ信号のサンプリングレートでのフィルター処理の実施を行なうことは正確な音量計測に必要とする以上の時間分解能を与えると考えられているので、一般に短時間離散フーリエ変換(STDFT)と呼ばれる有限長の離散フーリエ変換を用いてフィルター処理を適切に近似させてもよい。フルレート実施の代わりにSTDFTを用いることで、効率の向上と計算の複雑さの軽減が達成される。
【0036】
入力オーディオ信号x[n]は以下で定義される。
【数7】

【0037】
ここでkは周波数指数、tは時間ブロック指数、NはDFTサイズ、Tはホップサイズ(hop size)、x[n]は、下式となるように正規化された長さNの窓である。
【数8】

【0038】
ここで、式(6)における変数tは、秒単位の時間計測と対立するSTDFTの時間ブロックを表す離散的な指数である点に留意すべきである。tの各増加は信号x[n]でのTサンプル分のホップを表す。したがって、指数tもこの定義によるとみなされる。実施の形態の詳細に応じて異なった変数の設定と窓の形式を用いることができ、f=44100Hzで、N=4096、T=2048そしてw[n]に対して、ハミング窓は優れた結果を残した。上述のSTDFTは、高速フーリエ変換を用いることによりもっと効率がよくなる。
【0039】
入力オーディオ信号の音量を計算するために、フィルターバンク104の各フィルターにおけるオーディオ信号のエネルギーの計測が必要である。各フィルターバンク104の短時間エネルギー出力は、周波数領域におけるフィルターの応答と入力信号のパワースペクトルとを乗算することにより近似することができる。
【数9】

【0040】
ここで、mは帯域数、tはブロック数、そしてPは伝達フィルターである。ここで、式(3)で指定されたものとは異なる聴覚フィルターの振幅応答に対する形式として、同様の結果を得るため式(8)を使うこともできることに留意すべきである。例えば、ムーアとグラスバーグは、式(3)と同様なことを行なう指数関数で記述されたフィルターの形態を提案している。加えて、少し性能は低下するが、1つのERBの帯域幅を持つレンガ壁(brick-wall)帯域通過フィルターとして各フィルターを近似することもでき、さらなる近似として、伝達フィルターPを総和演算から外すことができる。この場合式(8)は以下のように簡単化される。
【数10】

【0041】
このようにして、フィルターバンク104のエキサイテーション出力は時間周期t毎のそれぞれのERB帯域mにおけるエネルギーEの周波数領域での表現となる。
【0042】
マルチチャンネル
入力オーディオ信号が各チャンネルに1つづつある多数のラウドスピーカを通して聞くようなマルチチャンネルである場合、個々のチャンネルに対するエキサイテーションを上述のように最初に計算してもよい。引き続いて全てのチャンネルを統合して感知される音量を計算するために、個々のエキサイテーションは共に加算して、リスナーの耳に到達するエキサイテーションに近似する単一のエキサイテーションにすることができる。
【0043】
時間平均化106
音響心理学的及び主観的音量の試験における研究結果から、さまざまなオーディオ信号を比較するとき、リスナーは、比較に使うための長時間感知音量の値にするために短時間又は「瞬間的な」信号の音量に対して一種の時間積分を行なうことが示唆されている。音量認知のモデルを構築するとき、この時間積分は、エキサイテーションを非線形のものから特定音量へと変換した後に実行すべきであるとの提案がなされている。しかしながら、本発明の発明者は、特定音量へと変換する前にエキサイテーションに線形補間を行なうことによってこの時間積分が適切にモデル化できることを見出した。本発明の特徴によれば、特定音量の計算に先立って平滑化を行なうことにより、先に説明した方法でその計測された音量を調整するために信号に適用する必要のあるゲインの計算において顕著な利点が実現する。さらに以下に説明するように、ゲインは、エキサイテーションの計算を除外しただけではなく、このような時間積分も除外した反復ループを用いて計算することができる。このようにして、この反復ループにより、時間積分の全時間間隔に依存する計算とは反対に、ゲインを計算するために現在の時間フレームのみに依存する計算を通してゲインを算出することができる。その結果は、処理時間とメモリーの節約となる。反復ループを用いたゲインの計算を行なう実施形態には、図2、3及び10〜12に関連して以下に説明する内容が含まれる。
【0044】
図1の説明に戻って、エキサイテーションの線形補間は、さまざまな方法で実施される。例えば、以下の方程式を採用する時間平均装置又は時間平均機能(「時間平均化」)106を用いて再帰的に平滑化を行なってもよい。
【数11】

【0045】
ここで初期条件は
【数12】

【数13】

【0046】
である。平滑フィルター独自の特徴は、平滑パラメータλmを変化させ、平滑化されたエネルギー
【数14】

【0047】
は、E[m,t]の実時間平均からE[m,t]の消失メモリー平均(fading memory average)までの間で変動する。もしλ=1ならば式(10b)から
【数15】

【0048】
で、
【数16】

【0049】
は時間ブロック0からtまでに対してE[m,t]の実時間平均に等しくなることが分かるであろう。もし0≦λ<1ならば、t→∞で
【数17】

【0050】
となり、
【数18】

【0051】
は単に、E[m,t]に1つのポールスムーザー(pole smoother)を適用した結果となる。有限長のオーディオセグメントの長期音量を描写する単一の数値が要求される応用例では、λ=1を全てのmに設定してもよい。連続オーディオストリームの時間的に変動する長期音量を実時間で追求するような実時間的応用例においては、0≦λ<1で、λを全てのmで同じ値に設定してもよい。
【0052】
E[m,t]の時間平均を計算する場合において、「静か過ぎる」と考えられ且つ感知音量に寄与しないと考えられる短時間セグメントを除外することが好ましいかもしれない。これを達成するために、第2の限界スムーザーは式(10)のスムーザーと平行して走らせてもよい。この第2のスムーザーは、もしE[m,t]が
【数19】

【0053】
と比較して小さければ現在値を保持する。
【数20】

【0054】
ここでtdBはデシベルで定義される相対的な閾値である。本発明にとって決定的ではないが、tdB=−24の値で良い結果が得られることが分かっている。もし第2のスムーザーが平行して走らない場合は、
【数21】

【0055】
となる。
【0056】
特定音量120
帯域化され時間平均されたエキサイテーションエネルギーE[m,t]を、この場合はソーンで表される知覚単位における音量の単一な計測値に変換することが残っている。特定音量変換装置又は特定音量変換機能(「特定音量」)120において、エキサイテーションの各帯域は特定音量の値に変換され、ソーン/ERBの単位で測定される。音量結合装置又は音量結合機能(「音量」)122において、特定音量の値は、全体的な感知音量を作るために帯域を横断して積分又は加算される。
【0057】
特定音量制御装置124/特定音量120
複合モデル
1つの特徴において、本発明は、帯域化されたエキサイテーションを帯域化された特定音量に変換するため、ブロック120に複数のモデルを用いる。入力オーディオ信号から副経路の特定音量制御124を経て得られた制御情報は、モデルを選択するか又は、モデルが特定音量に寄与する程度を制御する。ブロック124において、1以上の特定音量モデルをこれらの変数から選択するのに役に立つ特徴又は特性がオーディオから抽出される。どのモデル又はモデルの組み合わせを用いるべきかを示す制御信号が、抽出された特徴又は特性から作られる。2以上のモデルを用いることが好ましい場合は、この制御信号にはこのようなモデルをどのように結合するかを示す情報もまた含まれる。
【0058】
例えば、特定音量N’[m,t]の帯域毎に、各モデルN’q[m,t]の帯域毎の線形結合として表現することができる。
【数22】

【0059】
ここで、Qはモデルの総数を示し、制御情報α[m,t]は各モデルに対する重み付け又は寄与を意味する。重み付けの総和は、用いられるモデルによって、1に等しくしてもしなくても良い。
【0060】
本発明はこれらに限定されないが、2つのモデルが的確な結果を与えることを見つけている。1つのモデルは、オーディオ信号が狭帯域として特徴づけられるときに最良となり、もう1つは、オーディオ信号が広帯域として特徴づけられるときに最良となる。
【0061】
最初に、特定音量の計算において、
【数23】

【0062】
の各帯域のエキサイテーションレベルを、伝達フィルターP(z)(図8)により正規化されたIS0226(図7)の等音量曲線により定義された1kHzでの等価エキサイテーションレベルに変換することができる。
【数24】

【0063】
ここでL1kHz(E,f)は、1kHzでのレベルを発生する関数であり、周波数fでレベルEに等しい音量である。実際にはL1kHz(E,f)は、伝達フィルターにより正規化された等音量曲線の参照テーブルの補間として組み込まれる。1kHzにおける等価レベルへの変換は以下の特定音量の計算により簡単化される。
【0064】
次に、各帯域における特定音量は以下のように計算することができる。
【0065】

N'[m, t] = α[m, t]N'NB[m,t]+(1-α[m,t])N'WB[m,t], (14)

ここで、N'NB[m,t]及びN'WB[m,t]は、それぞれ、狭帯域信号モデル及び広帯域信号モデルに基づく特定音量値である。α[m,t]は、オーディオ信号から計算される0と1の間にある補間係数であり、その詳細は以下に説明する。
【0066】
狭帯域の特定音量値と広帯域の特定音量値、N'NB[m,t]及びN'WB[m,t]は、指数関数を用いて帯域化されたエキサイテーションから推定することができる。
【数25】

【0067】
ここで、TQ1kHzは、1kHzのトーンに対して聞こえなくなる閾値でのエキサイテーションレベルである。等音量曲線(図7及び8)からTQ1kHzは4.3dBに等しい。ここで、これらの特定音量関数は両方とも、エキサイテーションが聞こえなくなる閾値に等しいときゼロに等しくなることに留意しなければならない。聞こえなくなる閾値より大きいエキサイテーションに対しては、両方の関数は、聴覚の強度についてのスティーブンスの原理にしたがうパワーの原理により単調に増加する。狭帯域の関数の指数は、広帯域の関数の指数より大きくなるよう選定され、狭帯域の関数を広帯域の関数より速く増大させる。狭帯域の場合と広帯域の場合の指数βとゲインGの具体的な選択については、以下に説明する。
【0068】
音量122
音量122は、特定音量120の帯域化された特定の音量を、オーディオ信号の単一の音量指標すなわち、知覚単位での音量値であるターミナル123での出力を作るために用いる。この音量指標は、異なったオーディオ信号の音量を比較において、どちらが大きくどちらが小さいかを示す限りにおいて恣意的な単位を持つことができる。
【0069】
ソーン単位で示される全体音量は、特定音量の全ての周波数帯域にわたる総計として計算することができる。
【数26】

【0070】
ここで、Δは式(6b)で定義したERBの間隔である。式(15)での係数GNBとβNBとは、α[m,t]=1のとき、1kHzのトーンにおけるSPLに対するソーン単位のSのプロットが実質的にツビッカーにより提示された対応する実験データ(図9の丸印)(ツビッカー及びH.ファステル「音響心理学‐実際とモデル」前述)と一致するように選択される。式(15b)での係数GWBとβWBとは、α[m,t]=0のとき、ユニフォームエキサイティングノイズ(各ERBにおいて同一のパワーを持つノイズ)におけるSPLに対するソーン単位のNのプロットが実質的にツビッカーにより提示された対応する実験データ(図9の角印)と一致するように選択される。少なくともツビッカーのデータに一致する角印のデータから以下が生じる。
【0071】

NB=0.0404 (17a)
βJB=0.279 (17b)
HB=0.058 (17c)
βNB=0.212 (17d)

図9(実線)は、ユニフォームエキサイティングノイズと1kHzのトーンの両方における音量を示す。
【0072】
特定音量制御124
先に述べたように、実際の実施の形態(式(15a)及び(15b))において2つの特定音量のモデルが用いられ、1つは狭帯域信号にもう1つは広帯域信号に用いられる。副経路における特定音量制御124は、各帯域において入力信号が狭帯域又は広帯域のどちらかの側に付く程度を表す指標、α[m,t]を計算する。一般的な意味では、α[m,t]は、信号が帯域の中心周波数f[m]に近い狭帯域のときは1に等しく、信号が帯域の中心周波数f[m]に近い広帯域のときは0に等しい。このような特性の混合を変動させるため、制御は2つの極端な値を連続的に変動させる。簡単にするために、制御α[m,t]は、全帯域にわたって一定とし、この場合帯域の指標mは省略され、α[m,t]が続いてα[t]として参照される。したがって制御α[t]は、全ての帯域を通じて狭帯域の程度を示す指標を意味する。このような制御を行なわせる適切な方法は次に説明するが、この特別な方法は決定的なものではなく、他の適切な方法を採用しても良い。
【0073】
制御α[t]は、信号x[n]の他の処理においてではなく、フィルターバンク104の出力にてエキサイテーションE[m,t]から計算することもできる。E[m,t]は、x[n]の「狭帯域性」と「広帯域性」とを計測するための適切な基準を提供し、その結果、計算をほとんど付加せずにα[t]を生成することができる。
【0074】
「スペクトルの平坦性」は、α[t]を算出することができるE[m,t]の特徴である。ジェイアントとノルにより定義されたスペクトルの平坦性(N. S. Jayant, P. Noll, 「波形のディジタルコーディング」、 Prentice Hall, New Jersey, 1984)は、周波数全般にわたって(E[m,t]の場合は指標mについて)取得した平均である算術的平均に対する幾何学的平均の比率となる。E[m,t]がm全般にわたって一定のとき、幾何学的平均は、算術的平均に等しくなり、スペクトルの平坦性は1に等しくなる。これは、広帯域の場合に対応する。E[m,t]がmと共に顕著に変動する場合、幾何学的平均は、算術的平均より顕著に小さくなり、スペクトルの平坦性は0に等しくなる。1からスペクトルの平坦性を減算したとき1になった場合は、「狭帯域性」の指標を生成し、0になった場合は「広帯域性」の指標を生成し、0は広帯域に対応し1は狭帯域に対応する。具体的には、1から修正されたスペクトルの平坦性E[m,t]を減算する計算は以下のようになされる。
【数27】

【0075】
ここで、P[m]は、周波数ω=2πf[m]/fでサンプリングした伝達フィルターP(z)の周波数応答に等しい。伝達フィルターの適用により「狭帯域性」の指標を膨張させる傾向にあるE[m,t]における「バンプ(bump)」が導入されるので、伝達フィルターによるE[m,t]の正規化により、さらによい結果を得ることができる。加えて、E[m,t]の帯域のサブセット全般にわたってスペクトルの平坦性を計算することにより、さらによい結果を生み出すことができる。式(18)の下限及び上限、M[t]及びM[t]、は全てのM帯域より小さい領域を定義する。M[t]とM[t]は、エネルギーの大部分を含み、M[t]とM[t]で定義される範囲がERBスケールにおいて拡がった24単位以下であるE[m,t]の部分を有することが好ましい。もっと具体的には(f[m]がHzにおける帯域mの中心周波数であることを想起して)、下式の関係が好ましい。
【0076】

HzToERB(fc[Mu[t]]) - HzToERB(fc[Ml[t]])≒24 (19a)

さらに下式を必要とする。
【0077】

HzToERB(fc[Mu[t]])≧CT[t]≧HzToERB(fc[Ml[t]]) (19b)
HzToERB(fc[Ml[t]])≧HzToERB(fc[1]) (19c)
HzToERB(fc[Mu[t]])≦HzToERB(fc[M]) (19d)

ここで、CT[t]はERBスケールで計測したE[m,t]のスペクトルの重心である。
【数28】

【0078】
理想的には、ERBスケールで計測した和の制限、M[t]とM[t]は、CT[t]付近に集中するが、CT[t]がその範囲の下限又は上限に近いとき、このとことは常に成り立つとは限らない。
【0079】
次に、NB[t]は、式(11a)と同様の方法で時間的に平滑化することができる。
【数29】

【0080】
ここで
【数30】

【0081】
は、式(11b)で定義される、全てのmについてのσ[m,t]の最大値である。最後に、α[t]は、
【数31】

【0082】
から以下のように計算される。
【数32】

【0083】
ここで、

Φ{x}=12.2568x3 - 22.8320x2 + 14.5869x - 2.9594 (21b)

である。
【0084】
Φ{x}の正確な形は決定的ではないが、式(21b)の多項式は、さまざまなオーディオ素材の主観的な計測値に対してα[t]を最適化することにより求められる。
【0085】
図2は、本発明の第2の特徴による音量計測装置又は音量計測処理200の機能ブロック図を示す。図2の装置又は機能202,204,206,220,222,223,及び224は、図1の各々の装置又は機能102,104,106,120,122,123,及び124に対応する。
【0086】
図1に実施の形態を示した本発明の第1の特徴によれば、音量計測装置又は音量計算は、知覚単位で音量値を算出する。入力信号の音量値を調整するために有益な尺度は、(例えば、以下に説明する図3の実施の形態に於けるような)入力信号x[n]と乗算したとき、その音量が参照音量レベルSrefに等しくなるようなゲインG[t]である。参照音量Srefは、任意に定義することもでき、あるいは、本発明の第1の特徴に係る他の装置又はプロセスにより、既知のオーディオ信号から計測することもできる。Ψ{x [n],tが音量S[t]を計算するために信号x[n]に対して行なう全ての計算を示すものとし、以下のようなG[t]を求めるものとする、

Sref=S[t]=Ψ{g[t]x[n],t (23)

Ψ{.で具体的に行なわれる処理は非線形なので、G[t]に対する解の近似式がなく、その代わり、反復計算により近似解を求めることができる。各反復計算iにおいて、Gを現在の推定値G[t]とする。全ての反復計算において、Gは、参照音量との差の絶対値を下げるために更新される。
【0087】

|Sref-Ψ{Gix[n],t}|<|Sref-Ψ{Gi-1x[n],t}| (24)

上記差を小さくするためにGを更新するのに適した技法は多く存在する。その方法の1つが勾配法であり(Dimitri P. Bertseakas, Athena Scientific, Belmont, MA 1995による「非線形プログラミング」参照のこと)、それによれば、先の反復による差に比例した量でGiが更新される。
【0088】

Gi=Gi-1+μ(Sref-Ψ{Gi-1x[n],t}) (25)

ここでμは、最初のステップサイズである。上記反復は、差の絶対値が閾値以下になるまで、又は、反復の回数が所定の最大値に到達するまで、又は、指定された時間が経過するまで続ける。その点においてG[t]はGと等しくなるよう設定される。
【0089】
式(6)〜(8)に戻って、信号x[n]のエキサイテーションは、STDFTの強度の信号の平方、|X[k,t]|に対する線形計算により得られることに留意すべきである。これから、ゲインが補正された信号Gx[n]は、x[n]にGを乗算したエキサイテーションに等しいことが導かれる。さらに、長期知覚音量の推定に必要な時間積分は、エキサイテーションの線形時間平均を行なうことにより行なうことができるので、Gx[n]に対応する時間平均は、x[n]にG2を乗算した時間平均されたエキサイテーションに等しい。その結果、上述の反復処理において、Ψ{Gx[n],tの再推定のたびに全入力信号履歴にわたって、時間平均を再計算する必要がなくなる。代わりに、時間平均化したエキサイテーション
【数33】

【0090】
をx[n]から一度だけ計算し、反復計算において、更新したゲインの二乗を直接
【数34】

【0091】
に適用することにより音量の更新値を得ることができる。具体的には、S[t]を算出するために、時間平均化したエキサイテーション
【数35】

【0092】
に対してなされる全ての処理に対して
【数36】

【0093】
を代理させて、全体的な乗算ゲインGに対して以下の関係を保持させる。
【数37】

【0094】
この関係を用いて、Ψ{G[n],t}を
【数38】

【0095】
で置き換えることにより、反復処理を単純化することができる。時間積分において、特定音量の非線形変換の後に長期知覚音量の推定を行う必要があったのならば、このような単純化は可能ではなかったであろう。
【0096】
G[t]を計算するための反復処理は図2に示されている。ターミナル223における出力音量S[t]は、減算結合装置又は減算結合機能231にてターミナル230における参照音量Srefから減算される。得られた差信号232は、反復計算における次のゲインGを算出する反復ゲイン更新装置又は反復ゲイン更新機能に送られる。このゲインの二乗Gは、出力234にて乗算結合装置208にフィードバックされ、そこで、ブロック206からの時間平均化したエキサイテーション信号とGとを乗算する。次いで、ブロック220と222とにより、時間平均化したエキサイテーションから反復計算におけるS[t]の次の値が計算される。このループは、ターミナル235におけるゲインG[t]が最新の値Gに等しくなる時に、終了条件が満たされるまで繰り返される。最終値G[t]は、例えば、すべてのFFTフレームt、又は、エキサイテーションがオーディオ部分の全ての期間にわたって平均化された後のオーディオ部分の最後に一度だけ、上述の反復処理により計算することができる。
【0097】
この反復処理と関連して、ゲインにより修正されない信号音量を計算したいばあいは、ゲインGは、各時間周期tでの各反復処理の開始時に1に初期化することができる。このようにして、ループで計算されたS[t]の最初の値は、元の信号音量を表し、そのように記録することができる。この値を記録したくなければ、しかしながら、Gをどのような値にも初期化することができる。G[t]を連続する時間フレームにわたって計算するときに、元の信号音量を記録したくない場合は、初期値Gは前の時間周期における値G[t]に等しくすることが好ましい。このように信号が前の時間周期における値と大きく異ならない場合は、値G[t]はおそらく実質的に同じになる。したがって、適切な値に収束させるまでほんの少しの反復計算を必要とするだけである。
【0098】
反復計算が終了すると、G[t]は、修正された信号が参照信号と一致するように、外部装置によって201にて入力信号に適用されるゲインを表す。図3は、ゲインを調整した出力信号を出力させるための、電圧制御増幅器(VCA)236のような、信号レベル制御装置又は信号レベル制御機能の入力に、反復ゲイン更新233からゲインG[t]が適用される適切な構成を示す。図3のVCAは、ライン235上にあるゲインG[t]の視聴覚的表示に応答して操作員がゲイン調整装置を制御することで置き換えてもよい。視聴覚的表示は、例えば指示計により表示される。ゲインG[t]は時間平滑化(不図示)を受ける必要があるかもしれない。
【0099】
いくつかの信号に対して、式(10)及び(11)に示した平滑化に代わるものが長期感知音量の計算に必要かもしれない。リスナーは信号の最も大きな部分と信号の長期音量とを関連づける傾向にある。その結果、式(10)及び(11)に示された平滑化では、長期の静寂が短期の大音量の素材で中断されるような信号が含まれている感知音量を過小評価してしまうかもしれない。このような信号は、長期の背景的ノイズの中に短いダイアログがあるようなフィルムのサウンドトラックにおいてしばしば見られる。式(11)に閾値があるとはいえ、そのような信号の静寂部分は時間平均化したエキサイテーション
【数39】

【0100】
に対する寄与度が大きすぎる。
【0101】
この問題を扱うために、本発明のさらなる特徴では、長期音量の計算に統計的な技術を採用することができる。まず、式(10)及び(11)の平滑時定数を非常に小さくし、
【数40】

【0102】
が「瞬間的な」エキサイテーションを表現するようにtdBをマイナス無限大に設定する。この場合、平滑時定数λは、瞬間的な音量の感知具合が周波数によって変動するようなもっと正確なモデルにするために、帯域mにより変動するように選ばれる。しかし実際には、mの変化に対して一定なλを選択しても、満足できる結果を出力する。先に説明した手順の残りは、変化させないように動作し、式(16)に示すような瞬間的な音量信号S[t]となる。t < t < t の範囲にわたって、この範囲の内のpパーセントの時間はS[t]より大きく、この範囲の内の100−pパーセントの時間はS[t]より小さい値として長期音量S[t,t]が定義される。実験では、ほぼ90%にした設定値pは、主観的に感知される長期音量に一致する。この設定では、長期音量に影響を与えるためにはS[t]の値のほんの10%が顕著であることが必要である。他の90%は、比較的静寂であっても長期音量を下げることがないようにすることができる。
【0103】
[t,t]の値は、S[t]、t≦t≦t、の値を昇順にソートして、リストSsort{i}、0≦i≦t−t、にすることにより計算することができる。長期音量は、全体のpパーセントの要素をリストにすることにより得られる。
【0104】

Sp[t1,t2]=Ssort{round(p(t2-t1)/100)} (27)

上記計算は単純なものである。しかし、x[n]を乗算すると、参照音量Srefと等しいS[t,t]となるようなG[t,t]を計算したい場合は、この計算はさらに非常に複雑になる。先に説明したように反復計算が必要となるが、長期音量計測S[t,t]は、反復計算の各々においてGの更新と共に更新しなければならない値のS[t]、t≦t≦tに全範囲において依存する。これらの更新を計算するために、信号
【数41】

【0105】
をt≦t≦tに全範囲において記憶させなければならない。加えて、S[t]のGへの依存性は非線形なので、S[t]、t≦t≦tの相対順位は各反復計算により変動するかもしれず、したがってSsort{i}も再計算しなければならない。反復計算における特定のゲインに対して聴覚の閾値よりスペクトルの小さい信号部分のソート時間を考えたとき、再ソートの必要性が簡単に明らかとなる。ゲインが増大するとき、大部分のスペクトルが可聴となり、先に可聴であった信号の他の狭帯域部分よりその部分のトータル音量は大きくなる。範囲t≦t≦tが広くなったとき、又は、ゲインG[t,t]をスライディング時間窓の関数として連続的に計算したいとき、反復処理における計算コスト及びメモリーコストは法外なものになるかもしれない。
【0106】
S[t]がGの単調増加関数となることを実現することにより、計算とメモリーの大幅な削減が達成される。言い換えれば、Gの増大は常に各瞬間における短期音量の増大をもたらす。この知見に基づき、好ましいマッチングゲインG[t,t]が以下のように効率的に計算される。まず、範囲t≦t≦tにおけるtの全値に対して前述の反復計算を用いて
【数42】

【0107】
から先に定義したマッチングゲインG[t]を計算する。ここで、各値tに対してG[t]は、1つの
【数43】

【0108】
の値について反復することにより計算することに留意すべきである。次いで、値G[t]、t≦t≦t、を昇順にソートして、リストGsort{i}、0≦i≦t−t、にすることにより、長期マッチングゲインG[t,t]を計算し、そして、

Gp[t1,t2]=Gsort{round((100-P)(t2-t1)/100)} (28)

を設定する。
【0109】
ここで、x[n]を乗算したとき、好ましい音量Srefに等しくなるようなS[t,t]との計算結果となるゲインに、G[t,t]が等しくなることについて説明する。ここで、式(28)から範囲t≦t≦tにおける時間値の100−pパーセントに対してG[t]<G[t,t]であり、他のpパーセントに対してG[t]>G[t,t]であることに留意しなければならない。G[t]<G[t,t]であるこれらの値G[t]について、もしG[t]ではなく対応する
【数44】

【0110】
の値にG[t,t]を適用したとすると、その結果算出されるS[t]は、求める参照音量より大きくなることに留意しなければならない。S[t]はゲインの単調増加関数であるので、このことは事実である。同様に、もしG[t]>G[t,t]となるようなG[t]に対応する
【数45】

【0111】
の値にG[t,t]を適用したとすると、その結果算出されるS[t]は、求める参照音量より小さくなることに留意しなければならない。したがって、G[t,t]をt≦t≦tの範囲で全ての
【数46】

【0112】
に適用すると、100−pパーセントの時間は求める参照値より大きく、pパーセントの時間は求める参照値より小さいようなS[t]がその結果算出される。言い換えれば、S[t,t]が求める参照値に等しくなる。
【0113】
マッチングゲインを計算するこの代替的な方法は、t≦t≦tの範囲にわたって
【数47】

【0114】
とS[t]とを記憶させることを未然に防止する。G[t]のみを記憶する必要がある。加えて、S[t]を繰り返し再記憶させる必要がある先に説明した方法とは反対に、計算するG[t,t]の全ての値に対して、t≦t≦tの範囲にわたるG[t]のソートは一度行なえばよい。G[t,t]をある長さTのスライディング窓(すなわち、t=t−T,t=t)にわたって連続的に計算する場合は、リストGsort{i}は、新しい時間区間毎に単に1つの値を取り除きソートしたリストから1つの値を加えるだけで効率的に維持できる。範囲t1≦t≦t2が非常に長い(例えば、曲又はフィルムの全長さの)場合、G[t]を記憶するメモリーはなお法外なものとなるかもしれない。この場合、G[t,t]は、G[t]の離散化ヒストグラム(discretized histogram)から近似することができる。実際には、このヒストグラムはデシベル単位でG[t]から作ることができる。このヒストグラムは、以下のように、H[i]=t≦t≦tの範囲でのサンプルの数として計算することができる。
【数48】

【0115】
ここで、ΔdBはヒストグラムの分解能でありdBminは、ヒストグラムの最小値である。マッチングゲインは、以下で近似される。
【0116】

Gp[t1,t2]≒ΔdB+dBmin (30a)

ここで
【数49】

【0117】
そして、Iは最大ヒストグラム指標である。この離散化ヒストグラムを用いると、Iの値のみを記憶する必要があり、新たなG[t]の値と共にG[t,t]が簡単に更新される。
【0118】
G[t]からG[t,t]を近似する他の方法も考えられ、そのような技法も本発明に含まれる。本発明のこの部分の主要な特徴は、それからG[t,t]を反復計算により算定するための長期音量S[t,t]を生成するために短期音量S[t]を処理する代わりに、長期マッチングゲインG[t,t]を生成するためにマッチングゲインG[t]にある種の平滑化を行なうことである。
【0119】
図10と11は、それぞれ図2と3に似たシステムを表しているが、ここでは、マッチングゲインG[t]の平滑化(装置又は機能237)が、平滑化されたゲイン信号G[t,t](信号238)を生成するために用いられる。
【0120】
入力230(図2,3,10,11)における参照音量は、「固定」又は「可変」とすることができ、参照音量の発信元は本発明の実施の形態における構成の内部又は外部に置くことができる。例えば、参照音量はユーザーが設定することとしてもよく、この場合は、その発信源は外部となりユーザーによって再設定がなされるまでの期間設定は「固定」される。あるいは、参照音量は、図1の例に示した構成のような本発明による音量計測処理又は音量計測装置から導かれた他のオーディオ源の音量指標としてもよい。
【0121】
オーディオ発生装置の通常のボリューム制御は、図3又は図11の例のような、本発明の特徴に従った処理又は装置に置き換えることができる。この場合、ユーザーが操作するボリュームノブ、スライダー、その他は図3又は図11の230の参照音量を制御し、したがって、オーディオ発生装置は、ユーザーが調整したボリューム制御に相応した音量を発生することになる。
【0122】
可変参照値の例を図12に示す。ここでは、参照音量Srefは、例えば、参照音量可変装置又は参照音量可変機能(「可変参照音量」)239を通った音量信号S[t]から計算される可変参照値Sref[t]に置き換えられる。この構成では、各期間tでの各反復計算の最初に、208でのエキサイテーションにゲインが適用される前に、補正されていない音量S[t]から可変参照値Sref[t]を計算することができる。参照音量可変機能を通して、Sref[t]とS[t]との関係はさまざまな効果を達成するためにさまざまな形式をとることができる。例えば、この関数は、元の音量に対して固定された比率の参照値を生成するために単に倍率をS[t]にかけるものでもよい。あるいは、この関数は、S[t]がある閾値以下のときS[t]以上の参照値を生成し、S[t]がある閾値以上のときS[t]以下の参照値を生成するようにしてもよく、このようにして、オーディオの感知音量のダイナミックレンジを減少させてもよい。この関数がどのような形であろうと、先に説明したG[t]を計算するための反復計算が以下のようになされる。
【数50】

【0123】
マッチングゲインはG[t]は、求める知覚効果を達成するために先に説明したような技法又は他の適切な技法により平滑化される。最後に、オーディオ信号201とVCAブロック236との間の時間遅れ240が、ゲインの平滑化計算における待ち時間を補償するために導入される。このような時間遅れは図3及び11の構成においても用いられる。
【0124】
図3のゲイン制御信号G[t]の構成及び図11の平滑化されたゲイン制御信号Gp[t,t]は、例えば、知覚音量がチャンネルごとに異なる放送されたテレビジョン又は衛星ラジオを含むさまざまな応用例に有用である。このような環境の下では、本発明の装置又は方法は、各チャンネルからのオーディオ信号を参照音量レベル(又は参照信号の音量)と比較することができる。オペレータ又は自動化された装置は、このゲインを各チャンネルの音量を調整するために使うことができる。このようにして全てのチャンネルが実質的に同じ感知音量を持つことになる。図13は、1からNまでの複数のテレビジョンチャンネル又はオーディオチャンネルからのオーディオが、各々図3又は11に示したような本発明の特徴に従うプロセス又は装置250,252の入力201として適用される構成例を示す。同じ参照音量レベルがプロセス又は装置250,252の各々に適用され、その結果、各出力236で1チャンネルからNチャンネルまでのオーディオが音量調整される。
【0125】
計測及びゲイン調整技法は、入力オーディオ素材を監視し、主として人間のスピーチ信号が含まれているオーディオ内容を特定し、そして、スピーチ信号があらかじめ定義された参照レベルに実質的に一致するようにゲインを計算するようなリアルタイム計測装置に適用することもできる。オーディオ素材におけるスピーチを特定するために適した技法は、2002年8月30日に米国特許出願S.N.10/233,073として出願され、2004年3月4日にUS2004/0044525Alとして出願公開された出願に記載されている。上記出願は、その全体が参照として本出願に組み込まれる。オーディオ内容に対する聴衆の不快感は、プログラム素材のスピーチ部分に集中する傾向があるので、計測及びゲイン調整技法は、一般にテレビジョン、フィルム、及びミュージック素材に用いられるオーディオにおいて不快感のレベルの差異を大きく減少させる。
【0126】
実施の形態
本発明は、ハードウェア又はソフトウェア又は両者の組み合わせ(例えば、プログラマブルロジックアレー)により実施することができる。特記なき場合は、本発明の一部として含まれるアルゴリズムは、特定のコンピュータ又は他の装置に本質的に関連するものではない。特に、ここでの開示にしたがって書かれたプログラムによりさまざまな汎用マシーンを使用してもよく、また、要求される方法を実行するために特別に作られた装置(例えば、集積回路)を作ることはもっと便利かもしれない。このように、各々が少なくとも1つのプロセッサ、少なくとも1つのデータ記憶システム(揮発性メモリー、不揮発性メモリー、及び/又は記憶素子を含む)、少なくとも1つの入力装置又は入力ポート、及び少なくとも1つの出力装置又は出力ポートからなる1以上のプログラム可能なコンピュータシステム上で動作する1以上のコンピュータプログラムにより本発明を実施することができる。プログラムコードは、本明細書に記載した機能を実行し出力情報を生成するために入力データにおいて適用される。出力情報は、既知の方法で、1以上の出力装置において適用される。
【0127】
このようなプログラムの各々は、コンピュータシステムト通信するために好ましいどんなコンピュータ言語(機械語、アセンブリ言語、又は高級手続言語、ロジック言語、又はオブジェクト指向プログラム言語を含む)で実行してもよい。どの場合でも、言語はコンパイラでもインタプリタでもよい。
【0128】
記憶媒体又は装置をコンピュータが読み出し、ここに記載した手続を実行させるために、このようなコンピュータプログラムは、汎用コンピュータ又は特定目的のプログラム可能なコンピュータで読み出し可能な記憶媒体又は装置(例えば、半導体メモリ又は媒体、又は次期媒体又は光学媒体)に記憶しておくことが好ましい。本発明のシステムは、コンピュータプログラムとして構成され、この記憶媒体がここに記載した機能を実行するために具体的かつあらかじめ定めた方法でコンピュータを動作させるよう構成されている、コンピュータで読み出し可能な記憶媒体として実施することも考えられる。
【0129】
本発明の種々の実施の形態をここで説明した。しかしながら、本発明の思想や範囲から逸脱することなしにさまざまな変更を加えることが可能であることは了解されよう。例えば、上述の工程のいくつかはその順序に関係がなく、したがって、ここに説明したものとは異なる順序で実施することができる。したがって、他の実施の形態も以下の特許請求の範囲に含まれる。
【図面の簡単な説明】
【0130】
【図1】本発明における一実施の形態の概略機能ブロックダイアグラムである。
【図2】本発明における他の実施の形態の概略機能ブロックダイアグラムである。
【図3】本発明におけるさらに他の実施の形態の概略機能ブロックダイアグラムである。
【図4】本発明の一実施の形態における伝達フィルターに適した線形フィルターP(z)の理想的な応答を示す。ここで垂直軸はデシベル(dB)単位で示した減衰で、水平軸はヘルツ(Hz)単位で示した底10の対数で示した周波数である。
【図5】ERB周波数スケール(垂直軸)とヘルツ(Hz)単位で示した周波数(水平軸)との関係を示す。
【図6】ERBスケールにおけるクリティカル帯域を近似した応答特性を持つ理想的な聴覚フィルターを示す。水平軸はヘルツ単位で示した周波数で、垂直軸はデシベル単位で示したレベルである。
【図7】IS0266の等音量曲線を示す。水平軸はヘルツ(Hz)単位で示した周波数であり(底10の対数)、垂直軸はデシベル単位で示した音圧レベルである
【図8】伝達フィルターP(z)により正規化されたIS0266の等音量曲線を示す。水平軸はヘルツ(Hz)単位で示した周波数であり(底10の対数)、垂直軸はデシベル単位で示した音圧レベルである。
【図9】ユニフォームエキサイティングノイズ(uniform-exciting noise)と1kHzトーンでの音量をプロットしたものを示し(実線)、実線は、パラメータをツビッカーの実験データ(四角及び丸)に適合するように選んだ本発明の実施の形態によるものである。垂直軸はソーン単位で示した音量(底10の対数)であり、水平軸はデシベル単位で示した音圧レベルである。
【図10】本発明におけるさらに他の実施の形態の概略機能ブロックダイアグラムである。
【図11】本発明におけるなおさらなる他の実施の形態の概略機能ブロックダイアグラムである。
【図12】本発明における別の1つの実施の形態の概略機能ブロックダイアグラムである。
【図13】本発明におけるさらに別の1つの実施の形態の概略機能ブロックダイアグラムである。

【特許請求の範囲】
【請求項1】
オーディオ信号を処理する方法であって、
前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、
前記エキサイテーション信号と前記オーディオ信号の特性を示す指標に応答してオーディオ信号の感知音量を計算するステップとを具備し、前記計算するステップでは、2以上の特定音量モデル関数のグループから、1つの特定音量モデル関数又は2以上の特定音量モデル関数の1つの組み合わせを選択し、この選択は、入力オーディオ信号の特性を示す指標により制御されることを特徴とする方法。
【請求項2】
前記オーディオ信号の特性を示す指標は、入力信号が狭帯域なのか広帯域なのかの程度を示す指標であることを特徴とする請求項1に記載の方法。
【請求項3】
入力信号のスペクトルの平坦度を計算することにより、入力信号が狭帯域なのか広帯域なのかの程度を計算するステップをさらに具備することを特徴とする請求項2に記載の方法。
【請求項4】
前記計算するステップでは、2つの特定音量モデル関数からの選択、又は2つの特定音量モデル関数の組み合わせをおこない、ここで、第1の特定音量モデル関数は、狭帯域入力信号から得られた特性を示す指標により選択されたものであり、第2の特定音量モデル関数は、広帯域入力信号から得られた特性を示す指標により選択されたものであり、第1の特定音量モデル関数と第2の特定音量モデル関数の組み合わせは、一部が狭帯域であり一部が広帯域である入力信号から得られた特性を示す指標により選択されたものであることを特徴とする、請求項1に記載の方法。
【請求項5】
第1の音量モデル関数と第2の音量モデル関数とは両方とも非可聴との閾値より上部で、エキサイテーションの増大と共に指数法則に従って増大し、第1の音量モデル関数は第2の音量モデル関数より速く増大することを特徴とする請求項4に記載の方法。
【請求項6】
前記計算するステップでは、2以上の前記特定音量モデル関数のグループから、エキサイテーション信号のそれぞれの周波数帯域の各々における1つの特定音量モデル又は2以上の特定音量モデルの1つの組み合わせを選択することを特徴とする請求項1に記載の方法。
【請求項7】
前記計算するステップでは、2以上の前記特定音量モデル関数のグループから、エキサイテーション信号のそれぞれの周波数帯域のグループにおける1つの特定音量モデル又は2以上の特定音量モデルの1つの組み合わせを選択することを特徴とする請求項1に記載の方法。
【請求項8】
前記それぞれの周波数帯域のグループは、前記エキサイテーション信号の周波数帯域の全てであることを特徴とする請求項7に記載の方法。
【請求項9】
前記オーディオ信号の特性を示す指標は、前記エキサイテーション信号から導き出されることを特徴とする請求項1に記載の方法。
【請求項10】
前記計算するステップには、前記エキサイテーション信号のそれぞれの周波数帯域の各々における特定音量の計算を行なうステップが含まれることを特徴とする請求項1に記載の方法。
【請求項11】
前記計算するステップは、感知音量を算出するために周波数帯域における特定音量を選択するステップ、又は、感知音量を算出するために周波数帯域のグループにおける特定音量を組み合わせるステップをさらに具備することを特徴とする請求項10に記載の方法。
【請求項12】
オーディオ信号を処理する方法であって、
前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、
少なくとも前記エキサイテーション信号に応答して、ゲイン値G[t]を計算するステップとを具備し、前記ゲイン値は、前記オーディオ信号に適用した場合、参照音量と実質的に同じ感知音量となり、前記計算するステップには、少なくとも1つの非線形処理を含む反復的処理ループが含まれることを特徴とする方法。
【請求項13】
前記反復的処理ループには、感知音量を計算するステップが含まれることを特徴とする請求項12に記載の方法。
【請求項14】
前記計算するステップは、前記オーディオ信号の特性を示す指標にも応答することを特徴とする請求項12に記載の方法。
【請求項15】
前記少なくとも1つの非線形処理には、2以上の前記特定音量モデル関数のグループから、1つの特定音量モデル関数又は2以上の前記特定音量モデル関数の1つの組み合わせを選択する特定音量計算が含まれ、前記選択は、入力オーディオ信号の特性を示す指標により制御されることを特徴とする請求項14に記載の方法。
【請求項16】
前記エキサイテーション信号は時間的に平滑化されており、及び/又は、ゲイン値G[t]を時間的に平滑化するステップをさらに具備することを特徴とする請求項12に記載の方法。
【請求項17】
前記エキサイテーション信号は、線形的に時間的に平滑化されていることを特徴とする請求項16に記載の方法。
【請求項18】
前記方法は、ゲイン値G[t]を平滑化するステップをさらに具備し、前記平滑化するステップはヒストグラム技法を採用することを特徴とする請求項16に記載の方法。
【請求項19】
前記反復的処理ループには、時間的に平滑化するステップが含まれることを特徴とする請求項12に記載の方法。
【請求項20】
前記反復的処理ループには、
反復ゲイン値Gの関数に応答して前記エキサイテーション信号の強度を調整するステップであって、調整されたエキサイテーション信号の強度は、Gの値の増大と共に増大し、Gの値の減少と共に減少するようなステップと、
前記強度が調整されたエキサイテーション信号に応答して、感知音量を計算するステップと、
前記オーディオ信号の計算された感知音量と参照感知音量とを比較してこれらの差を算出するステップと、
前記計算された感知音量と前記参照感知音量との差を減少させるように、前記差に応答してゲイン値Gを調整するステップと、
を具備することを特徴とする請求項12乃至請求項19のいずれか1項に記載の方法。
【請求項21】
前記反復的処理ループは、最小化アルゴリズムに従い、エキサイテーション信号をそれぞれ調整し、感知音量を計算し、計算された感知音量と参照感知音量とを比較し、ゲイン値Gを調整して最終値G[t]にすることを特徴とする請求項20に記載の方法。
【請求項22】
前記最小化アルゴリズムは、最小化のための勾配法によることを特徴とする請求項21に記載の方法。
【請求項23】
前記入力オーディオ信号から得られた感知音量が実質的に前記参照音量と同じになるよう、ゲインG[t]を持つ前記入力オーディオ信号の強度を制御するステップをさらに具備する請求項12乃至請求項22のいずれか1項に記載の方法。
【請求項24】
前記参照音量は、ユーザーにより設定されることを特徴とする請求項12乃至請求項23のいずれか1項に記載の方法。
【請求項25】
前記参照音量は、請求項13に記載の工程により計算された感知音量であることを特徴とする請求項12乃至請求項23のいずれか1項に記載の方法。
【請求項26】
前記オーディオ信号に応答してエキサイテーション信号を作るステップは、
直線的にフィルターされたオーディオ信号を作るために、外耳及び中耳の特性を模擬するフィルター又はフィルター機能により前記オーディオ信号を直線的にフィルターするステップと、
前記エキサイテーション信号を作るために、前記直線的にフィルターしたオーディオ信号を内耳基底膜にそって発生するエキサイテーションパターンを模擬する周波数帯域に分割するステップと、
を具備することを特徴とする請求項1乃至請求項12のいずれか1項に記載の方法。
【請求項27】
前記少なくとも1つの非線形処理には、前記エキサイテーション信号の各周波数帯域の特定音量を計算するステップが含まれることを特徴とする請求項12に記載の方法。
【請求項28】
前記エキサイテーション信号の各周波数帯域の特定音量を計算するステップでは、2以上の前記特定音量モデル関数のグループから、1つの特定音量モデル関数又は2以上の前記特定音量モデル関数の1つの組み合わせを選択し、前記選択は、入力オーディオ信号の特性を示す指標により制御されることを特徴とする請求項27に記載の方法。
【請求項29】
前記強度が調整されたエキサイテーション信号に応答して、感知音量を計算するステップには、前記エキサイテーション信号のそれぞれの周波数帯域における前記特定音量を計算するステップが含まれることを特徴とする請求項20に記載の方法。
【請求項30】
前記エキサイテーション信号のそれぞれの周波数帯域における前記特定音量を計算する前記ステップでは、2以上の前記特定音量モデル関数のグループから、1つの特定音量モデル関数又は2以上の前記特定音量モデル関数の1つの組み合わせを選択し、前記選択は、入力オーディオ信号の特性を示す指標により制御されることを特徴とする請求項29に記載の方法。
【請求項31】
前記強度が調整されたエキサイテーション信号に応答して、感知音量を計算するステップは、
各周波数帯域の特定音量を結合して感知音量の特性を示す指標にするステップ、
をさらに具備することを特徴とする請求項30に記載の方法。
【請求項32】
前記参照感知音量は、前記計算された感知音量の特性を示す指標から導き出されることを特徴とする請求項13、20、21及び23のいずれか1項に記載の方法。
【請求項33】
前記参照感知音量は、前記計算された感知音量に倍率を掛けたものであることを特徴とする請求項32に記載の方法。
【請求項34】
前記参照感知音量は、計算された感知音量が閾値以下の場合は計算された感知音量より大きく、計算された感知音量が閾値以上の場合は計算された感知音量より小さいことを特徴とする請求項32に記載の方法。
【請求項35】
複数のオーディオ信号を処理する方法であって複数の処理を含み、各処理では前記オーディオ信号のそれぞれ1つを受け取るステップを具備し、各処理において、
前記それぞれのオーディオ信号に応答して、エキサイテーション信号を作り、
少なくとも前記エキサイテーション信号に応答して、ゲイン値G[t]を計算し、前記ゲイン値は、前記オーディオ信号に適用した場合、参照音量と実質的に同じ感知音量となり、前記計算するステップには、少なくとも1つの非線形処理を含む反復的処理ループが含まれており、
前記それぞれのオーディオ信号の感知音量が参照音量と実質的に同じとなるよう、ゲインG[t]を持つそれぞれのオーディオ信号の強度を制御し、
前記複数の処理の各々に同一の参照音量を適用する、
ことを特徴とする方法。
【請求項36】
請求項1乃至請求項35のいずれか1項に記載の方法を実行するように作られた装置。
【請求項37】
請求項1乃至請求項35のいずれか1項に記載の方法をコンピュータに実行させるためにコンピュータで読み込み可能な媒体に記憶させたコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公表番号】特表2007−503796(P2007−503796A)
【公表日】平成19年2月22日(2007.2.22)
【国際特許分類】
【出願番号】特願2006−533502(P2006−533502)
【出願日】平成16年5月27日(2004.5.27)
【国際出願番号】PCT/US2004/016964
【国際公開番号】WO2004/111994
【国際公開日】平成16年12月23日(2004.12.23)
【出願人】(591102637)ドルビー・ラボラトリーズ・ライセンシング・コーポレーション (111)
【氏名又は名称原語表記】DOLBY LABORATORIES LICENSING CORPORATION
【Fターム(参考)】