特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
【課題】聴覚情景分析の結果を用いて主要な音声ダイナミクス処理パラメータを制御することによって、ダイナミクス処理によって導入される可聴アーティファクトを劇的に低減させる方法を提供する。
【解決手段】聴覚イベントおよび/または前記聴覚イベント境界に関連する信号特性の変化量に少なくとも部分的に応答して、動的ゲイン変更が音声信号に適用される。音声信号の連続する時間ブロック間の特定ラウドネスの差異を比較することによって、音声信号が聴覚イベントに分割される。
【解決手段】聴覚イベントおよび/または前記聴覚イベント境界に関連する信号特性の変化量に少なくとも部分的に応答して、動的ゲイン変更が音声信号に適用される。音声信号の連続する時間ブロック間の特定ラウドネスの差異を比較することによって、音声信号が聴覚イベントに分割される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置が、音声信号を解析し、音声のレベル、ゲインまたはダイナミックレンジを変化させ、音声ゲインおよびダイナミクス処理の全てのまたは一部のパラメータが聴覚イベントの関数として生成される、音声ダイナミックレンジ制御方法および装置に関する。本発明はまた、この方法を実行する、またはこの装置を制御するコンピュータプログラムに関する。
【0002】
本発明はまた、聴覚イベントの特定ラウドネスに基づく検出を使用する方法および装置に関する。本発明はまた、この方法を実行する、またはこの装置を制御するコンピュータプログラムに関する。
【背景技術】
【0003】
(音声のダイナミクス処理)
自動ゲイン制御(AGC:automatic gain control)およびダイナミックレンジ制御(DRC:dynamic range control)の技術がよく知られており、多くの音声信号経路の共通要素となっている。理論的な意味において、両技術は、ある方法で音声信号のレベルを測定し、その後、測定レベルの関数であるアマウント(amount)によって信号のゲイン変更を行う。線形の1:1ダイナミクス処理システムでは、入力音声は処理されず、出力音声信号が入力音声信号と理想的に一致する。さらに、入力信号の特性を自動的に測定し、その測定値を使用して出力信号を制御する音声ダイナミクス処理システムがある場合、入力信号は6dBだけレベルが増加し、出力信号は処理されて3dBしかレベルが増加しないとすると、出力信号は入力信号に対して2:1の比率で圧縮されたことになる。国際公開第2006/047600号(アランジェフリーゼーフェルト(Alan Jeffrey Seefeldt)による「Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal」)には、音声のダイナミクス処理の5つの基本的種類:圧縮、制限、自動ゲイン制御(AGC)、展開、ゲーティングについての詳しい概要が提供されている。
【0004】
(聴覚イベントおよび聴覚イベント検出)
音声を個別かつ明確に認識されるユニットまたはセグメントに分割することは、「聴覚イベント分析」または「聴覚情景分析」(「ASA:auditory scene analysis」)と称される場合があり、そのセグメントは、「聴覚イベント」または「音声イベント」と称される場合がある。聴覚情景分析の広範囲にわたる議論が、アルバートSブレグマン(Albert S. Bregman)によってその著書、「オーディトリシーンアナラシス−ザパーセプチュアルオーガニゼーションオブサウンド(Auditory Scene Analysis−The Perceptual Organization of Sound)」,マサチューセッツ工科大学,1991年,第4刷,2001年,エムアイティー・プレス(MIT Press)ペーパーバック第2版に記載されている。さらに、1999年12月14日付けでバドカムカール(Bhadkamkar)らに付与された米国特許第6,002,776号は、1976年までさかのぼる刊行物を「聴覚情景分析による音声分離に関する先行技術」として挙げている。しかしながら、バドカムカール(Bhadkamkar)らの特許は、聴覚情景分析の実用を阻むものであり、「聴覚情景分析を含む技術は、科学的観点から人間の聴覚処理のモデルとして興味深いが、基礎的な進展がなされるまでは、音声分離のための実用的な技術と考えるには今のところ計算上の難易度および専門性が高過ぎる」と結論付けている。
【0005】
聴覚イベントを特定するための有用な方法は、クロケット(Crokett)およびクロケットらによって、後述の表題「参照による組込み」の項に記載される様々な特許出願および文書に記載されている。これらの文書によれば、音声信号は聴覚イベントに分割され、各聴覚イベントは、時間に対するスペクトル組成(周波数の関数としての振幅)の変化を検出することによって個別かつ明確に認識されやすくなっている。これは、例えば、次のようにして実施することができる。音声信号の連続する時間ブロックのスペクトル成分を計算し、音声信号の連続する時間ブロック間の差異を計算し、この連続する時間ブロック間のスペクトル成分の差異が閾値を超える場合に、連続する時間ブロック間の境界として聴覚イベント境界を特定する。あるいは、時間に対する振幅の変化を、時間に対するスペクトル組成の変化の代わりとして、またはそれに追加して計算してもよい。
【0006】
計算上の難易度が最も低いこの技術の実施では、全周波数帯(全帯域幅の音声)または実質上全周波数帯(実用的な実施では、スペクトルの端部で帯域制限フィルタリングがよく使用される)を解析し、最大音量の音声信号成分に対して最大の重み付けをすることによって、プロセスは音声を時間セグメントに分割する。この方法は、より短い時間スケール(20ミリ秒(ms)以下)において、耳が一定の時間に単一の聴覚イベントに集中しがちである心理音響的現象を利用している。これは、複数のイベントが同時に発生している場合、1つの成分が知覚的に最も支配的となりやすく、そのイベントが発生している唯一のイベントであるかのように単独に処理される可能性があることを示している。この効果を利用することによって、聴覚イベント検出が処理されている音声の複雑さにも対応することが可能になる。例えば、処理されている入力音声信号が独奏楽器の場合は、特定される音声イベントは、演奏されている個別の音符であろう。同様に、入力ボイス信号の場合は、スピーチの個別の成分、例えば、母音および子音は、個別の音声要素として特定されるであろう。ドラム音または複数の楽器および声の入っている楽曲など、音声の複雑さが増すにつれて、聴覚イベント検出は、「最も支配的な」(すなわち、最大音量の)音声要素を常に特定する。
【0007】
計算が複雑にはなるが、全帯域幅ではなく不連続な周波数サブバンド(固定のまたは動的に決定される、あるいは固定のおよび動的に決定されるサブバンド)における、時間に対するスペクトル成分の変化も、プロセスは考慮に入れることが可能である。この代替の方法は、単一の音声ストリームだけが特定時間に知覚可能であるとするのではなく、異なる周波数サブバンドの2つ以上の音声ストリームを考慮に入れている。
【0008】
聴覚イベント検出は、時間領域音声波形を時間間隔またはブロックに分割し、次いで、FFTなどのフィルタバンクまたは時間周波数変換を用いて、各ブロックのデータを周波数領域に変換することによって実施することが可能である。振幅変化の影響を取り除くか低減するために、各ブロックのスペクトル成分の振幅を正規化することが可能である。その結果得られる各周波数領域表現は、特定ブロックにおける音声のスペクトル成分の指標となる。連続するブロックのスペクトル成分を比較し、閾値を超える変化を捉えて、聴覚イベントの時間的開始または時間的終了を示すことが可能である。
【0009】
後述するように、周波数領域を正規化するのが好ましい。周波数領域データの必要とされる正規化の程度が振幅の指標となる。したがって、この変化量が所定の閾値を超えると、これを捕らえてイベント境界を示すことができる。スペクトル変化および振幅変化から得られるイベント開始および終了点は、まとめて論理和がとられ、どちらの種類の変化から得られるイベント境界も特定することができるようにする。
【0010】
前述のクロケットおよびクロケットらによる出願および論文に記載されている技術は、本発明の形態と関連して特に有用であるが、聴覚イベントおよび聴覚境界を特定する他の技術も本発明の形態で利用することが可能である。
【発明の概要】
【課題を解決するための手段】
【0011】
従来の先行技術である音声のダイナミクス処理は、音声のゲインを調整して所望の結果を出す時変制御信号によって音声を増幅することを含む。「ゲイン」は、音声振幅を増減させるスケーリングファクタである。この制御信号は、連続的に、または音声データのブロックから生成することができるが、一般に、処理されている音声のある形式の測定によって得られる。またその変化率は、場合によって固定特性や音声のダイナミクスによって異なる特性を有する平滑化フィルタによって決定される。例えば、応答時間は、マグニチュード、すなわち音声のパワーの変化に応じて調整可能である。自動ゲイン制御(AGC)およびダイナミックレンジ圧縮(DRC:dynamic range compression)などの先行技術の方法では、ゲイン変化を障害として認識することができて、これを可聴アーティファクト(artifact)を付加することなく適用することが可能な時間間隔が、心理音響に基づくどの方法でも評価されていない。したがって、従来の音声ダイナミクスプロセスは、可聴アーティファクトを導入する恐れがあることが多い。すなわち、ダイナミクス処理の影響により、音声に所望しない知覚可能な変化が導入される恐れがある。
【0012】
聴覚情景分析は、個別の聴覚イベントを知覚的に特定し、各イベントは、2つの連続する聴覚イベント境界の間で発生する。ゲイン変化によって引き起こされる可聴障害は、聴覚イベント内でゲインをさらに一定に近づけるようにすること、および変化の大部分をイベント境界の近傍に限定することによって、大幅に低減させることが可能である。コンプレッサまたはエキスパンダとの関連では、音声レベルの増加(アタックと呼ばれることが多い)に対する応答は速く、聴覚イベントの最小継続時間と同程度かそれよりも短いが、減少(リリースまたはリカバリ)に対する応答はもっと遅いため、一定に見えるはずのまたは次第に減衰しているはずの音声が聞こえるほどに妨害される可能性がある。このような環境下では、次の境界までゲインリカバリを遅らせること、またはイベント中のゲインの変化率を遅くすることが非常に有効である。中期から長期のレベルまたはラウドネスの音声を正規化し、したがって、アタック時間とリリース時間との両方を聴覚イベントの最小継続時間と長く比較することが可能な自動ゲイン制御アプリケーションの場合には、増加するゲインと減少するゲインとの両方について、イベント中に次のイベント境界までゲインの変化を遅らせるか、またはゲインの変化率を遅くすることが有効である。
【0013】
本発明の一形態によれば、音声処理システムは、音声信号を受信し、音声のゲインおよび/またはダイナミックレンジ特性を解析して変更する。音声のダイナミックレンジ変更は、ダイナミクス処理によって導入される知覚アーティファクトに大きな影響を及ぼすダイナミクス処理システムのパラメータ(アタックおよびリリース時間、圧縮率など)によって制御されることが多い。音声信号の時間に対する信号特性の変化を検出し、聴覚イベント境界として特定する。その結果、連続する境界間の音声セグメントが音声信号の聴覚イベントを構成する。対象となる聴覚イベントの特性は、知覚強度または継続時間などのイベントの特性を含んでもよい。前記1つ以上のダイナミクス処理パラメータの一部は、聴覚イベントおよび/または前記聴覚イベント境界に関連する信号特性の変化量に少なくとも部分的に応答して生成される。
【0014】
一般に、聴覚イベントは、個別かつ明確に認識されやすい音声のセグメントである。信号特性の1つの有用な指標は、例えば、引用されるクロケットおよびクロケットらの文書に記載されているように、音声のスペクトル成分の指標を含む。1つ以上の音声ダイナミクス処理パラメータの全てまたは一部は、1つ以上の聴覚イベントの特性の有無に少なくとも部分的に応答して生成することが可能である。聴覚イベント境界は、閾値を超える時間に対する信号特性の変化として特定することが可能である。あるいは、1つ以上のパラメータの全てまたは一部は、前記聴覚イベント境界に関連する信号特性の変化量の連続する指標に少なくとも部分的に応答して生成することが可能である。原理上は、本発明の形態は、アナログおよび/またはデジタル領域で実施することが可能であるが、実際の実施は、各音声信号が個別サンプルまたはデータブロック内のサンプルによって表現されるデジタル領域で行われるようである。この場合、信号特性は、ブロック内の音声のスペクトル成分であってもよく、時間に対する信号特性の変化の検出は、ブロック毎の音声のスペクトル成分の変化の検出であってもよく、また聴覚イベントの時間的開始および終了の境界はそれぞれデータブロックの境界と一致している。サンプル単位ベースで動的ゲイン変更を実施するさらに従来の事例では、記載される聴覚情景分析をブロックベースで実施してもよく、その結果得られる聴覚イベント情報を使用して、サンプル毎に適用される動的ゲイン変更を実施してもよいことに留意すべきである。
【0015】
聴覚情景分析の結果を用いて主要な音声ダイナミクス処理パラメータを制御することによって、ダイナミクス処理によって導入される可聴アーティファクトを劇的に低減させることが可能である。
【0016】
本発明は、聴覚情景分析を実施する2つの方法を提示している。第1の方法は、スペクトル分析を実施し、スペクトル成分の変化を特定することによって動的ゲインパラメータを制御するために使用される知覚可能な音声イベントの位置を特定する。第2の方法は、音声を(第1の方法よりもより心理音響的に関連情報を提供することができる)知覚ラウドネス領域に変換し、動的ゲインパラメータを制御するためにその後使用される聴覚イベントの位置を特定する。第2の方法では、音声処理が絶対音響再生レベルを認識していることが必要であり、これは実施によっては不可能な場合があることに留意すべきである。聴覚情景分析の2つの方法を提示することによって、絶対再生レベルを考慮に入れるように校正されるかどうか分からないプロセスまたは装置を使用して、ASA制御動的ゲイン変更を実施することが可能になる。
【0017】
他の発明の形態を含む音声ダイナミクス処理環境における本発明の形態が、本明細書に記載されている。かかる他の発明は、本明細書で特定される本出願の所有者である、ドルビー・ラボラトリーズ・ライセンシング・コーポレーション(Dolby Laboratories Licensing Corporation)の様々な係属中米国および国際特許出願に記載されている。
【図面の簡単な説明】
【0018】
【図1】聴覚情景分析を実施するためのプロセスステップの実施例を示すフローチャートである。
【図2】聴覚情景分析を実施している間に音声に対して処理を施し、窓をかけ、DFTを実施するブロックの実施例を示す図である。
【図3】音声を使用して聴覚イベントを特定するとともに聴覚イベントの特性を特定し、そのイベントおよび特性を使用してダイナミクス処理パラメータを変更する平行処理を示す、フローチャートまたは機能ブロック図の性質を帯びるものである。
【図4】音声を使用して聴覚イベントの特定のみを行い、その音声イベント検出からイベント特性が決定され、そのイベントおよび特性を使用してダイナミクス処理パラメータを変更する処理を示す、フローチャートまたは機能ブロック図の性質を帯びるものである。
【図5】音声を使用して聴覚イベントの特定のみを行い、その音声イベント検出からイベント特性が決定され、その聴覚イベントの特性のみを使用してダイナミクス処理パラメータを変更する処理を示す、フローチャートまたは機能ブロック図の性質を帯びるものである。
【図6】ERB尺度による臨界帯域を近似する一連の理想的な聴覚フィルタ特性応答を示す図である。横軸目盛は周波数(単位:ヘルツ)、および縦軸目盛はレベル(単位:デシベル)である。
【図7】ISO226の等ラウドネス曲線を示す図である。横軸目盛は周波数(単位:ヘルツ、対数ベース10尺度)、および縦軸目盛は音圧レベル(単位:デシベル)である。
【図8】音声ダイナミックレンジコンプレッサの理想的な入/出力特性および入力ゲイン特性を示す図である。
【図9】信号パワーの二乗平均平方根(RMS:Root Mean Square)からゲイン制御が得られる従来のダイナミックレンジ制御装置(DRC:Dynamic Range Controller)のデジタル実施において、リリース時間を制御するために聴覚イベントを使用する実施例を示す図である。
【図10】図9で使用される信号に対する代替信号の信号パワーの二乗平均平方根(RMS)からゲイン制御が得られる従来のダイナミックレンジ制御装置(DRC)のデジタル実施において、リリース時間を制御するために聴覚イベントを使用する実施例を示す図である。
【図11】ラウドネス領域ダイナミクス処理システムにおいてAGCの後にDRCを適用する場合の一組の理想的なAGCおよびDRC曲線を示す図である。この組み合わせの目的は、元の音声のダイナミクスの少なくとも一部を依然として維持しながらも、処理後の全ての音声をほぼ同一の知覚ラウドネスにすることである。
【発明を実施するための形態】
【0019】
(聴覚情景分析(元の非ラウドネス領域方法))
本発明の一形態の実施形態によれば、聴覚情景分析は、図1の部分に示されるような4つの一般的な処理ステップから構成することができる。第1ステップ1−1(「スペクトル分析を実施する」)は、時間領域音声信号を取得し、それをブロックに分割し、各ブロックについてスペクトルプロファイルまたはスペクトル成分を計算する。スペクトル分析によって、音声信号は短時間の周波数領域に変換される。これは、トランスフォームフィルタまたはバンドパスフィルタのバンクに基づいて、および(人間の耳の特性により近いBark尺度または臨界帯域などの)線形またはワープ周波数空間において、任意のフィルタバンクを使用して実施することができる。任意のフィルタバンクを使用する場合は、時間と周波数との間にトレードオフが存在する。時間分解能を上げる、したがって時間間隔を短くするほど、周波数分解能が下がる。周波数分解能をあげる、したがってサブバンドを狭くするほど、時間間隔は長くなる。
【0020】
図1に概念的に示される第1のステップは、音声信号の連続する時間セグメントのスペクトル成分を計算する。実際の実施形態では、ASAのブロックサイズは、いかなるサンプル数の入力音声信号であってもよいが、512サンプルであれば時間および周波数分解能の良好なトレードオフが得られる。第2のステップ1−2では、ブロック毎のスペクトル成分の差異を決定する(「スペクトルプロファイルの差異測定を実施する」)。したがって、第2のステップは、音声信号の連続する時間セグメント間のスペクトル成分の差異を計算する。前述のように、知覚される聴覚イベントの開始及び終了の強力な指標が、スペクトル成分の変化であると考えられる。第3のステップ1−3(「聴覚イベント境界の位置を特定する」)では、1つのスペクトルプロファイルブロックと次のブロックとの間のスペクトルの差異が閾値よりも大きい場合、そのブロック境界を聴覚イベント境界とする。連続する境界間の音声セグメントは、聴覚イベントを構成する。したがって、第3のステップは、この連続する時間セグメント間のスペクトルプロファイル成分の差が閾値を超える場合、連続する時間セグメント間の聴覚イベント境界を設定し、聴覚イベントを定義する。この実施形態では、聴覚イベント境界は、1つのスペクトルプロファイルブロック(この実施例では512サンプル)の長さが最小であるスペクトルプロファイルブロックの整数倍の長さを有する聴覚イベントを定義する。理論上は、イベント境界をこの様に制限する必要はない。本明細書で説明される実際の実施形態に対する代替として、入力ブロックサイズが、例えば、本質的に聴覚イベントのサイズになるように変化してもよい。
【0021】
イベント境界の特定に続いて、ステップ1−4に示されるように、聴覚イベントの特性を特定する。
【0022】
音声のオーバーラップまたは非オーバーラップセグメントに窓をかけて使用し、入力音声のスペクトルプロファイルを計算する。オーバーラップによって聴覚イベントの位置に関するより細かい分解能が得られ、また短いトランジェントなどのイベントを逃す可能性が低くなる。しかしながら、オーバーラップにより計算が複雑にもなる。したがって、オーバーラップは省略してもよい。図2は、窓をかけて離散フーリエ変換(DFT:Discrete Fourier Transform)によって周波数領域に変換しているNサンプルの非オーバーラップブロックの概念表現を示す。各ブロックは、窓をかけ、好ましくは、高速化のため高速フーリエ変換(FFT:Fast Fourier Transform)として実施されるDFTを使用するなどして周波数領域に変換する。
【0023】
以下の変数を使用して、入力ブロックのスペクトルプロファイルを計算することができる。
【0024】
M=スペクトルプロファイルを計算するために使用されるブロックの窓をかけたサンプル数
P=スペクトル計算オーバーラップのサンプル数
一般に、いかなる整数を上記変数に使用してもよい。しかしながら、スペクトルプロファイル計算に標準FFTが使用できるようにMを2の累乗とすると、実施がより効率的になるであろう。聴覚情景分析プロセスの実際の実施形態では、記載されるパラメータは、以下のように設定することができる。
【0025】
M=512サンプル(または44.1kHzで11.6ms)
P=0サンプル(オーバーラップなし)
上記の値は、実験的に決定されたものであり、一般に、聴覚イベントの位置および継続時間を充分な精度で特定することが分かっている。しかしながら、Pを0サンプル(オーバーラップなし)でなく256サンプル(50%オーバーラップ)に設定しても、何らかの見つけにくいイベントを特定する際に有用であることが分かった。多くの異なる種類の窓を使用して窓をかけることによって生じるスペクトルアーティファクトを最小限に抑えることが可能であるが、スペクトルプロファイルの計算で使用される窓は、M点ハニング(M-point Hanning)、カイザーベッセル(Kaiser-Bessel)、または他の適切な、好ましくは非長方形の窓である。詳しい実験的分析を行った後、上記の値およびハニング窓の1種を選択した。これらが音声材料の広範囲にわたり優れた結果をもたらすことを示したためである。主に低周波数成分を有する音声信号の処理には、非長方形窓をかけるのが好ましい。長方形窓は、スペクトルアーティファクトを生じさせ、これにより誤ったイベント検出を行う可能性がある。オーバーラップ/追加プロセス全体が一定のレベルを提供する必要がある特定の符号器/復号器(符号復号器)アプリケーションとは異なり、ここではこのような制限は適用されず、その時間/周波数分解能および帯域外除去などの特性によって窓を選択することが可能である。
【0026】
ステップ1−1(図1)では、M点ハニング、カイザーベッセル、または他の適切な窓を用いてデータに窓をかけ、M点高速フーリエ変換を用いて周波数領域に変換し、複雑なFFT係数のマグニチュードを計算することによって、各Mサンプルブロックのスペクトルを計算することが可能である。その結果得られるデータを正規化して、最大マグニチュードを1に設定し、個数Mの正規化配列を対数領域に変換する。データはまた、音声の平均マグニチュード値または平均パワー値などの他の何らかの測定基準によって正規化してもよい。配列を対数領域に変換する必要はないが、この変換によってステップ1−2における差の指標の計算が簡単になる。さらに、対数領域は、人間の聴覚システムの性質と一層厳密に一致している。得られる対数領域値は、負の無限大からゼロの範囲を有する。実際の実施形態では、値の範囲に下限を設けてもよい。すなわち、その限度は、例えば、−60dBに固定してもよく、低周波および超短波の可聴域下限付近の静音を反映するように周波数に依存してもよい。(なお、FFTが負振動および正振動を示す場合には、配列のサイズをM/2に縮小することも可能であろう。)
ステップ1−2は、隣接するブロックのスペクトル間の差の指標を計算する。各ブロックについて、ステップ1−1からのM個の(対数)スペクトル係数をそれぞれ前のブロックの対応する係数から引いて、差異のマグニチュードを計算する(符号は無視する)。次いで、これらM個の差を合計して1つの数値にする。この差の指標を合計に使用したスペクトル係数の数(この場合はM個の係数)で割って、この差の指標をスペクトル係数当たりの平均差として表現することもできる。
【0027】
ステップ1−3は、ステップ1−2からの差の指標の配列に閾値を用いて限界を適用することによって、聴覚イベント境界の位置を特定する。差の指標が閾値を超える場合は、スペクトルの変化は、新規のイベントを示すのに充分であると見なされ、変化したブロック数をイベント境界として記録する。上記で与えられるMおよびPの値、および(ステップ1−1で)単位dBで示される対数領域値に対し、(鏡映部を含む)FFTの全マグニチュードを比較する場合は閾値を2500とし、FFTの半分を比較する場合には閾値を1250としてもよい(前述したように、FFTが負振動および正振動を示す場合、FFTのマグニチュードは、一方が他方の鏡像である)。この値は、実験的に選択されたものであり、良好な聴覚イベント境界検出を提供する。このパラメータ値を変更してイベントの検出を緩和したり(閾値を上げる)、強化したり(閾値を下げる)することが可能である。
【0028】
図1のプロセスは、図3、図4および図5の同等な処理によってより一般的に示すことができる。図3では、「聴覚イベントを特定する」機能、すなわち、音声信号を聴覚イベントに分割し、各聴覚イベントは個別かつ明確に認識されやすいステップ3−1と、任意の「聴覚イベントの特性を特定する」機能、すなわちステップ3−2とに、音声信号が平行して印加される。図1のプロセスを利用して、音声信号を聴覚イベントに分割してその特性を特定するか、または他の何らかのプロセスを利用してもよい。次いで、機能、すなわちステップ3−1によって決定される、聴覚イベント境界の特定であってもよい、聴覚イベント情報を使用して、「ダイナミクスパラメータを変更する」機能、すなわちステップ3−3によって、(アタック、リリース、率などの)音声ダイナミクス処理パラメータを要望どおりに変更する。任意の「特性を特定する」機能、すなわちステップ3−3も聴覚イベント情報を受け取る。「特性を特定する」機能、すなわちステップ3−3は、1つ以上の特性によって聴覚イベントの一部または全てを特徴付けることができる。この特性は、図1のプロセスに関連して説明したように、聴覚イベントの主要なサブバンドの特定を含んでもよい。この特性はまた、例えば、聴覚イベントのパワーの指標、聴覚イベントの振幅の指標、聴覚イベントのスペクトル平滑度の指標、および聴覚イベントが実質的に無音かどうか、あるいは処理の負の可聴アーティファクトを低減させるか除去できるようにダイナミクスパラメータを変更するのに役立つ他の特性を含む、1つ以上の音声特性を含んでもよい。この特性はまた、聴覚イベントがトランジェントを含むかどうかなどの他の特性を含んでもよい。
【0029】
図3の処理の代替例が、図4および図5に示される。図4では、音声入力信号は、「特性を特定する」機能、すなわちステップ4−3に直接印加されないが、ステップ4−3は、「聴覚イベントを特定する」機能、すなわちステップ4−1から情報を受け取る。図1の処理は、この処理の具体例である。図5では、機能、すなわちステップ5−1、5−2および5−3は、連続して配置される。
【0030】
この実際の実施形態の詳細は、重要ではない。音声信号の連続する時間セグメントのスペクトル成分を計算し、連続する時間セグメント間の差異を計算し、この連続する時間セグメント間のスペクトルプロファイル成分の差異が閾値を超える場合に連続する時間セグメント間の各境界に聴覚イベント境界を設定する、他の方法を利用してもよい。
【0031】
(聴覚情景分析(新しいラウドネス領域方法))
アランジェフリーゼーフェルト(Alan Jeffrey Seefeldt)による「Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal」と題する国際公開第2006/047600号として発行されている、2005年10月25日出願の特許協力条約に基づく国際出願PCT/US2005/038579号には、特に、心理音響的モデルに基づく知覚ラウドネスの客観的評価について開示されている。前記出願は、参照することによって本明細書に完全に組み込まれているものとする。前記出願に記載されるように、音声信号x[n]から、時間ブロックtにおける臨界帯域bの内耳の基底膜に沿ったエネルギ分布を近似する励磁信号E[b,t]を計算する。この励磁は、以下のような音声信号の短時間離散フーリエ変換(STDFT:Short-time Discrete Fourier Transform)から計算することができる。
【数1】
【0032】
ここで、X[k,t]は、時間ブロックtおよびビン(bin)kにおけるx[n]のSTDFTを示す。なお、方程式1において、tは、秒などの連続する指標ではなくてトランスフォームブロックの不連続単位を有する時間を示す。T[k]は、外耳および中耳を通過する音声の伝達をシミュレートするフィルタの周波数応答を示し、Cb[k]は、臨界帯域bに相当する位置の基底膜の周波数応答を示す。図6は、適切な一連の臨界帯域フィルタ応答を示し、ここでは、ムーア(Moore)およびグラスベルグ(Glasberg)によって定義されるように、等価矩形帯域幅(ERB:Equivalent Rectangular Bandwidth)尺度に従って40の帯域が不均一に間隔を置いて配置されている。各フィルタの形状は、指数関数曲線で示され、帯域は1ERBの間隔を用いて分散されている。最後に、方程式1の平滑時定数(smoothing time constant)λbは、帯域b内の人間のラウドネス知覚の積分時間に比例して有利に選択することが可能である。
【0033】
図7に示されるものなどの等ラウドネス曲線を用いて、各帯域の励磁を、1kHzで同一知覚ラウドネスを生成する励磁レベルに変換する。次いで、変換後の励磁E1kHz[b,t]から、周波数および時間全体にわたって分散される知覚ラウドネスの指標である特定ラウドネスを、圧縮非線形を通して計算する。特定ラウドネスN[b,t]を計算するためのこのような適切な1つの関数は、以下で与えられる。
【数2】
【0034】
ここで、TQ1kHzは、1KHzでの固定の閾値であり、定数βおよびαは、聞き取り実験から収集されるラウドネスデータの増加に適合するように選択する。理論的には、励磁から特定ラウドネスへのこの変換は、以下のような関数Ψ{}で表すことができる。
【数3】
【0035】
最後に、帯域全体にわたる特定ラウドネスを合計して、単位ソーン(sone)で示される全ラウドネスL[t]を計算する。
【数4】
【0036】
特定ラウドネスN[b,t]は、人間が周波数及び時間の関数として音声を知覚する方法をシミュレートするためのスペクトル表現であり、異なる周波数に対する感度の変化、レベルに対する感度の変化、および周波数分解能の変化を捉える。したがって、特定ラウドネスN[b,t]は、聴覚イベントの検出によく適合しているスペクトル表現である。計算がさらに複雑になるが、帯域全体にわたって連続する時間ブロック間のN[b,t]の差異を比較することで、多くの場合、前述のように連続するFFTスペクトルを直接使用するのと比較して、聴覚イベントをより知覚的に正確に検出することが可能になる。
【0037】
前記特許出願には、この心理音響的ラウドネスモデルに基づいて音声を変更する幾つかのアプリケーションが開示されている。この中に、AGCおよびDRCなどの幾つかのダイナミクス処理アルゴリズムがある。開示されているこれらのアルゴリズムには、様々な関連するパラメータを制御するために聴覚イベントを使用することが有効である。特定ラウドネスは既に計算されているため、前記イベントを検出するために簡単に使用可能である。好ましい実施形態の詳細を以下に説明する。
【0038】
(聴覚イベントを用いる音声ダイナミクス処理パラメータ制御)
ここで、本発明の実施形態の2つ実施例を提示する。第1の実施形態では、ゲイン制御が信号パワーの二乗平均平方根(RMS)から得られるダイナミックレンジ制御装置(DRC)のデジタル実施における、リリース時間を制御するための聴覚イベントの使用について記載する。第2の実施形態では、前述の心理音響的ラウドネスモデルの中で実施されるAGCおよびDRCのさらに高度な組み合わせのある形態を制御するための聴覚イベントの使用について記載する。これら2つの実施形態は、もっぱら本発明の実施例として役立つことを意図しており、ダイナミクス処理アルゴリズムのパラメータを制御するために聴覚イベントを使用することは、以下に記載される詳細に限定されないことは言うまでもない。
【0039】
(ダイナミックレンジ制御)
記載されるDRCのデジタル実施は、音声信号x[n]を、窓をかけた半オーバーラップブロックに分割し、各ブロックについて、信号の局所パワーの指標および選択される圧縮曲線に基づいて変更ゲインを計算する。このゲインは、ブロック全体にわたり平滑化され、次いで各ブロック毎に倍加される。最後に、変更されたブロックは重畳加算されて変更音声信号y[n]を生成する。
【0040】
本明細書に記載される聴覚情景分析およびDRCのデジタル実施は、時間領域音声信号をブロックに分割して分析および処理を実施するが、DRC処理はブロック分割を用いて実施する必要はないことに留意するべきである。例えば、聴覚情景分析は、前述のブロック分割およびスペクトル分析を利用して実施してもよく、その結果得られる聴覚イベント位置および特性を利用して、一般にサンプル毎に作動する従来のDRC実施のデジタル実施に制御情報を供給してもよい。しかしながら、ここでは、聴覚情景分析に使用される同一ブロック構造をDRCに利用して、これらの組み合わせの説明を簡単にする。
【0041】
ブロックに基づくDRC実施の説明を進めると、音声信号のオーバーラップブロックは、以下のように表現することができる。
【数5】
【0042】
ここで、Mはブロック長、ホップサイズ(hopsize)はM/2、w[n]は窓、nはブロック内のサンプルインデックス、およびtはブロックインデックスである(ここで、tは方程式1のSTDFTと同様に使用され、例えば、秒ではなくブロックの不連続単位の時間を表す)。理想的には、窓w[n]は、両端部で次第に0に近づき、互いに半オーバーラップする場合には総和が1となる。例えば、一般的に使用されるサイン(sine)窓がこれらの基準を満たす。
【0043】
各ブロックについて、次に、RMSパワーを計算し、以下のような単位dBのパワー指標P[t]をブロック毎に生成することができる。
【数6】
【0044】
先に述べたように、圧力曲線で処理する前に、急速なアタックおよび緩やかなリリースでこのパワー指標を平滑化してもよいが、代替として、瞬時パワーP[t]を処理して得られるゲインを平滑化する。この代替方法では、鋭い折れ点(knee point)を有する単純な圧縮曲線を利用できるが、得られるゲインはパワーがその折れ点を通って移動してもやはり平滑であるという利点がある。ゲインを生成する信号レベルの関数Fとして、図8cに示される圧縮曲線を表すと、ブロックのゲインG[t]は以下のように与えられる。
【数7】
【0045】
【数8】
【0046】
ただし、
【数9】
【0047】
および、
【数10】
【0048】
【数11】
【0049】
なお、方程式4に示されるように、ブロックは、テーパー窓で乗算されているため、先に示した重畳合成によって、処理信号y[n]のサンプル全体についてゲインが効果的に平滑化される。したがって、ゲイン制御信号は、方程式7aに示される平滑化に加えて平滑化される。ブロック毎ではなくサンプル毎に作動するDRCのより従来型の実施では、方程式7aに示される簡単な1極(one-pole)フィルタよりもさらに高性能なゲイン平滑化が、処理信号の可聴歪みを防止するために必要であろう。さらに、ブロックに基づく処理を使用することによって、M/2サンプルの固有の遅延がシステムに導入され、αattackに関連する減衰時間がこの遅延に近い限り、オーバーシュートを防止するために信号x[n]をさらに遅らせてからゲインを適用する必要はない。
【0050】
図9aから図9cは、記載されるDRC処理を音声信号に適用した結果を示す。この特定の実施の場合、M=512のブロック長を44.1kHzのサンプリングレートで使用する。図8bに示されるものと同様な圧縮曲線を使用する。フルスケールデジタルで−20dBより上では信号は5:1の比率で減衰し、−30dB未満では信号は5:1の比率でブーストされる。10msの半減衰時間に対応するアタック係数αattack、および500msの半減衰時間に対応するリリース係数αreleaseを用いてゲインを平滑化する。図9aに示される元の音声信号は、連続する6つのピアノコードから成り、最後のコードは、サンプル1.75×105付近に位置し無音状態まで減衰している。
【0051】
【0052】
これは、信号エネルギが、−30dBと−20dBとの間のDRC曲線が変更を必要としない領域に大部分保持されるためである。しかしながら、最後のコードが弾かれた後、信号エネルギは−30dB未満に低下し、コード音が減衰するに従いゲインが上昇し始め、最終的に15dBを超える。図9cは、得られる変更音声信号を示し、最後のコードのテール部が大幅にブーストされているのが分かる。コードの自然な低レベル減衰音のこのブーストは、聞き取れるほどの非常に不自然な結果を生む。本発明の目的は、従来のダイナミクスプロセッサに関連するこの種の問題を防止することである。
【0053】
図10aから図10cは、全く同じDRCシステムを異なる音声信号に適用した結果を示す。この場合、信号の前半は、高いレベルの速いテンポの楽曲から成り、その後、サンプル10×104付近で、2番目に速いテンポであるが非常に低いレベルの楽曲に信号が切り換わる。図10bのゲインを検証すると、前半にほぼ10dBだけ信号が減衰し、その後、よりソフトな楽曲を演奏している後半にゲインが0dBまで回復する。この場合、ゲインは所望どおりの動きをする。最初の楽曲に対して2番目の楽曲のレベルを上げたいのであれば、聴こえる程度に静かな2番目の楽曲に移った直後にゲインを上げるほうがよい。ゲインの動きは、説明した最初の信号の場合の動きと類似しているのが分かるが、ここではその動きは望ましいものである。したがって、2番目の状態に影響を与えることなく最初の状態を固定したいと考える。聴覚イベントを使用してこのDRCシステムのリリース時間を制御することから、このような解決方法が得られる。
【0054】
図9で検証された最初の信号では、最後のコードの減衰がブーストするのは不自然に見える。コードとその減衰が、インテグリティが維持されると期待される単一の可聴イベントとして認識されるためである。しかしながら、2番目の状態では、ゲインが増加する間に多くの聴覚イベントが発生し、これはいかなる個別イベントに対しても変更がほとんど付与されないことを意味する。したがって、全体的なゲイン変更は好ましくないほどではない。したがって、ゲイン変更は、聴覚イベント境界の時間的近傍においてのみ許容されるべきであると主張することができる。信号がアタックまたはリリースモードにある間にこの原理をゲインに適用してもよいが、ほとんどの実際のDRCの実施では、制御を必要としない人間のイベント知覚の時間分解能と比較して、アタックモードでゲインは非常に急速に動く。したがって、信号がリリースモードにある場合だけイベントを使用してDRCゲインの平滑化を制御してもよい。
【0055】
ここで、リリース制御の適切な動作について説明する。定性的に言えば、イベントが検出されると、方程式7aにおいて前述したように、リリース時定数を用いてゲインが平滑化される。時間が検出されたイベントを過ぎて経過し、次のイベントが検出されない場合、リリース時定数は増加を続け、最終的に平滑化ゲインは定位置に「凍結」される。別のイベントが検出されと、平滑時定数は元の値にリセットされ、このプロセスが繰り返される。リリース時間を変調するため、まず検出されたイベント境界に基づいて制御信号を生成させることができる。
【0056】
前述のように、イベント境界は、音声信号の連続するスペクトルの変化を探すことによって検出することができる。この特定の実施では、以下のように、オーバーラップブロックx[n,t]それぞれのDFTを計算して、音声信号x[n]のSTDFTを生成することができる。
【数12】
【0057】
次に、連続するブロックの正規化された対数マグニチュードスペクトルの差異を以下のように計算することができる。
【数13】
【0058】
ただし、
【数14】
【0059】
ここで、ビンk全体で|X[k,t]|の最大値を正規化に使用する。ただし、他の正規化要素、例えば、ビン全体の|X[k,t]|の平均値を使用してもよい。差異D[t]が閾値Dminを超える場合は、イベントが発生したと見なされる。さらに、最大閾値Dmaxと比較したD[t]の大きさに基づいて、このイベントに強度を0と1の間で割り当てることができる。得られる聴覚イベント強度信号A[t]は、以下のように計算することができる。
【数15】
【0060】
そのイベントに関連するスペクトル変化量に比例する聴覚イベントに強度を割り当てることによって、バイナリイベント決定と比較してダイナミクス処理に関する制御が一層うまく出来るようになる。発明者らは、より大きいゲイン変化が許容できるのはより強力なイベント中であり、方程式11の信号によってこのような可変制御が可能になることが分かった。
【0061】
信号A[t]は、インパルスがイベント境界の位置で発生するインパルス信号である。リリース時間を制御する目的で、イベント境界を検出後信号A[t]が緩やかに0まで減衰するように信号A[t]をさらに平滑化することができる。
【0062】
【数16】
【0063】
【0064】
第1の場合では、6つのピアノコードのそれぞれについてイベント境界が検出され、イベント制御信号が各イベント後に緩やかに0に減衰しているのが分かる。第2の信号では、多くのイベントが時間内に相互に非常に接近して検出されるため、イベント制御信号は完全に0には減衰していない。
【0065】
【0066】
制御信号が1に等しい場合は、方程式7aからの平滑化係数α[t]は、前述のようにαreleaseに等しく、制御信号が0に等しい場合は、係数は平滑化ゲインが変化するのを防止するように1に等しい。平滑化係数は、制御信号を用いてこれら2つの極値の間で以下の数式によって補間される。
【数17】
【0067】
イベント制御信号の関数として平滑化係数を継続的に補間することによって、リリース時間がイベントの開始時点でイベント強度に比例する値にリセットされ、次いで、イベント発生後に緩やかに無限に増加する。この増加の速度は、平滑化されたイベント制御信号を生成するのに使用される係数αeventによって決定される。
【0068】
図9aおよび図10eは、方程式7bからの非イベント制御係数に対して、方程式13からのイベント制御係数でゲインを平滑化する場合の効果を示す。第1の場合では、イベント制御信号が、最後のピアノコードの後で0まで落ち、これによってゲインが上昇するのを防止する。その結果、図9fの対応する変更音声は、コードの減衰が不自然にブーストしてしまうという悪影響を受けない。第2の場合では、イベント制御信号が0に近づくことはなく、そのため、平滑化されたゲイン信号はイベント制御を適用してもほとんど抑制されない。平滑化されたゲインの軌道は、図10bの非イベント制御ゲインの場合とほとんど一致している。これは、まさしく望ましい効果である。
【0069】
(ラウドネスに基づくAGCおよびDRC)
信号変更がピークまたはRMSパワーなどの簡単な信号測定値の一次関数である従来のダイナミクス処理技術の代替として、国際特許出願PCT/US2005/038579号には、ダイナミクス処理を実施するフレームワークとして、前述の心理音響に基づくラウドネスモデルの使用について開示されている。幾つかの利点を引用する。第1に、測定値および変更がソーン単位で規定されており、これはピークまたはRMSパワーなどのもっと基本的な指標よりもラウドネス知覚のさらに厳密な指標である。第2に、元の音声の知覚スペクトルバランスがラウドネス全体が変化しても維持されるように、音声を変更することができる。このように、例えば、音声を変更するために広帯域ゲインを利用するダイナミクスプロセッサと比較して、ラウドネス全体の変化が知覚的に目立たなくなる。最後に、心理音響的モデルは本質的にマルチバンドであり、そのため、広帯域ダイナミクスプロセッサに関連する周知の相互スペクトルポンピング問題を軽減するため、このシステムは、マルチバンドダイナミクス処理を実施するように容易に構成される。
【0070】
このラウドネス領域でダイナミクス処理を実施することは、より従来型のダイナミクス処理よりも既に利点が多いけれども、様々なパラメータを制御するために聴覚イベントを利用することによって、この技術をさらに改良することが可能である。図27aに示されるピアノコードを含む音声セグメント、および図10bおよび図10cに示される関連するDRCについて考える。ラウドネス領域で同様なDRCを実施してもよく、この場合、最後のピアノコードの減衰のラウドネスをブーストしても、そのブーストはそれほど目立たないであろう。これは減衰する音符のスペクトルバランスがブーストしても保持されるためである。しかしながら、さらに良い解決策は、減衰を全くブーストしないことである。したがって、従来のDRCに関して前述したように、ラウドネス領域の聴覚イベントを用いてアタックおよびリリース時間を制御する同様な原理を有利に適用することが可能である。
【0071】
ここで説明するラウドネス領域ダイナミクス処理システムは、AGC、その後のDRCから成る。この組み合わせの目的は、元の音声のダイナミクスの少なくとも一部を維持しながら、全ての処理音声をほぼ同一の知覚ラウドネスにすることである。図11は、このアプリケーション用の適切な1組のAGCおよびDRC曲線を示す。なお、処理はラウドネス領域で実施されるため、両曲線の入出力は単位ソーンで表される。AGC曲線は、出力音声をある目標レベルに近づけようとしており、前述のように、相対的に遅い時定数でこれを実施している。AGCは、長時間の音声ラウドネスを目標値と等しくさせることと考えることができるが、短時間ベースでは、この目標値付近でラウドネスが大きく変動する可能性がある。したがって、より速く作動するDRCを利用して、特定アプリケーションにふさわしいと考えられる一定の範囲にこの変動を制限することが可能である。図11は、AGC目標値がDRCの「適正音量域(null band)」の範囲内に低下するDRC曲線を示し、この曲線の部分は変更を必要としない。この曲線の組み合わせを利用して、高速に作動するDRC変更を適用する必要性が最小になるように、AGCは長時間の音声ラウドネスをDRC曲線の適正音量域範囲内に配置する。短時間のラウドネスが適正音量域外でなお変動する場合は、DRCは、この適正音量域に音声ラウドネスを移動させるように作動する。最後の一般的な注意として、ラウドネスモデルの全ての帯域が同量のラウドネス変更を受けるように低速で作動するAGCを適用し、これによって知覚スペクトルバランスを維持することが可能である。さらに、本来であれば高速に作動する帯域に依存しないラウドネス変更によって発生する可能性のある相互スペクトルポンピングを軽減するため、ラウドネス変更を帯域全体にわたって変化させることができるように高速に作動するDRCを適用することが可能である。
【0072】
聴覚イベントを利用して、AGCとDRCの両方のアタックおよびリリースを制御することが可能である。AGCの場合、アタックおよびリリース時間はともに、イベント知覚の時間分解能と比較して長いので、イベント制御を両方の場合に有利に利用することが可能である。DRCの場合は、アタックが相対的に短時間のため、前述の従来のDRCの場合のようにリリースに対してのみイベント制御が必要となり得る。
【0073】
前述のように、イベント検出のために、使用ラウドネスモデルに関連する特定ラウドネススペクトルを使用することができる。方程式10aおよび10bの差異信号と同様な差異信号D[t]を、方程式2に定義される特定ラウドネスN[b,t]から以下のように計算することができる。
【数18】
【0074】
ただし、
【数19】
【0075】
ここで、周波数帯域b内の|N[b,t]|の最大値を正規化に使用するが、他の正規化要素、例えば、周波数帯域b内の|N[b,t]|の平均値を使用してもよい。差異D[t]が閾値Dminを超える場合、イベントは発生したと見なされる。
【0076】
【0077】
図11に示されるAGC曲線は、ラウドネスの指標をその入力とする関数として表すことができ、以下のように所望の出力ラウドネスを生成することができる。
【数20】
【0078】
DRC曲線は同様に以下のように表すことができる。
【数21】
【0079】
AGCの場合、入力ラウドネスは、音声の長時間のラウドネスの指標である。相対的に長時間の(数秒程度の)時定数を使用して、方程式3に定義される瞬時ラウドネスL[t]を平滑化することによって、この指標を計算することができる。音声セグメントの長時間のラウドネスを判断する際、人間は、音量の小さい部分よりも大きい部分により重点を置き、平滑化においてリリースよりも速いアタックを使用してこの結果をシミュレートすることができる。したがって、アタックとリリースの両方に対してイベント制御を取り入れ、AGC変更を決定するために使用する長時間のラウドネスを以下の数式によって計算することができる。
【数22】
【0080】
ただし、
【数23】
【0081】
さらに、後でマルチバンドDRCに使用することになる、関連する長時間の特定ラウドネススペクトルを以下のように計算することができる。
【数24】
【0082】
実際は、アタック時間がリリース時間のほぼ半分になるように平滑化係数を選択してもよい。次いで、長時間のラウドネス指標を考えると、入力ラウドネスに対する出力ラウドネスの比として、AGCに関連するラウドネス変更スケーリングを以下のように計算することができる。
【数25】
【0083】
ここで、AGCスケーリングの適用後のラウドネスからDRC変更を計算することができる。DRC曲線を適用する前にラウドネスの指標を平滑化する代わりに、瞬時ラウドネスにDRC曲線を適用した後で、得られた変更を平滑化してもよい。これは、従来のDRCゲインを平滑化するための前述の技術と同様である。さらに、マルチバンド方式でDRCを適用することが可能であり、これは、DRC変更が、全ラウドネスL[t]ではなく、各帯域bの特定ラウドネスN[b,t]の関数であることを意味する。しかしながら、元の音声の平均スペクトルバランスを維持するために、各帯域にDRCを適用することによって、得られる変更は、DRCを全ラウドネスに適用することで得られるのと同じ平均効果を有することができる。長時間の特定ラウドネスに対する(AGCスケーリング適用後の)長時間の全ラウドネスの比によって各帯域をスケーリングし、この値を独立変数としてDRC関数に使用することによって、これを実現することができる。次いで、この結果を前記比率で再スケーリングして、出力特定ラウドネスを生成する。したがって、各帯域のDRCスケーリングは、以下の数式によって計算することができる。
【数26】
【0084】
次に、AGCおよびDRC変更を組み合わせて、以下の帯域毎のトータルラウドネススケーリングを形成することができる。
【数27】
【0085】
次に、速いアタックおよび遅いリリース、およびリリースのみに適用されるイベント制御を使用して、各帯域毎に独立して全時間帯でこのトータルスケーリングを平滑化することができる。理想的には、そのデシベル表現で平滑化される従来のDRCのゲインに類似しているスケーリングの対数上で平滑化を実施するが、このことは重要ではない。平滑化されたトータルスケーリングが確実に各帯域の特定ラウドネスと同期して動くようにするために、以下のように、特定ラウドネス自体を同時平滑化することによってアタックおよびリリースモードを決定することができる。
【数28】
【0086】
ただし、
【数29】
【0087】
最後に、元の特定ラウドネスに適用される平滑化スケーリングに基づいて、目標となる特定ラウドネスを以下のように計算することができる。
【数30】
【0088】
次に、以下のようにゲインG[b,t]について解き、これが元の励磁に適用されると目標値と等しい特定ラウドネスになる。
【数31】
【0089】
ゲインは励磁を計算するために使用されるフィルタバンクの各帯域に適用することが可能であり、次いで、フィルタバンクを反転することによって変更音声を生成して、変更時間領域音声信号を生成する。
【0090】
(追加のパラメータ制御)
前述の説明は、処理されている音声の聴覚情景分析によるAGCおよびDRCのアタックおよびリリースパラメータの制御に重点を置いたが、他の重要パラメータにもASA結果によって制御されることによる効果がある。
【0091】
【0092】
(実施)
本発明は、ハードウェアまたはソフトウェア、または両方の組み合わせ(例えば、プログラマブル論理アレイ)で実施することが可能である。別段に規定しない限り、本発明の一部として含まれるアルゴリズムは、いかなる特定のコンピュータまたは他の装置にも本質的に関係しない。特に、様々な汎用装置を、本明細書の教示に従って書かれるプログラムとともに使用することができる。あるいは、必要となる方法ステップを実施するためにさらに特化した装置(例えば、集積回路)を構築する方が便利である。したがって、本発明は、1つ以上のプログラマブルコンピュータシステムであって、それぞれ、少なくとも1つのプロセッサ、少なくとも1つのデータ記憶装置(揮発性および不揮発性メモリおよび/または記憶素子を含む)、少なくとも1つの入力装置またはポート、および少なくとも1つの出力装置またはポートを備えるコンピュータシステム上で実行される1つ以上のコンピュータプログラムで実施することが可能である。プログラムコードは入力データに適用され、本明細書に記載される機能を実施し、出力情報を生成する。この出力情報は、1つ以上の出力装置に周知の方法で適用される。
【0093】
この各プログラムは、コンピュータシステムと通信するために、(マシン、アセンブリ、または高級手続き型、論理、またはオブジェクト指向プログラミング言語を含む)何らかの所望のコンピュータ言語で実施することが可能である。いずれの場合も、言語は、コンパイラ型またはインタープリタ型言語であってよい。
【0094】
この各コンピュータプログラムは、コンピュータシステムが記憶媒体または装置を読み取って、本明細書に記載される手順を実施する場合にコンピュータを設定し作動させるために、記憶媒体または装置(例えば、ソリットステートメモリまたは媒体、または磁気または光媒体)上に保存またはこれにダウンロードされるのが好ましい。本発明システムはまた、コンピュータプログラムで構成されるコンピュータ可読記憶媒体として実施されると見なすこともでき、このように構成される記憶媒体は、特定の予め定義された方法で本明細書に記載される機能を実行するようにコンピュータシステムを作動させる。
【0095】
本発明の幾つかの実施形態を記載した。それでもなお、本発明の趣旨および範囲から逸脱することなく、様々な改変を行うことが可能であるのは言うまでもない。例えば、本明細書に記載されるステップの一部を個別に並び替えてもよく、したがって、記載される順序と異なる順序で実施してもよい。
【0096】
本発明およびその様々な形態の他の変更および改変の実施は、当業者にとっては明白であり、本発明は記載されるこれらの特定の実施形態によって制限されるものではないことは言うまでもない。したがって、本明細書に開示および請求された、根底に横たわる原理の趣旨および範囲に該当するいかなる改変、変更、または等価物も、本発明含まれるものと見なされる。
【0097】
参照による組込み
以下の特許、特許出願および刊行物は、参照することによってそれぞれ本明細書に完全に組み込まれている。
【0098】
(音声ダイナミクス処理)
マイケルタルボットスミス(Michael Talbot−Smith)編集の音響技術者の参考図書(Audio Eigineer’s Reference Book),第2版。リミッタおよびコンプレッサ(Limiters and Compressors)、アランチュットン(Alan Tutton)著,2−1492−165。フォーカルプレス(Focal Press),リードエドケーションアンドプロフェッショナルパブリッシング社(Reed Educational and Professional Publishing,Ltd.),1999年。
【0099】
(聴覚イベントの検出および使用)
米国特許出願公開第2004/0122662号(US2004/0122662A1)として2004年6月24日公開のブレットグラハムクロケット(Brett Graham Crockett)の「High Quality Time−Scaling and Pitch−Scaling of Audio Signals」と題する米国特許出願第10/474,387号。
【0100】
米国特許出願公開第2004/0148159号(US2004/0148159A1)として2004年7月29日公開のブレットグラハムクロケット(Brett G. Crockett)らの「Method for Time Aligning Audio Signals Using Characterization Based on Auditory Events」と題する米国特許出願第10/478,398号。
【0101】
米国特許出願公開第2004/0165730号(US2004/0165730A1)として2004年8月26日公開のブレットグラハムクロケット(Brett G. Crockett)の「Segmenting Audio Signals Into Auditory Events」と題する米国特許出願第10/478,538号。本発明の形態は、クロケット(Crockett)の前記出願で開示されるものに加えて聴覚イベントを検出する方法を提供する。
【0102】
米国特許出願公開第2004/0172240号(US2004/0172240A1)として2004年9月2日公開のブレットグラハムクロケット(Brett G. Crockett)らの「Comparing Audio Using Characterizations Based on Auditory Events」と題する米国特許出願第10/478,397号。
【0103】
国際公開第2006/026161号(WO2006/026161)として2006年3月9日公開のマイケルジョンスミザーズ(Michael John Smithers)の「Method for Combining Audio Signals Using Auditory Analysis」と題する、2005年7月13日出願の特許協力条約に基づく国際出願PCT/US05/24630号。
【0104】
国際公開第2004/111994号(WO2004/111994A2)として2004年12月23日公開のアランジェフリーゼーフェルト(Alan Jeeffey Seefeldt)らの「Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal」と題する、2004年5月27日出願の特許協力条約に基づく国際出願PCT/US2004/016964号。
【0105】
国際公開第2006/047600号として公開のアランジェフリーゼーフェルト(Alan Jeeffey Seefeldt)による「Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal」と題する、2005年10月25日出願の特許協力条約に基づく国際出願PCT/US2005/038579号。
【0106】
ブレットクロケット(Brett Crockett)およびマイケルスミザーズ(Michael Smithers)による「A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis」,オーディオエンジニアリングソサイエティ会議(Audio Engineering Society Convention)論文6416,第118回会議,バルセロナ,2005年5月28〜31日。
【0107】
ブレットクロケット(Brett Crockett)による「High Quiality Multichannel Time Scaling and Pitch−Shifting using Auditory Scene Analysis」,オーディオエンジニアリングソサイエティ会議(Audio Engineering Society Convention)論文5948,ニューヨーク,2003年10月。
【0108】
アランゼーフェルト(Alan Seefeldt)らによる「A New Objective Measure of Perceived Loudness」,オーディオエンジニアリングソサイエティ会議(Audio Engineering Society Convention)論文6236,サンフランシスコ,2004年10月28日。
【0109】
グレンエムバルー(Glen M. Ballou)編集の音響技術者向けハンドブック,新オーディオ事典(The New Audio Cyclopedia),第2版。ダイナミクス,850−851。フォーカルプレス(Focal Press)バターワースハイネマン(Butterworth−Heinemann)のインプリント,1998年。
【0110】
マイケルタルボットスミス(Michael Talbot−Smith)編集の音響技術者の参考図書,第2版,セクション2.9(アランチュットン(Alan Tutton)による「リミッタおよびコンプレッサ(Limiters and Compressors)」),pp.2.149−2.165,フォーカルプレス(Focal Press),リードエドケーションアンドプロフェッショナルパブリッシング社(Reed Educational and Professional Publishing,Ltd.),1999年。
【技術分野】
【0001】
本発明は、音声処理装置が、音声信号を解析し、音声のレベル、ゲインまたはダイナミックレンジを変化させ、音声ゲインおよびダイナミクス処理の全てのまたは一部のパラメータが聴覚イベントの関数として生成される、音声ダイナミックレンジ制御方法および装置に関する。本発明はまた、この方法を実行する、またはこの装置を制御するコンピュータプログラムに関する。
【0002】
本発明はまた、聴覚イベントの特定ラウドネスに基づく検出を使用する方法および装置に関する。本発明はまた、この方法を実行する、またはこの装置を制御するコンピュータプログラムに関する。
【背景技術】
【0003】
(音声のダイナミクス処理)
自動ゲイン制御(AGC:automatic gain control)およびダイナミックレンジ制御(DRC:dynamic range control)の技術がよく知られており、多くの音声信号経路の共通要素となっている。理論的な意味において、両技術は、ある方法で音声信号のレベルを測定し、その後、測定レベルの関数であるアマウント(amount)によって信号のゲイン変更を行う。線形の1:1ダイナミクス処理システムでは、入力音声は処理されず、出力音声信号が入力音声信号と理想的に一致する。さらに、入力信号の特性を自動的に測定し、その測定値を使用して出力信号を制御する音声ダイナミクス処理システムがある場合、入力信号は6dBだけレベルが増加し、出力信号は処理されて3dBしかレベルが増加しないとすると、出力信号は入力信号に対して2:1の比率で圧縮されたことになる。国際公開第2006/047600号(アランジェフリーゼーフェルト(Alan Jeffrey Seefeldt)による「Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal」)には、音声のダイナミクス処理の5つの基本的種類:圧縮、制限、自動ゲイン制御(AGC)、展開、ゲーティングについての詳しい概要が提供されている。
【0004】
(聴覚イベントおよび聴覚イベント検出)
音声を個別かつ明確に認識されるユニットまたはセグメントに分割することは、「聴覚イベント分析」または「聴覚情景分析」(「ASA:auditory scene analysis」)と称される場合があり、そのセグメントは、「聴覚イベント」または「音声イベント」と称される場合がある。聴覚情景分析の広範囲にわたる議論が、アルバートSブレグマン(Albert S. Bregman)によってその著書、「オーディトリシーンアナラシス−ザパーセプチュアルオーガニゼーションオブサウンド(Auditory Scene Analysis−The Perceptual Organization of Sound)」,マサチューセッツ工科大学,1991年,第4刷,2001年,エムアイティー・プレス(MIT Press)ペーパーバック第2版に記載されている。さらに、1999年12月14日付けでバドカムカール(Bhadkamkar)らに付与された米国特許第6,002,776号は、1976年までさかのぼる刊行物を「聴覚情景分析による音声分離に関する先行技術」として挙げている。しかしながら、バドカムカール(Bhadkamkar)らの特許は、聴覚情景分析の実用を阻むものであり、「聴覚情景分析を含む技術は、科学的観点から人間の聴覚処理のモデルとして興味深いが、基礎的な進展がなされるまでは、音声分離のための実用的な技術と考えるには今のところ計算上の難易度および専門性が高過ぎる」と結論付けている。
【0005】
聴覚イベントを特定するための有用な方法は、クロケット(Crokett)およびクロケットらによって、後述の表題「参照による組込み」の項に記載される様々な特許出願および文書に記載されている。これらの文書によれば、音声信号は聴覚イベントに分割され、各聴覚イベントは、時間に対するスペクトル組成(周波数の関数としての振幅)の変化を検出することによって個別かつ明確に認識されやすくなっている。これは、例えば、次のようにして実施することができる。音声信号の連続する時間ブロックのスペクトル成分を計算し、音声信号の連続する時間ブロック間の差異を計算し、この連続する時間ブロック間のスペクトル成分の差異が閾値を超える場合に、連続する時間ブロック間の境界として聴覚イベント境界を特定する。あるいは、時間に対する振幅の変化を、時間に対するスペクトル組成の変化の代わりとして、またはそれに追加して計算してもよい。
【0006】
計算上の難易度が最も低いこの技術の実施では、全周波数帯(全帯域幅の音声)または実質上全周波数帯(実用的な実施では、スペクトルの端部で帯域制限フィルタリングがよく使用される)を解析し、最大音量の音声信号成分に対して最大の重み付けをすることによって、プロセスは音声を時間セグメントに分割する。この方法は、より短い時間スケール(20ミリ秒(ms)以下)において、耳が一定の時間に単一の聴覚イベントに集中しがちである心理音響的現象を利用している。これは、複数のイベントが同時に発生している場合、1つの成分が知覚的に最も支配的となりやすく、そのイベントが発生している唯一のイベントであるかのように単独に処理される可能性があることを示している。この効果を利用することによって、聴覚イベント検出が処理されている音声の複雑さにも対応することが可能になる。例えば、処理されている入力音声信号が独奏楽器の場合は、特定される音声イベントは、演奏されている個別の音符であろう。同様に、入力ボイス信号の場合は、スピーチの個別の成分、例えば、母音および子音は、個別の音声要素として特定されるであろう。ドラム音または複数の楽器および声の入っている楽曲など、音声の複雑さが増すにつれて、聴覚イベント検出は、「最も支配的な」(すなわち、最大音量の)音声要素を常に特定する。
【0007】
計算が複雑にはなるが、全帯域幅ではなく不連続な周波数サブバンド(固定のまたは動的に決定される、あるいは固定のおよび動的に決定されるサブバンド)における、時間に対するスペクトル成分の変化も、プロセスは考慮に入れることが可能である。この代替の方法は、単一の音声ストリームだけが特定時間に知覚可能であるとするのではなく、異なる周波数サブバンドの2つ以上の音声ストリームを考慮に入れている。
【0008】
聴覚イベント検出は、時間領域音声波形を時間間隔またはブロックに分割し、次いで、FFTなどのフィルタバンクまたは時間周波数変換を用いて、各ブロックのデータを周波数領域に変換することによって実施することが可能である。振幅変化の影響を取り除くか低減するために、各ブロックのスペクトル成分の振幅を正規化することが可能である。その結果得られる各周波数領域表現は、特定ブロックにおける音声のスペクトル成分の指標となる。連続するブロックのスペクトル成分を比較し、閾値を超える変化を捉えて、聴覚イベントの時間的開始または時間的終了を示すことが可能である。
【0009】
後述するように、周波数領域を正規化するのが好ましい。周波数領域データの必要とされる正規化の程度が振幅の指標となる。したがって、この変化量が所定の閾値を超えると、これを捕らえてイベント境界を示すことができる。スペクトル変化および振幅変化から得られるイベント開始および終了点は、まとめて論理和がとられ、どちらの種類の変化から得られるイベント境界も特定することができるようにする。
【0010】
前述のクロケットおよびクロケットらによる出願および論文に記載されている技術は、本発明の形態と関連して特に有用であるが、聴覚イベントおよび聴覚境界を特定する他の技術も本発明の形態で利用することが可能である。
【発明の概要】
【課題を解決するための手段】
【0011】
従来の先行技術である音声のダイナミクス処理は、音声のゲインを調整して所望の結果を出す時変制御信号によって音声を増幅することを含む。「ゲイン」は、音声振幅を増減させるスケーリングファクタである。この制御信号は、連続的に、または音声データのブロックから生成することができるが、一般に、処理されている音声のある形式の測定によって得られる。またその変化率は、場合によって固定特性や音声のダイナミクスによって異なる特性を有する平滑化フィルタによって決定される。例えば、応答時間は、マグニチュード、すなわち音声のパワーの変化に応じて調整可能である。自動ゲイン制御(AGC)およびダイナミックレンジ圧縮(DRC:dynamic range compression)などの先行技術の方法では、ゲイン変化を障害として認識することができて、これを可聴アーティファクト(artifact)を付加することなく適用することが可能な時間間隔が、心理音響に基づくどの方法でも評価されていない。したがって、従来の音声ダイナミクスプロセスは、可聴アーティファクトを導入する恐れがあることが多い。すなわち、ダイナミクス処理の影響により、音声に所望しない知覚可能な変化が導入される恐れがある。
【0012】
聴覚情景分析は、個別の聴覚イベントを知覚的に特定し、各イベントは、2つの連続する聴覚イベント境界の間で発生する。ゲイン変化によって引き起こされる可聴障害は、聴覚イベント内でゲインをさらに一定に近づけるようにすること、および変化の大部分をイベント境界の近傍に限定することによって、大幅に低減させることが可能である。コンプレッサまたはエキスパンダとの関連では、音声レベルの増加(アタックと呼ばれることが多い)に対する応答は速く、聴覚イベントの最小継続時間と同程度かそれよりも短いが、減少(リリースまたはリカバリ)に対する応答はもっと遅いため、一定に見えるはずのまたは次第に減衰しているはずの音声が聞こえるほどに妨害される可能性がある。このような環境下では、次の境界までゲインリカバリを遅らせること、またはイベント中のゲインの変化率を遅くすることが非常に有効である。中期から長期のレベルまたはラウドネスの音声を正規化し、したがって、アタック時間とリリース時間との両方を聴覚イベントの最小継続時間と長く比較することが可能な自動ゲイン制御アプリケーションの場合には、増加するゲインと減少するゲインとの両方について、イベント中に次のイベント境界までゲインの変化を遅らせるか、またはゲインの変化率を遅くすることが有効である。
【0013】
本発明の一形態によれば、音声処理システムは、音声信号を受信し、音声のゲインおよび/またはダイナミックレンジ特性を解析して変更する。音声のダイナミックレンジ変更は、ダイナミクス処理によって導入される知覚アーティファクトに大きな影響を及ぼすダイナミクス処理システムのパラメータ(アタックおよびリリース時間、圧縮率など)によって制御されることが多い。音声信号の時間に対する信号特性の変化を検出し、聴覚イベント境界として特定する。その結果、連続する境界間の音声セグメントが音声信号の聴覚イベントを構成する。対象となる聴覚イベントの特性は、知覚強度または継続時間などのイベントの特性を含んでもよい。前記1つ以上のダイナミクス処理パラメータの一部は、聴覚イベントおよび/または前記聴覚イベント境界に関連する信号特性の変化量に少なくとも部分的に応答して生成される。
【0014】
一般に、聴覚イベントは、個別かつ明確に認識されやすい音声のセグメントである。信号特性の1つの有用な指標は、例えば、引用されるクロケットおよびクロケットらの文書に記載されているように、音声のスペクトル成分の指標を含む。1つ以上の音声ダイナミクス処理パラメータの全てまたは一部は、1つ以上の聴覚イベントの特性の有無に少なくとも部分的に応答して生成することが可能である。聴覚イベント境界は、閾値を超える時間に対する信号特性の変化として特定することが可能である。あるいは、1つ以上のパラメータの全てまたは一部は、前記聴覚イベント境界に関連する信号特性の変化量の連続する指標に少なくとも部分的に応答して生成することが可能である。原理上は、本発明の形態は、アナログおよび/またはデジタル領域で実施することが可能であるが、実際の実施は、各音声信号が個別サンプルまたはデータブロック内のサンプルによって表現されるデジタル領域で行われるようである。この場合、信号特性は、ブロック内の音声のスペクトル成分であってもよく、時間に対する信号特性の変化の検出は、ブロック毎の音声のスペクトル成分の変化の検出であってもよく、また聴覚イベントの時間的開始および終了の境界はそれぞれデータブロックの境界と一致している。サンプル単位ベースで動的ゲイン変更を実施するさらに従来の事例では、記載される聴覚情景分析をブロックベースで実施してもよく、その結果得られる聴覚イベント情報を使用して、サンプル毎に適用される動的ゲイン変更を実施してもよいことに留意すべきである。
【0015】
聴覚情景分析の結果を用いて主要な音声ダイナミクス処理パラメータを制御することによって、ダイナミクス処理によって導入される可聴アーティファクトを劇的に低減させることが可能である。
【0016】
本発明は、聴覚情景分析を実施する2つの方法を提示している。第1の方法は、スペクトル分析を実施し、スペクトル成分の変化を特定することによって動的ゲインパラメータを制御するために使用される知覚可能な音声イベントの位置を特定する。第2の方法は、音声を(第1の方法よりもより心理音響的に関連情報を提供することができる)知覚ラウドネス領域に変換し、動的ゲインパラメータを制御するためにその後使用される聴覚イベントの位置を特定する。第2の方法では、音声処理が絶対音響再生レベルを認識していることが必要であり、これは実施によっては不可能な場合があることに留意すべきである。聴覚情景分析の2つの方法を提示することによって、絶対再生レベルを考慮に入れるように校正されるかどうか分からないプロセスまたは装置を使用して、ASA制御動的ゲイン変更を実施することが可能になる。
【0017】
他の発明の形態を含む音声ダイナミクス処理環境における本発明の形態が、本明細書に記載されている。かかる他の発明は、本明細書で特定される本出願の所有者である、ドルビー・ラボラトリーズ・ライセンシング・コーポレーション(Dolby Laboratories Licensing Corporation)の様々な係属中米国および国際特許出願に記載されている。
【図面の簡単な説明】
【0018】
【図1】聴覚情景分析を実施するためのプロセスステップの実施例を示すフローチャートである。
【図2】聴覚情景分析を実施している間に音声に対して処理を施し、窓をかけ、DFTを実施するブロックの実施例を示す図である。
【図3】音声を使用して聴覚イベントを特定するとともに聴覚イベントの特性を特定し、そのイベントおよび特性を使用してダイナミクス処理パラメータを変更する平行処理を示す、フローチャートまたは機能ブロック図の性質を帯びるものである。
【図4】音声を使用して聴覚イベントの特定のみを行い、その音声イベント検出からイベント特性が決定され、そのイベントおよび特性を使用してダイナミクス処理パラメータを変更する処理を示す、フローチャートまたは機能ブロック図の性質を帯びるものである。
【図5】音声を使用して聴覚イベントの特定のみを行い、その音声イベント検出からイベント特性が決定され、その聴覚イベントの特性のみを使用してダイナミクス処理パラメータを変更する処理を示す、フローチャートまたは機能ブロック図の性質を帯びるものである。
【図6】ERB尺度による臨界帯域を近似する一連の理想的な聴覚フィルタ特性応答を示す図である。横軸目盛は周波数(単位:ヘルツ)、および縦軸目盛はレベル(単位:デシベル)である。
【図7】ISO226の等ラウドネス曲線を示す図である。横軸目盛は周波数(単位:ヘルツ、対数ベース10尺度)、および縦軸目盛は音圧レベル(単位:デシベル)である。
【図8】音声ダイナミックレンジコンプレッサの理想的な入/出力特性および入力ゲイン特性を示す図である。
【図9】信号パワーの二乗平均平方根(RMS:Root Mean Square)からゲイン制御が得られる従来のダイナミックレンジ制御装置(DRC:Dynamic Range Controller)のデジタル実施において、リリース時間を制御するために聴覚イベントを使用する実施例を示す図である。
【図10】図9で使用される信号に対する代替信号の信号パワーの二乗平均平方根(RMS)からゲイン制御が得られる従来のダイナミックレンジ制御装置(DRC)のデジタル実施において、リリース時間を制御するために聴覚イベントを使用する実施例を示す図である。
【図11】ラウドネス領域ダイナミクス処理システムにおいてAGCの後にDRCを適用する場合の一組の理想的なAGCおよびDRC曲線を示す図である。この組み合わせの目的は、元の音声のダイナミクスの少なくとも一部を依然として維持しながらも、処理後の全ての音声をほぼ同一の知覚ラウドネスにすることである。
【発明を実施するための形態】
【0019】
(聴覚情景分析(元の非ラウドネス領域方法))
本発明の一形態の実施形態によれば、聴覚情景分析は、図1の部分に示されるような4つの一般的な処理ステップから構成することができる。第1ステップ1−1(「スペクトル分析を実施する」)は、時間領域音声信号を取得し、それをブロックに分割し、各ブロックについてスペクトルプロファイルまたはスペクトル成分を計算する。スペクトル分析によって、音声信号は短時間の周波数領域に変換される。これは、トランスフォームフィルタまたはバンドパスフィルタのバンクに基づいて、および(人間の耳の特性により近いBark尺度または臨界帯域などの)線形またはワープ周波数空間において、任意のフィルタバンクを使用して実施することができる。任意のフィルタバンクを使用する場合は、時間と周波数との間にトレードオフが存在する。時間分解能を上げる、したがって時間間隔を短くするほど、周波数分解能が下がる。周波数分解能をあげる、したがってサブバンドを狭くするほど、時間間隔は長くなる。
【0020】
図1に概念的に示される第1のステップは、音声信号の連続する時間セグメントのスペクトル成分を計算する。実際の実施形態では、ASAのブロックサイズは、いかなるサンプル数の入力音声信号であってもよいが、512サンプルであれば時間および周波数分解能の良好なトレードオフが得られる。第2のステップ1−2では、ブロック毎のスペクトル成分の差異を決定する(「スペクトルプロファイルの差異測定を実施する」)。したがって、第2のステップは、音声信号の連続する時間セグメント間のスペクトル成分の差異を計算する。前述のように、知覚される聴覚イベントの開始及び終了の強力な指標が、スペクトル成分の変化であると考えられる。第3のステップ1−3(「聴覚イベント境界の位置を特定する」)では、1つのスペクトルプロファイルブロックと次のブロックとの間のスペクトルの差異が閾値よりも大きい場合、そのブロック境界を聴覚イベント境界とする。連続する境界間の音声セグメントは、聴覚イベントを構成する。したがって、第3のステップは、この連続する時間セグメント間のスペクトルプロファイル成分の差が閾値を超える場合、連続する時間セグメント間の聴覚イベント境界を設定し、聴覚イベントを定義する。この実施形態では、聴覚イベント境界は、1つのスペクトルプロファイルブロック(この実施例では512サンプル)の長さが最小であるスペクトルプロファイルブロックの整数倍の長さを有する聴覚イベントを定義する。理論上は、イベント境界をこの様に制限する必要はない。本明細書で説明される実際の実施形態に対する代替として、入力ブロックサイズが、例えば、本質的に聴覚イベントのサイズになるように変化してもよい。
【0021】
イベント境界の特定に続いて、ステップ1−4に示されるように、聴覚イベントの特性を特定する。
【0022】
音声のオーバーラップまたは非オーバーラップセグメントに窓をかけて使用し、入力音声のスペクトルプロファイルを計算する。オーバーラップによって聴覚イベントの位置に関するより細かい分解能が得られ、また短いトランジェントなどのイベントを逃す可能性が低くなる。しかしながら、オーバーラップにより計算が複雑にもなる。したがって、オーバーラップは省略してもよい。図2は、窓をかけて離散フーリエ変換(DFT:Discrete Fourier Transform)によって周波数領域に変換しているNサンプルの非オーバーラップブロックの概念表現を示す。各ブロックは、窓をかけ、好ましくは、高速化のため高速フーリエ変換(FFT:Fast Fourier Transform)として実施されるDFTを使用するなどして周波数領域に変換する。
【0023】
以下の変数を使用して、入力ブロックのスペクトルプロファイルを計算することができる。
【0024】
M=スペクトルプロファイルを計算するために使用されるブロックの窓をかけたサンプル数
P=スペクトル計算オーバーラップのサンプル数
一般に、いかなる整数を上記変数に使用してもよい。しかしながら、スペクトルプロファイル計算に標準FFTが使用できるようにMを2の累乗とすると、実施がより効率的になるであろう。聴覚情景分析プロセスの実際の実施形態では、記載されるパラメータは、以下のように設定することができる。
【0025】
M=512サンプル(または44.1kHzで11.6ms)
P=0サンプル(オーバーラップなし)
上記の値は、実験的に決定されたものであり、一般に、聴覚イベントの位置および継続時間を充分な精度で特定することが分かっている。しかしながら、Pを0サンプル(オーバーラップなし)でなく256サンプル(50%オーバーラップ)に設定しても、何らかの見つけにくいイベントを特定する際に有用であることが分かった。多くの異なる種類の窓を使用して窓をかけることによって生じるスペクトルアーティファクトを最小限に抑えることが可能であるが、スペクトルプロファイルの計算で使用される窓は、M点ハニング(M-point Hanning)、カイザーベッセル(Kaiser-Bessel)、または他の適切な、好ましくは非長方形の窓である。詳しい実験的分析を行った後、上記の値およびハニング窓の1種を選択した。これらが音声材料の広範囲にわたり優れた結果をもたらすことを示したためである。主に低周波数成分を有する音声信号の処理には、非長方形窓をかけるのが好ましい。長方形窓は、スペクトルアーティファクトを生じさせ、これにより誤ったイベント検出を行う可能性がある。オーバーラップ/追加プロセス全体が一定のレベルを提供する必要がある特定の符号器/復号器(符号復号器)アプリケーションとは異なり、ここではこのような制限は適用されず、その時間/周波数分解能および帯域外除去などの特性によって窓を選択することが可能である。
【0026】
ステップ1−1(図1)では、M点ハニング、カイザーベッセル、または他の適切な窓を用いてデータに窓をかけ、M点高速フーリエ変換を用いて周波数領域に変換し、複雑なFFT係数のマグニチュードを計算することによって、各Mサンプルブロックのスペクトルを計算することが可能である。その結果得られるデータを正規化して、最大マグニチュードを1に設定し、個数Mの正規化配列を対数領域に変換する。データはまた、音声の平均マグニチュード値または平均パワー値などの他の何らかの測定基準によって正規化してもよい。配列を対数領域に変換する必要はないが、この変換によってステップ1−2における差の指標の計算が簡単になる。さらに、対数領域は、人間の聴覚システムの性質と一層厳密に一致している。得られる対数領域値は、負の無限大からゼロの範囲を有する。実際の実施形態では、値の範囲に下限を設けてもよい。すなわち、その限度は、例えば、−60dBに固定してもよく、低周波および超短波の可聴域下限付近の静音を反映するように周波数に依存してもよい。(なお、FFTが負振動および正振動を示す場合には、配列のサイズをM/2に縮小することも可能であろう。)
ステップ1−2は、隣接するブロックのスペクトル間の差の指標を計算する。各ブロックについて、ステップ1−1からのM個の(対数)スペクトル係数をそれぞれ前のブロックの対応する係数から引いて、差異のマグニチュードを計算する(符号は無視する)。次いで、これらM個の差を合計して1つの数値にする。この差の指標を合計に使用したスペクトル係数の数(この場合はM個の係数)で割って、この差の指標をスペクトル係数当たりの平均差として表現することもできる。
【0027】
ステップ1−3は、ステップ1−2からの差の指標の配列に閾値を用いて限界を適用することによって、聴覚イベント境界の位置を特定する。差の指標が閾値を超える場合は、スペクトルの変化は、新規のイベントを示すのに充分であると見なされ、変化したブロック数をイベント境界として記録する。上記で与えられるMおよびPの値、および(ステップ1−1で)単位dBで示される対数領域値に対し、(鏡映部を含む)FFTの全マグニチュードを比較する場合は閾値を2500とし、FFTの半分を比較する場合には閾値を1250としてもよい(前述したように、FFTが負振動および正振動を示す場合、FFTのマグニチュードは、一方が他方の鏡像である)。この値は、実験的に選択されたものであり、良好な聴覚イベント境界検出を提供する。このパラメータ値を変更してイベントの検出を緩和したり(閾値を上げる)、強化したり(閾値を下げる)することが可能である。
【0028】
図1のプロセスは、図3、図4および図5の同等な処理によってより一般的に示すことができる。図3では、「聴覚イベントを特定する」機能、すなわち、音声信号を聴覚イベントに分割し、各聴覚イベントは個別かつ明確に認識されやすいステップ3−1と、任意の「聴覚イベントの特性を特定する」機能、すなわちステップ3−2とに、音声信号が平行して印加される。図1のプロセスを利用して、音声信号を聴覚イベントに分割してその特性を特定するか、または他の何らかのプロセスを利用してもよい。次いで、機能、すなわちステップ3−1によって決定される、聴覚イベント境界の特定であってもよい、聴覚イベント情報を使用して、「ダイナミクスパラメータを変更する」機能、すなわちステップ3−3によって、(アタック、リリース、率などの)音声ダイナミクス処理パラメータを要望どおりに変更する。任意の「特性を特定する」機能、すなわちステップ3−3も聴覚イベント情報を受け取る。「特性を特定する」機能、すなわちステップ3−3は、1つ以上の特性によって聴覚イベントの一部または全てを特徴付けることができる。この特性は、図1のプロセスに関連して説明したように、聴覚イベントの主要なサブバンドの特定を含んでもよい。この特性はまた、例えば、聴覚イベントのパワーの指標、聴覚イベントの振幅の指標、聴覚イベントのスペクトル平滑度の指標、および聴覚イベントが実質的に無音かどうか、あるいは処理の負の可聴アーティファクトを低減させるか除去できるようにダイナミクスパラメータを変更するのに役立つ他の特性を含む、1つ以上の音声特性を含んでもよい。この特性はまた、聴覚イベントがトランジェントを含むかどうかなどの他の特性を含んでもよい。
【0029】
図3の処理の代替例が、図4および図5に示される。図4では、音声入力信号は、「特性を特定する」機能、すなわちステップ4−3に直接印加されないが、ステップ4−3は、「聴覚イベントを特定する」機能、すなわちステップ4−1から情報を受け取る。図1の処理は、この処理の具体例である。図5では、機能、すなわちステップ5−1、5−2および5−3は、連続して配置される。
【0030】
この実際の実施形態の詳細は、重要ではない。音声信号の連続する時間セグメントのスペクトル成分を計算し、連続する時間セグメント間の差異を計算し、この連続する時間セグメント間のスペクトルプロファイル成分の差異が閾値を超える場合に連続する時間セグメント間の各境界に聴覚イベント境界を設定する、他の方法を利用してもよい。
【0031】
(聴覚情景分析(新しいラウドネス領域方法))
アランジェフリーゼーフェルト(Alan Jeffrey Seefeldt)による「Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal」と題する国際公開第2006/047600号として発行されている、2005年10月25日出願の特許協力条約に基づく国際出願PCT/US2005/038579号には、特に、心理音響的モデルに基づく知覚ラウドネスの客観的評価について開示されている。前記出願は、参照することによって本明細書に完全に組み込まれているものとする。前記出願に記載されるように、音声信号x[n]から、時間ブロックtにおける臨界帯域bの内耳の基底膜に沿ったエネルギ分布を近似する励磁信号E[b,t]を計算する。この励磁は、以下のような音声信号の短時間離散フーリエ変換(STDFT:Short-time Discrete Fourier Transform)から計算することができる。
【数1】
【0032】
ここで、X[k,t]は、時間ブロックtおよびビン(bin)kにおけるx[n]のSTDFTを示す。なお、方程式1において、tは、秒などの連続する指標ではなくてトランスフォームブロックの不連続単位を有する時間を示す。T[k]は、外耳および中耳を通過する音声の伝達をシミュレートするフィルタの周波数応答を示し、Cb[k]は、臨界帯域bに相当する位置の基底膜の周波数応答を示す。図6は、適切な一連の臨界帯域フィルタ応答を示し、ここでは、ムーア(Moore)およびグラスベルグ(Glasberg)によって定義されるように、等価矩形帯域幅(ERB:Equivalent Rectangular Bandwidth)尺度に従って40の帯域が不均一に間隔を置いて配置されている。各フィルタの形状は、指数関数曲線で示され、帯域は1ERBの間隔を用いて分散されている。最後に、方程式1の平滑時定数(smoothing time constant)λbは、帯域b内の人間のラウドネス知覚の積分時間に比例して有利に選択することが可能である。
【0033】
図7に示されるものなどの等ラウドネス曲線を用いて、各帯域の励磁を、1kHzで同一知覚ラウドネスを生成する励磁レベルに変換する。次いで、変換後の励磁E1kHz[b,t]から、周波数および時間全体にわたって分散される知覚ラウドネスの指標である特定ラウドネスを、圧縮非線形を通して計算する。特定ラウドネスN[b,t]を計算するためのこのような適切な1つの関数は、以下で与えられる。
【数2】
【0034】
ここで、TQ1kHzは、1KHzでの固定の閾値であり、定数βおよびαは、聞き取り実験から収集されるラウドネスデータの増加に適合するように選択する。理論的には、励磁から特定ラウドネスへのこの変換は、以下のような関数Ψ{}で表すことができる。
【数3】
【0035】
最後に、帯域全体にわたる特定ラウドネスを合計して、単位ソーン(sone)で示される全ラウドネスL[t]を計算する。
【数4】
【0036】
特定ラウドネスN[b,t]は、人間が周波数及び時間の関数として音声を知覚する方法をシミュレートするためのスペクトル表現であり、異なる周波数に対する感度の変化、レベルに対する感度の変化、および周波数分解能の変化を捉える。したがって、特定ラウドネスN[b,t]は、聴覚イベントの検出によく適合しているスペクトル表現である。計算がさらに複雑になるが、帯域全体にわたって連続する時間ブロック間のN[b,t]の差異を比較することで、多くの場合、前述のように連続するFFTスペクトルを直接使用するのと比較して、聴覚イベントをより知覚的に正確に検出することが可能になる。
【0037】
前記特許出願には、この心理音響的ラウドネスモデルに基づいて音声を変更する幾つかのアプリケーションが開示されている。この中に、AGCおよびDRCなどの幾つかのダイナミクス処理アルゴリズムがある。開示されているこれらのアルゴリズムには、様々な関連するパラメータを制御するために聴覚イベントを使用することが有効である。特定ラウドネスは既に計算されているため、前記イベントを検出するために簡単に使用可能である。好ましい実施形態の詳細を以下に説明する。
【0038】
(聴覚イベントを用いる音声ダイナミクス処理パラメータ制御)
ここで、本発明の実施形態の2つ実施例を提示する。第1の実施形態では、ゲイン制御が信号パワーの二乗平均平方根(RMS)から得られるダイナミックレンジ制御装置(DRC)のデジタル実施における、リリース時間を制御するための聴覚イベントの使用について記載する。第2の実施形態では、前述の心理音響的ラウドネスモデルの中で実施されるAGCおよびDRCのさらに高度な組み合わせのある形態を制御するための聴覚イベントの使用について記載する。これら2つの実施形態は、もっぱら本発明の実施例として役立つことを意図しており、ダイナミクス処理アルゴリズムのパラメータを制御するために聴覚イベントを使用することは、以下に記載される詳細に限定されないことは言うまでもない。
【0039】
(ダイナミックレンジ制御)
記載されるDRCのデジタル実施は、音声信号x[n]を、窓をかけた半オーバーラップブロックに分割し、各ブロックについて、信号の局所パワーの指標および選択される圧縮曲線に基づいて変更ゲインを計算する。このゲインは、ブロック全体にわたり平滑化され、次いで各ブロック毎に倍加される。最後に、変更されたブロックは重畳加算されて変更音声信号y[n]を生成する。
【0040】
本明細書に記載される聴覚情景分析およびDRCのデジタル実施は、時間領域音声信号をブロックに分割して分析および処理を実施するが、DRC処理はブロック分割を用いて実施する必要はないことに留意するべきである。例えば、聴覚情景分析は、前述のブロック分割およびスペクトル分析を利用して実施してもよく、その結果得られる聴覚イベント位置および特性を利用して、一般にサンプル毎に作動する従来のDRC実施のデジタル実施に制御情報を供給してもよい。しかしながら、ここでは、聴覚情景分析に使用される同一ブロック構造をDRCに利用して、これらの組み合わせの説明を簡単にする。
【0041】
ブロックに基づくDRC実施の説明を進めると、音声信号のオーバーラップブロックは、以下のように表現することができる。
【数5】
【0042】
ここで、Mはブロック長、ホップサイズ(hopsize)はM/2、w[n]は窓、nはブロック内のサンプルインデックス、およびtはブロックインデックスである(ここで、tは方程式1のSTDFTと同様に使用され、例えば、秒ではなくブロックの不連続単位の時間を表す)。理想的には、窓w[n]は、両端部で次第に0に近づき、互いに半オーバーラップする場合には総和が1となる。例えば、一般的に使用されるサイン(sine)窓がこれらの基準を満たす。
【0043】
各ブロックについて、次に、RMSパワーを計算し、以下のような単位dBのパワー指標P[t]をブロック毎に生成することができる。
【数6】
【0044】
先に述べたように、圧力曲線で処理する前に、急速なアタックおよび緩やかなリリースでこのパワー指標を平滑化してもよいが、代替として、瞬時パワーP[t]を処理して得られるゲインを平滑化する。この代替方法では、鋭い折れ点(knee point)を有する単純な圧縮曲線を利用できるが、得られるゲインはパワーがその折れ点を通って移動してもやはり平滑であるという利点がある。ゲインを生成する信号レベルの関数Fとして、図8cに示される圧縮曲線を表すと、ブロックのゲインG[t]は以下のように与えられる。
【数7】
【0045】
【数8】
【0046】
ただし、
【数9】
【0047】
および、
【数10】
【0048】
【数11】
【0049】
なお、方程式4に示されるように、ブロックは、テーパー窓で乗算されているため、先に示した重畳合成によって、処理信号y[n]のサンプル全体についてゲインが効果的に平滑化される。したがって、ゲイン制御信号は、方程式7aに示される平滑化に加えて平滑化される。ブロック毎ではなくサンプル毎に作動するDRCのより従来型の実施では、方程式7aに示される簡単な1極(one-pole)フィルタよりもさらに高性能なゲイン平滑化が、処理信号の可聴歪みを防止するために必要であろう。さらに、ブロックに基づく処理を使用することによって、M/2サンプルの固有の遅延がシステムに導入され、αattackに関連する減衰時間がこの遅延に近い限り、オーバーシュートを防止するために信号x[n]をさらに遅らせてからゲインを適用する必要はない。
【0050】
図9aから図9cは、記載されるDRC処理を音声信号に適用した結果を示す。この特定の実施の場合、M=512のブロック長を44.1kHzのサンプリングレートで使用する。図8bに示されるものと同様な圧縮曲線を使用する。フルスケールデジタルで−20dBより上では信号は5:1の比率で減衰し、−30dB未満では信号は5:1の比率でブーストされる。10msの半減衰時間に対応するアタック係数αattack、および500msの半減衰時間に対応するリリース係数αreleaseを用いてゲインを平滑化する。図9aに示される元の音声信号は、連続する6つのピアノコードから成り、最後のコードは、サンプル1.75×105付近に位置し無音状態まで減衰している。
【0051】
【0052】
これは、信号エネルギが、−30dBと−20dBとの間のDRC曲線が変更を必要としない領域に大部分保持されるためである。しかしながら、最後のコードが弾かれた後、信号エネルギは−30dB未満に低下し、コード音が減衰するに従いゲインが上昇し始め、最終的に15dBを超える。図9cは、得られる変更音声信号を示し、最後のコードのテール部が大幅にブーストされているのが分かる。コードの自然な低レベル減衰音のこのブーストは、聞き取れるほどの非常に不自然な結果を生む。本発明の目的は、従来のダイナミクスプロセッサに関連するこの種の問題を防止することである。
【0053】
図10aから図10cは、全く同じDRCシステムを異なる音声信号に適用した結果を示す。この場合、信号の前半は、高いレベルの速いテンポの楽曲から成り、その後、サンプル10×104付近で、2番目に速いテンポであるが非常に低いレベルの楽曲に信号が切り換わる。図10bのゲインを検証すると、前半にほぼ10dBだけ信号が減衰し、その後、よりソフトな楽曲を演奏している後半にゲインが0dBまで回復する。この場合、ゲインは所望どおりの動きをする。最初の楽曲に対して2番目の楽曲のレベルを上げたいのであれば、聴こえる程度に静かな2番目の楽曲に移った直後にゲインを上げるほうがよい。ゲインの動きは、説明した最初の信号の場合の動きと類似しているのが分かるが、ここではその動きは望ましいものである。したがって、2番目の状態に影響を与えることなく最初の状態を固定したいと考える。聴覚イベントを使用してこのDRCシステムのリリース時間を制御することから、このような解決方法が得られる。
【0054】
図9で検証された最初の信号では、最後のコードの減衰がブーストするのは不自然に見える。コードとその減衰が、インテグリティが維持されると期待される単一の可聴イベントとして認識されるためである。しかしながら、2番目の状態では、ゲインが増加する間に多くの聴覚イベントが発生し、これはいかなる個別イベントに対しても変更がほとんど付与されないことを意味する。したがって、全体的なゲイン変更は好ましくないほどではない。したがって、ゲイン変更は、聴覚イベント境界の時間的近傍においてのみ許容されるべきであると主張することができる。信号がアタックまたはリリースモードにある間にこの原理をゲインに適用してもよいが、ほとんどの実際のDRCの実施では、制御を必要としない人間のイベント知覚の時間分解能と比較して、アタックモードでゲインは非常に急速に動く。したがって、信号がリリースモードにある場合だけイベントを使用してDRCゲインの平滑化を制御してもよい。
【0055】
ここで、リリース制御の適切な動作について説明する。定性的に言えば、イベントが検出されると、方程式7aにおいて前述したように、リリース時定数を用いてゲインが平滑化される。時間が検出されたイベントを過ぎて経過し、次のイベントが検出されない場合、リリース時定数は増加を続け、最終的に平滑化ゲインは定位置に「凍結」される。別のイベントが検出されと、平滑時定数は元の値にリセットされ、このプロセスが繰り返される。リリース時間を変調するため、まず検出されたイベント境界に基づいて制御信号を生成させることができる。
【0056】
前述のように、イベント境界は、音声信号の連続するスペクトルの変化を探すことによって検出することができる。この特定の実施では、以下のように、オーバーラップブロックx[n,t]それぞれのDFTを計算して、音声信号x[n]のSTDFTを生成することができる。
【数12】
【0057】
次に、連続するブロックの正規化された対数マグニチュードスペクトルの差異を以下のように計算することができる。
【数13】
【0058】
ただし、
【数14】
【0059】
ここで、ビンk全体で|X[k,t]|の最大値を正規化に使用する。ただし、他の正規化要素、例えば、ビン全体の|X[k,t]|の平均値を使用してもよい。差異D[t]が閾値Dminを超える場合は、イベントが発生したと見なされる。さらに、最大閾値Dmaxと比較したD[t]の大きさに基づいて、このイベントに強度を0と1の間で割り当てることができる。得られる聴覚イベント強度信号A[t]は、以下のように計算することができる。
【数15】
【0060】
そのイベントに関連するスペクトル変化量に比例する聴覚イベントに強度を割り当てることによって、バイナリイベント決定と比較してダイナミクス処理に関する制御が一層うまく出来るようになる。発明者らは、より大きいゲイン変化が許容できるのはより強力なイベント中であり、方程式11の信号によってこのような可変制御が可能になることが分かった。
【0061】
信号A[t]は、インパルスがイベント境界の位置で発生するインパルス信号である。リリース時間を制御する目的で、イベント境界を検出後信号A[t]が緩やかに0まで減衰するように信号A[t]をさらに平滑化することができる。
【0062】
【数16】
【0063】
【0064】
第1の場合では、6つのピアノコードのそれぞれについてイベント境界が検出され、イベント制御信号が各イベント後に緩やかに0に減衰しているのが分かる。第2の信号では、多くのイベントが時間内に相互に非常に接近して検出されるため、イベント制御信号は完全に0には減衰していない。
【0065】
【0066】
制御信号が1に等しい場合は、方程式7aからの平滑化係数α[t]は、前述のようにαreleaseに等しく、制御信号が0に等しい場合は、係数は平滑化ゲインが変化するのを防止するように1に等しい。平滑化係数は、制御信号を用いてこれら2つの極値の間で以下の数式によって補間される。
【数17】
【0067】
イベント制御信号の関数として平滑化係数を継続的に補間することによって、リリース時間がイベントの開始時点でイベント強度に比例する値にリセットされ、次いで、イベント発生後に緩やかに無限に増加する。この増加の速度は、平滑化されたイベント制御信号を生成するのに使用される係数αeventによって決定される。
【0068】
図9aおよび図10eは、方程式7bからの非イベント制御係数に対して、方程式13からのイベント制御係数でゲインを平滑化する場合の効果を示す。第1の場合では、イベント制御信号が、最後のピアノコードの後で0まで落ち、これによってゲインが上昇するのを防止する。その結果、図9fの対応する変更音声は、コードの減衰が不自然にブーストしてしまうという悪影響を受けない。第2の場合では、イベント制御信号が0に近づくことはなく、そのため、平滑化されたゲイン信号はイベント制御を適用してもほとんど抑制されない。平滑化されたゲインの軌道は、図10bの非イベント制御ゲインの場合とほとんど一致している。これは、まさしく望ましい効果である。
【0069】
(ラウドネスに基づくAGCおよびDRC)
信号変更がピークまたはRMSパワーなどの簡単な信号測定値の一次関数である従来のダイナミクス処理技術の代替として、国際特許出願PCT/US2005/038579号には、ダイナミクス処理を実施するフレームワークとして、前述の心理音響に基づくラウドネスモデルの使用について開示されている。幾つかの利点を引用する。第1に、測定値および変更がソーン単位で規定されており、これはピークまたはRMSパワーなどのもっと基本的な指標よりもラウドネス知覚のさらに厳密な指標である。第2に、元の音声の知覚スペクトルバランスがラウドネス全体が変化しても維持されるように、音声を変更することができる。このように、例えば、音声を変更するために広帯域ゲインを利用するダイナミクスプロセッサと比較して、ラウドネス全体の変化が知覚的に目立たなくなる。最後に、心理音響的モデルは本質的にマルチバンドであり、そのため、広帯域ダイナミクスプロセッサに関連する周知の相互スペクトルポンピング問題を軽減するため、このシステムは、マルチバンドダイナミクス処理を実施するように容易に構成される。
【0070】
このラウドネス領域でダイナミクス処理を実施することは、より従来型のダイナミクス処理よりも既に利点が多いけれども、様々なパラメータを制御するために聴覚イベントを利用することによって、この技術をさらに改良することが可能である。図27aに示されるピアノコードを含む音声セグメント、および図10bおよび図10cに示される関連するDRCについて考える。ラウドネス領域で同様なDRCを実施してもよく、この場合、最後のピアノコードの減衰のラウドネスをブーストしても、そのブーストはそれほど目立たないであろう。これは減衰する音符のスペクトルバランスがブーストしても保持されるためである。しかしながら、さらに良い解決策は、減衰を全くブーストしないことである。したがって、従来のDRCに関して前述したように、ラウドネス領域の聴覚イベントを用いてアタックおよびリリース時間を制御する同様な原理を有利に適用することが可能である。
【0071】
ここで説明するラウドネス領域ダイナミクス処理システムは、AGC、その後のDRCから成る。この組み合わせの目的は、元の音声のダイナミクスの少なくとも一部を維持しながら、全ての処理音声をほぼ同一の知覚ラウドネスにすることである。図11は、このアプリケーション用の適切な1組のAGCおよびDRC曲線を示す。なお、処理はラウドネス領域で実施されるため、両曲線の入出力は単位ソーンで表される。AGC曲線は、出力音声をある目標レベルに近づけようとしており、前述のように、相対的に遅い時定数でこれを実施している。AGCは、長時間の音声ラウドネスを目標値と等しくさせることと考えることができるが、短時間ベースでは、この目標値付近でラウドネスが大きく変動する可能性がある。したがって、より速く作動するDRCを利用して、特定アプリケーションにふさわしいと考えられる一定の範囲にこの変動を制限することが可能である。図11は、AGC目標値がDRCの「適正音量域(null band)」の範囲内に低下するDRC曲線を示し、この曲線の部分は変更を必要としない。この曲線の組み合わせを利用して、高速に作動するDRC変更を適用する必要性が最小になるように、AGCは長時間の音声ラウドネスをDRC曲線の適正音量域範囲内に配置する。短時間のラウドネスが適正音量域外でなお変動する場合は、DRCは、この適正音量域に音声ラウドネスを移動させるように作動する。最後の一般的な注意として、ラウドネスモデルの全ての帯域が同量のラウドネス変更を受けるように低速で作動するAGCを適用し、これによって知覚スペクトルバランスを維持することが可能である。さらに、本来であれば高速に作動する帯域に依存しないラウドネス変更によって発生する可能性のある相互スペクトルポンピングを軽減するため、ラウドネス変更を帯域全体にわたって変化させることができるように高速に作動するDRCを適用することが可能である。
【0072】
聴覚イベントを利用して、AGCとDRCの両方のアタックおよびリリースを制御することが可能である。AGCの場合、アタックおよびリリース時間はともに、イベント知覚の時間分解能と比較して長いので、イベント制御を両方の場合に有利に利用することが可能である。DRCの場合は、アタックが相対的に短時間のため、前述の従来のDRCの場合のようにリリースに対してのみイベント制御が必要となり得る。
【0073】
前述のように、イベント検出のために、使用ラウドネスモデルに関連する特定ラウドネススペクトルを使用することができる。方程式10aおよび10bの差異信号と同様な差異信号D[t]を、方程式2に定義される特定ラウドネスN[b,t]から以下のように計算することができる。
【数18】
【0074】
ただし、
【数19】
【0075】
ここで、周波数帯域b内の|N[b,t]|の最大値を正規化に使用するが、他の正規化要素、例えば、周波数帯域b内の|N[b,t]|の平均値を使用してもよい。差異D[t]が閾値Dminを超える場合、イベントは発生したと見なされる。
【0076】
【0077】
図11に示されるAGC曲線は、ラウドネスの指標をその入力とする関数として表すことができ、以下のように所望の出力ラウドネスを生成することができる。
【数20】
【0078】
DRC曲線は同様に以下のように表すことができる。
【数21】
【0079】
AGCの場合、入力ラウドネスは、音声の長時間のラウドネスの指標である。相対的に長時間の(数秒程度の)時定数を使用して、方程式3に定義される瞬時ラウドネスL[t]を平滑化することによって、この指標を計算することができる。音声セグメントの長時間のラウドネスを判断する際、人間は、音量の小さい部分よりも大きい部分により重点を置き、平滑化においてリリースよりも速いアタックを使用してこの結果をシミュレートすることができる。したがって、アタックとリリースの両方に対してイベント制御を取り入れ、AGC変更を決定するために使用する長時間のラウドネスを以下の数式によって計算することができる。
【数22】
【0080】
ただし、
【数23】
【0081】
さらに、後でマルチバンドDRCに使用することになる、関連する長時間の特定ラウドネススペクトルを以下のように計算することができる。
【数24】
【0082】
実際は、アタック時間がリリース時間のほぼ半分になるように平滑化係数を選択してもよい。次いで、長時間のラウドネス指標を考えると、入力ラウドネスに対する出力ラウドネスの比として、AGCに関連するラウドネス変更スケーリングを以下のように計算することができる。
【数25】
【0083】
ここで、AGCスケーリングの適用後のラウドネスからDRC変更を計算することができる。DRC曲線を適用する前にラウドネスの指標を平滑化する代わりに、瞬時ラウドネスにDRC曲線を適用した後で、得られた変更を平滑化してもよい。これは、従来のDRCゲインを平滑化するための前述の技術と同様である。さらに、マルチバンド方式でDRCを適用することが可能であり、これは、DRC変更が、全ラウドネスL[t]ではなく、各帯域bの特定ラウドネスN[b,t]の関数であることを意味する。しかしながら、元の音声の平均スペクトルバランスを維持するために、各帯域にDRCを適用することによって、得られる変更は、DRCを全ラウドネスに適用することで得られるのと同じ平均効果を有することができる。長時間の特定ラウドネスに対する(AGCスケーリング適用後の)長時間の全ラウドネスの比によって各帯域をスケーリングし、この値を独立変数としてDRC関数に使用することによって、これを実現することができる。次いで、この結果を前記比率で再スケーリングして、出力特定ラウドネスを生成する。したがって、各帯域のDRCスケーリングは、以下の数式によって計算することができる。
【数26】
【0084】
次に、AGCおよびDRC変更を組み合わせて、以下の帯域毎のトータルラウドネススケーリングを形成することができる。
【数27】
【0085】
次に、速いアタックおよび遅いリリース、およびリリースのみに適用されるイベント制御を使用して、各帯域毎に独立して全時間帯でこのトータルスケーリングを平滑化することができる。理想的には、そのデシベル表現で平滑化される従来のDRCのゲインに類似しているスケーリングの対数上で平滑化を実施するが、このことは重要ではない。平滑化されたトータルスケーリングが確実に各帯域の特定ラウドネスと同期して動くようにするために、以下のように、特定ラウドネス自体を同時平滑化することによってアタックおよびリリースモードを決定することができる。
【数28】
【0086】
ただし、
【数29】
【0087】
最後に、元の特定ラウドネスに適用される平滑化スケーリングに基づいて、目標となる特定ラウドネスを以下のように計算することができる。
【数30】
【0088】
次に、以下のようにゲインG[b,t]について解き、これが元の励磁に適用されると目標値と等しい特定ラウドネスになる。
【数31】
【0089】
ゲインは励磁を計算するために使用されるフィルタバンクの各帯域に適用することが可能であり、次いで、フィルタバンクを反転することによって変更音声を生成して、変更時間領域音声信号を生成する。
【0090】
(追加のパラメータ制御)
前述の説明は、処理されている音声の聴覚情景分析によるAGCおよびDRCのアタックおよびリリースパラメータの制御に重点を置いたが、他の重要パラメータにもASA結果によって制御されることによる効果がある。
【0091】
【0092】
(実施)
本発明は、ハードウェアまたはソフトウェア、または両方の組み合わせ(例えば、プログラマブル論理アレイ)で実施することが可能である。別段に規定しない限り、本発明の一部として含まれるアルゴリズムは、いかなる特定のコンピュータまたは他の装置にも本質的に関係しない。特に、様々な汎用装置を、本明細書の教示に従って書かれるプログラムとともに使用することができる。あるいは、必要となる方法ステップを実施するためにさらに特化した装置(例えば、集積回路)を構築する方が便利である。したがって、本発明は、1つ以上のプログラマブルコンピュータシステムであって、それぞれ、少なくとも1つのプロセッサ、少なくとも1つのデータ記憶装置(揮発性および不揮発性メモリおよび/または記憶素子を含む)、少なくとも1つの入力装置またはポート、および少なくとも1つの出力装置またはポートを備えるコンピュータシステム上で実行される1つ以上のコンピュータプログラムで実施することが可能である。プログラムコードは入力データに適用され、本明細書に記載される機能を実施し、出力情報を生成する。この出力情報は、1つ以上の出力装置に周知の方法で適用される。
【0093】
この各プログラムは、コンピュータシステムと通信するために、(マシン、アセンブリ、または高級手続き型、論理、またはオブジェクト指向プログラミング言語を含む)何らかの所望のコンピュータ言語で実施することが可能である。いずれの場合も、言語は、コンパイラ型またはインタープリタ型言語であってよい。
【0094】
この各コンピュータプログラムは、コンピュータシステムが記憶媒体または装置を読み取って、本明細書に記載される手順を実施する場合にコンピュータを設定し作動させるために、記憶媒体または装置(例えば、ソリットステートメモリまたは媒体、または磁気または光媒体)上に保存またはこれにダウンロードされるのが好ましい。本発明システムはまた、コンピュータプログラムで構成されるコンピュータ可読記憶媒体として実施されると見なすこともでき、このように構成される記憶媒体は、特定の予め定義された方法で本明細書に記載される機能を実行するようにコンピュータシステムを作動させる。
【0095】
本発明の幾つかの実施形態を記載した。それでもなお、本発明の趣旨および範囲から逸脱することなく、様々な改変を行うことが可能であるのは言うまでもない。例えば、本明細書に記載されるステップの一部を個別に並び替えてもよく、したがって、記載される順序と異なる順序で実施してもよい。
【0096】
本発明およびその様々な形態の他の変更および改変の実施は、当業者にとっては明白であり、本発明は記載されるこれらの特定の実施形態によって制限されるものではないことは言うまでもない。したがって、本明細書に開示および請求された、根底に横たわる原理の趣旨および範囲に該当するいかなる改変、変更、または等価物も、本発明含まれるものと見なされる。
【0097】
参照による組込み
以下の特許、特許出願および刊行物は、参照することによってそれぞれ本明細書に完全に組み込まれている。
【0098】
(音声ダイナミクス処理)
マイケルタルボットスミス(Michael Talbot−Smith)編集の音響技術者の参考図書(Audio Eigineer’s Reference Book),第2版。リミッタおよびコンプレッサ(Limiters and Compressors)、アランチュットン(Alan Tutton)著,2−1492−165。フォーカルプレス(Focal Press),リードエドケーションアンドプロフェッショナルパブリッシング社(Reed Educational and Professional Publishing,Ltd.),1999年。
【0099】
(聴覚イベントの検出および使用)
米国特許出願公開第2004/0122662号(US2004/0122662A1)として2004年6月24日公開のブレットグラハムクロケット(Brett Graham Crockett)の「High Quality Time−Scaling and Pitch−Scaling of Audio Signals」と題する米国特許出願第10/474,387号。
【0100】
米国特許出願公開第2004/0148159号(US2004/0148159A1)として2004年7月29日公開のブレットグラハムクロケット(Brett G. Crockett)らの「Method for Time Aligning Audio Signals Using Characterization Based on Auditory Events」と題する米国特許出願第10/478,398号。
【0101】
米国特許出願公開第2004/0165730号(US2004/0165730A1)として2004年8月26日公開のブレットグラハムクロケット(Brett G. Crockett)の「Segmenting Audio Signals Into Auditory Events」と題する米国特許出願第10/478,538号。本発明の形態は、クロケット(Crockett)の前記出願で開示されるものに加えて聴覚イベントを検出する方法を提供する。
【0102】
米国特許出願公開第2004/0172240号(US2004/0172240A1)として2004年9月2日公開のブレットグラハムクロケット(Brett G. Crockett)らの「Comparing Audio Using Characterizations Based on Auditory Events」と題する米国特許出願第10/478,397号。
【0103】
国際公開第2006/026161号(WO2006/026161)として2006年3月9日公開のマイケルジョンスミザーズ(Michael John Smithers)の「Method for Combining Audio Signals Using Auditory Analysis」と題する、2005年7月13日出願の特許協力条約に基づく国際出願PCT/US05/24630号。
【0104】
国際公開第2004/111994号(WO2004/111994A2)として2004年12月23日公開のアランジェフリーゼーフェルト(Alan Jeeffey Seefeldt)らの「Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal」と題する、2004年5月27日出願の特許協力条約に基づく国際出願PCT/US2004/016964号。
【0105】
国際公開第2006/047600号として公開のアランジェフリーゼーフェルト(Alan Jeeffey Seefeldt)による「Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal」と題する、2005年10月25日出願の特許協力条約に基づく国際出願PCT/US2005/038579号。
【0106】
ブレットクロケット(Brett Crockett)およびマイケルスミザーズ(Michael Smithers)による「A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis」,オーディオエンジニアリングソサイエティ会議(Audio Engineering Society Convention)論文6416,第118回会議,バルセロナ,2005年5月28〜31日。
【0107】
ブレットクロケット(Brett Crockett)による「High Quiality Multichannel Time Scaling and Pitch−Shifting using Auditory Scene Analysis」,オーディオエンジニアリングソサイエティ会議(Audio Engineering Society Convention)論文5948,ニューヨーク,2003年10月。
【0108】
アランゼーフェルト(Alan Seefeldt)らによる「A New Objective Measure of Perceived Loudness」,オーディオエンジニアリングソサイエティ会議(Audio Engineering Society Convention)論文6236,サンフランシスコ,2004年10月28日。
【0109】
グレンエムバルー(Glen M. Ballou)編集の音響技術者向けハンドブック,新オーディオ事典(The New Audio Cyclopedia),第2版。ダイナミクス,850−851。フォーカルプレス(Focal Press)バターワースハイネマン(Butterworth−Heinemann)のインプリント,1998年。
【0110】
マイケルタルボットスミス(Michael Talbot−Smith)編集の音響技術者の参考図書,第2版,セクション2.9(アランチュットン(Alan Tutton)による「リミッタおよびコンプレッサ(Limiters and Compressors)」),pp.2.149−2.165,フォーカルプレス(Focal Press),リードエドケーションアンドプロフェッショナルパブリッシング社(Reed Educational and Professional Publishing,Ltd.),1999年。
【特許請求の範囲】
【請求項1】
音声信号の時間に対する信号特性の変化を検出するステップと、
前記音声信号の時間に対する信号特性の閾値よりも大きい変化を聴覚イベント境界として特定するステップであって、連続する境界間の音声セグメントが聴覚イベントを構成することを特徴とする、ステップと、
前記聴覚イベントの少なくとも一部に基づいてパラメータ変更制御信号を生成するステップと、
前記パラメータ変更制御信号の関数として前記音声ダイナミクスプロセッサの前記パラメータを変更するステップと、
を具備する音声ダイナミクスプロセッサのパラメータを変更する方法。
【請求項2】
聴覚イベントは、個別かつ明確に認識されやすい音声のセグメントであることを特徴とする請求項1に記載の方法。
【請求項3】
前記信号特性は、前記音声のスペクトル成分を含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記信号特性は、知覚強度を含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記信号特性は、前記音声の知覚ラウドネスを含むことを特徴とする請求項1に記載の方法。
【請求項6】
前記パラメータは、1つ以上の聴覚イベントの有無に少なくとも部分的に応答して、生成されることを特徴とする請求項1に記載の方法。
【請求項7】
請求項1から6のいずれか1項に記載の方法を実施するように構成されることを特徴とする装置。
【請求項8】
コンピュータに請求項7の前記装置を制御させるための、コンピュータ読み取り可能な媒体に保存されることを特徴とするコンピュータプログラム。
【請求項9】
コンピュータに請求項1から6のいずれか1項に記載の方法を実施させるための、コンピュータ読み取り可能な媒体に保存されることを特徴とするコンピュータプログラム。
【請求項1】
音声信号の時間に対する信号特性の変化を検出するステップと、
前記音声信号の時間に対する信号特性の閾値よりも大きい変化を聴覚イベント境界として特定するステップであって、連続する境界間の音声セグメントが聴覚イベントを構成することを特徴とする、ステップと、
前記聴覚イベントの少なくとも一部に基づいてパラメータ変更制御信号を生成するステップと、
前記パラメータ変更制御信号の関数として前記音声ダイナミクスプロセッサの前記パラメータを変更するステップと、
を具備する音声ダイナミクスプロセッサのパラメータを変更する方法。
【請求項2】
聴覚イベントは、個別かつ明確に認識されやすい音声のセグメントであることを特徴とする請求項1に記載の方法。
【請求項3】
前記信号特性は、前記音声のスペクトル成分を含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記信号特性は、知覚強度を含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記信号特性は、前記音声の知覚ラウドネスを含むことを特徴とする請求項1に記載の方法。
【請求項6】
前記パラメータは、1つ以上の聴覚イベントの有無に少なくとも部分的に応答して、生成されることを特徴とする請求項1に記載の方法。
【請求項7】
請求項1から6のいずれか1項に記載の方法を実施するように構成されることを特徴とする装置。
【請求項8】
コンピュータに請求項7の前記装置を制御させるための、コンピュータ読み取り可能な媒体に保存されることを特徴とするコンピュータプログラム。
【請求項9】
コンピュータに請求項1から6のいずれか1項に記載の方法を実施させるための、コンピュータ読み取り可能な媒体に保存されることを特徴とするコンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2011−151811(P2011−151811A)
【公開日】平成23年8月4日(2011.8.4)
【国際特許分類】
【出願番号】特願2011−25711(P2011−25711)
【出願日】平成23年2月9日(2011.2.9)
【分割の表示】特願2009−507694(P2009−507694)の分割
【原出願日】平成19年3月30日(2007.3.30)
【出願人】(591102637)ドルビー・ラボラトリーズ・ライセンシング・コーポレーション (111)
【氏名又は名称原語表記】DOLBY LABORATORIES LICENSING CORPORATION
【Fターム(参考)】
【公開日】平成23年8月4日(2011.8.4)
【国際特許分類】
【出願日】平成23年2月9日(2011.2.9)
【分割の表示】特願2009−507694(P2009−507694)の分割
【原出願日】平成19年3月30日(2007.3.30)
【出願人】(591102637)ドルビー・ラボラトリーズ・ライセンシング・コーポレーション (111)
【氏名又は名称原語表記】DOLBY LABORATORIES LICENSING CORPORATION
【Fターム(参考)】
[ Back to top ]