特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御

【課題】聴覚情景分析の結果を用いて主要な音声ダイナミクス処理パラメータを制御することによって、ダイナミクス処理によって導入される可聴アーティファクトを劇的に低減させる方法を提供する。
【解決手段】聴覚イベントおよび／または前記聴覚イベント境界に関連する信号特性の変化量に少なくとも部分的に応答して、動的ゲイン変更が音声信号に適用される。音声信号の連続する時間ブロック間の特定ラウドネスの差異を比較することによって、音声信号が聴覚イベントに分割される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声処理装置が、音声信号を解析し、音声のレベル、ゲインまたはダイナミックレンジを変化させ、音声ゲインおよびダイナミクス処理の全てのまたは一部のパラメータが聴覚イベントの関数として生成される、音声ダイナミックレンジ制御方法および装置に関する。本発明はまた、この方法を実行する、またはこの装置を制御するコンピュータプログラムに関する。
【０００２】
本発明はまた、聴覚イベントの特定ラウドネスに基づく検出を使用する方法および装置に関する。本発明はまた、この方法を実行する、またはこの装置を制御するコンピュータプログラムに関する。
【背景技術】
【０００３】
（音声のダイナミクス処理）
自動ゲイン制御（ＡＧＣ：automatic gain control）およびダイナミックレンジ制御（ＤＲＣ：dynamic range control）の技術がよく知られており、多くの音声信号経路の共通要素となっている。理論的な意味において、両技術は、ある方法で音声信号のレベルを測定し、その後、測定レベルの関数であるアマウント（amount)によって信号のゲイン変更を行う。線形の１：１ダイナミクス処理システムでは、入力音声は処理されず、出力音声信号が入力音声信号と理想的に一致する。さらに、入力信号の特性を自動的に測定し、その測定値を使用して出力信号を制御する音声ダイナミクス処理システムがある場合、入力信号は６ｄＢだけレベルが増加し、出力信号は処理されて３ｄＢしかレベルが増加しないとすると、出力信号は入力信号に対して２：１の比率で圧縮されたことになる。国際公開第２００６／０４７６００号（アランジェフリーゼーフェルト（ＡｌａｎＪｅｆｆｒｅｙＳｅｅｆｅｌｄｔ）による「ＣａｌｃｕｌａｔｉｎｇａｎｄＡｄｊｕｓｔｉｎｇｔｈｅＰｅｒｃｅｉｖｅｄＬｏｕｄｎｅｓｓａｎｄ／ｏｒｔｈｅＰｅｒｃｅｉｖｅｄＳｐｅｃｔｒａｌＢａｌａｎｃｅｏｆａｎＡｕｄｉｏＳｉｇｎａｌ」）には、音声のダイナミクス処理の５つの基本的種類：圧縮、制限、自動ゲイン制御（ＡＧＣ）、展開、ゲーティングについての詳しい概要が提供されている。
【０００４】
（聴覚イベントおよび聴覚イベント検出）
音声を個別かつ明確に認識されるユニットまたはセグメントに分割することは、「聴覚イベント分析」または「聴覚情景分析」（「ＡＳＡ：auditory scene analysis」）と称される場合があり、そのセグメントは、「聴覚イベント」または「音声イベント」と称される場合がある。聴覚情景分析の広範囲にわたる議論が、アルバートＳブレグマン（ＡｌｂｅｒｔＳ．Ｂｒｅｇｍａｎ）によってその著書、「オーディトリシーンアナラシス−ザパーセプチュアルオーガニゼーションオブサウンド（ＡｕｄｉｔｏｒｙＳｃｅｎｅＡｎａｌｙｓｉｓ−ＴｈｅＰｅｒｃｅｐｔｕａｌＯｒｇａｎｉｚａｔｉｏｎｏｆＳｏｕｎｄ）」，マサチューセッツ工科大学，１９９１年，第４刷，２００１年，エムアイティー・プレス（ＭＩＴＰｒｅｓｓ）ペーパーバック第２版に記載されている。さらに、１９９９年１２月１４日付けでバドカムカール（Ｂｈａｄｋａｍｋａｒ）らに付与された米国特許第６，００２，７７６号は、１９７６年までさかのぼる刊行物を「聴覚情景分析による音声分離に関する先行技術」として挙げている。しかしながら、バドカムカール（Ｂｈａｄｋａｍｋａｒ）らの特許は、聴覚情景分析の実用を阻むものであり、「聴覚情景分析を含む技術は、科学的観点から人間の聴覚処理のモデルとして興味深いが、基礎的な進展がなされるまでは、音声分離のための実用的な技術と考えるには今のところ計算上の難易度および専門性が高過ぎる」と結論付けている。
【０００５】
聴覚イベントを特定するための有用な方法は、クロケット（Ｃｒｏｋｅｔｔ）およびクロケットらによって、後述の表題「参照による組込み」の項に記載される様々な特許出願および文書に記載されている。これらの文書によれば、音声信号は聴覚イベントに分割され、各聴覚イベントは、時間に対するスペクトル組成（周波数の関数としての振幅）の変化を検出することによって個別かつ明確に認識されやすくなっている。これは、例えば、次のようにして実施することができる。音声信号の連続する時間ブロックのスペクトル成分を計算し、音声信号の連続する時間ブロック間の差異を計算し、この連続する時間ブロック間のスペクトル成分の差異が閾値を超える場合に、連続する時間ブロック間の境界として聴覚イベント境界を特定する。あるいは、時間に対する振幅の変化を、時間に対するスペクトル組成の変化の代わりとして、またはそれに追加して計算してもよい。
【０００６】
計算上の難易度が最も低いこの技術の実施では、全周波数帯（全帯域幅の音声）または実質上全周波数帯（実用的な実施では、スペクトルの端部で帯域制限フィルタリングがよく使用される）を解析し、最大音量の音声信号成分に対して最大の重み付けをすることによって、プロセスは音声を時間セグメントに分割する。この方法は、より短い時間スケール（２０ミリ秒（ｍｓ）以下）において、耳が一定の時間に単一の聴覚イベントに集中しがちである心理音響的現象を利用している。これは、複数のイベントが同時に発生している場合、１つの成分が知覚的に最も支配的となりやすく、そのイベントが発生している唯一のイベントであるかのように単独に処理される可能性があることを示している。この効果を利用することによって、聴覚イベント検出が処理されている音声の複雑さにも対応することが可能になる。例えば、処理されている入力音声信号が独奏楽器の場合は、特定される音声イベントは、演奏されている個別の音符であろう。同様に、入力ボイス信号の場合は、スピーチの個別の成分、例えば、母音および子音は、個別の音声要素として特定されるであろう。ドラム音または複数の楽器および声の入っている楽曲など、音声の複雑さが増すにつれて、聴覚イベント検出は、「最も支配的な」（すなわち、最大音量の）音声要素を常に特定する。
【０００７】
計算が複雑にはなるが、全帯域幅ではなく不連続な周波数サブバンド（固定のまたは動的に決定される、あるいは固定のおよび動的に決定されるサブバンド）における、時間に対するスペクトル成分の変化も、プロセスは考慮に入れることが可能である。この代替の方法は、単一の音声ストリームだけが特定時間に知覚可能であるとするのではなく、異なる周波数サブバンドの２つ以上の音声ストリームを考慮に入れている。
【０００８】
聴覚イベント検出は、時間領域音声波形を時間間隔またはブロックに分割し、次いで、ＦＦＴなどのフィルタバンクまたは時間周波数変換を用いて、各ブロックのデータを周波数領域に変換することによって実施することが可能である。振幅変化の影響を取り除くか低減するために、各ブロックのスペクトル成分の振幅を正規化することが可能である。その結果得られる各周波数領域表現は、特定ブロックにおける音声のスペクトル成分の指標となる。連続するブロックのスペクトル成分を比較し、閾値を超える変化を捉えて、聴覚イベントの時間的開始または時間的終了を示すことが可能である。
【０００９】
後述するように、周波数領域を正規化するのが好ましい。周波数領域データの必要とされる正規化の程度が振幅の指標となる。したがって、この変化量が所定の閾値を超えると、これを捕らえてイベント境界を示すことができる。スペクトル変化および振幅変化から得られるイベント開始および終了点は、まとめて論理和がとられ、どちらの種類の変化から得られるイベント境界も特定することができるようにする。
【００１０】
前述のクロケットおよびクロケットらによる出願および論文に記載されている技術は、本発明の形態と関連して特に有用であるが、聴覚イベントおよび聴覚境界を特定する他の技術も本発明の形態で利用することが可能である。
【発明の概要】
【課題を解決するための手段】
【００１１】
従来の先行技術である音声のダイナミクス処理は、音声のゲインを調整して所望の結果を出す時変制御信号によって音声を増幅することを含む。「ゲイン」は、音声振幅を増減させるスケーリングファクタである。この制御信号は、連続的に、または音声データのブロックから生成することができるが、一般に、処理されている音声のある形式の測定によって得られる。またその変化率は、場合によって固定特性や音声のダイナミクスによって異なる特性を有する平滑化フィルタによって決定される。例えば、応答時間は、マグニチュード、すなわち音声のパワーの変化に応じて調整可能である。自動ゲイン制御（ＡＧＣ）およびダイナミックレンジ圧縮（ＤＲＣ：dynamic range compression）などの先行技術の方法では、ゲイン変化を障害として認識することができて、これを可聴アーティファクト（artifact）を付加することなく適用することが可能な時間間隔が、心理音響に基づくどの方法でも評価されていない。したがって、従来の音声ダイナミクスプロセスは、可聴アーティファクトを導入する恐れがあることが多い。すなわち、ダイナミクス処理の影響により、音声に所望しない知覚可能な変化が導入される恐れがある。
【００１２】
聴覚情景分析は、個別の聴覚イベントを知覚的に特定し、各イベントは、２つの連続する聴覚イベント境界の間で発生する。ゲイン変化によって引き起こされる可聴障害は、聴覚イベント内でゲインをさらに一定に近づけるようにすること、および変化の大部分をイベント境界の近傍に限定することによって、大幅に低減させることが可能である。コンプレッサまたはエキスパンダとの関連では、音声レベルの増加（アタックと呼ばれることが多い）に対する応答は速く、聴覚イベントの最小継続時間と同程度かそれよりも短いが、減少（リリースまたはリカバリ）に対する応答はもっと遅いため、一定に見えるはずのまたは次第に減衰しているはずの音声が聞こえるほどに妨害される可能性がある。このような環境下では、次の境界までゲインリカバリを遅らせること、またはイベント中のゲインの変化率を遅くすることが非常に有効である。中期から長期のレベルまたはラウドネスの音声を正規化し、したがって、アタック時間とリリース時間との両方を聴覚イベントの最小継続時間と長く比較することが可能な自動ゲイン制御アプリケーションの場合には、増加するゲインと減少するゲインとの両方について、イベント中に次のイベント境界までゲインの変化を遅らせるか、またはゲインの変化率を遅くすることが有効である。
【００１３】
本発明の一形態によれば、音声処理システムは、音声信号を受信し、音声のゲインおよび／またはダイナミックレンジ特性を解析して変更する。音声のダイナミックレンジ変更は、ダイナミクス処理によって導入される知覚アーティファクトに大きな影響を及ぼすダイナミクス処理システムのパラメータ（アタックおよびリリース時間、圧縮率など）によって制御されることが多い。音声信号の時間に対する信号特性の変化を検出し、聴覚イベント境界として特定する。その結果、連続する境界間の音声セグメントが音声信号の聴覚イベントを構成する。対象となる聴覚イベントの特性は、知覚強度または継続時間などのイベントの特性を含んでもよい。前記１つ以上のダイナミクス処理パラメータの一部は、聴覚イベントおよび／または前記聴覚イベント境界に関連する信号特性の変化量に少なくとも部分的に応答して生成される。
【００１４】
一般に、聴覚イベントは、個別かつ明確に認識されやすい音声のセグメントである。信号特性の１つの有用な指標は、例えば、引用されるクロケットおよびクロケットらの文書に記載されているように、音声のスペクトル成分の指標を含む。１つ以上の音声ダイナミクス処理パラメータの全てまたは一部は、１つ以上の聴覚イベントの特性の有無に少なくとも部分的に応答して生成することが可能である。聴覚イベント境界は、閾値を超える時間に対する信号特性の変化として特定することが可能である。あるいは、１つ以上のパラメータの全てまたは一部は、前記聴覚イベント境界に関連する信号特性の変化量の連続する指標に少なくとも部分的に応答して生成することが可能である。原理上は、本発明の形態は、アナログおよび／またはデジタル領域で実施することが可能であるが、実際の実施は、各音声信号が個別サンプルまたはデータブロック内のサンプルによって表現されるデジタル領域で行われるようである。この場合、信号特性は、ブロック内の音声のスペクトル成分であってもよく、時間に対する信号特性の変化の検出は、ブロック毎の音声のスペクトル成分の変化の検出であってもよく、また聴覚イベントの時間的開始および終了の境界はそれぞれデータブロックの境界と一致している。サンプル単位ベースで動的ゲイン変更を実施するさらに従来の事例では、記載される聴覚情景分析をブロックベースで実施してもよく、その結果得られる聴覚イベント情報を使用して、サンプル毎に適用される動的ゲイン変更を実施してもよいことに留意すべきである。
【００１５】
聴覚情景分析の結果を用いて主要な音声ダイナミクス処理パラメータを制御することによって、ダイナミクス処理によって導入される可聴アーティファクトを劇的に低減させることが可能である。
【００１６】
本発明は、聴覚情景分析を実施する２つの方法を提示している。第１の方法は、スペクトル分析を実施し、スペクトル成分の変化を特定することによって動的ゲインパラメータを制御するために使用される知覚可能な音声イベントの位置を特定する。第２の方法は、音声を（第１の方法よりもより心理音響的に関連情報を提供することができる）知覚ラウドネス領域に変換し、動的ゲインパラメータを制御するためにその後使用される聴覚イベントの位置を特定する。第２の方法では、音声処理が絶対音響再生レベルを認識していることが必要であり、これは実施によっては不可能な場合があることに留意すべきである。聴覚情景分析の２つの方法を提示することによって、絶対再生レベルを考慮に入れるように校正されるかどうか分からないプロセスまたは装置を使用して、ＡＳＡ制御動的ゲイン変更を実施することが可能になる。
【００１７】
他の発明の形態を含む音声ダイナミクス処理環境における本発明の形態が、本明細書に記載されている。かかる他の発明は、本明細書で特定される本出願の所有者である、ドルビー・ラボラトリーズ・ライセンシング・コーポレーション（Dolby Laboratories Licensing Corporation）の様々な係属中米国および国際特許出願に記載されている。
【図面の簡単な説明】
【００１８】
【図１】聴覚情景分析を実施するためのプロセスステップの実施例を示すフローチャートである。
【図２】聴覚情景分析を実施している間に音声に対して処理を施し、窓をかけ、ＤＦＴを実施するブロックの実施例を示す図である。
【図３】音声を使用して聴覚イベントを特定するとともに聴覚イベントの特性を特定し、そのイベントおよび特性を使用してダイナミクス処理パラメータを変更する平行処理を示す、フローチャートまたは機能ブロック図の性質を帯びるものである。
【図４】音声を使用して聴覚イベントの特定のみを行い、その音声イベント検出からイベント特性が決定され、そのイベントおよび特性を使用してダイナミクス処理パラメータを変更する処理を示す、フローチャートまたは機能ブロック図の性質を帯びるものである。
【図５】音声を使用して聴覚イベントの特定のみを行い、その音声イベント検出からイベント特性が決定され、その聴覚イベントの特性のみを使用してダイナミクス処理パラメータを変更する処理を示す、フローチャートまたは機能ブロック図の性質を帯びるものである。
【図６】ＥＲＢ尺度による臨界帯域を近似する一連の理想的な聴覚フィルタ特性応答を示す図である。横軸目盛は周波数（単位：ヘルツ）、および縦軸目盛はレベル（単位：デシベル）である。
【図７】ＩＳＯ２２６の等ラウドネス曲線を示す図である。横軸目盛は周波数（単位：ヘルツ、対数ベース１０尺度）、および縦軸目盛は音圧レベル（単位：デシベル）である。
【図８】音声ダイナミックレンジコンプレッサの理想的な入／出力特性および入力ゲイン特性を示す図である。
【図９】信号パワーの二乗平均平方根（ＲＭＳ：Root Mean Square）からゲイン制御が得られる従来のダイナミックレンジ制御装置（ＤＲＣ：Dynamic Range Controller）のデジタル実施において、リリース時間を制御するために聴覚イベントを使用する実施例を示す図である。
【図１０】図９で使用される信号に対する代替信号の信号パワーの二乗平均平方根（ＲＭＳ）からゲイン制御が得られる従来のダイナミックレンジ制御装置（ＤＲＣ）のデジタル実施において、リリース時間を制御するために聴覚イベントを使用する実施例を示す図である。
【図１１】ラウドネス領域ダイナミクス処理システムにおいてＡＧＣの後にＤＲＣを適用する場合の一組の理想的なＡＧＣおよびＤＲＣ曲線を示す図である。この組み合わせの目的は、元の音声のダイナミクスの少なくとも一部を依然として維持しながらも、処理後の全ての音声をほぼ同一の知覚ラウドネスにすることである。
【発明を実施するための形態】
【００１９】
（聴覚情景分析（元の非ラウドネス領域方法））
本発明の一形態の実施形態によれば、聴覚情景分析は、図１の部分に示されるような４つの一般的な処理ステップから構成することができる。第１ステップ１−１（「スペクトル分析を実施する」）は、時間領域音声信号を取得し、それをブロックに分割し、各ブロックについてスペクトルプロファイルまたはスペクトル成分を計算する。スペクトル分析によって、音声信号は短時間の周波数領域に変換される。これは、トランスフォームフィルタまたはバンドパスフィルタのバンクに基づいて、および（人間の耳の特性により近いＢａｒｋ尺度または臨界帯域などの）線形またはワープ周波数空間において、任意のフィルタバンクを使用して実施することができる。任意のフィルタバンクを使用する場合は、時間と周波数との間にトレードオフが存在する。時間分解能を上げる、したがって時間間隔を短くするほど、周波数分解能が下がる。周波数分解能をあげる、したがってサブバンドを狭くするほど、時間間隔は長くなる。
【００２０】
図１に概念的に示される第１のステップは、音声信号の連続する時間セグメントのスペクトル成分を計算する。実際の実施形態では、ＡＳＡのブロックサイズは、いかなるサンプル数の入力音声信号であってもよいが、５１２サンプルであれば時間および周波数分解能の良好なトレードオフが得られる。第２のステップ１−２では、ブロック毎のスペクトル成分の差異を決定する（「スペクトルプロファイルの差異測定を実施する」）。したがって、第２のステップは、音声信号の連続する時間セグメント間のスペクトル成分の差異を計算する。前述のように、知覚される聴覚イベントの開始及び終了の強力な指標が、スペクトル成分の変化であると考えられる。第３のステップ１−３（「聴覚イベント境界の位置を特定する」）では、１つのスペクトルプロファイルブロックと次のブロックとの間のスペクトルの差異が閾値よりも大きい場合、そのブロック境界を聴覚イベント境界とする。連続する境界間の音声セグメントは、聴覚イベントを構成する。したがって、第３のステップは、この連続する時間セグメント間のスペクトルプロファイル成分の差が閾値を超える場合、連続する時間セグメント間の聴覚イベント境界を設定し、聴覚イベントを定義する。この実施形態では、聴覚イベント境界は、１つのスペクトルプロファイルブロック（この実施例では５１２サンプル）の長さが最小であるスペクトルプロファイルブロックの整数倍の長さを有する聴覚イベントを定義する。理論上は、イベント境界をこの様に制限する必要はない。本明細書で説明される実際の実施形態に対する代替として、入力ブロックサイズが、例えば、本質的に聴覚イベントのサイズになるように変化してもよい。
【００２１】
イベント境界の特定に続いて、ステップ１−４に示されるように、聴覚イベントの特性を特定する。
【００２２】
音声のオーバーラップまたは非オーバーラップセグメントに窓をかけて使用し、入力音声のスペクトルプロファイルを計算する。オーバーラップによって聴覚イベントの位置に関するより細かい分解能が得られ、また短いトランジェントなどのイベントを逃す可能性が低くなる。しかしながら、オーバーラップにより計算が複雑にもなる。したがって、オーバーラップは省略してもよい。図２は、窓をかけて離散フーリエ変換（ＤＦＴ：Discrete Fourier Transform）によって周波数領域に変換しているＮサンプルの非オーバーラップブロックの概念表現を示す。各ブロックは、窓をかけ、好ましくは、高速化のため高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）として実施されるＤＦＴを使用するなどして周波数領域に変換する。
【００２３】
以下の変数を使用して、入力ブロックのスペクトルプロファイルを計算することができる。
【００２４】
Ｍ＝スペクトルプロファイルを計算するために使用されるブロックの窓をかけたサンプル数
Ｐ＝スペクトル計算オーバーラップのサンプル数
一般に、いかなる整数を上記変数に使用してもよい。しかしながら、スペクトルプロファイル計算に標準ＦＦＴが使用できるようにＭを２の累乗とすると、実施がより効率的になるであろう。聴覚情景分析プロセスの実際の実施形態では、記載されるパラメータは、以下のように設定することができる。
【００２５】
Ｍ＝５１２サンプル（または４４．１ｋＨｚで１１．６ｍｓ）
Ｐ＝０サンプル（オーバーラップなし）
上記の値は、実験的に決定されたものであり、一般に、聴覚イベントの位置および継続時間を充分な精度で特定することが分かっている。しかしながら、Ｐを０サンプル（オーバーラップなし）でなく２５６サンプル（５０％オーバーラップ）に設定しても、何らかの見つけにくいイベントを特定する際に有用であることが分かった。多くの異なる種類の窓を使用して窓をかけることによって生じるスペクトルアーティファクトを最小限に抑えることが可能であるが、スペクトルプロファイルの計算で使用される窓は、Ｍ点ハニング（M-point Hanning）、カイザーベッセル（Kaiser-Bessel)、または他の適切な、好ましくは非長方形の窓である。詳しい実験的分析を行った後、上記の値およびハニング窓の１種を選択した。これらが音声材料の広範囲にわたり優れた結果をもたらすことを示したためである。主に低周波数成分を有する音声信号の処理には、非長方形窓をかけるのが好ましい。長方形窓は、スペクトルアーティファクトを生じさせ、これにより誤ったイベント検出を行う可能性がある。オーバーラップ／追加プロセス全体が一定のレベルを提供する必要がある特定の符号器／復号器（符号復号器）アプリケーションとは異なり、ここではこのような制限は適用されず、その時間／周波数分解能および帯域外除去などの特性によって窓を選択することが可能である。
【００２６】
ステップ１−１（図１）では、Ｍ点ハニング、カイザーベッセル、または他の適切な窓を用いてデータに窓をかけ、Ｍ点高速フーリエ変換を用いて周波数領域に変換し、複雑なＦＦＴ係数のマグニチュードを計算することによって、各Ｍサンプルブロックのスペクトルを計算することが可能である。その結果得られるデータを正規化して、最大マグニチュードを１に設定し、個数Ｍの正規化配列を対数領域に変換する。データはまた、音声の平均マグニチュード値または平均パワー値などの他の何らかの測定基準によって正規化してもよい。配列を対数領域に変換する必要はないが、この変換によってステップ１−２における差の指標の計算が簡単になる。さらに、対数領域は、人間の聴覚システムの性質と一層厳密に一致している。得られる対数領域値は、負の無限大からゼロの範囲を有する。実際の実施形態では、値の範囲に下限を設けてもよい。すなわち、その限度は、例えば、−６０ｄＢに固定してもよく、低周波および超短波の可聴域下限付近の静音を反映するように周波数に依存してもよい。（なお、ＦＦＴが負振動および正振動を示す場合には、配列のサイズをＭ／２に縮小することも可能であろう。）
ステップ１−２は、隣接するブロックのスペクトル間の差の指標を計算する。各ブロックについて、ステップ１−１からのＭ個の（対数）スペクトル係数をそれぞれ前のブロックの対応する係数から引いて、差異のマグニチュードを計算する（符号は無視する）。次いで、これらＭ個の差を合計して１つの数値にする。この差の指標を合計に使用したスペクトル係数の数（この場合はＭ個の係数）で割って、この差の指標をスペクトル係数当たりの平均差として表現することもできる。
【００２７】
ステップ１−３は、ステップ１−２からの差の指標の配列に閾値を用いて限界を適用することによって、聴覚イベント境界の位置を特定する。差の指標が閾値を超える場合は、スペクトルの変化は、新規のイベントを示すのに充分であると見なされ、変化したブロック数をイベント境界として記録する。上記で与えられるＭおよびＰの値、および（ステップ１−１で）単位ｄＢで示される対数領域値に対し、（鏡映部を含む）ＦＦＴの全マグニチュードを比較する場合は閾値を２５００とし、ＦＦＴの半分を比較する場合には閾値を１２５０としてもよい（前述したように、ＦＦＴが負振動および正振動を示す場合、ＦＦＴのマグニチュードは、一方が他方の鏡像である）。この値は、実験的に選択されたものであり、良好な聴覚イベント境界検出を提供する。このパラメータ値を変更してイベントの検出を緩和したり（閾値を上げる）、強化したり（閾値を下げる）することが可能である。
【００２８】
図１のプロセスは、図３、図４および図５の同等な処理によってより一般的に示すことができる。図３では、「聴覚イベントを特定する」機能、すなわち、音声信号を聴覚イベントに分割し、各聴覚イベントは個別かつ明確に認識されやすいステップ３−１と、任意の「聴覚イベントの特性を特定する」機能、すなわちステップ３−２とに、音声信号が平行して印加される。図１のプロセスを利用して、音声信号を聴覚イベントに分割してその特性を特定するか、または他の何らかのプロセスを利用してもよい。次いで、機能、すなわちステップ３−１によって決定される、聴覚イベント境界の特定であってもよい、聴覚イベント情報を使用して、「ダイナミクスパラメータを変更する」機能、すなわちステップ３−３によって、（アタック、リリース、率などの）音声ダイナミクス処理パラメータを要望どおりに変更する。任意の「特性を特定する」機能、すなわちステップ３−３も聴覚イベント情報を受け取る。「特性を特定する」機能、すなわちステップ３−３は、１つ以上の特性によって聴覚イベントの一部または全てを特徴付けることができる。この特性は、図１のプロセスに関連して説明したように、聴覚イベントの主要なサブバンドの特定を含んでもよい。この特性はまた、例えば、聴覚イベントのパワーの指標、聴覚イベントの振幅の指標、聴覚イベントのスペクトル平滑度の指標、および聴覚イベントが実質的に無音かどうか、あるいは処理の負の可聴アーティファクトを低減させるか除去できるようにダイナミクスパラメータを変更するのに役立つ他の特性を含む、１つ以上の音声特性を含んでもよい。この特性はまた、聴覚イベントがトランジェントを含むかどうかなどの他の特性を含んでもよい。
【００２９】
図３の処理の代替例が、図４および図５に示される。図４では、音声入力信号は、「特性を特定する」機能、すなわちステップ４−３に直接印加されないが、ステップ４−３は、「聴覚イベントを特定する」機能、すなわちステップ４−１から情報を受け取る。図１の処理は、この処理の具体例である。図５では、機能、すなわちステップ５−１、５−２および５−３は、連続して配置される。
【００３０】
この実際の実施形態の詳細は、重要ではない。音声信号の連続する時間セグメントのスペクトル成分を計算し、連続する時間セグメント間の差異を計算し、この連続する時間セグメント間のスペクトルプロファイル成分の差異が閾値を超える場合に連続する時間セグメント間の各境界に聴覚イベント境界を設定する、他の方法を利用してもよい。
【００３１】
（聴覚情景分析（新しいラウドネス領域方法））
アランジェフリーゼーフェルト（ＡｌａｎＪｅｆｆｒｅｙＳｅｅｆｅｌｄｔ）による「ＣａｌｃｕｌａｔｉｎｇａｎｄＡｄｊｕｓｔｉｎｇｔｈｅＰｅｒｃｅｉｖｅｄＬｏｕｄｎｅｓｓａｎｄ／ｏｒｔｈｅＰｅｒｃｅｉｖｅｄＳｐｅｃｔｒａｌＢａｌａｎｃｅｏｆａｎＡｕｄｉｏＳｉｇｎａｌ」と題する国際公開第２００６／０４７６００号として発行されている、２００５年１０月２５日出願の特許協力条約に基づく国際出願ＰＣＴ／ＵＳ２００５／０３８５７９号には、特に、心理音響的モデルに基づく知覚ラウドネスの客観的評価について開示されている。前記出願は、参照することによって本明細書に完全に組み込まれているものとする。前記出願に記載されるように、音声信号ｘ［ｎ］から、時間ブロックｔにおける臨界帯域ｂの内耳の基底膜に沿ったエネルギ分布を近似する励磁信号Ｅ［ｂ，ｔ］を計算する。この励磁は、以下のような音声信号の短時間離散フーリエ変換（ＳＴＤＦＴ：Short-time Discrete Fourier Transform）から計算することができる。
【数１】

【００３２】
ここで、Ｘ［ｋ，ｔ］は、時間ブロックｔおよびビン（bin）kにおけるｘ［ｎ］のＳＴＤＦＴを示す。なお、方程式１において、ｔは、秒などの連続する指標ではなくてトランスフォームブロックの不連続単位を有する時間を示す。Ｔ［ｋ］は、外耳および中耳を通過する音声の伝達をシミュレートするフィルタの周波数応答を示し、Ｃ_ｂ［ｋ］は、臨界帯域ｂに相当する位置の基底膜の周波数応答を示す。図６は、適切な一連の臨界帯域フィルタ応答を示し、ここでは、ムーア（Ｍｏｏｒｅ）およびグラスベルグ（Ｇｌａｓｂｅｒｇ）によって定義されるように、等価矩形帯域幅（ＥＲＢ：Equivalent Rectangular Bandwidth）尺度に従って４０の帯域が不均一に間隔を置いて配置されている。各フィルタの形状は、指数関数曲線で示され、帯域は１ＥＲＢの間隔を用いて分散されている。最後に、方程式１の平滑時定数（smoothing time constant）λ_ｂは、帯域ｂ内の人間のラウドネス知覚の積分時間に比例して有利に選択することが可能である。
【００３３】
図７に示されるものなどの等ラウドネス曲線を用いて、各帯域の励磁を、１ｋＨｚで同一知覚ラウドネスを生成する励磁レベルに変換する。次いで、変換後の励磁Ｅ_１ｋＨｚ［ｂ，ｔ］から、周波数および時間全体にわたって分散される知覚ラウドネスの指標である特定ラウドネスを、圧縮非線形を通して計算する。特定ラウドネスＮ［ｂ，ｔ］を計算するためのこのような適切な１つの関数は、以下で与えられる。
【数２】

【００３４】
ここで、ＴＱ_１ｋＨｚは、１ＫＨｚでの固定の閾値であり、定数βおよびαは、聞き取り実験から収集されるラウドネスデータの増加に適合するように選択する。理論的には、励磁から特定ラウドネスへのこの変換は、以下のような関数Ψ｛｝で表すことができる。
【数３】

【００３５】
最後に、帯域全体にわたる特定ラウドネスを合計して、単位ソーン（sone）で示される全ラウドネスＬ［ｔ］を計算する。
【数４】

【００３６】
特定ラウドネスＮ［ｂ，ｔ］は、人間が周波数及び時間の関数として音声を知覚する方法をシミュレートするためのスペクトル表現であり、異なる周波数に対する感度の変化、レベルに対する感度の変化、および周波数分解能の変化を捉える。したがって、特定ラウドネスＮ［ｂ，ｔ］は、聴覚イベントの検出によく適合しているスペクトル表現である。計算がさらに複雑になるが、帯域全体にわたって連続する時間ブロック間のＮ［ｂ，ｔ］の差異を比較することで、多くの場合、前述のように連続するＦＦＴスペクトルを直接使用するのと比較して、聴覚イベントをより知覚的に正確に検出することが可能になる。
【００３７】
前記特許出願には、この心理音響的ラウドネスモデルに基づいて音声を変更する幾つかのアプリケーションが開示されている。この中に、ＡＧＣおよびＤＲＣなどの幾つかのダイナミクス処理アルゴリズムがある。開示されているこれらのアルゴリズムには、様々な関連するパラメータを制御するために聴覚イベントを使用することが有効である。特定ラウドネスは既に計算されているため、前記イベントを検出するために簡単に使用可能である。好ましい実施形態の詳細を以下に説明する。
【００３８】
（聴覚イベントを用いる音声ダイナミクス処理パラメータ制御）
ここで、本発明の実施形態の２つ実施例を提示する。第１の実施形態では、ゲイン制御が信号パワーの二乗平均平方根（ＲＭＳ）から得られるダイナミックレンジ制御装置（ＤＲＣ）のデジタル実施における、リリース時間を制御するための聴覚イベントの使用について記載する。第２の実施形態では、前述の心理音響的ラウドネスモデルの中で実施されるＡＧＣおよびＤＲＣのさらに高度な組み合わせのある形態を制御するための聴覚イベントの使用について記載する。これら２つの実施形態は、もっぱら本発明の実施例として役立つことを意図しており、ダイナミクス処理アルゴリズムのパラメータを制御するために聴覚イベントを使用することは、以下に記載される詳細に限定されないことは言うまでもない。
【００３９】
（ダイナミックレンジ制御）
記載されるＤＲＣのデジタル実施は、音声信号ｘ［ｎ］を、窓をかけた半オーバーラップブロックに分割し、各ブロックについて、信号の局所パワーの指標および選択される圧縮曲線に基づいて変更ゲインを計算する。このゲインは、ブロック全体にわたり平滑化され、次いで各ブロック毎に倍加される。最後に、変更されたブロックは重畳加算されて変更音声信号ｙ［ｎ］を生成する。
【００４０】
本明細書に記載される聴覚情景分析およびＤＲＣのデジタル実施は、時間領域音声信号をブロックに分割して分析および処理を実施するが、ＤＲＣ処理はブロック分割を用いて実施する必要はないことに留意するべきである。例えば、聴覚情景分析は、前述のブロック分割およびスペクトル分析を利用して実施してもよく、その結果得られる聴覚イベント位置および特性を利用して、一般にサンプル毎に作動する従来のＤＲＣ実施のデジタル実施に制御情報を供給してもよい。しかしながら、ここでは、聴覚情景分析に使用される同一ブロック構造をＤＲＣに利用して、これらの組み合わせの説明を簡単にする。
【００４１】
ブロックに基づくＤＲＣ実施の説明を進めると、音声信号のオーバーラップブロックは、以下のように表現することができる。
【数５】

【００４２】
ここで、Ｍはブロック長、ホップサイズ（hopsize）はＭ／２、ｗ［ｎ］は窓、ｎはブロック内のサンプルインデックス、およびtはブロックインデックスである（ここで、ｔは方程式１のＳＴＤＦＴと同様に使用され、例えば、秒ではなくブロックの不連続単位の時間を表す）。理想的には、窓ｗ［ｎ］は、両端部で次第に０に近づき、互いに半オーバーラップする場合には総和が１となる。例えば、一般的に使用されるサイン（sine)窓がこれらの基準を満たす。
【００４３】
各ブロックについて、次に、ＲＭＳパワーを計算し、以下のような単位ｄＢのパワー指標Ｐ［ｔ］をブロック毎に生成することができる。
【数６】

【００４４】
先に述べたように、圧力曲線で処理する前に、急速なアタックおよび緩やかなリリースでこのパワー指標を平滑化してもよいが、代替として、瞬時パワーＰ［ｔ］を処理して得られるゲインを平滑化する。この代替方法では、鋭い折れ点（knee point）を有する単純な圧縮曲線を利用できるが、得られるゲインはパワーがその折れ点を通って移動してもやはり平滑であるという利点がある。ゲインを生成する信号レベルの関数Ｆとして、図８ｃに示される圧縮曲線を表すと、ブロックのゲインＧ［ｔ］は以下のように与えられる。
【数７】

【００４５】

【数８】

【００４６】
ただし、
【数９】

【００４７】
および、
【数１０】

【００４８】

【数１１】

【００４９】
なお、方程式４に示されるように、ブロックは、テーパー窓で乗算されているため、先に示した重畳合成によって、処理信号ｙ［ｎ］のサンプル全体についてゲインが効果的に平滑化される。したがって、ゲイン制御信号は、方程式７ａに示される平滑化に加えて平滑化される。ブロック毎ではなくサンプル毎に作動するＤＲＣのより従来型の実施では、方程式７ａに示される簡単な１極（one-pole)フィルタよりもさらに高性能なゲイン平滑化が、処理信号の可聴歪みを防止するために必要であろう。さらに、ブロックに基づく処理を使用することによって、Ｍ／２サンプルの固有の遅延がシステムに導入され、α_{ａｔｔａｃｋ}に関連する減衰時間がこの遅延に近い限り、オーバーシュートを防止するために信号ｘ［ｎ］をさらに遅らせてからゲインを適用する必要はない。
【００５０】
図９ａから図９ｃは、記載されるＤＲＣ処理を音声信号に適用した結果を示す。この特定の実施の場合、Ｍ＝５１２のブロック長を４４．１ｋＨｚのサンプリングレートで使用する。図８ｂに示されるものと同様な圧縮曲線を使用する。フルスケールデジタルで−２０ｄＢより上では信号は５：１の比率で減衰し、−３０ｄＢ未満では信号は５：１の比率でブーストされる。１０ｍｓの半減衰時間に対応するアタック係数α_{ａｔｔａｃｋ}、および５００ｍｓの半減衰時間に対応するリリース係数α_{ｒｅｌｅａｓｅ}を用いてゲインを平滑化する。図９ａに示される元の音声信号は、連続する６つのピアノコードから成り、最後のコードは、サンプル１．７５×１０^５付近に位置し無音状態まで減衰している。
【００５１】

【００５２】
これは、信号エネルギが、−３０ｄＢと−２０ｄＢとの間のＤＲＣ曲線が変更を必要としない領域に大部分保持されるためである。しかしながら、最後のコードが弾かれた後、信号エネルギは−３０ｄＢ未満に低下し、コード音が減衰するに従いゲインが上昇し始め、最終的に１５ｄＢを超える。図９ｃは、得られる変更音声信号を示し、最後のコードのテール部が大幅にブーストされているのが分かる。コードの自然な低レベル減衰音のこのブーストは、聞き取れるほどの非常に不自然な結果を生む。本発明の目的は、従来のダイナミクスプロセッサに関連するこの種の問題を防止することである。
【００５３】
図１０ａから図１０ｃは、全く同じＤＲＣシステムを異なる音声信号に適用した結果を示す。この場合、信号の前半は、高いレベルの速いテンポの楽曲から成り、その後、サンプル１０×１０^４付近で、２番目に速いテンポであるが非常に低いレベルの楽曲に信号が切り換わる。図１０ｂのゲインを検証すると、前半にほぼ１０ｄＢだけ信号が減衰し、その後、よりソフトな楽曲を演奏している後半にゲインが０ｄＢまで回復する。この場合、ゲインは所望どおりの動きをする。最初の楽曲に対して２番目の楽曲のレベルを上げたいのであれば、聴こえる程度に静かな２番目の楽曲に移った直後にゲインを上げるほうがよい。ゲインの動きは、説明した最初の信号の場合の動きと類似しているのが分かるが、ここではその動きは望ましいものである。したがって、２番目の状態に影響を与えることなく最初の状態を固定したいと考える。聴覚イベントを使用してこのＤＲＣシステムのリリース時間を制御することから、このような解決方法が得られる。
【００５４】
図９で検証された最初の信号では、最後のコードの減衰がブーストするのは不自然に見える。コードとその減衰が、インテグリティが維持されると期待される単一の可聴イベントとして認識されるためである。しかしながら、２番目の状態では、ゲインが増加する間に多くの聴覚イベントが発生し、これはいかなる個別イベントに対しても変更がほとんど付与されないことを意味する。したがって、全体的なゲイン変更は好ましくないほどではない。したがって、ゲイン変更は、聴覚イベント境界の時間的近傍においてのみ許容されるべきであると主張することができる。信号がアタックまたはリリースモードにある間にこの原理をゲインに適用してもよいが、ほとんどの実際のＤＲＣの実施では、制御を必要としない人間のイベント知覚の時間分解能と比較して、アタックモードでゲインは非常に急速に動く。したがって、信号がリリースモードにある場合だけイベントを使用してＤＲＣゲインの平滑化を制御してもよい。
【００５５】
ここで、リリース制御の適切な動作について説明する。定性的に言えば、イベントが検出されると、方程式７ａにおいて前述したように、リリース時定数を用いてゲインが平滑化される。時間が検出されたイベントを過ぎて経過し、次のイベントが検出されない場合、リリース時定数は増加を続け、最終的に平滑化ゲインは定位置に「凍結」される。別のイベントが検出されと、平滑時定数は元の値にリセットされ、このプロセスが繰り返される。リリース時間を変調するため、まず検出されたイベント境界に基づいて制御信号を生成させることができる。
【００５６】
前述のように、イベント境界は、音声信号の連続するスペクトルの変化を探すことによって検出することができる。この特定の実施では、以下のように、オーバーラップブロックｘ［ｎ，ｔ］それぞれのＤＦＴを計算して、音声信号ｘ［ｎ］のＳＴＤＦＴを生成することができる。
【数１２】

【００５７】
次に、連続するブロックの正規化された対数マグニチュードスペクトルの差異を以下のように計算することができる。
【数１３】

【００５８】
ただし、
【数１４】

【００５９】
ここで、ビンｋ全体で｜Ｘ［ｋ，ｔ］｜の最大値を正規化に使用する。ただし、他の正規化要素、例えば、ビン全体の｜Ｘ［ｋ，ｔ］｜の平均値を使用してもよい。差異Ｄ［ｔ］が閾値Ｄ_ｍｉｎを超える場合は、イベントが発生したと見なされる。さらに、最大閾値Ｄｍａｘと比較したＤ［ｔ］の大きさに基づいて、このイベントに強度を０と１の間で割り当てることができる。得られる聴覚イベント強度信号Ａ［ｔ］は、以下のように計算することができる。
【数１５】

【００６０】
そのイベントに関連するスペクトル変化量に比例する聴覚イベントに強度を割り当てることによって、バイナリイベント決定と比較してダイナミクス処理に関する制御が一層うまく出来るようになる。発明者らは、より大きいゲイン変化が許容できるのはより強力なイベント中であり、方程式１１の信号によってこのような可変制御が可能になることが分かった。
【００６１】
信号Ａ［ｔ］は、インパルスがイベント境界の位置で発生するインパルス信号である。リリース時間を制御する目的で、イベント境界を検出後信号Ａ［ｔ］が緩やかに０まで減衰するように信号Ａ［ｔ］をさらに平滑化することができる。
【００６２】

【数１６】

【００６３】

【００６４】
第１の場合では、６つのピアノコードのそれぞれについてイベント境界が検出され、イベント制御信号が各イベント後に緩やかに０に減衰しているのが分かる。第２の信号では、多くのイベントが時間内に相互に非常に接近して検出されるため、イベント制御信号は完全に０には減衰していない。
【００６５】

【００６６】
制御信号が１に等しい場合は、方程式７ａからの平滑化係数α［ｔ］は、前述のようにα_{ｒｅｌｅａｓｅ}に等しく、制御信号が０に等しい場合は、係数は平滑化ゲインが変化するのを防止するように１に等しい。平滑化係数は、制御信号を用いてこれら２つの極値の間で以下の数式によって補間される。
【数１７】

【００６７】
イベント制御信号の関数として平滑化係数を継続的に補間することによって、リリース時間がイベントの開始時点でイベント強度に比例する値にリセットされ、次いで、イベント発生後に緩やかに無限に増加する。この増加の速度は、平滑化されたイベント制御信号を生成するのに使用される係数α_{ｅｖｅｎｔ}によって決定される。
【００６８】
図９ａおよび図１０ｅは、方程式７ｂからの非イベント制御係数に対して、方程式１３からのイベント制御係数でゲインを平滑化する場合の効果を示す。第１の場合では、イベント制御信号が、最後のピアノコードの後で０まで落ち、これによってゲインが上昇するのを防止する。その結果、図９ｆの対応する変更音声は、コードの減衰が不自然にブーストしてしまうという悪影響を受けない。第２の場合では、イベント制御信号が０に近づくことはなく、そのため、平滑化されたゲイン信号はイベント制御を適用してもほとんど抑制されない。平滑化されたゲインの軌道は、図１０ｂの非イベント制御ゲインの場合とほとんど一致している。これは、まさしく望ましい効果である。
【００６９】
（ラウドネスに基づくＡＧＣおよびＤＲＣ）
信号変更がピークまたはＲＭＳパワーなどの簡単な信号測定値の一次関数である従来のダイナミクス処理技術の代替として、国際特許出願ＰＣＴ／ＵＳ２００５／０３８５７９号には、ダイナミクス処理を実施するフレームワークとして、前述の心理音響に基づくラウドネスモデルの使用について開示されている。幾つかの利点を引用する。第１に、測定値および変更がソーン単位で規定されており、これはピークまたはＲＭＳパワーなどのもっと基本的な指標よりもラウドネス知覚のさらに厳密な指標である。第２に、元の音声の知覚スペクトルバランスがラウドネス全体が変化しても維持されるように、音声を変更することができる。このように、例えば、音声を変更するために広帯域ゲインを利用するダイナミクスプロセッサと比較して、ラウドネス全体の変化が知覚的に目立たなくなる。最後に、心理音響的モデルは本質的にマルチバンドであり、そのため、広帯域ダイナミクスプロセッサに関連する周知の相互スペクトルポンピング問題を軽減するため、このシステムは、マルチバンドダイナミクス処理を実施するように容易に構成される。
【００７０】
このラウドネス領域でダイナミクス処理を実施することは、より従来型のダイナミクス処理よりも既に利点が多いけれども、様々なパラメータを制御するために聴覚イベントを利用することによって、この技術をさらに改良することが可能である。図２７ａに示されるピアノコードを含む音声セグメント、および図１０ｂおよび図１０ｃに示される関連するＤＲＣについて考える。ラウドネス領域で同様なＤＲＣを実施してもよく、この場合、最後のピアノコードの減衰のラウドネスをブーストしても、そのブーストはそれほど目立たないであろう。これは減衰する音符のスペクトルバランスがブーストしても保持されるためである。しかしながら、さらに良い解決策は、減衰を全くブーストしないことである。したがって、従来のＤＲＣに関して前述したように、ラウドネス領域の聴覚イベントを用いてアタックおよびリリース時間を制御する同様な原理を有利に適用することが可能である。
【００７１】
ここで説明するラウドネス領域ダイナミクス処理システムは、ＡＧＣ、その後のＤＲＣから成る。この組み合わせの目的は、元の音声のダイナミクスの少なくとも一部を維持しながら、全ての処理音声をほぼ同一の知覚ラウドネスにすることである。図１１は、このアプリケーション用の適切な１組のＡＧＣおよびＤＲＣ曲線を示す。なお、処理はラウドネス領域で実施されるため、両曲線の入出力は単位ソーンで表される。ＡＧＣ曲線は、出力音声をある目標レベルに近づけようとしており、前述のように、相対的に遅い時定数でこれを実施している。ＡＧＣは、長時間の音声ラウドネスを目標値と等しくさせることと考えることができるが、短時間ベースでは、この目標値付近でラウドネスが大きく変動する可能性がある。したがって、より速く作動するＤＲＣを利用して、特定アプリケーションにふさわしいと考えられる一定の範囲にこの変動を制限することが可能である。図１１は、ＡＧＣ目標値がＤＲＣの「適正音量域（null band）」の範囲内に低下するＤＲＣ曲線を示し、この曲線の部分は変更を必要としない。この曲線の組み合わせを利用して、高速に作動するＤＲＣ変更を適用する必要性が最小になるように、ＡＧＣは長時間の音声ラウドネスをＤＲＣ曲線の適正音量域範囲内に配置する。短時間のラウドネスが適正音量域外でなお変動する場合は、ＤＲＣは、この適正音量域に音声ラウドネスを移動させるように作動する。最後の一般的な注意として、ラウドネスモデルの全ての帯域が同量のラウドネス変更を受けるように低速で作動するＡＧＣを適用し、これによって知覚スペクトルバランスを維持することが可能である。さらに、本来であれば高速に作動する帯域に依存しないラウドネス変更によって発生する可能性のある相互スペクトルポンピングを軽減するため、ラウドネス変更を帯域全体にわたって変化させることができるように高速に作動するＤＲＣを適用することが可能である。
【００７２】
聴覚イベントを利用して、ＡＧＣとＤＲＣの両方のアタックおよびリリースを制御することが可能である。ＡＧＣの場合、アタックおよびリリース時間はともに、イベント知覚の時間分解能と比較して長いので、イベント制御を両方の場合に有利に利用することが可能である。ＤＲＣの場合は、アタックが相対的に短時間のため、前述の従来のＤＲＣの場合のようにリリースに対してのみイベント制御が必要となり得る。
【００７３】
前述のように、イベント検出のために、使用ラウドネスモデルに関連する特定ラウドネススペクトルを使用することができる。方程式１０ａおよび１０ｂの差異信号と同様な差異信号Ｄ［ｔ］を、方程式２に定義される特定ラウドネスＮ［ｂ，ｔ］から以下のように計算することができる。
【数１８】

【００７４】
ただし、
【数１９】

【００７５】
ここで、周波数帯域ｂ内の｜Ｎ［ｂ，ｔ］｜の最大値を正規化に使用するが、他の正規化要素、例えば、周波数帯域ｂ内の｜Ｎ［ｂ，ｔ］｜の平均値を使用してもよい。差異Ｄ［ｔ］が閾値Ｄ_ｍｉｎを超える場合、イベントは発生したと見なされる。
【００７６】

【００７７】
図１１に示されるＡＧＣ曲線は、ラウドネスの指標をその入力とする関数として表すことができ、以下のように所望の出力ラウドネスを生成することができる。
【数２０】

【００７８】
ＤＲＣ曲線は同様に以下のように表すことができる。
【数２１】

【００７９】
ＡＧＣの場合、入力ラウドネスは、音声の長時間のラウドネスの指標である。相対的に長時間の（数秒程度の）時定数を使用して、方程式３に定義される瞬時ラウドネスＬ［ｔ］を平滑化することによって、この指標を計算することができる。音声セグメントの長時間のラウドネスを判断する際、人間は、音量の小さい部分よりも大きい部分により重点を置き、平滑化においてリリースよりも速いアタックを使用してこの結果をシミュレートすることができる。したがって、アタックとリリースの両方に対してイベント制御を取り入れ、ＡＧＣ変更を決定するために使用する長時間のラウドネスを以下の数式によって計算することができる。
【数２２】

【００８０】
ただし、
【数２３】

【００８１】
さらに、後でマルチバンドＤＲＣに使用することになる、関連する長時間の特定ラウドネススペクトルを以下のように計算することができる。
【数２４】

【００８２】
実際は、アタック時間がリリース時間のほぼ半分になるように平滑化係数を選択してもよい。次いで、長時間のラウドネス指標を考えると、入力ラウドネスに対する出力ラウドネスの比として、ＡＧＣに関連するラウドネス変更スケーリングを以下のように計算することができる。
【数２５】

【００８３】
ここで、ＡＧＣスケーリングの適用後のラウドネスからＤＲＣ変更を計算することができる。ＤＲＣ曲線を適用する前にラウドネスの指標を平滑化する代わりに、瞬時ラウドネスにＤＲＣ曲線を適用した後で、得られた変更を平滑化してもよい。これは、従来のＤＲＣゲインを平滑化するための前述の技術と同様である。さらに、マルチバンド方式でＤＲＣを適用することが可能であり、これは、ＤＲＣ変更が、全ラウドネスＬ［ｔ］ではなく、各帯域ｂの特定ラウドネスＮ［ｂ，ｔ］の関数であることを意味する。しかしながら、元の音声の平均スペクトルバランスを維持するために、各帯域にＤＲＣを適用することによって、得られる変更は、ＤＲＣを全ラウドネスに適用することで得られるのと同じ平均効果を有することができる。長時間の特定ラウドネスに対する（ＡＧＣスケーリング適用後の）長時間の全ラウドネスの比によって各帯域をスケーリングし、この値を独立変数としてＤＲＣ関数に使用することによって、これを実現することができる。次いで、この結果を前記比率で再スケーリングして、出力特定ラウドネスを生成する。したがって、各帯域のＤＲＣスケーリングは、以下の数式によって計算することができる。
【数２６】

【００８４】
次に、ＡＧＣおよびＤＲＣ変更を組み合わせて、以下の帯域毎のトータルラウドネススケーリングを形成することができる。
【数２７】

【００８５】
次に、速いアタックおよび遅いリリース、およびリリースのみに適用されるイベント制御を使用して、各帯域毎に独立して全時間帯でこのトータルスケーリングを平滑化することができる。理想的には、そのデシベル表現で平滑化される従来のＤＲＣのゲインに類似しているスケーリングの対数上で平滑化を実施するが、このことは重要ではない。平滑化されたトータルスケーリングが確実に各帯域の特定ラウドネスと同期して動くようにするために、以下のように、特定ラウドネス自体を同時平滑化することによってアタックおよびリリースモードを決定することができる。
【数２８】

【００８６】
ただし、
【数２９】

【００８７】
最後に、元の特定ラウドネスに適用される平滑化スケーリングに基づいて、目標となる特定ラウドネスを以下のように計算することができる。
【数３０】

【００８８】
次に、以下のようにゲインＧ［ｂ，ｔ］について解き、これが元の励磁に適用されると目標値と等しい特定ラウドネスになる。
【数３１】

【００８９】
ゲインは励磁を計算するために使用されるフィルタバンクの各帯域に適用することが可能であり、次いで、フィルタバンクを反転することによって変更音声を生成して、変更時間領域音声信号を生成する。
【００９０】
（追加のパラメータ制御）
前述の説明は、処理されている音声の聴覚情景分析によるＡＧＣおよびＤＲＣのアタックおよびリリースパラメータの制御に重点を置いたが、他の重要パラメータにもＡＳＡ結果によって制御されることによる効果がある。
【００９１】

【００９２】
（実施）
本発明は、ハードウェアまたはソフトウェア、または両方の組み合わせ（例えば、プログラマブル論理アレイ）で実施することが可能である。別段に規定しない限り、本発明の一部として含まれるアルゴリズムは、いかなる特定のコンピュータまたは他の装置にも本質的に関係しない。特に、様々な汎用装置を、本明細書の教示に従って書かれるプログラムとともに使用することができる。あるいは、必要となる方法ステップを実施するためにさらに特化した装置（例えば、集積回路）を構築する方が便利である。したがって、本発明は、１つ以上のプログラマブルコンピュータシステムであって、それぞれ、少なくとも１つのプロセッサ、少なくとも１つのデータ記憶装置（揮発性および不揮発性メモリおよび／または記憶素子を含む）、少なくとも１つの入力装置またはポート、および少なくとも１つの出力装置またはポートを備えるコンピュータシステム上で実行される１つ以上のコンピュータプログラムで実施することが可能である。プログラムコードは入力データに適用され、本明細書に記載される機能を実施し、出力情報を生成する。この出力情報は、１つ以上の出力装置に周知の方法で適用される。
【００９３】
この各プログラムは、コンピュータシステムと通信するために、（マシン、アセンブリ、または高級手続き型、論理、またはオブジェクト指向プログラミング言語を含む）何らかの所望のコンピュータ言語で実施することが可能である。いずれの場合も、言語は、コンパイラ型またはインタープリタ型言語であってよい。
【００９４】
この各コンピュータプログラムは、コンピュータシステムが記憶媒体または装置を読み取って、本明細書に記載される手順を実施する場合にコンピュータを設定し作動させるために、記憶媒体または装置（例えば、ソリットステートメモリまたは媒体、または磁気または光媒体）上に保存またはこれにダウンロードされるのが好ましい。本発明システムはまた、コンピュータプログラムで構成されるコンピュータ可読記憶媒体として実施されると見なすこともでき、このように構成される記憶媒体は、特定の予め定義された方法で本明細書に記載される機能を実行するようにコンピュータシステムを作動させる。
【００９５】
本発明の幾つかの実施形態を記載した。それでもなお、本発明の趣旨および範囲から逸脱することなく、様々な改変を行うことが可能であるのは言うまでもない。例えば、本明細書に記載されるステップの一部を個別に並び替えてもよく、したがって、記載される順序と異なる順序で実施してもよい。
【００９６】
本発明およびその様々な形態の他の変更および改変の実施は、当業者にとっては明白であり、本発明は記載されるこれらの特定の実施形態によって制限されるものではないことは言うまでもない。したがって、本明細書に開示および請求された、根底に横たわる原理の趣旨および範囲に該当するいかなる改変、変更、または等価物も、本発明含まれるものと見なされる。
【００９７】
参照による組込み
以下の特許、特許出願および刊行物は、参照することによってそれぞれ本明細書に完全に組み込まれている。
【００９８】
（音声ダイナミクス処理）
マイケルタルボットスミス（ＭｉｃｈａｅｌＴａｌｂｏｔ−Ｓｍｉｔｈ）編集の音響技術者の参考図書（ＡｕｄｉｏＥｉｇｉｎｅｅｒ’ｓＲｅｆｅｒｅｎｃｅＢｏｏｋ），第２版。リミッタおよびコンプレッサ（ＬｉｍｉｔｅｒｓａｎｄＣｏｍｐｒｅｓｓｏｒｓ）、アランチュットン（ＡｌａｎＴｕｔｔｏｎ）著，２−１４９２−１６５。フォーカルプレス（ＦｏｃａｌＰｒｅｓｓ），リードエドケーションアンドプロフェッショナルパブリッシング社（ＲｅｅｄＥｄｕｃａｔｉｏｎａｌａｎｄＰｒｏｆｅｓｓｉｏｎａｌＰｕｂｌｉｓｈｉｎｇ，Ｌｔｄ．），１９９９年。
【００９９】
（聴覚イベントの検出および使用）
米国特許出願公開第２００４／０１２２６６２号（ＵＳ２００４／０１２２６６２Ａ１）として２００４年６月２４日公開のブレットグラハムクロケット（ＢｒｅｔｔＧｒａｈａｍＣｒｏｃｋｅｔｔ）の「ＨｉｇｈＱｕａｌｉｔｙＴｉｍｅ−ＳｃａｌｉｎｇａｎｄＰｉｔｃｈ−ＳｃａｌｉｎｇｏｆＡｕｄｉｏＳｉｇｎａｌｓ」と題する米国特許出願第１０／４７４，３８７号。
【０１００】
米国特許出願公開第２００４／０１４８１５９号（ＵＳ２００４／０１４８１５９Ａ１）として２００４年７月２９日公開のブレットグラハムクロケット（ＢｒｅｔｔＧ．Ｃｒｏｃｋｅｔｔ）らの「ＭｅｔｈｏｄｆｏｒＴｉｍｅＡｌｉｇｎｉｎｇＡｕｄｉｏＳｉｇｎａｌｓＵｓｉｎｇＣｈａｒａｃｔｅｒｉｚａｔｉｏｎＢａｓｅｄｏｎＡｕｄｉｔｏｒｙＥｖｅｎｔｓ」と題する米国特許出願第１０／４７８，３９８号。
【０１０１】
米国特許出願公開第２００４／０１６５７３０号（ＵＳ２００４／０１６５７３０Ａ１）として２００４年８月２６日公開のブレットグラハムクロケット（ＢｒｅｔｔＧ．Ｃｒｏｃｋｅｔｔ）の「ＳｅｇｍｅｎｔｉｎｇＡｕｄｉｏＳｉｇｎａｌｓＩｎｔｏＡｕｄｉｔｏｒｙＥｖｅｎｔｓ」と題する米国特許出願第１０／４７８，５３８号。本発明の形態は、クロケット（Ｃｒｏｃｋｅｔｔ）の前記出願で開示されるものに加えて聴覚イベントを検出する方法を提供する。
【０１０２】
米国特許出願公開第２００４／０１７２２４０号（ＵＳ２００４／０１７２２４０Ａ１）として２００４年９月２日公開のブレットグラハムクロケット（ＢｒｅｔｔＧ．Ｃｒｏｃｋｅｔｔ）らの「ＣｏｍｐａｒｉｎｇＡｕｄｉｏＵｓｉｎｇＣｈａｒａｃｔｅｒｉｚａｔｉｏｎｓＢａｓｅｄｏｎＡｕｄｉｔｏｒｙＥｖｅｎｔｓ」と題する米国特許出願第１０／４７８，３９７号。
【０１０３】
国際公開第２００６／０２６１６１号（ＷＯ２００６／０２６１６１）として２００６年３月９日公開のマイケルジョンスミザーズ（ＭｉｃｈａｅｌＪｏｈｎＳｍｉｔｈｅｒｓ）の「ＭｅｔｈｏｄｆｏｒＣｏｍｂｉｎｉｎｇＡｕｄｉｏＳｉｇｎａｌｓＵｓｉｎｇＡｕｄｉｔｏｒｙＡｎａｌｙｓｉｓ」と題する、２００５年７月１３日出願の特許協力条約に基づく国際出願ＰＣＴ／ＵＳ０５／２４６３０号。
【０１０４】
国際公開第２００４／１１１９９４号（ＷＯ２００４／１１１９９４Ａ２）として２００４年１２月２３日公開のアランジェフリーゼーフェルト（ＡｌａｎＪｅｅｆｆｅｙＳｅｅｆｅｌｄｔ）らの「Ｍｅｔｈｏｄ，ＡｐｐａｒａｔｕｓａｎｄＣｏｍｐｕｔｅｒＰｒｏｇｒａｍｆｏｒＣａｌｃｕｌａｔｉｎｇａｎｄＡｄｊｕｓｔｉｎｇｔｈｅＰｅｒｃｅｉｖｅｄＬｏｕｄｎｅｓｓｏｆａｎＡｕｄｉｏＳｉｇｎａｌ」と題する、２００４年５月２７日出願の特許協力条約に基づく国際出願ＰＣＴ／ＵＳ２００４／０１６９６４号。
【０１０５】
国際公開第２００６／０４７６００号として公開のアランジェフリーゼーフェルト（ＡｌａｎＪｅｅｆｆｅｙＳｅｅｆｅｌｄｔ）による「ＣａｌｃｕｌａｔｉｎｇａｎｄＡｄｊｕｓｔｉｎｇｔｈｅＰｅｒｃｅｉｖｅｄＬｏｕｄｎｅｓｓａｎｄ／ｏｒｔｈｅＰｅｒｃｅｉｖｅｄＳｐｅｃｔｒａｌＢａｌａｎｃｅｏｆａｎＡｕｄｉｏＳｉｇｎａｌ」と題する、２００５年１０月２５日出願の特許協力条約に基づく国際出願ＰＣＴ／ＵＳ２００５／０３８５７９号。
【０１０６】
ブレットクロケット（ＢｒｅｔｔＣｒｏｃｋｅｔｔ）およびマイケルスミザーズ（ＭｉｃｈａｅｌＳｍｉｔｈｅｒｓ）による「ＡＭｅｔｈｏｄｆｏｒＣｈａｒａｃｔｅｒｉｚｉｎｇａｎｄＩｄｅｎｔｉｆｙｉｎｇＡｕｄｉｏＢａｓｅｄｏｎＡｕｄｉｔｏｒｙＳｃｅｎｅＡｎａｌｙｓｉｓ」，オーディオエンジニアリングソサイエティ会議（ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ）論文６４１６，第１１８回会議，バルセロナ，２００５年５月２８〜３１日。
【０１０７】
ブレットクロケット（ＢｒｅｔｔＣｒｏｃｋｅｔｔ）による「ＨｉｇｈＱｕｉａｌｉｔｙＭｕｌｔｉｃｈａｎｎｅｌＴｉｍｅＳｃａｌｉｎｇａｎｄＰｉｔｃｈ−ＳｈｉｆｔｉｎｇｕｓｉｎｇＡｕｄｉｔｏｒｙＳｃｅｎｅＡｎａｌｙｓｉｓ」，オーディオエンジニアリングソサイエティ会議（ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ）論文５９４８，ニューヨーク，２００３年１０月。
【０１０８】
アランゼーフェルト（ＡｌａｎＳｅｅｆｅｌｄｔ）らによる「ＡＮｅｗＯｂｊｅｃｔｉｖｅＭｅａｓｕｒｅｏｆＰｅｒｃｅｉｖｅｄＬｏｕｄｎｅｓｓ」，オーディオエンジニアリングソサイエティ会議（ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ）論文６２３６，サンフランシスコ，２００４年１０月２８日。
【０１０９】
グレンエムバルー（ＧｌｅｎＭ．Ｂａｌｌｏｕ）編集の音響技術者向けハンドブック，新オーディオ事典（ＴｈｅＮｅｗＡｕｄｉｏＣｙｃｌｏｐｅｄｉａ），第２版。ダイナミクス，８５０−８５１。フォーカルプレス（ＦｏｃａｌＰｒｅｓｓ）バターワースハイネマン（Ｂｕｔｔｅｒｗｏｒｔｈ−Ｈｅｉｎｅｍａｎｎ）のインプリント，１９９８年。
【０１１０】
マイケルタルボットスミス（ＭｉｃｈａｅｌＴａｌｂｏｔ−Ｓｍｉｔｈ）編集の音響技術者の参考図書，第２版，セクション２．９（アランチュットン（ＡｌａｎＴｕｔｔｏｎ）による「リミッタおよびコンプレッサ（ＬｉｍｉｔｅｒｓａｎｄＣｏｍｐｒｅｓｓｏｒｓ）」），ｐｐ．２．１４９−２．１６５，フォーカルプレス（ＦｏｃａｌＰｒｅｓｓ），リードエドケーションアンドプロフェッショナルパブリッシング社（ＲｅｅｄＥｄｕｃａｔｉｏｎａｌａｎｄＰｒｏｆｅｓｓｉｏｎａｌＰｕｂｌｉｓｈｉｎｇ，Ｌｔｄ．），１９９９年。

【特許請求の範囲】
【請求項１】
音声信号の時間に対する信号特性の変化を検出するステップと、
前記音声信号の時間に対する信号特性の閾値よりも大きい変化を聴覚イベント境界として特定するステップであって、連続する境界間の音声セグメントが聴覚イベントを構成することを特徴とする、ステップと、
前記聴覚イベントの少なくとも一部に基づいてパラメータ変更制御信号を生成するステップと、
前記パラメータ変更制御信号の関数として前記音声ダイナミクスプロセッサの前記パラメータを変更するステップと、
を具備する音声ダイナミクスプロセッサのパラメータを変更する方法。
【請求項２】
聴覚イベントは、個別かつ明確に認識されやすい音声のセグメントであることを特徴とする請求項１に記載の方法。
【請求項３】
前記信号特性は、前記音声のスペクトル成分を含むことを特徴とする請求項１に記載の方法。
【請求項４】
前記信号特性は、知覚強度を含むことを特徴とする請求項１に記載の方法。
【請求項５】
前記信号特性は、前記音声の知覚ラウドネスを含むことを特徴とする請求項１に記載の方法。
【請求項６】
前記パラメータは、１つ以上の聴覚イベントの有無に少なくとも部分的に応答して、生成されることを特徴とする請求項１に記載の方法。
【請求項７】
請求項１から６のいずれか１項に記載の方法を実施するように構成されることを特徴とする装置。
【請求項８】
コンピュータに請求項７の前記装置を制御させるための、コンピュータ読み取り可能な媒体に保存されることを特徴とするコンピュータプログラム。
【請求項９】
コンピュータに請求項１から６のいずれか１項に記載の方法を実施させるための、コンピュータ読み取り可能な媒体に保存されることを特徴とするコンピュータプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【公開番号】特開２０１１−１５１８１１（Ｐ２０１１−１５１８１１Ａ）
【公開日】平成２３年８月４日（２０１１．８．４）
【国際特許分類】

【出願番号】特願２０１１−２５７１１（Ｐ２０１１−２５７１１）
【出願日】平成２３年２月９日（２０１１．２．９）
【分割の表示】特願２００９−５０７６９４（Ｐ２００９−５０７６９４）の分割
【原出願日】平成１９年３月３０日（２００７．３．３０）
【出願人】（５９１１０２６３７）ドルビー・ラボラトリーズ・ライセンシング・コーポレーション (111)
【氏名又は名称原語表記】ＤＯＬＢＹ　ＬＡＢＯＲＡＴＯＲＩＥＳ　ＬＩＣＥＮＳＩＮＧ　ＣＯＲＰＯＲＡＴＩＯＮ
【Ｆターム（参考）】

[ Back to top ]

特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御

メニュー

スポンサーリンク

次の公報 »

« 前の公報

特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク