説明

エンターテイメントオーディオにおける音声強調方法

【課題】 片方で音楽と周囲の音の音質の好ましくない改変の可能性と、他方で所望の了解度の利益との間のトレードオフを最適化する。
【解決手段】エンターテイメントオーディオの音声は、エンターテイメントオーディオの音声部分の明瞭度と了解度を向上するためにエンターテイメントオーディオを1つ以上のコントロール(信号)に応答して処理する工程と、その処理のためのコントロールを生成する工程とにより強調され、コントロールを生成する工程にはエンターテイメントオーディオの時間断片を(a)音声もしくは非音声、または、(b)音声らしいもしくは非音声らしい、として特徴付ける工程と、その処理のためのコントロールを提供するためにエンターテイメントオーディオのレベルに応答する工程とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理に関するものである。より具体的には、本発明は、テレビオーディオのようなエンターテイメントオーディオ処理に関し、せりふや物語のオーディオのような音声の明瞭度と了解度を向上する。本発明は、方法、それらの方法を実行する装置、およびそれらの方法をコンピュータに実行させるコンピュータ可読媒体に保存されたソフトウェアに関する。
【背景技術】
【0002】
オーディオビジュアルエンターテイメントは、せりふ、物語、音楽および効果の速いペースのシーケンスに発展した。最新のエンターテイメントオーディオ技術と製造方法で達成可能な高度なリアリズムは、テレビでの会話のように話すスタイルの使用を促進し、そのスタイルは、これまでのはっきりと発表するステージでのプレゼンテーションとは本質的に異なる。この状況により、知覚と言語処理能力の低下した高齢の視聴者の人口増加だけではなく、通常の聴覚を有する人にも、たとえば低音響レベルで聞くときに、そのプログラミングに従うという負担をかけるという問題を生ずる。
【0003】
音声がどのくらいよく理解されるかは、多くの因子に依存する。例として、発声の気配り(はっきりした、または、対話形式の音声)、話す速さ、音声の可聴性などがある。話し言葉は非常にしっかりしており、理想的な状態より劣っていても理解できる。たとえば、聴覚に障害のあるリスナーは、低下した聴力のために音声の一部を聞き取れなくても明確な音声を大概理解することができる。しかし、話す速さが速くなり、発声が正確さを欠くようになると、聞くことと理解することには、とくに音声スペクトルの一部が聞こえないと、より大きな努力が必要となる。
【0004】
テレビの視聴者は、放送音声の明瞭度に影響を与えることは何もできないので、聴覚に障害のあるリスナーは聞き取りボリュームを大きくして不十分な可聴性を補おうとする。同じ部屋や近くにいる正常な聴力の人にとって不快であることは別として、この方法は部分的にしか効果がない。なぜならば聴力の低下のほとんどは、周波数の高低により一様ではないからであり、低周波数や中周波数より高周波数で大きな影響があるからである。たとえば、6kHzの音を聞く典型的な70歳の男性の能力は、若者の能力より約50dB悪いが、1kHzより下の周波数では高齢者の聴力の不都合は、10dBより小さい(ISO7092,オーディオ対年齢の関数としての聴力限界の統計的分布)。ボリュームを大きくすることは、低周波数および中周波数の音を、これらの周波数では可聴性はすでに十分であるので、了解度への寄与に大きく貢献することなくさらに大きくする。ボリュームを大きくすることはまた、高周波数での重度の聴力低下についてはあまり解決しない。より適切な是正は、グラフィックエコライザで得られるような音質のコントロールである。
【0005】
ボリュームコントロールを単に大きくするよりはよい選択ではあるが、音質コントロールはほとんどの聴力低下にとっては、まだ不十分である。聴覚に障害のあるリスナーに穏やかな文節を聞こえるようにするのに必要な大きな高周波数ゲインは、高レベルの文節の間は不快なほどにうるさくなりがちであり、オーディオ再生鎖に負担をかけすぎたりもする。よりよい答は、信号のレベルにより増幅し、信号の低い部分には大きなゲインを、高レベルの部分には小さなゲイン(あるいはゲインなし)を提供することである。そのようなシステムは、オートマティックゲインコントロール(AGC)あるいはダイナミックレンジ圧縮器(コンプレッサ)(DRC)として知られているが、聴覚の補助に使われ、通信システムで障害のある聴覚の了解度を向上するのにそれらを使用することが提案されて
いる(たとえば、米国特許第5,388,185号、第5,539,806号、第6,061,431号)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第6,198,830号
【発明の概要】
【発明が解決しようとする課題】
【0007】
聴力低下は徐々に進行するのが普通なので、難聴のあるリスナーのほとんどは、聴力低下に慣れていく。その結果、エンターテイメントオーディオで彼らの聴覚障害を矯正する処理をされると、その音質を嫌うことが多い。聴覚障害のある聴衆は、せりふや物語の了解度が高まるとか矯正するための精神的苦痛が減るなどの、明白な利益を提供されると、矯正されたオーディオの音質を受け入れやすくなる。したがって、音声が主体のオーディオプログラムの部分への聴力低下矯正の適用を制限することは好都合である。そうすることは、片方で音楽と周囲の音の音質の好ましくない改変の可能性と、他方で所望の了解度の利益との間のトレードオフを最適化する。
【課題を解決するための手段】
【0008】
本発明の態様によれば、エンターテイメントオーディオの音声は、エンターテイメントオーディオの音声部分の明瞭度と了解度を向上するためにエンターテイメントオーディオを1つ以上のコントロール(信号)に応答して処理する工程と、その処理のためのコントロールを生成する工程とにより強調され、コントロールを生成する工程にはエンターテイメントオーディオの時間断片を(a)音声もしくは非音声、または、(b)音声らしいもしくは非音声らしい、として特徴付ける工程と、その処理のためのコントロールを提供するためにエンターテイメントオーディオのレベルに応答する工程とを含み、そのような変化には時間断片より短い時間間隔内に応答し、応答する工程の判定基準は上記の特徴付ける工程によりコントロールされる。処理する工程と応答する工程とは、対応する複数の周波数帯域(バンド)でそれぞれ動作し、応答する工程は複数の周波数帯域のそれぞれの処理する工程のコントロールを提供する。
【0009】
本発明の態様は、処理ポイントの前と後でエンターテイメントオーディオの経過時間のある時点へアクセスすることができ、コントロールを生成する工程は処理ポイントの後の少なくとも若干のオーディオ信号に応答するときのように、「先読み」方法で動作する。
【0010】
本発明の態様は、処理、特徴付けおよび応答のいくつかが異なった時間あるいは異なった場所で行われるように、時間的および/または空間的分離を用いる。たとえば、特徴付けは第1の時間あるいは場所で行われ、処理と応答は第2の時間あるいは場所で行われ、時間断片の特徴に関する情報は応答の判定基準をコントロールするのに保存あるいは伝達される。
【0011】
本発明の態様はまた、知覚符号化スキームあるいは無損失符号化スキームに従ってエンターテイメントオーディオをエンコードすることと、エンコードするのに用いたのと同じ符号化スキームにしたがってエンターテイメントオーディオをデコードすることを含み、処理、特徴付けおよび応答のいくつかはエンコードまたはデコードと一緒に行われる。特徴付けはエンコードと一緒に行われ、処理および/または応答はデコードと一緒に行われてもよい。
【0012】
本発明の前述の態様によれば、処理は1つあるいは複数の処理パラメータにしたがって行われる。1つあるいは複数のパラメータの調整は、処理されたオーディオの音声了解度
メトリックが最大となるか所望の閾値レベル以上になされるかのいずれかとなるように、エンターテイメントオーディオに応答する。本発明の態様によれば、エンターテイメントオーディオは、複数のオーディオチャンネルを備え、1つのチャンネルは主として音声であり、1つ以上の他のチャンネルは主として非音声であり、音声了解度メトリックは音声チャンネルのレベルと1つ以上の他のチャンネルのレベルに基づく。音声了解度メトリックはまた、処理されたオーディオが再生される聴取環境のノイズのレベルにも基づく。1つ以上のパラメータの調整は、エンターテイメントオーディオの1つ以上の長期間の記述子に応答する。長期間の記述子の例には、エンターテイメントオーディオの平均的なせりふのレベルや、エンターテイメントオーディオに既に適用された処理の推定が含まれる。1つ以上のパラメータの調整は規定された式に従い、規定された式はリスナーまたはリスナーのグループの聴力を1つ以上のパラメータに関係付ける。代替または追加として、1つ以上のパラメータの調整は、1人以上のリスナーの好みに従ってもよい。
【0013】
本発明の前述の態様によれば、処理には並行して動作する複数の機能を含む。複数の機能のそれぞれは、複数の周波数帯域の1つで作動する。複数の機能のそれぞれは、個別にまたは集合的に、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する。たとえば、ダイナミックレンジコントロールは複数の圧縮/拡大機能あるいは装置により提供され、それぞれがオーディオ信号のある周波数領域を処理する。
【0014】
処理に複数の機能が含まれるかどうかは別として、処理はダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する。たとえば、ダイナミックレンジコントロールは、ダイナミックレンジ圧縮/拡大機能または装置により提供される。
【0015】
本発明の態様は、聴力低下矯正に適した音声強調をコントロールすることで、理想的には、オーディオプログラムの音声部分にだけ作用し、残りの(非音声)プログラム部分には作用せず、よって、残りの(非音声)プログラム部分の音色(スペクトル分布)または知覚される音量を変えない傾向がある。
【0016】
本発明の別の態様によれば、エンターテイメントオーディオで音声を強調することは、エンターテイメントオーディオを分析し、音声か他のオーディオのいずれかにオーディオの時間断片を分類し、音声と分類された時間断片の間のエンターテイメントオーディオの1つまたは複数の周波数帯域にダイナミックレンジ圧縮を適用することを含む。
【図面の簡単な説明】
【0017】
【図1a】図1aは、本発明の態様の実施例を図解する模式的作用ブロック図である。
【図1b】図1bは、図1aの修正版の実施例を図解する模式的作用ブロック図で、装置および/または機能は時間的および/または空間的に分離されている。
【図2】図2は図1aの修正版の実施例を示す模式的ブロック図で、音声強調コントロールは「先読み」方法で得られる。
【図3a】図3aは、図4の例を理解するのに役立つパワー・ゲイン変換の例である。
【図3b】図3bは、図4の例を理解するのに役立つパワー・ゲイン変換の例である。
【図3c】図3cは、図4の例を理解するのに役立つパワー・ゲイン変換の例である。
【図4】図4は、周波数帯域の音声強調ゲインがどのように本発明の態様にしたがってその帯域の信号パワー推定から導かれるかを示す模式的作用ブロック図である。
【発明を実施するための形態】
【0018】
オーディオを音声と非音声(音楽など)に分類する技術は当該技術分野で周知であり、音声対その他弁別器(SVO)として知られていることも多い。たとえば、米国特許第6,785,645号、第6,570,991号および米国特許出願第20040044525号並びにそれらに記載の参考文献を参照のこと。音声対その他のオーディオ弁別器は、オーディオ信号の時間断片を分析し、全ての時間断片から1つ以上の信号記述子(特徴)を抽出する。それらの特徴は、時間断片が音声である可能性を推定し、または、厳しく音声/非音声の判断をするプロセッサに送られる。特徴のほとんどは、信号の経時的変化を反映する。特徴の典型例は、信号スペクトルが時間とともに変化する割合であり、信号極性が変化する割合の分布のゆがみである。音声のはっきりした特徴を確実に反映するのに、時間断片は十分な長さでなければならない。多くの特徴は、隣接音節間の移行を反映する信号特徴に基づくので、時間断片は普通少なくとも2音節(すなわち、約250マイクロ秒)に及んでそのような移行を捕らえる。しかし、時間断片はより確実な推定を得るには長めであることが多い(たとえば、約10倍で)。動作においては比較的ゆっくりとしているが、SVOはオーディオを音声と非音声とに分類するのにそこそこ確実で正確である。しかし、本発明の態様に従ったオーディオプログラムで選択的に音声を強調するには、音声対その他弁別器で分析される時間断片の長さより細かな時間スケールで音声強調をコントロールすることが好ましい。
【0019】
音声活動検出器(VAD)として知られることもある、別の類の技術は、比較的一定のノイズのバックグラウンドにおける音声の存在と不存在を示す。VADを、音声伝達用途でノイズ低減スキーマの一部として広範囲に用いる。音声対その他弁別器と違って、VADは、本発明の態様に従って音声強調をコントロールするのに十分な時間分解能を有するのが普通である。VADは信号パワーの急激な増大を音声サウンドの始まり、信号パワーの急激な低減を音声サウンドの終わりと解釈する。そうすることで、音声とバックグラウンドとの間の境界をほとんど瞬時に(すなわち、信号パワーを測定する時間集積のウィンドウ内、たとえば10ミリ秒)信号で伝える。しかし、VADは信号パワーの急激な変化に反応するため、音声と他の支配的信号、たとえば音楽、とを区別することができない。したがって、VADは、単独で用いると、本発明にしたがって選択的に音声を強調する音声強調をコントロールするのに適してはいない。
【0020】
音声対その他(SVO)識別子の音声対非音声特性を音声活動検出器(VAD)と組み合わせて、従来技術の音声対その他弁別器に見られるより細かな時間分解能でオーディオ信号中の音声に選択的に応答する音声強調を容易にすることは本発明の一態様である。
【0021】
原理的に本発明の態様はアナログおよび/またはデジタル分野で実行されるが、実際的な実行は、それぞれのオーディオ信号が個々のサンプリングあるいはデータブロック内のサンプリングで表されるデジタル分野で実行されることが多い。
【0022】
ここで図1aを参照すると、本発明の態様を図示する模式的作用ブロック図が示され、オーディオ入力信号101が、コントロール信号103で有効にされるときに音声強調オーディオ出力信号104を生成する音声強調機能あるいは装置(「音声強調」)102に送信される。コントロール信号は、オーディオ入力信号101のバッファされた時間断片に作用するコントロール機能あるいは装置(「音声強調コントローラ」)105により生成される。音声強調コントローラ105は、音声対その他弁別機能あるいは装置(「SVO」)107と1組の1つ以上の音声活動検出器機能あるいは装置(「VAD」)108とを含む。SVO107は、VADで分析されたよりも長い時間スパンで信号を分析する。SVO107とVAD108とが異なる長さの時間スパンで作動するという事実は、単一バッファ機能あるいは装置(「バッファ」)106の広い領域(SVO107に関連し
て)を囲うブラケットと、狭い領域(VAD108に関連して)を囲うもう1つのブラケットで図に示される。広い領域と狭い領域とは模式的であり、寸法に意味はない。オーディオデータがブロックで送られるデジタルでの実施の場合には、バッファ106の各部分はオーディオデータの1ブロックを保存する。VADがアクセスする領域は、バッファ106で単一保存の最新の部分を含む。SVO107で判断された現在の信号部分が音声である可能性は、109がVAD108をコントロールするように作用する。たとえば、VAD108の判定基準をコントロールし、よって、VAD108の決定にバイアスをかける。
【0023】
バッファ106は、処理に特有のメモリを記号化し、直接的に実装されてもされなくてもよい。たとえば、ランダムアクセスメモリの媒体に記憶されたオーディオ信号について処理が行われると、その媒体はバッファとして作用する。同様に、オーディオ入力の履歴は、音声対その他弁別器107の内部状態および音声活動検出器の内部状態に反映され、その場合には、別のバッファは必要ではない。
【0024】
音声強調102は音声を強調するのに並行して動作する複数のオーディオ処理装置あるいは機能からなる。各機能あるいは装置は、音声が強調されるべきオーディオ信号の周波数領域で作動する。たとえば、装置あるいは機能は、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を、個別にあるいは全体として提供する。本発明の態様の詳細な例では、ダイナミックレンジコントロールは、オーディオ信号の周波数帯域で圧縮あるいは拡大を提供する。よって、たとえば、音声強調102は、ダイナミックレンジ圧縮器/拡大器あるいは圧縮/拡大機能のバンクであり、それぞれがある周波数領域のオーディオ信号を処理する(マルチ帯域圧縮器/拡大器あるいは圧縮/拡大機能)。マルチ帯域圧縮/拡大で利用可能となる周波数特性は、音声強調のパターンを与えられた聴力低下のパターンに合わせることができるからというだけではなく、どの瞬間でも音声はある周波数領域で存在し他では存在しないという事実に応答できるから、有用である。
【0025】
マルチ帯域圧縮で提供される周波数特性の全ての利点を活用して、各圧縮/拡大帯域は、それ自身の音声活動検出器あるいは検出機能でコントロールされる。このような場合、各音声活動検出器あるいは検出機能は、それがコントロールする圧縮/拡大帯域に関連する周波数領域での音声活動を信号で送る。並行して動作するいくつかのオーディオ処理装置あるいは機能からなる音声強調102には利点があるが、本発明の態様の単純な実施の形態では1つだけのオーディオ処理装置あるいは機能からなる音声強調102を用いる。
【0026】
多くの音声活動検出器があるときでも、存在する全ての音声活動検出器をコントロールする単一の出力109を生成する1つだけの音声対その他弁別器107があることでもよい。1つだけの音声対その他弁別器を使用するという選択は、2つの観察結果を反映する。1つは、音声活動の全帯域パターンが時間とともに変化する速さは、通常、音声対その他弁別器の時間分解能よりかなり速いということである。別の観察結果は、音声対その他弁別器で用いられる特徴が、ブロードバンド信号で最もよく観察できるスペクトルの特徴から通常導かれるということである。双方の観察結果は、帯域特有の音声対その他弁別器の使用を実際的ではないとする。
【0027】
音声強調コントローラ105内に図示されるSVO107とVAD108の組み合わせはまた、音声を強調すること以外の目的、たとえば、オーディオプログラムの音声の大きさを推定したり、話す速さを測定したりするのに使われる。
【0028】
説明したところの音声強調スキーマは多くの方法で配置される。たとえば、全スキーマは、テレビあるいはセットトップボックスの内側に実装され、テレビやテレビ放送の受信
オーディオ信号に作用する。あるいは、知覚オーディオコーダ(たとえば、AC−3またはAAC)と一体化され、あるいは、無損失オーディオコーダと一体化されてもよい。
【0029】
本発明の態様に従った音声強調は、異なった時間に、あるいは、異なった場所で実行される。音声強調がオーディオコーダあるいはコーディングプロセスと一体化あるいは関連される例について考える。そのような場合、音声強調コントローラ105の音声対その他弁別器(SVO)107の部分は、計算コストが高いのが普通であるが、オーディオエンコーダあるいは符号化処理と一体化あるいは関連させる。たとえば音声の存在を示すフラグである、SVOの出力109は、符号化されたオーディオストリームに埋め込まれる。符号化されたオーディオストリームに埋め込まれたそのような情報は、メタデータと呼ばれることが多い。音声強調102と音声強調コントローラ105のVAD108は、オーディオデコーダと一体化あるいは関連され、前もってエンコードしたオーディオに作用する。1組の1つ以上の音声活動検出器(VAD)108はまた、音声対その他弁別器(SVO)107の出力109を用い、出力109は符号化されたオーディオストリームから抽出される。
【0030】
図1bは、図1aの改変版の例示の実施を示す。図1aの装置あるいは機能に相当する図1bの装置あるいは機能は、同一の参照番号を有する。オーディオ入力信号101は、エンコーダあるいはエンコード機能(「エンコーダ」)110およびSVO107で必要な時間スパンに及ぶバッファ106へ送られる。エンコーダ110は、知覚または無損失コーディングシステムの一部である。エンコーダ110の出力はマルチプレクサあるいは多重送信機能(「マルチプレクサ」)112へ送られる。SVO出力(図1の109)は、エンコーダ110に適用される109a、あるいは、エンコーダ110の出力も受信するマルチプレクサ112に適用される109bとして示される。図1aでのフラグのような、SVO出力は、エンコーダ110のビットストリーム出力で(たとえば、メタデータとして)搬送され、あるいは、エンコーダ110の出力と多重送信され、保存または伝達用に圧縮しアセンブルしたビットストリーム114をデマルチプレクサあるいはデマルチプレクサ機能(「デマルチプレクサ」)116に提供し、デマルチプレクサ116は、デコーダあるいはデコード機能118に送るようにそのビットストリーム114を解凍する。SVO107の出力109bがマルチプレクサ112に送られるとすると、デマルチプレクサ116から109b’として受信され、VAD108に送られる。あるいは、SVO107の出力109aがエンコーダ110に送られるとすると、デコーダ118から109a’として受信される。図1aの例のように、VAD108は複数の音声活動機能あるいは装置を備える。VAD108で必要な時間スパンの範囲にわたるデコーダ118から入力される単一のバッファ機能あるいは装置(「バッファ」)120は、別のフィードをVAD108に供給する。VAD出力103は、強調された音声オーディオ出力を提供する音声強調102に、図1aのように送られる。説明の明瞭さのために分けて示されるが、SVO107および/またはバッファ106はエンコーダ110と一体化されてもよい。同様に、説明の明瞭さのために分けて示されるが、VAD108および/またはバッファ120はデコーダ118または音声強調102と一体化されてもよい。
【0031】
処理されるオーディオ信号が予め記録されているならば、たとえば消費者の家庭でDVDから再生するときや放送の環境でオフライン処理するときなどであるが、音声対その他弁別器および/または音声活動検出器は、再生の間に、現在の信号サンプルまたは信号ブロックの後で起こる信号部分を含む信号部分に作用する。このことは図2に示され、記号信号バッファ201は、再生の間に、現在の信号サンプルまたは信号ブロックの後で起こる信号部分を含む(「先読み」)。信号が予め記録されていないとしても、オーディオエンコーダが実質的な特有の処理遅れを有するときには先読みは依然として使われる。
【0032】
音声強調102の処理パラメータは、圧縮器のダイナミック応答速度より低い速度で、
処理されたオーディオ信号に応答してアップデートされる。処理パラメータをアップデートするときに追求するであろう多くの目的がある。たとえば、音声強調プロセッサのゲイン関数処理パラメータはプログラムの平均音声レベルに応じて調整され、長期平均音声スペクトルの変化が音声レベルと無関係になるようにする。そのような調整の効果と必要性とを理解するために、以下の例を考える。音声強調は信号の高周波数部分にだけ適用される。与えられた平均音声レベルで、高周波信号部分のパワー推定301はP1を平均し、ここでP1は、圧縮閾値出力304より大きい。このパワー推定に関連するゲインはG1であり、G1は、信号の高周波部分に適用される平均ゲインである。低周波数部分ではゲインがないので、平均音声スペクトルは、低周波数より高周波数でG1デシベル(dB)高い形となる。ここで、平均音声レベルがある値ΔLだけ増加したときに何が起きるかを考える。平均音声レベルのΔLdBの増加は、高周波信号部分の平均パワー推定301をP2=P1+ΔLに増大する。図3aから分かるように、高いパワー推定P2は、G1より小さなゲインG2を生じさせる。結果として、処理された信号の平均音声スペクトルは、入力の平均レベルが高いときに、低いときよりもより小さな高周波数の強調を示す。リスナーは、平均音声レベルの違いをボリューム調整で補正するので、平均高周波数強調のレベル依存状態は好ましくない。それは、図3a〜3cのゲイン曲線を平均音声レベルで修正することにより消去できる。図3a〜3cについて以下に説明する。
【0033】
音声強調102の処理パラメータはまた、音声了解度メトリックが最大となるか、あるいは、所望の閾値レベルより大きくなされるように調整される。音声了解度メトリックは、オーディオ信号の相対的レベルとリスニング環境の競合音(航空機内ノイズのような)とから計算される。オーディオ信号が、1チャンネルに音声信号で、残りのチャンネルに非音声信号の多チャンネルオーディオ信号であれば、音声了解度メトリックは、たとえば、全チャンネルの相対的レベルとそれらのスペクトルエネルギの分布とから計算される。適切な了解度メトリックは周知である[たとえば、ANSI S3.5−1997「音声了解度指数の計算方法(Method for Calculation of the
Speech Intelligibility Index)」米国規格協会1997年、あるいは、ミュッシュ、ブース(Musch、Buus)「音声了解度予知のための統計決定理論の使用 I.モデル構造(Using statistical decision theory to predict speech intelligibility. I Model Structure)」アメリカ音響学会誌(Journal of the Acoustical Society of America)、2001年、109巻、2896〜2909ページ]。
【0034】
図1aと図1bの機能的ブロック図に示され、ここで説明した本発明の態様は、図3a〜3cおよび図4の例のように実行される。この例では、音声成分の周波数形状圧縮増幅と非音声成分処理からの解放は、圧縮および拡大特性双方を実装するマルチ帯域ダイナミックレンジプロセッサ(不図示)で実現される。そのようなプロセッサは、1組のゲイン関数で特徴付けられる。各ゲイン関数は、1周波数帯域の入力パワーを対応する帯域ゲインに関係付け、対応する帯域ゲインはその帯域の信号成分に適用される。そのような関係の1つを図3a〜3cに図示する。
【0035】
図3aを参照して、帯域入力パワー301の推定はゲイン曲線により所望の帯域ゲイン302に関連付けられる。そのゲイン曲線は2成分の曲線の最小値とみなされる。実線で示される1成分の曲線は、圧縮閾値304より大きなパワー推定301の適切に選択された圧縮比(「CR」)303と圧縮閾値以下でのパワー推定の一定のゲインとの圧縮特性を有する。破線で示される、他の成分の曲線は、拡大閾値306より大きなパワー推定の適切に選択された拡大比(「ER」)305と、より小さいパワー推定のゼロのゲインとの拡大特性を有する。最終的なゲイン曲線はこれら2成分の曲線の最小値となる。
【0036】
圧縮閾値304、圧縮比303および圧縮閾値でのゲインは、固定パラメータである。それらの選定は、特定の帯域で音声信号の包絡線とスペクトルがどのように処理されるかを決定する。理想的には、それらは規定された式に従って選定され、その式は、所与の聴力を有する1グループのリスナーに対しそれぞれの帯域で適切なゲインと圧縮比を決定する。そのような規定された式の例はNAL−NL1であり、NAL−NL1はオーストラリアの国立音響研究所(National Acoustics Laboratory)で開発され、エイチ・ディロン(H. Dillon)により「聴覚補助性能の規定(Prescribing hearing aid performance)」[エイチ・ディロン編集、聴覚補助(Hearing Aids)(249〜261ページ);シドニー;ブーメラン・プレス(Boomerang Press)、2001年]で説明される。しかし、それらも、単にリスナーの好みに基づいている。特定の帯域の圧縮閾値304と圧縮比303は、映画のサウンドトラックのせりふの平均レベルなど、所定のオーディオプログラムに特有のパラメータにさらに依存する。
【0037】
圧縮閾値が固定されているのに対し、拡大閾値306は適応型で、入力信号に応じて変化するのが好ましい。拡大閾値は、圧縮閾値より大きな値を含めて、システムのダイナミックレンジ内の任意の値を仮定する。入力信号で音声が支配的であるときには、以下に説明するコントロール信号は拡大閾値を下方レベルに動かし、入力レベルを拡大が適用されるパワー推定のレンジより高くする(図3aと図3b参照)。その条件では、信号に適用されるゲインは、プロセッサの圧縮特性が支配的となる。図3bは、そのような条件を表すゲイン関数の例を示す。
【0038】
入力信号で音声以外のオーディオが支配的なときには、コントロール信号は拡大閾値を高レベルに動かし、入力レベルは拡大閾値より低くなる傾向となる。その条件では、信号成分の大部分はゲインを受けない。図3cはそのような状況を表すゲイン関数の例を示す。
【0039】
前記説明の帯域パワー推定は、フィルタバンクの出力あるいはDFT(離散フーリエ変換)、WDCT(修正離散コサイン変換)あるいはウェーブレット変換などのような時間−周波数ドメイン変換の出力を分析することにより導かれる。パワー推定はまた、信号の平均絶対値、Teagerエネルギのような信号の強さに関連する量、あるいは音量のような知覚の量により置き換えられる。さらに、帯域パワー推定は、時間について平滑化し、ゲインが変化する速さをコントロールする。
【0040】
本発明の態様によれば、拡大閾値は理想的には、信号が音声のとき信号レベルがゲイン関数の拡大領域の上にあり、信号が音声以外のオーディオであるとき信号レベルがゲイン関数の下にあるように置かれる。以下に説明するように、このことは非音声オーディオのレベルを追跡し、そのレベルに関連して拡大閾値を置くことにより達成される。
【0041】
ある従来技術のレベル追跡は、下方への拡大(あるいはスケルチ)がノイズ低減システムの一部として適用されるより低い閾値を設定し、ノイズ低減システムは好ましいオーディオと好ましくないノイズとを弁別しようとする。たとえば、米国特許第3803357号、第5263091号、第5774557号および第6005953号参照。対照的に、本発明の態様では、一方の音声と他方のたとえば音楽や効果音など残りの全てのオーディオ信号間の識別をすることが必要である。従来技術で追跡されたノイズは、好ましいオーディオの時間的空間的包絡線より遥かに小さく変動する時間的空間的包絡線により特徴付けられる。さらに、ノイズは、先験的に知られている独特なスペクトル形状を有する。そのような識別的な特徴は、従来技術のノイズ追跡により使用されている。対照的に、本発明の態様では非音声オーディオ信号のレベルを追跡する。多くの場合、そのような非音声オーディオ信号は、その包絡線とスペクトル形状にばらつきを示し、それらは少なくと
も音声オーディオ信号のものと同じ大きさである。したがって、本発明で用いられるレベル追跡には、音声とノイズの間よりも音声と非音声との間の識別に適した信号特徴を分析する必要がある。
【0042】
図4は、1周波数帯域の音声強調ゲインが、その帯域の信号パワー推定からどのように導かれるかを示す。ここで図4を参照して、帯域限定信号401を表すものがパワー推定器あるいは推定装置(「パワー推定」)402に送られ、パワー推定402はその周波数帯域の信号パワー403の推定を生成する。その信号パワー推定は、パワーゲイン変換あるいは変換機能(「ゲイン曲線」)404に送られ、ゲイン曲線404は図3a〜3cで示される例の形をしていてもよい。パワーゲイン変換あるいは変換機能404は、その帯域(不図示)の信号パワーを修正するのに用いられる帯域ゲイン405を生成する。
【0043】
信号パワー推定403はまた、音声ではない帯域の全信号成分のレベルを追跡する装置または機能(「レベルトラッカ」)406に送られる。レベルトラッカ406は、適応漏洩率の漏洩最少保持回路あるいは機能(「最少保持」)407を含む。この漏洩率は時定数408にコントロールされ、時定数408は音声が主体の信号パワーの時には低く、音声以外のオーディオが主体の信号パワーの時には高くなる傾向がある。時定数408は、その帯域での信号パワー403の推定に含まれる情報から導かれる。具体的には、時定数は、4Hzと8Hzの間の周波数領域の帯域信号包絡線のエネルギに単調に関連する。その特徴は、適切に同調したバンドパスフィルタあるいはフィルタ機能(「バンドパス」)409により抽出される。バンドパス409の出力は、伝達機能(「パワー−時間定数」)410により時定数に関連付けられる。非音声成分のレベル推定411は、レベルトラッカ406により生成されるが、バックグラウンドレベルの推定を拡大閾値414に関連付ける変換あるいは変換機能(「パワー−拡大閾値」)412への入力である。レベルトラッカ406、変換412および下方への拡大(拡大率305により特徴付けられる)の組み合わせは、図1aおよび図1bのVAD108に相当する。
【0044】
変換412は単なる追加であり、すなわち、拡大閾値306は非音声オーディオの推定レベル411より上の固定数値のデシベルである。あるいは、推定バックグラウンドレベル411を拡大閾値306に関連付ける変換412は、ブロードバンド信号が音声である可能性の独立した推定413に依存する。したがって、推定413が、信号が音声である高い可能性を示すときには、拡大閾値は下げられる。反対に、推定413が、信号が音声である低い可能性を示すときには、拡大閾値は増大される。音声可能性推定413は単一の信号特徴からあるいは音声を他の信号から識別した信号特徴の組み合わせから導かれる。それは、図1aおよび図1bのSVO107の出力109に対応する。音声可能性413の推定に由来するそれらを処理する適切な信号特徴と方法は、当業者に周知である。その例は米国特許第6,785,645号、第6,570,991号、および米国特許出願第20040044525号、並びにそれらに含まれる参考文献に説明されている。
【0045】
[参照による組み込み]
下記の特許、特許出願および出版物は、それぞれの全体を参照して本明細書に組み込む。・米国特許第3,803,357号、サックス(Sacks)、1974年4月9日、ノイズ・フィルタ(Noise Filter)
・米国特許第5,263,091号、ウォーラー・ジュニア(Waller, Jr.)、1993年11月16日、インテリジェント自動閾値回路(Intelligent automatic threshold circuit)
・米国特許第5,388,185号、テリー(Terry)他、1995年2月7日、電話音声信号の適応処理用システム(System for adaptive processing of telephone voice signals)
・米国特許第5,539,806号、アレン(Allen)他、1996年7月23日、
電話音量強調の顧客選定のための方法(Method for customer selection of telephone sound enhancement)
・米国特許第5,774,557号、スレイター(Slater)、1998年6月30日、航空機内通話システム用オートトラッキング・マイクロフォン・スケルチ(Autotracking microphone squelch for aircraft
intercom systems)
・米国特許第6,005,953号、シュトゥールフェルナー(Stuhlfelner)、1999年12月21日、信号雑音比を改良するための回路配置(Circuit arrangement for improving the signal-to-noise ratio)
・米国特許第6,061,431号、クナッペ(Knappe)他、2000年5月9日、電話番号分解能に基づく電話技術システムにおける聴力低下矯正の方法(Method
for hearing loss compensation in telephony systems based on telephone number resolution)
・米国特許第6,570,991号、シャイラー(Scheirer)他、2003年5月27日、多特徴の音声/音楽識別システム(Multi-feature speec
h/music discrimination system)
・米国特許第6,785,645号、カリル(Khalil)他、2004年8月31日、リアルタイム音声および音楽分類器(Real-time speech and m
usic classifier)
・米国特許第6,914,988号、イワン(Irwan)他、2005年7月5日、オーディオ再生装置(Audio reproducing device)
・米国公開特許出願第2004/0044525号、ビントン(Vinton)、マーク・スチュアート(Mark Stuart)他、2004年3月4日、音声と他のタイプのオーディオ素材を含む信号における音声の音量の調整(controlling loudness of speech in signals that contain
speech and other types of audio material)
・チャールス・Q・ロビンソン(Charles Q. Robinson)、ケニス・ガンドリ(Kenneth Gundry)「メタデータを介してのダイナミックレンジコントロール(Dynamic Range Control via Metadata)」会議資料5028、第107回オーディオ工学会会議(Audio Engineering Society Convention)、ニューヨーク、1999年9月24−27日
[実施]
本発明は、ハードウェアまたはソフトウェアで、あるいは両方の組み合わせ(たとえば、プログラマブル・ロジック・アレイ)で実施できる。特に断らない限り、本発明の一部として含まれるアルゴリズムは、本質的に特定のコンピュータや他の装置に関連することはない。特に、種々の汎用機を本書の教示に従って書かれたプログラムと用いてもよく、あるいは、必要な方法のステップを実行するための、さらに特化した装置(たとえば、集積回路)を構築すると、さらに使いやすくなる。よって、本発明は、1つ以上のプログラム可能なコンピュータシステム上で実行する1つ以上のコンピュータプログラムで実施され、それぞれのシステムは、少なくとも1つのプロセッサ、少なくとも1つのデータ保存システム(揮発性および不揮発性メモリおよび/または保存要素を含む)、少なくとも1つの入力装置あるいはポート、および、少なくとも1つの出力装置あるいはポートを備える。プログラムコードは、本書で説明した機能を実行するのにデータを入力し、出力情報を生成するのに用いられる。出力情報は、周知のやり方で、1つ以上の出力装置に適用される。
【0046】
そのようなプログラムのそれぞれは、コンピュータシステムとコミュニケーションするのにどのようなコンピュータ言語(機械語、アセンブリ、あるいは、高水準手続、論理あるいはオブジェクト指向プログラム言語を含む)で実行されてもよい。どのような場合であっても、言語はコンパイルされた言語またはインタープリットされた言語でよい。
【0047】
各コンピュータプログラムは、汎用または専用プログラム可能コンピュータで可読な保存媒体または装置(たとえば、ソリッドステートメモリ若しくは媒体、または、磁気若しくは光学媒体)に保存され、あるいは、ダウンロードされるのが好ましく、保存媒体または装置がコンピュータシステムで読み取られて本書で説明した手順を実行するときに、コンピュータを構築し作動する。本発明のシステムは、コンピュータプログラムで構築されるコンピュータ可読保存媒体として実行されることも考えられ、そのように構築された保存媒体は、コンピュータシステムに特定の予め定めた方法で動作し、本書で説明した機能を実行させる。
【0048】
多くの本発明の実施の形態を説明してきた。それでもなお、本発明の思想と範囲から離れることなしに種々の改変がなされうることは分かるであろう。たとえば、本書で説明したステップのいくつかは、順番が自由であり、よって、説明された順番とは異なる順番で実行することができる。

【特許請求の範囲】
【請求項1】
エンターテイメントオーディオの音声を強調する方法であって、
前記エンターテイメントオーディオの音声部分の明瞭度と了解度を改良するため、前記エンターテイメントオーディオを、1つ以上のコントロール信号に応答して処理する工程を備え、
前記処理する工程は、
複数の周波数帯域のそれぞれの前記エンターテイメントオーディオのレベルを、ゲイン曲線から求まる帯域信号レベルに対応したゲイン特性に従って、変化させる工程と;
周波数帯域のそれぞれの前記ゲイン特性を変化させるコントロール信号を生成する工程と
を含み、
前記生成する工程は、
前記エンターテイメントオーディオの時間断片を(a)音声もしくは非音声、または、(b)音声である可能性が高いまたは非音声である可能性が高いとして特徴付ける工程であって、前記特徴付ける工程は、単一の広周波数帯域に作用する、特徴付ける工程と;
前記複数の周波数帯域のそれぞれで、音声レベルの変動量を得る工程と;
前記複数の周波数帯域のそれぞれで、前記帯域でのオーディオレベルの最小値を追跡する工程であって、時定数は、前記変動量に応答して低くまたは高くなる、追跡する工程と;
前記エンターテイメントオーディオの非音声成分のレベル推定を、対応する適応閾値レベルに変換する工程と;
各帯域における入力信号としての前記エンターテイメントオーディオに応じて、前記各対応する適応閾値レベルを導出する工程と
を含み、
前記時定数は、前記エンターテイメントオーディオの適応漏洩率を制御する、
方法。
【請求項2】
エンターテイメントオーディオの音声を強調する方法であって、
前記エンターテイメントオーディオの音声部分の明瞭度と了解度を改良するため前記エンターテイメントオーディオを1つ以上のコントロール信号に応答して処理する工程を備え、
前記処理する工程は、
複数の周波数帯域のそれぞれの前記エンターテイメントオーディオのレベルを、ゲイン曲線から求まる帯域信号レベルに対応したゲイン特性に従って、変化させる工程と;
周波数帯域のそれぞれの前記ゲイン特性を変化させるコントロール信号を生成する工程と
を含み、
前記生成する工程は、
(a)音声もしくは非音声、または、(b)音声である可能性が高いまたは非音声である可能性が高いという、前記エンターテイメントオーディオの時間断片の特徴を受信する工程であって、前記受信する工程は、単一の広周波数帯域に関連する、受信する工程と;
前記複数の周波数帯域のそれぞれで、音声レベルの変動量を得る工程と;
前記複数の周波数帯域のそれぞれで、前記帯域でのオーディオレベルの最小値を追跡する工程であって、時定数は、前記変動量に応答して低くまたは高くなる、追跡する工程と;
各周波数帯域の追跡された最小値を対応する適応閾値レベルに変換する工程と;
前記エンターテイメントオーディオの非音声成分のレベル推定を、対応する適応閾値レベルに変換する工程と;
各帯域における入力信号としての前記エンターテイメントオーディオに応じて、前記各
対応する適応閾値レベルを導出する工程と
を含み、
前記時定数は、前記エンターテイメントオーディオの適応漏洩率を制御する、
方法。
【請求項3】
処理するポイントの前と後で前記エンターテイメントオーディオの経過時間の或る時点にアクセスすることができ、
前記コントロール信号を生成する工程は、前記処理するポイントの後の少なくとも若干のオーディオに応答する、
請求項1または2記載の方法。
【請求項4】
前記処理する工程は、1つあるいは複数の処理パラメータに従って動作する、
請求項1〜3いずれか1項記載の方法。
【請求項5】
1つあるいは複数の前記処理パラメータの調整は、処理されたオーディオの音声了解度のメトリックが最大化されるか所定の閾値レベル以上になされるかするように、前記エンターテイメントオーディオに応答する、
請求項4記載の方法。
【請求項6】
前記エンターテイメントオーディオは複数チャンネルのオーディオを備え、前記複数チャンネルのオーディオでは、1つのチャンネルは主として音声であり、1つ以上の他のチャンネルは主として非音声であり、
音声了解度のメトリックは、前記音声のチャンネルのレベルと前記1つ以上の他のチャンネルのレベルに基づく、
請求項5記載の方法。
【請求項7】
前記音声了解度のメトリックは、前記処理されたオーディオが再生される聴取環境でのノイズのレベルにも基づく、
請求項5または6記載の方法。
【請求項8】
1つあるいは複数の処理パラメータの調整は、前記エンターテイメントオーディオの1つ以上の長期間の記述子に応答する、
請求項4〜7いずれか1項記載の方法。
【請求項9】
前記長期間の記述子は、前記エンターテイメントオーディオのせりふの平均レベルである、
請求項8記載の方法。
【請求項10】
前記長期間の記述子は、予め記録された前記エンターテイメントオーディオの処理の推定である、
請求項8または9記載の方法。
【請求項11】
1つあるいは複数のパラメータの調整は規定された式に従い、
前記規定された式は、1人のリスナーまたはグループのリスナーの聴力を前記1つあるいは複数の処理パラメータに関連付ける;
請求項4記載の方法。
【請求項12】
1つあるいは複数のパラメータの調整は、1人または複数のリスナーの好みに従う、
請求項4記載の方法。
【請求項13】
前記処理する工程は、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する、
請求項1〜12のいずれか1項記載の方法。
【請求項14】
ダイナミックレンジコントロールは、ダイナミックレンジ圧縮/拡大機能により提供される、
請求項13記載の方法。
【請求項15】
請求項1〜14のいずれか1項記載の方法を実行するのに用いられる手段を備える、装置。
【請求項16】
請求項1〜14のいずれか1項記載の方法をコンピュータに実行させるためにコンピュータ可読媒体に保存された、コンピュータプログラム。
【請求項17】
請求項1〜14のいずれか1項記載の方法をコンピュータに実行させるコンピュータプログラムを保存している、コンピュータ可読媒体。

【図1a】
image rotate

【図1b】
image rotate

【図2】
image rotate

【図3a】
image rotate

【図3b】
image rotate

【図3c】
image rotate

【図4】
image rotate


【公開番号】特開2013−92792(P2013−92792A)
【公開日】平成25年5月16日(2013.5.16)
【国際特許分類】
【出願番号】特願2012−283295(P2012−283295)
【出願日】平成24年12月26日(2012.12.26)
【分割の表示】特願2009−551991(P2009−551991)の分割
【原出願日】平成20年2月20日(2008.2.20)
【出願人】(507236292)ドルビー ラボラトリーズ ライセンシング コーポレイション (82)