オーディオ信号のラウドネスレベルの自動補正

【課題】異なる運転状況にある乗り物において、オーディオ信号のラウドネスレベルのダイナミックな自動補正をすること。
【解決手段】人間聴覚の心理音響モデルに基づいて、オーディオ入力信号の知覚されたラウドネスをダイナミックに決定する。知覚されたラウドネスを受け取り、オーディオ出力信号を出力するゲイン決定ユニットによって出力されたオーディオ出力信号のゲインは、ダイナミックに決定される。オーディオ出力信号が出力されるスペース内の周囲ノイズを推定する。ゲイン決定ユニットによってオーディオ出力が影響される程度は、推定された周囲ノイズに基づいて決定される。

【発明の詳細な説明】
【技術分野】
【０００１】
（技術分野）
本発明は、異なる信号レベル範囲を有する少なくとも２つの異なるトラックを含むオーディオ出力信号のゲインを適合するための方法と、そのためのシステムとに関する。
【背景技術】
【０００２】
（背景）
この分野において、音楽および／またはスピーチを含むオーディオ信号の多数の異なるソースが知られる。音楽の信号は、ＣＤ、ＤＶＤまたは他の格納媒体に格納され得る。具体的には、ＭＰＥＧのような新しい圧縮仕組みの発展とともに、異なるジャンルおよびアーティストのオーディオ信号は、格納媒体に格納され、ユーザーに最後まで演奏されるべきプレイリストに組み合わされ得る。具体的には、乗り物の環境において、乗客によって知覚されるオーディオ信号は、オーディオ信号自身と、ロードタイヤのノイズ、空気力学のノイズおよびエンジンのノイズとを含む。異なるオーディオソースの異なるオーディオ信号は、しばしば、異なる信号およびダイナミックスの圧縮レベルを有する。しばしば、オーディオ出力信号の異なるトラックは、ユーザーによって異なるラウドネスレベルとともに知覚される異なる信号レベルの範囲を有する。具体的には、乗り物の環境において、受け取られたオーディオ信号は、ユーザーに対して知覚可能であるべき、それは、そのオーディオ信号が乗り物内に現れるノイズを超えなければならないことを意味する。同時に、全部のオーディオ信号のレベルは、聴覚のダメージが生成され得、またはユーザーにとって知覚が苦痛である一定のレベルを超えてならない。
【０００３】
さらに、乗り物の環境において、周囲ノイズは、乗り物の速度に強く依存する。
【発明の概要】
【発明が解決しようとする課題】
【０００４】
（要約）
従って、異なる運転する状況での乗り物において、オーディオ信号のラウドネスレベルのダイナミックな自動補正をさせるためのニーズが存在する。
【課題を解決するための手段】
【０００５】
このニーズは独立請求項の特徴によって満たされる。従属請求項において、本発明の好ましい実施形態が記述される。
【０００６】
本発明の第１の局面によると、異なる信号レベルの範囲を有する少なくとも２つの異なるトラックを含むオーディオ出力信号のゲインを適合するための方法は提供される。方法は、人間聴覚の心理音響モデルに基づいて、オーディオ入力信号の知覚されたラウドネスをダイナミックに決定するステップを含む。さらに、決定されたラウドネスを受け取り、オーディオ出力信号を出力するゲイン決定ユニットによって出力されたオーディオ出力信号のゲインは、ダイナミックに決定され、ゲインは、オーディオ出力信号の前記少なくとも２つのトラックが信号レベルの所定の範囲内に出力されるように決定される。さらに、オーディオ出力信号が出力されるスペース内の周囲ノイズが推定され、ゲイン決定ユニットによって決定されたゲインがオーディオ出力信号に影響する程度を決定する。次に、ゲイン決定ユニットによってオーディオ出力が影響される程度は、推定された周囲ノイズに基づいて決定される。推定された周囲ノイズが非常に低い場合、例えば乗り物が停止または非常に遅い速度で走るとき、ゲイン決定ユニットによるゲイン適合はまったく必要がない。しかし、信号レベルが、ユーザーによって知覚可能な十分の高さであるべき、ただし高すぎにならないために、より速い乗り物の速度で、ダイナミックに決定されたゲイン適合はより役に立て得る。異なるトラックが所定の範囲内に出力されるように出力信号レベルを自動的に適合することによって、異なるトラックの１つの当量ラウドネスは得られ得る。さらに、ユーザーによるボリュームの調整は、もはや必要がない。具体的には、高い信号圧力レベルＳＰＬを有するトラックまたはオーディオ信号のボリュームの減少も、比較できる低い信号圧力レベルを有するオーディオ信号の場合のボリュームの増大も避けられる。このように、全部の異なるオーディオ信号ソースの当量ラウドネスを有し、同時にオーディオ信号のダイナミックな構造を保つことは可能である。
【０００７】
ラウドネスは、前記心理音響モデルだけまたはオーディオ入力信号の信号統計との組み合わせを用いて決定され得る。
【０００８】
周囲ノイズを推定するための１つの可能性は、オーディオ出力信号が出力される乗り物の乗り物の速度を決定することであり、決定された乗り物の速度から周囲ノイズを導くことである。この実施形態において、マイクロフォンを介する周囲ノイズの正確な測定は必要がなく、周囲ノイズは、乗り物の速度から導かれ得る。しかし、代わりに、マイクロフォンが周囲ノイズを推定するようにも使われ得ることは理解されるべきである。マイクロフォン信号は、次に、周囲ノイズを推定するように、単独にまたは乗り物の速度との組み合わせで使われ得る。
【０００９】
１つの実施形態において、推定された周囲ノイズが所定の閾値より低い場合、オーディオ出力信号が、ゲイン決定ユニットによって少しも影響され得ないことは可能である。例えば乗り物の速度によって決定されるような周囲ノイズが低いとき、ゲイン決定ユニットによるゲインの適合が必要ない場合もあり、オーディオ出力信号は、オーディオソースによって提供されるような信号レベルの範囲を用いて出力され得る。さらに、ダイナミックに決定されたゲインが、周囲ノイズの増大とともに、すなわち、乗り物の速度の増大とともにオーディオ出力信号に影響する程度を増大することは可能である。これは、乗り物の速度が高いほど、ゲイン決定ユニットが出力信号の信号レベルまたはラウドネスの範囲により大いに影響することを意味する。
【００１０】
より好ましい実施形態によると、方法は、前記少なくとも２つの異なるトラックの間のポーズ、またはノイズが支配的なオーディオ入力信号であるトラック内のポーズを決定するステップを含む。このようなノイズを有するポーズが検出されるとき、ゲインは、ノイズの増幅を避けるために、決定されたポーズ内に減少される。本発明の１つの実施形態において、オーディオ入力信号がオーディオ入力信号を聞くリスナーによって知覚されるとき、ノイズは、入力信号がオーディオ入力信号の空間の知覚のシミュレーションを用いて局在化され得るかどうかを決定することにより、バイノーラル方式局在化モデルに基づいて、オーディオ入力信号内に検出される。前記人間聴覚の心理音響モデルを用いてオーディオ入力信号を局在化することが可能である場合、次に、オーディオ入力信号は、ノイズと考えられない。しかし、オーディオ入力信号が局在化され得ない場合、次に、オーディオ入力信号は、主にノイズを含むことと考えられる。そのゆえに、ノイズのみを含むオーディオ信号のラウドネスの増大を避けることは可能である。好ましくは、ポーズが所定の時間期間、例えば１０〜１００ミリ秒の間、好ましくは約５０ミリ秒を超えて検出される場合、ゲインはポーズのために減少される。このように、音楽信号がない非常に短い期間が含まれるトラックの間のゲインを下げることを避けるために、ポーズが、例えば５０ミリ秒より長い時間で検出される場合のみ、ゲインは下げられる。しかしオーディオ入力信号がもっと情報を含み、入力信号レベルが非常に低い場合、次に、ゲインは、オーディオ出力信号が信号レベルの所定の範囲にわたるようにゲインを増大することによって、それに応じて適合されるべきである。このように、高すぎるオーディオ入力レベルを有するオーディオ入力信号は、信号レベルの所定の範囲が覆われるようにゲインをコントロールすることによって低下される。局在化モデルは、入力信号の局在化能力に基づいて、ポーズの検出のために使われ得る。局在化モデルは、ラウドネスを推定するようにさらに使われ得る。
【００１１】
普通は、オーディオ信号は、サンプルバイサンプルの処理と比較して処理時間を節約するようにブロック内に処理される。本発明の１つの実施形態によると、各ブロックのゲインは、時間定数を用いて決定され、この時間定数が、１つの単一ブロックから次のブロックへのラウドネスの変化を記述する。この実施形態において、立上り時間定数は、２つの連続したブロックの間の立上り信号ラウドネスを記述するように使われ、立下り時間定数は、２つの連続したブロックの間の立下りラウドネスを記述するように使われる。ブロックは、１つまたはいくつかのデジタルオーディオ入力信号のサンプルを含む。好ましくは、時間定数は、立上り時間定数が、ラウドネスの減少をさせる立下り時間定数より速いラウドネスの増大をさせるように構成される。速いラウドネスの増大は、単一ポーズの後に新しいトラックの始まりで必要であり、そこで、１つのブロックから他のブロックへのラウドネスを突然増大することは必要である。２つのブロックの間のより低い可能なラウドネスの減少は、オーディオ信号にオリジナルに含まれる増大されたラウドネスのダイナミックスを維持することを可能にする。
【００１２】
好ましくは、時間定数は、適応時間定数であり、適応時間定数は、時間定数が、トラックの始まりに、後でのトラックの間より速く変えさせられるように適合される。これは、トラックの始まりにラウドネスの速い適合をさせ、それでも、オーディオ信号内に、例えば音楽トラック内に含まれるダイナミックスを維持するように助ける。具体的には、クラシックの音楽を含む音楽トラックにおいて、信号内にオリジナルに含まれるような信号レベルのダイナミックスは維持すべきである。
【００１３】
好ましくは、２つのトラックの間のポーズが検出されるとき、適応時間定数はリセットされる。何人かのオーディオ信号ソースのユーザーが、適合されたラウドネスためのゲインを適合することなしに、オリジナルなオーディオ信号のダイナミックな範囲を維持したいことは可能である。
【００１４】
さらに、オーディオ入力信号が出力される前に、オーディオ入力信号は遅延され得、遅延が、適合されたゲインを決定するのに必要とされる時間に対応する。この遅延は、一定であり得、または適合されたゲインの計算とともに変わり得る。
【００１５】
本発明はさらに、人間聴覚の心理音響バイノーラル方式モデルに基づいて、およびひいては音楽入力信号の信号統計または２つの組み合わせに基づいて、オーディオ入力信号のラウドネスをダイナミックに決定するラウドネス決定ユニットを含む前述されたようなゲインを適合するシステムに関する。ゲイン決定ユニットは、決定されたラウドネスを受け取るシステム内に提供され、ゲイン決定ユニットは、適合されたゲインを有する音楽出力信号を出力し、ゲイン決定ユニットは、オーディオ出力信号の前記少なくとも２つのトラックが、それらが信号レベルの所定の範囲にわたるように出力されるように、音楽出力信号のゲインをダイナミックに決定する。
【００１６】
システムは、オーディオ出力信号が出力されるスペース内の周囲ノイズを推定するように構成される周囲ノイズ推定ユニットをさらに含む。さらに、ゲインコントロールユニットは提供され、ゲイン決定ユニットによって決定されたゲインがオーディオ出力信号に影響する程度を決定するように構成され、ゲインコントロールユニットは、推定された周囲ノイズに基づいて、ゲイン決定ユニットによってオーディオ出力信号が影響される程度を決定する。前文の本発明の方法に関連して議論されたように、周囲ノイズ推定器は、周囲ノイズを推定するために、乗り物の速度を使い得る。周囲ノイズが所定の閾値より低い場合、ゲインコントロールユニットは、ゲイン決定ユニットの影響をきかなくし得る。
【００１７】
オーディオ解析ユニットは、前述されたように、入力信号を局在化するための可能性を解析することによって、または信号統計を使うことよって、ポーズを決定する。音楽解析ユニットは、入力信号の空間の適合のシミュレーションを用いて、オーディオ入力信号を局在化しようとする。リスナーによって知覚されるような音楽入力信号の空間の知覚を用いる局在化の１つの実施形態は、ＥＰ１５２２８６８Ａ１に記述される。局在化のさらなる詳細に関する参考文献は、本明細書に加えられる。さらなる詳細は、ＷｏｌｆｇａｎｇＨｅｓｓら、「ＡｃｏｕｓｔｉｃａｌＥｖａｌｕａｔｉｏｎｏｆＶｉｒｔｕａｌＲｏｏｍｓｂｙＭｅａｎｓｏｆＢｉｎａｕｒａｌＡｃｔｉｖｉｔｙＰａｔｔｅｒｎｓ」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎＰａｐｅｒ５８６４、第１１５回大会、（２００３年１０月）、にも見つけられ得る。信号ソースの局在化に関する参考文献は、Ｗ．Ｌｉｎｄｅｍａｎｎ、「ＥｘｔｅｎｓｉｏｎｏｆａＢｉｎａｕｒａｌＣｒｏｓｓ−ＣｏｒｒｅｌａｔｉｏｎＭｏｄｅｌｂｙＣｏｎｔｒａｌａｔｅｒａｌＩｎｈｉｂｉｔｉｏｎ．Ｉ．ＳｉｍｕｌａｔｉｏｎｏｆＬａｔｅｒａｌｉｚａｔｉｏｎｆｏｒＳｔａｔｉｏｎａｒｙＳｉｇｎａｌｓ」、ＪｏｕｒｎａｌｏｆＡｃｏｕｓｔｉｃＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ、（１９８６年１２月）、１６０８−１６２２頁、８０巻（６号）、にさらに加えられる。
【００１８】
オーディオ解析ユニットは、前述されたように適応時間定数を決定し、ポーズが検出されるときに適応時間定数をリセットする。オーディオ信号の異なるトラックは、前述されたポーズ検出を用いて異なるトラックの内容を認知することによって分けられ得る。
【００１９】
さらに、遅延ユニットは、存在し得、オーディオ出力信号がコントロールされたゲインを用いて出力される前に、オーディオ出力信号にその遅延時間を導入する。遅延要素は、適合されたゲインを決定するのに必要される遅延時間に対応する遅延を導入する。
【００２０】
上記課題を解決するために、本発明は、例えば、以下を提供する。
（項目１）異なる信号レベルの範囲を有する少なくとも２つの異なるトラックを含むオーディオ出力信号のゲインを適合するための方法であって、該方法は、
人間聴覚の心理音響モデルに基づいて、オーディオ入力信号の知覚されたラウドネスをダイナミックに決定するステップと、
該知覚されたラウドネスを受け取るゲイン決定ユニット（３５）によって出力された該オーディオ出力信号のゲインをダイナミックに決定するステップであって、該ゲイン決定ユニット（３５）が、該決定されたゲインを有する該オーディオ出力信号を出力し、該ゲインが、該オーディオ出力信号の該少なくとも２つのトラックが信号レベルの所定の範囲またはラウドネスの範囲にわたって出力されるように決定される、ステップと、
該オーディオ出力信号が出力されるスペース内の周囲ノイズを推定するステップと、
該ゲイン決定ユニットによって決定されたゲインが該オーディオ出力信号に影響する程度を決定するステップであって、該ゲイン決定ユニットによってオーディオ出力が影響される程度が、該推定された周囲ノイズに基づいて決定される、ステップと
を含む、方法。
（項目２）上記推定された周囲ノイズが所定の閾値より低い場合、上記オーディオ出力信号は、上記ゲイン決定ユニットによって決定されたゲインに影響されない、上記項目のいずれかに記載の方法。
（項目３）上記周囲ノイズは、乗り物の速度を決定することによって推定され、該周囲ノイズが、該乗り物の速度から導かれる、上記項目のいずれかに記載の方法。
（項目４）上記ダイナミックに決定されたゲインが上記オーディオ出力信号に影響する程度は、上記推定された周囲ノイズの増大とともに増大する、上記項目のいずれかに記載の方法。
（項目５）上記オーディオ入力信号および出力信号の各トラックは、音楽信号の連続したブロックを含み、各該ブロックのラウドネスは、時間定数を用いて決定され、該時間定数が、１つのブロックから次のブロックまでのラウドネスの変化を記述する、上記項目のいずれかに記載の方法。
（項目６）立上り時間定数は、２つの連続したブロックの間の立上りラウドネスを記述するために使われ、立下り時間定数は、２つの連続したブロックの間の立下りラウドネスを記述するように使われ、上記時間定数は、該立上り時間定数が、ラウドネスの減少をさせる該立下り時間定数より速いラウドネスの増大をさせるように構成される、上記項目のいずれかに記載の方法。
（項目７）上記時間定数は、適応時間定数であり、該適応時間定数は、該時間定数が、上記トラックの開始時に、後のトラックの間よりも速く変化することを許可されるように適合される、上記項目のいずれかに記載の方法。
（項目８）上記適応時間定数は、上記２つのトラックの間にポーズが検出されるとき、リセットされ、該ポーズは、上記オーディオ入力信号が、バイノーラル方式局在化モデル単独で、または信号統計モデルとの組み合わせを用いて、局在化され得るかどうかを決定することによって検出される、上記項目のいずれかに記載の方法。
（項目９）上記オーディオ入力信号が出力される前に、該オーディオ入力信号内に遅延時間を含むステップをさらに含み、該遅延時間は、上記オーディオ出力信号のためのゲインを決定するのに必要とされる時間に対応する、上記項目のいずれかに記載の方法。
（項目１０）異なる信号レベルの範囲を有する少なくとも２つの異なるトラックを含むオーディオ出力信号のゲインを適合するシステムであって、該システムが、オーディオ入力信号を受け取り、該適合されたゲインを有する該オーディオ出力信号を出力し、該システムは、
人間聴覚の心理音響モデルに基づいて、該オーディオ入力信号のラウドネスをダイナミックに決定する、ラウドネス決定ユニット（３１）と、
決定されたラウドネスを受け取り、該適合されたゲインを有する該オーディオ出力信号を出力するゲイン決定ユニット（３５）であって、該オーディオ出力信号の該少なくとも２つのトラックが信号レベルの所定の範囲にわたって出力されるように、該オーディオ出力信号のゲインをダイナミックに決定する、ゲイン決定ユニット（３５）と、
該オーディオ出力信号が出力されるスペース内の周囲ノイズを推定するように構成される、周囲ノイズ推定ユニット（５０）と、
該ゲイン決定ユニットによって決定されたゲインが該オーディオ出力信号に影響する程度を決定するように構成されるゲインコントロールユニット（４１）であって、推定された周囲ノイズに基づいて、該ゲイン決定ユニットによってオーディオ出力信号が影響される程度を決定する、ゲインコントロールユニットと
を含む、システム。
（項目１１）上記オーディオ入力信号が、該オーディオ入力信号を聞くリスナーによって知覚されるようなオーディオ入力信号の空間の知覚のシミュレーションを用いて局在化され得るかどうかを決定することにより、上記少なくとも２つの異なるトラックの間またはノイズが該オーディオ入力信号の支配的な部分であるトラック内のポーズを決定するポーズ検出ユニット（３３）をさらに含み、上記ゲイン決定ユニット（３５）が、決定されたポーズ内のゲインを減少する、上記項目のいずれかに記載のシステム。
（項目１２）上記オーディオ入力および出力信号の各トラックは、音響信号の連続したブロック（２５）を含み、時間定数生成ユニット（３２）は、該オーディオ入力信号の該連続したブロックのための時間定数（２６）を決定し、該時間定数（２６）が、１つの該ブロックから次の該ブロックまでのラウドネスの変化を記述し、上記ゲイン決定ユニット（３５）は、該時間定数に基づいて上記オーディオ出力信号のゲインを決定する、上記項目のいずれかに記載のシステム。
（項目１３）上記時間定数生成ユニット（３２）は、２つの連続したブロックの間の立上りラウドネスを記述するための立上り時間定数と、２つの連続したブロックの間の立下りラウドネスを記述するための立下り時間定数とを使い、該時間定数生成ユニットは、該立上り時間定数が、ゲインの減少をさせる該立下り時間定数より速いゲインの増大をさせるように、時間定数を決定する、上記項目のいずれかに記載のシステム。
（項目１４）上記時間定数生成ユニット（３２）は、上記時間定数が、適応時間定数であり、上記トラックの開始時に、後のトラックの間よりも速くブロックからブロックまでの間で変化し得るように、該時間定数を決定する、上記項目のいずれかに記載のシステム。
（項目１５）上記時間定数生成ユニット（３２）は、該ユニットが上記２つのトラックの間のポーズを検出するとき、上記時間定数をリセットする、上記項目のいずれかに記載のシステム。
（項目１６）上記オーディオ入力信号が、出力信号として出力される前に、該オーディオ入力信号に遅延時間を導入する遅延要素（４２）をさらに含み、該遅延要素は、上記オーディオ出力信号のためのゲインを決定するのに必要とされる時間に対応する該遅延時間を導入する、上記項目のいずれかに記載のシステム。
（項目１７）上記ゲインコントロールユニットは、上記推定されたノイズが所定の閾値より低いとき、上記オーディオ出力信号上に上記ゲイン決定ユニット（３５）の影響を除去するように構成される、上記項目のいずれかに記載のシステム。
【００２１】
（摘要）
本発明は、異なる信号レベルの範囲を有する少なくとも２つの異なるトラックを含むオーディオ出力信号のゲインを適合するための方法に関し、方法は、
人間聴覚の心理音響モデルに基づいて、オーディオ入力信号の知覚されたラウドネスをダイナミックに決定するステップと、
知覚されたラウドネスを受け取るゲイン決定ユニット（３５）によって出力されたオーディオ出力信号のゲインをダイナミックに決定するステップであって、ゲイン決定ユニット（３５）が、決定されたゲインを有するオーディオ出力信号を出力し、ゲインが、オーディオ出力信号の少なくとも２つのトラックが信号レベルの所定の範囲またはラウドネスの範囲にわたって出力されるように決定される、ステップと、
オーディオ出力信号が出力されるスペース内の周囲ノイズを推定するステップと、
ゲイン決定ユニットによって決定されたゲインがオーディオ出力信号に影響する程度を決定するステップであって、ゲイン決定ユニットによってオーディオ出力が影響される程度が、推定された周囲ノイズに基づいて決定される、ステップと
を含む。
【図面の簡単な説明】
【００２２】
（図面の簡単な記述）
本発明は、添付の図面を参照するとともにもっと詳細に記述される。
【図１】図１は、ノイズおよびオーディオの成分を含む乗り物内の音の成分を概要的に示す。
【図２】図２は、オーディオ入力信号と、ゲイン適合なしに、ラウドネスを平らにするための異なる時間定数、例えばラウドネスを増大するための速い反応およびラウドネスレベルを減少することでの遅れた反応を含む推定されたラウドネスとの例を示す。
【図３】図３は、フル信号の内容が知られるとき、自動ラウドネス調整のために調整されるべきような理想的に補正されたオーディオ入力信号のダイナミックなレベル調整を示し、−１２の平均ラウドネスラインが示される。
【図４】図４は、オーディオ出力信号のゲインを適合するのに使われるシステムを概要的に示す。
【図５】図５は、オーディオ入力信号のラウドネスを決定するのに使われるオーディオ解析ユニットのより詳細な図を示す。
【図６】図６は、ゲインが１つのブロックからもう１つのブロックへ変わることを示すオーディオ信号に時間定数の導入を概要的に示す。
【図７】図７は、自動ラウドネス適合がないおよびあるオーディオ出力信号レベルを示す。
【図８】図８は、自動ラウドネス適合の前および後のオーディオ入力信号のもう１つの例を示す。
【発明を実施するための形態】
【００２３】
（詳細な記述）
図１から理解され得るように、使用された乗り物に依存して、異なる周囲ノイズは、乗り物に乗っている者によって知覚される。乗り物の音の信号は、ノイズ成分１０と、オーディオ信号成分２０とを含む。ノイズ信号成分１０は、ロードタイヤのノイズ、空気力学のノイズまたはエンジンのノイズのためであり得る。図１の右の部分において、異なる乗り物のノイズの乗り物の速度依存が示される。曲線１１は、ロードスターまたはスポーツ車内に生成されるようなノイズを記述し、一方、曲線１２は、ＳＵＶの速度依存のノイズを示す。理解され得るように、ノイズは、６０と８５ｄＢＳＰＬ（単一圧力レベル）の間の値を有し得る。聴覚の苦痛の閾値が約１２０ｄＢＳＰＬであるとして、オーディオ信号成分の範囲は、２０−４０ｄＢＳＰＬ内にある。
【００２４】
図２の上側部分において、オーディオ入力信号の信号レベルはフルスケールで示され、それは、０ｄＢフルスケール（０ｄＢＦＳ）が、デジタル領域内に最大可能な単一レベルに割り当てられることを意味し、ｄＢフルスケールがフルスケールに対するデシベルを意味する。図２の上側部分から理解され得るように、信号レベルがかなり変わり、それによってユーザーに知覚されるような信号に対応するラウドネスレベルもかなり変わる。図２の低い方の部分において、対応するラウドネスは、信号入力レベルから推定された。ラウドネス推定の１つの可能性は、提案書ＩＴＵ−ＲＢＳ．１７７０−１（「ＡｌｇｏｒｉｔｈｍｓｔｏＭｅａｓｕｒｅＡｕｄｉｏＰｒｏｇｒａｍＬｏｕｄｎｅｓｓａｎｄｔｏａＰｅａｋＡｕｄｉｏＬｅｖｅｌ」）に記述される。本出願において、ラウドネスは、バイノーラル方式局在化モデルによって推定され得る。図２に示されるような音の信号が乗り物内のユーザーに対して最後まで演奏される場合、オーディオ信号のいくつかの部分は不愉快なラウドネスで知覚され得、一方、オーディオ信号の他の部分が低すぎてユーザーによって正しく知覚されないことは考えられ得る。図３において、図２の信号の理想的に調整されたレベルが示される。例に言えば、範囲２１の信号サンプルは、より低い信号レベルに適合されるべきであり、一方、範囲２２の信号は、ユーザーによる優れた知覚のためにより高い信号レベルに適合されるべきである。同様に、範囲２３の信号は、強く減少された信号レベルを用いて出力されるべきである。
【００２５】
図３の低い方の部分において、上側部分の理想的に調整されたレベルの対応する推定されたラウドネスが示される。図２の低い方の部分が図３の低い方の部分と比較されると、図２に示されるようなラウドネス推定に対して、図３に示されるようなラウドネス推定が好ましいであることが導かれ得る。図３のラウドネス推定は、図２のラウドネス推定よりよく知覚され得る。平らにされ、相対的に一定のラウドネスは達成され、ここで視覚化される。
【００２６】
図４において、図３の実施形態に概要的に示されるように、ラウドネスが適合され得るのに用いるシステムが示される。示されるシステムは、オーディオ信号解析ユニット３０を含み、オーディオ信号解析ユニット内にエンターテイメントオーディオ信号のようなオーディオ入力信号のラウドネスが、人間聴覚の心理音響的局在化モデルを用いて、および信号統計を用いて決定される。オーディオ入力信号１９は、ゲインコントロールユニット４１および遅延要素４２を含む信号コントローラ４０内に入力される。ゲインコントロールユニットによって決定されるゲインは、ユーザーインターフェース５０を用いてコントロールされ、そこで、オーディオ出力信号が、拡声器６０を介して出力され、または後処理のステージに与えられる前に、オーディオ出力信号１９に使われるゲイン決定ユニットによって決定されたゲインを与えるかどうかが決定され得る。エンターテイメントおよびオーディオ入力信号は、２．０、５．１または７．１オーディオ信号または他の形式であり得、オーディオ信号１８としてオーディオ信号解析ユニットおよび信号コントローラ４０に入力される。
【００２７】
信号解析ユニット３０において、人間聴覚の心理音響モデルに基づいて、および信号統計に基づいて、ラウドネスが決定されることは記号的に示される。心理音響モデルは、ラウドネス、音の局在化を推定し、例えば、ポーズの間または２つのトラックの間に、ノイズが支配的な因子としてオーディオ入力信号内に現れるかどうかを決定するように使われる。信号統計は、ラウドネスを決定または推定するための、およびノイズとともにポーズがオーディオ信号内に現れるかどうかを決定するための第２の基準である。例に言えば、エンターテイメントオーディオ信号の信号強度は決定され得る。心理音響モデルだけまたは統計的信号モデルとの組み合わせに基づいて、ラウドネス適合は、後でもっと詳細に記述されるように適応時間定数をダイナミックに決定することによって決定される。
【００２８】
図５において、オーディオ信号解析ユニット３０のより詳細な図が示される。オーディオ信号解析ユニットは、受信されたオーディオ入力信号のラウドネスを推定するラウドネス決定ユニット３１を含む。ラウドネス決定ユニット３１は、特にＩＴＵ−ＲＢＳ１７７０−１に記述されるように、当技術分野で周知の方法を用いてラウドネスを決定し得る。ラウドネス決定ユニットは、ラウドネスを決定するための、および、オーディオ入力信号１８が、ユーザーが前記オーディオ入力信号を聞くとき、ユーザーによって局在化され得るかどうかおよびどこかを決定するための人間聴覚のバイノーラル方式モデルをさらに使い得る。バイノーラル方式モデルは、オーディオ入力信号の空間の知覚をシミュレーションし、オーディオ入力信号が主にノイズまたは、音楽またはスピーチのような他の入力信号を含むかどうかを決定させる。オーディオ入力信号の局在化は、本出願より早く記載された文献、主にＥＰ１５２２８６８Ａ１に、Ｗ．Ｌｉｎｄｅｍａｎｎの文献に、前述されたＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎＰａｐｅｒ５８６４により詳細に記述される。局在化技術は、他の信号からノイズを識別することを可能にし、ノイズのみがオーディオ入力信号内に検出された場合、このノイズが増大されたゲインを用いて出力されることを避けるように助ける。局在化技術は、ポーズが検出されたとき、適応時間定数をリセットすることも可能にする。ラウドネス決定ユニットは、人間聴覚の心理音響モデルを用いて、オーディオ入力信号のラウドネスを推定する。
【００２９】
さらに、ラウドネス決定ユニット３１は、オーディオ入力信号のラウドネスを推定し、または信号ポーズを検出するために、統計信号プロセスをさらに使い得る。オーディオ入力信号の統計解析において、オーディオ入力信号の異なるサンプルの実際の信号レベルが決定される。例に言えば、入力信号のいくつかの連続したサンプルの信号レベルがガウス分布に従えれば、処理されたサンプルが他のオーディオ信号なしに、ノイズを含むことは導かれ得る。
【００３０】
次に、オーディオ信号解析ユニットは、オーディオ入力信号に導入される計算する時間定数のためのラウドネス推定の結果を使う。図５において、時間定数の計算は、時間定数生成器３２によって記号化される。
【００３１】
オーディオ信号解析ユニット３０は、オーディオ出力信号１７のゲインを適合するゲイン決定ユニット３５をさらに含む。ラウドネス決定ユニット３１は、音楽入力信号の特定部分、例えばいくつかのサンプルを含むブロックのラウドネスを、ｄＢラウドネス当量（ｄＢＬＥＱ）を発することによって提供する。ゲイン決定ユニットは、オーディオ信号、例えば、図７と８における低い方の部分の図に示されるような−１２ｄＢまたは他の信号レベル閾値を出力するときに合わされるべき所定の信号レベルを有する。ゲイン決定ユニットにおいて、決定されたラウドネスは、ゲインを計算するために、得られるべき平均信号レベルから引き取られる。例に言えば、決定されたラウドネスが−５ｄＢに対応する場合、およびターゲットが−１２ｄＢフルスケールである場合、ゲインは、約−１２ｄＢの平均信号レベルを有するために、それに応じて、ゲインを減少することによって適合されなければならない。
【００３２】
図６において、オーディオ入力信号の異なるサンプル２５が示され、時間定数２６によって分けられる。時間定数２６は、ラウドネスがどうやって１つのサンプルから次のサンプルへ適合されるべきかを示す。時間定数は、立上り時間定数または立下り時間定数であり得る。立上り時間定数は、信号ゲインがどうやって１つのサンプルから次のサンプルへ増大されるかを示し、その一方で、立下り時間定数は、１つのサンプルから次のサンプルへのゲイン減少を示す。時間定数２６は、立上り時間定数が、立下り時間定数よりずっと速く適合され得るように決定される。例に言えば、信号ポーズが２つのトラックの間または１つトラック内に決定される場合、オーディオ信号レベルは、ノイズの増幅を避けるために、増大されてならない。新しいトラックが始まるとき、高い信号レベルは、非常に低い信号レベル後に直接に生じ得る。新トラックの始まりでの信号レベルが大いに増大されることを避けるために、ラウドネス推定の立上り時間定数は、それに応じて適合されなければならない。オーディオ信号レベルの減少の場合における立下り時間定数は、信号レベルの増大と比較されて、より遅い信号レベルの減少のみを可能にする。さらに、時間定数は適応時間定数であり、それは、トラックが長いほど、より遅い時間定数が反応することを意味する。これは、時間定数を増大および減少するのに妥当であり得る。平らにされたラウドネス推定も、人間がラウドネスを感知するようなの方法でラウドネス推定を保証する。ピークおよびディップは、人間聴覚システムによって平らにされる。実は、時間定数がオーディオトラックの増大時間とともにより遅く変わることは、オーディオ信号のダイナミックスを維持するように助ける。しかし、また、音楽信号の長い実行時間が達されるとき、増大するラウドネスのより短い反応時間は、速い信号の増大に適切な反応を保証する。
【００３３】
図６の低い方の部分において、時間にわたる音楽信号のためのゲインの増大およびゲインの減少が示される。音楽サンプルの第１のブロック６１のための第１のゲインは、示されるように決定される。次の信号ブロック６２のための増大されたゲインは決定され、わずかに減少されたゲインを有する信号ブロック６３によって続かされる。時間定数を用いるラウドネス適合に基づいて、各ブロックのためのゲイン、例えば各ブロックのためのターゲットゲインが決定される。次に、ブロックｎのためのターゲットゲインは、先のブロックｎ−１のターゲットゲインから始まる線形のラップで達成される。
【００３４】
１つのトラックまたは２つのトラックの間のポーズが決定される場合、時間定数はリセットされ得る。信号解析ユニット３０内に実行されるポーズの検出またはトラックの検出は、ポーズ検出ユニット３３およびトラック検出ユニット３４によって記号化される。図５の実施形態において、ラウドネス決定ユニット３１、時間定数生成器３２、ポーズとトラック検出ユニット３３と３４、およびゲイン決定ユニット３５は、別個のユニットとして示される。しかし、当業者よって、異なるユニットがより少数のユニットに組み込まれ得ることと、ユニットがいくつかのユニットまたはなお１つのユニットに組み合わされ得ることとは、明らかである。さらに、信号解析ユニットは、ハードウェア要素によって、またはソフトウァアによって、またはハードウェアとソフトウァアとの組み合わせによってデザインされ得る。
【００３５】
図４に戻って参照すると、信号解析ユニットの信号出力１７は、後でさらに説明されるようなオーディオ入力信号のゲインをコントロールするゲインコントロールユニット４１に入力される。信号コントロールユニット４０は、信号解析ユニット内のゲインの決定のために必要とされるオーディオ入力信号１８に遅延を導入する遅延要素をさらに含む。遅延要素は、信号解析ユニット３０によって処理された信号が、その信号が決定されたために、オーディオ信号を対応する正しい時間定数を用いて実際にコントロールされることを保証するように助ける。
【００３６】
ゲインコントロールユニット４１は、ゲイン決定ユニット３５によって決定されたゲインが、実際に信号出力レベルに影響する量を決定するように助ける。この終わりに対して、ノイズ推定器５０が提供され、乗り物のキャビン内の周囲ノイズを推定する。図１で理解され得るように、乗り物の速度は、乗り物のキャビン内のノイズに強く影響する。乗り物が非常に遅い速度で移動し、または停止である場合、ゲイン決定ユニットによって決定されるようなゲイン適合は、検討される必要がない場合もある。音楽出力信号がゲイン決定ユニットによって少しでも影響されない場合、それは、ユニット３０内に決定されるような補正が出力のために使われないことを意味し、次に、ゲインコントロールユニットは、出力信号がユニット３０内に実行された計算によって、影響された因子を０％にセットし得る。ノイズ推定器５０は、乗り物の速度を受信し得、乗り物の速度とノイズとの間の関係が提供されるテーブル５１をアクセスし得る。このテーブルは、乗り物のメーカーによってセットされた所定のテーブルであり得る。普通は、ドライバーは、テーブル５１内に与えられた値を適合することができない。しかし、テーブル５１内に与えられた値は、例えば音のセッティングが調整され得るのに用いるソフトウェアツールによって変えられ得る。乗り物の速度が速いとき、周囲ノイズは、図１に示されるような８０ｄＢ（Ａ）でもあり得る。この例において、次に、１０５ｄＢ（Ａ）の閾値が超えられてならない場合、２５ｄＢ（Ａ）だけが残る。８０ｄＢ（Ａ）の周囲ノイズを用いて、オーディオ出力信号のラウドネスは、前述されたようなゲイン決定ユニットによってダイナミックに決定され得る。ゲイン決定ユニットは、周囲ノイズに基づいて、０％と１００％との間の因子を決定し得、この割合が、前述されたようにラウドネスが適合されるべき量を記述する。示される実施形態において、乗り物の速度だけは、周囲ノイズを決定するための変数である。しかし、他の因子は、単独にまたは、マイクロフォン（示されていない）によって決定されるような周囲ノイズのような乗り物の速度との組み合わせで使われ得る。
【００３７】
図７において、自動ラウドネス適合の第１の例が示される。図７の上側部分において、ラウドネス推定前のオーディオ入力信号１８が示される。オーディオ入力信号の２つのチャンネルから理解され得るように、オーディオ入力信号は、異なる入力レベルの範囲にわたる。最大入力レベルは、０ｄＢフルスケールであり得る。図７の低い方の部分において、ラウドネス推定およびゲイン適合後のオーディオ出力信号１９が示される。図７の低い方の部分から理解され得るように、平均信号レベルは、−１２ｄＢフルスケールにセットされる。同時に、オーディオ信号のダイナミックな構造が保たれる。
【００３８】
図８において、入力レベルが−２０ｄＢフルスケールの最大入力レベルを有するもう１つの例が示される。図８の低い方の部分において、ラウドネス推定およびゲイン適合後のオーディオ出力信号１９が示される。再び、ダイナミックな構造が保たれ、平均信号レベルは再び、−１２ｄＢフルスケールである。図７と８の上側部分に示されるオーディオ入力信号がユーザーに出力された場合、ユーザーは、不愉快の高さである信号レベルを避けるために、および聞くのに信号レベルが低すぎであるオーディオ信号の部分の信号を増大するために、ボリュームを頻繁に調整しなければならない。
【００３９】
本出願を用いて、システムがラウドネスを推定し、出力の前に自動かつダイナミックにゲインを調整するゆえに、このユーザーによる頻繁なボリューム調整は、もはや必要がない。
【符号の説明】
【００４０】
１７オーディオ出力信号
３０信号解析ユニット
３５ゲイン決定ユニット
４０信号コントローラ
４１ゲインコントロールユニット
４２遅延要素
５０ノイズ推定器
６０拡声器

【特許請求の範囲】
【請求項１】
異なる信号レベルの範囲を有する少なくとも２つの異なるトラックを含むオーディオ出力信号のゲインを適合するための方法であって、該方法は、
人間聴覚の心理音響モデルに基づいて、オーディオ入力信号の知覚されたラウドネスをダイナミックに決定するステップと、
該知覚されたラウドネスを受け取るゲイン決定ユニット（３５）によって出力された該オーディオ出力信号のゲインをダイナミックに決定するステップであって、該ゲイン決定ユニット（３５）が、該決定されたゲインを有する該オーディオ出力信号を出力し、該ゲインが、該オーディオ出力信号の該少なくとも２つのトラックが信号レベルの所定の範囲またはラウドネスの範囲にわたって出力されるように決定される、ステップと、
該オーディオ出力信号が出力されるスペース内の周囲ノイズを推定するステップと、
該ゲイン決定ユニットによって決定されたゲインが該オーディオ出力信号に影響する程度を決定するステップであって、該ゲイン決定ユニットによってオーディオ出力が影響される程度が、該推定された周囲ノイズに基づいて決定される、ステップと
を含む、方法。
【請求項２】
前記推定された周囲ノイズが所定の閾値より低い場合、前記オーディオ出力信号は、前記ゲイン決定ユニットによって決定されたゲインに影響されない、請求項１に記載の方法。
【請求項３】
前記周囲ノイズは、乗り物の速度を決定することによって推定され、該周囲ノイズが、該乗り物の速度から導かれる、請求項１または２に記載の方法。
【請求項４】
前記ダイナミックに決定されたゲインが前記オーディオ出力信号に影響する程度は、前記推定された周囲ノイズの増大とともに増大する、請求項１〜３のいずれか１項に記載の方法。
【請求項５】
前記オーディオ入力信号および出力信号の各トラックは、音楽信号の連続したブロックを含み、各該ブロックのラウドネスは、時間定数を用いて決定され、該時間定数が、１つのブロックから次のブロックまでのラウドネスの変化を記述する、請求項１〜４のいずれか１項に記載の方法。
【請求項６】
立上り時間定数は、２つの連続したブロックの間の立上りラウドネスを記述するために使われ、立下り時間定数は、２つの連続したブロックの間の立下りラウドネスを記述するように使われ、前記時間定数は、該立上り時間定数が、ラウドネスの減少をさせる該立下り時間定数より速いラウドネスの増大をさせるように構成される、請求項５に記載の方法。
【請求項７】
前記時間定数は、適応時間定数であり、該適応時間定数は、該時間定数が、前記トラックの開始時に、後のトラックの間よりも速く変化することを許可されるように適合される、請求項５または６に記載の方法。
【請求項８】
前記適応時間定数は、前記２つのトラックの間にポーズが検出されるとき、リセットされ、該ポーズは、前記オーディオ入力信号が、バイノーラル方式局在化モデル単独で、または信号統計モデルとの組み合わせを用いて、局在化され得るかどうかを決定することによって検出される、請求項７に記載の方法。
【請求項９】
前記オーディオ入力信号が出力される前に、該オーディオ入力信号内に遅延時間を含むステップをさらに含み、該遅延時間は、前記オーディオ出力信号のためのゲインを決定するのに必要とされる時間に対応する、請求項１〜８のいずれか１項に記載の方法。
【請求項１０】
異なる信号レベルの範囲を有する少なくとも２つの異なるトラックを含むオーディオ出力信号のゲインを適合するシステムであって、該システムが、オーディオ入力信号を受け取り、該適合されたゲインを有する該オーディオ出力信号を出力し、該システムは、
人間聴覚の心理音響モデルに基づいて、該オーディオ入力信号のラウドネスをダイナミックに決定する、ラウドネス決定ユニット（３１）と、
決定されたラウドネスを受け取り、該適合されたゲインを有する該オーディオ出力信号を出力するゲイン決定ユニット（３５）であって、該オーディオ出力信号の該少なくとも２つのトラックが信号レベルの所定の範囲にわたって出力されるように、該オーディオ出力信号のゲインをダイナミックに決定する、ゲイン決定ユニット（３５）と、
該オーディオ出力信号が出力されるスペース内の周囲ノイズを推定するように構成される、周囲ノイズ推定ユニット（５０）と、
該ゲイン決定ユニットによって決定されたゲインが該オーディオ出力信号に影響する程度を決定するように構成されるゲインコントロールユニット（４１）であって、推定された周囲ノイズに基づいて、該ゲイン決定ユニットによってオーディオ出力信号が影響される程度を決定する、ゲインコントロールユニットと
を含む、システム。
【請求項１１】
前記オーディオ入力信号が、該オーディオ入力信号を聞くリスナーによって知覚されるようなオーディオ入力信号の空間の知覚のシミュレーションを用いて局在化され得るかどうかを決定することにより、前記少なくとも２つの異なるトラックの間またはノイズが該オーディオ入力信号の支配的な部分であるトラック内のポーズを決定するポーズ検出ユニット（３３）をさらに含み、前記ゲイン決定ユニット（３５）が、決定されたポーズ内のゲインを減少する、請求項１０に記載のシステム。
【請求項１２】
前記オーディオ入力および出力信号の各トラックは、音響信号の連続したブロック（２５）を含み、時間定数生成ユニット（３２）は、該オーディオ入力信号の該連続したブロックのための時間定数（２６）を決定し、該時間定数（２６）が、１つの該ブロックから次の該ブロックまでのラウドネスの変化を記述し、前記ゲイン決定ユニット（３５）は、該時間定数に基づいて前記オーディオ出力信号のゲインを決定する、請求項１０または１１に記載のシステム。
【請求項１３】
前記時間定数生成ユニット（３２）は、２つの連続したブロックの間の立上りラウドネスを記述するための立上り時間定数と、２つの連続したブロックの間の立下りラウドネスを記述するための立下り時間定数とを使い、該時間定数生成ユニットは、該立上り時間定数が、ゲインの減少をさせる該立下り時間定数より速いゲインの増大をさせるように、時間定数を決定する、請求項１２に記載のシステム。
【請求項１４】
前記時間定数生成ユニット（３２）は、前記時間定数が、適応時間定数であり、前記トラックの開始時に、後のトラックの間よりも速くブロックからブロックまでの間で変化し得るように、該時間定数を決定する、請求項１２または１３に記載のシステム。
【請求項１５】
前記時間定数生成ユニット（３２）は、該ユニットが前記２つのトラックの間のポーズを検出するとき、前記時間定数をリセットする、請求項１２〜１４のいずれか１項に記載のシステム。
【請求項１６】
前記オーディオ入力信号が、出力信号として出力される前に、該オーディオ入力信号に遅延時間を導入する遅延要素（４２）をさらに含み、該遅延要素は、前記オーディオ出力信号のためのゲインを決定するのに必要とされる時間に対応する該遅延時間を導入する、請求項１１〜１５のいずれか１項に記載のシステム。
【請求項１７】
前記ゲインコントロールユニットは、前記推定されたノイズが所定の閾値より低いとき、前記オーディオ出力信号上に前記ゲイン決定ユニット（３５）の影響を除去するように構成される、請求項１０〜１６のいずれか１項に記載のシステム。

【図１】