オーディオ信号処理システム及び方法
サウンド再生または記録システムにおいて、入力レベル(y)に応じたゲインファクタ(z)をオーディオ信号にかける。無声音素が有声音素より少なくとも6dB、好ましくは少なくとも12dB大きくエンハンスされるように、ゲインファクタの入力レベルに対する依存性を選択する。ここで、平均ゲインは6dBより小さいことが好ましい。これにより、明瞭性が向上する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サウンド再生の分野に関し、特に、デジタルオーディオ信号処理の分野に関する。
【0002】
本発明は、オーディオ信号入力、オーディオ信号プロセッサ、及びオーディオ信号出力を有するサウンド再生または記録システムに関する。
【0003】
また、本発明は、入来オーディオ信号を処理してオーディオ出力信号を出力するオーディオ信号プロセッサに関する。特に、本発明はデジタル信号プロセッサ(DSP)回路またはプログラムに関する。
【0004】
また、本発明は、オーディオ信号の処理方法にも関する。
【0005】
ラウドスピーカ電話システム等のサウンド再生システムは、ラウドスピーカと呼ばれることが多い出力トランスデューサとオーディオ信号入力とを含む。ラウドスピーカは、オーディオ入力信号に応答して、所望の音圧波を表すオーディオ入力信号を発生する。
【0006】
リスナーが知覚するサウンドの明瞭性は、特にノイズの多い環境においては非常に重要である。明瞭性を向上する最も簡単な方法は、平均SPL(音圧レベル)を上げること、すなわち、ボリュームを高くすることである。しかし、必ずしもボリュームを上げたからといって、常にサウンドがより明瞭になるわけではない。また、出力が大きすぎると、ラウドスピーカへの負荷が過大になり、明瞭性がさらに悪くなってしまう。信号のノイズは、例えば、環境ノイズ、または信号ノイズ、すなわちサウンド源からレシーバまでの間に信号に載ってしまったノイズである。
【0007】
サウンドの明瞭性を高める試みが多数なされてきた。
【0008】
米国特許出願第2002/0015503号では、周波数帯域ごとに個別にゲインファクタを制限することによる明瞭性の向上が提案されている。
【0009】
しかし、既存のシステム及び方法は、複雑な計算とそのための複雑な回路(ハードウェア)を必要とするか、プログラム(ソフトウェア)を使用する場合には、複雑なプログラムを必要とする非常に複雑なものであるか、または、提供する利点が限定されたものである。
【0010】
上記の参照文献にもかかわらず、本技術分野においては、明瞭性を向上できるようにシステムと方法を改良する必要がまだある。
【0011】
本発明の目的の1つは、明瞭性を向上した比較的簡単なサウンド再生または記録システム及び方法を提供することである。
【0012】
このため、本発明の第1の態様において、本発明によるサウンド再生または記録システムは、前記オーディオ信号プロセッサは、ゲインファクタと入力レベルの間の関数関係が第1のレンジと第2のレンジとを有するような関数関係を有する入力レベルの関数として、ゲインファクタを入力信号に関係づけるアトリビュータを有し、前記第1のレンジは主に有声音素がある振幅をカバーし、前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、前記関数関係は、前記第1のレンジの平均ゲインファクタが前記第2のレンジの平均ゲインファクタより少なくとも6dB、好ましくは少なくとも12dB低いものであることを特徴とする。
【0013】
本発明の第1の態様によるシステムは、以下の洞察に基づく:
簡単なシステムを用いてスピーチの明瞭性を向上することができる。スピーチの最小単位は音素と呼ばれている。1つ以上の音素でシラブルができ、1つ以上のシラブルで単語ができている。音素は母音と子音の2つのグループに分けることができる。母音は常に有声である。無声子音の場合、声帯(holds)は完全に開いている(例えば、s、sh、f音を発音するとき)か、部分的に開いている(例えば、h音の場合)。有声サウンド(voiced
sounds)は、声帯の振動により作られる。
【0014】
本発明によるシステムは、スピーチが有声音素(例えば、母音のa、e、i、o、oa等)と無声音素(例えば、一部の子音s、z、ch、dg、th等)を含むと考えられるとの認識に基づく。以下、より詳細に説明する。無声音素は、一般的には、有声音素に一般的な入力レベルレンジ(第1のレンジ)より低い入力レベルレンジ(第2のレンジ)をカバーする。有声音素は、一般的には、信号の上側レンジ、すなわち信号の最大値に近いレンジにある。発せられたスピーチの音量(振幅)だけを考えると、有声音素は無声音素よりもより一層顕著である。しかし、明瞭性に関して、無声音素は、有声音素より重要でないとしても、それと同じくらい重要である。
【0015】
このように、2つのタイプの音素は、その入力レベルレンジにより互いに区別することができる。本発明の第1の態様によるシステムにおいて、無声音素のゲインファクタ(第2のレンジ)は、有声音素のゲインファクタより(少なくとも平均で6dB、好ましくは12dB以上)大きい。ここで、無声音素を有声音素より強調する。ほとんどの既知のシステムは、ゲインを上げる(ボリュームを上げる)ことによりスピーチを理解しやすくなるとの前提に基づいている。しかし、必ずしもこれがあてはまらない場合がある。本願発明者は、このように全体的に強度を上げる(音量を上げる)ことにより、無声音素が事実上「水没」(drown)してしまっていることに気がついた。入力レベルレンジにわたってゲインファクタを単純に上げるのと比べて、無声音素を有声音素より強調し、簡単に明瞭性を向上することができる。
【0016】
本発明の第2の態様において、本発明によるサウンド再生または記録システムは、前記デジタルオーディオ信号プロセッサは、入力レベルの関数としてゲインファクタを入力信号に関係付けるアトリビュータを有し、ゲインファクタと前記入力レベルの間の関数関係には第1のレンジと第2のレンジがあり、前記第1のレンジは最大値入力レベルから下向きに少なくとも10dB広がり、前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、10dB以上のレンジをカバーし、前記第1のレンジのゲインファクタは、前記第2のレンジのゲインファクタより少なくとも平均で6dB、好ましくは12dB低いことを特徴とする。
【0017】
本発明の第1の態様の基本的洞察を一般化して、本発明の第2の態様による発明は、スピーチ「ソフトサウンド」は、「ハードサウンド」と(これらのサウンドがどのように呼ばれようと)同等の重要性を有するという認識に基づく。本発明において、スピーチの明瞭性を、簡単な手段により、「ソフトサウンド」をハードサウンドより選択的に大きくブースト(少なくとも6dB、好ましくは少なくとも12dB)することにより高くする。使用される言語が「有声」及び「無声」の音素に分けることができるかどうか、これらのカテゴリーを分ける線を理論的に引くかどうか、またどこに引くか、または、アクセント、トーンシフト、強調等の区別できるその他の特徴があるかどうかには係わらずに、この基本的な一般化された洞察が成り立つ。
【0018】
本発明の第2の態様によるシステムにおいて、ゲインファクタを入力レベルに応じて変えて、最大入力レベル(最もハードなサウンドをカバーする)より下に、最大レベルから少なくとも10dB下方にわたる第1の領域と、前記第1のレンジの下に(「よりソフトなサウンド」をカバーする)ゲインファクタが大幅に高い(平均で少なくとも6dB、好ましくは少なくとも12dB)第2のレンジがある。入力レベルとしてのゲイン曲線には、このように2つのレンジがあり、第1のレンジのサウンド信号と比較して第2のレンジがカバーするサウンド信号(よりソフトなサウンド)が強調される。これにより、「ハードなサウンド」と比較して「よりソフトなサウンド」が強調される。これは簡単なシステムと方法を用いて可能であるが、明瞭性が大幅に上がる。
【0019】
好ましくは、第1のレンジは最大値から少なくとも15dB広がるが、30dBより広くはならない。第1のレンジが広すぎると、ソフトサウンドをブーストするのが困難になる。
【0020】
本発明の好ましい実施形態を以下に説明する。特に言わない限り、これらの好ましい実施形態は、本発明の上記の態様の両方に適用される。
【0021】
好ましくは、入力振幅の関数としてゲインファクタを入力信号に関係づけるアトリビュータは、第1と第2のレンジにわたる平均ゲインファクタが12dBより小さく、好ましくは6dBより小さく、より好ましくは3dBより小さいように構成される。平均ゲインファクタは、音量の全体的ブーストの尺度である。スピーチの音量の上昇は、まったく、またはほとんど知覚できない。有声音素に対して無声音素を強調する効果は、少なくとも部分的に、平均ゲインファクタが大幅に上げられれば、無効になる。この条件は、第1のレンジにおける平均ブーストが、表示値より低く制限されることを意味している点を注意しておく。
【0022】
好ましい実施形態において、前記システムは、瞬間信号振幅の入力と、所定時間にわたる平均レベルの出力を有するダイナミックレベルディテクタを有する。
【0023】
ダイナミックレベルディテクタは、このように、レベル、すなわち信号振幅のある種の時間平均を提供する。入力レベルとして瞬間振幅を用いる(すなわち、振幅を直接用いてゲインを決める)のと比較して、ダイナミックレベルディテクタを用いる利点は、ゲインファクタの振る舞いがスムースになり、ポンピング効果の変化が少なくなることである。全体として、明瞭性が高くなる。時間は固定でも調節可能でもよい。
【0024】
好ましくは、前記所定時間は1ないし5ミリ秒である。
【0025】
好ましくは、ゲインファクタを関係づける前記アトリビュータは、前記第1のレンジのゲインファクタが平均で10dBよりも低く、好ましくは6dBより低い。第1の高入力レベルのレンジにおけるゲインは、このように比較的低い。すなわち、「ハードな」信号のブーストは低い。第2のレンジの信号は、上で説明した通り、好ましくは第1のレンジの信号と比して少なくとも6dB、好ましくはより大きくブーストされる。第1のレンジの信号の強度を大きくし過ぎると、この信号はすでに音量がおおきいので、スピーチの明瞭性はあまり向上せず、第2のレンジの比較的弱い信号をハードサウンドと区別しづらくしてしまうので、第1のレンジのゲインファクタを低くしておくことが好ましい。
【0026】
好ましくは、前記システムは、受信信号の最大入力レベルを決定するデターミネータと、前記最大入力レベルを前記第1のレンジの前記上限と一致させる手段とを有する。実施形態において、最大入力レベル(第1のレンジの外縁)は、単に、最大デジタル信号、すなわち、理論的にも実際的にも最も音量の大きい信号である。しかし、本装置は、好ましくは、(スピーチ)信号の実際の最大入力レベルを決定するデターミネータを有する。最大入力レベルは、可能な最大値よりは低いことが多い。第1のレンジは、スピーチ信号の測定された最大入力レベルから始まる。留意すべきことは、このような実施形態において、第1のレンジの開始点のみが測定に依存するわけではなく、第2のレンジ及びさらに別のレンジも測定に依存することである。最大入力レベルは、レベルの測定の時間と比較して比較的長いが、単語の長さと比較すると短い所定の時間にわたり測定された量である。
【0027】
本発明の好ましい実施形態において、入力振幅の関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、ゲインファクタと入力レベルの間の関数関係が、前記第1と第2のレンジの間に第3の中間レンジがあり、ゲインファクタが徐々に変化するように構成されている。本発明の実施形態において、第1のレンジから第2のレンジへの遷移は、ステップ関数であってもよいが、好ましくは、第1と第2のレンジは中間の第3のレンジで分けられており、この第3のレンジにおいて、ゲインファクタは徐々に変化する。このような遷移レンジにより、ポンピングアーティファクトのリスクが減る。好ましくは、この第3のレンジは入力レベルの少なくとも5dBにわたる。好ましくは、この第3のレンジは、最大値(=第1のレンジの外縁)の下の15dBと35dBの間に中心がある。中心があるとは、第3のレンジのどちら側においてもゲインファクタの値の間の中間にあることを意味する。これにより、第1のレンジのための十分な余地が残る。
【0028】
好ましくは、前記システムは、背景ノイズを測定するセンサと、前記測定された背景ノイズに応じて前記第2のレンジにおけるゲインファクタを調節するアジャスタとを有する。背景ノイズは、環境からの干渉サウンド信号によるノイズである。
【0029】
背景ノイズが大きい場合、第2のレンジ、すなわち、主にソフトサウンドまたは無声音素のゲインファクタを大きくすると、その信号の明瞭性が高くなる。
【0030】
好ましくは、上記の実施形態において、第1のレンジ(すなわち、主にハードに聞こえる有声音素)のゲインファクタは、替わらないか、少し減らされる。ハードサウンドまたは有声音素は、背景ノイズが大きくても聞き取ることができる。第1のレンジのゲインファクタを少し下げても、実際には有利である。その理由は、ハードサウンドまたは有声音素に対してソフトサウンドまたは無声音素の相対的なブーストを大きくするからである。ノイズレベルが高いとき、第1のレンジのゲインファクタを下げることはおかしいと思われるかも知れない。しかし、第2のレンジのゲインファクタを上げると同時に第1のレンジのゲインファクタを下げることにより、全体的な信号強度の上昇を一定にするか、または少なくとも大きくし過ぎない。場合によっては、第1のレンジの少なくとも一部(例えば、最も高い部分)のゲインファクタが少し減る(数デシベル)ことになるかも知れないことに注意すべきである。
【0031】
これらの実施形態は、なかんずく、本発明がスピーチの明瞭性を向上するが、ある程度スピーチ信号を歪めるとの認識に基づく。背景ノイズを測定し、第2のレンジのゲインファクタをノイズレベルに応じて決めることにより、サウンド再生が平均してよくなる。背景ノイズレベルが低い場合、信号の変化はほとんどまたは全くないが、背景ノイズレベルが高い場合、第2のレンジのゲインファクタが上昇する。
【0032】
好ましくは、入力振幅の関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第2のレンジには、下限において、ゲインファクタが実質的に0である第4のレンジが隣接するように構成される。上記の第4のレンジは、小さな振幅レベルをカバーする。その振幅レベルでは、信号はおそらくラインまたは伝送ノイズに主に起因するからである。好ましい実施形態において、第4のレンジにおいては、より一層小さなゲインファクタを使う(または好ましくは使わない)。ラインまたは伝送ノイズは増幅されない。 好ましくは、入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第2と第4のレンジが第5の中間レンジで分けられており、前記第5のレンジ内ではゲインファクタが徐々に変化する。実施形態において、第4と第2のレンジの間の遷移は、ステップ関数でもよいが、好ましい実施形態においては、第4のレンジの0ゲインファクタから第2のレンジの高ゲインファクタに徐々に変化することにより、アーティファクトのリスクが減り、信号ノイズ比が高くなる。
【0033】
好ましくは、入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第3のレンジにおけるゲインファクタの減少の傾きが、前記第5のレンジにおけるゲインファクタの上昇の傾きよりも緩やかに構成されている。
【0034】
好ましくは、本システムは、ラインまたは伝送ノイズ(すなわち、信号の伝送方法に固有のノイズであり、例えば、電気部品ノイズや圧縮ノイズである)を測定する手段と、ラインまたは伝送ノイズの値の入力と、測定されたラインノイズに応じて第2のレンジから第4のレンジへの遷移点またはレンジを調節するアジャスタと、を有する。
【0035】
本発明は、サウンド再生システム(例えば、ボイス通信システム)の信号源側に適用することができる。本発明は、また、例えば、移動電話またはラップトップPC等のサウンド再生システムのレシーバ側に適用することもできる。後者は、環境ノイズが大きいときに特に有用である。
【0036】
本発明をサウンド再生システム(例えば、テレビ信号の再生)の信号源側で使用したとき、好ましくは、サウンド再生システムは、伝送された、または伝送される信号にその信号が元の信号から変更されていることを示すマークをつけるマーカを有する。好ましくは、そのマークは、その変更に関する情報(例えば、ゲインファクタとレンジに関する情報)を含む。上述のように、本発明による装置と方法は、明瞭性を向上し、支払うべき対価は比較的小さいが、信号がすこし歪む。しかし、本発明を2回、すなわち、信号源側と受信側とで実行すると、過剰になるリスクがある。すなわち、結果が最適とはかけ離れたものとなるリスクがある。信号を処理したこと(及び好ましくはその方法)を示すマークをつけることにより、このリスクを減らすことができる。
【0037】
本発明のコンセプトにおいて、「センサ」「ディテクタ」、「マーカ」、「アトリビュータ」、「アジャスタ」等は、広く解釈すべきであり、例えば、ハードウェア(センサ、ディテクタ、アトリビュータ、ディテクタ等)、上述の動作や機能等を実行するように設計された回路または副回路(sub-circuit)、及び本発明による動作等を実行するように設計またはプログラムされたソフトウェア(コンピュータプログラムやサブプログラムや、1組のプログラムや、プログラムコード等)、及びそのように動作するハードウェアとソフトウェアのいかなる組み合わせを、単独で、または組み合わせて有し、以下に説明する実施形態例に制限されることはない。例えば、DSP、ASIC、マイクロホン、または大きなプログラムとは別またはその一部のアルゴリズムの形式である。1つのプログラムが幾つかの機能を併せ持ってもよい。好ましくは、本システムは、デジタル信号を用いるデジタル信号処理に少なくとも一部は基づく。
【0038】
本発明は、また、サウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、入力レベルの関数であるゲインファクタを入力信号にかけ、ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第1のレンジと第2のレンジがあり、前記第1のレンジは主に有声音素がある振幅をカバーし、前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、前記関数関係は、前記第1のレンジの平均ゲインファクタが前記第2のレンジの平均ゲインファクタより少なくとも6dB低いものであることを特徴とする方法としても実施できる。
【0039】
本発明は、また、サウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、入力レベルの関数であるゲインファクタを入力信号にかけ、ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第1のレンジと第2のレンジがあり、前記第1のレンジは最大値入力レベルから下向きに少なくとも10dB広がり、前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、10dB以上のレンジをカバーし、前記第1のレンジの平均ゲインファクタは、前記第2のレンジのゲインファクタより少なくとも平均で6dB低いことを特徴とする方法としても実施することができる。
【0040】
本方法の好ましい実施形態は、発明の概要または好ましい実施形態の説明のいずれに記載していようが、本発明によるシステムのすでに説明した好ましい実施形態に関連する方法ステップに対応するものである。
【0041】
本発明は、また、コンピュータで実行されたとき、本発明による方法を実行するプログラムコード手段を有するいかなるコンピュータプログラムにも化体されており、また、コンピュータで実行されたとき、本発明による方法を実行する、コンピュータ読み取り可能媒体に記憶されたプログラムコード手段を有するいかなるコンピュータプログラム製品にも化体することができ、また、本発明の動作を実行する、本発明によるシステムで使用するプログラムコード手段を有するいかなるプログラム製品にも化体することができる。
【0042】
本発明の上記その他の態様を、添付した図面を参照して、例によりより詳しく説明する。
【0043】
以下、本発明の好ましい実施形態を示した、添付した図面を参照して、本発明をより詳しく説明する。しかし、本発明は、多数の異なる形体で実施することができ、ここで説明する実施形態に限定されると解釈すべきではない。むしろ、この開示を徹底して完全なものにし、当業者に本発明の範囲を十分に分かってもらうように、これらの実施形態を提供する。図面にわたって同じ数字は同じ要素を示す。
【0044】
図1は、サウンド再生システムを示す概略図である。このシステムは、例えば、自動車で使用されるハンヅフリーのラウドスピーカセルラー無線電話である。ハンヅフリーの携帯電話として実施したとき、遠端(far end)、すなわち遠隔者(distant party)から受け取られるスピーチ信号は、セルラー基地局(図示せず)から送信され、携帯電話のトランシーバ(図示せず)で受信され、入来する遠端信号入力1に入力波形Wとして送られる。この例において、システム(この場合、電話システム)と遠端との間の伝送はデジタル形式であると仮定する。元の信号がアナログ形式の場合、システムはアナログ・デジタルコンバータを有し、デジタル遠端信号を生成して入力1に送る。
【0045】
図1に示したように、波形はデジタルフォーマットで入力1に送られ、またはDSP(デジタルサウンドプロセッサ)2に送られる。DSP2は、デジタル出力3に接続されているか、デジタル出力3を有している。デジタル信号は、デジタル・アナログコンバータ4に入力され、アナログフォーマットに変換され、アンプ5で増幅され、ラウドスピーカ6により使用される。遠隔者のスピーチを表す音圧波W1がラウドスピーカ6により発生される。したがって、無線電話ユーザには、遠隔者のスピーチを表す音圧波形が聞こえる。
【0046】
しかし、リスナーにはラウドスピーカにより発生されたサウンドが聴こえるだけではなく、他のサウンドも聞こえる。これにより、ラウドスピーカにより発生されたサウンドが理解しづらくなる、すなわち、明瞭性が低下する。
【0047】
ボリュームを上げることにより、最初に明らかに明瞭性を上げることができる。しかし、ラウドスピーカの最大出力レベルには限界があり、単にボリュームを上げるだけではノイズが大きくなり、必ずしも信号の明瞭性が上がらないことが多い。
【0048】
図2Aは、サウンド源(明瞭なスピーチ)21とユーザの耳22の間に、伝送ノイズ23と背景ノイズ24の2つのノイズ源があることを示している。
【0049】
明瞭性を高めるため、本発明による装置と方法においては、幾つかの手段が用いられる。特に、センサ26を備えて、背景ノイズ24を測定し、背景ノイズ信号N2を求める。また、伝送ノイズ23を測定するための手段27を備えて、ラインまたは伝送ノイズ信号N1を求める。
【0050】
図2Bは、サウンド再生システムの情報源側(source end)を示す図である。図中、21は出力信号を示す。
【0051】
基本的コンセプトは、サウンド再生システムにおいて、情報源側(図2B)、または受信側(図2A)、または両方の側に、本発明によるやり方で信号に影響を与える手段(例えば、プログラムまたはソースコード)であるボイス明瞭度向上器(voice articulation enhancer)を備える。幾つかの例を示す。
【0052】
伝送品質の低さ(ノイズ源23)やノイズの多い背景(ノイズ源24)といった条件によりクリーンなスピーチ信号(信号21)にノイズがのると、その信号の明瞭性を著しく害する。多数のスピーチ明瞭性向上方法では、結果的にスピーチ信号の音量が大きくなる。音量が大きくならないアルゴリズムは多くない。
【0053】
本発明は、例えば、スピーチエンハンスメントアルゴリズムにより、無声音素を時間領域のエネルギーレベルに基づきエンハンスする単純な方法に基づく。クリーンスピーチを伝送ノイズ(23)に対してロバストにしなければならない場合、アルゴリズム(25、図2B)をエミッタ側に配置するのがよい。外界ノイズが主要なノイズ源(24)である場合、該アルゴリズム(25、図2A)を再生側に配置するのがよい。
【0054】
図3は、明瞭な男性のスピーチ信号の波形を示す図である。矢印は無声音素(th、c、ch、cr、d、b、th、s、de、t)の位置を示す。これらの無声セグメントは、有声セグメント(oa、wa、ow、de、in、i、ou等の母音)と比較して含んでいるエネルギーが少ない。本発明は、低いエネルギー範囲を高いエネルギー範囲より大きく選択的にブースト(boost)し、無声音素を有声音素と比較してエンハンスするというアイデアに基づく。スピーチの明瞭性にとって無声音素の重要性は大きい。スピーチを作るのに用いられる個々のサウンドは音素と呼ばれる。サウンド源は、音素がいくつあり、それが何の音素かという点で異なる。母音は常に有声である。無声子音の場合、声帯(holds)は完全に開いている(例えば、s、sh、f音を発音するとき)か、部分的に開いている(例えば、h音の場合)。有声サウンドは、声帯の振動により作られる。音素は、その生成で働くメカニズムにより3つの大きなカテゴリーの1つに入る:
− 有声サウンド
− 摩擦音子音
− 停止子音
有声サウンド
英語で使用される音素の多くは、声門により一定に保たれた声帯を通る周期的気流により生じる有声サウンドである。このフォルマント周波数における周期的気流に応じて気道が共鳴する。フォルマント周波数により有声音素を区別できる。フォルマント周波数は、声帯の緊張で制御される。有声サウンドは、鼻腔と口の動きによりフィルタされる。
例:lame、vowel、you、met
摩擦音子音
無声摩擦音素は、口を通る一定の気流の擦る音により生じる。このサウンドには、有声音の声門インパルス及び声道振動の減少がない。無声音素は、フォルマント周波数の存在よりも、唇、歯、下の位置の違いにより互いに区別される。
例:fat、sit、church、thing、...
有声摩擦音素は、声門インパルスと摩擦ヒス音により生じる声道フォルマント共鳴を含む。
例:that、judge、which、...
停止子音
停止子音の特徴は、音素の初めで唇及び/または歯及び舌により気流を完全に止めて瞬間的に解放することである。
有声停止子音は、声帯インパルスと声道共鳴による。
例:bet、get、better、...
無声停止子音は、声道動作がなく、摩擦ヒス音により占められている。
例:kit、pet、ten、…
上記の通り、人が話す時、一般的に有声音素は、無声音素を含む振幅範囲より高い振動範囲にある。
【0055】
図4は、スピーチエンハンスメントアルゴリズムの概略を示す図である。レベル検出器41で入来信号21の入力レベル(例えば、信号の振幅やパワー)を検出し、測定レベルに応じて動的アジャスタ42のゲインを調節し、調節済み信号43を与える。最も単純な形式においては、入力レベルは単なる入力振幅である。しかし、好ましい実施形態においては、動的レベルディテクタをシステムに備え、所定期間(一般的には数ミリ秒)にわたる平均レベルを決定する。ゲインファクタzは入力レベルyの関数であり、上記の好ましい実施形態においては、入力信号振幅Inを平均化することにより求められる。入来信号振幅Inをゲインファクタzとかけて、信号S(S=z(y)×In)が与えられる。
【0056】
図5は、本発明の実施形態によるいくつかのスピーチエンハンスメントアルゴリズムの動的振る舞い(すなわち、ゲインファクタzと振幅または振幅レベルyの間の関数関係)を示す図である。ゲインファクタz(縦軸にdB単位で示した)は、入来信号の入力レベルy(横軸にdB単位で示した)の関数である。入力レベルyは最大値より小さい。これらの実施形態において、この最大値は可能な最も高いデジタル信号である。ゲインカーブは第1のレンジIを有し、その第1のレンジIの入力レベルは、上限において最大入力レベルMAXとなる。この第1のレンジにおいて、ブーストファクタ(すなわち、ゲインファクタ)は小さく、一般的には3dBより小さい。第1のレンジIは、この例において、最大値MAXから少なくとも10dB広がっている。好ましくは、第1のレンジは少なくとも15dB広がるが、30dBより広くはならない。ゲインカーブは第2のレンジIIを有し、その第2のレンジIIのゲインファクタzはかなり高い(少なくとも6dB、好ましくは、少なくとも12dB、より好ましくは、少なくとも18dBであり、この差は図5にΔとして示した)。レンジIIは、レンジIより下に一般的には15−35dB以上広がっており、レンジIとIIを合わせた範囲は、(中間レンジIIを含めて)一般的には30−75dBである。一般的なスピーチでは、ダイナミックレンジは人がどのくらいの大きさで話すかにも依存し、一般的には40ないし60dBである。図5は、スピーチのダイナミックレンジの低い方(レンジII)が高い方のレンジIに対してブースト(boost)されていることを示す。高い方のレンジI自体も、低い(10dBより小さい)がブースト(boost)されている。この好ましい実施形態においては、レンジIとIIは、ダイナミックスピーチレンジ(0から約50dBまで)にある。各レンジが(y軸方向で)カバーする範囲はdB値ではほぼ同じである(例えば、dB数で表して2倍以内である)。レンジIとIIの間のy軸方向の差が大きすぎると、レンジIIがレンジIより大幅に小さい場合、無声音素またはソフトサウンドのブースト(boost)が小さすぎることになるか、またはレンジIIがレンジIよりも大幅に大きい場合、有声音素またはハードサウンドの少なくともかなりの部分もブースト(boosted)される。入力レベルyに対するゲインzの曲線には、曲線52のように、ステップがあってもよいが、好ましくは、レンジIとIIの間に第3のレンジIIIがあり、その第3のレンジIIIでは曲線51と53で示したように、ゲインファクタが徐々に上がる。このような遷移レンジIIIにより、ポンピングアーティファクトのリスクが減る。この例において、レンジI、II、IIIの全体でダイナミックスピーチレンジ(0から約50dBまで)をカバーし、各レンジI、II、IIIはdB単位でほぼ同じ範囲(例えば、dB単位で表した場合に3倍以内)のダイナミックスピーチレンジをカバーする。レンジIとIIの間のゲインファクタの差は、曲線51、52、53の場合に、それぞれ25dB、22dB、15dBである。平均ゲインファクタは、ゲインファクタに入力レベルの大きさをかけて合計し、次に入力レベルの大きさの合計で割ることにより計算することができる。最強の信号(y値が0に近い信号)がこの平均ゲインファクタにもっとも寄与し、非常に弱い信号(y値が−30以下の信号)は音量にほとんど寄与しない。ゲインファクタが比較的大きくても信号が非常に弱ければ、平均ゲインファクタにはほとんど寄与しない。(入力レベルが最も高いか、高い方のもの、すなわちレンジIの場合)0に近いので、ゲインファクタは小さい(好ましくは、10dBよりかなり小さい)。第2のレンジIIのゲインファクタは大きいにもかかわらず、平均ゲインファクタは小さい。トータル平均ゲインファクタは、好ましくは、12dBより小さく、より好ましくは、6dBより小さく、さらに好ましくは、3dBより小さい。
【0057】
図6は、本発明の好ましい実施形態を示す図である。ゲイン曲線には、レンジIIの左側に(すなわち、レンジIIの下限値より下の入力レベル)第4のレンジIVがあり、その第4のレンジIV内では、ゲインファクタは非常に低い(好ましくは0または負のdB値)。このような入力レベルにおいては、信号は主に伝送ノイズによるものであろう。通常、信号は何らかの装置で生成され、次に、別の場所に伝送ラインを介して送信される。信号がなくても、生成装置及び伝送自体でノイズが発生する。この好ましい実施形態において、レンジIIの下限レベルより下では、より一層小さなゲインファクタを使う(または好ましくは使わない)。伝送ノイズまたはラインノイズは増幅されない。好ましくは、第2または第4のレンジII、IVは、第5の中間レンジVで分けられており、そのレンジV内でゲインファクタは徐々に変化する。徐々に変化させることによりアーティファクトのリスクが減り、信号ノイズ比が高くなる。本発明の簡単な実施形態において、レンジIIとIVの間の遷移点、またはレンジIIとIV、及びIVとVの間の遷移点がある場所は固定されていてもよく、この場合、レンジIVとIIまたはレンジVの間の遷移点は、好ましくは、最大入力レベルから40dBと65dBの間にある。好ましい実施形態において、少なくとも1つ、幾つか、またはすべてのレンジ間の遷移点または遷移レンジは、ラインまたは伝送ノイズの測定に基づき、以下により詳しく説明するように、特に、伝送ノイズ信号N1に依存する。レンジIとIIの間の中間レンジIIIは、この場合、入力レベルで15dBをカバーする。レンジIIは10から15dBをカバーし、レンジVは5dBをカバーし、レンジIは20dBをカバーする。レンジIとIIの間のゲインファクタの差は15dBである。レンジIIとIVの間のゲインの差は20dBであり、レンジVは5dBをカバーする。すなわち、その傾きはレンジIIIの傾きよりも急峻である。
【0058】
図7は、本発明による別の実施形態を示す図である。ゲイン曲線は、前の図に示した5つのレンジを有する。曲線番号71a、71b、71cが示されている。曲線71aは、図6に示した曲線と同じである。背景ノイズ(ノイズ信号N2)のレベルが高い場合、レンジIIのゲインファクタを大きくすると有利である。これを曲線71bにより概略的に示した。曲線71bにおいて、全てのレンジI、II、IIIにおいてゲインファクタが大きくなっており、レンジIIで特に著しい。これにより明瞭性が高くなるが、しかし、全体的な音量も大きくなる。好ましい実施形態において、全体的音量の上昇は12dBより小さく、好ましくは6dBより小さく、より好ましくは3dBより小さい。全体的音量が増加しても、明瞭性は高くならない。全体的音量を制限するため、好ましい実施形態において、背景ノイズレベルに応じてレンジIIのゲインファクタが上昇しても、レンジIのゲインファクタは上昇しない。または、より好ましくは、レンジIまたはその少なくとも高い部分のゲインファクタを少し下げる。すると、全体的音量は上昇しないか、または、知覚的に上昇しない、またはほとんど上昇しない。
【0059】
図8は、本発明のさらに別の好ましい実施形態を示す図である。前の図において、レンジIの上限は、可能な最も高い信号の強さとした。デジタル信号処理においては、この上限を0dBとすることが多い。しかし、人はより小声や大声で話すことがあり、記録及び伝送チェインによりスピーチ信号が未知のレベルで低下させられることがある。無声及び有声音素の間(より一般的には、ソフトサウンドとハードサウンドの間)の入力レベルの違いは、人が大声で話そうが小声で話そうが、多かれ少なかれ(15乃至30dB程度)同じであるこのように、本願発明者は、測定された信号の実際的な最大入力レベルに応じて、すなわち、例えば、人が実際にどのくらい大きな声で話しているかに応じて、ゲインカーブをシフトすることが有利であることに気づいた。人が非常に大きく話す場合、レンジIとIIの位置は、高い入力レベルにシフトされる。小声で話す場合、レンジIとIIは、中間レンジIII及び隣接するレンジIVとVとともに低い入力レベルにシフトする。ダイナミックレベルインジケータの出力を用いて、ダイナミック入力レベルを測定するのに使用した時間より長い所定時間にわたって入力振幅の平均をとることによって、最大レベルmaxを設定する。図8に概略的に示した例において、実際の最大信号強度(例えば、スピーチの最大音量)は、理論的に可能な最大値(例えば、最大可能デジタル信号)よりも10dB低い。より長い時間にわたって平均化されたダイナミックレベルインジケータの出力を用いて、最大入力レベルを設定し、これを用いてゲイン曲線の位置と形状を決めることができる。図8において、ゲイン曲線(z(y))は左に10dBシフトしており、矢印で概略的に示した。
【0060】
図9は、図8に示した動的処理曲線(すなわち、入力振幅とゲインファクタの間の関係)の結果の信号を示す図である。上の部分は図3、すなわち、明瞭な男性のスピーチ信号と同じである。下の部分は、本発明によるスピーチエンハンスメントアルゴリズムを用いて動的に処理した後の信号を示す。無声の「ソフトな」音素(矢印で示した)は、有声の「ハードな」音素と比較して、図9の上の図よりも下の図でよりはっきりしている。入力強度が低いところでゲインファクタを低くする(図8の例の場合、約−50dBより下)ことにより、ラインまたは伝送ノイズが増幅されないか、または増幅され方が小さいという利点がある。以下のことが分かる:
− 矢印で示したように、振幅が低い領域は、無声音素に対応し、エンハンスされている;
− 有声音素には影響がなく、これは音量が変わらないことを意味している;
− 話していない(静寂)部分はブースト(boost)されていない。
【0061】
全部で、簡単な手段により、スピーチの明瞭性は大きく向上する。
【0062】
最大ゲインの値、レンジ間の遷移点、要するに本発明による装置と方法のダイナミック処理曲線の特徴は、好ましい実施形態とシステムにおいて、背景ノイズ(24)またはライン/伝送ノイズ(23)に依存する。このために、背景ノイズレベルをノイズディテクタ120であるマイクロホン(図2も参照)で測定する。伝送ノイズも測定される。伝送ノイズは、例えば、ダイナミックレベルディテクタを用いて、言葉の間の静寂における平均信号を測定することにより、またはその他の平均信号ディテクタにより測定できる。ノイズ信号の特徴値またはノイズ信号N1、N2そのものをダイナミックレベルアジャスタ42に送る。このダイナミックレベルアジャスタは、信号に伴うゲインファクタの多数化を実施する。これは、図10に概略を示した。
【0063】
以下、スピーチエンハンスメントアルゴリズムの(一部の)実施形態を説明する。
a. 速くスムースに(サンプルベースで)レベル検出をするため、ダイナミックレベルディテクタを用いる。そのブロック図を図11に示した。式で書くと、次のようになる:
【0064】
【数1】
ここで、
【0065】
【数2】
であり、かつ
【0066】
【数3】
TaとTrはそれぞれ、平均をとる時間を決めるアタック時定数とリリース時定数である。最適な結果は、TaとTrが数ミリ秒(一般的には1ないし5ミリ秒)であるときに得られる。ダイナミックレベルディテクタは、このように、信号強度の時間平均である入力レベルyを与える。アタック及びリリース時定数(例えば、5ないし20倍長い)より長い時間にわたるレベル及び入力振幅の平均は、最大入力レベルのインジケータとして機能する(これを用いて最大値を決定する)。
【0067】
好ましい実施形態において、ルックアップテーブルベースの動的処理を用いて、入力信号Iの入力レベル振幅依存ゲインファクタ(すなわちブースト)zを設定する。y軸をデシベル単位で表した動的レベルディテクタの出力とする。入力信号Iの値それぞれに対して、動的処理ブロックは、例えば図8に示したようなz軸上のデシベル単位で表された対応するゲインで入力スピーチ信号をブーストする。ゲインファクタは、好ましくは、入力スピーチ信号のノイズレベルのすぐ上から始まる。クリーンに記録されたスピーチ信号の場合、そのレベルは一般的に−50dBより低い。それゆえ、ノイズのブーストを避けることができる。例えば、好ましい単一マイクロホンフィードバックを用いて、最大ゲインファクタ(ブーストレベル)(この場合20dB)を外界ノイズに応じて決める。
【0068】
ゲインファクタの減少の傾き(レンジIIIの傾き)は、好ましくは、(レンジVにおける)上昇の傾きよりも緩やかである。これにより、ポンピングアーティファクトとエコーアーティファクトのリスクを減らす。
【0069】
図12は、ボイス明瞭度エンハンスメント(articulation enhancement)アルゴリズムの一例を示す図である。
【0070】
信号Inが入来する。例えば、ダイナミックレベルディテクタ111の入力122に入力された入来信号Inのストリームから、入力レベルyを計算する。ダイナミックレベルディテクタ111の一例を図11に示した。前掲の図で動的曲線の多くの例を挙げたが、その動的曲線を含むルックアップテーブル121を用いて、ゲインファクタz(n)を計算または決定する。これを入来信号I(n)とかけて、出力信号S=I(n)×z(n)を求める。デシベルに変換する必要性はないが、変換することにより、伝達曲線(transfer curve)が例えば直線となり、実装しやすくなる。
【0071】
本発明を簡潔に説明すると、以下の通りである:
サウンド再生または記録システムにおいて、入力レベル(y)に応じたゲインファクタ(z)をオーディオ信号にかける。無声音素が有声音素より少なくとも6dB、好ましくは少なくとも12dB大きくエンハンスされるように、ゲインファクタの入力レベルに対する依存性を選択する。ここで、平均ゲインは6dBより小さいことが好ましい。これにより、明瞭性が向上する。
【0072】
実際、無声音素が有声音素より大きくエンハンスされているか、どのくらい大きくエンハンスされているかは、システムにおいて比較的容易にチェックすることができる。例えば、母語が英語である人に図3のセンテンスを発音してもらい、出力信号を入来信号と比較すればよい。そして、音素ごとに入来信号と出力信号を比較して、入来信号と出力信号の音量を比較すればよい。
【0073】
個々に開示したアルゴリズムの構成要素は、実際には、ハードウェア(例えば、特定用途用ICの一部)として、または特殊なデジタル信号プロセッサ、汎用プロセッサ等で実行されるソフトウェアとして実現することができる。
【0074】
当業者には言うまでもなく、本発明は、上で図示して説明したものに限定されない。本発明は、全ての新規な特徴のそれぞれ、及びその組み合わせにある。請求項中の参照数字は保護範囲を限定するものではない。「有する」という動詞を用いたが、請求項に記載された要素以外の要素の存在を排除するものではない。要素に付された「1つの」、「一」という用語を使用したが、その要素が複数あることを排除するものではない。
【図面の簡単な説明】
【0075】
【図1】ラウドスピーカを含むシステムを示す概略図である。
【図2A】サウンド再生システムのいろいろな構成要素を示す概略図である。
【図2B】サウンド再生システムのいろいろな構成要素を示す概略図である。
【図3】明瞭な男性のスピーチ信号の波形を示す図である。
【図4】本発明によるスピーチの質向上(enhancement)アルゴリズムの例を示す図である。
【図5】本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図6】伝送ラインノイズリダクションを用いた、本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図7】可変伝送ラインノイズリダクションと可変背景ノイズリダクションとを用いた、本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図8】第1の範囲の上限をシフトした、本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図9】スピーチ信号に対する本発明の効果を示す図である。
【図10】本発明の要素を示すブロック図である。
【図11】動的レベル検出器を示すブロック図である。
【図12】ボイス明瞭度(articulation)質向上アルゴリズムの一例を示す図である。
【技術分野】
【0001】
本発明は、サウンド再生の分野に関し、特に、デジタルオーディオ信号処理の分野に関する。
【0002】
本発明は、オーディオ信号入力、オーディオ信号プロセッサ、及びオーディオ信号出力を有するサウンド再生または記録システムに関する。
【0003】
また、本発明は、入来オーディオ信号を処理してオーディオ出力信号を出力するオーディオ信号プロセッサに関する。特に、本発明はデジタル信号プロセッサ(DSP)回路またはプログラムに関する。
【0004】
また、本発明は、オーディオ信号の処理方法にも関する。
【0005】
ラウドスピーカ電話システム等のサウンド再生システムは、ラウドスピーカと呼ばれることが多い出力トランスデューサとオーディオ信号入力とを含む。ラウドスピーカは、オーディオ入力信号に応答して、所望の音圧波を表すオーディオ入力信号を発生する。
【0006】
リスナーが知覚するサウンドの明瞭性は、特にノイズの多い環境においては非常に重要である。明瞭性を向上する最も簡単な方法は、平均SPL(音圧レベル)を上げること、すなわち、ボリュームを高くすることである。しかし、必ずしもボリュームを上げたからといって、常にサウンドがより明瞭になるわけではない。また、出力が大きすぎると、ラウドスピーカへの負荷が過大になり、明瞭性がさらに悪くなってしまう。信号のノイズは、例えば、環境ノイズ、または信号ノイズ、すなわちサウンド源からレシーバまでの間に信号に載ってしまったノイズである。
【0007】
サウンドの明瞭性を高める試みが多数なされてきた。
【0008】
米国特許出願第2002/0015503号では、周波数帯域ごとに個別にゲインファクタを制限することによる明瞭性の向上が提案されている。
【0009】
しかし、既存のシステム及び方法は、複雑な計算とそのための複雑な回路(ハードウェア)を必要とするか、プログラム(ソフトウェア)を使用する場合には、複雑なプログラムを必要とする非常に複雑なものであるか、または、提供する利点が限定されたものである。
【0010】
上記の参照文献にもかかわらず、本技術分野においては、明瞭性を向上できるようにシステムと方法を改良する必要がまだある。
【0011】
本発明の目的の1つは、明瞭性を向上した比較的簡単なサウンド再生または記録システム及び方法を提供することである。
【0012】
このため、本発明の第1の態様において、本発明によるサウンド再生または記録システムは、前記オーディオ信号プロセッサは、ゲインファクタと入力レベルの間の関数関係が第1のレンジと第2のレンジとを有するような関数関係を有する入力レベルの関数として、ゲインファクタを入力信号に関係づけるアトリビュータを有し、前記第1のレンジは主に有声音素がある振幅をカバーし、前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、前記関数関係は、前記第1のレンジの平均ゲインファクタが前記第2のレンジの平均ゲインファクタより少なくとも6dB、好ましくは少なくとも12dB低いものであることを特徴とする。
【0013】
本発明の第1の態様によるシステムは、以下の洞察に基づく:
簡単なシステムを用いてスピーチの明瞭性を向上することができる。スピーチの最小単位は音素と呼ばれている。1つ以上の音素でシラブルができ、1つ以上のシラブルで単語ができている。音素は母音と子音の2つのグループに分けることができる。母音は常に有声である。無声子音の場合、声帯(holds)は完全に開いている(例えば、s、sh、f音を発音するとき)か、部分的に開いている(例えば、h音の場合)。有声サウンド(voiced
sounds)は、声帯の振動により作られる。
【0014】
本発明によるシステムは、スピーチが有声音素(例えば、母音のa、e、i、o、oa等)と無声音素(例えば、一部の子音s、z、ch、dg、th等)を含むと考えられるとの認識に基づく。以下、より詳細に説明する。無声音素は、一般的には、有声音素に一般的な入力レベルレンジ(第1のレンジ)より低い入力レベルレンジ(第2のレンジ)をカバーする。有声音素は、一般的には、信号の上側レンジ、すなわち信号の最大値に近いレンジにある。発せられたスピーチの音量(振幅)だけを考えると、有声音素は無声音素よりもより一層顕著である。しかし、明瞭性に関して、無声音素は、有声音素より重要でないとしても、それと同じくらい重要である。
【0015】
このように、2つのタイプの音素は、その入力レベルレンジにより互いに区別することができる。本発明の第1の態様によるシステムにおいて、無声音素のゲインファクタ(第2のレンジ)は、有声音素のゲインファクタより(少なくとも平均で6dB、好ましくは12dB以上)大きい。ここで、無声音素を有声音素より強調する。ほとんどの既知のシステムは、ゲインを上げる(ボリュームを上げる)ことによりスピーチを理解しやすくなるとの前提に基づいている。しかし、必ずしもこれがあてはまらない場合がある。本願発明者は、このように全体的に強度を上げる(音量を上げる)ことにより、無声音素が事実上「水没」(drown)してしまっていることに気がついた。入力レベルレンジにわたってゲインファクタを単純に上げるのと比べて、無声音素を有声音素より強調し、簡単に明瞭性を向上することができる。
【0016】
本発明の第2の態様において、本発明によるサウンド再生または記録システムは、前記デジタルオーディオ信号プロセッサは、入力レベルの関数としてゲインファクタを入力信号に関係付けるアトリビュータを有し、ゲインファクタと前記入力レベルの間の関数関係には第1のレンジと第2のレンジがあり、前記第1のレンジは最大値入力レベルから下向きに少なくとも10dB広がり、前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、10dB以上のレンジをカバーし、前記第1のレンジのゲインファクタは、前記第2のレンジのゲインファクタより少なくとも平均で6dB、好ましくは12dB低いことを特徴とする。
【0017】
本発明の第1の態様の基本的洞察を一般化して、本発明の第2の態様による発明は、スピーチ「ソフトサウンド」は、「ハードサウンド」と(これらのサウンドがどのように呼ばれようと)同等の重要性を有するという認識に基づく。本発明において、スピーチの明瞭性を、簡単な手段により、「ソフトサウンド」をハードサウンドより選択的に大きくブースト(少なくとも6dB、好ましくは少なくとも12dB)することにより高くする。使用される言語が「有声」及び「無声」の音素に分けることができるかどうか、これらのカテゴリーを分ける線を理論的に引くかどうか、またどこに引くか、または、アクセント、トーンシフト、強調等の区別できるその他の特徴があるかどうかには係わらずに、この基本的な一般化された洞察が成り立つ。
【0018】
本発明の第2の態様によるシステムにおいて、ゲインファクタを入力レベルに応じて変えて、最大入力レベル(最もハードなサウンドをカバーする)より下に、最大レベルから少なくとも10dB下方にわたる第1の領域と、前記第1のレンジの下に(「よりソフトなサウンド」をカバーする)ゲインファクタが大幅に高い(平均で少なくとも6dB、好ましくは少なくとも12dB)第2のレンジがある。入力レベルとしてのゲイン曲線には、このように2つのレンジがあり、第1のレンジのサウンド信号と比較して第2のレンジがカバーするサウンド信号(よりソフトなサウンド)が強調される。これにより、「ハードなサウンド」と比較して「よりソフトなサウンド」が強調される。これは簡単なシステムと方法を用いて可能であるが、明瞭性が大幅に上がる。
【0019】
好ましくは、第1のレンジは最大値から少なくとも15dB広がるが、30dBより広くはならない。第1のレンジが広すぎると、ソフトサウンドをブーストするのが困難になる。
【0020】
本発明の好ましい実施形態を以下に説明する。特に言わない限り、これらの好ましい実施形態は、本発明の上記の態様の両方に適用される。
【0021】
好ましくは、入力振幅の関数としてゲインファクタを入力信号に関係づけるアトリビュータは、第1と第2のレンジにわたる平均ゲインファクタが12dBより小さく、好ましくは6dBより小さく、より好ましくは3dBより小さいように構成される。平均ゲインファクタは、音量の全体的ブーストの尺度である。スピーチの音量の上昇は、まったく、またはほとんど知覚できない。有声音素に対して無声音素を強調する効果は、少なくとも部分的に、平均ゲインファクタが大幅に上げられれば、無効になる。この条件は、第1のレンジにおける平均ブーストが、表示値より低く制限されることを意味している点を注意しておく。
【0022】
好ましい実施形態において、前記システムは、瞬間信号振幅の入力と、所定時間にわたる平均レベルの出力を有するダイナミックレベルディテクタを有する。
【0023】
ダイナミックレベルディテクタは、このように、レベル、すなわち信号振幅のある種の時間平均を提供する。入力レベルとして瞬間振幅を用いる(すなわち、振幅を直接用いてゲインを決める)のと比較して、ダイナミックレベルディテクタを用いる利点は、ゲインファクタの振る舞いがスムースになり、ポンピング効果の変化が少なくなることである。全体として、明瞭性が高くなる。時間は固定でも調節可能でもよい。
【0024】
好ましくは、前記所定時間は1ないし5ミリ秒である。
【0025】
好ましくは、ゲインファクタを関係づける前記アトリビュータは、前記第1のレンジのゲインファクタが平均で10dBよりも低く、好ましくは6dBより低い。第1の高入力レベルのレンジにおけるゲインは、このように比較的低い。すなわち、「ハードな」信号のブーストは低い。第2のレンジの信号は、上で説明した通り、好ましくは第1のレンジの信号と比して少なくとも6dB、好ましくはより大きくブーストされる。第1のレンジの信号の強度を大きくし過ぎると、この信号はすでに音量がおおきいので、スピーチの明瞭性はあまり向上せず、第2のレンジの比較的弱い信号をハードサウンドと区別しづらくしてしまうので、第1のレンジのゲインファクタを低くしておくことが好ましい。
【0026】
好ましくは、前記システムは、受信信号の最大入力レベルを決定するデターミネータと、前記最大入力レベルを前記第1のレンジの前記上限と一致させる手段とを有する。実施形態において、最大入力レベル(第1のレンジの外縁)は、単に、最大デジタル信号、すなわち、理論的にも実際的にも最も音量の大きい信号である。しかし、本装置は、好ましくは、(スピーチ)信号の実際の最大入力レベルを決定するデターミネータを有する。最大入力レベルは、可能な最大値よりは低いことが多い。第1のレンジは、スピーチ信号の測定された最大入力レベルから始まる。留意すべきことは、このような実施形態において、第1のレンジの開始点のみが測定に依存するわけではなく、第2のレンジ及びさらに別のレンジも測定に依存することである。最大入力レベルは、レベルの測定の時間と比較して比較的長いが、単語の長さと比較すると短い所定の時間にわたり測定された量である。
【0027】
本発明の好ましい実施形態において、入力振幅の関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、ゲインファクタと入力レベルの間の関数関係が、前記第1と第2のレンジの間に第3の中間レンジがあり、ゲインファクタが徐々に変化するように構成されている。本発明の実施形態において、第1のレンジから第2のレンジへの遷移は、ステップ関数であってもよいが、好ましくは、第1と第2のレンジは中間の第3のレンジで分けられており、この第3のレンジにおいて、ゲインファクタは徐々に変化する。このような遷移レンジにより、ポンピングアーティファクトのリスクが減る。好ましくは、この第3のレンジは入力レベルの少なくとも5dBにわたる。好ましくは、この第3のレンジは、最大値(=第1のレンジの外縁)の下の15dBと35dBの間に中心がある。中心があるとは、第3のレンジのどちら側においてもゲインファクタの値の間の中間にあることを意味する。これにより、第1のレンジのための十分な余地が残る。
【0028】
好ましくは、前記システムは、背景ノイズを測定するセンサと、前記測定された背景ノイズに応じて前記第2のレンジにおけるゲインファクタを調節するアジャスタとを有する。背景ノイズは、環境からの干渉サウンド信号によるノイズである。
【0029】
背景ノイズが大きい場合、第2のレンジ、すなわち、主にソフトサウンドまたは無声音素のゲインファクタを大きくすると、その信号の明瞭性が高くなる。
【0030】
好ましくは、上記の実施形態において、第1のレンジ(すなわち、主にハードに聞こえる有声音素)のゲインファクタは、替わらないか、少し減らされる。ハードサウンドまたは有声音素は、背景ノイズが大きくても聞き取ることができる。第1のレンジのゲインファクタを少し下げても、実際には有利である。その理由は、ハードサウンドまたは有声音素に対してソフトサウンドまたは無声音素の相対的なブーストを大きくするからである。ノイズレベルが高いとき、第1のレンジのゲインファクタを下げることはおかしいと思われるかも知れない。しかし、第2のレンジのゲインファクタを上げると同時に第1のレンジのゲインファクタを下げることにより、全体的な信号強度の上昇を一定にするか、または少なくとも大きくし過ぎない。場合によっては、第1のレンジの少なくとも一部(例えば、最も高い部分)のゲインファクタが少し減る(数デシベル)ことになるかも知れないことに注意すべきである。
【0031】
これらの実施形態は、なかんずく、本発明がスピーチの明瞭性を向上するが、ある程度スピーチ信号を歪めるとの認識に基づく。背景ノイズを測定し、第2のレンジのゲインファクタをノイズレベルに応じて決めることにより、サウンド再生が平均してよくなる。背景ノイズレベルが低い場合、信号の変化はほとんどまたは全くないが、背景ノイズレベルが高い場合、第2のレンジのゲインファクタが上昇する。
【0032】
好ましくは、入力振幅の関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第2のレンジには、下限において、ゲインファクタが実質的に0である第4のレンジが隣接するように構成される。上記の第4のレンジは、小さな振幅レベルをカバーする。その振幅レベルでは、信号はおそらくラインまたは伝送ノイズに主に起因するからである。好ましい実施形態において、第4のレンジにおいては、より一層小さなゲインファクタを使う(または好ましくは使わない)。ラインまたは伝送ノイズは増幅されない。 好ましくは、入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第2と第4のレンジが第5の中間レンジで分けられており、前記第5のレンジ内ではゲインファクタが徐々に変化する。実施形態において、第4と第2のレンジの間の遷移は、ステップ関数でもよいが、好ましい実施形態においては、第4のレンジの0ゲインファクタから第2のレンジの高ゲインファクタに徐々に変化することにより、アーティファクトのリスクが減り、信号ノイズ比が高くなる。
【0033】
好ましくは、入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第3のレンジにおけるゲインファクタの減少の傾きが、前記第5のレンジにおけるゲインファクタの上昇の傾きよりも緩やかに構成されている。
【0034】
好ましくは、本システムは、ラインまたは伝送ノイズ(すなわち、信号の伝送方法に固有のノイズであり、例えば、電気部品ノイズや圧縮ノイズである)を測定する手段と、ラインまたは伝送ノイズの値の入力と、測定されたラインノイズに応じて第2のレンジから第4のレンジへの遷移点またはレンジを調節するアジャスタと、を有する。
【0035】
本発明は、サウンド再生システム(例えば、ボイス通信システム)の信号源側に適用することができる。本発明は、また、例えば、移動電話またはラップトップPC等のサウンド再生システムのレシーバ側に適用することもできる。後者は、環境ノイズが大きいときに特に有用である。
【0036】
本発明をサウンド再生システム(例えば、テレビ信号の再生)の信号源側で使用したとき、好ましくは、サウンド再生システムは、伝送された、または伝送される信号にその信号が元の信号から変更されていることを示すマークをつけるマーカを有する。好ましくは、そのマークは、その変更に関する情報(例えば、ゲインファクタとレンジに関する情報)を含む。上述のように、本発明による装置と方法は、明瞭性を向上し、支払うべき対価は比較的小さいが、信号がすこし歪む。しかし、本発明を2回、すなわち、信号源側と受信側とで実行すると、過剰になるリスクがある。すなわち、結果が最適とはかけ離れたものとなるリスクがある。信号を処理したこと(及び好ましくはその方法)を示すマークをつけることにより、このリスクを減らすことができる。
【0037】
本発明のコンセプトにおいて、「センサ」「ディテクタ」、「マーカ」、「アトリビュータ」、「アジャスタ」等は、広く解釈すべきであり、例えば、ハードウェア(センサ、ディテクタ、アトリビュータ、ディテクタ等)、上述の動作や機能等を実行するように設計された回路または副回路(sub-circuit)、及び本発明による動作等を実行するように設計またはプログラムされたソフトウェア(コンピュータプログラムやサブプログラムや、1組のプログラムや、プログラムコード等)、及びそのように動作するハードウェアとソフトウェアのいかなる組み合わせを、単独で、または組み合わせて有し、以下に説明する実施形態例に制限されることはない。例えば、DSP、ASIC、マイクロホン、または大きなプログラムとは別またはその一部のアルゴリズムの形式である。1つのプログラムが幾つかの機能を併せ持ってもよい。好ましくは、本システムは、デジタル信号を用いるデジタル信号処理に少なくとも一部は基づく。
【0038】
本発明は、また、サウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、入力レベルの関数であるゲインファクタを入力信号にかけ、ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第1のレンジと第2のレンジがあり、前記第1のレンジは主に有声音素がある振幅をカバーし、前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、前記関数関係は、前記第1のレンジの平均ゲインファクタが前記第2のレンジの平均ゲインファクタより少なくとも6dB低いものであることを特徴とする方法としても実施できる。
【0039】
本発明は、また、サウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、入力レベルの関数であるゲインファクタを入力信号にかけ、ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第1のレンジと第2のレンジがあり、前記第1のレンジは最大値入力レベルから下向きに少なくとも10dB広がり、前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、10dB以上のレンジをカバーし、前記第1のレンジの平均ゲインファクタは、前記第2のレンジのゲインファクタより少なくとも平均で6dB低いことを特徴とする方法としても実施することができる。
【0040】
本方法の好ましい実施形態は、発明の概要または好ましい実施形態の説明のいずれに記載していようが、本発明によるシステムのすでに説明した好ましい実施形態に関連する方法ステップに対応するものである。
【0041】
本発明は、また、コンピュータで実行されたとき、本発明による方法を実行するプログラムコード手段を有するいかなるコンピュータプログラムにも化体されており、また、コンピュータで実行されたとき、本発明による方法を実行する、コンピュータ読み取り可能媒体に記憶されたプログラムコード手段を有するいかなるコンピュータプログラム製品にも化体することができ、また、本発明の動作を実行する、本発明によるシステムで使用するプログラムコード手段を有するいかなるプログラム製品にも化体することができる。
【0042】
本発明の上記その他の態様を、添付した図面を参照して、例によりより詳しく説明する。
【0043】
以下、本発明の好ましい実施形態を示した、添付した図面を参照して、本発明をより詳しく説明する。しかし、本発明は、多数の異なる形体で実施することができ、ここで説明する実施形態に限定されると解釈すべきではない。むしろ、この開示を徹底して完全なものにし、当業者に本発明の範囲を十分に分かってもらうように、これらの実施形態を提供する。図面にわたって同じ数字は同じ要素を示す。
【0044】
図1は、サウンド再生システムを示す概略図である。このシステムは、例えば、自動車で使用されるハンヅフリーのラウドスピーカセルラー無線電話である。ハンヅフリーの携帯電話として実施したとき、遠端(far end)、すなわち遠隔者(distant party)から受け取られるスピーチ信号は、セルラー基地局(図示せず)から送信され、携帯電話のトランシーバ(図示せず)で受信され、入来する遠端信号入力1に入力波形Wとして送られる。この例において、システム(この場合、電話システム)と遠端との間の伝送はデジタル形式であると仮定する。元の信号がアナログ形式の場合、システムはアナログ・デジタルコンバータを有し、デジタル遠端信号を生成して入力1に送る。
【0045】
図1に示したように、波形はデジタルフォーマットで入力1に送られ、またはDSP(デジタルサウンドプロセッサ)2に送られる。DSP2は、デジタル出力3に接続されているか、デジタル出力3を有している。デジタル信号は、デジタル・アナログコンバータ4に入力され、アナログフォーマットに変換され、アンプ5で増幅され、ラウドスピーカ6により使用される。遠隔者のスピーチを表す音圧波W1がラウドスピーカ6により発生される。したがって、無線電話ユーザには、遠隔者のスピーチを表す音圧波形が聞こえる。
【0046】
しかし、リスナーにはラウドスピーカにより発生されたサウンドが聴こえるだけではなく、他のサウンドも聞こえる。これにより、ラウドスピーカにより発生されたサウンドが理解しづらくなる、すなわち、明瞭性が低下する。
【0047】
ボリュームを上げることにより、最初に明らかに明瞭性を上げることができる。しかし、ラウドスピーカの最大出力レベルには限界があり、単にボリュームを上げるだけではノイズが大きくなり、必ずしも信号の明瞭性が上がらないことが多い。
【0048】
図2Aは、サウンド源(明瞭なスピーチ)21とユーザの耳22の間に、伝送ノイズ23と背景ノイズ24の2つのノイズ源があることを示している。
【0049】
明瞭性を高めるため、本発明による装置と方法においては、幾つかの手段が用いられる。特に、センサ26を備えて、背景ノイズ24を測定し、背景ノイズ信号N2を求める。また、伝送ノイズ23を測定するための手段27を備えて、ラインまたは伝送ノイズ信号N1を求める。
【0050】
図2Bは、サウンド再生システムの情報源側(source end)を示す図である。図中、21は出力信号を示す。
【0051】
基本的コンセプトは、サウンド再生システムにおいて、情報源側(図2B)、または受信側(図2A)、または両方の側に、本発明によるやり方で信号に影響を与える手段(例えば、プログラムまたはソースコード)であるボイス明瞭度向上器(voice articulation enhancer)を備える。幾つかの例を示す。
【0052】
伝送品質の低さ(ノイズ源23)やノイズの多い背景(ノイズ源24)といった条件によりクリーンなスピーチ信号(信号21)にノイズがのると、その信号の明瞭性を著しく害する。多数のスピーチ明瞭性向上方法では、結果的にスピーチ信号の音量が大きくなる。音量が大きくならないアルゴリズムは多くない。
【0053】
本発明は、例えば、スピーチエンハンスメントアルゴリズムにより、無声音素を時間領域のエネルギーレベルに基づきエンハンスする単純な方法に基づく。クリーンスピーチを伝送ノイズ(23)に対してロバストにしなければならない場合、アルゴリズム(25、図2B)をエミッタ側に配置するのがよい。外界ノイズが主要なノイズ源(24)である場合、該アルゴリズム(25、図2A)を再生側に配置するのがよい。
【0054】
図3は、明瞭な男性のスピーチ信号の波形を示す図である。矢印は無声音素(th、c、ch、cr、d、b、th、s、de、t)の位置を示す。これらの無声セグメントは、有声セグメント(oa、wa、ow、de、in、i、ou等の母音)と比較して含んでいるエネルギーが少ない。本発明は、低いエネルギー範囲を高いエネルギー範囲より大きく選択的にブースト(boost)し、無声音素を有声音素と比較してエンハンスするというアイデアに基づく。スピーチの明瞭性にとって無声音素の重要性は大きい。スピーチを作るのに用いられる個々のサウンドは音素と呼ばれる。サウンド源は、音素がいくつあり、それが何の音素かという点で異なる。母音は常に有声である。無声子音の場合、声帯(holds)は完全に開いている(例えば、s、sh、f音を発音するとき)か、部分的に開いている(例えば、h音の場合)。有声サウンドは、声帯の振動により作られる。音素は、その生成で働くメカニズムにより3つの大きなカテゴリーの1つに入る:
− 有声サウンド
− 摩擦音子音
− 停止子音
有声サウンド
英語で使用される音素の多くは、声門により一定に保たれた声帯を通る周期的気流により生じる有声サウンドである。このフォルマント周波数における周期的気流に応じて気道が共鳴する。フォルマント周波数により有声音素を区別できる。フォルマント周波数は、声帯の緊張で制御される。有声サウンドは、鼻腔と口の動きによりフィルタされる。
例:lame、vowel、you、met
摩擦音子音
無声摩擦音素は、口を通る一定の気流の擦る音により生じる。このサウンドには、有声音の声門インパルス及び声道振動の減少がない。無声音素は、フォルマント周波数の存在よりも、唇、歯、下の位置の違いにより互いに区別される。
例:fat、sit、church、thing、...
有声摩擦音素は、声門インパルスと摩擦ヒス音により生じる声道フォルマント共鳴を含む。
例:that、judge、which、...
停止子音
停止子音の特徴は、音素の初めで唇及び/または歯及び舌により気流を完全に止めて瞬間的に解放することである。
有声停止子音は、声帯インパルスと声道共鳴による。
例:bet、get、better、...
無声停止子音は、声道動作がなく、摩擦ヒス音により占められている。
例:kit、pet、ten、…
上記の通り、人が話す時、一般的に有声音素は、無声音素を含む振幅範囲より高い振動範囲にある。
【0055】
図4は、スピーチエンハンスメントアルゴリズムの概略を示す図である。レベル検出器41で入来信号21の入力レベル(例えば、信号の振幅やパワー)を検出し、測定レベルに応じて動的アジャスタ42のゲインを調節し、調節済み信号43を与える。最も単純な形式においては、入力レベルは単なる入力振幅である。しかし、好ましい実施形態においては、動的レベルディテクタをシステムに備え、所定期間(一般的には数ミリ秒)にわたる平均レベルを決定する。ゲインファクタzは入力レベルyの関数であり、上記の好ましい実施形態においては、入力信号振幅Inを平均化することにより求められる。入来信号振幅Inをゲインファクタzとかけて、信号S(S=z(y)×In)が与えられる。
【0056】
図5は、本発明の実施形態によるいくつかのスピーチエンハンスメントアルゴリズムの動的振る舞い(すなわち、ゲインファクタzと振幅または振幅レベルyの間の関数関係)を示す図である。ゲインファクタz(縦軸にdB単位で示した)は、入来信号の入力レベルy(横軸にdB単位で示した)の関数である。入力レベルyは最大値より小さい。これらの実施形態において、この最大値は可能な最も高いデジタル信号である。ゲインカーブは第1のレンジIを有し、その第1のレンジIの入力レベルは、上限において最大入力レベルMAXとなる。この第1のレンジにおいて、ブーストファクタ(すなわち、ゲインファクタ)は小さく、一般的には3dBより小さい。第1のレンジIは、この例において、最大値MAXから少なくとも10dB広がっている。好ましくは、第1のレンジは少なくとも15dB広がるが、30dBより広くはならない。ゲインカーブは第2のレンジIIを有し、その第2のレンジIIのゲインファクタzはかなり高い(少なくとも6dB、好ましくは、少なくとも12dB、より好ましくは、少なくとも18dBであり、この差は図5にΔとして示した)。レンジIIは、レンジIより下に一般的には15−35dB以上広がっており、レンジIとIIを合わせた範囲は、(中間レンジIIを含めて)一般的には30−75dBである。一般的なスピーチでは、ダイナミックレンジは人がどのくらいの大きさで話すかにも依存し、一般的には40ないし60dBである。図5は、スピーチのダイナミックレンジの低い方(レンジII)が高い方のレンジIに対してブースト(boost)されていることを示す。高い方のレンジI自体も、低い(10dBより小さい)がブースト(boost)されている。この好ましい実施形態においては、レンジIとIIは、ダイナミックスピーチレンジ(0から約50dBまで)にある。各レンジが(y軸方向で)カバーする範囲はdB値ではほぼ同じである(例えば、dB数で表して2倍以内である)。レンジIとIIの間のy軸方向の差が大きすぎると、レンジIIがレンジIより大幅に小さい場合、無声音素またはソフトサウンドのブースト(boost)が小さすぎることになるか、またはレンジIIがレンジIよりも大幅に大きい場合、有声音素またはハードサウンドの少なくともかなりの部分もブースト(boosted)される。入力レベルyに対するゲインzの曲線には、曲線52のように、ステップがあってもよいが、好ましくは、レンジIとIIの間に第3のレンジIIIがあり、その第3のレンジIIIでは曲線51と53で示したように、ゲインファクタが徐々に上がる。このような遷移レンジIIIにより、ポンピングアーティファクトのリスクが減る。この例において、レンジI、II、IIIの全体でダイナミックスピーチレンジ(0から約50dBまで)をカバーし、各レンジI、II、IIIはdB単位でほぼ同じ範囲(例えば、dB単位で表した場合に3倍以内)のダイナミックスピーチレンジをカバーする。レンジIとIIの間のゲインファクタの差は、曲線51、52、53の場合に、それぞれ25dB、22dB、15dBである。平均ゲインファクタは、ゲインファクタに入力レベルの大きさをかけて合計し、次に入力レベルの大きさの合計で割ることにより計算することができる。最強の信号(y値が0に近い信号)がこの平均ゲインファクタにもっとも寄与し、非常に弱い信号(y値が−30以下の信号)は音量にほとんど寄与しない。ゲインファクタが比較的大きくても信号が非常に弱ければ、平均ゲインファクタにはほとんど寄与しない。(入力レベルが最も高いか、高い方のもの、すなわちレンジIの場合)0に近いので、ゲインファクタは小さい(好ましくは、10dBよりかなり小さい)。第2のレンジIIのゲインファクタは大きいにもかかわらず、平均ゲインファクタは小さい。トータル平均ゲインファクタは、好ましくは、12dBより小さく、より好ましくは、6dBより小さく、さらに好ましくは、3dBより小さい。
【0057】
図6は、本発明の好ましい実施形態を示す図である。ゲイン曲線には、レンジIIの左側に(すなわち、レンジIIの下限値より下の入力レベル)第4のレンジIVがあり、その第4のレンジIV内では、ゲインファクタは非常に低い(好ましくは0または負のdB値)。このような入力レベルにおいては、信号は主に伝送ノイズによるものであろう。通常、信号は何らかの装置で生成され、次に、別の場所に伝送ラインを介して送信される。信号がなくても、生成装置及び伝送自体でノイズが発生する。この好ましい実施形態において、レンジIIの下限レベルより下では、より一層小さなゲインファクタを使う(または好ましくは使わない)。伝送ノイズまたはラインノイズは増幅されない。好ましくは、第2または第4のレンジII、IVは、第5の中間レンジVで分けられており、そのレンジV内でゲインファクタは徐々に変化する。徐々に変化させることによりアーティファクトのリスクが減り、信号ノイズ比が高くなる。本発明の簡単な実施形態において、レンジIIとIVの間の遷移点、またはレンジIIとIV、及びIVとVの間の遷移点がある場所は固定されていてもよく、この場合、レンジIVとIIまたはレンジVの間の遷移点は、好ましくは、最大入力レベルから40dBと65dBの間にある。好ましい実施形態において、少なくとも1つ、幾つか、またはすべてのレンジ間の遷移点または遷移レンジは、ラインまたは伝送ノイズの測定に基づき、以下により詳しく説明するように、特に、伝送ノイズ信号N1に依存する。レンジIとIIの間の中間レンジIIIは、この場合、入力レベルで15dBをカバーする。レンジIIは10から15dBをカバーし、レンジVは5dBをカバーし、レンジIは20dBをカバーする。レンジIとIIの間のゲインファクタの差は15dBである。レンジIIとIVの間のゲインの差は20dBであり、レンジVは5dBをカバーする。すなわち、その傾きはレンジIIIの傾きよりも急峻である。
【0058】
図7は、本発明による別の実施形態を示す図である。ゲイン曲線は、前の図に示した5つのレンジを有する。曲線番号71a、71b、71cが示されている。曲線71aは、図6に示した曲線と同じである。背景ノイズ(ノイズ信号N2)のレベルが高い場合、レンジIIのゲインファクタを大きくすると有利である。これを曲線71bにより概略的に示した。曲線71bにおいて、全てのレンジI、II、IIIにおいてゲインファクタが大きくなっており、レンジIIで特に著しい。これにより明瞭性が高くなるが、しかし、全体的な音量も大きくなる。好ましい実施形態において、全体的音量の上昇は12dBより小さく、好ましくは6dBより小さく、より好ましくは3dBより小さい。全体的音量が増加しても、明瞭性は高くならない。全体的音量を制限するため、好ましい実施形態において、背景ノイズレベルに応じてレンジIIのゲインファクタが上昇しても、レンジIのゲインファクタは上昇しない。または、より好ましくは、レンジIまたはその少なくとも高い部分のゲインファクタを少し下げる。すると、全体的音量は上昇しないか、または、知覚的に上昇しない、またはほとんど上昇しない。
【0059】
図8は、本発明のさらに別の好ましい実施形態を示す図である。前の図において、レンジIの上限は、可能な最も高い信号の強さとした。デジタル信号処理においては、この上限を0dBとすることが多い。しかし、人はより小声や大声で話すことがあり、記録及び伝送チェインによりスピーチ信号が未知のレベルで低下させられることがある。無声及び有声音素の間(より一般的には、ソフトサウンドとハードサウンドの間)の入力レベルの違いは、人が大声で話そうが小声で話そうが、多かれ少なかれ(15乃至30dB程度)同じであるこのように、本願発明者は、測定された信号の実際的な最大入力レベルに応じて、すなわち、例えば、人が実際にどのくらい大きな声で話しているかに応じて、ゲインカーブをシフトすることが有利であることに気づいた。人が非常に大きく話す場合、レンジIとIIの位置は、高い入力レベルにシフトされる。小声で話す場合、レンジIとIIは、中間レンジIII及び隣接するレンジIVとVとともに低い入力レベルにシフトする。ダイナミックレベルインジケータの出力を用いて、ダイナミック入力レベルを測定するのに使用した時間より長い所定時間にわたって入力振幅の平均をとることによって、最大レベルmaxを設定する。図8に概略的に示した例において、実際の最大信号強度(例えば、スピーチの最大音量)は、理論的に可能な最大値(例えば、最大可能デジタル信号)よりも10dB低い。より長い時間にわたって平均化されたダイナミックレベルインジケータの出力を用いて、最大入力レベルを設定し、これを用いてゲイン曲線の位置と形状を決めることができる。図8において、ゲイン曲線(z(y))は左に10dBシフトしており、矢印で概略的に示した。
【0060】
図9は、図8に示した動的処理曲線(すなわち、入力振幅とゲインファクタの間の関係)の結果の信号を示す図である。上の部分は図3、すなわち、明瞭な男性のスピーチ信号と同じである。下の部分は、本発明によるスピーチエンハンスメントアルゴリズムを用いて動的に処理した後の信号を示す。無声の「ソフトな」音素(矢印で示した)は、有声の「ハードな」音素と比較して、図9の上の図よりも下の図でよりはっきりしている。入力強度が低いところでゲインファクタを低くする(図8の例の場合、約−50dBより下)ことにより、ラインまたは伝送ノイズが増幅されないか、または増幅され方が小さいという利点がある。以下のことが分かる:
− 矢印で示したように、振幅が低い領域は、無声音素に対応し、エンハンスされている;
− 有声音素には影響がなく、これは音量が変わらないことを意味している;
− 話していない(静寂)部分はブースト(boost)されていない。
【0061】
全部で、簡単な手段により、スピーチの明瞭性は大きく向上する。
【0062】
最大ゲインの値、レンジ間の遷移点、要するに本発明による装置と方法のダイナミック処理曲線の特徴は、好ましい実施形態とシステムにおいて、背景ノイズ(24)またはライン/伝送ノイズ(23)に依存する。このために、背景ノイズレベルをノイズディテクタ120であるマイクロホン(図2も参照)で測定する。伝送ノイズも測定される。伝送ノイズは、例えば、ダイナミックレベルディテクタを用いて、言葉の間の静寂における平均信号を測定することにより、またはその他の平均信号ディテクタにより測定できる。ノイズ信号の特徴値またはノイズ信号N1、N2そのものをダイナミックレベルアジャスタ42に送る。このダイナミックレベルアジャスタは、信号に伴うゲインファクタの多数化を実施する。これは、図10に概略を示した。
【0063】
以下、スピーチエンハンスメントアルゴリズムの(一部の)実施形態を説明する。
a. 速くスムースに(サンプルベースで)レベル検出をするため、ダイナミックレベルディテクタを用いる。そのブロック図を図11に示した。式で書くと、次のようになる:
【0064】
【数1】
ここで、
【0065】
【数2】
であり、かつ
【0066】
【数3】
TaとTrはそれぞれ、平均をとる時間を決めるアタック時定数とリリース時定数である。最適な結果は、TaとTrが数ミリ秒(一般的には1ないし5ミリ秒)であるときに得られる。ダイナミックレベルディテクタは、このように、信号強度の時間平均である入力レベルyを与える。アタック及びリリース時定数(例えば、5ないし20倍長い)より長い時間にわたるレベル及び入力振幅の平均は、最大入力レベルのインジケータとして機能する(これを用いて最大値を決定する)。
【0067】
好ましい実施形態において、ルックアップテーブルベースの動的処理を用いて、入力信号Iの入力レベル振幅依存ゲインファクタ(すなわちブースト)zを設定する。y軸をデシベル単位で表した動的レベルディテクタの出力とする。入力信号Iの値それぞれに対して、動的処理ブロックは、例えば図8に示したようなz軸上のデシベル単位で表された対応するゲインで入力スピーチ信号をブーストする。ゲインファクタは、好ましくは、入力スピーチ信号のノイズレベルのすぐ上から始まる。クリーンに記録されたスピーチ信号の場合、そのレベルは一般的に−50dBより低い。それゆえ、ノイズのブーストを避けることができる。例えば、好ましい単一マイクロホンフィードバックを用いて、最大ゲインファクタ(ブーストレベル)(この場合20dB)を外界ノイズに応じて決める。
【0068】
ゲインファクタの減少の傾き(レンジIIIの傾き)は、好ましくは、(レンジVにおける)上昇の傾きよりも緩やかである。これにより、ポンピングアーティファクトとエコーアーティファクトのリスクを減らす。
【0069】
図12は、ボイス明瞭度エンハンスメント(articulation enhancement)アルゴリズムの一例を示す図である。
【0070】
信号Inが入来する。例えば、ダイナミックレベルディテクタ111の入力122に入力された入来信号Inのストリームから、入力レベルyを計算する。ダイナミックレベルディテクタ111の一例を図11に示した。前掲の図で動的曲線の多くの例を挙げたが、その動的曲線を含むルックアップテーブル121を用いて、ゲインファクタz(n)を計算または決定する。これを入来信号I(n)とかけて、出力信号S=I(n)×z(n)を求める。デシベルに変換する必要性はないが、変換することにより、伝達曲線(transfer curve)が例えば直線となり、実装しやすくなる。
【0071】
本発明を簡潔に説明すると、以下の通りである:
サウンド再生または記録システムにおいて、入力レベル(y)に応じたゲインファクタ(z)をオーディオ信号にかける。無声音素が有声音素より少なくとも6dB、好ましくは少なくとも12dB大きくエンハンスされるように、ゲインファクタの入力レベルに対する依存性を選択する。ここで、平均ゲインは6dBより小さいことが好ましい。これにより、明瞭性が向上する。
【0072】
実際、無声音素が有声音素より大きくエンハンスされているか、どのくらい大きくエンハンスされているかは、システムにおいて比較的容易にチェックすることができる。例えば、母語が英語である人に図3のセンテンスを発音してもらい、出力信号を入来信号と比較すればよい。そして、音素ごとに入来信号と出力信号を比較して、入来信号と出力信号の音量を比較すればよい。
【0073】
個々に開示したアルゴリズムの構成要素は、実際には、ハードウェア(例えば、特定用途用ICの一部)として、または特殊なデジタル信号プロセッサ、汎用プロセッサ等で実行されるソフトウェアとして実現することができる。
【0074】
当業者には言うまでもなく、本発明は、上で図示して説明したものに限定されない。本発明は、全ての新規な特徴のそれぞれ、及びその組み合わせにある。請求項中の参照数字は保護範囲を限定するものではない。「有する」という動詞を用いたが、請求項に記載された要素以外の要素の存在を排除するものではない。要素に付された「1つの」、「一」という用語を使用したが、その要素が複数あることを排除するものではない。
【図面の簡単な説明】
【0075】
【図1】ラウドスピーカを含むシステムを示す概略図である。
【図2A】サウンド再生システムのいろいろな構成要素を示す概略図である。
【図2B】サウンド再生システムのいろいろな構成要素を示す概略図である。
【図3】明瞭な男性のスピーチ信号の波形を示す図である。
【図4】本発明によるスピーチの質向上(enhancement)アルゴリズムの例を示す図である。
【図5】本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図6】伝送ラインノイズリダクションを用いた、本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図7】可変伝送ラインノイズリダクションと可変背景ノイズリダクションとを用いた、本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図8】第1の範囲の上限をシフトした、本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図9】スピーチ信号に対する本発明の効果を示す図である。
【図10】本発明の要素を示すブロック図である。
【図11】動的レベル検出器を示すブロック図である。
【図12】ボイス明瞭度(articulation)質向上アルゴリズムの一例を示す図である。
【特許請求の範囲】
【請求項1】
オーディオ信号入力と、オーディオ信号プロセッサと、オーディオ信号出力とを有するサウンド再生または記録システムであって、
前記オーディオ信号プロセッサは、ゲインファクタと入力レベルの間の関数関係が第1のレンジと第2のレンジとを有するような関数関係を有する入力レベルの関数として、ゲインファクタを入力信号に関係づけるアトリビュータを有し、
前記第1のレンジは主に有声音素がある振幅をカバーし、
前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、
前記関数関係は、前記第1のレンジの平均ゲインファクタが前記第2のレンジの平均ゲインファクタより少なくとも6dB低いものであることを特徴とするシステム。
【請求項2】
デジタルオーディオ信号入力と、デジタルオーディオ信号プロセッサと、デジタルオーディオ信号出力とを有するサウンド再生または記録システムであって、
前記デジタルオーディオ信号プロセッサは、入力レベルの関数としてゲインファクタを入力信号に関係付けるアトリビュータを有し、
ゲインファクタと前記入力レベルの間の関数関係には第1のレンジと第2のレンジがあり、
前記第1のレンジは最大値入力レベルから下向きに少なくとも10dB広がり、
前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、10dB以上のレンジをカバーし、
前記第1のレンジの平均ゲインファクタは、前記第2のレンジのゲインファクタより少なくとも平均で6dB低いことを特徴とするシステム。
【請求項3】
請求項2に記載のサウンド再生システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第1のレンジが前記最大値から少なくとも15dB広がるが30dBより広がらないように構成されていることを特徴とするシステム。
【請求項4】
請求項1または2に記載のサウンド再生または記録システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第1のレンジのゲインファクタが前記第2のレンジのゲインファクタより少なくとも12dB低いことを特徴とするシステム。
【請求項5】
請求項1または2に記載のサウンド再生または記録システムであって、
ゲインを関係づける前記アトリビュータは、レンジIとレンジIIの平均ゲインファクタが、好ましくは6dBより低く、さらに好ましくは3dBより低く構成されていることを特徴とするシステム。
【請求項6】
請求項1または2に記載のサウンド再生または記録システムであって、
前記システムは、信号振幅の入力と、所定時間にわたる平均レベルの出力を有するダイナミックレベルディテクタを有することを特徴とするシステム。
【請求項7】
請求項6に記載のサウンド再生または記録システムであって、
前記所定時間は1ないし5ミリ秒であることを特徴とするシステム。
【請求項8】
請求項1または2に記載のサウンド再生または記録システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第1のレンジのゲインファクタが平均で10dBよりも低く、好ましくは6dBより低いことを特徴とするシステム。
【請求項9】
請求項1または2に記載のサウンド再生または記録システムであって、
前記システムは、受信信号の最大入力レベルを決定するデターミネータと、前記最大入力レベルを前記第1のレンジの前記上限と一致させる手段とを有することを特徴とするシステム。
【請求項10】
請求項1または2に記載のサウンド再生または記録システムであって、
入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、ゲインファクタと入力レベルの間の関数関係が、前記第1と第2のレンジの間に第3の中間レンジがあり、ゲインファクタが徐々に変化するように構成されていることを特徴とするシステム。
【請求項11】
請求項1または2に記載のサウンド再生または記録システムであって、
前記システムは、背景ノイズを測定するセンサと、前記測定された背景ノイズに応じて前記第2のレンジにおけるゲインファクタを調節するアジャスタとを有することを特徴とするシステム。
【請求項12】
請求項1または2に記載のサウンド再生または記録システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第2のレンジには、下限において、ゲインファクタが実質的に0である第4のレンジが隣接するように構成されることを特徴とするシステム。
【請求項13】
請求項12に記載のサウンド再生または記録システムであって、
入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第2と第4のレンジが第5の中間レンジで分けられており、前記第5のレンジ内ではゲインファクタが徐々に変化することを特徴とするシステム。
【請求項14】
請求項12及び10に記載のサウンド再生または記録システムであって、
入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第3のレンジにおけるゲインファクタの減少の傾きが、前記第5のレンジにおけるゲインファクタの上昇の傾きよりも緩やかに構成されていることを特徴とするシステム。
【請求項15】
請求項12に記載のサウンド再生または記録システムであって、
前記システムは、ラインまたは伝送ノイズを測定する手段と、ラインまたは伝送ノイズの値の入力と、ラインまたは伝送ノイズの大きさに応じて前記第2のレンジから前記第4のレンジへの遷移点または遷移レンジを調節するアジャスタと、を有することを特徴とするシステム。
【請求項16】
請求項1または2に記載のサウンド再生システムであって、
前記サウンド再生システムは移動電話システムであることを特徴とするシステム。
【請求項17】
請求項1または2に記載のサウンド再生システムであって、
前記信号プロセッサはデジタル信号プロセッサ(DSP)であることを特徴とするシステム。
【請求項18】
入来オーディオ信号を処理するサウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、
入力レベルの関数であるゲインファクタを入力信号にかけ、
ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第1のレンジと第2のレンジがあり、
前記第1のレンジは主に有声音素がある振幅をカバーし、
前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、
前記関数関係は、前記第1のレンジの平均ゲインファクタが前記第2のレンジの平均ゲインファクタより少なくとも6dB低いものであることを特徴とする方法。
【請求項19】
サウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、
入力レベルの関数であるゲインファクタを入力信号にかけ、
ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第1のレンジと第2のレンジがあり、
前記第1のレンジは最大値入力レベルから下向きに少なくとも10dB広がり、
前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、10dB以上のレンジをカバーし、
前記第1のレンジの平均ゲインファクタは、前記第2のレンジのゲインファクタより少なくとも平均で6dB低いことを特徴とする方法。
【請求項20】
請求項18または19に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の関数関係は、前記第1のレンジのゲインファクタが前記第2のレンジのゲインファクタより少なくとも12dB低いことを特徴とする方法。
【請求項21】
請求項18または19に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、平均ゲインが12dBより小さく、好ましくは6dBより小さく、さらに好ましくは3dBより小さいことを特徴とする方法。
【請求項22】
請求項18または19に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルとの間の前記関数関係は、前記第1と第2のレンジが第3の中間レンジで分けられており、前記第3のレンジにおいてゲインファクタが徐々に変化するものであることを特徴とする方法。
【請求項23】
請求項18または19に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、前記第2のレンジには、下限において、ゲインファクタが実質的に0である第4のレンジが隣接するように構成されることを特徴とする方法。
【請求項24】
請求項23に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルとの間の前記関数関係は、前記第2と第4のレンジが第5の中間レンジで分けられており、前記第5のレンジにおいてゲインファクタが徐々に変化するものであることを特徴とする方法。
【請求項25】
請求項22及び24に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、前記第3のレンジにおけるゲインファクタの減少の傾きは、前記第5のレンジにおけるゲインファクタの増加の傾きよりも緩やかであることを特徴とする方法。
【請求項26】
請求項18に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、無声音素が有声音素より少なくとも6dB大きくエンハンスされることを特徴とする方法。
【請求項27】
入来オーディオ信号をデジタル的に処理するサウンド再生システムにおけるオーディオ信号エンハンスメント方法であって、
入力レベルの関数であるゲインファクタを入力信号にかけ、
ゲインファクタと入力レベルの間の前記関数関係は、無声音素が有声音素より少なくとも6dB、好ましくは12dB大きくエンハンスされることを特徴とする方法。
【請求項28】
請求項27に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、全体的音量の上昇が6dBより小さく、好ましくは3dBより小さいことを特徴とする方法。
【請求項29】
コンピュータで実行された時、請求項18ないし28いずれか一項に記載の方法を実行するプログラムコード手段を有するコンピュータプログラム。
【請求項30】
コンピュータで実行された時、請求項18ないし28いずれか一項に記載の方法を実行する、コンピュータ読み取り可能媒体に記憶されたプログラムコード手段を有するコンピュータプログラム。
【請求項31】
請求項1ないし17いずれか一項に記載のシステムにおいて使用する、本発明の動作を実行するプログラムコード手段を有することを特徴とするコンピュータプログラム。
【請求項1】
オーディオ信号入力と、オーディオ信号プロセッサと、オーディオ信号出力とを有するサウンド再生または記録システムであって、
前記オーディオ信号プロセッサは、ゲインファクタと入力レベルの間の関数関係が第1のレンジと第2のレンジとを有するような関数関係を有する入力レベルの関数として、ゲインファクタを入力信号に関係づけるアトリビュータを有し、
前記第1のレンジは主に有声音素がある振幅をカバーし、
前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、
前記関数関係は、前記第1のレンジの平均ゲインファクタが前記第2のレンジの平均ゲインファクタより少なくとも6dB低いものであることを特徴とするシステム。
【請求項2】
デジタルオーディオ信号入力と、デジタルオーディオ信号プロセッサと、デジタルオーディオ信号出力とを有するサウンド再生または記録システムであって、
前記デジタルオーディオ信号プロセッサは、入力レベルの関数としてゲインファクタを入力信号に関係付けるアトリビュータを有し、
ゲインファクタと前記入力レベルの間の関数関係には第1のレンジと第2のレンジがあり、
前記第1のレンジは最大値入力レベルから下向きに少なくとも10dB広がり、
前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、10dB以上のレンジをカバーし、
前記第1のレンジの平均ゲインファクタは、前記第2のレンジのゲインファクタより少なくとも平均で6dB低いことを特徴とするシステム。
【請求項3】
請求項2に記載のサウンド再生システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第1のレンジが前記最大値から少なくとも15dB広がるが30dBより広がらないように構成されていることを特徴とするシステム。
【請求項4】
請求項1または2に記載のサウンド再生または記録システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第1のレンジのゲインファクタが前記第2のレンジのゲインファクタより少なくとも12dB低いことを特徴とするシステム。
【請求項5】
請求項1または2に記載のサウンド再生または記録システムであって、
ゲインを関係づける前記アトリビュータは、レンジIとレンジIIの平均ゲインファクタが、好ましくは6dBより低く、さらに好ましくは3dBより低く構成されていることを特徴とするシステム。
【請求項6】
請求項1または2に記載のサウンド再生または記録システムであって、
前記システムは、信号振幅の入力と、所定時間にわたる平均レベルの出力を有するダイナミックレベルディテクタを有することを特徴とするシステム。
【請求項7】
請求項6に記載のサウンド再生または記録システムであって、
前記所定時間は1ないし5ミリ秒であることを特徴とするシステム。
【請求項8】
請求項1または2に記載のサウンド再生または記録システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第1のレンジのゲインファクタが平均で10dBよりも低く、好ましくは6dBより低いことを特徴とするシステム。
【請求項9】
請求項1または2に記載のサウンド再生または記録システムであって、
前記システムは、受信信号の最大入力レベルを決定するデターミネータと、前記最大入力レベルを前記第1のレンジの前記上限と一致させる手段とを有することを特徴とするシステム。
【請求項10】
請求項1または2に記載のサウンド再生または記録システムであって、
入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、ゲインファクタと入力レベルの間の関数関係が、前記第1と第2のレンジの間に第3の中間レンジがあり、ゲインファクタが徐々に変化するように構成されていることを特徴とするシステム。
【請求項11】
請求項1または2に記載のサウンド再生または記録システムであって、
前記システムは、背景ノイズを測定するセンサと、前記測定された背景ノイズに応じて前記第2のレンジにおけるゲインファクタを調節するアジャスタとを有することを特徴とするシステム。
【請求項12】
請求項1または2に記載のサウンド再生または記録システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第2のレンジには、下限において、ゲインファクタが実質的に0である第4のレンジが隣接するように構成されることを特徴とするシステム。
【請求項13】
請求項12に記載のサウンド再生または記録システムであって、
入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第2と第4のレンジが第5の中間レンジで分けられており、前記第5のレンジ内ではゲインファクタが徐々に変化することを特徴とするシステム。
【請求項14】
請求項12及び10に記載のサウンド再生または記録システムであって、
入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第3のレンジにおけるゲインファクタの減少の傾きが、前記第5のレンジにおけるゲインファクタの上昇の傾きよりも緩やかに構成されていることを特徴とするシステム。
【請求項15】
請求項12に記載のサウンド再生または記録システムであって、
前記システムは、ラインまたは伝送ノイズを測定する手段と、ラインまたは伝送ノイズの値の入力と、ラインまたは伝送ノイズの大きさに応じて前記第2のレンジから前記第4のレンジへの遷移点または遷移レンジを調節するアジャスタと、を有することを特徴とするシステム。
【請求項16】
請求項1または2に記載のサウンド再生システムであって、
前記サウンド再生システムは移動電話システムであることを特徴とするシステム。
【請求項17】
請求項1または2に記載のサウンド再生システムであって、
前記信号プロセッサはデジタル信号プロセッサ(DSP)であることを特徴とするシステム。
【請求項18】
入来オーディオ信号を処理するサウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、
入力レベルの関数であるゲインファクタを入力信号にかけ、
ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第1のレンジと第2のレンジがあり、
前記第1のレンジは主に有声音素がある振幅をカバーし、
前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、
前記関数関係は、前記第1のレンジの平均ゲインファクタが前記第2のレンジの平均ゲインファクタより少なくとも6dB低いものであることを特徴とする方法。
【請求項19】
サウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、
入力レベルの関数であるゲインファクタを入力信号にかけ、
ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第1のレンジと第2のレンジがあり、
前記第1のレンジは最大値入力レベルから下向きに少なくとも10dB広がり、
前記第2のレンジは、その入力レベルが前記第1のレンジの入力レベルより低く、10dB以上のレンジをカバーし、
前記第1のレンジの平均ゲインファクタは、前記第2のレンジのゲインファクタより少なくとも平均で6dB低いことを特徴とする方法。
【請求項20】
請求項18または19に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の関数関係は、前記第1のレンジのゲインファクタが前記第2のレンジのゲインファクタより少なくとも12dB低いことを特徴とする方法。
【請求項21】
請求項18または19に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、平均ゲインが12dBより小さく、好ましくは6dBより小さく、さらに好ましくは3dBより小さいことを特徴とする方法。
【請求項22】
請求項18または19に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルとの間の前記関数関係は、前記第1と第2のレンジが第3の中間レンジで分けられており、前記第3のレンジにおいてゲインファクタが徐々に変化するものであることを特徴とする方法。
【請求項23】
請求項18または19に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、前記第2のレンジには、下限において、ゲインファクタが実質的に0である第4のレンジが隣接するように構成されることを特徴とする方法。
【請求項24】
請求項23に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルとの間の前記関数関係は、前記第2と第4のレンジが第5の中間レンジで分けられており、前記第5のレンジにおいてゲインファクタが徐々に変化するものであることを特徴とする方法。
【請求項25】
請求項22及び24に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、前記第3のレンジにおけるゲインファクタの減少の傾きは、前記第5のレンジにおけるゲインファクタの増加の傾きよりも緩やかであることを特徴とする方法。
【請求項26】
請求項18に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、無声音素が有声音素より少なくとも6dB大きくエンハンスされることを特徴とする方法。
【請求項27】
入来オーディオ信号をデジタル的に処理するサウンド再生システムにおけるオーディオ信号エンハンスメント方法であって、
入力レベルの関数であるゲインファクタを入力信号にかけ、
ゲインファクタと入力レベルの間の前記関数関係は、無声音素が有声音素より少なくとも6dB、好ましくは12dB大きくエンハンスされることを特徴とする方法。
【請求項28】
請求項27に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、全体的音量の上昇が6dBより小さく、好ましくは3dBより小さいことを特徴とする方法。
【請求項29】
コンピュータで実行された時、請求項18ないし28いずれか一項に記載の方法を実行するプログラムコード手段を有するコンピュータプログラム。
【請求項30】
コンピュータで実行された時、請求項18ないし28いずれか一項に記載の方法を実行する、コンピュータ読み取り可能媒体に記憶されたプログラムコード手段を有するコンピュータプログラム。
【請求項31】
請求項1ないし17いずれか一項に記載のシステムにおいて使用する、本発明の動作を実行するプログラムコード手段を有することを特徴とするコンピュータプログラム。
【図1】
【図2A】
【図2B】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2A】
【図2B】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公表番号】特表2007−511793(P2007−511793A)
【公表日】平成19年5月10日(2007.5.10)
【国際特許分類】
【出願番号】特願2006−539051(P2006−539051)
【出願日】平成16年11月9日(2004.11.9)
【国際出願番号】PCT/IB2004/052354
【国際公開番号】WO2005/048242
【国際公開日】平成17年5月26日(2005.5.26)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【公表日】平成19年5月10日(2007.5.10)
【国際特許分類】
【出願日】平成16年11月9日(2004.11.9)
【国際出願番号】PCT/IB2004/052354
【国際公開番号】WO2005/048242
【国際公開日】平成17年5月26日(2005.5.26)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
[ Back to top ]