オーディオ信号処理システム及び方法

サウンド再生または記録システムにおいて、入力レベル（ｙ）に応じたゲインファクタ（ｚ）をオーディオ信号にかける。無声音素が有声音素より少なくとも６ｄＢ、好ましくは少なくとも１２ｄＢ大きくエンハンスされるように、ゲインファクタの入力レベルに対する依存性を選択する。ここで、平均ゲインは６ｄＢより小さいことが好ましい。これにより、明瞭性が向上する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、サウンド再生の分野に関し、特に、デジタルオーディオ信号処理の分野に関する。
【０００２】
本発明は、オーディオ信号入力、オーディオ信号プロセッサ、及びオーディオ信号出力を有するサウンド再生または記録システムに関する。
【０００３】
また、本発明は、入来オーディオ信号を処理してオーディオ出力信号を出力するオーディオ信号プロセッサに関する。特に、本発明はデジタル信号プロセッサ（ＤＳＰ）回路またはプログラムに関する。
【０００４】
また、本発明は、オーディオ信号の処理方法にも関する。
【０００５】
ラウドスピーカ電話システム等のサウンド再生システムは、ラウドスピーカと呼ばれることが多い出力トランスデューサとオーディオ信号入力とを含む。ラウドスピーカは、オーディオ入力信号に応答して、所望の音圧波を表すオーディオ入力信号を発生する。
【０００６】
リスナーが知覚するサウンドの明瞭性は、特にノイズの多い環境においては非常に重要である。明瞭性を向上する最も簡単な方法は、平均ＳＰＬ（音圧レベル）を上げること、すなわち、ボリュームを高くすることである。しかし、必ずしもボリュームを上げたからといって、常にサウンドがより明瞭になるわけではない。また、出力が大きすぎると、ラウドスピーカへの負荷が過大になり、明瞭性がさらに悪くなってしまう。信号のノイズは、例えば、環境ノイズ、または信号ノイズ、すなわちサウンド源からレシーバまでの間に信号に載ってしまったノイズである。
【０００７】
サウンドの明瞭性を高める試みが多数なされてきた。
【０００８】
米国特許出願第２００２／００１５５０３号では、周波数帯域ごとに個別にゲインファクタを制限することによる明瞭性の向上が提案されている。
【０００９】
しかし、既存のシステム及び方法は、複雑な計算とそのための複雑な回路（ハードウェア）を必要とするか、プログラム（ソフトウェア）を使用する場合には、複雑なプログラムを必要とする非常に複雑なものであるか、または、提供する利点が限定されたものである。
【００１０】
上記の参照文献にもかかわらず、本技術分野においては、明瞭性を向上できるようにシステムと方法を改良する必要がまだある。
【００１１】
本発明の目的の１つは、明瞭性を向上した比較的簡単なサウンド再生または記録システム及び方法を提供することである。
【００１２】
このため、本発明の第１の態様において、本発明によるサウンド再生または記録システムは、前記オーディオ信号プロセッサは、ゲインファクタと入力レベルの間の関数関係が第１のレンジと第２のレンジとを有するような関数関係を有する入力レベルの関数として、ゲインファクタを入力信号に関係づけるアトリビュータを有し、前記第１のレンジは主に有声音素がある振幅をカバーし、前記第２のレンジは、その入力レベルが前記第１のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、前記関数関係は、前記第１のレンジの平均ゲインファクタが前記第２のレンジの平均ゲインファクタより少なくとも６ｄＢ、好ましくは少なくとも１２ｄＢ低いものであることを特徴とする。
【００１３】
本発明の第１の態様によるシステムは、以下の洞察に基づく：
簡単なシステムを用いてスピーチの明瞭性を向上することができる。スピーチの最小単位は音素と呼ばれている。１つ以上の音素でシラブルができ、１つ以上のシラブルで単語ができている。音素は母音と子音の２つのグループに分けることができる。母音は常に有声である。無声子音の場合、声帯（holds）は完全に開いている（例えば、s、sh、f音を発音するとき）か、部分的に開いている（例えば、h音の場合）。有声サウンド（voiced
sounds）は、声帯の振動により作られる。
【００１４】
本発明によるシステムは、スピーチが有声音素（例えば、母音のa、e、i、o、oa等）と無声音素（例えば、一部の子音s、z、ch、dg、th等）を含むと考えられるとの認識に基づく。以下、より詳細に説明する。無声音素は、一般的には、有声音素に一般的な入力レベルレンジ（第１のレンジ）より低い入力レベルレンジ（第２のレンジ）をカバーする。有声音素は、一般的には、信号の上側レンジ、すなわち信号の最大値に近いレンジにある。発せられたスピーチの音量（振幅）だけを考えると、有声音素は無声音素よりもより一層顕著である。しかし、明瞭性に関して、無声音素は、有声音素より重要でないとしても、それと同じくらい重要である。
【００１５】
このように、２つのタイプの音素は、その入力レベルレンジにより互いに区別することができる。本発明の第１の態様によるシステムにおいて、無声音素のゲインファクタ（第２のレンジ）は、有声音素のゲインファクタより（少なくとも平均で６ｄＢ、好ましくは１２ｄＢ以上）大きい。ここで、無声音素を有声音素より強調する。ほとんどの既知のシステムは、ゲインを上げる（ボリュームを上げる）ことによりスピーチを理解しやすくなるとの前提に基づいている。しかし、必ずしもこれがあてはまらない場合がある。本願発明者は、このように全体的に強度を上げる（音量を上げる）ことにより、無声音素が事実上「水没」（drown）してしまっていることに気がついた。入力レベルレンジにわたってゲインファクタを単純に上げるのと比べて、無声音素を有声音素より強調し、簡単に明瞭性を向上することができる。
【００１６】
本発明の第２の態様において、本発明によるサウンド再生または記録システムは、前記デジタルオーディオ信号プロセッサは、入力レベルの関数としてゲインファクタを入力信号に関係付けるアトリビュータを有し、ゲインファクタと前記入力レベルの間の関数関係には第１のレンジと第２のレンジがあり、前記第１のレンジは最大値入力レベルから下向きに少なくとも１０ｄＢ広がり、前記第２のレンジは、その入力レベルが前記第１のレンジの入力レベルより低く、１０ｄＢ以上のレンジをカバーし、前記第１のレンジのゲインファクタは、前記第２のレンジのゲインファクタより少なくとも平均で６ｄＢ、好ましくは１２ｄＢ低いことを特徴とする。
【００１７】
本発明の第１の態様の基本的洞察を一般化して、本発明の第２の態様による発明は、スピーチ「ソフトサウンド」は、「ハードサウンド」と（これらのサウンドがどのように呼ばれようと）同等の重要性を有するという認識に基づく。本発明において、スピーチの明瞭性を、簡単な手段により、「ソフトサウンド」をハードサウンドより選択的に大きくブースト（少なくとも６ｄＢ、好ましくは少なくとも１２ｄＢ）することにより高くする。使用される言語が「有声」及び「無声」の音素に分けることができるかどうか、これらのカテゴリーを分ける線を理論的に引くかどうか、またどこに引くか、または、アクセント、トーンシフト、強調等の区別できるその他の特徴があるかどうかには係わらずに、この基本的な一般化された洞察が成り立つ。
【００１８】
本発明の第２の態様によるシステムにおいて、ゲインファクタを入力レベルに応じて変えて、最大入力レベル（最もハードなサウンドをカバーする）より下に、最大レベルから少なくとも１０ｄＢ下方にわたる第１の領域と、前記第１のレンジの下に（「よりソフトなサウンド」をカバーする）ゲインファクタが大幅に高い（平均で少なくとも６ｄＢ、好ましくは少なくとも１２ｄＢ）第２のレンジがある。入力レベルとしてのゲイン曲線には、このように２つのレンジがあり、第１のレンジのサウンド信号と比較して第２のレンジがカバーするサウンド信号（よりソフトなサウンド）が強調される。これにより、「ハードなサウンド」と比較して「よりソフトなサウンド」が強調される。これは簡単なシステムと方法を用いて可能であるが、明瞭性が大幅に上がる。
【００１９】
好ましくは、第１のレンジは最大値から少なくとも１５ｄＢ広がるが、３０ｄＢより広くはならない。第１のレンジが広すぎると、ソフトサウンドをブーストするのが困難になる。
【００２０】
本発明の好ましい実施形態を以下に説明する。特に言わない限り、これらの好ましい実施形態は、本発明の上記の態様の両方に適用される。
【００２１】
好ましくは、入力振幅の関数としてゲインファクタを入力信号に関係づけるアトリビュータは、第１と第２のレンジにわたる平均ゲインファクタが１２ｄＢより小さく、好ましくは６ｄＢより小さく、より好ましくは３ｄＢより小さいように構成される。平均ゲインファクタは、音量の全体的ブーストの尺度である。スピーチの音量の上昇は、まったく、またはほとんど知覚できない。有声音素に対して無声音素を強調する効果は、少なくとも部分的に、平均ゲインファクタが大幅に上げられれば、無効になる。この条件は、第１のレンジにおける平均ブーストが、表示値より低く制限されることを意味している点を注意しておく。
【００２２】
好ましい実施形態において、前記システムは、瞬間信号振幅の入力と、所定時間にわたる平均レベルの出力を有するダイナミックレベルディテクタを有する。
【００２３】
ダイナミックレベルディテクタは、このように、レベル、すなわち信号振幅のある種の時間平均を提供する。入力レベルとして瞬間振幅を用いる（すなわち、振幅を直接用いてゲインを決める）のと比較して、ダイナミックレベルディテクタを用いる利点は、ゲインファクタの振る舞いがスムースになり、ポンピング効果の変化が少なくなることである。全体として、明瞭性が高くなる。時間は固定でも調節可能でもよい。
【００２４】
好ましくは、前記所定時間は１ないし５ミリ秒である。
【００２５】
好ましくは、ゲインファクタを関係づける前記アトリビュータは、前記第１のレンジのゲインファクタが平均で１０ｄＢよりも低く、好ましくは６ｄＢより低い。第１の高入力レベルのレンジにおけるゲインは、このように比較的低い。すなわち、「ハードな」信号のブーストは低い。第２のレンジの信号は、上で説明した通り、好ましくは第１のレンジの信号と比して少なくとも６ｄＢ、好ましくはより大きくブーストされる。第１のレンジの信号の強度を大きくし過ぎると、この信号はすでに音量がおおきいので、スピーチの明瞭性はあまり向上せず、第２のレンジの比較的弱い信号をハードサウンドと区別しづらくしてしまうので、第１のレンジのゲインファクタを低くしておくことが好ましい。
【００２６】
好ましくは、前記システムは、受信信号の最大入力レベルを決定するデターミネータと、前記最大入力レベルを前記第１のレンジの前記上限と一致させる手段とを有する。実施形態において、最大入力レベル（第１のレンジの外縁）は、単に、最大デジタル信号、すなわち、理論的にも実際的にも最も音量の大きい信号である。しかし、本装置は、好ましくは、（スピーチ）信号の実際の最大入力レベルを決定するデターミネータを有する。最大入力レベルは、可能な最大値よりは低いことが多い。第１のレンジは、スピーチ信号の測定された最大入力レベルから始まる。留意すべきことは、このような実施形態において、第１のレンジの開始点のみが測定に依存するわけではなく、第２のレンジ及びさらに別のレンジも測定に依存することである。最大入力レベルは、レベルの測定の時間と比較して比較的長いが、単語の長さと比較すると短い所定の時間にわたり測定された量である。
【００２７】
本発明の好ましい実施形態において、入力振幅の関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、ゲインファクタと入力レベルの間の関数関係が、前記第１と第２のレンジの間に第３の中間レンジがあり、ゲインファクタが徐々に変化するように構成されている。本発明の実施形態において、第１のレンジから第２のレンジへの遷移は、ステップ関数であってもよいが、好ましくは、第１と第２のレンジは中間の第３のレンジで分けられており、この第３のレンジにおいて、ゲインファクタは徐々に変化する。このような遷移レンジにより、ポンピングアーティファクトのリスクが減る。好ましくは、この第３のレンジは入力レベルの少なくとも５ｄＢにわたる。好ましくは、この第３のレンジは、最大値（＝第１のレンジの外縁）の下の１５ｄＢと３５ｄＢの間に中心がある。中心があるとは、第３のレンジのどちら側においてもゲインファクタの値の間の中間にあることを意味する。これにより、第１のレンジのための十分な余地が残る。
【００２８】
好ましくは、前記システムは、背景ノイズを測定するセンサと、前記測定された背景ノイズに応じて前記第２のレンジにおけるゲインファクタを調節するアジャスタとを有する。背景ノイズは、環境からの干渉サウンド信号によるノイズである。
【００２９】
背景ノイズが大きい場合、第２のレンジ、すなわち、主にソフトサウンドまたは無声音素のゲインファクタを大きくすると、その信号の明瞭性が高くなる。
【００３０】
好ましくは、上記の実施形態において、第１のレンジ（すなわち、主にハードに聞こえる有声音素）のゲインファクタは、替わらないか、少し減らされる。ハードサウンドまたは有声音素は、背景ノイズが大きくても聞き取ることができる。第１のレンジのゲインファクタを少し下げても、実際には有利である。その理由は、ハードサウンドまたは有声音素に対してソフトサウンドまたは無声音素の相対的なブーストを大きくするからである。ノイズレベルが高いとき、第１のレンジのゲインファクタを下げることはおかしいと思われるかも知れない。しかし、第２のレンジのゲインファクタを上げると同時に第１のレンジのゲインファクタを下げることにより、全体的な信号強度の上昇を一定にするか、または少なくとも大きくし過ぎない。場合によっては、第１のレンジの少なくとも一部（例えば、最も高い部分）のゲインファクタが少し減る（数デシベル）ことになるかも知れないことに注意すべきである。
【００３１】
これらの実施形態は、なかんずく、本発明がスピーチの明瞭性を向上するが、ある程度スピーチ信号を歪めるとの認識に基づく。背景ノイズを測定し、第２のレンジのゲインファクタをノイズレベルに応じて決めることにより、サウンド再生が平均してよくなる。背景ノイズレベルが低い場合、信号の変化はほとんどまたは全くないが、背景ノイズレベルが高い場合、第２のレンジのゲインファクタが上昇する。
【００３２】
好ましくは、入力振幅の関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第２のレンジには、下限において、ゲインファクタが実質的に０である第４のレンジが隣接するように構成される。上記の第４のレンジは、小さな振幅レベルをカバーする。その振幅レベルでは、信号はおそらくラインまたは伝送ノイズに主に起因するからである。好ましい実施形態において、第４のレンジにおいては、より一層小さなゲインファクタを使う（または好ましくは使わない）。ラインまたは伝送ノイズは増幅されない。好ましくは、入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第２と第４のレンジが第５の中間レンジで分けられており、前記第５のレンジ内ではゲインファクタが徐々に変化する。実施形態において、第４と第２のレンジの間の遷移は、ステップ関数でもよいが、好ましい実施形態においては、第４のレンジの０ゲインファクタから第２のレンジの高ゲインファクタに徐々に変化することにより、アーティファクトのリスクが減り、信号ノイズ比が高くなる。
【００３３】
好ましくは、入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第３のレンジにおけるゲインファクタの減少の傾きが、前記第５のレンジにおけるゲインファクタの上昇の傾きよりも緩やかに構成されている。
【００３４】
好ましくは、本システムは、ラインまたは伝送ノイズ（すなわち、信号の伝送方法に固有のノイズであり、例えば、電気部品ノイズや圧縮ノイズである）を測定する手段と、ラインまたは伝送ノイズの値の入力と、測定されたラインノイズに応じて第２のレンジから第４のレンジへの遷移点またはレンジを調節するアジャスタと、を有する。
【００３５】
本発明は、サウンド再生システム（例えば、ボイス通信システム）の信号源側に適用することができる。本発明は、また、例えば、移動電話またはラップトップＰＣ等のサウンド再生システムのレシーバ側に適用することもできる。後者は、環境ノイズが大きいときに特に有用である。
【００３６】
本発明をサウンド再生システム（例えば、テレビ信号の再生）の信号源側で使用したとき、好ましくは、サウンド再生システムは、伝送された、または伝送される信号にその信号が元の信号から変更されていることを示すマークをつけるマーカを有する。好ましくは、そのマークは、その変更に関する情報（例えば、ゲインファクタとレンジに関する情報）を含む。上述のように、本発明による装置と方法は、明瞭性を向上し、支払うべき対価は比較的小さいが、信号がすこし歪む。しかし、本発明を２回、すなわち、信号源側と受信側とで実行すると、過剰になるリスクがある。すなわち、結果が最適とはかけ離れたものとなるリスクがある。信号を処理したこと（及び好ましくはその方法）を示すマークをつけることにより、このリスクを減らすことができる。
【００３７】
本発明のコンセプトにおいて、「センサ」「ディテクタ」、「マーカ」、「アトリビュータ」、「アジャスタ」等は、広く解釈すべきであり、例えば、ハードウェア（センサ、ディテクタ、アトリビュータ、ディテクタ等）、上述の動作や機能等を実行するように設計された回路または副回路（sub-circuit）、及び本発明による動作等を実行するように設計またはプログラムされたソフトウェア（コンピュータプログラムやサブプログラムや、１組のプログラムや、プログラムコード等）、及びそのように動作するハードウェアとソフトウェアのいかなる組み合わせを、単独で、または組み合わせて有し、以下に説明する実施形態例に制限されることはない。例えば、ＤＳＰ、ＡＳＩＣ、マイクロホン、または大きなプログラムとは別またはその一部のアルゴリズムの形式である。１つのプログラムが幾つかの機能を併せ持ってもよい。好ましくは、本システムは、デジタル信号を用いるデジタル信号処理に少なくとも一部は基づく。
【００３８】
本発明は、また、サウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、入力レベルの関数であるゲインファクタを入力信号にかけ、ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第１のレンジと第２のレンジがあり、前記第１のレンジは主に有声音素がある振幅をカバーし、前記第２のレンジは、その入力レベルが前記第１のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、前記関数関係は、前記第１のレンジの平均ゲインファクタが前記第２のレンジの平均ゲインファクタより少なくとも６ｄＢ低いものであることを特徴とする方法としても実施できる。
【００３９】
本発明は、また、サウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、入力レベルの関数であるゲインファクタを入力信号にかけ、ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第１のレンジと第２のレンジがあり、前記第１のレンジは最大値入力レベルから下向きに少なくとも１０ｄＢ広がり、前記第２のレンジは、その入力レベルが前記第１のレンジの入力レベルより低く、１０ｄＢ以上のレンジをカバーし、前記第１のレンジの平均ゲインファクタは、前記第２のレンジのゲインファクタより少なくとも平均で６ｄＢ低いことを特徴とする方法としても実施することができる。
【００４０】
本方法の好ましい実施形態は、発明の概要または好ましい実施形態の説明のいずれに記載していようが、本発明によるシステムのすでに説明した好ましい実施形態に関連する方法ステップに対応するものである。
【００４１】
本発明は、また、コンピュータで実行されたとき、本発明による方法を実行するプログラムコード手段を有するいかなるコンピュータプログラムにも化体されており、また、コンピュータで実行されたとき、本発明による方法を実行する、コンピュータ読み取り可能媒体に記憶されたプログラムコード手段を有するいかなるコンピュータプログラム製品にも化体することができ、また、本発明の動作を実行する、本発明によるシステムで使用するプログラムコード手段を有するいかなるプログラム製品にも化体することができる。
【００４２】
本発明の上記その他の態様を、添付した図面を参照して、例によりより詳しく説明する。
【００４３】
以下、本発明の好ましい実施形態を示した、添付した図面を参照して、本発明をより詳しく説明する。しかし、本発明は、多数の異なる形体で実施することができ、ここで説明する実施形態に限定されると解釈すべきではない。むしろ、この開示を徹底して完全なものにし、当業者に本発明の範囲を十分に分かってもらうように、これらの実施形態を提供する。図面にわたって同じ数字は同じ要素を示す。
【００４４】
図１は、サウンド再生システムを示す概略図である。このシステムは、例えば、自動車で使用されるハンヅフリーのラウドスピーカセルラー無線電話である。ハンヅフリーの携帯電話として実施したとき、遠端（far end）、すなわち遠隔者（distant party）から受け取られるスピーチ信号は、セルラー基地局（図示せず）から送信され、携帯電話のトランシーバ（図示せず）で受信され、入来する遠端信号入力１に入力波形Ｗとして送られる。この例において、システム（この場合、電話システム）と遠端との間の伝送はデジタル形式であると仮定する。元の信号がアナログ形式の場合、システムはアナログ・デジタルコンバータを有し、デジタル遠端信号を生成して入力１に送る。
【００４５】
図１に示したように、波形はデジタルフォーマットで入力１に送られ、またはＤＳＰ（デジタルサウンドプロセッサ）２に送られる。ＤＳＰ２は、デジタル出力３に接続されているか、デジタル出力３を有している。デジタル信号は、デジタル・アナログコンバータ４に入力され、アナログフォーマットに変換され、アンプ５で増幅され、ラウドスピーカ６により使用される。遠隔者のスピーチを表す音圧波Ｗ１がラウドスピーカ６により発生される。したがって、無線電話ユーザには、遠隔者のスピーチを表す音圧波形が聞こえる。
【００４６】
しかし、リスナーにはラウドスピーカにより発生されたサウンドが聴こえるだけではなく、他のサウンドも聞こえる。これにより、ラウドスピーカにより発生されたサウンドが理解しづらくなる、すなわち、明瞭性が低下する。
【００４７】
ボリュームを上げることにより、最初に明らかに明瞭性を上げることができる。しかし、ラウドスピーカの最大出力レベルには限界があり、単にボリュームを上げるだけではノイズが大きくなり、必ずしも信号の明瞭性が上がらないことが多い。
【００４８】
図２Ａは、サウンド源（明瞭なスピーチ）２１とユーザの耳２２の間に、伝送ノイズ２３と背景ノイズ２４の２つのノイズ源があることを示している。
【００４９】
明瞭性を高めるため、本発明による装置と方法においては、幾つかの手段が用いられる。特に、センサ２６を備えて、背景ノイズ２４を測定し、背景ノイズ信号Ｎ２を求める。また、伝送ノイズ２３を測定するための手段２７を備えて、ラインまたは伝送ノイズ信号Ｎ１を求める。
【００５０】
図２Ｂは、サウンド再生システムの情報源側（source end）を示す図である。図中、２１は出力信号を示す。
【００５１】
基本的コンセプトは、サウンド再生システムにおいて、情報源側（図２Ｂ）、または受信側（図２Ａ）、または両方の側に、本発明によるやり方で信号に影響を与える手段（例えば、プログラムまたはソースコード）であるボイス明瞭度向上器（voice articulation enhancer）を備える。幾つかの例を示す。
【００５２】
伝送品質の低さ（ノイズ源２３）やノイズの多い背景（ノイズ源２４）といった条件によりクリーンなスピーチ信号（信号２１）にノイズがのると、その信号の明瞭性を著しく害する。多数のスピーチ明瞭性向上方法では、結果的にスピーチ信号の音量が大きくなる。音量が大きくならないアルゴリズムは多くない。
【００５３】
本発明は、例えば、スピーチエンハンスメントアルゴリズムにより、無声音素を時間領域のエネルギーレベルに基づきエンハンスする単純な方法に基づく。クリーンスピーチを伝送ノイズ（２３）に対してロバストにしなければならない場合、アルゴリズム（２５、図２Ｂ）をエミッタ側に配置するのがよい。外界ノイズが主要なノイズ源（２４）である場合、該アルゴリズム（２５、図２Ａ）を再生側に配置するのがよい。
【００５４】
図３は、明瞭な男性のスピーチ信号の波形を示す図である。矢印は無声音素（th、c、ch、cr、d、b、th、s、de、t）の位置を示す。これらの無声セグメントは、有声セグメント（oa、wa、ow、de、in、i、ou等の母音）と比較して含んでいるエネルギーが少ない。本発明は、低いエネルギー範囲を高いエネルギー範囲より大きく選択的にブースト（boost）し、無声音素を有声音素と比較してエンハンスするというアイデアに基づく。スピーチの明瞭性にとって無声音素の重要性は大きい。スピーチを作るのに用いられる個々のサウンドは音素と呼ばれる。サウンド源は、音素がいくつあり、それが何の音素かという点で異なる。母音は常に有声である。無声子音の場合、声帯（holds）は完全に開いている（例えば、s、sh、f音を発音するとき）か、部分的に開いている（例えば、h音の場合）。有声サウンドは、声帯の振動により作られる。音素は、その生成で働くメカニズムにより３つの大きなカテゴリーの１つに入る：
− 有声サウンド
− 摩擦音子音
− 停止子音
有声サウンド
英語で使用される音素の多くは、声門により一定に保たれた声帯を通る周期的気流により生じる有声サウンドである。このフォルマント周波数における周期的気流に応じて気道が共鳴する。フォルマント周波数により有声音素を区別できる。フォルマント周波数は、声帯の緊張で制御される。有声サウンドは、鼻腔と口の動きによりフィルタされる。
例：lame、vowel、you、met
摩擦音子音
無声摩擦音素は、口を通る一定の気流の擦る音により生じる。このサウンドには、有声音の声門インパルス及び声道振動の減少がない。無声音素は、フォルマント周波数の存在よりも、唇、歯、下の位置の違いにより互いに区別される。
例：fat、sit、church、thing、．．．
有声摩擦音素は、声門インパルスと摩擦ヒス音により生じる声道フォルマント共鳴を含む。
例：that、judge、which、．．．
停止子音
停止子音の特徴は、音素の初めで唇及び／または歯及び舌により気流を完全に止めて瞬間的に解放することである。
有声停止子音は、声帯インパルスと声道共鳴による。
例：bet、get、better、．．．
無声停止子音は、声道動作がなく、摩擦ヒス音により占められている。
例：kit、pet、ten、…
上記の通り、人が話す時、一般的に有声音素は、無声音素を含む振幅範囲より高い振動範囲にある。
【００５５】
図４は、スピーチエンハンスメントアルゴリズムの概略を示す図である。レベル検出器４１で入来信号２１の入力レベル（例えば、信号の振幅やパワー）を検出し、測定レベルに応じて動的アジャスタ４２のゲインを調節し、調節済み信号４３を与える。最も単純な形式においては、入力レベルは単なる入力振幅である。しかし、好ましい実施形態においては、動的レベルディテクタをシステムに備え、所定期間（一般的には数ミリ秒）にわたる平均レベルを決定する。ゲインファクタｚは入力レベルｙの関数であり、上記の好ましい実施形態においては、入力信号振幅Ｉｎを平均化することにより求められる。入来信号振幅Ｉｎをゲインファクタｚとかけて、信号Ｓ（Ｓ＝ｚ（ｙ）×Ｉｎ）が与えられる。
【００５６】
図５は、本発明の実施形態によるいくつかのスピーチエンハンスメントアルゴリズムの動的振る舞い（すなわち、ゲインファクタｚと振幅または振幅レベルｙの間の関数関係）を示す図である。ゲインファクタｚ（縦軸にｄＢ単位で示した）は、入来信号の入力レベルｙ（横軸にｄＢ単位で示した）の関数である。入力レベルｙは最大値より小さい。これらの実施形態において、この最大値は可能な最も高いデジタル信号である。ゲインカーブは第１のレンジＩを有し、その第１のレンジＩの入力レベルは、上限において最大入力レベルＭＡＸとなる。この第１のレンジにおいて、ブーストファクタ（すなわち、ゲインファクタ）は小さく、一般的には３ｄＢより小さい。第１のレンジＩは、この例において、最大値ＭＡＸから少なくとも１０ｄＢ広がっている。好ましくは、第１のレンジは少なくとも１５ｄＢ広がるが、３０ｄＢより広くはならない。ゲインカーブは第２のレンジＩＩを有し、その第２のレンジＩＩのゲインファクタｚはかなり高い（少なくとも６ｄＢ、好ましくは、少なくとも１２ｄＢ、より好ましくは、少なくとも１８ｄＢであり、この差は図５にΔとして示した）。レンジＩＩは、レンジＩより下に一般的には１５−３５ｄＢ以上広がっており、レンジＩとＩＩを合わせた範囲は、（中間レンジＩＩを含めて）一般的には３０−７５ｄＢである。一般的なスピーチでは、ダイナミックレンジは人がどのくらいの大きさで話すかにも依存し、一般的には４０ないし６０ｄＢである。図５は、スピーチのダイナミックレンジの低い方（レンジＩＩ）が高い方のレンジＩに対してブースト（boost）されていることを示す。高い方のレンジＩ自体も、低い（１０ｄＢより小さい）がブースト（boost）されている。この好ましい実施形態においては、レンジＩとＩＩは、ダイナミックスピーチレンジ（０から約５０ｄＢまで）にある。各レンジが（ｙ軸方向で）カバーする範囲はｄＢ値ではほぼ同じである（例えば、ｄＢ数で表して２倍以内である）。レンジＩとＩＩの間のｙ軸方向の差が大きすぎると、レンジＩＩがレンジＩより大幅に小さい場合、無声音素またはソフトサウンドのブースト（boost）が小さすぎることになるか、またはレンジＩＩがレンジＩよりも大幅に大きい場合、有声音素またはハードサウンドの少なくともかなりの部分もブースト（boosted）される。入力レベルｙに対するゲインｚの曲線には、曲線５２のように、ステップがあってもよいが、好ましくは、レンジＩとＩＩの間に第３のレンジＩＩＩがあり、その第３のレンジＩＩＩでは曲線５１と５３で示したように、ゲインファクタが徐々に上がる。このような遷移レンジＩＩＩにより、ポンピングアーティファクトのリスクが減る。この例において、レンジＩ、ＩＩ、ＩＩＩの全体でダイナミックスピーチレンジ（０から約５０ｄＢまで）をカバーし、各レンジＩ、ＩＩ、ＩＩＩはｄＢ単位でほぼ同じ範囲（例えば、ｄＢ単位で表した場合に３倍以内）のダイナミックスピーチレンジをカバーする。レンジＩとＩＩの間のゲインファクタの差は、曲線５１、５２、５３の場合に、それぞれ２５ｄＢ、２２ｄＢ、１５ｄＢである。平均ゲインファクタは、ゲインファクタに入力レベルの大きさをかけて合計し、次に入力レベルの大きさの合計で割ることにより計算することができる。最強の信号（ｙ値が０に近い信号）がこの平均ゲインファクタにもっとも寄与し、非常に弱い信号（ｙ値が−３０以下の信号）は音量にほとんど寄与しない。ゲインファクタが比較的大きくても信号が非常に弱ければ、平均ゲインファクタにはほとんど寄与しない。（入力レベルが最も高いか、高い方のもの、すなわちレンジＩの場合）０に近いので、ゲインファクタは小さい（好ましくは、１０ｄＢよりかなり小さい）。第２のレンジＩＩのゲインファクタは大きいにもかかわらず、平均ゲインファクタは小さい。トータル平均ゲインファクタは、好ましくは、１２ｄＢより小さく、より好ましくは、６ｄＢより小さく、さらに好ましくは、３ｄＢより小さい。
【００５７】
図６は、本発明の好ましい実施形態を示す図である。ゲイン曲線には、レンジＩＩの左側に（すなわち、レンジＩＩの下限値より下の入力レベル）第４のレンジＩＶがあり、その第４のレンジＩＶ内では、ゲインファクタは非常に低い（好ましくは０または負のｄＢ値）。このような入力レベルにおいては、信号は主に伝送ノイズによるものであろう。通常、信号は何らかの装置で生成され、次に、別の場所に伝送ラインを介して送信される。信号がなくても、生成装置及び伝送自体でノイズが発生する。この好ましい実施形態において、レンジＩＩの下限レベルより下では、より一層小さなゲインファクタを使う（または好ましくは使わない）。伝送ノイズまたはラインノイズは増幅されない。好ましくは、第２または第４のレンジＩＩ、ＩＶは、第５の中間レンジＶで分けられており、そのレンジＶ内でゲインファクタは徐々に変化する。徐々に変化させることによりアーティファクトのリスクが減り、信号ノイズ比が高くなる。本発明の簡単な実施形態において、レンジＩＩとＩＶの間の遷移点、またはレンジＩＩとＩＶ、及びＩＶとＶの間の遷移点がある場所は固定されていてもよく、この場合、レンジＩＶとＩＩまたはレンジＶの間の遷移点は、好ましくは、最大入力レベルから４０ｄＢと６５ｄＢの間にある。好ましい実施形態において、少なくとも１つ、幾つか、またはすべてのレンジ間の遷移点または遷移レンジは、ラインまたは伝送ノイズの測定に基づき、以下により詳しく説明するように、特に、伝送ノイズ信号Ｎ１に依存する。レンジＩとＩＩの間の中間レンジＩＩＩは、この場合、入力レベルで１５ｄＢをカバーする。レンジＩＩは１０から１５ｄＢをカバーし、レンジＶは５ｄＢをカバーし、レンジＩは２０ｄＢをカバーする。レンジＩとＩＩの間のゲインファクタの差は１５ｄＢである。レンジＩＩとＩＶの間のゲインの差は２０ｄＢであり、レンジＶは５ｄＢをカバーする。すなわち、その傾きはレンジＩＩＩの傾きよりも急峻である。
【００５８】
図７は、本発明による別の実施形態を示す図である。ゲイン曲線は、前の図に示した５つのレンジを有する。曲線番号７１ａ、７１ｂ、７１ｃが示されている。曲線７１ａは、図６に示した曲線と同じである。背景ノイズ（ノイズ信号Ｎ２）のレベルが高い場合、レンジＩＩのゲインファクタを大きくすると有利である。これを曲線７１ｂにより概略的に示した。曲線７１ｂにおいて、全てのレンジＩ、ＩＩ、ＩＩＩにおいてゲインファクタが大きくなっており、レンジＩＩで特に著しい。これにより明瞭性が高くなるが、しかし、全体的な音量も大きくなる。好ましい実施形態において、全体的音量の上昇は１２ｄＢより小さく、好ましくは６ｄＢより小さく、より好ましくは３ｄＢより小さい。全体的音量が増加しても、明瞭性は高くならない。全体的音量を制限するため、好ましい実施形態において、背景ノイズレベルに応じてレンジＩＩのゲインファクタが上昇しても、レンジＩのゲインファクタは上昇しない。または、より好ましくは、レンジＩまたはその少なくとも高い部分のゲインファクタを少し下げる。すると、全体的音量は上昇しないか、または、知覚的に上昇しない、またはほとんど上昇しない。
【００５９】
図８は、本発明のさらに別の好ましい実施形態を示す図である。前の図において、レンジＩの上限は、可能な最も高い信号の強さとした。デジタル信号処理においては、この上限を０ｄＢとすることが多い。しかし、人はより小声や大声で話すことがあり、記録及び伝送チェインによりスピーチ信号が未知のレベルで低下させられることがある。無声及び有声音素の間（より一般的には、ソフトサウンドとハードサウンドの間）の入力レベルの違いは、人が大声で話そうが小声で話そうが、多かれ少なかれ（１５乃至３０ｄＢ程度）同じであるこのように、本願発明者は、測定された信号の実際的な最大入力レベルに応じて、すなわち、例えば、人が実際にどのくらい大きな声で話しているかに応じて、ゲインカーブをシフトすることが有利であることに気づいた。人が非常に大きく話す場合、レンジＩとＩＩの位置は、高い入力レベルにシフトされる。小声で話す場合、レンジＩとＩＩは、中間レンジＩＩＩ及び隣接するレンジＩＶとＶとともに低い入力レベルにシフトする。ダイナミックレベルインジケータの出力を用いて、ダイナミック入力レベルを測定するのに使用した時間より長い所定時間にわたって入力振幅の平均をとることによって、最大レベルｍａｘを設定する。図８に概略的に示した例において、実際の最大信号強度（例えば、スピーチの最大音量）は、理論的に可能な最大値（例えば、最大可能デジタル信号）よりも１０ｄＢ低い。より長い時間にわたって平均化されたダイナミックレベルインジケータの出力を用いて、最大入力レベルを設定し、これを用いてゲイン曲線の位置と形状を決めることができる。図８において、ゲイン曲線（ｚ（ｙ））は左に１０ｄＢシフトしており、矢印で概略的に示した。
【００６０】
図９は、図８に示した動的処理曲線（すなわち、入力振幅とゲインファクタの間の関係）の結果の信号を示す図である。上の部分は図３、すなわち、明瞭な男性のスピーチ信号と同じである。下の部分は、本発明によるスピーチエンハンスメントアルゴリズムを用いて動的に処理した後の信号を示す。無声の「ソフトな」音素（矢印で示した）は、有声の「ハードな」音素と比較して、図９の上の図よりも下の図でよりはっきりしている。入力強度が低いところでゲインファクタを低くする（図８の例の場合、約−５０ｄＢより下）ことにより、ラインまたは伝送ノイズが増幅されないか、または増幅され方が小さいという利点がある。以下のことが分かる：
− 矢印で示したように、振幅が低い領域は、無声音素に対応し、エンハンスされている；
− 有声音素には影響がなく、これは音量が変わらないことを意味している；
− 話していない（静寂）部分はブースト（boost）されていない。
【００６１】
全部で、簡単な手段により、スピーチの明瞭性は大きく向上する。
【００６２】
最大ゲインの値、レンジ間の遷移点、要するに本発明による装置と方法のダイナミック処理曲線の特徴は、好ましい実施形態とシステムにおいて、背景ノイズ（２４）またはライン／伝送ノイズ（２３）に依存する。このために、背景ノイズレベルをノイズディテクタ１２０であるマイクロホン（図２も参照）で測定する。伝送ノイズも測定される。伝送ノイズは、例えば、ダイナミックレベルディテクタを用いて、言葉の間の静寂における平均信号を測定することにより、またはその他の平均信号ディテクタにより測定できる。ノイズ信号の特徴値またはノイズ信号Ｎ１、Ｎ２そのものをダイナミックレベルアジャスタ４２に送る。このダイナミックレベルアジャスタは、信号に伴うゲインファクタの多数化を実施する。これは、図１０に概略を示した。
【００６３】
以下、スピーチエンハンスメントアルゴリズムの（一部の）実施形態を説明する。
ａ．速くスムースに（サンプルベースで）レベル検出をするため、ダイナミックレベルディテクタを用いる。そのブロック図を図１１に示した。式で書くと、次のようになる：
【００６４】
【数１】

ここで、
【００６５】
【数２】

であり、かつ
【００６６】
【数３】

ＴａとＴｒはそれぞれ、平均をとる時間を決めるアタック時定数とリリース時定数である。最適な結果は、ＴａとＴｒが数ミリ秒（一般的には１ないし５ミリ秒）であるときに得られる。ダイナミックレベルディテクタは、このように、信号強度の時間平均である入力レベルｙを与える。アタック及びリリース時定数（例えば、５ないし２０倍長い）より長い時間にわたるレベル及び入力振幅の平均は、最大入力レベルのインジケータとして機能する（これを用いて最大値を決定する）。
【００６７】
好ましい実施形態において、ルックアップテーブルベースの動的処理を用いて、入力信号Ｉの入力レベル振幅依存ゲインファクタ（すなわちブースト）ｚを設定する。ｙ軸をデシベル単位で表した動的レベルディテクタの出力とする。入力信号Ｉの値それぞれに対して、動的処理ブロックは、例えば図８に示したようなｚ軸上のデシベル単位で表された対応するゲインで入力スピーチ信号をブーストする。ゲインファクタは、好ましくは、入力スピーチ信号のノイズレベルのすぐ上から始まる。クリーンに記録されたスピーチ信号の場合、そのレベルは一般的に−５０ｄＢより低い。それゆえ、ノイズのブーストを避けることができる。例えば、好ましい単一マイクロホンフィードバックを用いて、最大ゲインファクタ（ブーストレベル）（この場合２０ｄＢ）を外界ノイズに応じて決める。
【００６８】
ゲインファクタの減少の傾き（レンジＩＩＩの傾き）は、好ましくは、（レンジＶにおける）上昇の傾きよりも緩やかである。これにより、ポンピングアーティファクトとエコーアーティファクトのリスクを減らす。
【００６９】
図１２は、ボイス明瞭度エンハンスメント（articulation enhancement）アルゴリズムの一例を示す図である。
【００７０】
信号Ｉｎが入来する。例えば、ダイナミックレベルディテクタ１１１の入力１２２に入力された入来信号Ｉｎのストリームから、入力レベルｙを計算する。ダイナミックレベルディテクタ１１１の一例を図１１に示した。前掲の図で動的曲線の多くの例を挙げたが、その動的曲線を含むルックアップテーブル１２１を用いて、ゲインファクタｚ（ｎ）を計算または決定する。これを入来信号Ｉ（ｎ）とかけて、出力信号Ｓ＝Ｉ（ｎ）×ｚ（ｎ）を求める。デシベルに変換する必要性はないが、変換することにより、伝達曲線（transfer curve）が例えば直線となり、実装しやすくなる。
【００７１】
本発明を簡潔に説明すると、以下の通りである：
サウンド再生または記録システムにおいて、入力レベル（ｙ）に応じたゲインファクタ（ｚ）をオーディオ信号にかける。無声音素が有声音素より少なくとも６ｄＢ、好ましくは少なくとも１２ｄＢ大きくエンハンスされるように、ゲインファクタの入力レベルに対する依存性を選択する。ここで、平均ゲインは６ｄＢより小さいことが好ましい。これにより、明瞭性が向上する。
【００７２】
実際、無声音素が有声音素より大きくエンハンスされているか、どのくらい大きくエンハンスされているかは、システムにおいて比較的容易にチェックすることができる。例えば、母語が英語である人に図３のセンテンスを発音してもらい、出力信号を入来信号と比較すればよい。そして、音素ごとに入来信号と出力信号を比較して、入来信号と出力信号の音量を比較すればよい。
【００７３】
個々に開示したアルゴリズムの構成要素は、実際には、ハードウェア（例えば、特定用途用ＩＣの一部）として、または特殊なデジタル信号プロセッサ、汎用プロセッサ等で実行されるソフトウェアとして実現することができる。
【００７４】
当業者には言うまでもなく、本発明は、上で図示して説明したものに限定されない。本発明は、全ての新規な特徴のそれぞれ、及びその組み合わせにある。請求項中の参照数字は保護範囲を限定するものではない。「有する」という動詞を用いたが、請求項に記載された要素以外の要素の存在を排除するものではない。要素に付された「１つの」、「一」という用語を使用したが、その要素が複数あることを排除するものではない。
【図面の簡単な説明】
【００７５】
【図１】ラウドスピーカを含むシステムを示す概略図である。
【図２Ａ】サウンド再生システムのいろいろな構成要素を示す概略図である。
【図２Ｂ】サウンド再生システムのいろいろな構成要素を示す概略図である。
【図３】明瞭な男性のスピーチ信号の波形を示す図である。
【図４】本発明によるスピーチの質向上（enhancement）アルゴリズムの例を示す図である。
【図５】本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図６】伝送ラインノイズリダクションを用いた、本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図７】可変伝送ラインノイズリダクションと可変背景ノイズリダクションとを用いた、本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図８】第１の範囲の上限をシフトした、本発明によるスピーチの質向上アルゴリズムの動的ふるまい、すなわち、ゲインファクタ対入力レベルを示す図である。
【図９】スピーチ信号に対する本発明の効果を示す図である。
【図１０】本発明の要素を示すブロック図である。
【図１１】動的レベル検出器を示すブロック図である。
【図１２】ボイス明瞭度（articulation）質向上アルゴリズムの一例を示す図である。

【特許請求の範囲】
【請求項１】
オーディオ信号入力と、オーディオ信号プロセッサと、オーディオ信号出力とを有するサウンド再生または記録システムであって、
前記オーディオ信号プロセッサは、ゲインファクタと入力レベルの間の関数関係が第１のレンジと第２のレンジとを有するような関数関係を有する入力レベルの関数として、ゲインファクタを入力信号に関係づけるアトリビュータを有し、
前記第１のレンジは主に有声音素がある振幅をカバーし、
前記第２のレンジは、その入力レベルが前記第１のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、
前記関数関係は、前記第１のレンジの平均ゲインファクタが前記第２のレンジの平均ゲインファクタより少なくとも６ｄＢ低いものであることを特徴とするシステム。
【請求項２】
デジタルオーディオ信号入力と、デジタルオーディオ信号プロセッサと、デジタルオーディオ信号出力とを有するサウンド再生または記録システムであって、
前記デジタルオーディオ信号プロセッサは、入力レベルの関数としてゲインファクタを入力信号に関係付けるアトリビュータを有し、
ゲインファクタと前記入力レベルの間の関数関係には第１のレンジと第２のレンジがあり、
前記第１のレンジは最大値入力レベルから下向きに少なくとも１０ｄＢ広がり、
前記第２のレンジは、その入力レベルが前記第１のレンジの入力レベルより低く、１０ｄＢ以上のレンジをカバーし、
前記第１のレンジの平均ゲインファクタは、前記第２のレンジのゲインファクタより少なくとも平均で６ｄＢ低いことを特徴とするシステム。
【請求項３】
請求項２に記載のサウンド再生システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第１のレンジが前記最大値から少なくとも１５ｄＢ広がるが３０ｄＢより広がらないように構成されていることを特徴とするシステム。
【請求項４】
請求項１または２に記載のサウンド再生または記録システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第１のレンジのゲインファクタが前記第２のレンジのゲインファクタより少なくとも１２ｄＢ低いことを特徴とするシステム。
【請求項５】
請求項１または２に記載のサウンド再生または記録システムであって、
ゲインを関係づける前記アトリビュータは、レンジＩとレンジＩＩの平均ゲインファクタが、好ましくは６ｄＢより低く、さらに好ましくは３ｄＢより低く構成されていることを特徴とするシステム。
【請求項６】
請求項１または２に記載のサウンド再生または記録システムであって、
前記システムは、信号振幅の入力と、所定時間にわたる平均レベルの出力を有するダイナミックレベルディテクタを有することを特徴とするシステム。
【請求項７】
請求項６に記載のサウンド再生または記録システムであって、
前記所定時間は１ないし５ミリ秒であることを特徴とするシステム。
【請求項８】
請求項１または２に記載のサウンド再生または記録システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第１のレンジのゲインファクタが平均で１０ｄＢよりも低く、好ましくは６ｄＢより低いことを特徴とするシステム。
【請求項９】
請求項１または２に記載のサウンド再生または記録システムであって、
前記システムは、受信信号の最大入力レベルを決定するデターミネータと、前記最大入力レベルを前記第１のレンジの前記上限と一致させる手段とを有することを特徴とするシステム。
【請求項１０】
請求項１または２に記載のサウンド再生または記録システムであって、
入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、ゲインファクタと入力レベルの間の関数関係が、前記第１と第２のレンジの間に第３の中間レンジがあり、ゲインファクタが徐々に変化するように構成されていることを特徴とするシステム。
【請求項１１】
請求項１または２に記載のサウンド再生または記録システムであって、
前記システムは、背景ノイズを測定するセンサと、前記測定された背景ノイズに応じて前記第２のレンジにおけるゲインファクタを調節するアジャスタとを有することを特徴とするシステム。
【請求項１２】
請求項１または２に記載のサウンド再生または記録システムであって、
ゲインファクタを関係づける前記アトリビュータは、前記第２のレンジには、下限において、ゲインファクタが実質的に０である第４のレンジが隣接するように構成されることを特徴とするシステム。
【請求項１３】
請求項１２に記載のサウンド再生または記録システムであって、
入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第２と第４のレンジが第５の中間レンジで分けられており、前記第５のレンジ内ではゲインファクタが徐々に変化することを特徴とするシステム。
【請求項１４】
請求項１２及び１０に記載のサウンド再生または記録システムであって、
入力レベルの関数としてゲインファクタを入力信号に関係づける前記アトリビュータは、前記第３のレンジにおけるゲインファクタの減少の傾きが、前記第５のレンジにおけるゲインファクタの上昇の傾きよりも緩やかに構成されていることを特徴とするシステム。
【請求項１５】
請求項１２に記載のサウンド再生または記録システムであって、
前記システムは、ラインまたは伝送ノイズを測定する手段と、ラインまたは伝送ノイズの値の入力と、ラインまたは伝送ノイズの大きさに応じて前記第２のレンジから前記第４のレンジへの遷移点または遷移レンジを調節するアジャスタと、を有することを特徴とするシステム。
【請求項１６】
請求項１または２に記載のサウンド再生システムであって、
前記サウンド再生システムは移動電話システムであることを特徴とするシステム。
【請求項１７】
請求項１または２に記載のサウンド再生システムであって、
前記信号プロセッサはデジタル信号プロセッサ（ＤＳＰ）であることを特徴とするシステム。
【請求項１８】
入来オーディオ信号を処理するサウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、
入力レベルの関数であるゲインファクタを入力信号にかけ、
ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第１のレンジと第２のレンジがあり、
前記第１のレンジは主に有声音素がある振幅をカバーし、
前記第２のレンジは、その入力レベルが前記第１のレンジの入力レベルより低く、主に無声音素がある入力レベルをカバーし、
前記関数関係は、前記第１のレンジの平均ゲインファクタが前記第２のレンジの平均ゲインファクタより少なくとも６ｄＢ低いものであることを特徴とする方法。
【請求項１９】
サウンド再生または記録システムにおける、または前記システムのためのオーディオ信号エンハンスメント方法であって、
入力レベルの関数であるゲインファクタを入力信号にかけ、
ゲインファクタと前記入力レベルの間の関数関係にはゲインファクタについて第１のレンジと第２のレンジがあり、
前記第１のレンジは最大値入力レベルから下向きに少なくとも１０ｄＢ広がり、
前記第２のレンジは、その入力レベルが前記第１のレンジの入力レベルより低く、１０ｄＢ以上のレンジをカバーし、
前記第１のレンジの平均ゲインファクタは、前記第２のレンジのゲインファクタより少なくとも平均で６ｄＢ低いことを特徴とする方法。
【請求項２０】
請求項１８または１９に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の関数関係は、前記第１のレンジのゲインファクタが前記第２のレンジのゲインファクタより少なくとも１２ｄＢ低いことを特徴とする方法。
【請求項２１】
請求項１８または１９に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、平均ゲインが１２ｄＢより小さく、好ましくは６ｄＢより小さく、さらに好ましくは３ｄＢより小さいことを特徴とする方法。
【請求項２２】
請求項１８または１９に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルとの間の前記関数関係は、前記第１と第２のレンジが第３の中間レンジで分けられており、前記第３のレンジにおいてゲインファクタが徐々に変化するものであることを特徴とする方法。
【請求項２３】
請求項１８または１９に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、前記第２のレンジには、下限において、ゲインファクタが実質的に０である第４のレンジが隣接するように構成されることを特徴とする方法。
【請求項２４】
請求項２３に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルとの間の前記関数関係は、前記第２と第４のレンジが第５の中間レンジで分けられており、前記第５のレンジにおいてゲインファクタが徐々に変化するものであることを特徴とする方法。
【請求項２５】
請求項２２及び２４に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、前記第３のレンジにおけるゲインファクタの減少の傾きは、前記第５のレンジにおけるゲインファクタの増加の傾きよりも緩やかであることを特徴とする方法。
【請求項２６】
請求項１８に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、無声音素が有声音素より少なくとも６ｄＢ大きくエンハンスされることを特徴とする方法。
【請求項２７】
入来オーディオ信号をデジタル的に処理するサウンド再生システムにおけるオーディオ信号エンハンスメント方法であって、
入力レベルの関数であるゲインファクタを入力信号にかけ、
ゲインファクタと入力レベルの間の前記関数関係は、無声音素が有声音素より少なくとも６ｄＢ、好ましくは１２ｄＢ大きくエンハンスされることを特徴とする方法。
【請求項２８】
請求項２７に記載のオーディオ信号エンハンスメント方法であって、
ゲインファクタと入力レベルの間の前記関数関係は、全体的音量の上昇が６ｄＢより小さく、好ましくは３ｄＢより小さいことを特徴とする方法。
【請求項２９】
コンピュータで実行された時、請求項１８ないし２８いずれか一項に記載の方法を実行するプログラムコード手段を有するコンピュータプログラム。
【請求項３０】
コンピュータで実行された時、請求項１８ないし２８いずれか一項に記載の方法を実行する、コンピュータ読み取り可能媒体に記憶されたプログラムコード手段を有するコンピュータプログラム。
【請求項３１】
請求項１ないし１７いずれか一項に記載のシステムにおいて使用する、本発明の動作を実行するプログラムコード手段を有することを特徴とするコンピュータプログラム。

【図１】

【図２Ａ】

【図２Ｂ】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【公表番号】特表２００７−５１１７９３（Ｐ２００７−５１１７９３Ａ）
【公表日】平成１９年５月１０日（２００７．５．１０）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 他の可聴信号，または不可聴信号への音声信号変換処理，例．特性や... (2,017)
      - 音声の強調，例．雑音低減またはエコー除去 (1,255)
    - １５／００〜２１／００のグループ中のどれか一つに限定されない音... (1,940)
      - 音声信号の有声音と無声音の部分の弁別 (36)

【出願番号】特願２００６−５３９０５１（Ｐ２００６−５３９０５１）
【出願日】平成１６年１１月９日（２００４．１１．９）
【国際出願番号】ＰＣＴ／ＩＢ２００４／０５２３５４
【国際公開番号】ＷＯ２００５／０４８２４２
【国際公開日】平成１７年５月２６日（２００５．５．２６）
【出願人】（５９００００２４８）コーニンクレッカ　フィリップス　エレクトロニクス　エヌ　ヴィ (12,071)

[ Back to top ]

オーディオ信号処理システム及び方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

オーディオ信号処理システム及び方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク