説明

背景ノイズ情報を符号化する方法および手段

本発明による方法では、音声コーデックの符号化器を構成して、この符号化器により、あらかじめ設定したアイドル期間("Idle Period")の後、平均化したエネルギおよび自己相関関数が新たに計算されるようにする。ネットワークにおける管理ポイントは、この伝送ネットワークに設定されたアイドル期間についての情報を符号化器に伝える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号符号化方法における背景ノイズ情報を符号化する方法および手段に関する。
【0002】
電話での会話に対しては、テレコミュニケーションの初期段階からアナログ音声伝送に帯域幅制限が設けられていた。音声伝送は、300Hz〜3400Hzの制限された周波数領域で行われる。
【0003】
このように制限された周波数領域は、現在のデジタルテレコミュニケーション用の多くの音声信号符号化方法においても設けられている。このため、符号化プロセスの前にアナログ信号の帯域幅制限が行われる。ここでは符号化および復号化のためにコーデックが使用される。上記のように帯域幅制限が300Hz〜3400Hzの周波数領域であることに起因して以下ではこのコーデックを狭帯域音声コーデック(Narrow Band Speech Codec)とも称する。ここでコーデックという用語は、オーディオ信号をデジタル符号化するための符号化規則のことでもあり、またオーディオ信号を再構成することを目的としてデータを復号化するための復号化規則のことでもあると理解されたい。
【0004】
狭帯域音声コーデックは、例えば、ITU−T勧告G.729から公知である。そこに記載された符号化規則により、8kbit/sのデータレートで狭帯域音声信号の伝送が行われる。
【0005】
さらにいわゆる広帯域音声コーデック(Wide Band Speech Codec)も公知であり、これは、聴覚的印象を改善するため、拡張された周波数領域における符号化を行うためのものである。このように拡張された周波数領域は、例えば、50Hz〜7000Hzの周波数にある。広帯域音声コーデックは、例えば、ITU−T勧告G.729.EVから公知である。
【0006】
ふつう広帯域音声コーデック用の符号化方法は、スケーラブルに構成される。ここでスケーラビリティという用語が意味するのは、伝送される符号化データが、種々異なって区画されたブロックを含んでおり、これらのブロックが、符号化される音声信号の狭帯域部分、広帯域部分および/または全帯域幅を含んでいることである。このようにスケーラブルな構成により、一方では受信側における下方互換性が可能になり、また他方ではこれによって、伝送チャネルにおけるデータ伝送容量が限られている場合に、伝送されるデータフレームのサイズおよびデータレートを送信側および受信側で簡単に適合できるようになる。
【0007】
コーデックによってデータ伝送レートを低減するため、ふつうは伝送されるデータの圧縮を行う。圧縮は、例えば、符号化方法によって行われ、ここでは音声データを符号化するため、励起信号に対するパラメタと、フィルタパラメタとが決定される。これらのフィルタパラメタおよび上記の励起信号を特定するパラメタはつぎに受信側に伝送される。受信側では上記のコーデックを使用して、主観的な聴覚的印象が原音声信号にできるかぎり類似している合成音声信号を合成する。「合成的解析」(Analysis-by-Synthesis)とも称されるこの方法も用いることにより、求められかつデジタル化されたサンプル値(サンプル)そのものが伝送されるのではなく、この音声信号を受信側で合成できるようにする求められたパラメタが伝送されるのである。
【0008】
データ伝送レートを低減する別の手段は、不連続送信(Discontinuous Transmission)を行う方法であり、この方法はこの技術分野においてDTXという用語でも知られている。DTXの基本的な目的は、音声が休止した場合のデータ伝送レートを低減することである。
【0009】
このために送信側において音声休止識別(Voice Activity Detection, VAD)を使用する。これは、あらかじめ定めた信号レベルを下回った場合に音声の休止を識別する。
【0010】
音声休止中、受信者はふつう完全な無音状態を期待しない。これとは逆に完全な無音状態は、受信者を不快にするか、または受信者にコネクション断を推測させることにさえなる。このため、いわゆるコンフォートノイズ(Comfort Noise)を形成する方法が適用されるのである。
【0011】
コンフォートノイズとは、無音フェーズを充填するために受信側で合成されるノイズのことである。このコンフォートノイズは、コネクションが存続しているという主観的な印象に役立っており、その際に音声信号を伝送するためのデータ伝送レートを必要とすることはない。言い換えると、送信側でノイズを符号化するためには、音声データを符号化するよりもコストがかからないのである。受信側にとってさらに実際的であると思われるコンフォートノイズの合成は、はるかに低いデータレートでデータを伝送することである。ここで伝送されるデータは、この技術分野ではSID(Silence Insertion Description)とも称される。
【0012】
広帯域の音声コーデックに対する現在のスケーラブルな符号化方法は、目下のところ不連続送信の方法を使用していない。
【0013】
従来技術では、受信側でのコンフォートノイズ発生器(CNG Comfort Noise Generator)に関連して不連続送信(DTX)の適用が問題である。
【0014】
目下公知である不連続送信のための方法では、インアクティブな音声期間(音声休止)中に背景ノイズのエネルギが大きく変化したことが符号器側で検出された場合にだけ、この背景ノイズを特徴付ける最新のパラメタを有するSIDフレームを送信している。このことは、不連続送信のため方法をサポートしている狭帯域(50Hz〜4kHz)の音声コーデックにも、広帯域の音声コーデックにも当てはまる。SIDフレームを最新のパラメタで送信することを決定する際にはふつう、上記の符号化器に特有のエネルギ閾値(Energy Threshold)を使用する。これにより、定めたエネルギ閾値を上回っていない場合、SIDフレームが送信されないことになる。しかしながら受信器と送信器との間の伝送ネットワーク側では、SIDフレームの送信がこのように中断されることは、サイレント状態ないしはアイドルチャネル("Idle Channel")と見なされる。この場合、コネクションの維持("Connection Alive")を保証するため、場合によっては、コネクションを維持したいことを示すために付加的なデータを交換する必要がある。
【0015】
付加的に行われる公知のデータ交換は、現在つぎのように行われる。すなわち、最後にSIDフレームを送信してから経過したアイドル期間("Idle Period")が、相応するコネクションに対しては長すぎると見なされる場合に、伝送ネットワークのネットワーク管理における管理ポイントが、送信したノードに、すなわち送信した符号化器に要求して、最後に送信したSIDフレームを新たに送信させるように行われるのである。このような新たな伝送に対して、新たに送信されるSIDフレームのパラメタは更新されない。すなわち符号化器は、付加的なアクションを実行することはないのである。
【0016】
本発明の課題は、スケーラブルな音声コーデックにおける不連続送信の実現を改善することである。
【0017】
この課題は、独立請求項に記載した特徴的構成によって解決される。
【0018】
本発明の基礎にあるアイデアは、音声コーデックの符号化器を構成して、この音声コーデックにより、前に求めたアイドル期間("Idle Period")の後、上記の背景ノイズについてのパラメタ、殊に平均したエネルギおよび自己相関関数が新たに求められるないしは計算されるようにすることである。このように背景ノイズパラメタを求めることは、言い換えれば、ノイズ信号を符号化することに相応する。この際に上記のネットワークにおける管理ポイントは、この伝送ネットワークに設定されたアイドル期間についての情報を符号化器に伝える。すなわち、この符号化器は、例えば伝送ネットワークの管理ポイントの要求によってこのアイドル期間を求めるのである。求めたこのアイドル期間が符号化器側に記憶される場合、上記のような要求はただ1回しか必要ない。
【0019】
送信すべきSIDフレームに対して時間間隔を設定することにより、伝送ネットワークの管理ポイントは、更新されたフレームの送信を符号化器に強制することができる。これにより、CNGにおいて背景ノイズをより良好に再構成するために更新を行うことも、コネクションを高い信頼性で維持することも共に保証されるのである。
【0020】
本発明による方法の1つの利点は、更新された背景ノイズパラメタを、更新されたSIDフレームの形で送信すべきかを否かを決定するために、背景ノイズ信号のエネルギと、エネルギ閾値との比較が必要でないことである。したがってこの方法により、公知の方法に比べて計算資源が節約されるのである。
【0021】
別の利点は、2つのSIDフレーム間の設定した時間の長さと、各伝送ネットワークの要求とが一致することである。
【0022】
本発明の有利な発展形態および実施形態は従属請求項に記載されている。
【0023】
本発明の有利な1実施形態では、SID構造(SIDビットストリーム構造)が設けられており、ここでは背景ノイズ情報の狭帯域成分と、背景ノイズ情報の広帯域成分とが分離している。1つのSIDフレームにおける狭帯域背景ノイズ情報と、広帯域背景ノイズ情報とを別個に処理することにより、背景ノイズの狭帯域成分と広帯域成分と別個に符号化することができ、また上記の処理をわかりやすくすることができる。さらにこの実施形態の利点は、上記の伝送されるSIDフレームの広帯域成分に基づいてコンフォートノイズを形成すべきか、または狭帯域成分に基づいてこれを形成すべきかを受信側で決定できることである。このことは、音声情報フレームに対する伝送レートが低下して狭帯域の音声情報だけが伝送される状況において、受信者における音響についての評価に殊に有利である。すなわち、目下の従来技術のように狭帯域の音声情報が、広帯域ノイズと関連して合成される場合、これは受信者にとって極めて不満のもとになる。音声情報フレームに対する伝送レートの上記のような低下は、例えば、送信者と受信者との間のネットワークの稼働率(輻輳)が高いことによって発生することがある。格段に小さいSIDフレームでは、このようなネットワークの隘路に襲われてしまうことはない。したがってこのようなSIDフレームにとっては、データ伝送レートを低減しなければならないという拘束も、そのコンテンツを低減しなければならない拘束もないのである。
【0024】
本発明の有利な1実施形態では、背景ノイズの狭帯域の第1成分の背景ノイズパラメタを決定するため、背景ノイズの自己相関関数およびエネルギを求める。上記の狭帯域成分は、比較的長い時間にわたって1つの音声休止を平均化する必要があり、これは実践的には例えば100msの時間にわたる。ここでこの実施形態にしたがって使用される計算パラメタには、エネルギ(対数エネルギではない)および自己相関関数が含まれる。
【0025】
本発明の別の有利な1実施形態によれば、インアクティブないしは音声休止として分類される時間区間のはじめに付加的なハングオーバ期間(Hangover Period)が挿入される。この新たに挿入されるハングオーバ期間、以下ではDTXハングオーバ期間と称されるハングオーバ期間は、従来公知のVAD(Voice Activity Detection)ハングオーバ期間と比べて、これまで知られていない別の目的に使用される。
【0026】
2種類のハングオーバ期間が、複数のフレームをアクティブな音声フレームと特徴付け、ひいては音声信号の終わりに誤った分類を回避するという目的を追求しているのに対して、上記DTXハングオーバ期間は、背景ノイズについての情報を収集するという付加的な目的を有する。
【0027】
本発明の有利な1実施形態では、広帯域の第2成分を減衰させる。この広帯域成分の減衰は、広帯域成分における全エネルギ成分を減衰させる際に1つの役割を果たす。このような手段は、復号化器においてコンフォートノイズを形成する(合成する)発生器は、符号化器における原背景ノイズと同じノイズ特性を形成することができないという事実に起因して必要である。
【0028】
本発明の有利な1実施形態では、全背景ノイズ信号に、すなわち広帯域および狭帯域成分からなる組み合わせの背景ノイズ信号に、後置接続されたデエンファシスフィルタ("De-emphasis Post Filter")を適用する。この"De-Emphasis Post Filter"により、エネルギおよび高次の周波数成分のデエンファシス(De-Emphasis)が行われる。上記の平均化により、所定のようにスペクトル的な包絡線が変形されるため、この減衰は有利にも、障害となる広帯域ノイズが受信者に与える障害的な作用を低減するのに貢献することができる。
【図面の簡単な説明】
【0029】
【図1】復号化器において音声として分類される入力信号から、背景ノイズとして分類される入力信号への移行を時間について示す線図である。
【0030】
以下、本発明の別の利点および実施形態を有する実施例を図面に基づいて詳しく説明する。
【0031】
以下では本発明の基礎にある技術的な背景をまず図を参照せずに詳しく説明する。
【0032】
従来技術では、受信側でのコンフォートノイズ発生器(CNG Comfort Noise Generator)に関連して、不連続送信(DTX)の適用に問題がある。DTX/CNG処理中、つぎの考察を考慮しなければならない。
【0033】
1. CNG側では、受信側で聴いている人によってリアルであると受け取られるべきである背景ノイズないしはコンフォートノイズを適当に形成することが必要である。広帯域の音声コーデックの場合、すなわち、例えば50Hz〜7kHzの周波数の帯域幅を有する音声コーデックの場合、広帯域ノイズの形成は、劣化と見なされる。さらに上記の背景ノイズの特性ないしは「色」は復号化器および符号化器側においてつねに同じではないため、エネルギおよびスペクトル的な包絡線の平均値形成を行う現在の解決手段により、原背景ノイズ情報が劣化する。
【0034】
2. インアクティブ音声期間(音声休止)中に背景ノイズのエネルギにおける大きな変化が符号化器側で検出される場合のみ、上記のDTX方式により、更新されたSIDフレームが伝送される。このことはDTX/CNG方式をサポートする狭帯域(50Hz〜4kHz)の音声コーデックにも、広帯域の音声コーデックにも当てはまる。この際にはふつうエネルギ閾値(Energy Threshold)が中心的な役割を果たす。これにより、定めたエネルギ閾値を上回っていない場合、SIDフレームが送信されないことになる。しかしながら受信器と送信器との間の伝送ネットワーク側では、SIDフレームの送信がこのように中断されることは、サイレント状態ないしはアイドルチャネル("Idle Channel")と見なされる。この場合、コネクションが維持されること("Connection Alive")を保証するため、場合によってはコネクションを維持したいことを示すために付加的なデータを交換する必要がある。
【0035】
目下のところ、上記の問題についてはつぎのように回避している。すなわち、
1.について:広帯域成分に関する情報は、SIDフレームにおいて符号化される。この際に平均化された対数エネルギおよび平均化されたイミタンススペクトル周波数(ISF Immitance Spectral Frequency)は、例えば、音声コーデックG.722およびAMR−WBにおいて広帯域の背景ノイズを表すのに使用される。ここでは広帯域の背景ノイズの下側部分および上側部分の別個の処理は行われない。狭帯域音声コードG.729は、平均化された対数エネルギおよび平均化された自己相関関数を使用する。ここで上記のエネルギに対する平均化期間および自己相関関数に対する平均化期間は一致しない。
【0036】
2.について:上記のアイドル期間("Idle Period")が、対応するコネクションに対して長過ぎるとみされる場合、上記のネットワーク管理における管理ポイントは、最後に伝送したSIDフレームを新たに伝送することを送信したノード、すなわち送信した符号化器に要求する。したがってこの新たに送信されるSIDフレームおよびそこに含まれる情報は更新されない。したがって符号化器は、付加的なアクションを実行することはない。
【0037】
本発明による方法では、上記の符号化器を構成して、この符号化器により、あらかじめ設定した所定の時間の後、上記の平均化したエネルギおよび自己相関関数が新たに計算されるようにする。上記のネットワークにおける管理ポイントは、必要なアイドル期間についての情報を符号化器に伝える。
【0038】
以下では、SIDフレームを生成する別の実施形態を説明する。
【0039】
背景ノイズ情報の狭帯域成分と、背景ノイズ情報の広帯域成分とがわかれているSID構造(SIDビットストリーム構造)を形成する。1つのSIDフレームにおいて狭帯域背景ノイズ情報と、広帯域背景ノイズ情報とを別個に処理することにより、背景ノイズの狭帯域成分と広帯域成分と別個に符号化することができ、また上記の処理をわかりやすくすることができる。
【0040】
上記の狭帯域成分では、比較的長い時間にわたって1つの音声休止を平均化する必要があり、これは実践的には例えば100msの時間にわたる。ここで、使用される計算パラメタには、エネルギ(対数エネルギではない)および自己相関関数が含まれる。上記の自己相関関数は、スペクトル的な包絡線表現に利用される。ここで全体増幅係数は、すべての増幅手法および平均化手法の組み合わせによって補償することができる。上記の自己相関関数に対する値は、加算または平均値形成によってそれぞれ正規化される(Equally Weighted)。このことはすべてのSIDフレームに当てはまる。上記の狭帯域成分を比較的長く平均化(Averaging)することによって、狭帯域エネルギおよびスペクトル的な包絡線は平滑化されるため、突然のエネルギ変化が、受信側におけるコンフォートノイズの合成に目立った影響を与えることはない。音声信号を置換した(Speak Burst)後に第1SIDフレームを形成した後、この平均化期間は、エネルギにも使用され、またスペクトル的な包絡線の平均化にも共に使用される。この手段により、音声期間から音声休止への移行中に狭帯域背景ノイズの一貫性のある推定が保証される。
【0041】
以下では図を参照する。図は音声信号(Speech Burst)を示しており、この信号は、所定の時点tに図において破線で示した所定の信号レベル、すなわち閾値を下回る。縦軸は、上記の信号のレベルまたはエネルギ値として理解すべきである。これに加えて送信側において音声休止識別(Voice Activity Detection, VAD)を使用する。これは、上記の閾値を下回った場合に音声休止を識別する。このVAD方式では、公知のハングオーバ期間VAD−HOが設けられており、この期間ではさらにアクティブな音声フレームが送信され、ふつう2フレーム長の後はじめて、SIDフレームを生成するモードに移行する。
【0042】
ここで説明する本発明の実施形態では付加的なハングオーバ期間DTX−HOが挿入される。この新たなハングオーバ期間DTX−HOは、従来公知でありかつブラックボックス("Black Box")として使用されるハングオーバVAD−HO期間に続いている。このハングオーバ期間DTX−HO中、上記の符号化器において加工される信号は依然として音声信号として分類され、その一方で並行して背景ノイズパラメタの決定がすでに開始される。音声符号化のデータレートはすでに低減されている。それは、音声休止のはじめには、高品質な符号化は不要だからである。さらに上記の狭帯域成分に対してハングオーバ期間の一部分を利用して、第1SIDフレームの平均値を形成する。上記の説明は、有利にはハングオーバ期間DTX−HO,VAD−HO内の最後のフレームFRAMESに関するものである。これに対してハングオーバ期間の第1フレームの情報は、有利には利用されない。
【0043】
上記の新たに挿入されるハングオーバ期間DTX−HOは、従来音声休止識別("Voice Activity Detection")の要求によって動機付けされていた公知のハングオーバ期間VAD−HOとは異なり、これまで着目されていなかった別の目的に使用される。DTX−HO,VAD−HOの2種類のハングオーバ期間が、複数のフレームをアクティブな音声フレームと特徴付け、ひいては音声信号の終わりに誤った分類を回避するという目的を追求しているのに対して、ハングオーバ期間DTX−HOは、背景ノイズについての情報を収集するという付加的な目的を有する。
【0044】
音声信号の終わりに誤った分類を回避するという目的については、上記の新たなハングオーバ期間DTX−HOは付加的な保証になり、これによってハングオーバ期間DTX−HOが終了した後、復号化器の入力側に背景ノイズがあり、音声信号がないことが確定的に保証される。公知のハングオーバ期間VAD−HOを従来のように使用する場合、上記の加わっている信号が排他的に背景ノイズだけであることを推定することはできなかった。実際には公知のハングオーバ期間VAD−HO中に音声成分(Speech Burst)がなお発生することがあった。その他に上記の新たなハングオーバ期間DTX−HOは、背景ノイズの取得だけに使用される。
【0045】
これらのハングオーバ期間DTX−HO,VAD−HOの持続時間の選択およびひいてはフレーム数FRAMESの選択については、有利な設定を、例えばつぎように選択する。すなわち、公知のハングオーバ期間VAD−HOに対する2つのフレームの持続時間(破線の軸FRAMESを参照されたい)および新たなハングオーバ期間DTX−HOに対する5つのフレームの持続時間が設けられるように選択するのである。
【0046】
上記の広帯域成分ではエネルギ減衰が行われる。この広帯域成分の減衰は、広帯域成分における全エネルギ成分を減衰させる際に1つの役割を果たす。このような手段は、復号化器においてコンフォートノイズを形成する(合成する)発生器は、符号化器における原背景ノイズと同じノイズ特性を形成することができないという事実に起因して必要である。
【0047】
上記の出力される広帯域音声信号、すなわち広帯域および狭帯域成分からなる組み合わせの広帯域音声信号背景には、後置接続されたデエンファシスフィルタ("De-emphasis Post Filter")を適用する。このフィルタリングにより、主に高次の周波数成分が減衰される。さらにこの"De-Emphasis Post Filter"により、エネルギおよび高次の周波数成分のデエンファシス(De-Emphasis)が行われる。上記の平均化により、所定のようにスペクトル的な包絡線が変形されるため、この減衰は、障害となる広帯域ノイズが受信者に与える障害的な作用を低減するのに貢献することができる。

【特許請求の範囲】
【請求項1】
伝送ネットワークを介して背景ノイズパラメタを不連続送信するためのSIDフレームを生成する方法において、
期間単位に背景ノイズパラメタを求め、
当該の求めた背景ノイズパラメタに基づいてSIDフレームを生成および伝送し、
ここで前記の期間は、伝送ネットワークの、求めたアイドル期間に相応することを特徴する、
伝送ネットワークを介して背景ノイズパラメタを不連続送信するためのSIDフレームを生成する方法。
【請求項2】
狭帯域の第1成分および広帯域の第2成分の背景ノイズパラメタを求め、
当該の第1成分および第2成分に対して別の領域を有する前記のSIDフレームの生成を行う、
請求項1に記載の方法。
【請求項3】
前記の背景ノイズの狭帯域の第1成分の背景ノイズパラメタを決定するため、背景ノイズの自己相関関数およびエネルギを求める、
請求項2に記載の方法。
【請求項4】
前記の狭帯域の第1成分の背景ノイズパラメタを約100ミリ秒の時間にわたって平均する、
請求項3に記載の方法。
【請求項5】
音声に分類した信号から背景ノイズに分類した信号への移行部に、付加的なハングオーバ期間を設け、
当該ハングオーバ期間中に背景ノイズパラメタを求める、
請求項1から4までのいずれか1項に記載の方法。
【請求項6】
前記の広帯域の第2成分を減衰させる、
請求項2から5までのいずれか1項に記載の方法。
【請求項7】
前記の全背景ノイズ信号に、後置接続されたデエンファシスフィルタリングを適用する、
請求項1から6までのいずれか1項に記載の方法。
【請求項8】
請求項1から7までのいずれか1項に記載の方法を実行する手段を有することを特徴とするコーデック。
【請求項9】
それ自体公知のITU−T規格G.729.1にて実現した、
請求項8に記載のコーデック。

【図1】
image rotate


【公表番号】特表2011−515705(P2011−515705A)
【公表日】平成23年5月19日(2011.5.19)
【国際特許分類】
【出願番号】特願2010−547139(P2010−547139)
【出願日】平成21年2月2日(2009.2.2)
【国際出願番号】PCT/EP2009/051123
【国際公開番号】WO2009/103610
【国際公開日】平成21年8月27日(2009.8.27)
【出願人】(507366083)シーメンス エンタープライズ コミュニケーションズ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト (9)
【氏名又は名称原語表記】Siemens Enterprise Communications GmbH & Co. KG
【住所又は居所原語表記】Hofmannstrasse 51, D−81379 Muenchen, Germany
【Fターム(参考)】