説明

音声符号化システム及び方法

符号化されたオーディオ信号から再生された信号をエンハンスするシステム。システムは、上記符号化されたオーディオ信号を受信し、復号されたオーディオ信号を発生するように設けられた復号器と、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つを受信し、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するように設けられた特徴抽出手段と、上記特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生しかつ出力するように動作するように設けられることにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するマッピング手段と、上記復号されたオーディオ信号及び上記エンハンス信号を受信し、上記エンハンス信号を上記復号されたオーディオ信号と混合するように設けられた混合手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声符号化システム及び方法に関し、特にボイスオーバーインターネットプロトコル通信システムにおいて利用されることに関するがこれに限定されない。
【背景技術】
【0002】
通信システムでは、端末が呼又は別の通信イベントにおいて互いに情報を送信することができるように、2つの通信端末をリンクすることができる通信ネットワークが提供される。情報は、音声、テキスト、画像、又はビデオを含んでもよい。
【0003】
現代の通信システムは、デジタル信号の送信に基づいている。音声などのアナログ情報は、端末の送信機でアナログデジタル変換器に入力され、デジタル信号に変換される。その後、デジタル信号は符号化され、宛先端末の受信機へのチャネルを介した送信のためにデータパケットに入れられる。
【0004】
音声信号の符号化は、音声符号器によって実行される。音声符号器は、デジタル情報として送信するために音声を圧縮し、宛先端末の対応する復号器は、符号化された情報を復号して、復号された音声信号を生成する。それによって、符号器及び復号器の組み合わせは、宛先端末において(宛先端末のユーザの知覚から判断して)元の音声に酷似している復号された音声信号をもたらす。
【0005】
多くの異なるタイプの音声符号化が既知であり、さまざまなシナリオ及びアプリケーションのために最適化されている。例えば、いくつかの音声符号化技術は、特に、低いビットレートのチャネルを介して送信するために、音声を符号化するために実装されている。低いビットレートの音声符号器は、ボイスオーバーインターネットプロトコル(“VoIP”)システム、及び移動体/無線遠隔通信などの多くのアプリケーションで有用である。
【0006】
低いレートの音声符号器の例は、元の音声のわずかな(sparse)信号表現を生成するモデルベースの音声符号器である。このようなモデルベースの音声符号器の特定の一例は、正弦波の集合として音声信号を表現する音声符号器である。例えば、低いレートの正弦波音声符号器は、有声として分類された音声フレームの線形予測残差を正弦波のみを用いて符号化することができる。多くの別のタイプの低いレートのわずかな信号表現音声符号器がまた、既知である。これらのタイプの低いレートの符号器は、非常にコンパクトな信号表現を形成する。しかしながら、符号化された信号におけるわずかな表現は、音声の構造を完全に捕捉しない。
【発明の概要】
【発明が解決しようとする課題】
【0007】
正弦波符号器などの低いレートのモデルベースの音声符号器に伴う問題は、信号が低いビットレートで送信されたとき、わずかな表現が金属的な音のアーチファクト(metallic-sounding artifact)をもたらす傾向があることである。金属的なアーチファクト(metallic artifact)は、基礎となるわずかなモデルが限定されたビット割り当てを与えられた音声音のいくつかの構造を捕捉する能力がないことに起因して発生する。
【0008】
(最終的にはチャネルの帯域幅の能力に関係する)ビット割り当てが増加する場合、元の音声構造の失われた部分を記述するより多くの情報が、送信される情報に追加される。この追加の記述は、アーチファクトを軽減し、最終的にはアーチファクトを除去し、したがって、宛先端末のユーザによって知覚されるように、復号された音声信号の全体の品質及び自然さを改善する。しかしながら、これは明らかに、より高いビットレートをサポートする能力がある場合のみ可能である。
【0009】
さらに、復号システムは、音声信号を時間内に圧縮する又は展開/伸張することができ、及び/又はジッタを補償するために全体の音声フレームを挿入又はスキップすることができる。ジッタは、受信される信号におけるパケット待ち時間の変動である。復号システムはまた、伝送において損失した又は遅延した1つ又はそれ以上のフレームを置換するために、1つ又はそれ以上の隠蔽フレームを音声信号に挿入することができる。特に、音声信号の伸張、及び音声信号への隠蔽フレームの挿入は、金属的なアーチファクトを引き起こす。一般に、これらの問題はより高いビットレートを利用しても緩和されない。
【0010】
したがって、低いビットレートの符号器に伴う上述した問題、及び一般に、損失、遅延、及び/又はジッタが伝送において発生し得るときに、宛先において信号の知覚される品質を改善するための符号器に対処する技術が必要である。
【課題を解決するための手段】
【0011】
本発明の一態様によれば、符号化されたオーディオ信号から再生された信号をエンハンスする(enhance)システムにおいて、上記符号化されたオーディオ信号を受信し、復号されたオーディオ信号を発生するように設けられた復号器と、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つを受信し、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するように設けられた特徴抽出手段と、上記少なくとも1つの特徴をエンハンス信号(enhancement signal)にマッピングし、上記エンハンス信号を発生しかつ出力するように動作するように設けられることにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するマッピング手段と、上記復号されたオーディオ信号及び上記エンハンス信号を受信し、上記エンハンス信号を上記復号されたオーディオ信号と混合するように設けられた混合手段とを備えたシステムを提供する。
【0012】
一態様では、上記符号化されたオーディオ信号は符号化された音声信号であり、上記復号されたオーディオ信号は復号された音声信号である。
【0013】
本発明のもう1つの態様によれば、符号化されたオーディオ信号から再生された信号をエンハンスする方法において、端末で上記符号化されたオーディオ信号を受信するステップと、復号されたオーディオ信号を発生するステップと、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するステップと、上記少なくとも1つの特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生することにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するステップと、上記エンハンス信号と上記復号されたオーディオ信号とを混合するステップとを含む方法を提供する。
【0014】
本発明のより良い理解のため、及び本発明がどのように実施されるのかを示すために、例を用いて以下の図面への参照が行われる。
【図面の簡単な説明】
【0015】
【図1】通信システムを示す。
【図2】45msの音声セグメントの例のパワースペクトルを示す。
【図3】低いビットレートのわずかな符号器によって符号化される音声信号の知覚される品質を改善するシステムを示す。
【図4】図3のシステムの実施形態を示す。
【発明を実施するための形態】
【0016】
まず、本発明の一実施形態において利用される通信システム100を示す図1を参照する。(“ユーザA”102で示される)通信システムの第1のユーザはユーザ端末104を操作し、ユーザ端末104はインターネットなどのネットワーク106に接続されていることが示されている。ユーザ端末104は、例えば、パーソナルコンピュータ(“PC”)、パーソナルデジタルアシスタント(“PDA”)、携帯電話、ゲーム用デバイス、又はネットワーク106に接続することができる別の組み込みデバイスであってもよい。ユーザデバイスは、ユーザインタフェース手段を有し、デバイスのユーザから情報を受信し、かつデバイスのユーザに情報を出力する。本発明の好ましい一実施形態では、ユーザデバイスのインタフェース手段は、スクリーンなどの表示手段、及びキーボード及び/又はポインティングデバイスを備える。ユーザデバイス104は、モデム、アクセスポイント、又は基地局などのネットワークインタフェース108を介してネットワーク106に接続され、ユーザ端末104とネットワークインタフェース108との間の接続は、ケーブル(有線)接続又は無線接続を介するものであってもよい。
【0017】
ユーザ端末104は、通信システムのオペレータによって提供されるクライアント110を実行している。クライアント110は、ユーザ端末104内のローカルプロセッサ上で実行されるソフトウェアプログラムである。ユーザ端末104はまた、ハンドセット112に接続され、ハンドセット112は、スピーカ及びマイクロフォンを備えて、従来の固定回線電話と同一の方法で音声通話において聞くこと、及び話すことを可能にする。ハンドセット112は、従来の電話のハンドセットの形式である必要はなく、統合されたマイクロフォンを有するヘッドホン又はイヤホンの形式であってもよく、又はユーザ端末104に独立に接続された別々のラウドスピーカ及びマイクロフォンであってもよい。クライアント110は、ネットワーク106を介して送信するために音声を符号化する、及びネットワーク106から受信される音声を復号するために利用される音声符号器/復号器を備える。
【0018】
ネットワーク106を介した呼は、発呼者(例えば、ユーザA102)と被呼ユーザ(すなわち宛先、この場合ではユーザB114)との間で開始されてもよい。いくつかの実施形態では、呼のセットアップは、独占的なプロトコルを用いて実行され、発呼ユーザと被呼ユーザとの間のネットワーク106を介したルートは、中央サーバを使用することなくピアツーピアのパラダイムにしたがって決定される。しかしながら、これは一例にすぎず、ネットワーク106を介した通信の別の手段がまた可能である。
【0019】
発呼者と被呼ユーザとの間の呼が確立した後、ユーザA102からの音声は、ハンドセット112によって受信され、ユーザ端末104に入力される。音声符号器を備えるクライアント110は音声を符号化し、音声はネットワークインタフェース108を介してネットワーク106を経由して送信される。符号化された音声信号は、ネットワークインタフェース116及びユーザ端末118にルーティングされる。ここで、(ユーザ端末104のクライアント110と同様であってもよい)クライアント120は、音声復号器を使用して、信号を復号しかつ音声を再生する。その後、音声はハンドセット122を用いてユーザ114によって聞かれる。
【0020】
上述したように、通信ネットワーク106はインターネットであってもよく、通信はVoIPを用いて実行されてもよい。しかしながら、本明細書でより詳細に示され記述される例示的な通信システムは、VoIPネットワークの用語を使用するが、本発明の実施形態は、データの転送を容易にする任意の別の適切な通信システムにおいて利用されてもよいことが認識されるべきである。例えば、本発明は、TDMA、CDMA、及びWCDMAネットワークなどの移動体通信ネットワークにおいて利用されてもよい。
【0021】
ある実施例では、ユーザA102とユーザB114との間の音声の低いビットレート送信(例えば、16kbps未満)のために、高調波の正弦波符号器(harmonic sinusoidal coder)などのモデルベースの音声符号器が利用されてもよい。例えば、図1のクライアント110及び120における音声符号器及び復号器は、低いビットレートのチャネル上の送信に適した非常にコンパクトな信号表現を形成するわずかな正弦波モデルを生成する正弦波符号器であってもよい。代替の実施例では、別のタイプの低いレートのわずかな表現音声符号器が使用されてもよい。しかしながら、上述したように、いくつかの音声音については、わずかなモデルは完全に適切ではない。図2に示したように、このようなモデリングのミスマッチの例が見られる。
【0022】
図2は、45msの音声セグメントの例のパワースペクトルを示す。破線202は元の音声のパワースペクトルを示し、実線204は、高調波の正弦波符号器を用いて符号化したときの音声のパワースペクトルを示す。符号化された信号のパワースペクトルは、元のパワースペクトルから著しく逸脱していることが明らかに見られる。このモデルのミスマッチの結果は、復号器から出力される音声が顕著な金属的なアーチファクトを含むことである。
【0023】
ここで、低いビットレートのわずかな符号器によって符号化される音声信号の知覚される品質を改善するシステム300を示す図3を参照する。図3に示されるシステムは、復号器で動作する。したがって、図1に示された実施例を参照すると、図3のシステムは、宛先のユーザ端末118のクライアント120に位置する。
【0024】
一般に、図3のシステム300は、すでに符号化された信号及び/又は復号された信号が、復号された信号と混合されるときに金属的なアーチファクトを軽減又は除去する人工信号を生成するために用いられる技術を利用する。したがって、これは知覚される品質を改善する。この解決法は人工混合信号(“AMS”)と呼ばれる。受信機で復号された信号のみを用いて人工信号を生成することから、追加のビットを送信する必要はないが、これは追加の(仮想の)符号化レイヤと見なされる。別の実施形態では、AMS信号の生成をさらに改善するいくつかの情報を記述する少数の追加のビットがまた、送信されてもよい。
【0025】
さらに具体的には、図3のシステム300は、復号器ですでに利用可能な情報に基づいて、復号された信号と同じ周波数帯域に存在する信号成分を人工的に発生する。例えば、低いビットレートの正弦波の符号化された信号の例のシナリオでは、AMS方法は、正弦波復号器からの復号された信号を、より雑音のような特徴を有する人工的に発生された信号と混合する。これは、復号される音声信号の自然さを増加させる。
【0026】
システム300への入力302は、ネットワーク106を介して受信された符号化された音声信号である。例えば、音声信号は、元の音声信号のわずかな表現を与える低いレートの正弦波符号器を用いて符号化されてもよい。別の符号化の形式がまた、代替の実施形態で利用されてもよい。符号化された信号302は、符号化された信号を復号するように設けられた復号器304に入力される。例えば、符号化された信号が正弦波符号器を用いて符号化された場合、復号器304は、正弦波復号器である。復号器304の出力は、復号された信号306である。
【0027】
符号化された信号302及び復号された信号306の両方は、特徴抽出ブロック308に入力される。特徴抽出ブロック308は、復号された信号306及び/又は符号化された信号302から一定の特徴を抽出するように設けられる。抽出される特徴は、人工信号を合成するように有利に使用される特徴である。抽出される特徴は、復号された信号の時間及び/又は周波数におけるエネルギーの包絡線、フォルマントのロケーション、スペクトルの形状、基本周波数又は正弦波の記述におけるそれぞれの高調波のロケーション、これらの高調波の振幅及び位相、(例えば、予期される雑音成分のフィルタ、又は時間及び/又は周波数包絡線による)雑音モデルを記述するパラメータ、及び時間及び/又は周波数における予期される雑音成分の知覚的な重要性(perceptual importance)の分布を記述するパラメータのうちの少なくとも1つを含むがこれに限定されない。このような特徴を抽出する目的は、復号された信号と混合されるべき人工信号を発生する方法についての情報を提供することである。これらの特徴の1つ又はそれ以上は、特徴抽出ブロック308によって抽出されてもよい。
【0028】
抽出された特徴は特徴抽出ブロック308から出力され、特徴−信号マッピングブロック310に提供される。特徴−信号マッピングブロック310の機能は、抽出された特徴を利用し、復号された信号306を補完しかつエンハンスする信号にそれらの特徴をマッピングすることである。特徴−信号マッピングブロック310の出力は、人工的に発生された信号312と呼ばれる。
【0029】
多くのタイプのマッピングが、特徴−信号マッピングブロック310によって利用されてもよい。例えば、マッピング動作のタイプは、隠れマルコフモデル(HMM)、コードブックマッピング、ニューラルネットワーク、ガウス混合モデル、又は実際の音声信号をより良く模倣する洗練された推定量を構築する任意の別の適切に学習された統計的なマッピングのうちの少なくとも1つを含むがこれに限定されない。
【0030】
さらに、いくつかの実施形態では、マッピング動作は、符号器及び/又は復号器からの設定及び情報によってガイドされてもよい。符号器及び/又は復号器からの設定及び情報は、制御ユニット314によって提供される。制御ユニット314は、設定及び情報を符号器及び/又は復号器から受信し、これらの設定及び情報は、信号のビットレート、フレームの分類(すなわち有声のフレーム又は過渡的なフレーム)、又は階層符号化方法のどの階層が送信されているのかを含んでもよいがこれに限定されない。これらの設定及び情報は、入力316で制御ユニット314に提供され、318で制御ユニット314から特徴−信号マッピングブロックに出力される。符号器及び/又は復号器からの情報及び設定は、特徴−信号マッピングブロック310によって使用されるマッピングのタイプを選択するために用いられてもよい。例えば、特徴−信号マッピングブロック310は、それぞれが異なるシナリオのために最適化されたいくつかの異なるタイプのマッピング動作を実装してもよい。制御ユニット314によって提供される情報は、特徴−信号マッピングブロック310が使用に最も適切なマッピング動作を決定することを可能にする。
【0031】
代替の実施形態では、制御ユニット314が特徴抽出ブロック308内に統合されてもよく、制御情報が特徴情報とともに特徴−信号マッピングブロック310に直接的に提供されてもよい。
【0032】
特徴−信号マッピングブロック310から出力される人工的に発生された信号312は、混合機能320に提供される。混合機能320は、復号された信号306を人工的に発生された信号312と混合して、元の音声信号により知覚的に類似する出力信号を発生する。
【0033】
混合機能320は、制御ユニット314によって制御される。特に、制御ユニットは、(入力316から)符号器及び/又は復号器からの符号器の設定及び情報を利用して、例えば(時間及び周波数における)混合重み(混合重み付け係数)などの制御情報を信号322において混合機能320に提供する。制御ユニット314はまた、混合機能320のための制御情報を決定するときに、信号324において特徴抽出ブロック308によって提供される抽出された特徴の情報を利用することができる。
【0034】
最も簡単な場合、混合機能320は、復号された信号306と人工的に発生された信号312との加重和を実装してもよい。しかしながら、有利な実施形態では、混合機能320は、フィルタバンク又は別のフィルタ構造を利用して、時間及び周波数の両方において信号の混合を制御してもよい。
【0035】
別の有利な実施形態では、混合機能320は、元の信号の既知の構造を利用するために、復号された信号又は符号化された信号からの情報を使用するように適合されてもよい。例えば、有声の音声信号及び正弦波の符号化の場合、多数の正弦波がピッチ高調波に置かれ、雑音(すなわち人工的に発生された信号312)は、これらの場合、これらの高調波のそれぞれのピークからこれらの高調波の間のスペクトルの谷間に向けて次第に減少する重みスロープ(weight-slopes)又はフィルタを用いて混合されてもよい。それぞれの正弦波についての情報は、図3に示されるように入力として混合機能320に提供されてもよい符号化された信号302に含まれる。
【0036】
さらに、符号化された信号又は復号された信号(302,306)からの情報は、復号された信号306がすでに元の信号の正確な表現である場合に、人工的に発生された信号312が復号された信号306を劣化させることを回避するために使用されてもよい。例えば、復号された信号306が、わずかなベースで元の信号の表現として得られた場合、人工的に発生された信号312は、主としてわずかなベースに対する直交補空間(orthogonal complement)において混合されてもよい。
【0037】
代替の実施形態では、高調波のフィルタリング及び/又は直交補空間への投射(projection)は、混合機能320ではなく特徴−信号マッピングブロック310の一部として実行されてもよい。
【0038】
混合機能の出力は人工混合信号326であり、人工混合信号326では、復号された信号306よりもより高い知覚される品質を有する信号を発生するように、復号された信号306及び人工的に発生された信号312が混合される。特に、金属的なアーチファクトが減少する。
【0039】
図3を参照して上述した、すでに符号化された信号及び/又は復号された信号が、復号された信号と混合される人工信号を発生するために利用される技術は、帯域幅拡大(“BWE”)の分野で利用される技術と類似している。帯域幅拡大はまた、スペクトル帯域幅複製(“SBR”)として知られている。BWEにおける目的は、狭帯域の音声(例えば0.3−3.4kHzの帯域幅)から広帯域の音声(例えば0−8kHzの帯域幅)を再生成することである。しかしながら、BWEでは、人工信号は拡大されたより高い又はより低い帯域において発生される。図3の技術の場合では、人工信号は、符号化された/復号された信号と同一の周波数帯域において発生され混合される。
【0040】
さらに、時間及び周波数成形された雑音モデルが、音声モデリングのコンテキスト及びパラメトリックオーディオ符号化のコンテキストの両方において使用される。しかしながら、これらのアプリケーションは一般に、この雑音の時間ロケーション及び周波数ロケーションの別々の符号化及び送信を利用する。一方、図3に示した技術は、有声の音声の既知の構造を積極的に利用する。これは、上述した技術が、別々の符号化及び送信なしに、符号化された信号及び復号された信号から完全に又はほぼ完全に人工雑音信号を発生する(例えば、雑音成分の時間包絡線及び/又は周波数包絡線を抽出する)ことを可能にする。余分のビットが送信されることなく(又はごくわずかの余分のビットが送信されることで)人工的に発生された信号が得られることは、符号化された信号及び復号された信号からのこの抽出による。例えば、少数の余分のビットが、AMS方法の動作をさらにエンハンスするために送信されてもよく、余分のビットは、雑音成分のゲイン又はレベルを示し、雑音成分の概略のスペクトル形状及び/又は時間的形状を提供し、かつ成形のためのファクタ又はパラメータを高調波に提供する。
【0041】
上述したように、図3はAMS方法を実装するシステムの一般的な場合を示している。図3の一般的なシステムのより詳細な実施形態を示す図4を参照する。さらに具体的には、図4に示したシステム400では、特徴は復号された信号の時間上のエネルギーの包絡線の記述を形成し、人工信号は特徴を用いてガウス雑音を変調することによって発生される。
【0042】
図4に示したシステム400は、全体システムの宛先端末で動作する。例えば、図1を参照すると、システム400は、宛先ユーザ端末118のクライアント120に位置する。システム400は、通信ネットワーク106を介して受信される符号化された信号302を入力として受信する。図3のシステムと同様に、符号化された信号302は、復号器304を用いて復号される。
【0043】
復号された信号304は、復号された信号304の絶対値を出力する絶対値関数402に提供される。この信号はハン窓関数404を用いて畳み込まれる。絶対値を求め、ハン窓を用いて畳み込んだ結果は、復号された信号306の滑らかなエネルギー包絡線406である。絶対値関数402とハン窓404との組み合わせは、本明細書で上述した図3の特徴抽出ブロック308の機能を実行し、滑らかなエネルギー包絡線406が、抽出された特徴である。好ましい例示的な一実施形態では、ハン窓は10個のサンプルのサイズを有する。
【0044】
復号された信号の滑らかなエネルギー包絡線406は、ガウスランダム雑音と乗算されて、変調された雑音信号408を発生する。ガウスランダム雑音は、乗算器412に接続されたガウス雑音発生器410によって発生される。乗算器412はまた、ハン窓404から入力を受信する。その後、変調された雑音信号408は、ハイパスフィルタ414を用いてフィルタリングされて、フィルタリングされた変調された雑音信号416を発生する。ガウス雑音発生器410、乗算器412、及びハイパスフィルタ414の組み合わせは、図3を参照して上述された特徴−信号マッピングブロック310の機能を実行する。フィルタリングされた変調された雑音信号416は、図3の人工的に発生された信号312と同等である。
【0045】
フィルタリングされた変調された雑音信号416は、エネルギー整合及び信号混合ブロック418に提供される。エネルギー整合及び信号混合ブロック418はまた、ハイパスフィルタ422が復号された信号306をフィルタリングすることによって発生されるハイパスフィルタでフィルタリングされた信号420を入力として受信する。ブロック418は、フィルタリングされた変調された雑音信号416におけるエネルギーとハイパスフィルタでフィルタリングされた信号420におけるエネルギーとを整合する。
【0046】
エネルギー整合及び信号混合ブロック418はまた、制御ユニット314の制御の下で、フィルタリングされた変調された雑音信号416とハイパスフィルタでフィルタリングされた信号420とを混合する。特に、混合器に適用される重み付けは、制御ユニット314によって制御され、ビットレートに依存する。好ましい実施形態では、制御ユニット314は、ビットレートを監視し、フィルタリングされた変調された雑音信号416の効果が、レートが上昇するにつれてより小さくなるように混合重みを適合させる。好ましくは、フィルタリングされた変調された雑音信号416の効果は主に、レートが上昇するにつれて、混合から消されていく(すなわち、AMSシステムの全体の効果が最小限である)。
【0047】
エネルギー整合及び信号混合ブロック418の出力424は、加算器426に提供される。加算器はまた、復号された信号306を、ローパスフィルタ430を用いてフィルタリングすることによって発生されるローパスフィルタでフィルタリングされた信号428を入力として受信する。したがって、加算器426の出力信号432は、低い周波数の復号された信号428と高い周波数の混合された人工的に発生された信号との和である。信号432は、復号された音声信号306よりもより多くの雑音のような特徴を有し、音声の知覚される自然さ及び品質が向上しているAMS信号である。
【0048】
本発明は、復号された信号の知覚される品質が人工的に発生された信号を用いて向上させられる例の実施形態を参照して記述されたが、本発明は、伝送における損失又は遅延を隠蔽するときに結果として生じるような隠蔽信号に同様に適用されることが、当業者には理解されるであろう。例えば、1つ又はそれ以上のデータフレームがチャネルにおいて損失又は遅延したとき、隠蔽信号が復号器によって隣接するフレームから外挿又は内挿によって発生されて、損失したフレームを置換する。隠蔽信号は、金属的なアーチファクトを生じやすいので、特徴が隠蔽信号から抽出され、人工信号が発生され、隠蔽信号と混合されて金属的なアーチファクトを緩和してもよい。
【0049】
さらに、本発明はまた、ジッタが検出され、その後に伸張される信号、又はジッタを補償するために挿入されたフレームを有する信号に適用される。伸張された信号又は挿入されたフレームは、金属的なアーチファクトを生じやすいので、特徴が伸張された信号又は挿入された信号から抽出され、人工信号が発生され、隠蔽信号と混合されて金属的なアーチファクトの効果を減少させる。
【0050】
さらに、本発明は特に、好ましい実施形態を参照して示されかつ記述されたが、形式及び詳細におけるさまざまな変更が、付随する特許請求の範囲によって定義される本発明の範囲から逸脱することなく行われてもよいことが当業者には理解されるであろう。

【特許請求の範囲】
【請求項1】
符号化されたオーディオ信号から再生された信号をエンハンスするシステムにおいて、
上記符号化されたオーディオ信号を受信し、復号されたオーディオ信号を発生するように設けられた復号器と、
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つを受信し、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するように設けられた特徴抽出手段と、
上記少なくとも1つの特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生しかつ出力するように動作するように設けられることにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するマッピング手段と、
上記復号されたオーディオ信号及び上記エンハンス信号を受信し、上記エンハンス信号を上記復号されたオーディオ信号と混合するように設けられた混合手段とを備えたシステム。
【請求項2】
上記符号化されたオーディオ信号は符号化された音声信号であり、上記復号されたオーディオ信号は復号された音声信号である請求項1記載のシステム。
【請求項3】
上記符号化されたオーディオ信号は、モデルベースの音声符号器を用いて符号化される請求項1又は2記載のシステム。
【請求項4】
上記復号器は、モデルベースの音声復号器である請求項3記載のシステム。
【請求項5】
上記モデルベースの音声符号器は、高調波の正弦波音声符号器である請求項3又は4記載のシステム。
【請求項6】
上記モデルベースの音声復号器は、高調波の正弦波音声復号器である請求項4又は5記載のシステム。
【請求項7】
上記エンハンス信号は、上記復号されたオーディオ信号と比較して雑音のようである請求項1から6のうちのいずれか1つの請求項記載のシステム。
【請求項8】
上記特徴抽出手段によって抽出される上記少なくとも1つの特徴は、上記復号されたオーディオ信号のエネルギーの包絡線である請求項1から7のうちのいずれか1つの請求項記載のシステム。
【請求項9】
上記特徴抽出手段は、
上記復号されたオーディオ信号の絶対値を決定するように設けられた絶対値機能と、
上記復号されたオーディオ信号の上記絶対値を受信し、上記絶対値を畳み込んで上記復号されたオーディオ信号の上記エネルギーの包絡線を決定するように設けられた畳み込み機能とを備えた請求項8記載のシステム。
【請求項10】
上記マッピング手段は、ガウス雑音発生器及び乗算器を備え、
上記乗算器は、上記ガウス雑音発生器からのガウス雑音信号と上記特徴とを乗算して、上記エンハンス信号を発生するように設けられた請求項8又は9記載のシステム。
【請求項11】
上記マッピング手段はさらに、上記乗算器の出力をフィルタリングするように設けられたハイパスフィルタを備えた請求項10記載のシステム。
【請求項12】
上記混合手段は、上記復号されたオーディオ信号におけるエネルギーと上記エンハンス信号におけるエネルギーとを整合するように設けられたエネルギー整合手段を備えた請求項11記載のシステム。
【請求項13】
上記混合手段はさらに、混合器を備えた請求項12記載のシステム。
【請求項14】
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つについての情報を受信し、上記情報を使用してマッピングのタイプを選択しかつ上記マッピングのタイプを上記マッピング手段に提供するように設けられた制御手段をさらに備えた請求項1から13のうちのいずれか1つの請求項記載のシステム。
【請求項15】
上記制御手段はさらに、混合器制御情報を生成し、上記混合器制御情報を上記混合手段に提供するように設けられた請求項14記載のシステム。
【請求項16】
上記混合器制御情報は、混合重みを備えた請求項15記載のシステム。
【請求項17】
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから抽出された上記少なくとも1つの特徴は、フォルマントのロケーション、スペクトルの形状、基本周波数、正弦波の記述におけるそれぞれの高調波のロケーション、高調波の振幅及び位相、雑音モデル、及び時間及び/又は周波数における予期される雑音成分の知覚的な重要性の分布を記述するパラメータのうちの少なくとも1つを含む請求項1から7のうちのいずれか1つの請求項記載のシステム。
【請求項18】
上記マッピング手段は、隠れマルコフモデル、コードブックマッピング、ニューラルネットワーク、及びガウス混合モデルのうちの少なくとも1つを用いて、上記少なくとも1つの特徴をエンハンス信号にマッピングするように設けられた請求項1から7のうちのいずれか1つの請求項記載のシステム。
【請求項19】
上記混合手段はさらに、
上記符号化されたオーディオ信号を受信し、
上記符号化されたオーディオ信号から少なくとも1つの高調波のロケーションを決定し、
上記少なくとも1つの高調波のロケーションに基づいて、上記エンハンス信号と上記復号されたオーディオ信号との混合を適合させるように設けられた請求項1から18のうちのいずれか1つの請求項記載のシステム。
【請求項20】
上記符号化されたオーディオ信号は、端末において通信ネットワークから受信される請求項1から19のうちのいずれか1つの請求項記載のシステム。
【請求項21】
上記通信ネットワークは、ピアツーピア通信ネットワークである請求項20記載のシステム。
【請求項22】
上記符号化されたオーディオ信号は、ボイスオーバーインターネットプロトコルのデータパケット内で受信される請求項1から21のうちのいずれか1つの請求項記載のシステム。
【請求項23】
上記復号器はさらに、
上記符号化されたオーディオ信号からフレームが損失したことを決定する手段と、
それに応じて、上記符号化されたオーディオ信号の少なくとも1つの別のフレームから上記復号されたオーディオ信号を発生する手段とを備えた請求項1記載のシステム。
【請求項24】
上記発生する手段は、上記少なくとも1つの別のフレームから上記復号されたオーディオ信号を内挿する手段を備えた請求項23記載のシステム。
【請求項25】
上記発生する手段は、上記少なくとも1つの別のフレームから上記復号されたオーディオ信号を外挿する手段を備えた請求項23記載のシステム。
【請求項26】
上記復号器はさらに、
上記符号化されたオーディオ信号におけるパケット待ち時間のジッタを検出する手段と、
上記ジッタによる歪みが減少するように上記復号されたオーディオ信号を発生する手段とを備えた請求項1記載のシステム。
【請求項27】
上記発生する手段はさらに、上記復号されたオーディオ信号を伸張して、上記歪みを補償する手段を備えた請求項26記載のシステム。
【請求項28】
上記発生する手段はさらに、上記復号されたオーディオ信号にフレームを挿入して、上記歪みを補償する手段を備えた請求項26記載のシステム。
【請求項29】
上記システムは、上記符号化されたオーディオ信号から再生された上記信号の知覚される品質をエンハンスする請求項1から28のうちのいずれか1つの請求項記載のシステム。
【請求項30】
符号化されたオーディオ信号から再生された信号をエンハンスする方法において、
端末で上記符号化されたオーディオ信号を受信するステップと、
復号されたオーディオ信号を発生するステップと、
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するステップと、
上記少なくとも1つの特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生することにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するステップと、
上記エンハンス信号と上記復号されたオーディオ信号とを混合するステップとを含む方法。
【請求項31】
上記符号化されたオーディオ信号は符号化された音声信号であり、上記復号されたオーディオ信号は復号された音声信号である請求項30記載の方法。
【請求項32】
上記符号化されたオーディオ信号は、モデルベースの音声符号器を用いて符号化される請求項30又は31記載の方法。
【請求項33】
上記復号されたオーディオ信号を発生するステップは、モデルベースの音声復号器を用いて上記符号化されたオーディオ信号を復号するステップを含む請求項32記載の方法。
【請求項34】
上記モデルベースの音声符号器は、高調波の正弦波音声符号器である請求項32又は33記載の方法。
【請求項35】
上記モデルベースの音声復号器は、高調波の正弦波音声復号器である請求項33又は34記載の方法。
【請求項36】
上記エンハンス信号は、上記復号されたオーディオ信号と比較して雑音のようである請求項30から35のうちのいずれか1つの請求項記載の方法。
【請求項37】
上記特徴抽出手段によって抽出される上記少なくとも1つの特徴は、上記復号されたオーディオ信号のエネルギーの包絡線である請求項30から36のうちのいずれか1つの請求項記載の方法。
【請求項38】
上記抽出するステップは、
上記復号されたオーディオ信号の絶対値を決定するステップと、
上記復号されたオーディオ信号の上記絶対値を畳み込んで、上記復号されたオーディオ信号の上記エネルギーの包絡線を決定するステップとを含む請求項37記載の方法。
【請求項39】
上記マッピングするステップは、
ガウス雑音信号を発生するステップと、
上記ガウス雑音信号と上記特徴とを乗算して、上記エンハンス信号を発生するステップとを含む請求項37又は38記載の方法。
【請求項40】
上記マッピングするステップはさらに、上記乗算器の出力をハイパスフィルタでフィルタリングするステップを含む請求項39記載の方法。
【請求項41】
上記混合するステップは、上記復号されたオーディオ信号におけるエネルギーと上記エンハンス信号におけるエネルギーとを整合するステップを含む請求項40記載の方法。
【請求項42】
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つについての情報を制御手段で受信するステップと、
上記情報を使用して、マッピングのタイプを選択するステップと、
上記マッピングするステップにおいて、上記マッピングのタイプを適用するステップとをさらに含む請求項30から41のうちのいずれか1つの請求項記載の方法。
【請求項43】
上記制御手段で混合器制御情報を生成するステップと、
上記混合するステップにおいて、上記混合器制御情報を利用するステップとをさらに含む請求項42記載の方法。
【請求項44】
上記混合器制御情報は、混合重みを備えた請求項43記載の方法。
【請求項45】
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから抽出された上記少なくとも1つの特徴は、フォルマントのロケーション、スペクトルの形状、基本周波数、正弦波の記述におけるそれぞれの高調波のロケーション、高調波の振幅及び位相、雑音モデル、及び時間及び/又は周波数における予期される雑音成分の知覚的な重要性の分布を記述するパラメータのうちの少なくとも1つを含む請求項30から36のうちのいずれか1つの請求項記載の方法。
【請求項46】
上記マッピングするステップは、隠れマルコフモデル、コードブックマッピング、ニューラルネットワーク、及びガウス混合モデルのうちの少なくとも1つを用いて、上記少なくとも1つの特徴をエンハンス信号にマッピングするステップを含む請求項30から36のうちのいずれか1つの請求項記載の方法。
【請求項47】
上記混合するステップは、
上記符号化されたオーディオ信号を受信するステップと、
上記符号化されたオーディオ信号から少なくとも1つの高調波のロケーションを決定するステップと、
上記少なくとも1つの高調波のロケーションに基づいて、上記エンハンス信号と上記復号されたオーディオ信号との混合を適合させるステップとを含む請求項30から46のうちのいずれか1つの請求項記載の方法。
【請求項48】
上記符号化されたオーディオ信号は、端末において通信ネットワークから受信される請求項30から47のうちのいずれか1つの請求項記載の方法。
【請求項49】
上記通信ネットワークは、ピアツーピア通信ネットワークである請求項48記載の方法。
【請求項50】
上記符号化されたオーディオ信号は、ボイスオーバーインターネットプロトコルのデータパケット内で受信される請求項30から49のうちのいずれか1つの請求項記載の方法。
【請求項51】
上記復号されたオーディオ信号を発生するステップはさらに、
上記符号化されたオーディオ信号からフレームが損失したことを決定するステップと、
それに応じて、上記符号化されたオーディオ信号の少なくとも1つの別のフレームから上記復号されたオーディオ信号を発生するステップとを含む請求項30記載の方法。
【請求項52】
上記発生するステップは、上記少なくとも1つの別のフレームから上記復号されたオーディオ信号を内挿するステップを含む請求項51記載の方法。
【請求項53】
上記発生するステップは、上記少なくとも1つの別のフレームから上記復号されたオーディオ信号を外挿するステップを含む請求項51記載の方法。
【請求項54】
上記復号されたオーディオ信号を発生するステップはさらに、
上記符号化されたオーディオ信号におけるパケット待ち時間のジッタを検出するステップと、
上記ジッタによる歪みが減少するように上記復号されたオーディオ信号を発生するステップとを含む請求項30記載の方法。
【請求項55】
上記発生するステップは、上記復号されたオーディオ信号を伸張して、上記歪みを補償するステップを含む請求項54記載の方法。
【請求項56】
上記発生するステップは、上記復号されたオーディオ信号にフレームを挿入して、上記歪みを補償するステップを含む請求項54記載の方法。
【請求項57】
上記方法は、上記符号化されたオーディオ信号から再生された上記信号の知覚される品質をエンハンスする請求項30から56のうちのいずれか1つの請求項記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公表番号】特表2010−521012(P2010−521012A)
【公表日】平成22年6月17日(2010.6.17)
【国際特許分類】
【出願番号】特願2009−553226(P2009−553226)
【出願日】平成19年12月20日(2007.12.20)
【国際出願番号】PCT/IB2007/004491
【国際公開番号】WO2008/110870
【国際公開日】平成20年9月18日(2008.9.18)
【出願人】(506016691)スカイプ・リミテッド (16)
【氏名又は名称原語表記】SKYPE LIMITED