説明

音声コーデックの品質向上装置およびその方法

【課題】音声コーデックの品質向上装置およびその方法が開示される。
【解決手段】低帯域(low−band)コーデックによってデコードされた信号の第1エネルギーを求め、低帯域音質向上モードによってデコードされた信号の第2エネルギーを求めた後、第1エネルギーがあらかじめ設定された第1しきい値よりも小さいか、または第1エネルギーが第2エネルギーにあらかじめ設定された第2しきい値を乗算した値よりも小さい場合、デコードされた信号の大きさをスケーリングすることにより無音区間の量子化誤差を減少させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声コーデックに関し、詳細には音声コーディング時に無音区間の量子化誤差による品質低下を減らすための装置およびその方法に関する。
【背景技術】
【0002】
音声信号を圧縮するモジュールをエンコーダ(encoder)といい、再生するモジュールをデコーダ(decoder)という。最も基本的な音声コーデックは、ITU−T G.711コーデックであって、入力信号を8kHzでサンプリングした後、8ビットで量子化する。このとき、量子化効率を上げるために数1のようにA−lawまたは数2のようにμ−law形態のログ量子化器を使用する。
【0003】
【数1】

【0004】
【数2】

【0005】
上記のような従来におけるログ量子化器は、入力信号の大きさにより量子化の間隔が異なる。例えば、大きさが小さい信号は相対的に量子化の間隔を大きくし、発生可能性が高い大きさの信号は量子化の間隔を狭くして量子化の効率を上げる。
【0006】
一般的に量子化雑音は、全周波数帯域にかけて均等に分布するものと知られている。しかし、人の聴覚的な特性によって信号の大きさが大きい区間にある量子化誤差は信号に埋もれてよく聞こえず、信号の大きさが小さい区間にある量子化誤差は雑音として聞こえる。したがって、音声区間のみならず無音区間を効率よくコーディングすることがコーデックの全体性能において重要な影響を及ぼす。すなわち、無音区間における量子化誤差による雑音が全体の音質に影響を与えるおそれがあるためである。
【0007】
また、コーデックは、入力信号の大きさに応じて性能が異なり得る。音声コーデックの性能を評価するときは主に大きさが異なる−16、−26、−36dBoVの信号に対して性能を評価する。すなわち、コーデックが入力信号の大きさの変化により性能がどのように変化するかを評価する。
【0008】
G.711やG.722のようなコーデックは、−36dBoVの入力信号に対して量子化誤差による雑音が発生するが、特に無音区間で発生する量子化誤差がコーデックの全体品質を低下させる1つの原因になる。主観的な聴取テストの結果によると、−36dBoV信号に対するMOS(Mean Opinion Score)の点数が−36dBOv信号に比べて高いことが観察される。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明が解決しようとする技術的な課題は、音声コーディング時に無音区間の量子化誤差による雑音を減らすことによって、人の耳に無音区間で雑音が聞こえないようにし、全体的な聴取品質を高めることができる音声コーデックの品質向上装置およびその方法を提供することにある。
【課題を解決するための手段】
【0010】
前述した技術的な課題を解決するための本発明に係る音声コーデックの品質向上装置の一実施形態は、低帯域コーデックによってデコードされた信号の第1エネルギーを求める第1エネルギー算出部と、前記第1エネルギーがあらかじめ設定された第1しきい値よりも小さい場合、前記デコードされた信号の大きさをスケーリングするスケーリング部と、を備える。
【0011】
前述した技術的な課題を解決するための本発明に係る音声コーデックの品質向上方法の一実施形態は、低帯域コーデックによってデコードされた信号の第1エネルギーを求めるステップと、前記第1エネルギーがあらかじめ設定された第1しきい値よりも小さい場合、前記デコードされた信号の大きさをスケーリングするステップと、を含む。
【発明の効果】
【0012】
本発明によれば、無音区間の量子化誤差によって発生する雑音を減らし、音声コーデックの品質を向上させることができる。特に、コーデックの入力信号のうち、信号の大きさが小さい場合、無音区間における量子化誤差を減らすことによって聴取品質を向上させることができる。
【図面の簡単な説明】
【0013】
【図1】狭帯域コーデック基盤の広帯域拡張コーデックの一実施形態を示した図である。
【図2A】G.711コーデックを利用するエンコーダの入力信号およびデコーダの出力信号に対するスペクトルを示した図である。
【図2B】G.711コーデックを利用するエンコーダの入力信号およびデコーダの出力信号に対するスペクトルを示した図である。
【図3】本発明に係る音声コーデックの品質向上装置の一実施形態の構成を示した図である。
【図4】本発明に係る音声コーデックの品質向上方法の一実施形態の流れを示した図である。
【図5A】本発明に係る音声コーデックの品質向上方法の適用有無による、G.711コーデックを利用するデコーダの出力信号に対するスペクトルを示した図である。
【図5B】本発明に係る音声コーデックの品質向上方法の適用有無による、G.711コーデックを利用するデコーダの出力信号に対するスペクトルを示した図である。
【発明を実施するための形態】
【0014】
以下、添付の図面を参照して本発明に係る音声コーデックの品質向上装置およびその方法に対して詳細に説明する。
【0015】
図1は、狭帯域コーデック基盤の広帯域拡張コーデックの一実施形態を示した図である。
【0016】
同図に示すように、広帯域拡張コーデックは、送信側100および受信側150に区分され、送信側100は、低帯域フィルタ(low−pass filter)105、高帯域フィルタ(high−pass filter)110、 低帯域コーデック(low−band codec)115、低帯域向上モード(low−band enhancement)120、広帯域拡張モード(wideband extension)125、およびMUX130を備え、受信側150は、DEMUX155、低帯域コーデック160、低帯域向上モード165、広帯域拡張モード170、低帯域フィルタ175、および高帯域フィルタ180を備える。
【0017】
送信側100に入力される広帯域入力信号は、低帯域フィルタ105および高帯域フィルタ110を介して各々低帯域信号および高帯域信号に分離され、低帯域信号は、低帯域コーデック115および低帯域向上モード120を介してコーディングされ、高帯域信号は、広帯域拡張モード125を介してコーディングされる。低帯域コーデック115、低帯域向上モード120および広帯域拡張モード125を介して各々コーディングされた信号はMUX130によってビットストリームとして出力される。
【0018】
ここで、低帯域向上モード120は、低帯域コーデック115において示していない低帯域信号をコーディングすることによって、狭帯域信号の品質を向上させる役割をする。
【0019】
一般的に、低帯域向上モード120は、低帯域コーデック115により動作するアルゴリズムを決定するが、大部分の時間領域において動作するアルゴリズムを使用し、広帯域拡張モードは周波数領域において動作するアルゴリズムを使用する。
【0020】
受信側150のDEMUX155は、送信側100から出力されたビットストリームを受信し、各々低帯域コーデック160、低帯域向上モード165、および広帯域拡張モード170に出力する。低帯域向上モード165および広帯域拡張モード170の動作の可否は、受信されたビットストリームにより決定される。
【0021】
受信側150は、広帯域拡張モード170の動作の有無に応じて広帯域信号を出力することができる。出力信号の帯域幅にかかわらず、低帯域コーデック160は基本的に動作する。もし、低帯域コーデック160のみが動作すれば基本的な狭帯域信号を再生することができる。より優れた品質の狭帯域信号を再生するためには低帯域コーデック160と共に低帯域向上モード165も動作しなければならない。また、広帯域信号を出力するためには低帯域コーデック160および広帯域拡張モード170が動作しなければならない。すなわち、受信側において、広帯域出力信号を再生するためには低帯域コーデック160および広帯域拡張モード170の出力信号を加えて出力する。もちろん、より優れた品質の広帯域信号を再生するためには、低帯域コーデック160、低帯域向上モード165の出力信号、および広帯域拡張モード170の出力信号を加えて出力すればよい。
【0022】
ITU−Tでは、図1に示された構成と類似したG.711を低帯域コーデックとして使用する広帯域拡張コーデックに対する標準化を進行している。すなわち、ITU−Tの推奨するG.711コーデック基盤の広帯域拡張コーデックは、低帯域コーデック115、160としてG.711を使用し、図1に示された構成で表現することができる。しかし、G.711コーデックは、−36dBoV信号の場合に量子化誤差による雑音が発生する。
【0023】
図2Aおよび図2Bは、G.711コーデックを利用するエンコーダの入力信号およびデコーダの出力信号に対するスペクトルを示した図である。図2Aは音声信号に対するスペクトルであり、図2Bは無音信号に対するスペクトルである。
【0024】
図2Aに示すように、音声信号に対して、エンコーダの入力信号200およびデコーダの出力信号210のスペクトルはほとんど一致する。しかし、図2Bに示すように、無音信号に対してエンコーダの入力信号230およびデコーダの出力信号220のスペクトルは不一致なことが分かる。すなわち、音声区間の場合、量子化誤差が小さい一方、無音区間では量子化誤差が大きいことが分かる。かかる量子化誤差は人の耳に雑音として聞こえる。
【0025】
図3は、本発明に係る音声コーデックの品質向上装置の一実施形態の構成を示した図である。
【0026】
同図に示すように、本発明に係る音声コーデックの品質向上装置は、第1エネルギー算出部300、第2エネルギー算出部310、およびスケーリング部320で構成される。
【0027】
第1エネルギー算出部300は、低帯域コーデックによってデコードされた信号のエネルギー(以下、低帯域コーデックのエネルギー)を求める。第1エネルギー算出部300は、フレーム単位で低帯域コーデックのエネルギーを求め、低帯域コーデックとしてG.711を使用する場合にフレームの大きさはG.711コーデックが使用される環境に応じて異なり得る。すなわち、第1エネルギー算出部300は、各サンプルに対するエネルギーをすべて合算して1フレームのエネルギーを求める。
【0028】
第2エネルギー算出部310は、低帯域向上モードが動作する場合、低帯域向上モードによってデコードされた信号のエネルギー(以下、向上モードのエネルギー)を求める。
【0029】
スケーリング部320は、低帯域コーデックのエネルギーが所定のしきい値THR1よりも小さい場合、低帯域コーデックによってデコードされた信号の大きさをスケーリングする。また、スケーリング部320は、低帯域コーデックのエネルギーが向上モードのエネルギーに所定のしきい値THR2を乗算した値よりも小さい場合、低帯域コーデックによってデコードされた信号の大きさをスケーリングする。スケーリング部320は、1よりも小さい定数(a)の分だけデコードされた信号の大きさをスケーリングすることが好ましい。また、他の例として、スケーリング部320は、現フレームのエネルギー(低帯域コーデックのエネルギーまたは向上モードのエネルギー)に以前フレームのエネルギー(低帯域コーデックのエネルギーまたは向上モードのエネルギー)を加えた値に比例する1よりも小さい利得(gain)をデコードされた信号に乗算してスケーリングすることによって、スケーリングによる急な変化を防止できる。
【0030】
この場合、スケーリング部320は、以前スケーリングの大きさを考慮してスケーリングの大きさを求めることができる。すなわち、スケーリング部320は、現フレームのエネルギーおよび以前フレームのエネルギーに基づいて求めた利得の一定比率と以前スケーリングの大きさの一定比率とを加えることによって、スケーリングの大きさを求めることができる。スケーリングはサンプル単位で行なうことはいうまでもない。
【0031】
スケーリング部320は、デコードされた信号のエネルギーの大部分が高帯域に存在する場合、スケーリングを行なわない場合もある。例えば、広帯域拡張モードによってデコードされた信号のエネルギーが低帯域コーデックのエネルギーまたは向上モードのエネルギーより、あらかじめ設定された一定の大きさ以上よりも大きい場合、スケーリング部320はスケーリングを行なわない。
【0032】
スケーリングのために使用されるしきい値THR1、THR2およびスケーリングの大きさ(a)などは実験によって求めることができ、このような値は本発明の実施形態によって多様に変更されて使用され得る。
【0033】
図4は、本発明に係る音声コーデックの品質向上方法の一実施形態に対する流れを示した図である。
【0034】
同図に示すように、本発明に係る音声コーデックの品質向上装置(以下、装置)は、低帯域コーデックによってデコードされた信号のエネルギー(以下、低帯域コーデックのエネルギー)をフレーム単位で算出するS400。フレームの大きさは、コーデックの種類およびコーデックが適用される環境に応じて多様に決定され得る。図1に示したように、狭帯域音声コーデックを利用した広帯域拡張コーデックに本発明を適用する場合、低帯域向上モードが存在し得る。したがって、装置は低帯域向上モードが動作中であるかを確認するS410。
【0035】
低帯域向上モードが動作中の場合S410、装置は低帯域向上モードによってデコードされた信号のエネルギー(以下、向上モードのエネルギー)を算出するS430。そして、装置は低帯域コーデックのエネルギーが向上モードのエネルギーに所定のしきい値THR1を乗算した値よりも小いか、または低帯域コーデックのエネルギーが所定のしきい値THR2よりも小さい場合S440、低帯域コーデックによってデコードされた信号の大きさをa(1よりも小さい定数)の分だけスケーリングするS450。
【0036】
低帯域向上モードが動作中でなければS410、装置は低帯域コーデックのエネルギーが所定のしきい値THR2よりも小さい場合S420、デコードされた信号をスケーリングするS450。スケーリングは、現フレームのエネルギー(低帯域コーデックのエネルギーまたは向上モードのエネルギー)に以前フレームのエネルギー(低帯域コーデックのエネルギーまたは向上モードのエネルギー)を加えた値に比例する1よりも小さい利得をデコードされた信号に乗算して行なうことによって、スケーリングによる急な変化を防止できる。この場合、現フレームのエネルギーおよび以前フレームのエネルギーに基づいて求めた利得の一定比率および以前スケーリングの大きさの一定比率を加えることによって、スケーリングの大きさを求めることができる。
【0037】
しきい値THR1、THR2およびスケーリングの大きさなどは、前述の説明のような実験によってあらかじめ求められた値である。
【0038】
図5Aおよび図5Bは、本発明に係る音声コーデックの品質向上方法の適用の有無によるG.711コーデックを利用するデコーダの出力信号に対するスペクトルを示した図である。図5Aは音声信号に対するスペクトルであり、図5Bは無音信号に対するスペクトルである。
【0039】
図5Aに示すように、音声信号に対して本発明に係る音声コーデックの品質向上方法が適用される前のデコーダ出力信号500と、本発明に係る方法が適用された場合のデコーダ出力信号510とのスペクトルは一致する。
【0040】
図5Bに示すように、無音信号に対して本発明に係る音声コーデックの品質向上方法が適用される前のデコーダ出力信号520よりも、本発明に係る方法が適用された場合のデコーダ出力信号530の大きさが小さくなることが分かる。すなわち、無音区間においてデコーダの出力信号レベルが低くなり、量子化誤差が減少することが分かる。
【0041】
本発明は、コンピュータで読出し可能な記録媒体にコンピュータが読出し可能なコードとして具現することも可能である。コンピュータが読出し可能な記録媒体は、コンピュータシステムによって読出し可能なデータが保存されるすべての種類の記録装置を含む。コンピュータが読出し可能な記録媒体の一例として、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データの保存装置などがあり、また、キャリアウェーブ(例えばインターネットを介した伝送)による表示の形態で具現されるものも含む。また、コンピュータが読出し可能な記録媒体は、ネットワークに接続したコンピュータシステムに分散され、分散方式によりコンピュータが読出し可能なコードが保存かつ実行されることができる。
【0042】
以上、本発明に係る好ましい実施形態を主に説明した。本発明が属する技術分野における通常の知識を有する者は、本発明が本発明の本質的な特性から離脱しない範囲内で変形された形態で具現され得ることを理解すべきである。したがって、開示された実施形態は限定的な観点でなく、説明的な観点で考慮すべきである。本発明の範囲は、前述した説明でなく、特許請求の範囲に示されており、それと同等な範囲内にあるすべての差異点は本発明に含まれていると解釈すべきであろう。

【特許請求の範囲】
【請求項1】
低帯域(low−band)コーデック及び広帯域拡張モードを含む音声コーデックの品質向上装置であって、
前記低帯域コーデックによってデコードされた信号のエネルギーを求めるエネルギー算出部と、
前記エネルギー算出部により求められたエネルギーが所定のしきい値以下である場合、前記デコードされた信号の大きさを1よりも小さい利得でスケーリングするスケーリング部と、
を備え、
前記利得は、少なくとも、
前記デコードされた信号の以前フレームのエネルギーと現フレームのエネルギーとに基づいた特定利得に予め設定された比率を乗算した値と、
以前利得に予め設定された比率を乗算した値とを加算して算出されることを特徴とする音声コーデックの品質向上装置。
【請求項2】
前記スケーリング部は、
前記デコードされた信号の大きさに対してサンプル単位でスケーリングを行なうことを特徴とする請求項1に記載の音声コーデックの品質向上装置。
【請求項3】
前記スケーリング部は、
前記広帯域拡張モードによってデコードされた信号のエネルギーが前記低帯域コーデックによってデコードされた信号のエネルギーより予め設定された所定大きさ以上に大きい場合、スケーリングを行なわないことを特徴とする請求項1に記載の音声コーデックの品質向上装置。
【請求項4】
前記エネルギー算出部は、
フレーム単位で前記エネルギーを算出することを特徴とする請求項1に記載の音声コーデックの品質向上装置。
【請求項5】
前記スケーリング部は、
高帯域と低帯域とにおけるエネルギーの比率に基づいてスケーリング可否を決定することを特徴とする請求項1に記載の音声コーデックの品質向上装置。
【請求項6】
低帯域(low−band)コーデック及び広帯域拡張モードを含む音声コーデックの品質向上方法であって、
前記低帯域コーデックによってデコードされた信号のエネルギーを求めるステップと、
前記求められたエネルギーが所定のしきい値以下である場合、前記デコードされた信号の大きさを1よりも小さい利得でスケーリングするステップと、
を含み、
前記利得は、少なくとも、
前記デコードされた信号の以前フレームのエネルギーと現フレームのエネルギーとに基づいた特定利得に予め設定された比率を乗算した値と、
以前利得に予め設定された比率を乗算した値とを加算して算出されることを特徴とする音声コーデックの品質向上方法。
【請求項7】
前記デコードされた信号の大きさを1よりも小さい利得でスケーリングするステップは、
前記デコードされた信号の大きさに対してサンプル単位でスケーリングを行なうステップを含むことを特徴とする請求項6に記載の音声コーデックの品質向上方法。
【請求項8】
前記デコードされた信号の大きさを1よりも小さい利得でスケーリングするステップは、
前記広帯域拡張モードによってデコードされた信号のエネルギーが前記低帯域コーデックによってデコードされた信号のエネルギーより予め設定された所定大きさ以上に大きい場合、スケーリングを行なわないステップを含むことを特徴とする請求項6に記載の音声コーデックの品質向上方法。
【請求項9】
前記低帯域コーデックによってデコードされた信号のエネルギーを求めるステップは、
フレーム単位で前記エネルギーを算出するステップを含むことを特徴とする請求項6に記載の音声コーデックの品質向上方法。
【請求項10】
前記デコードされた信号の大きさを1よりも小さい利得でスケーリングするステップは、
高帯域と低帯域とにおけるエネルギーの比率に基づいてスケーリング可否を決定するステップを含むことを特徴とする請求項6に記載の音声コーデックの品質向上方法。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate


【公開番号】特開2013−84002(P2013−84002A)
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【出願番号】特願2012−278582(P2012−278582)
【出願日】平成24年12月20日(2012.12.20)
【分割の表示】特願2010−536838(P2010−536838)の分割
【原出願日】平成20年11月28日(2008.11.28)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(596180076)韓國電子通信研究院 (733)
【氏名又は名称原語表記】Electronics and Telecommunications Research Institute
【住所又は居所原語表記】161 Kajong−dong, Yusong−gu, Taejon korea
【Fターム(参考)】