説明

通信網を介して加入者端末機に送信されるオーディオ信号の出力品質改善のためのオーディオ信号の処理方法およびこの方法を採用したオーディオ信号処理装置

【課題】通信網を介して加入者端末機に送信されるオーディオ信号の出力改善のためのオーディオ信号の処理方法およびこの方法を採用したオーディオ信号処理装置を提供する。
【解決手段】本発明は、通信網を介して加入者端末機に送信されるオーディオ信号を処理してオーディオ信号を符号化するコーデックモジュールでオーディオ信号を音声信号として判断できるようにすることで、加入者端末機に送信されるオーディオ信号の音質低下を防ぐオーディオ信号の処理方法およびこの方法を採用したオーディオ信号処理装置に関する。本発明によれば、通信網を介して送信されるオーディオ信号を音声コーデックを用いて前処理することで、通信網を介して該当するオーディオ信号が送信されるときに、コーデックモジュールで該当するオーディオ信号を音声として判断する確率を高めることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信網を介して加入者端末機に送信されるオーディオ信号の出力改善のためのオーディオ信号の処理方法およびこの方法を採用したオーディオ信号処理(pre−processing)装置に関し、より詳細には、通信網を介して加入者端末機に送信されるオーディオ信号を処理し、オーディオ信号を符号化するコーデックモジュールでオーディオ信号を音声信号として判断できるようにすることで、加入者端末機に送信されるオーディオ信号の音質低下を防ぐオーディオ信号の処理方法およびこの方法を採用したオーディオ信号処理装置に関する。
【背景技術】
【0002】
通信端末機で提供するマルチメディアサービスの1つであるリングバックトーン(RBT:ring back tone)代替音提供サービスは、発信端末機から加入者端末機に呼連結(call connection)を要請したり加入者端末機から呼連結を要請したりする場合に、加入者端末機のユーザから所定の(predetermined)オーディオ信号を通信網を介して発信端末機に送信するサービスである。一例として、上述したリングバックトーン代替音提供サービスは、加入者端末機から着信端末機に呼連結を要請した場合には、着信端末機の第2ユーザがフックオフ(hook off)などの着信応答をする前まで、加入者端末機にオーディオ信号「愛しています」を加入者端末機に送信し、発信端末機から加入者端末機に呼連結を要請した場合には、加入者端末機のユーザがフックオフなどの着信応答をする前まで、発信端末機にオーディオ信号「愛しています」を送信する方式で動作する。
【0003】
一般的に、通信網では、発信者端末機または着信者端末機(加入者端末機)に送信されるオーディオ信号をオーディオ信号専用コーデックを用いて符号化するのではなく、線形予測符号化(LPC:Linear Predictive Coding)系列の音声コーデックを用いて符号化する。しかしながら、オーディオ信号をLPC系列の音声コーデックで符号化する場合に、発信端末機または加入者端末機で再生されるオーディオ信号は、下記のような理由によって原本オーディオ信号に比べて歪曲したり、オーディオ信号の再生中に快適雑音(comfort noise)が再生したりする場合が発生する。
【0004】
移動電話網に用いられる音声チャンネルの帯域幅は、64kbpsである有線電話に比べて極めて狭いため、音声信号を低送信率(low−bitrate)音声コーデックで圧縮して送信する。移動電話網に用いられる大部分の音声コーデックは、LPC基盤の圧縮方式である。LPC系列の音声圧縮方法は、ユーザの発声構造に最適化したモデルを用いており、ユーザの音声信号を中/低送信率に圧縮するのに極めて効率的であると言えるが、このようなLPC系列の音声コーデックでオーディオ信号を圧縮する場合には、音質が低下するという問題が発生する場合がある。この理由は下記のとおりである。
【0005】
(1)LPC系列の音声コーデックが音声圧縮のために抽出する最も重要なパラメータであるフォルマント(formant)周波数とピッチ(pitch)周期がオーディオ信号からは適切に抽出されない場合がある。ピッチは、音声基本周波数(fundamental frequency:基本周期の逆数)に該当するパラメータであって、声帯の周期的な振動によって生成され、音声信号に存在するピッチの場合には約50〜500Hzに存在するが、オーディオ信号の場合にはこれよりもさらに広い周波数領域でピッチが存在する場合もある。さらに、音声信号にはピッチが1つだけ存在するが、オーディオ信号にはピッチが複数存在することができる。
【0006】
(2)オーディオ信号のスペクトラムが音声信号のスペクトラムに比べて極めて複雑であるためである。スペクトラムが単純な音声信号の場合には、パラメータ抽出後に残った残余信号をコードブック(codebook)で相対的に忠実にモデリングすることができるが、オーディオ信号の場合はそうではない。
【0007】
(3)LPC系列の音声コーデックでVAD(Voice Activity Detection)およびDTX(Discontinuous Transmission)の使用がこの理由となりうる。ユーザが端末機を介して通話をする場合に、実際に音声信号が行き来する時間は統計的に全体通過時間の50%を越えないため、音声信号が含まれていない区間では音声信号を送信しないようにDTXを用いる。これにより、加入者端末機では電力消耗を減らすことができる上に、エアインターフェイス(air interface)で全体干渉(interference)レベルを減らすことができ、周波数効率を向上させることができる。DTXは、VADによって動作の可否が決定される。
【0008】
VADとDTXの動作を説明すれば、VADは、音声コーデックから抽出されたオーディオ信号に対する1つ以上のパラメータを分析し、1つ以上のパラメータに対して音声区間であるか無声区間であるかを判断し、1)判断結果、音声区間である場合には、DTXで抽出された1つ以上のパラメータを受信側復号化器に送信し、加入者端末機でパラメータに基づいてオーディオ信号を再生する。
【0009】
また、2)判断結果、オーディオ信号が無声区間である場合には、DTXで最小限のパラメータを生成して受信側復号化器に送信し、加入者端末機でパラメータによる快適雑音を再生する。このように、音声コーデックで正常なオーディオ信号を無声区間であると判断する場合に、加入者端末機ではリングバックトーン区間に送信されるオーディオ信号を快適雑音として再生することが発生する場合がある。実際に、多数の移動通信事業者が上述したリングバックトーン代替音提供サービスを行っているが、このようなリングバックトーン代替音再生区間において、音質の劣化によって該当するオーディオ信号が聞こえなかったり大きく歪曲したりして加入者端末機に送信される場合が多い。
【0010】
VADがオーディオ信号を音声信号でないと判断し、受信側で途切れ現象が発生したりオーディオ信号の代わりに快適雑音で再生したりすることを防ぐために、1)基地局と端末機のコーデックを変更する方法、2)オーディオ信号をデータ網を介して送信する方法があり得る。しかしながら、上述した2つの場合は、現在構築されている多くのシステムに変更を招来するようになり、これによる費用の問題が発生する。
【0011】
したがって、上述した例のように、通信網を介して加入者端末機にリングバックトーン代替音を送る場合は勿論、通信網を介して所定のオーディオ信号を送信するすべての応用例において、通信網の音声コーデックで特定オーディオ信号に対する符号化を実行するときに、無声区間として判断する区間を音声区間として判断できるようにする方法が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明は、上述した従来技術の問題点を解決するために案出されたものであって、通信網を介して加入者端末機にリングバックトーン代替音などのオーディオ信号を送信する場合に、通信網の音声コーデックでオーディオ信号のフレームを音声区間として判断する確率を高めることで、加入者端末機に送信されるオーディオ信号の音質を向上させることを目的とする。
【0013】
また、本発明は、通信網を介して加入者端末機にリングバックトーン代替音などのオーディオ信号を送信する場合に、通信網の音声コーデックで無声区間として判断しないようにオーディオ信号を前処理(pre−processing)することで、より良い音質のリングバックトーン代替音を提供することを他の目的とする。
【課題を解決するための手段】
【0014】
上記の目的を達成し、上述した従来技術の問題点を解決するために、本発明の一実施形態に係る通信網を介して加入者端末機に送信されるオーディオ信号の処理方法は、前記オーディオ信号を音声コーデックを用いて符号化するステップと、前記符号化されたオーディオ信号を前記音声コーデックを用いて復号化するステップとを含み、前記復号化されたオーディオ信号を前記通信網を介して前記加入者端末機に送信するコーデック(CODEC)モジュールでは、前記オーディオ信号に含まれた1つ以上のフレームに対して音声区間であるか無声区間であるかを判断するステップと、前記判断結果に応じて前記フレームに対する1つ以上のパラメータを前記加入者端末機に送信するステップとが実行されることを特徴とする。
【0015】
本発明の一実施形態に係る通信網を介して加入者端末機に送信されるオーディオ信号の処理装置は、前記オーディオ信号を符号化し、前記符号化されたオーディオ信号を再び復号化する音声コーデックを備え、前記復号化されたオーディオ信号を前記通信網を介して前記加入者端末機に送信するコーデックモジュールは、前記オーディオ信号に含まれた1つ以上のフレームに対して音声区間であるか無声区間であるかを判断するVAD部と、前記判断結果に応じて前記フレームに対する1つ以上のパラメータを前記加入者端末機に送信するDTX部とを備えることを特徴とする。
【0016】
本発明の他の実施形態に係る通信網を介して加入者端末機に送信されるオーディオ信号の処理方法は、前記オーディオ信号を1つ以上のチャンネルに分離するステップと、前記チャンネルそれぞれに対するチャンネルエネルギーを測定し、前記チャンネルエネルギーのうちから特定チャンネルエネルギーを選択するステップと、前記特定チャンネルエネルギーを増幅するステップとを含むことを特徴とする。
【0017】
また、本発明のさらに他の実施形態に係る通信網を介して加入者端末機に送信されるオーディオ信号の処理方法は、前記オーディオ信号を1つ以上のチャンネルに分離するステップと、前記チャンネルそれぞれに対するチャンネルエネルギーを測定し、前記チャンネルエネルギーのうちから特定チャンネルエネルギーを選択するステップと、前記特定チャンネルエネルギーを有するチャンネル以外のチャンネルエネルギーを減少させるステップとを含むことを特徴とする。
【図面の簡単な説明】
【0018】
【図1】本発明の一実施形態に係るオーディオ信号の出力改善のためのオーディオ信号の処理方法を説明するためのフローチャートである。
【図2】本発明の一実施形態に係るDTXの動作方法を説明するためのフローチャートである。
【図3】本発明の一実施形態に係るオーディオ信号処理装置の内部構成を示すブロック図である。
【図4】本発明の他の実施形態に係るオーディオ信号の出力改善のためのオーディオ信号の処理方法を説明するためのフローチャートである。
【図5】本発明のさらに他の実施形態に係るオーディオ信号の出力改善のためのオーディオ信号の処理方法を説明するためのフローチャートである。
【図6】本発明の他の実施形態に係るオーディオ信号処理装置の内部構成を示すブロック図である。
【図7】本発明のさらに他の実施形態に係るオーディオ信号処理装置の内部構成を示すブロック図である。
【発明を実施するための形態】
【0019】
以下、添付の図面を参照しながら、本発明に係る通信網を介して加入者端末機に送信されるオーディオ信号の出力改善のためのオーディオ信号の処理方法およびこの方法を採用したオーディオ信号処理装置について詳しく説明する。
【0020】
参考までに、本明細書で用いられる端末機は、コンピュータ端末機、PSTN(Public Switched Telephone Network)端末機、VoIP、SIP(Session Initiation Protocol)、Megaco、PDA(Personal Digital Assistant)、セルラーフォン、PCS(Personal Communication Service)フォン、ハンドヘルドPC(Hand−Held PC)、CDMA−2000(1X、3X)フォン、WCDMA(Wideband CDMA)フォン、デュアルバンド/デュアルモード(Dual Band/Dual Mode)フォン、GSM(Global Standard for Mobile)フォン、MBS(Mobile Broadband System)フォン、または衛星/地上波DMB(Digital Multimedia Broadcasting)フォンのうちのいずれか1つであることができる。
【0021】
図1は、本発明の一実施形態に係るオーディオ信号の出力改善のためのオーディオ信号の処理方法を説明するためのフローチャートである。
【0022】
まず、ステップ101で、オーディオ信号処理装置は、オーディオ信号を音声コーデックを用いて第1符号化信号に符号化(coding)する。本発明の一実施形態によれば、オーディオ信号処理装置は、音声コーデックを用いてオーディオ信号に対する1つ以上のパラメータを抽出し、抽出された1つ以上のパラメータを含む第1符号化信号に符号化することができる。音声コーデックは、VADおよびDTXを含まないことが好ましい。
【0023】
ステップ102で、オーディオ信号処理装置は、第1符号化信号を音声コーデックを用いて第1オーディオ信号に復号化(decoding)する。本発明の一実施形態によれば、オーディオ信号処理装置は、音声コーデックを用いて1つ以上のパラメータを含む第1符号化信号を第1オーディオ信号に復号化することができる。
【0024】
本発明によれば、ステップ101〜ステップ102の前処理過程を介して音声コーデックを用いてオーディオ信号から抽出した1つ以上のパラメータは、音声信号と類似した特性を有することができる。
【0025】
ステップ103で、第1オーディオ信号を符号化して加入者端末機に送信するコーデックモジュールは、VADを用いて入力される第1オーディオ信号に含まれた1つ以上のフレームに対して音声区間であるか無声区間であるかを判断する。VADは、コーデックモジュールから抽出された1つ以上のパラメータに基づいて音声区間または前記無声区間を判断することができる。
【0026】
本発明の一実施形態によれば、コーデックモジュールは、AMR VAD OPTION 1またはAMR VAD OPTION 2のうちのいずれか1つを用いることができる。
【0027】
ステップ104で、コーデックモジュールは、判断結果を参照して、DTXで所定のロジックに応じてフレームに対する1つ以上のパラメータを加入者端末機に送信する。
【0028】
図2は、本発明の一実施形態に係るDTXの動作方法の一例を説明するためのフローチャートである。
【0029】
ステップ201で、コーデックモジュールは、VADを用いて入力される第1オーディオ信号に含まれた1つ以上のフレームに対して音声区間であるか無声区間であるかを判断する。
【0030】
VADでフレームが音声区間であると判断する場合(ステップ202)、ステップ202で、DTXは、フレームに対してコーデックモジュールから抽出したパラメータを加入者端末機に送信する。すなわち、加入者端末機は、抽出したパラメータによるオーディオ信号を再生することができる。
【0031】
VADで、フレームが無声区間であると判断する場合(ステップ202)、ステップ204で、DTXは、フレームに対する最小パラメータを生成して加入者端末機に送信する。すなわち、加入者端末機は、最小パラメータによる快適雑音を出力することができる。
【0032】
図3は、本発明の一実施形態に係るオーディオ信号処理装置の内部構成を示すブロック図である。
【0033】
図3に示すように、オーディオ信号処理装置300は、オーディオ信号符号化部301と、オーディオ信号復号化部302とを備える。
【0034】
オーディオ信号符号化部301は、オーディオ信号を音声コーデックを用いて第1符号化信号に符号化する。本発明の一実施形態によれば、オーディオ信号符号化部301は、音声コーデックを用いてオーディオ信号に対する1つ以上のパラメータを抽出し、抽出された1つ以上のパラメータを含む第1符号化信号に符号化することができる。
【0035】
オーディオ信号復号化部302は、第1符号化信号を音声コーデックを用いて第1オーディオ信号に復号化する。本発明の一実施形態によれば、オーディオ信号復号化部302は、音声コーデックを用いて1つ以上のパラメータを含む第1符号化信号を第1オーディオ信号に復号化することができる。
【0036】
第1オーディオ信号を符号化して加入者端末機に送信するコーデックモジュール350は、VAD351と、DTX352とを備える。本発明によれば、コーデックモジュール350は、AMR VAD OPTION 1またはAMR VAD OPTION 2のうちのいずれか1つを用いることができる。
【0037】
VAD351は、入力される第1オーディオ信号に含まれた1つ以上のフレームに対して音声区間であるか無声区間であるかを判断する。
【0038】
DTX352は、判断結果を参照して、所定のロジックに応じてフレームに対する1つ以上のパラメータを加入者端末機に送信する。
【0039】
本発明の一実施形態によれば、VAD351でフレームが音声区間であると判断する場合に、DTX352は、フレームに対してコーデックモジュールから抽出したパラメータを加入者端末機に送信し、VAD351でフレームが無声区間であると判断する場合に、DTX352でフレームに対する最小パラメータを生成して加入者端末機に送信する。
【0040】
図4は、本発明の他の実施形態に係るオーディオ信号の出力改善のためのオーディオ信号の処理方法を説明するためのフローチャートである。
【0041】
図4に示すように、本発明に他の実施形態に係るオーディオ信号の処理方法は、(1)オーディオ信号に対する前処理過程と、(2)前処理されたオーディオ信号に対する符号化過程とに大別することができる。このような前処理過程は、後述するステップ401〜ステップ404で構成することができ、前処理が完了したオーディオ信号に対する符号化過程は、後述するステップ405〜ステップ408で構成することができる。
【0042】
まず、ステップ401で、オーディオ信号処理装置は、オーディオ信号に対する周波数分析を介してオーディオ信号を1つ以上のチャンネルに分離する。
【0043】
本発明の他の実施形態によれば、オーディオ信号処理装置は、FFT(Fast Fourier Transform)アルゴリズムを用いてオーディオ信号を周波数別に1つ以上のチャンネルに分離することができる。一例として、オーディオ信号処理装置は、オーディオ信号をFFTアルゴリズムを用いて「16個」のチャンネルに分離することができる。
【0044】
ステップ402で、オーディオ信号処理装置は、チャンネルそれぞれに対する第1チャンネルエネルギーを測定する。
【0045】
ステップ403で、オーディオ信号処理装置は、測定された1つ以上の第1チャンネルエネルギーのうちから特定チャンネルエネルギーを選択する。一例として、エネルギーが最大であるチャンネルを特定チャンネルとして選択することができる。
【0046】
ステップ404で、オーディオ信号処理装置は、選択された特定チャンネルエネルギーに所定の増幅係数を乗算して特定チャンネルエネルギーを増幅する。
【0047】
本発明によれば、オーディオ信号処理装置で特定チャンネルエネルギーを増幅する場合に、後述するように、チャンネルに対する信号対雑音比を増加させることで、コーデックモジュールでオーディオ信号を音声信号として判断する確率を高めることができる。
【0048】
本発明の他の実施形態によれば、オーディオ信号処理装置は、チャンネルそれぞれに対する第1背景雑音を推定し、前記推定された第1背景雑音に応じて選択的に特定チャンネルエネルギーに所定の増幅係数を乗算して特定チャンネルエネルギーを増幅することができる。一例として、推定された第1背景雑音が所定の基準値以下である場合には特定チャンネルエネルギーを増幅せず、第1背景雑音が前記基準値を超える場合には特定チャンネルエネルギーを増幅することができる。
【0049】
上述したステップ401〜ステップ404を経たオーディオ信号は、本発明に係るコーデックモジュールに入力され、通信網を介して送信されるために符号化されることができる。このような符号化過程は、後述するステップ405〜ステップ408で構成することができる。
【0050】
ステップ405で、オーディオ信号を符号化するコーデックモジュールは、第1特定チャンネルエネルギーが増幅されたオーディオ信号に対して、チャンネルそれぞれに対する第2チャンネルエネルギーを測定し、チャンネルそれぞれに対する第2背景雑音を推定(estimation)する。すなわち、第1チャンネルエネルギーは、オーディオ信号に対する前処理過程で測定されたチャンネルエネルギーであり、第2チャンネルエネルギーは、オーディオ信号に対する前処理以後のそれぞれのチャンネルに対するチャンネルエネルギーである。
【0051】
さらに、第2背景雑音は、下記の数式1のように推定することができる。
【0052】
【数1】

【0053】
ch(m,i)はフレームmでi番目のチャンネルであり、En(m,i)はフレームmでi
番目のチャンネルの背景雑音であり、Ncはチャンネルの個数である。
【0054】
本発明の他の実施形態によれば、コーデックモジュールは、AMR VAD OPTION 2を用いることができる。
【0055】
本発明のさらに他の実施形態によれば、コーデックモジュールは、測定された1つ以上の第2チャンネルエネルギーのうち、第2特定チャンネルエネルギーと1つ以上の第2チャンネルエネルギーの平均値とを比べ、第2特定チャンネルエネルギーが平均値よりも大きい場合には、オーディオ信号を正弦波として判断することができる。当業者であれば周知のように、所定の信号が正弦波として判断されるということは、該当する信号が特定周波数成分が強い信号であると解釈することができ、このような信号は、音声信号として判断される可能性が高い信号であることを意味する。
【0056】
第2特定チャンネルエネルギーを算出するために、下記の数式2を用いることができる。
【0057】
【数2】

【0058】
ch(m,i)はフレームmでi番目のチャンネルエネルギーであり、Ncはチャンネル係数であり、
【数3】


は第2チャンネルエネルギーの平均値である。
【0059】
数式1を参照すれば、オーディオ信号処理装置で第1特定チャンネルエネルギーを増幅する場合に、第1特定チャンネルエネルギーを有するチャンネルの背景雑音も共に増幅される。本発明によれば、上述したステップ401〜ステップ404を経て前処理されたオーディオ信号の場合には、すでに特定チャンネルエネルギーを有するチャンネルのエネルギーが増幅された状態であるため、コーデックモジュールでは、数式2を参照して算出した第2特定チャンネルエネルギーおよび他のチャンネルのチャンネルエネルギー平均値を比較し、前処理されたオーディオ信号を正弦波として判断する確率が高まる。
【0060】
上記した数式1を参照すれば、チャンネル全体に対する平均チャンネルエネルギーに比べて特定チャンネルのチャンネルエネルギーが相当に大きい場合にはΦ(m)は大きくなり、平均チャンネルエネルギーに比べて特定チャンネルのチャンネルエネルギーが相当に大きくない場合にはΦ(m)は小さくなる。一例として、AMR VAD OPTION2では、Φ(m)が10よりも大きい場合には該当するオーディオ信号を正弦波であると仮定し、正弦波が検出された場合にはAMR VAD OPTION 2は背景雑音を増幅させない。
【0061】
すなわち、特定チャンネルのチャンネルエネルギーを増幅させることで、全体チャンネルの信号対雑音比を大きくし、背景雑音が更新されないようにすることができる。また、相対的に特定チャンネルエネルギーを有するチャンネルエネルギーに対してのみ増幅が実行されるため、前処理されたオーディオ信号に対する第2チャンネルエネルギーおよび第2背景雑音を用いて測定される全体チャンネルの信号対雑音比を改善させることができる。
【0062】
ステップ406で、コーデックモジュールは、チャンネルそれぞれに対する第2チャンネルエネルギーおよび第2背景雑音を用いて、チャンネルそれぞれに対する信号対雑音比(SNR:signal−to−noise ratio)を測定する。信号対雑音比は、数式3のように測定することができる。
【0063】
【数4】

【0064】
ch(m,i)はフレームmでi番目チャンネルのチャンネルエネルギーであり、En(m,i)はフレームmでi番目チャンネルの背景雑音であり、Ncはチャンネルの個数である。
【0065】
ステップ407で、コーデックモジュールは、測定されたチャンネルそれぞれに対する信号対雑音比に基づいて音声距離を算出する。本発明によれば、音声距離は、チャンネルそれぞれに対する信号対雑音比を合算して算出することができる。
【0066】
ステップ408で、コーデックモジュールは、音声距離が所定の閾値以上である場合に、オーディオ信号を音声信号として判断してオーディオ信号を符号化する。
【0067】
本発明によれば、チャンネルそれぞれに対して合算された信号対雑音比、すなわち音声距離は、前処理過程で増幅された第1特定チャンネルエネルギーによって前処理以前のオーディオ信号に対する音声距離よりも増加した音声距離を有するようになることで、コーデックモジュールでオーディオ信号を音声信号として判断する確率を高めることができる。
【0068】
閾値は、チャンネルそれぞれに対する信号対雑音比に基づいて長期尖頭信号対雑音比を測定し、測定された長期尖頭信号対雑音比に応じて閾値を決定することができる。すなわち、閾値は、測定された長期尖頭信号対雑音比と反比例関係を保持し、長期尖頭信号対雑音比が所定の基準値よりも大きい場合には、選定された第1閾値として決定し、長期尖頭信号対雑音比が所定の基準値よりも小さい場合には、選定された第2閾値として決定することができる。第1閾値は、第2閾値よりも小さい。
【0069】
図5は、本発明のさらに他の実施形態に係るオーディオ信号の出力改善のためのオーディオ信号の処理方法を説明するためのフローチャートである。
【0070】
ステップ501〜503およびステップ505〜508は、図4で示すステップ401〜403およびステップ406〜408と同じであるため、これに該当する図示は省略し、ステップ504およびステップ505のみを示す。
【0071】
ステップ504で、オーディオ信号処理装置は、選定された特定チャンネルエネルギーを有するチャンネル以外のチャンネルエネルギーに所定の増幅係数を乗算してチャンネルエネルギーを減少させる。すなわち、オーディオ信号処理装置で選択された特定チャンネルエネルギーを有するチャンネル以外のチャンネルエネルギーに増幅係数を乗算してチャンネルエネルギーを減少させる場合に、特定チャンネルエネルギーを除いたチャンネルエネルギーが減少するため、相対的に特定チャンネルエネルギーが増加するようになる。
【0072】
ステップ505で、オーディオ信号を符号化するコーデックモジュールは、特定チャンネルエネルギーを有するチャンネル以外のチャンネルのチャンネルエネルギーが減少したオーディオ信号に対して、チャンネルそれぞれに対する第2チャンネルエネルギーを測定し、チャンネルそれぞれに対する第2背景雑音を推定する。また、第2背景雑音は、上記の数式1のように推定することができる。
【0073】
図6は、本発明の他の実施形態に係るオーディオ信号処理装置の内部構成を示すブロック図である。
【0074】
図6で示すように、オーディオ信号処理装置600は、チャンネル分離部601と、チャンネル測定部602と、チャンネルエネルギー増幅部603とを備える。
【0075】
チャンネル分離部601は、オーディオ信号に対する周波数分析を介してオーディオ信号を1つ以上のチャンネルに分離する。本発明の一実施形態によれば、チャンネル分離部601は、FFTアルゴリズムを用いてオーディオ信号に対する周波数を分析し、分析によってオーディオ信号を1つ以上のチャンネルに分離することができる。
【0076】
チャンネル測定部602は、チャンネルそれぞれに対する第1チャンネルエネルギーを測定する。
【0077】
チャンネルエネルギー増幅部603は、測定された1つ以上の第1チャンネルエネルギーのうちから特定チャンネルエネルギーを選択し、特定チャンネルエネルギーに所定の増幅係数を乗算して特定チャンネルエネルギーを増幅する。
【0078】
オーディオ信号を符号化するコーデックモジュール650は、背景雑音推定部651と、信号対雑音比測定部652と、正弦波判断部653と、オーディオ信号符号化部654とを備える。
【0079】
背景雑音推定部651は、特定チャンネルエネルギーが増幅したオーディオ信号に対して、チャンネルそれぞれに対する第2チャンネルエネルギーを測定し、チャンネルそれぞれに対する第2背景雑音を推定する。本発明によれば、コーデックモジュール650は、AMR VAD OPTION 2を用いることができる。
【0080】
信号対雑音比測定部652は、チャンネルそれぞれに対する第2チャンネルエネルギーおよび第2背景雑音を用いてチャンネルそれぞれに対する信号対雑音比を測定する。本発明によれば、信号対雑音比測定部652は、正弦波判断部653を備え、正弦波判断部653は、測定された1つ以上の第2チャンネルエネルギーのうち、第2特定チャンネルエネルギーと1つ以上の第2チャンネルエネルギーの平均値とを比べ、第2特定チャンネルエネルギーが前記平均値よりも大きい場合にはオーディオ信号を正弦波として判断する。
【0081】
オーディオ信号符号化部654は、測定されたチャンネルそれぞれに対する信号対雑音比に基づいて音声距離を算出し、音声距離が所定の閾値以上である場合に、オーディオ信号を音声信号として判断してオーディオ信号を符号化する。
【0082】
また、本発明によれば、オーディオ信号符号化部654は、チャンネルそれぞれに対する信号対雑音比を合算して音声距離を算出することができる。
【0083】
また、本発明の他の実施形態によれば、閾値は、チャンネルそれぞれに対する信号対雑音比に基づいて長期尖頭信号対雑音比を測定し、測定された長期尖頭信号対雑音比に応じて閾値を決定することができる。
【0084】
図7は、本発明のさらに他の実施形態に係るオーディオ信号処理装置の内部構成を示すブロック図である。
【0085】
図7で示すように、オーディオ信号処理装置700は、チャンネル分離部701と、チャンネル測定部702と、チャンネルエネルギー減少部703とを備える。
【0086】
チャンネル分離部701は、オーディオ信号に対する周波数分析を介してオーディオ信号を1つ以上のチャンネルに分離する。本発明に一実施形態によれば、チャンネル分離部701は、FFTアルゴリズムを用いてオーディオ信号に対する周波数分析し、分析によってオーディオ信号を1つ以上のチャンネルに分離することができる。
【0087】
チャンネル測定部702は、チャンネルそれぞれに対する第1チャンネルエネルギーを測定する。
【0088】
チャンネルエネルギー減少部703は、測定された1つ以上の第1チャンネルエネルギーのうちから特定チャンネルエネルギーを選択し、選択された特定チャンネルエネルギーを有するチャンネル以外のチャンネルエネルギーに所定の増幅係数を乗算してチャンネルエネルギーを減少させる。
【0089】
オーディオ信号を符号化するコーデックモジュール750は、背景雑音推定部751と、信号対雑音比測定部752と、正弦波判断部753と、オーディオ信号符号化部754とを備える。
【0090】
背景雑音推定部751は、特定チャンネルエネルギーを有するチャンネル以外のチャンネルのチャンネルエネルギーが減少したオーディオ信号に対して、チャンネルそれぞれに対する第2チャンネルエネルギーを測定し、チャンネルそれぞれに対する第2背景雑音を推定する。本発明によれば、コーデックモジュールは、AMR VAD OPTION 2を用いることができる。
【0091】
信号対雑音比測定部752は、チャンネルそれぞれに対する第2チャンネルエネルギーおよび第2背景雑音を用いてチャンネルそれぞれに対する信号対雑音比を測定する。本発明によれば、信号対雑音比測定部752は、正弦波判断部753を備え、正弦波判断部753は、測定された1つ以上の第2チャンネルエネルギーのうち、第2特定チャンネルエネルギーと1つ以上の第2チャンネルエネルギーとの平均値を比べ、第2特定チャンネルエネルギーが平均値よりも大きい場合にはオーディオ信号を正弦波として判断する。
【0092】
オーディオ信号符号化部754は、測定されたチャンネルそれぞれに対する信号対雑音比に基づいて音声距離を算出し、音声距離が所定の閾値以上である場合に、オーディオ信号を音声信号として判断してオーディオ信号を符号化する。
【0093】
また、本発明によれば、オーディオ信号符号化部754は、チャンネルそれぞれに対する信号対雑音比を合算して音声距離を算出することができる。
【0094】
また、本発明の他の実施形態によれば、閾値は、チャンネルそれぞれに対する信号対雑音比に基づいて長期尖頭信号対雑音比を測定し、測定された長期尖頭信号対雑音比によって閾値を決定することができる。
【0095】
なお、本発明に係るオーディオ信号の出力改善のためのオーディオ信号の処理方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータ読取可能な記録媒体を含む。当該記録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともでき、記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。また、記録媒体は、プログラム命令、データ構造などを保存する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体でもある。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。前記したハードウェア要素は、本発明の動作を実行するために一以上のソフトウェアモジュールとして作動するように構成することができ、その逆もできる。
【0096】
上述したように、本発明の好ましい実施形態を参照して説明したが、該当の技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。すなわち、本発明の技術的範囲は、特許請求の範囲に基づいて定められ、発明を実施するための最良の形態により制限されるものではない。
【産業上の利用可能性】
【0097】
本発明によれば、通信網を介して加入者端末機にリングバックトーン代替音などのオーディオ信号を送信する場合に、通信網の音声コーデックでオーディオ信号のフレームを音声区間として判断する確率を高めることで、送信されるオーディオ信号の音質を向上させることができる。
【0098】
また、本発明によれば、通信網を介して加入者端末機にリングバックトーン代替音などのオーディオ信号を送信する場合に、通信網の音声コーデックで無声区間として判断しないようにオーディオ信号を前処理することで、より良い音質のリングバックトーン代替音を提供することができる。

【特許請求の範囲】
【請求項1】
通信網を介して加入者端末機に送信されるオーディオ信号の処理方法であって、
前記オーディオ信号を1つ以上のチャンネルに分離するステップと、
前記チャンネルそれぞれに対するチャンネルエネルギーを測定し、前記チャンネルエネルギーのうちから特定チャンネルエネルギーを選択するステップと、
前記特定チャンネルエネルギーを増幅するステップと、
を含み、前記オーディオ信号は送受信される加入者の音声信号と異なり、
前記特定チャンネルエネルギーは、前記チャンネルそれぞれのチャンネルエネルギーのうちで最大値を有するチャンネルエネルギーであり、
前記特定チャンネルエネルギーが増幅された前記オーディオ信号は、所定のコーデックモジュールで符号化されて前記加入者端末機に送信され、
前記コーデックモジュールでは、
前記オーディオ信号に対して前記チャンネルそれぞれに対するチャンネルエネルギーを測定し、前記チャンネルそれぞれに対する背景雑音を推定するステップと、
前記チャンネルエネルギーおよび前記背景雑音を用いて前記チャンネル別の信号対雑音比を測定するステップと、
前記チャンネル別の信号対雑音比に基づいて前記オーディオ信号を符号化するステップと、
が実行される、
ことを特徴とするオーディオ信号の処理方法。
【請求項2】
通信網を介して加入者端末機に送信されるオーディオ信号の処理方法であって、
前記オーディオ信号を1つ以上のチャンネルに分離するステップと、
前記チャンネルそれぞれに対するチャンネルエネルギーを測定し、前記チャンネルエネルギーのうちから特定チャンネルエネルギーを選択するステップと、
前記特定チャンネルエネルギーを有するチャンネル以外のチャンネルエネルギーを減少させるステップと、
を含み、前記オーディオ信号は送受信される加入者の音声信号と異なり、
前記特定チャンネルエネルギーは、前記チャンネルそれぞれのチャンネルエネルギーのうちで最大値を有するチャンネルエネルギーであり、
前記特定チャンネルエネルギーが減少されなかった前記オーディオ信号は、所定のコーデックモジュールで符号化されて前記加入者端末機に送信され、
前記コーデックモジュールでは、
前記オーディオ信号に対して前記チャンネルそれぞれに対するチャンネルエネルギーを測定し、前記チャンネルそれぞれに対する背景雑音を推定するステップと、
前記チャンネルエネルギーおよび前記背景雑音を用いて前記チャンネル別の信号対雑音比を測定するステップと、
前記チャンネル別の信号対雑音比に基づいて前記オーディオ信号を符号化するステップと、
が実行される、
ことを特徴とするオーディオ信号の処理方法。
【請求項3】
前記コーデックモジュールは、
前記信号対雑音比に基づいて音声距離を算出するステップと、
前記音声距離が所定の閾値以上である場合に、前記オーディオ信号を音声信号として判断するステップと、
をさらに実行することを特徴とする請求項またはに記載のオーディオ信号の処理方法。
【請求項4】
前記オーディオ信号に対して前記チャンネルそれぞれに対する前記チャンネルエネルギーを測定し、前記チャンネルそれぞれに対する前記背景雑音を推定する前記ステップは、
前記測定されたチャンネルエネルギーのうち、特定チャンネルエネルギーと前記チャンネルエネルギーとの平均値を比べ、前記特定チャンネルエネルギーが前記平均値よりも大きい場合には前記オーディオ信号を正弦波として判断するステップ、
を含むことを特徴とする請求項またはに記載のオーディオ信号の処理方法。
【請求項5】
前記音声距離を算出する前記ステップは、
前記チャンネルそれぞれに対する前記信号対雑音比を合算して前記音声距離を算出することを特徴とする請求項またはに記載のオーディオ信号の処理方法。
【請求項6】
前記閾値は、前記チャンネルそれぞれに対する前記信号対雑音比に基づいて長期尖頭信号対雑音比を測定し、前記測定された長期尖頭信号対雑音比に応じて前記閾値が決定されることを特徴とする請求項またはに記載のオーディオ信号の処理方法。
【請求項7】
前記コーデックモジュールは、AMR VAD OPTION 2を用いることを特徴とする請求項またはに記載のオーディオ信号の処理方法。
【請求項8】
前記オーディオ信号を1つ以上のチャンネルに分離する前記ステップは、
FFTアルゴリズムを用いて前記オーディオ信号を1つ以上のチャンネルに分離するステップであることを特徴とする請求項またはに記載のオーディオ信号の処理方法。
【請求項9】
請求項1〜のうちのいずれか一項の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項10】
通信網を介して加入者端末機に送信されるオーディオ信号の処理装置であって、
前記オーディオ信号を1つ以上のチャンネルに分離するチャンネル分離部と、
前記チャンネルそれぞれにチャンネルエネルギーを測定するチャンネル測定部と、
前記測定されたチャンネルエネルギーのうちから特定チャンネルエネルギーを選択し、前記特定チャンネルエネルギーを増幅するチャンネルエネルギー増幅部と、
を備え、前記オーディオ信号は送受信される加入者の音声信号と異なり、
前記特定チャンネルエネルギーは、前記チャンネルそれぞれのチャンネルエネルギーのうちで最大値を有するチャンネルエネルギーであり、
前記特定チャンネルエネルギーが増幅された前記オーディオ信号は、所定のコーデックモジュールで符号化されて前記加入者端末機に送信され、
前記コーデックモジュールは、
前記オーディオ信号に対して前記チャンネルそれぞれに対するチャンネルエネルギーを測定し、前記チャンネルそれぞれに対する背景雑音を推定し
前記チャンネルエネルギーおよび前記背景雑音を用いて前記チャンネル別の信号対雑音比を測定し、
前記チャンネル別の信号対雑音比に基づいて前記オーディオ信号を符号化する、
ことを特徴とするオーディオ信号処理装置。
【請求項11】
前記チャンネルエネルギー増幅部は、
前記特定チャンネルエネルギーを有するチャンネル以外のチャンネルエネルギーを減少させて前記特定チャンネルエネルギーを相対的に増幅することを特徴とする請求項10に記載のオーディオ信号処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−234184(P2012−234184A)
【公開日】平成24年11月29日(2012.11.29)
【国際特許分類】
【出願番号】特願2012−135078(P2012−135078)
【出願日】平成24年6月14日(2012.6.14)
【分割の表示】特願2008−549428(P2008−549428)の分割
【原出願日】平成19年1月8日(2007.1.8)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WCDMA
2.GSM
【出願人】(500123843)リアルネットワークス・インコーポレイテッド (7)
【Fターム(参考)】