説明

変換補間によるオーディオパケット損失補償

【課題】オーディオ又はビデオ会議等のためのオーディオ処理において、パケット伝送過程でのパケット損失を補償する方法を提供する。
【解決手段】オーディオ処理において、端末は変換コーディングを受けたオーディオ信号を再構成するための変換係数を有するオーディオパケットを受信する。該パケットを受信すると、前記端末は不足パケットがあるかないかを判定し、前後する正常なフレームから変換係数を補間する。不足係数を補間するために、前記端末は第1の重みを持つ先行する正常なフレームから第1の係数を重み付ける、第2の重みを持つ後続する正常なフレームから第2の係数を重み付ける、そして前記不足パケットへの挿入のためにこれらの重み付けられた係数を一緒にまとめる。前記重みは、オーディオ周波数及び/又は関連する前記不足パケット番号に基づき得る。この補間から、前記端末は前記係数を逆変換することによって出力オーディオ信号を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ又はビデオ会議等のためのオーディオ処理装置に関し、パケット伝送過程でのパケット損失を補償する技術に関する。
【背景技術】
【0002】
あらゆる種類のシステムは、オーディオ信号を生成する又はそのような信号から音を再生するために、オーディオ信号処理を使用する。一般的に、前記信号処理はオーディオ信号をデジタルデータに変換し、ネットワークを介した伝送のために当該データを符号化する。次に、前記信号処理は音響波形のような再生のために、前記データを復号化しそれをアナログ信号に戻す変換を行う。
いろいろな方法が、オーディオ信号を符号化又は復号化するために存在する。(信号を符号化及び復号化するプロセッサや処理モジュールは、一般的にコーデックとして言及される。)例えば、オーディオ又はビデオ会議のためのオーディオ処理は、結果として生じる変換信号はビット最小数を必要とするが最も良い品質を維持するように、Hi-Fi(ハイファイ)オーディオ入力を圧縮するためにオーディオコーデックを用いる。このようにして、オーディオコーデックを有する会議開催設備はより少ない記憶容量を必要とし、オーディオ信号を伝送する前記設備によって用いられる通信チャンネルはより小さな帯域幅を必要とする。
【0003】
参照によって本開示に含まれる「7kHz audio-coding within 64 kbit/s,」と題名付けられた、ITU‐T(国際電気通信連合の電気通信標準化部門)勧告G.722(1988)は、64kbit/s内で7kHzオーディオコーディングの方法を記述する。ISDN回線は、64kbit/sのデータ伝送容量を有する。この方法は本質的に、3kHzから7kHzまでISDN回線を使う電話回線網を通じてオーディオの帯域幅を増加する。知覚されるオーディオ品質は改善される。この方法は既存の電話回線網を通じて高品質オーディオを提供するけれども、一般的に電話会社から通常の狭帯域電話サービスよりも高価であるISDNサービスを必要とする。
【0004】
電気通信での使用に推奨されるごく最近の方法は、この参照より開示に含まれる「Low-complexity coding at 24 and 32 kbit/s for hands-free operation in system with low frame loss,」と題名付けられた、ITU‐T勧告G.722.1(2005)がある。この勧告は、G.722よりも低い、24kbit/s又は32kbit/sのビットレートで動作する、7kHzに50Hzのオーディオ帯域幅を供給するデジタル広帯域コーダーアルゴリズムを記述する。このデータレートで、通常のアナログ電話回線を使う通常のモデムを有する電話は広帯域オーディオ信号を伝送できる。したがって、2つの終端に設置する電話がG.722.1に記述されるように符号化/復号化を実行できさえすれば、最現行の電話回線は広帯域の会話をサポートすることができる。
【0005】
いくつかの広く用いられたオーディオコーデックは、ネットワークを介して伝送されたオーディオデータを符号化又は復号化するために、変換コーディング技術を使用する。例えば、この参照より開示に含まれるITU‐T勧告G.722.1.C(Polycom(商標)Siren14)のみならずITU‐T勧告G.719(Polycom(商標)Siren22)も、伝送のためにオーディオを圧縮するため周知の変調重複変換(MLT)コーディングを使用する。周知のように、変調重複変換(MLT)は信号のいろいろな種類の変換コーディングのために使用されるコサインモジュレイトフィルタバンクの形式である。
【0006】
一般的に、L>Mの条件で、重複変換は長さLのオーディオブロックを取得しそのブロックをM係数に変換する。これが機能するために、合成された信号が変換された係数の連続するブロックを使って取得され得るように、L‐Mサンプルの連続したブロックの間に重複がある。
【0007】
変調重複変換(MLT)に関し、オーディオブロックの長さLは重複がMであるから係数の番号Mに等しい。したがって、直接(解析)変換のためのMLT基底関数は、
【数1】

により与えられる。
【0008】
同様に、逆(合成)変換のためのMLT基底関数は、
【数2】

により与えられる。
【0009】
これらの方程式において、Mはブロックサイズであり、周波数インデックスkは0からM−1まで変化し、時間インデックスnは0から2M−1まで変化する。最後に、
【数3】

は、用いられた完全な再構成ウィンドウである。
【0010】
MLT係数は、下記のとおりこれらの基底関数から決定される。直接変換行列Paは、n番目の行とk番目の列における項目がpa(n,k)であるものである。同様に、逆変換行列Psは項目ps(n,k)を持っているものである。入力信号x(n)の2M入力サンプルのブロックxに関し、その対応する変換係数のベクトル
【数4】


【数5】

によって計算される。代わって、処理された変換係数のベクトル
【数6】

に関し、再構成された2Mサンプルベクトルyは
【数7】

によって与えられる。最終的に、再構成されたyベクトルはM‐サンプルの重複で相互に重ね合わせられ、出力用の再構成された信号y(n)を生成する。
【0011】
図1は、本明細書において送信機として動作する第1端末10Aが受信機として動作する第2端末10Bに圧縮したオーディオ信号を送る、一般的なオーディオ又はビデオ会議の手順を示す。送信機10Aと受信機10Bの両方は、例えばG.722.1.C(Polycom(商標)Siren14)やG.719(Polycom(商標)Siren22)で使われたような、変換コーディングを実行するオーディオコーデック16を有する。
【0012】
送信機10Aにおけるマイクロフォン12はソースオーディオを獲得し、電子回路は一般的に20ミリ秒の幅を持つオーディオブロック14としてソースオーディオをサンプリングする。この時点で、オーディオコーデック16の変換は、オーディオブロック14を周波数領域変換係数の複数のセットに変換する。それぞれの変換係数は重要度を有し、正又は負であるかもしれない。当該分野で周知の技術を用いて、これらの係数は次に量子化され(18)、符号化され、そして例えばインターネットのようなネットワーク20を介して受信機に送られる。
【0013】
受信機10Bにおいて、リバース処理は前記符号化された係数を復号化及び逆量子化する(19)。最終的に、受信機10Bにおけるオーディオコーデック16は、受信機のラウドスピーカー13における最終的な再生用の出力オーディオブロック14を生成するための前記時間領域にそれらを戻す変換を行うために、前記係数で逆変換を実行する。
【0014】
オーディオパケット損失は、例えばインターネットのようなネットワークを介したビデオ会議及びオーディオ会議の共通問題である。周知のように、オーディオパケットはオーディオの小さい断片を意味する。送信機10Aが変換係数のパケットをインターネット20を介して受信機10Bへ送る場合、いくつかのパケットは伝送の間に失われ得る。いったん出力オーディオが生成されると、前記失われたパケットはラウドスピーカー13によって出力されるものの中に無音のギャップを生成する。したがって、受信機10Bは望ましくはこうしたギャップを、送信機10Aから既に受信済みであるそれらのパケットから合成されたオーディオのなんらかの形で満たす。
【0015】
図1に示すように、受信機10Bは失われたパケットを検出するロストパケット検出モジュール15を有する。次に、オーディオを出力する場合、オーディオ中継器17はこのような失われたパケットによって生じたギャップを満たす。前記オーディオ中継器17により用いられる既存技術は、パケットロスより前に送られた最も新しいオーディオ断片を時間領域で頻繁に繰り返すことによって、オーディオ内のそのようなギャップを簡単に満たす。効果的であるけれども、ギャップを満たすためにオーディオを繰り返す既存技術は、結果として生じるオーディオ内にバズ音及び機械的な人為音を生成し、そしてユーザはそのような人為音が不愉快であることに気付く傾向がある。さらに、もし5%以上もしパケットが失われるならば、前記現行技術はますますわかりにくいオーディオを生成する。
【0016】
結果として、より良いオーディオ品質を生成しバズ音及び機械的な人為音を避ける方法でインターネットを介した会議を行う場合に、必要とされるものは失われたオーディオ断片を処置する技術である。
【発明の概要】
【0017】
ここに開示したオーディオ処理技術は、オーディオ又はビデオ会議のために用いられ得る。当該処理技術において、端末は変換コーディングを受けたオーディオ信号を再構成するための変換係数を有するオーディオパケットを受信する。パケットを受信する場合、前記端末は不足パケットがあるかどうかを判定し、前記不足パケット用の係数として挿入するために、前後する正常なフレームから変換係数を補間する。不足する係数を補間するために、例えば、前記端末は第1の重みを持つ先行する正常なフレームから第1の係数を重み付ける、第2の重みを持つ後続する正常なフレームから第2の係数を重み付ける、そして前記不足パケットへの挿入のためにこれらの重み付けられた係数を一緒に合計する。前記重みは、オーディオ周波数及び/又は関連した不足パケットの数に基づき得る。この補間から、前記端末は前記係数を逆変換することによって出力オーディオ信号を生成する。
【0018】
前述の概要は、潜在的にあり得る各実施態様やこの開示の全ての概念を要約することを意図するものではない。
【図面の簡単な説明】
【0019】
【図1】送信機と受信機とを有し、従来技術に基づく失われたパケット技術を用いる会議手順を示す。
【0020】
【図2A】送信機と受信機とを有し、この開示に基づく失われたパケット技術を用いる会議手順を示す。
【0021】
【図2B】さらに詳細に会議端末を示す。
【0022】
【図3A】変換コーディングコーデックのエンコーダを示す。
【図3B】変換コーディングコーデックのデコーダを示す。
【0023】
【図4】コーディング、デコーディング、この開示に基づく失われたパケット取扱技術のフローチャートである。
【0024】
【図5】この開示に基づく失われたパケットにおける変換係数の補間手順を図式的に示す。
【0025】
【図6】補間手順のための補間ルールを図式的に示す。
【0026】
【図7A】不足パケットのための変換係数を補間するために使用される重みを示す。
【図7B】不足パケットのための変換係数を補間するために使用される重みを示す。
【図7C】不足パケットのための変換係数を補間するために使用される重みを示す。
【発明を実施するための形態】
【0027】
図2Aは、本明細書において送信機として動作する第1端末100Aが受信機として動作する第2端末100Bに圧縮したオーディオ信号を送る、オーディオ処理手順を示す。送信機100Aと受信機100Bの両方とも、例えばG.722.1.C(Polycom(商標)Siren14)やG.719(Polycom(商標)Siren22)において用いられたような、変換エンコーディングを実行するオーディオコーデック110を有する。この議論に関し、送信機と受信機100A‐Bは、オーディオ機器の他の種類であるかもしれないけれども、オーディオ又はビデオ会議におけるエンドポイントであり得る。
【0028】
動作中、送信機100Aにおけるマイクロフォン102はソースオーディオを獲得し、電子回路は典型的には20ミリ秒の幅のブロック又はフレームをサンプリングする。(議論は同時にこの開示に基づく失われたパケット取扱技術300を示す図4におけるフローチャートを参照する。)この時点で、オーディオコーデック110の変換は、それぞれのオーディオブロックを周波数領域の変換係数のセットに変換する。これを行うために、前記オーディオコーデック110は時間領域においてオーディオデータを受信し(ブロック302)、20ミリ秒オーディオブロック又はフレームを取り込み(ブロック304)、前記ブロックを変換係数に変換する(ブロック306)。それぞれの変換係数は大きさを持っており、また、正又は負であるかもしれない。
【0029】
当該分野で周知の技術を用いて、これらの変換係数は次に量子化115において量子化されそして符号化され(ブロック308)、そして例えばIP(インターネットプロトコル)ネットワーク、PSTN(公衆交換電話網)、ISDN(統合サービスデジタル網)、あるいは同種のもののような、ネットワーク125を介して、送信機100Aはパケット内の前記符号化された変換係数を受信機100Bに送る(ブロック310)。前記パケットは、どんな適合するプロトコルや規格にでも使用することができる。例えば、オーディオデータは目次に続くかもしれないし、オーディオフレームを構成する全てのオクテットはユニットとしてペイロードに追加され得る。例えば、オーディオフレームの詳細は、開示に含まれるITU‐T勧告G.719及びG.722.1.Cに記載されている。
【0030】
受信機100Bにおいて、インタフェース120はパケットを受信する(ブロック312)。パケットを送信する場合、送信機100Aは送られたそれぞれのパケットに含められる順番号を生成する。周知のように、パケットは送信機100Aから受信機100Bまでネットワーク125を介した異なるルートで通過し得る、そしてパケットは受信機100Bにいろいろな時間に到着し得る。したがって、到着するパケットの順序は任意であり得る。
【0031】
「ジッター」と呼ばれる、このような変動する到着時間を扱うために、受信機100Bは受信インタフェース120につながれたジッターバッファ130を有する。一般的に、ジッターバッファ130は一度に4以上のパケットを保留する。それゆえに、受信機100Bはこれらの順番号に基づきジッターバッファ130内のパケットを再順序付ける(ブロック314)。
【0032】
パケットは受信機100Bに順序外に到着するかもしれないけれども、ロストパケットハンドラー140はジッターバッファ130内のパケットを適切に再順序付け、その順序に基づき失われた(不足している)パケットを検出する。ジッターバッファ130内のパケットの順序番号にギャップがあるときに、失われたパケットが明らかにされる。例えば、ハンドラー140がジッターバッファ130内で順序番号005,006,007,011を見つけるならば、ハンドラー140は失くしたものとしてパケット008,009,010を明らかにする。実際には、これらのパケットは実質的には失われていないかもしれないし、それらの到着が遅れているだけかもしれない。さらに、待ち時間及びバッファ長制限によって、受信機100Bはある閾値を超えて遅れて到着するどのパケットをも放棄する。
【0033】
続くリバース処理において、受信機100Bは符号化された変換係数を復号化及び逆量子化する(ブロック316)。ハンドラー140が失われたパケットを検出しているならば(判定318)、該ロストパケットハンドラー140は失われたパケットのギャップに前後した正常なパケットが何かを知る。この知識を使って、新しい変換係数が失われたパケットから不足する係数の箇所に置き換えられることのできるように、変換シンセサイザー150は失われたパケットの不足変換係数を得るか補間する(ブロック320)。(この例において、変換係数がMLT係数としてここに参照され得るように、オーディオコーデックはMLTコーディングを使用する。)この段階で、受信機100Bにおけるオーディオコーデック110は、前記係数についての逆変換を実行してそれらを時間領域に戻し、受信機のラウドスピーカーのための出力オーディオを生成する(ブロック322‐324)。
【0034】
上述の処理に見られるように、失われたパケットを検出してギャップを満たすために受信オーディオの前の断片を頻繁に繰り返すのではなく、むしろ、ロストパケットハンドラー140は、変換ベースのコーデック110用の失われたパケットを失われた変換係数のセットとして取り扱う。変換シンセサイザー150は、次に、隣接するパケットから派生させた合成された変換係数で、失われたパケットにおける失われた変換係数のセットを差し替える。その結果、失われたパケットに起因するオーディオギャップのない、十分なオーディオ信号が、係数の逆変換を使用して、受信機100Bで生成され出力され得る。
【0035】
図2Bは、さらに詳細に会議エンドポイント又は端末100を概略的に示す。図示のように、会議端末100はIPネットワーク125上の送信機及び受信機の両方であり得る。図示のようにまた、会議端末100はオーディオ能力と同様にビデオ会議能力をも有し得る。一般的に、端末100はマイクロフォン102及びスピーカ104を有し、そして例えばビデオカメラ106、ディスプレイ108、キーボード、マウスなどのような、種々の他の入力/出力機器を有し得る。さらに、端末100はプロセッサ160、メモリ162、コンバータエレクトロニクス164、特定のネットワーク125に適したネットワークインタフェース122/124を有する。オーディオコーデック110は、適当なプロトコルに従って標準ベースの会議をネットワーク化された端末に提供する。これらの標準は、メモリ162に記憶され、プロセッサ160上、専用のハードウェア上で実行される、あるいはその組み合わせで用いられる、ソフトウェア内に完全に組み入れられているかもしれない。
【0036】
送信経路において、マイクロフォン102によりピックアップされたアナログ入力信号は、コンバータエレクトロニクス164によってデジタル信号に変換され、そして端末のプロセッサ160で動作するオーディオコーデック110は、例えばインターネットのようなネットワーク125上の送信インタフェース122を介して伝送のためにデジタルオーディオ信号を符号化するエンコーダ200を有する。また、もしそれがあるならば、ビデオエンコーダ170を有するビデオコーデックは、ビデオ信号のために上述と同様な機能を実行することができる。
【0037】
受信経路において、端末100はオーデイオコーデック110につながれたネットワーク受信インタフェース124を有する。デコーダ250は受信した信号を復号化し、コンバータエレクトロニクス164はラウドスピーカ104へ出力するためにデジタル信号をアナログ信号に変換する。また、もしそれがあるならば、ビデオデコーダ175が有するビデオコーデックは、ビデオ信号のために上述と同様な機能を実行することができる。
【0038】
図3A及び図3Bは、例えばSirenコーデックのような変換コーディングコーデックの特徴を簡単に示す。特定のオーディオコーデックの実際の詳細は、実装及び用いられたコーデックのタイプによって決まる。Siren14の周知の詳細はITU‐T勧告G.722.1 Annex Cに見いだされ得る、そしてSiren22の周知の詳細は、両方ともが参照により本開示に含まれるITU‐T勧告G.719(2008)「Low-complexity, full-band audio coding for highquality, conversational applications,」に見いだされ得る。オーディオ信号の変換コーディングに関連する付加的な詳細もまた、参照により本開示に含まれるUS特許出願第11/550,692号と第11/550,682号に見いだされ得る。
【0039】
変換コーディングコーデック(例えばSirenコーデック)のためのエンコーダ200が、図3Aに示される。エンコーダ200は、アナログオーディオ信号から変換されたデジタル信号202を受信する。例えば、デジタル信号202は、約20ミリ秒ブロックあるいはフレームにおいて48kHz又は他のレートでサンプルされ得る。離散コサイン変換(DCT)であるかもしれないトランスフォーム204は、デジタル信号202を時間領域から変換係数を有する周波数領域に変換する。例えば、トランスフォーム204は、それぞれのオーディオブロック又はフレームのために960個の変換係数のスペクトラムを生成することができる。エンコーダ200は、標準化206において変換のための平均エネルギーレベル(基準)を見つける。次に、エンコーダ202は、ファスト格子ベクトル量子化(FLVQ)アルゴリズム208若しくは同様の手段で係数を量子化し、パケット化及び伝送のために出力信号210を符号化する。
【0040】
変換コーディングコーデック(例えばSirenコーデック)のためのデコーダ250が、図3Bに示される。デコーダ250はネットワークから受信した入力信号252の入力ビットストリームを取得し、それからオリジナル信号の最も良い推定値を再現する。これを行うために、デコーダ250は入力信号252において格子デコーディング(逆FLQV)254を実行し、逆量子化256を用いて復号化された変換係数を逆量子化する。また、変換係数のエネルギーレベルは種々の周波数帯域において修正されてよい。
【0041】
この時点で、変換シンセサイザー258は不足パケットのために係数を補間することができる。最終的に、逆変換部260は、逆DCTとして作動し、出力信号262として伝送するために、信号を時間領域から周波数領域に戻す変換を行う。以上のように、変換シンセサイザー258は不足パケットから結果的に生じ得るギャップを満たすのに役立つ。さらに、デコーダ250の既存の機能及びアルゴリズムの全ては同じ状態のままである。
【0042】
上に提供された端末100及びオーディオコーデック110の理解を基にして、隣接するフレームからの正しい係数、ブロック、あるいはネットワークを介して受信したパケットセットを用いることによって、どのようにオーディオコーデック110は不足パケットのための変換係数を補間するかにつき、以下説明する。(以下述べる議論はMLT係数に関して提示されるが、ここで開示される補間処理は変換コーディングの他の形式のための他の変換係数においても同様に適用し得る。)
【0043】
図5に概略的に示されるように、失われたパケット内の変換係数を補間するためのプロセス400は、先行する正常なフレーム、ブロック、あるいはパケットセット(すなわち失われたパケットを除く)(ブロック402)から、そして後続する正常なフレーム、ブロック、パケットセット(ブロック404)から、補間ルール(ブロック410)を変換係数に適用することを伴う。したがって、補間ルール(ブロック410)は、所与の1セット内の失われたパケットの数を決定し、正常なセットの変換係数から取り出す(ブロック402/404)。次に、プロセス400は、所与のセット内への挿入のために、失われたパケット用の新しい変換係数を補間する(ブロック412)。最終的に、プロセス400は逆変換(ブロック414)を実行し、出力オーディオセットを合成する(ブロック416)。
【0044】
図6は、より詳細に補間処理のための補間ルール500を図式的に示す。上述したように、補間ルール500は、フレーム、オーディオブロック、あるいはパケットセット内の失われたパケットの数の関数である。実際のフレームサイズ(ビット/オクテット)は、変換コーディングアルゴリズム、ビットレート、フレーム長、使用されたサンプルレートによって決まる。例えば、48kBit/sビットレート、32kHzサンプルレート、20ミリ秒のフレーム長におけるG.722.1 Annex Cに関し、フレームサイズは960ビット/120オクテットであろう。G.719、フレーム長が20ミリ秒、サンプリングレートが48kHzであるものに関し、ビットレートは20ミリ秒フレームの境目で32kBit/sと128kBit/sとの間に変えられ得る。G.719のためのペイロードフォーマットは、RFC5404に定められている。
【0045】
概ね、失われた所定のパケットは1以上のオーディオフレーム(例えば20ミリ秒)を有し得るし、フレームの一部だけを含み得るし、1以上のオーディオチャンネルのために1以上のフレームを有することができ、1以上の異なるビットレートで1以上のフレームを有することができ、当業者に知られている他の複雑なことができて、特定の変換コーディング及び使用されたペイロードフォーマットと関連付けられる。しかしながら、所定の実装において、不足パケットのための不足変換係数を補間するために用いた補間ルール500は、特定の変換コーディングとペイロードフォーマットに適合させることができる。
【0046】
図示のように、先行する正常なフレーム又はセット510の変換係数(MLT係数としてここに示される)はMLTA(i)と呼ばれ、後続する正常なフレーム又はセット530のMLT係数はMLTB(i)と呼ばれる。オーディオコーデックがSiren22を使うならば、インデックス(i)は0から959までの範囲で変化する。不足パケット用の補間されたMLT係数540の絶対値のために、包括的な補間ルール520は、前後するMLT係数(510/530)に適用された重み(512/532)に基づいて、次のとおり、決定される。
【数8】

【0047】
包括的な補間ルールにおいて、不足フレーム又はセットの補間されたMLT係数、MLTInterpolated(i)、540のための符号522は、等しい確率で正負のどちらにも任意にセットされる。このランダム性は、これらの再構成されたパケットから結果的に生じるオーディオ音が、より自然にかつそれほど自動化されずに発っせられるのを助け得る。
【0048】
このような方法でMLT係数を補間(540)した後に、変換シンセサイザー(150、図2A)は不足パケットのギャップを満たし、それから、受信機(100B)におけるオーディオコーデック(110、図2A)は、出力信号を再構成するためのその合成動作を終えることができる。周知技術を用いて、例えば、オーディオコーデック(110)は、処理された変換係数のベクトル(前記数6に示すベクトル)を取得する。このベクトルは、受信された正常なMLT係数及び必要な場合に充填される補間されたMLT係数を含む。このベクトル(前記数6に示すベクトル)から、コーデック(110)は上記数7に示す式によって与えられる2Mサンプルベクトルyを再構成する。最終的に、処理が続くにつれて、シンセサイザー(150)は再構成されたyベクトルを取得し、Mサンプルの重複部分にそれらを重ね、受信機(100B)で出力するための再構成された信号y(n)を生成する。
【0049】
不足パケットの数が異なるとき、補間ルール500は補間されたMLT係数540を決定するために、前後するMLT係数510/530に異なる重み512/532を適用する。以下は、不足パケットの数と他のパラメータに基づき、重みAと重みB、2つの重み要素を決定するための特別なルールである。
1.1つの失われたパケット
【0050】
図7Aに図示されるように、ロストパケットハンドラー(140、図2A)は、対象のフレーム又はパケットセット620内のたった1つの失われたパケットを検出し得る。たった1つのパケットが失われているならば、ハンドラー(140)は、失われたパケットに関連したオーディオ周波数(例えば、失われたパケットに先行する最新のオーディオ周波数)に基づき、失われたパケット用の不足MLT係数を補間するために重み要素(重みA、重みB)を使う。下の表に示されるように、先行するフレーム又はセット610A内の対応するパケットのための重み要素(重みA)、後続するフレーム又はセット610B内の対応するパケットのための重み要素(重みB)は、以下に示す最新のオーディオの1kHz周波数に関連して決定され得る。
表1

周波数 | 重みA | 重みB
1kHzより下 | 0.75 | 0.0
1kHzより上 | 0.5 | 0.5

2.2つの失われたパケット
【0051】
図7Bに図示されるように、ロストパケットハンドラー(140)は、対象のフレーム又はセット622内の2つの失われたパケットを検出し得る。この状態で、ハンドラー(140)は、以下に示すように、前後するフレーム又はセット610A、610Bの対応するパケットにおいて、失われたパケット用のMLT係数を補間するために、重み要素(重みA、重みB)を使う。
表2

失われたパケット | 重みA | 重みB
最初の(より古い)パケット | 0.9 | 0.0
最後の(より新しい)パケット | 0.0 | 0.9
【0052】
それぞれのパケットが1つのオーディオフレーム(例えば20ミリ秒)を含むならば、次に図7Bのそれぞれのセット610A‐Bと622は、図7Bに描かれるように、付加的なパケットがセット610A‐Bと622内に実はないかもしれないいくつかのパケット(すなわち、いくつかのフレーム)を本来含むであろう。
3.3乃至6つの失われたパケット
【0053】
図7Cに図示されるように、ロストパケットハンドラー(140)は、対象のフレーム又はセット624内の3乃至6つの失われたパケット(3つが図7Cに示される)を検出し得る。3乃至6つの失われたパケットは、所定の時間間隔毎に失われているパケットの25%だけを表し得る。この状態で、ハンドラー(140)は、以下に示すように、前後するフレーム又はセット610A、610Bの対応するパケットにおいて、失われたパケット用のMLT係数を補間するために、重み要素(重みA、重みB)を使う。
表3

失われたパケット | 重みA | 重みB
最初の(より古い)パケット | 0.9 | 0.0
1以上の中間のパケット | 0.4 | 0.4
最後の(より新しい)パケット | 0.0 | 0.9
【0054】
図7A‐7Cの図におけるパケットとフレーム又はセットの配置は、例示である。上述したように、あるコーディング技術は特定のオーディオ長さ(例えば20ミリ秒)を含むフレームを用いるかもしれない。また、ある技術はそれぞれのオーディオフレーム(例えば20ミリ秒)のために1つのパケットを用いるかもしれない。実装にもよるが、しかしながら、所定のパケットは1以上のオーディオフレーム(例えば20ミリ秒)の情報を有するかもしれないし、あるいは1つのオーディオフレーム(例えば20ミリ秒)の一部だけの情報を有するかもしれない。
【0055】
不足変換係数を補間するための重み要素を明確にするために、パラメータは上記の使用周波数レベル、フレーム内の不足しているパケットの数、所定の不足パケットセット内の不足パケットの箇所を記述した。重み要素は、どれか1つ又はこれらの補間パラメータの組み合わせを用いて決定され得る。変換係数を補間するために上に開示した重み要素(重みA、重みB)、周波数閾値、補間パラメータは、例示である。これらの重み要素、閾値、パラメータは、会議中に不足パケットのギャップを満たすときに、最も良い主観的なオーディオ品質を生成すると見られる。さらに、これらの要素、閾値、パラメータは、特定の実装のために異なるかもしれないし、例示的に示されている何かから拡げられるかもしれないし、使用された設備の種類、含まれるオーディオのタイプ(すなわち、音楽、音声など)、適用された変換コーディングのタイプ、その他の考慮事項によって決まるかもしれない。
【0056】
いずれにしても、変換ベースのオーディオコーデックのために失われたオーディオパケットを隠す場合、ここに開示したオーディオ処理技術は従来技術の解決法より良い品質の音を作り出す。特に、例えパケットの25%が失われたとしても、開示した技術は現在技術よりも理解できるオーディオをさらに生成するかもしれない。オーディオパケット損失はしばしばビデオ会議アプリケーションで生じる、だからそのような状況の間に品質を改善することは全般的なビデオ会議実績を改善するのに重要である。さらに、損失を隠すために動作する端末において、パケット損失を隠すことに取られるステップがあまりに多くの処理や記憶資源を必要としないことが重要である。前後する正常なフレーム内の変換係数に重み付けを適用することによって、ここに開示した技術は処理と必要とした記憶資源を減らすことができる。
【0057】
オーディオ又はビデオ会議に関して説明したけれども、ストリーミング音楽とスピーチを収録している、ストリーミングメディアを含む他の領域に、本開示の教示は有用であり得る。そのため、オーディオ再生機器、パーソナル音楽プレーヤー、コンピュータ装置、サーバ装置、電気通信機器、携帯電話、携帯情報端末などを含む、オーディオ会議エンドポイント及びビデオ会議エンドポイントのみならず他のオーディオ処理機器に、本開示の教示は適用され得る。例えば、特別な目的のオーディオ会議エンドポイント又はビデオ会議エンドポイントは、開示した技術によって益を得るかもしれない。同じように、コンピュータあるいは他の機器は卓上会議であるいはデジタルオーディオの送信と受信のために使用され得る、そしてこれらの機器もまた開示した技術によって益を得るかもしれない。
【0058】
本開示の技術は、電子回路、コンピュータハードウェア、ファームウェア、ソフトウェア、あるいはこれらのどの組み合わせにも実装され得る。例えば、開示した技術は、プログラムで制御できる制御機器に開示した技術を実行させるために、プログラム記憶機器に記憶された命令として実装され得る。プログラム命令及びデータを明白に具体化するのに適したプログラム記憶機器は、例えばEPROM、EEPROM、フラッシュメモリ機器のような半導体メモリ機器、内蔵されたハードディスク及び取り外し可能なディスクのような磁性ディスク、磁性-光学式ディスク、CD-ROMディスクを一例として含んでいる、不揮発性メモリの全ての種類を含む。前述のどれもがASICs(Application Specific Integrated Circuit)によって補われ得るあるいは組み込まれ得る。
【0059】
前述の好ましい実施例の説明と他の実施例は、その範囲あるいは出願人によって考え出された発明概念の適用を制限又は妨げることを意味しない。ここに含まれる発明概念を開示する代わりに、出願人は付加された請求項によって与えられる全ての特許権利を望む。そのため、付加された請求項は全ての改良及び変更を含むこと、それらが次の請求項の範囲又はその同等物に入る全ての範囲を意図する。
【符号の説明】
【0060】
10A 送信機、12 マイクロフォン、14 オーディオブロック、16 コーデック、20 インターネット、10B 受信機、13 ラウドスピーカ、254 デコーディング、256 逆量子化、258 変換シンセサイザー、260 逆変換部。

【特許請求の範囲】
【請求項1】
ネットワークを介してオーディオ処理機器で複数のパケットセットを受信するステップであって、前記複数のパケットセットの各セットは1以上のパケットを有し、各パケットは変換コーディングを受けた時間領域のオーディオ信号を再構成するための周波数領域の変換係数を有するものと、
前記受信したセットの所与の1つにおいて1以上の不足パケットを判定するステップと、
前記所与のセットの前に配列された第1セット内の1以上の第1パケットの第1変換係数に第1重みを適用するステップと、
前記所与のセットの後に配列された第2セット内の1以上の第2パケットの第2変換係数に第2重みを適用するステップと、
前記重み付けられた第1及び第2変換係数を合計することによって変換係数を補間するステップと、
前記1以上の不足パケットに前記補間された変換係数を挿入するステップと、
前記変換係数を逆変換処理することによって前記オーディオ処理機器のための出力オーディオ信号を生成するステップと
を備えるオーディオ処理方法。
【請求項2】
前記オーディオ処理機器は、オーディオ会議エンドポイント、ビデオ会議エンドポイント、オーディオ再生機器、パーソナル音楽プレーヤー、コンピュータ装置、サーバ装置、電気通信機器、携帯電話、携帯情報端末からなるグループから選択されることを特徴とする請求項1に記載の方法。
【請求項3】
前記ネットワークは、インターネットプロトコルネットワークからなることを特徴とする請求項1に記載の方法。
【請求項4】
前記変換係数は、変調重複変換係数からなることを特徴とする請求項1に記載の方法。
【請求項5】
前記各セットは1つのパケットを有し、該1つのパケットは入力オーディオフレームを含むことを特徴とする請求項1に記載の方法。
【請求項6】
前記受信するステップは、パケットを復号化することを含む請求項1に記載の方法。
【請求項7】
前記受信するステップは、前記復号化したパケットを逆量子化することを含む請求項6に記載の方法。
【請求項8】
前記1以上の不足パケットを判定するステップは、バッファに受信したパケットを配列することと当該配列からギャップを見つけることとを含む請求項1に記載の方法。
【請求項9】
前記変換係数を補間するステップは、前記重み付けられた第1及び第2変換係数を合計した前記変換係数に任意の正又は負の符号を割り当てることを含む請求項1に記載の方法。
【請求項10】
前記第1及び第2変換係数に適用される前記第1及び第2重みは、オーディオ周波数に基づいていることを特徴とする請求項1に記載の方法。
【請求項11】
前記オーディオ周波数が閾値を下回る場合、前記第1重みは第1変換係数に重きを置き、前記第2重みは第2変換係数に重きを置かないことを特徴とする請求項10に記載の方法。
【請求項12】
前記閾値は1kHzであることを特徴とする請求項11に記載の方法。
【請求項13】
前記第1変換係数は75パーセントで重み付けられ、前記第2変換係数はゼロにされることを特徴とする請求項11に記載の方法。
【請求項14】
前記オーディオ周波数が前記閾値を上回る場合、前記第1及び第2重みは第1及び第2変換係数に等しく重み付けすることを特徴とする請求項10に記載の方法。
【請求項15】
前記第1及び第2変換係数は、50パーセントで両方とも重み付けられることを特徴とする請求項14に記載の方法。
【請求項16】
前記第1及び第2変換係数に適用される第1及び第2重みは、不足パケットの数に基づいていることを特徴とする請求項1に記載の方法。
【請求項17】
前記所与のセットにおいてパケットが1つ不足するとき、
該不足パケットに関連するオーディオ周波数が閾値を下回る場合に、前記第1重みは前記第1変換係数に重きを置き、前記第2重みは前記第2変換係数に重きを置かないようにし、
前記オーディオ周波数が閾値を上回る場合に、前記第1及び第2重みは前記第1及び第2変換係数に等しく重み付けすること
を特徴とする請求項16に記載の方法。
【請求項18】
前記所与のセットにおいてパケットが2つ不足するとき、
前記第1重みは、該不足する2つのパケットの先行するパケット用の第1変換係数に重きを置き、該不足する2つのパケットの後続するパケット用の第1の変換係数に重きを置かないように重み付を行うものであり、
前記第2重みは、前記先行するパケット用の第2変換係数に重きを置かず、前記後続するパケット用の第2変換係数に重きを置くように重み付を行うものであること
を特徴とする請求項16に記載の方法。
【請求項19】
前記重きを置かれた係数は90パーセントで重み付けられて、前記重きを置かない係数はゼロにされることを特徴とする請求項18に記載の方法。
【請求項20】
前記所与のセットにおいて3つ以上のパケットが不足しているならば、
前記第1重みは、前記セット中の最初のパケット用の第1変換係数に重きを置き、前記セット中の最後のパケット用の第1の変換係数に重きを置かないように重み付を行うものであり、、
前記第1及び第2重みは、前記パケットの1以上の中間にあるパケット用の第1及び第2変換係数に等しく重み付けするものであり、
前記第2重みは、前記セット中の最初のパケット用の第2変換係数に重きを置かず、前記セット中の最後のパケット用の第2変換係数に重きを置くように重み付を行うものであること
を特徴とする請求項16に記載の方法。
【請求項21】
前記重きを置かれた係数は90パーセントで重み付けられること、前記あまり重きを置かない係数はゼロにされること、前記等しく重み付けされる係数は40パーセントで重み付けられることを特徴とする請求項20に記載の方法。
【請求項22】
請求項1乃至21のいずかに記載のオーディオ処理方法における前記各ステップをコンピュータに実行させるためのプログラム。
【請求項23】
オーディオ出力インタフェースと、
少なくとも1つのネットワークと通信し、オーディオの複数のパケットセットを受信するネットワークインタフェースであって、前記複数のパケットセットの各セットは1以上のパケットを有し、各パケットは周波数領域の変換係数を有するものと、
前記ネットワークインタフェースと通信し、受信したパケットを記憶する記憶手段と、
前記記憶手段及び前記オーディオ出力インタフェースと通信する処理手段であって、当該処理手段が、
前記受信したセットの所与の1つにおいて1以上の不足パケットを判定し、
前記所与のセットの前に配列された第1セット内の1以上の第1パケットの第1変換係数に第1重みを適用し、
前記所与のセットの後に配列された第2セット内の1以上の第2パケットの第2変換係数に第2重みを適用し、
前記重み付けられた第1及び第2変換係数を合計することによって変換係数を補間し、
前記1以上の不足パケットに前記補間された変換係数を挿入し、
前記オーディオ出力インタフェースのための時間領域において出力オーディオ信号を生成するために前記変換係数を逆変換処理する、
ように構成されたオーディオデコーダとしてプログラムされている前記処理手段と
を具備するオーディオ処理装置。
【請求項24】
前記オーディオ処理装置は会議エンドポイントを構成することを特徴とする請求項23に記載のオーディオ処理装置。
【請求項25】
さらに前記オーディオ出力インタフェースに伝達可能に接続されたスピーカを備える請求項23に記載のオーディオ処理装置。
【請求項26】
さらにオーディオ入力インタフェースと、前記オーディオ入力インタフェースに伝達可能に接続されたマイクロフォンとを備える請求項23に記載のオーディオ処理装置。
【請求項27】
前記処理手段が、前記オーディオ入力インタフェースと通信するようになっており、かつ、
オーディオ信号の時間領域サンプルのフレームを周波数領域変換係数に変換し、
前記変換係数を量子化し、
前記量子化した変換係数を符号化する
ように構成されたオーディオエンコーダとしてプログラムされていることを特徴とする請求項26に記載のオーディオ処理機器。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7A】
image rotate

【図7B】
image rotate

【図7C】
image rotate


【公開番号】特開2011−158906(P2011−158906A)
【公開日】平成23年8月18日(2011.8.18)
【国際特許分類】
【出願番号】特願2011−17313(P2011−17313)
【出願日】平成23年1月28日(2011.1.28)
【出願人】(509270096)ポリコム,インク. (18)
【Fターム(参考)】