変換補間によるオーディオパケット損失補償

【課題】オーディオ又はビデオ会議等のためのオーディオ処理において、パケット伝送過程でのパケット損失を補償する方法を提供する。
【解決手段】オーディオ処理において、端末は変換コーディングを受けたオーディオ信号を再構成するための変換係数を有するオーディオパケットを受信する。該パケットを受信すると、前記端末は不足パケットがあるかないかを判定し、前後する正常なフレームから変換係数を補間する。不足係数を補間するために、前記端末は第１の重みを持つ先行する正常なフレームから第１の係数を重み付ける、第２の重みを持つ後続する正常なフレームから第２の係数を重み付ける、そして前記不足パケットへの挿入のためにこれらの重み付けられた係数を一緒にまとめる。前記重みは、オーディオ周波数及び／又は関連する前記不足パケット番号に基づき得る。この補間から、前記端末は前記係数を逆変換することによって出力オーディオ信号を生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、オーディオ又はビデオ会議等のためのオーディオ処理装置に関し、パケット伝送過程でのパケット損失を補償する技術に関する。
【背景技術】
【０００２】
あらゆる種類のシステムは、オーディオ信号を生成する又はそのような信号から音を再生するために、オーディオ信号処理を使用する。一般的に、前記信号処理はオーディオ信号をデジタルデータに変換し、ネットワークを介した伝送のために当該データを符号化する。次に、前記信号処理は音響波形のような再生のために、前記データを復号化しそれをアナログ信号に戻す変換を行う。
いろいろな方法が、オーディオ信号を符号化又は復号化するために存在する。（信号を符号化及び復号化するプロセッサや処理モジュールは、一般的にコーデックとして言及される。）例えば、オーディオ又はビデオ会議のためのオーディオ処理は、結果として生じる変換信号はビット最小数を必要とするが最も良い品質を維持するように、Hi-Fi（ハイファイ）オーディオ入力を圧縮するためにオーディオコーデックを用いる。このようにして、オーディオコーデックを有する会議開催設備はより少ない記憶容量を必要とし、オーディオ信号を伝送する前記設備によって用いられる通信チャンネルはより小さな帯域幅を必要とする。
【０００３】
参照によって本開示に含まれる「7kHz audio-coding within 64 kbit/s,」と題名付けられた、ＩＴＵ‐Ｔ（国際電気通信連合の電気通信標準化部門）勧告Ｇ．７２２（１９８８）は、６４ｋｂｉｔ／ｓ内で７ｋＨｚオーディオコーディングの方法を記述する。ＩＳＤＮ回線は、６４ｋｂｉｔ／ｓのデータ伝送容量を有する。この方法は本質的に、３ｋＨｚから７ｋＨｚまでＩＳＤＮ回線を使う電話回線網を通じてオーディオの帯域幅を増加する。知覚されるオーディオ品質は改善される。この方法は既存の電話回線網を通じて高品質オーディオを提供するけれども、一般的に電話会社から通常の狭帯域電話サービスよりも高価であるＩＳＤＮサービスを必要とする。
【０００４】
電気通信での使用に推奨されるごく最近の方法は、この参照より開示に含まれる「Low-complexity coding at 24 and 32 kbit/s for hands-free operation in system with low frame loss,」と題名付けられた、ＩＴＵ‐Ｔ勧告Ｇ．７２２．１（２００５）がある。この勧告は、Ｇ．７２２よりも低い、２４ｋｂｉｔ／ｓ又は３２ｋｂｉｔ／ｓのビットレートで動作する、７ｋＨｚに５０Ｈｚのオーディオ帯域幅を供給するデジタル広帯域コーダーアルゴリズムを記述する。このデータレートで、通常のアナログ電話回線を使う通常のモデムを有する電話は広帯域オーディオ信号を伝送できる。したがって、２つの終端に設置する電話がＧ．７２２．１に記述されるように符号化／復号化を実行できさえすれば、最現行の電話回線は広帯域の会話をサポートすることができる。
【０００５】
いくつかの広く用いられたオーディオコーデックは、ネットワークを介して伝送されたオーディオデータを符号化又は復号化するために、変換コーディング技術を使用する。例えば、この参照より開示に含まれるＩＴＵ‐Ｔ勧告Ｇ．７２２．１．Ｃ（Ｐｏｌｙｃｏｍ（商標）Ｓｉｒｅｎ１４）のみならずＩＴＵ‐Ｔ勧告Ｇ．７１９（Ｐｏｌｙｃｏｍ（商標）Ｓｉｒｅｎ２２）も、伝送のためにオーディオを圧縮するため周知の変調重複変換（ＭＬＴ）コーディングを使用する。周知のように、変調重複変換（ＭＬＴ）は信号のいろいろな種類の変換コーディングのために使用されるコサインモジュレイトフィルタバンクの形式である。
【０００６】
一般的に、Ｌ＞Ｍの条件で、重複変換は長さＬのオーディオブロックを取得しそのブロックをＭ係数に変換する。これが機能するために、合成された信号が変換された係数の連続するブロックを使って取得され得るように、Ｌ‐Ｍサンプルの連続したブロックの間に重複がある。
【０００７】
変調重複変換（ＭＬＴ）に関し、オーディオブロックの長さＬは重複がＭであるから係数の番号Ｍに等しい。したがって、直接（解析）変換のためのＭＬＴ基底関数は、
【数１】

により与えられる。
【０００８】
同様に、逆（合成）変換のためのＭＬＴ基底関数は、
【数２】

により与えられる。
【０００９】
これらの方程式において、Ｍはブロックサイズであり、周波数インデックスｋは０からＭ−１まで変化し、時間インデックスｎは０から２Ｍ−１まで変化する。最後に、
【数３】

は、用いられた完全な再構成ウィンドウである。
【００１０】
ＭＬＴ係数は、下記のとおりこれらの基底関数から決定される。直接変換行列Ｐａは、ｎ番目の行とｋ番目の列における項目がｐａ（ｎ，ｋ）であるものである。同様に、逆変換行列Ｐｓは項目ｐｓ（ｎ，ｋ）を持っているものである。入力信号ｘ（ｎ）の２Ｍ入力サンプルのブロックｘに関し、その対応する変換係数のベクトル
【数４】

は
【数５】

によって計算される。代わって、処理された変換係数のベクトル
【数６】

に関し、再構成された２Ｍサンプルベクトルｙは
【数７】

によって与えられる。最終的に、再構成されたｙベクトルはＭ‐サンプルの重複で相互に重ね合わせられ、出力用の再構成された信号ｙ（ｎ）を生成する。
【００１１】
図１は、本明細書において送信機として動作する第１端末１０Ａが受信機として動作する第２端末１０Ｂに圧縮したオーディオ信号を送る、一般的なオーディオ又はビデオ会議の手順を示す。送信機１０Ａと受信機１０Ｂの両方は、例えばＧ．７２２．１．Ｃ（Ｐｏｌｙｃｏｍ（商標）Ｓｉｒｅｎ１４）やＧ．７１９（Ｐｏｌｙｃｏｍ（商標）Ｓｉｒｅｎ２２）で使われたような、変換コーディングを実行するオーディオコーデック１６を有する。
【００１２】
送信機１０Ａにおけるマイクロフォン１２はソースオーディオを獲得し、電子回路は一般的に２０ミリ秒の幅を持つオーディオブロック１４としてソースオーディオをサンプリングする。この時点で、オーディオコーデック１６の変換は、オーディオブロック１４を周波数領域変換係数の複数のセットに変換する。それぞれの変換係数は重要度を有し、正又は負であるかもしれない。当該分野で周知の技術を用いて、これらの係数は次に量子化され（１８）、符号化され、そして例えばインターネットのようなネットワーク２０を介して受信機に送られる。
【００１３】
受信機１０Ｂにおいて、リバース処理は前記符号化された係数を復号化及び逆量子化する（１９）。最終的に、受信機１０Ｂにおけるオーディオコーデック１６は、受信機のラウドスピーカー１３における最終的な再生用の出力オーディオブロック１４を生成するための前記時間領域にそれらを戻す変換を行うために、前記係数で逆変換を実行する。
【００１４】
オーディオパケット損失は、例えばインターネットのようなネットワークを介したビデオ会議及びオーディオ会議の共通問題である。周知のように、オーディオパケットはオーディオの小さい断片を意味する。送信機１０Ａが変換係数のパケットをインターネット２０を介して受信機１０Ｂへ送る場合、いくつかのパケットは伝送の間に失われ得る。いったん出力オーディオが生成されると、前記失われたパケットはラウドスピーカー１３によって出力されるものの中に無音のギャップを生成する。したがって、受信機１０Ｂは望ましくはこうしたギャップを、送信機１０Ａから既に受信済みであるそれらのパケットから合成されたオーディオのなんらかの形で満たす。
【００１５】
図１に示すように、受信機１０Ｂは失われたパケットを検出するロストパケット検出モジュール１５を有する。次に、オーディオを出力する場合、オーディオ中継器１７はこのような失われたパケットによって生じたギャップを満たす。前記オーディオ中継器１７により用いられる既存技術は、パケットロスより前に送られた最も新しいオーディオ断片を時間領域で頻繁に繰り返すことによって、オーディオ内のそのようなギャップを簡単に満たす。効果的であるけれども、ギャップを満たすためにオーディオを繰り返す既存技術は、結果として生じるオーディオ内にバズ音及び機械的な人為音を生成し、そしてユーザはそのような人為音が不愉快であることに気付く傾向がある。さらに、もし５％以上もしパケットが失われるならば、前記現行技術はますますわかりにくいオーディオを生成する。
【００１６】
結果として、より良いオーディオ品質を生成しバズ音及び機械的な人為音を避ける方法でインターネットを介した会議を行う場合に、必要とされるものは失われたオーディオ断片を処置する技術である。
【発明の概要】
【００１７】
ここに開示したオーディオ処理技術は、オーディオ又はビデオ会議のために用いられ得る。当該処理技術において、端末は変換コーディングを受けたオーディオ信号を再構成するための変換係数を有するオーディオパケットを受信する。パケットを受信する場合、前記端末は不足パケットがあるかどうかを判定し、前記不足パケット用の係数として挿入するために、前後する正常なフレームから変換係数を補間する。不足する係数を補間するために、例えば、前記端末は第１の重みを持つ先行する正常なフレームから第１の係数を重み付ける、第２の重みを持つ後続する正常なフレームから第２の係数を重み付ける、そして前記不足パケットへの挿入のためにこれらの重み付けられた係数を一緒に合計する。前記重みは、オーディオ周波数及び／又は関連した不足パケットの数に基づき得る。この補間から、前記端末は前記係数を逆変換することによって出力オーディオ信号を生成する。
【００１８】
前述の概要は、潜在的にあり得る各実施態様やこの開示の全ての概念を要約することを意図するものではない。
【図面の簡単な説明】
【００１９】
【図１】送信機と受信機とを有し、従来技術に基づく失われたパケット技術を用いる会議手順を示す。
【００２０】
【図２Ａ】送信機と受信機とを有し、この開示に基づく失われたパケット技術を用いる会議手順を示す。
【００２１】
【図２Ｂ】さらに詳細に会議端末を示す。
【００２２】
【図３Ａ】変換コーディングコーデックのエンコーダを示す。
【図３Ｂ】変換コーディングコーデックのデコーダを示す。
【００２３】
【図４】コーディング、デコーディング、この開示に基づく失われたパケット取扱技術のフローチャートである。
【００２４】
【図５】この開示に基づく失われたパケットにおける変換係数の補間手順を図式的に示す。
【００２５】
【図６】補間手順のための補間ルールを図式的に示す。
【００２６】
【図７Ａ】不足パケットのための変換係数を補間するために使用される重みを示す。
【図７Ｂ】不足パケットのための変換係数を補間するために使用される重みを示す。
【図７Ｃ】不足パケットのための変換係数を補間するために使用される重みを示す。
【発明を実施するための形態】
【００２７】
図２Ａは、本明細書において送信機として動作する第１端末１００Ａが受信機として動作する第２端末１００Ｂに圧縮したオーディオ信号を送る、オーディオ処理手順を示す。送信機１００Ａと受信機１００Ｂの両方とも、例えばＧ．７２２．１．Ｃ（Ｐｏｌｙｃｏｍ（商標）Ｓｉｒｅｎ１４）やＧ．７１９（Ｐｏｌｙｃｏｍ（商標）Ｓｉｒｅｎ２２）において用いられたような、変換エンコーディングを実行するオーディオコーデック１１０を有する。この議論に関し、送信機と受信機１００Ａ‐Ｂは、オーディオ機器の他の種類であるかもしれないけれども、オーディオ又はビデオ会議におけるエンドポイントであり得る。
【００２８】
動作中、送信機１００Ａにおけるマイクロフォン１０２はソースオーディオを獲得し、電子回路は典型的には２０ミリ秒の幅のブロック又はフレームをサンプリングする。（議論は同時にこの開示に基づく失われたパケット取扱技術３００を示す図４におけるフローチャートを参照する。）この時点で、オーディオコーデック１１０の変換は、それぞれのオーディオブロックを周波数領域の変換係数のセットに変換する。これを行うために、前記オーディオコーデック１１０は時間領域においてオーディオデータを受信し（ブロック３０２）、２０ミリ秒オーディオブロック又はフレームを取り込み（ブロック３０４）、前記ブロックを変換係数に変換する（ブロック３０６）。それぞれの変換係数は大きさを持っており、また、正又は負であるかもしれない。
【００２９】
当該分野で周知の技術を用いて、これらの変換係数は次に量子化１１５において量子化されそして符号化され（ブロック３０８）、そして例えばＩＰ（インターネットプロトコル）ネットワーク、ＰＳＴＮ（公衆交換電話網）、ＩＳＤＮ（統合サービスデジタル網）、あるいは同種のもののような、ネットワーク１２５を介して、送信機１００Ａはパケット内の前記符号化された変換係数を受信機１００Ｂに送る（ブロック３１０）。前記パケットは、どんな適合するプロトコルや規格にでも使用することができる。例えば、オーディオデータは目次に続くかもしれないし、オーディオフレームを構成する全てのオクテットはユニットとしてペイロードに追加され得る。例えば、オーディオフレームの詳細は、開示に含まれるＩＴＵ‐Ｔ勧告Ｇ．７１９及びＧ．７２２．１．Ｃに記載されている。
【００３０】
受信機１００Ｂにおいて、インタフェース１２０はパケットを受信する（ブロック３１２）。パケットを送信する場合、送信機１００Ａは送られたそれぞれのパケットに含められる順番号を生成する。周知のように、パケットは送信機１００Ａから受信機１００Ｂまでネットワーク１２５を介した異なるルートで通過し得る、そしてパケットは受信機１００Ｂにいろいろな時間に到着し得る。したがって、到着するパケットの順序は任意であり得る。
【００３１】
「ジッター」と呼ばれる、このような変動する到着時間を扱うために、受信機１００Ｂは受信インタフェース１２０につながれたジッターバッファ１３０を有する。一般的に、ジッターバッファ１３０は一度に４以上のパケットを保留する。それゆえに、受信機１００Ｂはこれらの順番号に基づきジッターバッファ１３０内のパケットを再順序付ける（ブロック３１４）。
【００３２】
パケットは受信機１００Ｂに順序外に到着するかもしれないけれども、ロストパケットハンドラー１４０はジッターバッファ１３０内のパケットを適切に再順序付け、その順序に基づき失われた（不足している）パケットを検出する。ジッターバッファ１３０内のパケットの順序番号にギャップがあるときに、失われたパケットが明らかにされる。例えば、ハンドラー１４０がジッターバッファ１３０内で順序番号００５，００６，００７，０１１を見つけるならば、ハンドラー１４０は失くしたものとしてパケット００８，００９，０１０を明らかにする。実際には、これらのパケットは実質的には失われていないかもしれないし、それらの到着が遅れているだけかもしれない。さらに、待ち時間及びバッファ長制限によって、受信機１００Ｂはある閾値を超えて遅れて到着するどのパケットをも放棄する。
【００３３】
続くリバース処理において、受信機１００Ｂは符号化された変換係数を復号化及び逆量子化する（ブロック３１６）。ハンドラー１４０が失われたパケットを検出しているならば（判定３１８）、該ロストパケットハンドラー１４０は失われたパケットのギャップに前後した正常なパケットが何かを知る。この知識を使って、新しい変換係数が失われたパケットから不足する係数の箇所に置き換えられることのできるように、変換シンセサイザー１５０は失われたパケットの不足変換係数を得るか補間する（ブロック３２０）。（この例において、変換係数がＭＬＴ係数としてここに参照され得るように、オーディオコーデックはＭＬＴコーディングを使用する。）この段階で、受信機１００Ｂにおけるオーディオコーデック１１０は、前記係数についての逆変換を実行してそれらを時間領域に戻し、受信機のラウドスピーカーのための出力オーディオを生成する（ブロック３２２‐３２４）。
【００３４】
上述の処理に見られるように、失われたパケットを検出してギャップを満たすために受信オーディオの前の断片を頻繁に繰り返すのではなく、むしろ、ロストパケットハンドラー１４０は、変換ベースのコーデック１１０用の失われたパケットを失われた変換係数のセットとして取り扱う。変換シンセサイザー１５０は、次に、隣接するパケットから派生させた合成された変換係数で、失われたパケットにおける失われた変換係数のセットを差し替える。その結果、失われたパケットに起因するオーディオギャップのない、十分なオーディオ信号が、係数の逆変換を使用して、受信機１００Ｂで生成され出力され得る。
【００３５】
図２Ｂは、さらに詳細に会議エンドポイント又は端末１００を概略的に示す。図示のように、会議端末１００はＩＰネットワーク１２５上の送信機及び受信機の両方であり得る。図示のようにまた、会議端末１００はオーディオ能力と同様にビデオ会議能力をも有し得る。一般的に、端末１００はマイクロフォン１０２及びスピーカ１０４を有し、そして例えばビデオカメラ１０６、ディスプレイ１０８、キーボード、マウスなどのような、種々の他の入力／出力機器を有し得る。さらに、端末１００はプロセッサ１６０、メモリ１６２、コンバータエレクトロニクス１６４、特定のネットワーク１２５に適したネットワークインタフェース１２２／１２４を有する。オーディオコーデック１１０は、適当なプロトコルに従って標準ベースの会議をネットワーク化された端末に提供する。これらの標準は、メモリ１６２に記憶され、プロセッサ１６０上、専用のハードウェア上で実行される、あるいはその組み合わせで用いられる、ソフトウェア内に完全に組み入れられているかもしれない。
【００３６】
送信経路において、マイクロフォン１０２によりピックアップされたアナログ入力信号は、コンバータエレクトロニクス１６４によってデジタル信号に変換され、そして端末のプロセッサ１６０で動作するオーディオコーデック１１０は、例えばインターネットのようなネットワーク１２５上の送信インタフェース１２２を介して伝送のためにデジタルオーディオ信号を符号化するエンコーダ２００を有する。また、もしそれがあるならば、ビデオエンコーダ１７０を有するビデオコーデックは、ビデオ信号のために上述と同様な機能を実行することができる。
【００３７】
受信経路において、端末１００はオーデイオコーデック１１０につながれたネットワーク受信インタフェース１２４を有する。デコーダ２５０は受信した信号を復号化し、コンバータエレクトロニクス１６４はラウドスピーカ１０４へ出力するためにデジタル信号をアナログ信号に変換する。また、もしそれがあるならば、ビデオデコーダ１７５が有するビデオコーデックは、ビデオ信号のために上述と同様な機能を実行することができる。
【００３８】
図３Ａ及び図３Ｂは、例えばＳｉｒｅｎコーデックのような変換コーディングコーデックの特徴を簡単に示す。特定のオーディオコーデックの実際の詳細は、実装及び用いられたコーデックのタイプによって決まる。Ｓｉｒｅｎ１４の周知の詳細はＩＴＵ‐Ｔ勧告Ｇ．７２２．１ＡｎｎｅｘＣに見いだされ得る、そしてＳｉｒｅｎ２２の周知の詳細は、両方ともが参照により本開示に含まれるＩＴＵ‐Ｔ勧告Ｇ．７１９（２００８）「Low-complexity, full-band audio coding for highquality, conversational applications,」に見いだされ得る。オーディオ信号の変換コーディングに関連する付加的な詳細もまた、参照により本開示に含まれるＵＳ特許出願第１１／５５０，６９２号と第１１／５５０，６８２号に見いだされ得る。
【００３９】
変換コーディングコーデック（例えばＳｉｒｅｎコーデック）のためのエンコーダ２００が、図３Ａに示される。エンコーダ２００は、アナログオーディオ信号から変換されたデジタル信号２０２を受信する。例えば、デジタル信号２０２は、約２０ミリ秒ブロックあるいはフレームにおいて４８ｋＨｚ又は他のレートでサンプルされ得る。離散コサイン変換（ＤＣＴ）であるかもしれないトランスフォーム２０４は、デジタル信号２０２を時間領域から変換係数を有する周波数領域に変換する。例えば、トランスフォーム２０４は、それぞれのオーディオブロック又はフレームのために９６０個の変換係数のスペクトラムを生成することができる。エンコーダ２００は、標準化２０６において変換のための平均エネルギーレベル（基準）を見つける。次に、エンコーダ２０２は、ファスト格子ベクトル量子化（ＦＬＶＱ）アルゴリズム２０８若しくは同様の手段で係数を量子化し、パケット化及び伝送のために出力信号２１０を符号化する。
【００４０】
変換コーディングコーデック（例えばＳｉｒｅｎコーデック）のためのデコーダ２５０が、図３Ｂに示される。デコーダ２５０はネットワークから受信した入力信号２５２の入力ビットストリームを取得し、それからオリジナル信号の最も良い推定値を再現する。これを行うために、デコーダ２５０は入力信号２５２において格子デコーディング（逆ＦＬＱＶ）２５４を実行し、逆量子化２５６を用いて復号化された変換係数を逆量子化する。また、変換係数のエネルギーレベルは種々の周波数帯域において修正されてよい。
【００４１】
この時点で、変換シンセサイザー２５８は不足パケットのために係数を補間することができる。最終的に、逆変換部２６０は、逆ＤＣＴとして作動し、出力信号２６２として伝送するために、信号を時間領域から周波数領域に戻す変換を行う。以上のように、変換シンセサイザー２５８は不足パケットから結果的に生じ得るギャップを満たすのに役立つ。さらに、デコーダ２５０の既存の機能及びアルゴリズムの全ては同じ状態のままである。
【００４２】
上に提供された端末１００及びオーディオコーデック１１０の理解を基にして、隣接するフレームからの正しい係数、ブロック、あるいはネットワークを介して受信したパケットセットを用いることによって、どのようにオーディオコーデック１１０は不足パケットのための変換係数を補間するかにつき、以下説明する。（以下述べる議論はＭＬＴ係数に関して提示されるが、ここで開示される補間処理は変換コーディングの他の形式のための他の変換係数においても同様に適用し得る。）
【００４３】
図５に概略的に示されるように、失われたパケット内の変換係数を補間するためのプロセス４００は、先行する正常なフレーム、ブロック、あるいはパケットセット（すなわち失われたパケットを除く）（ブロック４０２）から、そして後続する正常なフレーム、ブロック、パケットセット（ブロック４０４）から、補間ルール（ブロック４１０）を変換係数に適用することを伴う。したがって、補間ルール（ブロック４１０）は、所与の１セット内の失われたパケットの数を決定し、正常なセットの変換係数から取り出す（ブロック４０２／４０４）。次に、プロセス４００は、所与のセット内への挿入のために、失われたパケット用の新しい変換係数を補間する（ブロック４１２）。最終的に、プロセス４００は逆変換（ブロック４１４）を実行し、出力オーディオセットを合成する（ブロック４１６）。
【００４４】
図６は、より詳細に補間処理のための補間ルール５００を図式的に示す。上述したように、補間ルール５００は、フレーム、オーディオブロック、あるいはパケットセット内の失われたパケットの数の関数である。実際のフレームサイズ（ビット／オクテット）は、変換コーディングアルゴリズム、ビットレート、フレーム長、使用されたサンプルレートによって決まる。例えば、４８ｋＢｉｔ／ｓビットレート、３２ｋＨｚサンプルレート、２０ミリ秒のフレーム長におけるＧ．７２２．１ＡｎｎｅｘＣに関し、フレームサイズは９６０ビット／１２０オクテットであろう。Ｇ．７１９、フレーム長が２０ミリ秒、サンプリングレートが４８ｋＨｚであるものに関し、ビットレートは２０ミリ秒フレームの境目で３２ｋＢｉｔ／ｓと１２８ｋＢｉｔ／ｓとの間に変えられ得る。Ｇ．７１９のためのペイロードフォーマットは、ＲＦＣ５４０４に定められている。
【００４５】
概ね、失われた所定のパケットは１以上のオーディオフレーム（例えば２０ミリ秒）を有し得るし、フレームの一部だけを含み得るし、１以上のオーディオチャンネルのために１以上のフレームを有することができ、１以上の異なるビットレートで１以上のフレームを有することができ、当業者に知られている他の複雑なことができて、特定の変換コーディング及び使用されたペイロードフォーマットと関連付けられる。しかしながら、所定の実装において、不足パケットのための不足変換係数を補間するために用いた補間ルール５００は、特定の変換コーディングとペイロードフォーマットに適合させることができる。
【００４６】
図示のように、先行する正常なフレーム又はセット５１０の変換係数（ＭＬＴ係数としてここに示される）はＭＬＴ_A（ｉ）と呼ばれ、後続する正常なフレーム又はセット５３０のＭＬＴ係数はＭＬＴ_B（ｉ）と呼ばれる。オーディオコーデックがＳｉｒｅｎ２２を使うならば、インデックス（ｉ）は０から９５９までの範囲で変化する。不足パケット用の補間されたＭＬＴ係数５４０の絶対値のために、包括的な補間ルール５２０は、前後するＭＬＴ係数（５１０／５３０）に適用された重み（５１２／５３２）に基づいて、次のとおり、決定される。
【数８】

【００４７】
包括的な補間ルールにおいて、不足フレーム又はセットの補間されたＭＬＴ係数、ＭＬＴ_Interpolated（ｉ）、５４０のための符号５２２は、等しい確率で正負のどちらにも任意にセットされる。このランダム性は、これらの再構成されたパケットから結果的に生じるオーディオ音が、より自然にかつそれほど自動化されずに発っせられるのを助け得る。
【００４８】
このような方法でＭＬＴ係数を補間（５４０）した後に、変換シンセサイザー（１５０、図２Ａ）は不足パケットのギャップを満たし、それから、受信機（１００Ｂ）におけるオーディオコーデック（１１０、図２Ａ）は、出力信号を再構成するためのその合成動作を終えることができる。周知技術を用いて、例えば、オーディオコーデック（１１０）は、処理された変換係数のベクトル（前記数６に示すベクトル）を取得する。このベクトルは、受信された正常なＭＬＴ係数及び必要な場合に充填される補間されたＭＬＴ係数を含む。このベクトル（前記数６に示すベクトル）から、コーデック（１１０）は上記数７に示す式によって与えられる２Ｍサンプルベクトルｙを再構成する。最終的に、処理が続くにつれて、シンセサイザー（１５０）は再構成されたｙベクトルを取得し、Ｍサンプルの重複部分にそれらを重ね、受信機（１００Ｂ）で出力するための再構成された信号ｙ（ｎ）を生成する。
【００４９】
不足パケットの数が異なるとき、補間ルール５００は補間されたＭＬＴ係数５４０を決定するために、前後するＭＬＴ係数５１０／５３０に異なる重み５１２／５３２を適用する。以下は、不足パケットの数と他のパラメータに基づき、重みＡと重みＢ、２つの重み要素を決定するための特別なルールである。
１．１つの失われたパケット
【００５０】
図７Ａに図示されるように、ロストパケットハンドラー（１４０、図２Ａ）は、対象のフレーム又はパケットセット６２０内のたった１つの失われたパケットを検出し得る。たった１つのパケットが失われているならば、ハンドラー（１４０）は、失われたパケットに関連したオーディオ周波数（例えば、失われたパケットに先行する最新のオーディオ周波数）に基づき、失われたパケット用の不足ＭＬＴ係数を補間するために重み要素（重みＡ、重みＢ）を使う。下の表に示されるように、先行するフレーム又はセット６１０Ａ内の対応するパケットのための重み要素（重みＡ）、後続するフレーム又はセット６１０Ｂ内の対応するパケットのための重み要素（重みＢ）は、以下に示す最新のオーディオの１ｋＨｚ周波数に関連して決定され得る。
表１

周波数 | 重みＡ | 重みＢ
１ｋＨｚより下 | ０．７５ | ０．０
１ｋＨｚより上 | ０．５ | ０．５

２．２つの失われたパケット
【００５１】
図７Ｂに図示されるように、ロストパケットハンドラー（１４０）は、対象のフレーム又はセット６２２内の２つの失われたパケットを検出し得る。この状態で、ハンドラー（１４０）は、以下に示すように、前後するフレーム又はセット６１０Ａ、６１０Ｂの対応するパケットにおいて、失われたパケット用のＭＬＴ係数を補間するために、重み要素（重みＡ、重みＢ）を使う。
表２

失われたパケット | 重みＡ | 重みＢ
最初の（より古い）パケット | ０．９ | ０．０
最後の（より新しい）パケット | ０．０ | ０．９
【００５２】
それぞれのパケットが１つのオーディオフレーム（例えば２０ミリ秒）を含むならば、次に図７Ｂのそれぞれのセット６１０Ａ‐Ｂと６２２は、図７Ｂに描かれるように、付加的なパケットがセット６１０Ａ‐Ｂと６２２内に実はないかもしれないいくつかのパケット（すなわち、いくつかのフレーム）を本来含むであろう。
３．３乃至６つの失われたパケット
【００５３】
図７Ｃに図示されるように、ロストパケットハンドラー（１４０）は、対象のフレーム又はセット６２４内の３乃至６つの失われたパケット（３つが図７Ｃに示される）を検出し得る。３乃至６つの失われたパケットは、所定の時間間隔毎に失われているパケットの２５％だけを表し得る。この状態で、ハンドラー（１４０）は、以下に示すように、前後するフレーム又はセット６１０Ａ、６１０Ｂの対応するパケットにおいて、失われたパケット用のＭＬＴ係数を補間するために、重み要素（重みＡ、重みＢ）を使う。
表３

失われたパケット | 重みＡ | 重みＢ
最初の（より古い）パケット | ０．９ | ０．０
１以上の中間のパケット | ０．４ | ０．４
最後の（より新しい）パケット | ０．０ | ０．９
【００５４】
図７Ａ‐７Ｃの図におけるパケットとフレーム又はセットの配置は、例示である。上述したように、あるコーディング技術は特定のオーディオ長さ（例えば２０ミリ秒）を含むフレームを用いるかもしれない。また、ある技術はそれぞれのオーディオフレーム（例えば２０ミリ秒）のために１つのパケットを用いるかもしれない。実装にもよるが、しかしながら、所定のパケットは１以上のオーディオフレーム（例えば２０ミリ秒）の情報を有するかもしれないし、あるいは１つのオーディオフレーム（例えば２０ミリ秒）の一部だけの情報を有するかもしれない。
【００５５】
不足変換係数を補間するための重み要素を明確にするために、パラメータは上記の使用周波数レベル、フレーム内の不足しているパケットの数、所定の不足パケットセット内の不足パケットの箇所を記述した。重み要素は、どれか１つ又はこれらの補間パラメータの組み合わせを用いて決定され得る。変換係数を補間するために上に開示した重み要素（重みＡ、重みＢ）、周波数閾値、補間パラメータは、例示である。これらの重み要素、閾値、パラメータは、会議中に不足パケットのギャップを満たすときに、最も良い主観的なオーディオ品質を生成すると見られる。さらに、これらの要素、閾値、パラメータは、特定の実装のために異なるかもしれないし、例示的に示されている何かから拡げられるかもしれないし、使用された設備の種類、含まれるオーディオのタイプ（すなわち、音楽、音声など）、適用された変換コーディングのタイプ、その他の考慮事項によって決まるかもしれない。
【００５６】
いずれにしても、変換ベースのオーディオコーデックのために失われたオーディオパケットを隠す場合、ここに開示したオーディオ処理技術は従来技術の解決法より良い品質の音を作り出す。特に、例えパケットの２５％が失われたとしても、開示した技術は現在技術よりも理解できるオーディオをさらに生成するかもしれない。オーディオパケット損失はしばしばビデオ会議アプリケーションで生じる、だからそのような状況の間に品質を改善することは全般的なビデオ会議実績を改善するのに重要である。さらに、損失を隠すために動作する端末において、パケット損失を隠すことに取られるステップがあまりに多くの処理や記憶資源を必要としないことが重要である。前後する正常なフレーム内の変換係数に重み付けを適用することによって、ここに開示した技術は処理と必要とした記憶資源を減らすことができる。
【００５７】
オーディオ又はビデオ会議に関して説明したけれども、ストリーミング音楽とスピーチを収録している、ストリーミングメディアを含む他の領域に、本開示の教示は有用であり得る。そのため、オーディオ再生機器、パーソナル音楽プレーヤー、コンピュータ装置、サーバ装置、電気通信機器、携帯電話、携帯情報端末などを含む、オーディオ会議エンドポイント及びビデオ会議エンドポイントのみならず他のオーディオ処理機器に、本開示の教示は適用され得る。例えば、特別な目的のオーディオ会議エンドポイント又はビデオ会議エンドポイントは、開示した技術によって益を得るかもしれない。同じように、コンピュータあるいは他の機器は卓上会議であるいはデジタルオーディオの送信と受信のために使用され得る、そしてこれらの機器もまた開示した技術によって益を得るかもしれない。
【００５８】
本開示の技術は、電子回路、コンピュータハードウェア、ファームウェア、ソフトウェア、あるいはこれらのどの組み合わせにも実装され得る。例えば、開示した技術は、プログラムで制御できる制御機器に開示した技術を実行させるために、プログラム記憶機器に記憶された命令として実装され得る。プログラム命令及びデータを明白に具体化するのに適したプログラム記憶機器は、例えばEPROM、EEPROM、フラッシュメモリ機器のような半導体メモリ機器、内蔵されたハードディスク及び取り外し可能なディスクのような磁性ディスク、磁性-光学式ディスク、CD-ROMディスクを一例として含んでいる、不揮発性メモリの全ての種類を含む。前述のどれもがＡＳＩＣｓ（Application Specific Integrated Circuit）によって補われ得るあるいは組み込まれ得る。
【００５９】
前述の好ましい実施例の説明と他の実施例は、その範囲あるいは出願人によって考え出された発明概念の適用を制限又は妨げることを意味しない。ここに含まれる発明概念を開示する代わりに、出願人は付加された請求項によって与えられる全ての特許権利を望む。そのため、付加された請求項は全ての改良及び変更を含むこと、それらが次の請求項の範囲又はその同等物に入る全ての範囲を意図する。
【符号の説明】
【００６０】
１０Ａ送信機、１２マイクロフォン、１４オーディオブロック、１６コーデック、２０インターネット、１０Ｂ受信機、１３ラウドスピーカ、２５４デコーディング、２５６逆量子化、２５８変換シンセサイザー、２６０逆変換部。

【特許請求の範囲】
【請求項１】
ネットワークを介してオーディオ処理機器で複数のパケットセットを受信するステップであって、前記複数のパケットセットの各セットは１以上のパケットを有し、各パケットは変換コーディングを受けた時間領域のオーディオ信号を再構成するための周波数領域の変換係数を有するものと、
前記受信したセットの所与の１つにおいて１以上の不足パケットを判定するステップと、
前記所与のセットの前に配列された第１セット内の１以上の第１パケットの第１変換係数に第１重みを適用するステップと、
前記所与のセットの後に配列された第２セット内の１以上の第２パケットの第２変換係数に第２重みを適用するステップと、
前記重み付けられた第１及び第２変換係数を合計することによって変換係数を補間するステップと、
前記１以上の不足パケットに前記補間された変換係数を挿入するステップと、
前記変換係数を逆変換処理することによって前記オーディオ処理機器のための出力オーディオ信号を生成するステップと
を備えるオーディオ処理方法。
【請求項２】
前記オーディオ処理機器は、オーディオ会議エンドポイント、ビデオ会議エンドポイント、オーディオ再生機器、パーソナル音楽プレーヤー、コンピュータ装置、サーバ装置、電気通信機器、携帯電話、携帯情報端末からなるグループから選択されることを特徴とする請求項１に記載の方法。
【請求項３】
前記ネットワークは、インターネットプロトコルネットワークからなることを特徴とする請求項１に記載の方法。
【請求項４】
前記変換係数は、変調重複変換係数からなることを特徴とする請求項１に記載の方法。
【請求項５】
前記各セットは１つのパケットを有し、該１つのパケットは入力オーディオフレームを含むことを特徴とする請求項１に記載の方法。
【請求項６】
前記受信するステップは、パケットを復号化することを含む請求項１に記載の方法。
【請求項７】
前記受信するステップは、前記復号化したパケットを逆量子化することを含む請求項６に記載の方法。
【請求項８】
前記１以上の不足パケットを判定するステップは、バッファに受信したパケットを配列することと当該配列からギャップを見つけることとを含む請求項１に記載の方法。
【請求項９】
前記変換係数を補間するステップは、前記重み付けられた第１及び第２変換係数を合計した前記変換係数に任意の正又は負の符号を割り当てることを含む請求項１に記載の方法。
【請求項１０】
前記第１及び第２変換係数に適用される前記第１及び第２重みは、オーディオ周波数に基づいていることを特徴とする請求項１に記載の方法。
【請求項１１】
前記オーディオ周波数が閾値を下回る場合、前記第１重みは第１変換係数に重きを置き、前記第２重みは第２変換係数に重きを置かないことを特徴とする請求項１０に記載の方法。
【請求項１２】
前記閾値は１ｋＨｚであることを特徴とする請求項１１に記載の方法。
【請求項１３】
前記第１変換係数は７５パーセントで重み付けられ、前記第２変換係数はゼロにされることを特徴とする請求項１１に記載の方法。
【請求項１４】
前記オーディオ周波数が前記閾値を上回る場合、前記第１及び第２重みは第１及び第２変換係数に等しく重み付けすることを特徴とする請求項１０に記載の方法。
【請求項１５】
前記第１及び第２変換係数は、５０パーセントで両方とも重み付けられることを特徴とする請求項１４に記載の方法。
【請求項１６】
前記第１及び第２変換係数に適用される第１及び第２重みは、不足パケットの数に基づいていることを特徴とする請求項１に記載の方法。
【請求項１７】
前記所与のセットにおいてパケットが１つ不足するとき、
該不足パケットに関連するオーディオ周波数が閾値を下回る場合に、前記第１重みは前記第１変換係数に重きを置き、前記第２重みは前記第２変換係数に重きを置かないようにし、
前記オーディオ周波数が閾値を上回る場合に、前記第１及び第２重みは前記第１及び第２変換係数に等しく重み付けすること
を特徴とする請求項１６に記載の方法。
【請求項１８】
前記所与のセットにおいてパケットが２つ不足するとき、
前記第１重みは、該不足する２つのパケットの先行するパケット用の第１変換係数に重きを置き、該不足する２つのパケットの後続するパケット用の第１の変換係数に重きを置かないように重み付を行うものであり、
前記第２重みは、前記先行するパケット用の第２変換係数に重きを置かず、前記後続するパケット用の第２変換係数に重きを置くように重み付を行うものであること
を特徴とする請求項１６に記載の方法。
【請求項１９】
前記重きを置かれた係数は９０パーセントで重み付けられて、前記重きを置かない係数はゼロにされることを特徴とする請求項１８に記載の方法。
【請求項２０】
前記所与のセットにおいて３つ以上のパケットが不足しているならば、
前記第１重みは、前記セット中の最初のパケット用の第１変換係数に重きを置き、前記セット中の最後のパケット用の第１の変換係数に重きを置かないように重み付を行うものであり、、
前記第１及び第２重みは、前記パケットの１以上の中間にあるパケット用の第１及び第２変換係数に等しく重み付けするものであり、
前記第２重みは、前記セット中の最初のパケット用の第２変換係数に重きを置かず、前記セット中の最後のパケット用の第２変換係数に重きを置くように重み付を行うものであること
を特徴とする請求項１６に記載の方法。
【請求項２１】
前記重きを置かれた係数は９０パーセントで重み付けられること、前記あまり重きを置かない係数はゼロにされること、前記等しく重み付けされる係数は４０パーセントで重み付けられることを特徴とする請求項２０に記載の方法。
【請求項２２】
請求項１乃至２１のいずかに記載のオーディオ処理方法における前記各ステップをコンピュータに実行させるためのプログラム。
【請求項２３】
オーディオ出力インタフェースと、
少なくとも１つのネットワークと通信し、オーディオの複数のパケットセットを受信するネットワークインタフェースであって、前記複数のパケットセットの各セットは１以上のパケットを有し、各パケットは周波数領域の変換係数を有するものと、
前記ネットワークインタフェースと通信し、受信したパケットを記憶する記憶手段と、
前記記憶手段及び前記オーディオ出力インタフェースと通信する処理手段であって、当該処理手段が、
前記受信したセットの所与の１つにおいて１以上の不足パケットを判定し、
前記所与のセットの前に配列された第１セット内の１以上の第１パケットの第１変換係数に第１重みを適用し、
前記所与のセットの後に配列された第２セット内の１以上の第２パケットの第２変換係数に第２重みを適用し、
前記重み付けられた第１及び第２変換係数を合計することによって変換係数を補間し、
前記１以上の不足パケットに前記補間された変換係数を挿入し、
前記オーディオ出力インタフェースのための時間領域において出力オーディオ信号を生成するために前記変換係数を逆変換処理する、
ように構成されたオーディオデコーダとしてプログラムされている前記処理手段と
を具備するオーディオ処理装置。
【請求項２４】
前記オーディオ処理装置は会議エンドポイントを構成することを特徴とする請求項２３に記載のオーディオ処理装置。
【請求項２５】
さらに前記オーディオ出力インタフェースに伝達可能に接続されたスピーカを備える請求項２３に記載のオーディオ処理装置。
【請求項２６】
さらにオーディオ入力インタフェースと、前記オーディオ入力インタフェースに伝達可能に接続されたマイクロフォンとを備える請求項２３に記載のオーディオ処理装置。
【請求項２７】
前記処理手段が、前記オーディオ入力インタフェースと通信するようになっており、かつ、
オーディオ信号の時間領域サンプルのフレームを周波数領域変換係数に変換し、
前記変換係数を量子化し、
前記量子化した変換係数を符号化する
ように構成されたオーディオエンコーダとしてプログラムされていることを特徴とする請求項２６に記載のオーディオ処理機器。

【図１】