説明

マルチ・チャンネル音響信号をエンコードするための装置および方法

エンコード装置が、少なくとも第1のマイクロフォン(101)からの第1の音響信号と第2のマイクロフォン(103)からの第2の音響信号とを含むマルチ・チャンネル音響信号を受信するフレーム・プロセッサ(105)を備える。ITDプロセッサ(107)が次に、第1の音響信号と第2の音響信号との間の相互時間差を決定し、遅延(109、111)の組が、第1および第2の音響信号の少なくとも一方を相互時間差信号に応じて遅延させることによってマルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を発生させる。結合器(113)が次に、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成し、モノラル信号エンコーダ(115)がモノラル信号をエンコードする。相互時間差は、第1および第2の音響信号間の相互相関を決定することに基づくアルゴリズムによって具体的に決定しても良い。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチ・チャンネル音響信号をエンコードするための装置および方法に関し、特に、しかしこれに限らないが、ステレオ音声信号をモノラル信号にダウン・ミックスして、モノラル・エンコーダ、たとえば符号励振線形予測エンコーダを用いたエンコードを図ることに関する。
【背景技術】
【0002】
音響信号を効率的にエンコードすることは、用途およびシステムの数がますます増える場合に重要である。たとえば、モバイル通信では、効率的な音声エンコーダを用いて、無線インターフェースを介して送信する必要があるデータ量を減らしている。
【0003】
たとえば、国際電気通信連合(International Telecommunication Union:ITU)では、エンベデッド可変ビットレート・コーデック(Embeded Variable Bit Rate Codec:EV−VBR)として知られる音声エンコーダを標準化している。これは、音声信号を高品質で8〜64kbpの範囲のデータ・レートでエンコードすることができるものである。このエンコーダは、他の多くの効率的な音声エンコーダと同様に、符号励振線形予測(Code Excited Linear Prediction:CELP)技術を用いて、より低いビットレートの動作におけるエンコード処理の高い圧縮比を達成している。
【0004】
用途によっては、複数の音響信号を取り込む場合があり、特にステレオ信号を、2つのマイクロフォンを用いた音響システムにおいて録音する場合がある。たとえば、ステレオ録音を通常、オーディオ・ビデオ会議とともに放送用途において用いる場合がある。
【0005】
多くのマルチ・チャンネル・エンコード・システムにおいて、特に多くのマルチ・チャンネル音声エンコード・システムにおいて、低レベルのエンコードは単一チャンネルのエンコードに基づいている。このようなシステムでは、コーダーの下部層がエンコードするために、マルチ・チャンネル信号をモノラル信号に変換する場合がある。このモノラル信号の生成は、ダウン・ミキシングと言われる。このようなダウン・ミキシングは、モノラル信号に対するステレオ信号の様相(aspect)を記載するパラメータに関連付けられる場合がある。具体的には、ダウン・ミキシングによって、左および右のチャンネル間のタイミング差を特徴づけるチャネル間時間差(inter−channel time difference:ITD)情報を生成する場合がある。たとえば、2つのマイクロフォンが互いに少し離れて位置する場合、話者が一方のマイクロフォンの方に他方よりも近くに位置するときには、話者から出る信号は、後者のマイクロフォンには最初のものより遅れて到達する。このITDを、決定する場合があり、またデコーダにおいてモノラル信号からステレオ信号を再現するために用いる場合がある。ITDによって、再現されるステレオ立体感(stereo perspective)の品質が著しく向上する場合がある。なぜならば、ITDは、周波数がほぼ1kHzを下回る場合にはステレオ位置に対する支配的な知覚的影響であることが分かっているからである。したがって、ITDを推定することも重要である。
【0006】
従来、モノラル信号は、ステレオ信号を一緒に加算することによって生成される。その後、モノラル信号はエンコードされ、ITDとともにデコーダに送信される。
たとえば、欧州電気通信標準化機構は、その技術仕様書ETSI−TS126290「拡張した適応マルチ・レート広帯域(Adaptive Multi−Rate − Wideband:AMR−WB+)コーデック;トランスコーディング機能」において、ステレオ信号ダウン・ミキシングを規定している。ここでは、モノラル信号は単に、以下のように左および右チャンネルの平均値として決められている。
【0007】
ML(n)=0.5(XLL(n)+XRL(n))
ここで、XML(n)はモノラル信号のN番目のサンプルを表わし、XLL(n)は左チャンネル信号のN番目のサンプルを表わし、XRL(n)は右チャンネル信号のn番目のサンプルを表わしている。
【0008】
ダウン・ミックスの別の例が以下の文献に示されている。H.パーンヘーゲン(Purnhagen)、「MPEG4における低複雑性パラメータ・ステレオ・コーディング(Low Complexity Parametric Stereo Coding in MPEG−4)」、会議記録第7回デジタル音響効果に関する国際会議(7th International Conference on Digital Audio Effects)(DAFx’04)、ナポリ(Naples)、イタリア(Italy)、10月5日〜8日、2004年、163〜168ページ。この文献では、ダウン・ミキシング法として、出力モノラル信号を、チャネル間強度差(IID)について得られる情報を用いてバンド毎の周波数に基づく着信チャンネルの加重和として得る方法について説明している。具体的には以下の通りである。
【0009】
M[k,i]=gL[k,i]+gR[k,i]
ここで、M[k,i]は、モノラル信号のk番目の周波数ビン(frequency bin)のi番目のサンプルを表わし、L[k,i]は、左チャンネル信号のk番目の周波数ビンのi番目のサンプルを表わし、R[k,i]は、右チャンネル信号のk番目の周波数ビンのi番目のサンプルを表わし、gは左チャンネル重みであり、gは右チャンネル重みである。
【0010】
このようなアプローチの特徴は、結果として、モノラル信号の残響時間が高いか、あるいは複雑性および遅延の少なくとも一方が高いかである。たとえば、AMR−WB+のダウン・ミキシング法で得られる出力の残響時間はほぼ、部屋の残響時間プラス2つのマイクロフォン間の飛行時間である。パーンヘーゲンにおいて与えられるダウン・ミックスは、複雑性が高く、周波数解析および再構成に起因する遅延が課される。
【0011】
しかし、多くのモノラル・エンコーダでは、残響時間が低い信号に対して最良の結果が得られる。たとえば、低ビット・レートCELP音声コーダー、およびパルス・ベースの励起を用いて音声および音響信号を表わす他のエンコーダは、残響時間が短い信号を提示されるときに最良に機能する。したがって、エンコーダの性能、および結果として生じるエンコード後の信号の品質は、準最適となる傾向がある。
【0012】
したがって、改善されたシステムは優位であり、特に、更なる適応性、実施容易性、改善したエンコード品質、改善したエンコード効率、減少した遅延、および改善した性能の少なくとも一つを可能とするシステムが優位であろう。
【先行技術文献】
【非特許文献】
【0013】
【非特許文献1】H.パーンヘーゲン(Purnhagen)、「MPEG4における低複雑性パラメータ・ステレオ・コーディング(Low Complexity Parametric Stereo Coding in MPEG−4)」、会議記録第7回デジタル音響効果に関する国際会議(7th International Conference on Digital Audio Effects)(DAFx’04)、ナポリ(Naples)、イタリア(Italy)、10月5日〜8日、2004年、163〜168ページ
【発明の概要】
【発明が解決しようとする課題】
【0014】
したがって本発明の目的は、好ましくは、前述した不利のうちの1つまたは複数を、単独でまたは任意の組み合わせで、軽減するか、緩和するか、またはなくすことである。
【課題を解決するための手段】
【0015】
本発明の態様によれば、マルチ・チャンネル音響信号をエンコードするための装置であって、少なくとも第1のマイクロフォンからの第1の音響信号と第2のマイクロフォンからの第2の音響信号とを含むマルチ・チャンネル音響信号を受信する受信部と、第1の音響信号と第2の音響信号との間の相互時間差を決定する時間差ユニットと、相互時間差信号に応じて第1の音響信号と第2の音響信号との少なくとも一方を遅延させることによって、マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を生成する遅延ユニットと、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成するモノラル・ユニットと、モノラル信号をエンコードするモノラル信号エンコーダとを備える装置が提供される。
【0016】
本発明によって、マルチ・チャンネル音響信号のエンコードの改善が得られる場合がある。特に、ある特定のデータ・レートに対する品質の向上が、多くの実施形態において実現される場合がある。本発明によって、ステレオ信号からのモノラル・ダウン・ミックス信号のモノラル・エンコードを改善することが、モノラル・ダウン・ミックス信号の残響時間を短くすることによって得られる場合がある。遅延ユニットは、どのマイクロフォンが(主の)音源に最も近いかに応じて、第1の音響信号または第2の音響信号のいずれかを遅延させても良い。相互時間差は、同じ音源から生じる第1および第2の音響信号の対応する音響成分間の時間差を表示したものであっても良い。モノラル信号を生成するユニットを、第1および第2の音響信号に対応する組み合わせマルチ・チャンネル音響信号の2つのチャンネルを合計するように構成しても良い。一部の実施形態においては、合計は加重和であっても良い。
【0017】
本発明の任意的な特徴によれば、時間差ユニットは、複数の時間オフセットに対して第1の音響信号と第2の音響信号との間の相互相関を決定し、相互相関に応じて相互時間差を決定するように構成される。
【0018】
この特徴によって、相互時間差の決定が改善される場合がある。この特徴によって、エンコード後の音響信号の品質が向上する場合、実施が容易になる場合、および複雑性が減る場合の少なくとも一つがある。特に、この特徴によって、モノラル信号及び相互時間差から得られるステレオ信号のステレオ知覚(perception)が向上する場合がある。相互相関は、相互時間差が個々の相互相関の時間オフセットに等しくなる確率を示しても良い。
【0019】
本発明の別の態様によれば、マルチ・チャンネル音響信号をエンコードする方法であって、少なくとも第1のマイクロフォンからの第1の音響信号と第2のマイクロフォンからの第2の音響信号とを含むマルチ・チャンネル音響信号を受信すること、第1の音響信号と第2の音響信号との間の相互時間差を決定すること、相互時間差信号に応じて第1の音響信号と第2の音響信号との少なくとも一方を遅延させることによって、マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を生成すること、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成すること、モノラル信号エンコーダにおいてモノラル信号をエンコードすることを含む方法が提供される。
【0020】
本発明のこれらおよび他の態様、特徴および優位性は、以下に説明する実施形態から明らかとなり、また実施形態を参照して明瞭になる。
【図面の簡単な説明】
【0021】
【図1】本発明の一部の実施形態によるマルチ・チャンネル音響信号をエンコードするための装置の例を例示する図である。
【図2】本発明の一部の実施形態による相互時間差を推定するための処理ユニットの例を例示する図である。
【図3】本発明の一部の実施形態による白色化プロセッサの例を例示する図である。
【図4】本発明の一部の実施形態によるトレリス状態機械に対する状態更新の例を例示する図である。
【図5】本発明の一部の実施形態によるマルチ・チャンネル音響信号をエンコードするための方法の例を例示する図である。
【発明を実施するための形態】
【0022】
本発明の実施形態は、単に一例として、図面を参照して説明する。
以下の説明では、モノラル・エンコーダを用いたマルチ・チャンネル音響信号のエンコード、特にモノラルCELPエンコーダを用いたステレオ音声信号のエンコードに適用可能な本発明の実施形態に焦点を当てる。
【0023】
図1に、本発明の一部の実施形態によるマルチ・チャンネル音響信号をエンコードするための装置を例示する。この具体例では、ステレオ音声信号は、モノラル信号にダウン・ミックスされ、モノラル・エンコーダを用いてエンコードされる。
【0024】
装置は、2つのマイクロフォン101、103を備える。これらは、2つのマイクロフォンが配置される音響環境から音響信号を取り込む。この例では、2つのマイクロフォンを、部屋内の音声信号を記録するために使用し、最大3メートルの内部距離で配置する。特定の応用例では、マイクロフォン101、103は、たとえば部屋内の複数の人間から音声信号を記録しても良く、2つのマイクロフォンを用いることによって部屋のより良好な音響対象範囲(audio coverage)が得られる場合がある。
【0025】
マイクロフォン101、103は、フレーム・プロセッサ105に結合されている。フレーム・プロセッサ105は、第1および第2の信号を、第1および第2のマイクロフォン101、103からそれぞれ受信する。フレーム・プロセッサによって、信号が連続的なフレームに分割される。この具体例では、サンプル周波数は16kサンプル/秒であり、フレームの継続時間は20msecであり、その結果、各フレームには320個のサンプルが含まれる。フレーム処理は必ずしも、音声経路への付加的な遅延とはならないことに注意されたい。その理由は、このフレームが、音声エンコード用に用いるものと同じフレームであってよく、またはフレーム処理がたとえば、古い音声サンプルに対して行なわれてもよいからである。
【0026】
フレーム・プロセッサ105は、ITDプロセッサ107に結合されている。ITDプロセッサ107は、第1の音響信号と第2の音響信号との間の相互時間差を決定するように構成されている。相互時間差は、一方のチャンネルにおける信号の、他方のチャンネルにおける信号に対する遅延を表示したものである。この例では、相互時間差は、どちらのチャンネルが他方に対して遅延されているかに応じて、正であっても良いし負であっても良い。遅延は通常、支配的な音声源(すなわち、現在話している話者)とマイクロフォン101、103との間の遅延の差に起因して起こる。
【0027】
ITDプロセッサ107はさらに、2つの遅延109、111に結合されている。第1の遅延109は、第1の音響チャンネルに遅延を導入するように構成され、第2の遅延109は、第2の音響チャンネルに遅延を導入するように構成されている。導入する遅延の量は、推定される相互時間差に依存する。さらに、この具体例では、常に遅延のうちの1つのみを用いる。その結果、推定される相互時間差の符号に応じて、遅延が第1または第2の音響信号のいずれかに導入される。遅延量は、推定される相互時間差にできるだけ近くなるように、具体的に設定される。結果として、遅延109、111の出力における音響信号は、厳密に時間整合され、具体的には相互時間差は通常はゼロに近い。
【0028】
遅延109、111は結合器113に結合されている。結合器113は、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成するものであり、具体的には遅延109、111からの2つの出力信号を組み合わせることによって行なう。この例では、結合器113は、2つの信号を一緒に加える単純な総和ユニットである。さらに、信号を0.5倍に縮尺して、モノラル信号の振幅を組み合わせ前の個々の信号の振幅と同様に維持する。
【0029】
こうして、結合器113の出力は、2つの取り込まれた信号のダウン・ミックスであるモノラル信号となる。さらに、遅延と、相互時間差の減少とに起因して、生成されたモノラル信号は残響が著しく減っている。
【0030】
結合器113はモノラル・エンコーダ115に結合されている。モノラル・エンコーダ115は、モノラル信号のモノラル・エンコードを行なって、エンコード済みのデータを生成する。この具体例では、モノラル・エンコーダは、国際電気通信連合(ITU)によって標準化されるべきエンベデッド可変ビットレート・コーデック(EV−VBR)による符号励振線形予測(CELP)エンコーダである。
【0031】
CELPコーダーは、極めて効率的なエンコードを実現するものとして、具体的には、低データ・レートの場合であっても良好な音声品質を実現するものとして知られている。しかしCELPコーダーは、残響時間が高い信号に対しては同様に機能しない傾向があり、したがって従来行なわれているモノラル・ダウン・ミックスのエンコードには適していなかった。しかし、遅延補償および結果として生じる残響の低下に起因して、CELPモノラル・エンコーダを図1の装置において用いて、音声ダウン・ミックス・モノラル信号の非常に効率的なエンコードが得られる場合がある。当然のことながら、これらの優位性は特にCELPモノラル・エンコーダに対して適切であるが、それに限定されるわけではなく、他の多くのエンコーダに適用しても良い。
【0032】
モノラル・エンコーダ115は、出力マルチプレクサ117に結合されている。出力マルチプレクサ117はさらに、ITDプロセッサ107に結合されている。この例では、出力マルチプレクサ117は、モノラル・エンコーダ115から得られるエンコーディング・データと、ITDプロセッサ107から得られる相互時間差を表わすデータとを多重化して、単一の出力ビットストリームにする。ビットストリームに相互時間差を含めることによって、デコーダを、エンコーディング・データからデコードされたモノラル信号からステレオ信号を再現する際に助ける場合がある。
【0033】
その結果、説明したシステムによって、性能の向上が得られ、特に、ある特定のデータ・レートに対して音響品質の向上が得られる場合がある。特に、モノラル・エンコーダたとえばCELPエンコーダの使用方法が改善されることによって、品質が著しく向上する場合がある。さらに、説明した機能は実施が容易であり、資源要求が比較的低い。
【0034】
以下、ITDプロセッサ107が行なう相互時間差の推定について、図2を参照して説明する。
ITDプロセッサ107が用いるアルゴリズムは、チャンネル間の異なる可能な時間オフセットに対して、第1および第2の音響信号間の相互相関の経時的観測を組み合わせることによって、相互時間差の推定を決定するものである。相関は、間引きされたLPCの残りの領域(decimated LPC residual domain)において、より明確な相関を実現し、実施を容易にし、および計算要求を減らすために行なわれる。この例では、相互相関を処理して、−12msと+12msとの間(±〜4メートル)における各潜在的な遅延に関連する確率を導き出した後に、確率を、変更されたビタビ様アルゴリズムを用いて蓄積する。その結果、固有のヒステリシスを伴う相互時間差が推定される。
【0035】
ITDプロセッサ107は間引きプロセッサ(decimation processor)201を備える。間引きプロセッサ201は、フレーム・プロセッサ105から2つのチャンネルに対するサンプルのフレームを受信する。間引きプロセッサ201は、最初に低域通過フィルタリングを行ない、その後に間引きを行なう。この具体例では、低域通過フィルタの帯域幅は約2kHzであり、間引き係数として4を16kサンプル/秒の信号に対して使用する結果、間引きされるサンプル周波数は4kサンプル/秒となる。フィルタリングおよび間引きの効果は部分的に、処理するサンプルの数を減らすことであり、その結果、計算要求が減る。しかしまたこのアプローチによって、相互時間差の推定を、相互時間差の知覚的な重要性が最も著しいもっと低い周波数に対してフォーカスすることができる。こうして、フィルタリングおよび間引きによって、計算負担が減るだけでなく、最も影響を受けやすい周波数にとって相互時間差の推定が適切であることを確実にする相乗効果が得られる。
【0036】
間引きプロセッサ201は白色化プロセッサ203に結合されている。白色化プロセッサ(whitening processor)203は、相関に先立って、スペクトル白色化アルゴリズムを第1および第2の音響信号に適用するように構成されている。スペクトル白色化は、発声または発音の音声(voiced or tonal speech)の場合に、インパルスの組にさらに厳密に似ている2つの信号の時間領域信号を生じさせるので、以後の相関は、より明確な相互相関値をもたらすことができ、具体的には、より狭い相関ピークをもたらすことができる(インパルスの周波数応答が、平坦または白色スペクトルに対応し、逆に白色スペクトルの時間領域表現がインパルスとなる)。
【0037】
この具体例では、スペクトル白色化は、第1および第2の音響信号に対する線形予測係数を算出することと、線形予測係数に応じて第1および第2の音響信号をフィルタリングすることとを含む。
【0038】
図3に、白色化プロセッサ203の要素を示す。具体的には、間引きプロセッサ201から出た信号は、LPCプロセッサ301、303に供給される。LPCプロセッサ301、303は、2つの信号に対して線形予測フィルタに対する線形予測係数(Linear Predictive Coefficient:LPC)を決定する。当然のことながら、LPCを決定するための種々のアルゴリズムが当業者には知られており、本発明を損なうことなく好適な任意のアルゴリズムを用いても良い。
【0039】
この例では、2つの音響信号が2つのフィルタ305、307に供給される。フィルタ305、307は、LPCプロセッサ301、303に結合されている。2つのフィルタは、LPCプロセッサ301、303によって決定された線形予測フィルタの逆フィルタとなるように決定される。具体的には、LPCプロセッサ301、303によって線形予測フィルタの逆フィルタに対する係数が決定され、2つのフィルタの係数はこれらの値に設定される。
【0040】
2つの逆フィルタ305、307の出力は、発声の音声(voiced speech)の場合に、インパルス列の組と似ており、その結果、音声領域(speech domain)において可能であろう場合よりも、著しくより正確な相互相関を行なうことができる。
【0041】
白色化プロセッサ203は、相関器205に結合されている。相関器205は、複数の時間オフセットに対する2つのフィルタ305、307の出力信号間の相互相関を決定するために配置されている。
【0042】
具体的には、相関器は以下の値を決定することができる。
【0043】
【数1】

ここで、tは時間オフセットであり、xおよびyは、2つの信号のサンプルであり、Nは、特定のフレームにおけるサンプルを表わしている。
【0044】
相関は、可能な時間オフセットの組に対して行なう。この具体例では、相関は、±12msecの最大の時間オフセットに対応する全体として97個の時間オフセットに対して行なわれる。しかし、当然のことながら、他の実施形態においては時間オフセットの他の組を用いても良い。
【0045】
こうして、相関器は97個の相互相関値を生成する。各相互相関は、2つのチャンネル間の特定の時間オフセットに、したがって可能な相互時間差に対応する。相互相関値は、特定の時間オフセットに対して2つの信号がどのくらい厳密にマッチしているかを示す表示に対応している。したがって、相互相関値が高い場合には信号は厳密にマッチしており、それに応じて、時間オフセットが正確な相互時間差の推定であるという確率は高い。逆に、相互相関値が低い場合には信号は厳密にはマッチしておらず、それに応じて、時間オフセットが正確な相互時間差の推定であるという確率は低い。こうして、各フレームに対して、相関器205は97個の相互相関値を生成し、各値は、対応する時間オフセットが正しい相互時間差であるという確率を表示するものである。
【0046】
この例では、相関器205は、第1および第2の音響信号に対するウィンドウ処理を相互相関の前に行なうために配置されている。具体的には、2つの信号の各フレーム・サンプル・ブロックは、20ms窓(14msの矩形の中央部分と各端部における2つの3msのハン部分(Hann portions)とを含む)を用いてウィンドウ処理される。このウィンドウ処理によって、精度が向上し、相関窓のエッジにおける境界効果の影響が減る場合がある。
【0047】
また、この例では、相互相関が規格化されている。規格は、具体的には、実現可能な最大の(すなわち、2つの信号が同一であるときの)相互相関値が1の値(unity value)を有することを確実にするためである。規格化によって、入力信号の信号レベルと試験した相関時間オフセットとは比較的無関係な相互相関値が得られ、その結果、確率の表示がより正確になる。特に、一続きのフレームに対する比較および処理を向上させることができる。
【0048】
単純な実施形態においては、相関器205の出力を直接評価しても良く、現在フレームに対する相互時間差を、相互相関値が示すような最も確率が高い値に設定しても良い。しかし、このような方法では、音声信号が有声から無声へそして無音へと変動したときに、出力の信頼性がそれほど高くはない傾向があるであろう。説明した例では、相関器から状態プロセッサ207に供給され、そこで複数の状態に対して相関値が処理されて、より正確な相互時間差の推定が行なわれる。
【0049】
この例では、相関値を、状態プロセッサ207において実施されるビタビ(Viterbi)・アルゴリズム・メトリック(metric)・アキュームレータに対する更新工程として用いる。
【0050】
その結果、状態プロセッサ207によって、具体的には、時間オフセットに対応した多くの状態を有するメトリック・アキュームレータが実現される。こうして、各状態は、時間オフセットを表わし、蓄積されたメトリック値が付随している。
【0051】
したがって、メトリック・アキュームレータの形態のビタビ・ベースのトレリス(trellis)状態機械は、相関値が計算された時間オフセット(すなわち、具体例では97個の状態/時間オフセット)のそれぞれに対して計量値を記憶する。各状態/時間オフセットは、具体的には、その状態の時間オフセットに相互時間差が対応する確率を示す確率メトリックに関連している。
【0052】
すべての時間オフセットに対する確率メトリックをあらゆるフレームにおいて再計算して、現在フレームに対して決定された相関値を考慮に入れる。具体的には、経路メトリックを、相互相関に応じて状態/時間オフセットに対して計算する。この具体例では、相互相関を対数領域に、式log(0.5+p)を適用して変換する。ここで、pは、i番目の相関値(規格化処理により0〜1であり、相互時間差が、関連する時間オフセットに対応する確率に対応する)である。
【0053】
この例では、ある特定の確率メトリックへの寄与は、その時間オフセットの以前の確率メトリックと、現在のフレームに対して計算されたオフセットに対する相関値とから決定される。加えて、寄与が由来する相関値は、相互時間差がある値から別の値に変化する(すなわち、最も起こりそうな状態が、ある時間オフセットのそれであることから、別の時間オフセットのそれであることに変化する)状況に対応する隣接する時間オフセットに関連する相関値である。
【0054】
隣接する相互時間差値に対応する隣接する状態からの経路に対する経路メトリックは、同じ状態からの経路に対する経路メトリックよりもかなり低く加重される。具体的には、実験が示すところによれば、隣接する相関値が、同じ状態に対する相互相関よりも少なくとも5倍高く加重されるときに、特定の優位な性能が見出される。この具体例では、隣接する状態の経路メトリックは0.009倍加重され、同じ状態の経路メトリックは0.982倍加重される。
【0055】
図4に、トレリス状態機械に対するフレームtに対するメトリック更新の例を例示する。この具体例では、時間tにおける状態Sに対する状態確率メトリックの計算を、時間t−1における状態Sと時間t−1における隣接する状態Sn−1およびSn+1とを含む以前の状態の下位集合からの経路の経路メトリックから行なう。具体的には、状態Sに対する状態確率メトリックは以下のように与えられる。
【0056】
【数2】

ここで、Pは、フレームtにおける状態xから状態nへの計算された加重経路メトリックである。
【0057】
この例では、最も低い状態確率メトリックをすべての状態確率メトリックから差し引くことによって、確率メトリックを各フレームにおいて変更する。この結果、連続して増える状態確率メトリックに由来するオーバー・フロー問題が軽減される。
【0058】
この例では、ある特定の時間オフセットメトリックに対する寄与が、オフセット自体および隣接するオフセットを含むオフセットの下位集合に対してのみ含まれている。しかし当然のことながら、他の実施形態においては、時間オフセットの他の下位集合を考慮しても良い。
【0059】
この例では、トレリス状態機械に対する状態メトリックは各フレームにおいて更新される。しかし従来のビタビ・アルゴリズムとは対照的に、状態プロセッサ207は、各状態に対して好ましい経路を選択するのではなく、ある特定の状態に対する状態確率メトリックを、その状態に入るすべての経路に由来する組み合わせ寄与として計算する。また状態プロセッサ207は、存続している経路を決定するためにトレリスを通ってさかのぼって追跡することはしない。むしろ、この例では、現時点での相互時間差の推定を、現時点で状態確率メトリックが最も高い状態に対応する時間オフセットとして、単純に選択することができる。その結果、状態機械では遅延を受けない。さらに、確率状態メトリックは以前の値(および他の状態)に依存するため、ヒステリシスが本来的に実現される。
【0060】
具体的には、状態プロセッサ207はITDプロセッサ209に結合されている。ITDプロセッサ209では、状態確率メトリックが最も高い状態に付随する時間オフセットから相互時間差を決定する。具体的には、ITDプロセッサ209は相互時間差を直接、状態確率メトリックが最も高い状態の時間オフセットに等しくなるように設定しても良い。
【0061】
ITDプロセッサ209は、遅延プロセッサ211に結合されている。遅延プロセッサ211では、遅延109、111に適用されるべき遅延を決定する。最初に、遅延プロセッサ211は、間引きプロセッサ201において適用される間引き係数によって相互時間差を補償する。単純な実施形態においては、推定された相互時間差を、間引きされた(たとえば、250μsの分解能に対応して4kHzで間引きされた)ある数のサンプルとして与えても良く、これに間引き係数を乗じて、ある数の間引きされていないサンプルに変換しても良い(たとえば、係数4を乗じて16kHzのサンプルにしても良い)。
【0062】
この例では、遅延プロセッサ211は、両方の遅延109、111に対して値を設定する。具体的には、相互時間差の符号に応じて、遅延の一方をゼロに設定し、他方の遅延を、計算された数の間引きされていないサンプルに設定する。
【0063】
相互時間差を計算するための説明したアプローチによって、エンコード後の信号の品質が向上し、特に、エンコード前のモノラル信号の残響が減る。その結果、CELPモノラル・エンコーダ115の動作および性能が向上する。
【0064】
具体的な試験を行なった。すなわち、3つのステレオ試験信号を会議室内で、一対のマイクロフォンを異なる構成で用いて記録した。第1の構成では、マイクロフォンを1m離して配置し、2人の男性話者が軸上で2つのマイクロフォンのそれぞれの向こうに座り、試験会話を記録した。第2の構成では、2つのマイクロフォンを3m離して配置し、男性話者がこの場合も軸上で2つのマイクロフォンのそれぞれの向こうに座った。最後の構成では、マイクロフォンを2m離し、2人の話者がマイクロフォンの軸に側面を向けて、しかし軸の対向する側で、2つのマイクロフォンのそれぞれの方を向いた。これらのシナリオのすべてにおいて、アルゴリズムは遅延を十分に追跡し、結果として得られるモノラル信号が、ITU−TEV−VBRコーデックに対するベースライン・アルゴリズムを用いてエンコードされたときに、SEGSNRおよびWSEGSNRにおいてほぼ0.3dbのゲインが、各シナリオにおいて観察された。
【0065】
一部の実施形態においては、ある遅延から別の遅延への移行は、遅延109、111によって適切な信号が遅延されるサンプルの数を変えることによって単純に実現される。しかし一部の実施形態においては、1つの遅延から別の遅延への滑らかな移行を行なうための機能が含まれていても良い。
【0066】
具体的には、第1の遅延から第2の遅延への移行を、移行前に遅延によって遅延される第1の信号と、移行後に遅延によって遅延される第2の信号とを生成することによって行なうように、装置を構成しても良い。次に第1および第2の信号を組み合わせて、移行前の信号と移行後の信号との両方からの寄与を含む組み合わせ信号を生成する。2つの信号からの寄与を徐々に変えて、最初は、寄与が主にまたは排他的に第1の信号からであり、移行の終わりでは、寄与が主にまたは排他的に第2の信号からとなるようにする。
【0067】
その結果、装置は、遅延移行の間に、初期遅延と最終遅延とに対応する2つの信号を合成しても良い。2つの信号を、次の様な加重和によって組み合わせても良い。
S=a・S+b・S
ここで、SおよびSは第1および第2の信号を表わし、aおよびbは、移行間隔(具体的には単一のフレームに等しくても良い)の間に変更される重みである。具体的には、最初に、値をa=1およびb=0に設定しても良く、最終値をa=0およびb=1に設定しても良い。これらの値の間の移行を、好適な任意の関数に従って行なっても良く、具体的には、移行の間に関係a+b=1を維持しても良い。
【0068】
こうして、このような実施形態においては、異なる遅延間の滑らかな移行が、両方の遅延に対する信号を合成することによって、および時間領域において一方から他方へ徐々に移すことによって実現される。
【0069】
この具体例では、20msのハーフ・ハン(half−Hann)のオーバーラップ加算窓を適用して、ある遅延から次の遅延までの移行が可能な限り微小となることを確実にしている。
【0070】
図5に、本発明の一部の実施形態によるマルチ・チャンネル音響信号をエンコードする方法を例示する。
本方法は工程501で始まる。工程501では、少なくとも第1のマイクロフォンからの第1の音響信号と第2のマイクロフォンからの第2の音響信号とを含むマルチ・チャンネル音響信号を受信する。
【0071】
工程501に続く工程503では、第1の音響信号と第2の音響信号との間の相互時間差を決定する。
工程503に続く工程505では、相互時間差信号に応じて第1および第2のステレオ信号の少なくとも一方を遅延させることによって、マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号が生成される。
【0072】
工程505に続く工程507では、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号が生成される。
工程507に続く工程509では、モノラル信号を、モノラル信号エンコーダによってエンコードする。
【0073】
当然のことながら、前述の記載では、明瞭さを得るために、異なる機能ユニットおよびプロセッサを参照して本発明の実施形態を説明した。しかし明らかなように、本発明を損なうことなく、異なる機能ユニットまたはプロセッサ間での任意の好適に分配された機能性を用いても良い。たとえば、別個のプロセッサまたはコントローラが行なうと例示した機能性を、同じプロセッサまたはコントローラが行なっても良い。したがって、特定の機能ユニットを参照することは、厳密な論理または物理的構造または組織を示すことではなく、単に、記載した機能性を実現するための好適な手段を参照することであるとみるべきである。
【0074】
本発明は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせを含む任意の好適な形態において実施することができる。本発明は、少なくとも部分的に、1つまたは複数のデータ・プロセッサおよび/またはデジタル・シグナル・プロセッサ上で実行するコンピュータ・ソフトウェアとして、任意的に実施しても良い。本発明の実施形態の要素およびコンポーネントを、任意の好適な方法で物理的、機能的、および論理的に実施しても良い。実際には、機能性を、単一のユニットにおいて実施しても良いし、複数のユニットにおいて実施しても良いし、または他の機能ユニットの一部として実施しても良い。こうして、本発明を、単一のユニットにおいて実施しても良いし、または異なる単位およびプロセッサ間で物理的および機能的に分配しても良い。
【0075】
本発明を、一部の実施形態と関連して説明してきたが、本明細書で述べた特定の形態に限定することは意図していない。むしろ、本発明の範囲は添付の請求項のみによって限定される。さらに加えて、ある特徴が特定の実施形態と関連して説明されているように見える場合があったとしても、当業者であれば分かるように、説明した実施形態の種々の特徴を本発明に従って組み合わせても良い。請求項では、用語「備える」は、他の要素または工程の存在を除外するものではない。
【0076】
さらに、別個に列記しているが、複数のユニット、手段、要素、または方法工程を、たとえば、単一のユニットまたはプロセッサによって実施しても良い。さらに加えて、別個の特徴が異なる請求項に含まれている場合があるが、これらを組み合わせることはおそらく優位な場合があり、異なる請求項に含まれていても、特徴の組み合わせが実現可能ではなくおよび/または優位ではないという意味は含まない。また特徴が請求項の1つのカテゴリに含まれていても、このカテゴリに限定されるという意味は含まず、むしろ、その特徴は必要に応じて他の請求項カテゴリに等しく適用可能であるということを示すものである。さらに、請求項における特徴の順序は、特徴を作用させなければならない何らかの特定の順序を意味するものではなく、特に方法請求項における個々の工程の順序は、工程をこの順序で行なわなければならないということを意味するものではない。むしろ、工程は好適な任意の順番で行なっても良い。

【特許請求の範囲】
【請求項1】
マルチ・チャンネル音響信号をエンコードするための装置であって、
少なくとも第1のマイクロフォンからの第1の音響信号と第2のマイクロフォンからの第2の音響信号とを含む前記マルチ・チャンネル音響信号を受信する受信部と、
前記第1の音響信号と前記第2の音響信号との間の相互相関の経時的観測を組み合わせることによって前記第1の音響信号と前記第2の音響信号との間の相互時間差を決定するための時間差ユニットであって、前記相互相関は、ビタビ様アルゴリズムを用いて蓄積される確率を導き出すために処理される、前記時間差ユニットと、
相互時間差信号に応じて前記第1の音響信号及び前記第2の音響信号の少なくとも一方を遅延させることによって、前記マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を生成する遅延ユニットと、
前記補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成するモノラル・ユニットと、
前記モノラル信号をエンコードするモノラル信号エンコーダと
を備える装置。
【請求項2】
前記時間差ユニットは、複数の時間オフセットに対して前記第1の音響信号と前記第2の音響信号との間の相互相関を決定し、前記相互相関に応じて前記相互時間差を決定するように構成される、請求項1に記載の装置。
【請求項3】
前記時間差ユニットは、相互相関に先立って、前記第1の音響信号と前記第2の音響信号とを低域通過フィルタリングするように構成される、請求項2に記載の装置。
【請求項4】
前記時間差ユニットは、相互相関に先立って、前記第1の音響信号と前記第2の音響信号とを間引くように構成される、請求項2に記載の装置。
【請求項5】
前記遅延ユニットは、間引きの間引き係数に対して前記相互時間差を補償して、前記第1の音響信号及び前記第2の音響信号の少なくとも一方に対する遅延を決定するように構成される、請求項2に記載の装置。
【請求項6】
前記時間差ユニットは、相互相関に先立って、前記第1の音響信号及び前記第2の音響信号に対してスペクトル白色化を適用するように構成される、請求項2に記載の装置。
【請求項7】
前記時間差ユニットは、相互相関に先立って、前記第1の音響信号及び前記第2の音響信号のウィンドウ処理を実行するように構成される、請求項2に記載の装置。
【請求項8】
前記時間差ユニットは、
複数の状態を有するトレリス状態機械であって、前記複数の状態の各々は、前記複数の時間オフセットのうちの一つの時間オフセットに対応する、前記トレリス状態機械と、
前記相互相関に応じて前記トレリス状態機械の状態に対する経路メトリックを決定する経路ユニットと、
以前の状態から現在の状態までの経路と関連する経路メトリックに応じて、前記状態に対する状態メトリックを決定する計算ユニットと、
前記状態メトリックに応じて前記相互時間差を決定するユニットと
を含む、請求項2に記載の装置。
【請求項9】
前記遅延ユニットは、第1の遅延に応じて第1の補償済みマルチ・チャンネル音響信号を生成し、第2の遅延に応じて第2の補償済みマルチ・チャンネル音響信号を生成することによって、第1の遅延から第2の遅延へ移行するとともに、前記第1の補償済みマルチ・チャンネル音響信号と前記第2の補償済みマルチ・チャンネル音響信号とを組み合わせて前記補償済みマルチ・チャンネル音響信号を生成するように構成される、請求項1に記載の装置。
【請求項10】
マルチ・チャンネル音響信号をエンコードする方法であって、
少なくとも第1のマイクロフォンからの第1の音響信号と第2のマイクロフォンからの第2の音響信号とを含む前記マルチ・チャンネル音響信号を受信すること、
前記第1の音響信号と前記第2の音響信号との間の相互時間差を決定すること、
相互時間差信号に応じて前記第1の音響信号及び第2の音響信号の少なくとも一方を遅延させることによって、前記マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を生成すること、
前記補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成すること、
モノラル信号エンコーダにおいて前記モノラル信号をエンコードすること
を含む方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公表番号】特表2010−541007(P2010−541007A)
【公表日】平成22年12月24日(2010.12.24)
【国際特許分類】
【出願番号】特願2010−527010(P2010−527010)
【出願日】平成20年9月9日(2008.9.9)
【国際出願番号】PCT/US2008/075703
【国際公開番号】WO2009/042386
【国際公開日】平成21年4月2日(2009.4.2)
【出願人】(390009597)モトローラ・インコーポレイテッド (649)
【氏名又は名称原語表記】MOTOROLA INCORPORATED
【Fターム(参考)】