説明

テレビ会議装置

【課題】既存のテレビ会議システムの機器との互換性が高く、且つ映像と音像方向が一致するような実在感のあるテレビ会議を実施できるテレビ会議装置を、コストを大きく増加させずに提供する。
【解決手段】テレビ会議装置は、発話側の装置10として左右の2つのマイク11L,11Rとカメラ15を備え、受話側の装置30として3つ以上のスピーカ34が水平方向に並べられたスピーカアレイとディスプレイ35とを備える。装置10は、入力の左右2つの音声信号から、モノラル音声信号とその音像方向を示す音像方向情報を生成する。装置30は、発話側から受信の音像方向情報が示す音像方向を、スピーカアレイを発話側の2つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、発話側から受信のモノラル音声信号が変換後の音像方向に定位するように、変換後の音像方向に対応する1つあるいは複数のスピーカからモノラル音声信号が示す音声を出力させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テレビ会議を行うための端末として使用するテレビ会議装置に関する。
【背景技術】
【0002】
従来から、カメラにより撮影した映像とマイクにより収音した音声を、遠隔地に電気あるいは光回線を経由して伝送する、所謂、テレビ会議システムが広く利用されている。
【0003】
このテレビ会議システムの品質において、音像の方向を映像と一致させることは、非常に重要である。映像の中の被写体から発話されている音声が、その被写体の方向から聞こえれば、遠隔地の相手があたかもこちらの空間にいるような感覚(実在感)を与え、会話や協調作業が促進され、遠隔地の相手との作業効率が高まる。
【0004】
ところで、音像の方向を推定するには一般に、撮影した画像から推定する方法と、あるいは収音した音声から推定する方法と、がある。
【0005】
撮影した画像から推定する方法は、発話者を画像認識によって特定し、その発話者の位置を画像情報により推定する。そして、その位置情報を、映像・音声信号とともに伝送し、復号化側で、その位置情報に音像を定位させる(例えば、特許文献1を参照)。
【0006】
収音した音声から推定する方法は、マイクを複数使用し、各マイクに入ってくる音声の音圧や時間差のずれから発話者位置を推定する。その後の音像の定位については上述した処理と同様である。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特許第4327822号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述の、収音した音声から音像位置を推定する方法に関して、一般に、複数のマイクを使用して収音すれば、その収音した音声から音像の方向を推定することが可能となる。しかし、そのような推定は、数個以上のマイクからなるマイクアレイを用いて行うことが一般的であり、マイクアレイのコストが増大してしまうという問題がある。
【0009】
一方で、上述の、撮影した画像から音像位置を推定する方法は、発話者を画像認識する必要があり、現状の画像認識技術の水準では大人数に対応できない。また、仮に可能であるとしても、映像信号処理に必要な計算機演算量は音声信号処理に比べ格段に大きいため、高スペックの演算処理装置を搭載する必要があり、製品コストが増大してしまうという問題がある。
【0010】
このように、製品コストを下げるためにはマイクの個数やスピーカの個数、そして信号処理の演算量をなるべく少なくすることが望ましいが、従来のテレビ会議システムの機器にて音像位置を推定するためには、マイクの個数や演算量を下げることは難しい。
【0011】
ところで、現在、広く普及しているテレビ会議システムにおいて音声符号化・復号化方式として採用している標準化方式は、モノラル音声を伝送する方式が殆どであるため、ステレオ(2ch)音声信号やそれ以上のチャネル数の信号を伝送する場合には各メーカの機器間で互換性がない。このように、モノラル音声信号が各メーカの機器間で互換性を持って通信できる唯一の信号であり、モノラル音声信号の伝送路を使用して音声信号を伝送できることは、互換性を持った機器において必須の機能である。
【0012】
しかしながら、収音した音声から音像位置を推定する方法を採用した場合、複数のマイクで収音した2チャネル以上の音声信号をネットワークを介して送信する必要があり、各メーカの機器間で互換性を持たせることが望まれる。また、それ以外の方法を採用した場合でも、同様に互換性を持たせることが望まれる。
【0013】
本発明は、上述のような実状に鑑みてなされたものであり、その目的は、既存のテレビ会議システムの機器との互換性が高く、且つ映像と音像方向が一致するような実在感のあるテレビ会議を実施することが可能なテレビ会議装置を、コストを大きく増加させることなく提供することにある。
【課題を解決するための手段】
【0014】
上述したような課題を解決するために、本発明の第1の技術手段は、左右の2つのマイクと、該2つのマイクによって収音する対象の空間を撮影するカメラとを発話用に備えるとともに、3つ以上のスピーカが水平方向に並べられたスピーカアレイと、ディスプレイとを受話用に備え、ネットワークを介して他のテレビ会議装置と通信するテレビ会議装置であって、前記他のテレビ会議装置において2つのマイクで収音された左右2つの音声信号から生成・送信された、モノラル音声信号及び該モノラル音声信号の音像方向を示す音像方向情報を、処理する受話側の音声信号処理部を備え、該受話側の音声信号処理部は、前記音像方向情報が示す音像方向を、前記スピーカアレイを前記他のテレビ会議装置の前記2つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、前記モノラル音声信号が変換後の音像方向に定位するように、該変換後の音像方向に対応する1つあるいは複数の前記スピーカから前記モノラル音声信号が示す音声を出力させる処理を行うことを特徴としたものである。
【0015】
第2の技術手段は、第1の技術手段において、前記テレビ会議装置は、前記2つのマイクで入力された左右2つの音声信号から、モノラル音声信号、及び該モノラル音声信号の音像方向を示す音像方向情報を生成する発話側の音声信号処理部を、更に備えたことを特徴としたものである。
【0016】
第3の技術手段は、第1または第2の技術手段において、前記2つのマイクは、前記ディスプレイの両端に離して設置された無指向性マイクであることを特徴としたものである。
【0017】
第4の技術手段は、第1または第2の技術手段において、前記2つのマイクは、前記ディスプレイの両端に離して設置された指向性マイクであることを特徴としたものである。
【0018】
第5の技術手段は、第1または第2の技術手段において、前記2つのマイクは、前記ディスプレイの上部あるいは下部に隣接して設置された指向性マイクであることを特徴としたものである。
【発明の効果】
【0019】
本発明によれば、既存のテレビ会議システムの機器との互換性が高く、且つ映像と音像方向が一致するような実在感のあるテレビ会議を実施することが可能なテレビ会議装置を、コストを大きく増加させることなく提供することができる。
【図面の簡単な説明】
【0020】
【図1】本発明に係るテレビ会議装置を用いたテレビ会議システムの構成例を示す図である。
【図2】図1のテレビ会議システムの符号化部における音声信号処理部の一構成例を示すブロック図である。
【図3】図2の音声信号処理部において音声データをバッファに蓄える様子を示す図である。
【図4】図2の後処理部に入力される音声信号の波形の一部を拡大した図である。
【図5】左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。
【図6】図2の後処理部で施される不連続点除去処理の一例を説明するための模式図である。
【図7】図4の音声信号に対し、図6の不連続点除去処理を施した結果を示す図である。
【図8】図1のテレビ会議システムの復号化部における音声信号処理部の一構成例を示すブロック図である。
【図9】2ch再生方式を説明するための模式図である。
【図10】図1のテレビ会議システムにおいてスピーカ群として配置するスピーカアレイの一例を示す模式図である。
【図11】受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図である。
【図12】波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。
【図13】図12の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。
【図14】本発明に係るテレビ会議装置の例を示す外観図である。
【図15】本発明に係るテレビ会議装置の他の例を示す外観図である。
【図16】本発明に係るテレビ会議装置の他の例を示す外観図である。
【図17】本発明に係るテレビ会議装置の他の例を示す外観図である。
【図18】本発明に係るテレビ会議装置の他の例を示す外観図である。
【発明を実施するための形態】
【0021】
本発明に係るテレビ会議装置は、テレビ会議を行うための端末として使用する装置であって、ネットワークを介して他のテレビ会議装置と通信することでテレビ会議の環境を提供する。本発明に係るテレビ会議装置は、概略的に説明すると、発話側では、ステレオ入力音声信号のみから音像方向を推定し(音像位置を推定するとも言える)、モノラル音声信号とその音像方向を示す情報を伝送して、受信側では、その音像方向に対応するようにスピーカアレイに定位させるように、モノラル音声信号が示す音声を出力させる。これにより、実在感のある映像と音声の伝送が、少ない演算量とモノラル音声信号のみの伝送で可能となる。
【0022】
以下、図面を参照しながら、本発明に係るテレビ会議装置の構成例及び処理例について説明する。
図1は、本発明に係るテレビ会議装置を用いたテレビ会議システムの構成例を示す図である。以下、テレビ会議システムを構成する発話側(符号化側)の装置10と受話側(復号化側)の装置30とに分けて説明するが、本発明に係るテレビ会議装置は双方の装置10,30の機能を持っている。
【0023】
符号化側の装置10は、2つのマイク11L,11R、増幅器12L,12R、A/Dコンバータ13、符号化部14、及びカメラ15を備える。マイク11L,11Rはそれぞれ左チャネルのマイク、右チャネルのマイクであり、増幅器12L,12Rはそれぞれマイク11L,11Rで収音された音声信号を増幅させる。A/Dコンバータ13は、増幅器12L,12Rから出力された左右の音声信号をそれぞれ左右のデジタル音声信号に変換する。カメラ15は、2つのマイク11L,11Rによって収音する対象の空間を撮影し、デジタル映像信号として出力するものであり、必要に応じて画像処理が施される。
【0024】
符号化部14は、A/Dコンバータ13から出力された左右のデジタル音声信号を符号化するとともに、カメラ15から出力されたデジタル映像信号を符号化する。符号化部14は、本発明の主たる特徴の一つである発話側の音声信号処理部を有する。この発話側の音声信号処理部は、2つのマイク11L,11Rで入力された左右2つの音声信号から、モノラル音声信号と、そのモノラル音声信号の音像方向を示す音像方向情報とを生成する。ただし、この発話側の音声信号処理部は符号化部14以外に設けられていてもよい。
【0025】
また、符号化側の装置10は、符号化されたデジタルデータを復号化側の装置30に伝送するための通信部(図示せず)も備える。送信されるデジタルデータには、モノラル音声信号、映像信号の他に上記音像方向情報を含んでいる。
【0026】
復号化側の装置30は、符号化側の装置10から送信されたデータを受信する通信部(図示せず)を備える。以下、特に説明しないが、装置10と装置30との間のデータのやり取りは、通常、データのやり取りを管理するサーバを介して行われる。このデータのやり取りは、例えば、そのテレビ会議システムの専用の高セキュリティのサーバを介して行われてもよいし、一般的なチャットサーバを介して行われてもよい。
【0027】
復号化側の装置30は、さらに復号化部31、D/Aコンバータ32、複数の増幅器33、及び3つ以上のスピーカ34を備える。3つ以上のスピーカ34は、水平方向に並べられており、スピーカアレイをなしている。
【0028】
そして、復号化側の装置30は、本発明の主たる特徴の一つである受話側の音声信号処理部を有する。この受話側の音声信号処理部は、音声に関する処理を簡単に説明したように、他のテレビ会議装置から受信したモノラル音声信号及び音像方向情報を処理する受話側の音声信号処理部を有する。この受話側の音声信号処理部は、その詳細な例については後述するが、音像方向情報が示す音像方向を、3つ以上のスピーカ34でなるスピーカアレイを発話側の装置における2つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、モノラル音声信号が変換後の音像方向に定位するように、変換後の音像方向に対応する1つあるいは複数のスピーカからモノラル音声信号が示す音声を出力させる処理を行う。
【0029】
復号化側の装置30の各構成要素についてその概略を説明する。まず、復号化部31は、他のテレビ会議装置から受信したデジタルデータを復号化し、復号化したデジタルデータのうち映像信号をディスプレイ35に渡すとともに、モノラル音声信号及び音像方向情報をD/Aコンバータ32に渡す。ディスプレイ35は、復号化部31から入力された映像信号が示す映像を表示する。D/Aコンバータ32は、モノラル音声信号を音像方向情報を用いてその音像方向情報が示す音像方向のアナログ音声信号に変換し、出力させるスピーカ34に対応する増幅器33に出力する。各増幅器33は、入力されたアナログ音声信号に対応するスピーカ34に出力する。これにより、音像方向情報が示すスピーカ34から対応する音声が出力される。ここで、音声の出力は、既存の技術により映像の表示と同期をとっておけばよい。
【0030】
このような構成のテレビ会議システムにおいて音声に注目し、音声の収音から再生までの概略を説明する。まず、発話者から発せられた音声は、左右2つのマイク11L,11Rで収音され、それぞれ増幅器12L,12Rによって増幅される。そして、A/Dコンバータ13によって標本化されて離散音声信号となり符号化部14に入力される。符号化部14では、入力された離散音声信号を処理することによってモノラル音声信号と音像方向情報とを生成し、符号化する。この符号化データが通信部によりネットワークNを介して復号化側の装置30に伝送される。
【0031】
伝送された信号はネットワークNを経由して復号化側の装置30の通信部で受信される。受信された符号データは、復号化部31によって復号され、その結果、音像方向情報が示す位置情報を反映した音声信号が生成される。それがD/Aコンバータ32によってアナログ信号に変換され、複数の増幅器33を通して複数のスピーカ34によって再生される。
【0032】
図2を参照しながら、符号化部14における音声信号処理に関する部分である、上記発話側の音声信号処理部を説明する。図2は、図1のテレビ会議システムの符号化部における音声信号処理部の一構成例を示すブロック図である。
【0033】
図2で例示する音声信号処理部20は、前処理部21、離散フーリエ変換部22、信号分離抽出部23、ゲイン調整部24L,24S,24R、合成部25、離散フーリエ逆変換部(逆離散フーリエ変換部)26、後処理部27、及び圧縮符号化処理部28を備える。
【0034】
前処理部21は、入力された左右の音声信号を読み込み、それぞれ窓関数演算を行う。離散フーリエ変換部22は、それら信号を時間領域の表現から周波数領域の表現に変換する。信号分離抽出部23は、変換後の音声信号を相関信号と左右チャネルそれぞれから分離される無相関信号に分離するとともに、音像方向情報の抽出も行う。抽出された音声方向情報は、圧縮符号化処理部28に出力される。
【0035】
ゲイン調整部24L,24S,24Rは、それぞれの分離された信号成分(左の無相関信号、相関信号、右の無相関信号)を入力し、それぞれスケーリング処理、つまりゲインを増加または減少させるゲイン係数乗算処理を施す。合成部25は、スケーリング後の音声信号を足し合わせて、離散フーリエ逆変換部26に出力する。なお、合成部25は、3つの音声信号を加算処理(つまり重ね合わせ処理)するため、加算部あるいは重ね合わせ部とも言える。
【0036】
離散フーリエ逆変換部26は、足し合わせた音声信号を、再び時間領域に戻し、後処理部27に出力する。後処理部27は、離散フーリエ逆変換部26からの出力信号にノイズ除去処理を施して、圧縮符号化処理部28に出力する。そして、圧縮符号化処理部28は、後処理部27で後処理後の音声信号と信号分離抽出部23で抽出された音像方向情報とを、圧縮符号化する。
【0037】
以下、図3を併せて参照しながら、音声信号処理部20の各部についてそれぞれ具体的な処理例を説明する。図3は、図2の音声信号処理部において音声データをバッファに蓄える様子を示す図である。
【0038】
まず、前処理部21について説明する。前処理部21は、1セグメントの半分の長さの音声データ(音声信号のデータ)を、図1におけるA/Dコンバータ13から読み出す。ここで、音声信号は、A/Dコンバータ13によって例えば16kHzの標本化周波数で標本化されているとする。また、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとする。その値は例えば1024とする。この例では、1セグメントの半分の長さである512点の音声データが読み出し対象となる。
【0039】
読み出した512点の音声データは、図3で例示するようなバッファ3に蓄えられる。このバッファ3は、直前の1セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の半セグメント分のデータと最新の半セグメント分のデータを繋げて1セグメント分の音声データを作成し、そのデータに対して窓関数演算を行う。すなわち、全ての標本データは窓関数演算のために2回読み込まれることになる。
【0040】
窓関数演算では、従来提案されている次のHann窓を1セグメント分の音声データに乗算する。
【数1】

ここで、mは自然数、Mは1セグメント長で偶数とする。ステレオの入力信号をそれぞれx(m)、x(m)とすると、窓関数乗算後の音声信号x′(m)、x′(m)は、
【0041】
x′(m)=w(m)x(m) 、
x′(m)=w(m)x(m) (2)
と計算される。このHann窓を用いると、例えば標本点m(ただし、M/2≦m<M)の入力信号x(m)にはsin((m/M)π)が乗算される。そして、その次の回の読み込みではその同じ標本点がm−M/2として読み込まれるので、
【0042】
【数2】

が乗算される。ここで、sin((m/M)π)+cos((m/M)π)=1であるから、もし、何も修正を加えずに読み込んだ信号を半セグメントずつずらして加算すれば、元の信号が完全に復元されることになる。
【0043】
そうして得られた音声データを、次の数式(3)のように離散フーリエ変換部22で離散フーリエ変換し、周波数領域の音声データを得る。ここで、DFTは離散フーリエ変換を表し、kは自然数で、0≦k<Mである。X(k)、X(k)は複素数となる。
(k)=DFT(x′(n)) 、
(k)=DFT(x′(n)) (3)
【0044】
次に、信号分離抽出部23について説明する。信号分離抽出部23は、得られた周波数領域の音声データを小さい帯域に分割する。分割方法についてはEquivalent Rectangular Band(ERB)を用い、ERBの帯域幅で0Hzから標本化周波数の1/2の周波数までの間を分割する。ここで、ERBにより、与えられた周波数の上限fmax[Hz]までをいくつに分割するか、すなわちERBで分割した各帯域の索引の最大値Iは次式によって与えられる。
I=floor(21.4log10(0.00437fmax+1)) (4)
ただし、floor(a)はフロア関数で、実数aを越えない整数の最大値を表す。
【0045】
そして、それぞれのERB幅の帯域(以下、小帯域)の中心周波数F(i)(1≦i≦I)[Hz]は次式によって与えられる。
【数3】

【0046】
また、その時のERBの帯域幅b(i)[Hz]は次式によって求められる。
(i)=24.7(0.00437F(i)+1) (6)
よって、その中心周波数から低域側と高域側にそれぞれERB/2の周波数幅だけシフトすることによりi番目の小帯域の両側の境界周波数F(i)、F(i)を求めることができる。したがって、i番目の小帯域には、K(i)番目の線スペクトルからK(i)番目の線スペクトルが含まれる。ここで、K(i)、K(i)はそれぞれ次の数式(7)、(8)で表される。
(i)=ceil(21.4log10(0.00437F(i)+1)) (7)
(i)=floor(21.4log10(0.00437F(i)+1)) (8)
ただし、ceil(a)は天井関数で、実数aより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばX(0)を除いて、M/2(ただし、Mは偶数)を境に対称となっている。すなわち、X(k)とX(M−k)は0<k<M/2の範囲で複素共役の関係になる。したがって、以下ではK(i)≦M/2の範囲を分析の対象として考え、k>M/2の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。
【0047】
これらの具体例を示す。例えば、標本化周波数が16000Hzの場合、I=33となり、33の小帯域に分割することとなる。ただし、直流成分は分割の対象とせず、どの小帯域にも含まないこととする。なぜならば、以下の方式では左右チャネルの正規化相関係数を求めるが、直流成分は複素数の実部しか持たないために正規化相関係数が1となるため、左右チャネルの直流成分が全て相関係数に割り当てられるという不適当な処理になってしまうからである。また、最も高い小帯域区間よりもさらに上の周波数に相当する線スペクトル成分も存在するが、それらは聴感上の影響も殆ど無く、さらに通常は値が微小であるため、それらは最も高い小帯域区間に含めることとして差し支えない。
【0048】
次に、このようにして決定される各小帯域において、左チャネルと右チャネルの正規化相関係数を次式で求めることで、相関係数を取得する。
【数4】

【0049】
この正規化相関係数d(i)は左右のチャネルの音声信号にどれだけ相関があるかを表すものであり、0から1の間の実数の値をとる。全く同じ信号同士であれば1、そして全く無相関の信号同士であれば0となる。ここで、左右のチャネルの音声信号の電力P(i)とP(i)の両方が0である場合、その小帯域に関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の小帯域の処理に移ることとする。また、P(i)とP(i)のいずれか片方が0である場合、数式(9)では演算不可能であるが、正規化相関係数d(i)=0とし、その小帯域の処理を続行する。
【0050】
次に、この正規化相関係数d(i)を用いて、左右チャネルの音声信号から相関信号と無相関信号をそれぞれ分離抽出するための変換係数を求め、求めたそれぞれの変換係数を用いて、左右チャネルの音声信号から相関信号と無相関信号を分離抽出する。相関信号及び無相関信号は、いずれも推定した音声信号として抽出すればよい。
【0051】
変換係数の算出及び信号の分離抽出の処理例を説明する。ここで、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号x(n)、x(n)は、
(m)= s(m)+n(m)、
(m)=αs(m)+n(m) (13)
と表される。ここで、s(m)は左右の相関信号、n(m)は左チャネルの音声信号から相関信号s(m)を減算したものであって(左チャネルの)無相関信号として定義できるもの、n(m)は右チャネルの音声信号から相関信号s(m)を減算したものであって(右チャネルの)無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。
【0052】
数式(13)により、数式(2)で前述した窓関数乗算後の音声信号x′(m)、x′(m)は、次の数式(14)で表される。ただし、s′(m)、n′(m)、n′(m)はそれぞれs(m)、n(m)、n(m)に窓関数を乗算したものである。
x′(m)=w(m){ s(m)+n(m)}= s′(m)+n′(m)、
x′(m)=w(m){αs(m)+n(m)}=αs′(m)+n′(m)
(14)
【0053】
数式(14)を離散フーリエ変換することによって、次の数式(15)を得る。ただし、S(k)、N(k)、N(k)はそれぞれs′(m)、n′(m)、n′(m)を離散フーリエ変換したものである。
(k)= S(k)+N(k)、
(k)=αS(k)+N(k) (15)
【0054】
したがって、i番目の小帯域における音声信号X(i)(k)、X(i)(k)は、
(i)(k)= S(i)(k)+N(i)(k)、
(i)(k)=α(i)(i)(k)+N(i)(k)
ただし、K(i)≦k≦K(i) (16)
と表現される。ここで、α(i)はi番目の小帯域におけるαを表す。以後、i番目の小帯域における相関信号S(i)(k)、無相関信号N(i)(k)、N(i)(k)をそれぞれ、
(i)(k)=S(k)、
(i)(k)=N(k)、
(i)(k)=N(k)
ただし、K(i)≦k≦K(i) (17)
とおくこととする。
【0055】
数式(16)から、数式(12)の音圧P(i)とP(i)は、
(i)=P(i)+P(i)
(i)=[α(i)(i)+P(i) (18)
と表される。ここで、P(i)、P(i)はi番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、
【数5】

と表される。ここで、左右の無相関信号の音圧は等しいと仮定している。
【0056】
また、数式(10)〜(12)より、数式(9)は、
【数6】

と表すことができる。ただし、この算出においてはS(k)、N(k)、N(k)が互いに直交し、かけ合わされたときの電力は0と仮定している。
【0057】
数式(18)と数式(20)を解くことにより、次の式が得られる。
【数7】

【0058】
これらの値を用いて、各小帯域における相関信号と無相関信号を推定する。i番目の小帯域における相関信号S(i)(k)の推定値est(S(i)(k))を、媒介変数μ、μを用いて、
est(S(i)(k))=μ(i)(k)+μ(i)(k) (23)
とおくと、推定誤差εは、
ε=est(S(i)(k))−S(i)(k) (24)
と表される。ここで、est(A)はAの推定値を表すものとする。そして二乗誤差εが最少になるとき、εとX(i)(k)、X(i)(k)はそれぞれ直交するという性質を利用すると、
E[ε・X(i)(k)]=0 、 E[ε・X(i)(k)]=0 (25)
という関係が成り立つ。数式(16)、(19)、(21)〜(24)を利用すると、数式(25)から次の連立方程式が導出できる。
(1−μ−μα(i))P(i)−μ(i)=0
α(i)(1−μ−μα(i))P(i)−μ(i)=0
(26)
【0059】
この数式(26)を解くことによって、各媒介変数が次のように求まる。
【数8】

ここで、このようにして求まる推定値est(S(i)(k))の電力Pest(S)(i)が、数式(23)の両辺を二乗して求まる次の式
est(S)(i)=(μ+α(i)μ(i)+(μ+μ)P(i) (28)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、est′(A)はAの推定値をスケーリングしたものを表す。
【0060】
【数9】

【0061】
そして、i番目の小帯域における左右チャネルの無相関信号N(i)(k)、N(i)(k)に対する推定値est(N(i)(k))、est(N(i)(k))はそれぞれ、
est(N(i)(k))=μ(i)(k)+μ(i)(k) (30)
est(N(i)(k))=μ(i)(k)+μ(i)(k) (31)
とおくことにより、上述の求め方と同様にして、媒介変数μ〜μは、
【0062】
【数10】

と求めることができる。このようにして求めた推定値est(N(i)(k))、est(N(i)(k))も上述と同様に、次の式によってそれぞれスケーリングする。
【0063】
【数11】

【0064】
数式(27)、(32)、(33)で示した各媒介変数μ〜μ及び数式(29)、(34)、(35)で示したスケーリングの係数が、ステップS86で求める変換係数に該当する。そして、ステップS87では、これらの変換係数を用いた演算(数式(23)、(30)、(31))により推定することで、相関信号と無相関信号(右チャネルの無相関信号、左チャネルの無相関信号)とを分離抽出する。
【0065】
以上のように、信号分離抽出部23は、このようにして分離された信号を出力することになるが、次に説明するように、仮想音源への割り当て処理が施された信号を出力することになる。そのため、音声信号処理部20は、左右のチャネル用のゲイン調整部24L,24Rと相関信号用のゲイン調整部24Sとを有する。信号分離抽出部23は、左チャネルより分離された無相関信号est'(N(i)(k))を左チャネル用のゲイン調整部24Lに出力し、右チャネルより分離された無相関信号est'(N(i)(k))を右チャネル用のゲイン調整部24Rに出力し、両チャネルより分離された相関信号est'(S(i)(k))を相関信号用のゲイン調整部24Sに出力する。
【0066】
さらに、信号分離抽出部23は、数式(21)のα(i)を、音像方向情報として、圧縮符号化処理部28に出力する。各小帯域におけるこの値は、数式(13)に示したように、相関信号成分の左右の音圧バランスを示す値であるため、この値とマイク間の距離が分かれば、音像位置を特定することができる。
【0067】
ゲイン調整部24L,24S,24Rでは、それぞれの信号をスケーリングする。通常、左右のマイク11L,11Rから入力される音声には背景ノイズが混在しているが、そのような背景ノイズは、左右のチャネル間の相関性が低いので、無相関信号として分離される確率が高い。その一方、発話者の音声信号は、主に相関信号として分離される。したがって、左右チャネルの無相関信号を、ゲイン調整部24L,24Rによって、相関信号と比べ相対的に減圧するか、あるいは相関信号をゲイン調整部24Sによって、左右無相関信号と比べ相対的に増圧すれば、背景ノイズを抑圧することができ、結果として入力音声を明瞭にすることができる。
【0068】
次に合成部25にて、スケーリング後のそれら3つの信号を、全ての小帯域で足し合わせ、さらに足し合わせた後の3つの信号を1つの信号として足し合わせる。これを離散フーリエ逆変換部26で離散フーリエ逆変換することによって、モノラルの音声信号が得られる。このモノラルの音声信号は、上に述べた通り、左右の音声信号がモノラルの音声信号に変換され、さらにノイズ成分が抑圧されたものとなっている。
【0069】
そうして得られたモノラル音声信号は、後処理部27に出力される。ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述したとおり、1つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。
【0070】
次に、後処理部27について説明する。後処理部27はノイズ除去処理を行う。図4を参照して、ノイズ除去の対象となるノイズについて説明する。図4は、図2の後処理部27に入力される音声信号の波形の一部を拡大した図である。図4に示す音声信号40は、中央付近41にあるように不連続点が生じている。このような不連続点は、信号分離抽出部23を経ることにより後処理部27に入力されるデータに多数含まれてしまうため、それらが再生時に耳障りなノイズとして知覚されてしまうことになる。このような不連続点は、この音声信号処理方式が直流成分を無視して処理するため、すなわち直流成分の線スペクトルを考慮しないために生じる。
【0071】
図5はそれを模式的に示した波形のグラフである。より詳細には、図5は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図5に示すグラフ50において、横軸は時間を表しており、例えば(M−2)(l)という記号は、l番目のセグメントのM−2番目の標本点であることを示している。グラフ50の縦軸は、それらの標本点に対する出力信号の値である。このグラフ50から分かるように、l番目のセグメントの最後から(l+1)番目のセグメントの最初にかけての部分で不連続点が生じてしまう。
【0072】
この問題に対し、ノイズ除去処理を行う。この処理は、波形の不連続点をなくすことによってノイズを除去できる方法であればどのようなものでもよいが、ここでは図6及び図7を参照して、図5で説明したような問題を解決するためのこのような処理の一例について具体的に説明する。図6は、図2の後処理部27で施される不連続点除去処理の一例を説明するための模式図で、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。また、図7は、図4の音声信号に対し、図6の不連続点除去処理を施した結果を示す図である。
【0073】
後処理部27で施される不連続点除去処理の例では、図6のグラフ60で図5のグラフ50に対する除去例を示すように、l番目のセグメントの最後の波形の微分値と(l+1)番目のセグメントの先頭の微分値が一致するようにする。
具体的には後処理部27が、l番目のセグメントの最後の2点による傾きが維持されるような(l+1)番目のセグメントの先頭の値となるよう、(l+1)番目のセグメントの波形に直流成分(バイアス)を加える。その結果、処理後の出力音声信号y″(m)は、処理前の出力音声信号をy′(m)として、
y″(m)=y′(m)+B (36)
となる。Bはバイアスを表す定数であり、1回前の出力音声信号と今回の処理の出力音声信号が出力バッファで加算された後、図6のグラフ60のように波形が連続するように決定される。
【0074】
また、図6で説明した不連続点除去処理のみでは、バイアス成分が蓄積してしまい、波形の振幅がオーバフローしてしまうことがある。
したがって、次式のように、加算するバイアス成分(直流成分)の振幅の大きさを時間的に減少させることにより収束させることが好ましい。なお、「時間的に減少させる」とは、加算時点からの経過時間、例えば処理セグメント毎の開始点や不連続点の開始点からの経過時間に比例して減少させることを意味する。
y″(m)=y′(m)+B×((M−mσ)/M) (37)
ただし、σはその減少の程度を調整するパラメータであり、例えば0.5などとする。なお、減少のためにはB,σはいずれも正とする。さらに、加算用に求めたバイアスの値の絶対値がある一定以上となった場合には、その値に応じてσを動的に増減させるなどしてもよい。増減させるタイミングは次の処理セグメントでよい。これに限らず、減少させるための比例定数に相当するσを、バイアス値の絶対値(直流成分の振幅の大きさ)に応じて変更する(変化させる)ようにしておけば、フィードバック機能が働き、同様の効果が得られる。ただ、これらの方法では音声波形の振幅がオーバフローしないことを保障するものではない。
【0075】
よって、例えばバイアス値がある一定(所定値)以上の値になった場合には、数式(37)の第二項のバイアス項を加算しないようにする処理を安全弁の機能として加えてもよい。つまり、後処理部27は、加算するために求めた直流成分の振幅が所定値未満である場合のみ、直流成分の加算を実行する(不連続点の除去を実行する)ことが好ましい。この方法を採用することにより、バイアス成分が蓄積しないようになる。
【0076】
また、例えば音声の子音部分など、音声信号がホワイトノイズに近いような場合、音声信号波形の変化が激しく元の波形が既に不連続に近いような状態になっているものがある。このような音声信号に上述した不連続点除去処理を適用すると、逆に波形を歪ませてしまう場合もある。つまり、元の波形が不連続に近いような状態の音声信号に対し、上述した不連続点除去処理を適用すると、この処理がそのような元々不連続の状態に近い波形を無理矢理連続にしようとするため、逆に波形を歪ませてしまう可能性がある。
【0077】
この問題を解消するために、後処理部27では次に示す方法で不連続点除去処理(ノイズ除去処理)を行うことが好ましい。それは、音声の子音部分など信号がホワイトノイズに近いような場合、入力音声信号の波形が所定時間内(例えば処理セグメント内やその半分内)で0を交差する回数が、その他の部分に比べて極端に増加することを利用する。なお、0をどこに採るようにするかは任意に決めておけば済む。よって、出力音声信号(少なくとも離散フーリエ逆変換後の音声信号)が半セグメント長の中で0を交差する回数をカウントし、それが一定の値(所定回数)以上である場合には、その次のセグメントを所定回数以上存在する箇所とみなし、その次のセグメント処理において、数式(36)や数式(37)における右辺第二項のバイアス項を加算しないこととする。つまり、それ以外の箇所でのみ不連続点除去処理を実行する。なお、カウントは、セグメント境界とは関係なく一定時間の音声波形について実行してもよいし、複数のセグメント処理分の音声波形について実行してもよく、いずれの場合にもそのカウント結果から次のセグメント処理でバイアス項を加算するか否かを決めればよい。
【0078】
図4の音声信号40における不連続点の箇所(中央付近41)は、上述したようなノイズ除去処理により、図7の音声信号70で示す通り、不連続点が解消され連続になっていることが分かる。このように不連続点を無くし、ノイズを除去できる。
【0079】
このようにして得られたモノラル音声信号と、信号分離抽出部23より出力された音像方向情報は、圧縮符号化処理部28で符号化される。モノラル音声信号は、広く普及している、G.711、722、723.1、728、729などの音声符号化標準方式によって符号化されてもよいし、VoIP(Voice over Internet Protocol)アプリケーションなどの独自プロトコルによって符号化されてもよい。
【0080】
音像方向情報α(i)については、その値が1のときに左右の音圧が等しく、音像が左右マイクから等距離のところに推定されていることを意味する。よって、その値は1を境にして両側で確率が等しいことが期待される。したがって、そのような値を量子化するためには、例えば下記のように変換した値α′(i)を用いれば、その値は−1から1の範囲に納まり、効率良く量子化することが可能となる。
α′(i)=(α(i)−1)/(α(i)+1) (38)
【0081】
このように変換したα′(i)を、例えば16ステップ(4ビット)に線形量子化する。この値は小帯域ごとに必要となるので、各値に4ビット必要ということになる。通常、テレビ会議では複数の発話者が同時に発話することは少なく、さらに発話者が発話しながら動き回ることも稀であるため、α′(i)の符号化については、1つ前のフレームからの差分を符号化してもよいし、あるいは隣の小帯域の値からの差分を符号化してもよい。いずれにせよ、その値は0近傍となることが期待できるため、それをさらにハフマン符号化することによって、大幅な情報圧縮が可能となる。
【0082】
上述の音声信号については、ITU−R H.323など、既存の方式でそのまま伝送できるが、この音像位置情報については、音声信号とは別に伝送する必要がある。方法としては、もしユーザ定義のビットフィールドが存在する場合は、それで伝送すればよい。それが無い場合、例えばG.711や722のロスレス符号化の場合、音知覚にあまり影響しない下位ビットをこれに割り当てるなど、音声信号への埋め込みを行ってもよい。それ以外のロッシー符号化の場合は、例えば画像データの重要でない部分に、QRコードのように埋め込むなどしてもよい。以上のようにして音像位置情報を伝送する。
【0083】
次に、図8を参照しながら、図1の復号化部31における音声信号処理に関する部分である、上記受話側の音声信号処理部について説明する。図8は、図1のテレビ会議システムの復号化部における音声信号処理部の一構成例を示すブロック図である。
【0084】
図8で例示する音声信号処理部80は、復号処理部81、前処理部82、離散フーリエ変換部83、再生信号生成部84、離散フーリエ逆変換部85、及び後処理部86を備える。
【0085】
復号処理部81は、受信した符号語から、モノラル音声信号と音像方向情報とを抽出する。モノラル音声信号は前処理部82に出力され、音像方向情報は再生信号生成部84に出力される。前処理部82は、符号化側の前処理部21で行ったのと同様、窓関数演算を行う。符号化側では、ステレオ音声信号それぞれに対して演算を行ったが、復号化側ではモノラル音声信号に対して演算を行い、離散フーリエ変換部83に結果を出力する。離散フーリエ変換部83は、符号化側と同じ方法で、離散フーリエ変換を行い、前述と同様に信号を小帯域に分割して、その結果を再生信号生成部84に出力する。
【0086】
再生信号生成部84は、フーリエ変換後の信号と音像方向情報とを入力し、再生信号の生成を行う。このとき、この再生信号生成部84が主となって、音像方向情報が示す音像方向を、スピーカアレイを2つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、モノラル音声信号が変換後の音像方向に定位するように、変換後の音像方向に対応する1つあるいは複数のスピーカからモノラル音声信号が示す音声を出力させるための信号に変換する。これにより、1つあるいは複数のスピーカから上記変換後の音像方向に定位した音声が出力できるようになる。
【0087】
以下、このような音声出力についてより詳細に説明する。
再生する方式に関して、図9で模式的に図示したように2つのスピーカ91L,91Rを用いたステレオ(2ch)再生方式では、スイートスポット92の領域の視聴者に対してのみ、音像方向が正しく聞こえることはよく知られている。この方式では、会議の複数の各参加者に対し、映像と音像方向を一致させることは困難である。
【0088】
よって、図1でも触れたように復号化側の装置30は、図10に示すように水平方向に直線状にスピーカアレイ101を配置しておき、音像方向に対応するスピーカのみから音声出力を行う。これにより、スイートスポット92より広いスイートスポット102が得られ、どの参加者に対してもそのスピーカ付近に音像を定位させることが可能である。より好ましくは、水平方向に直線状に並べたスピーカアレイを用いてさらに広いスイートスポットを提供するWave Field Synthesis(WFS)方式などの波面合成再生方式によって、再生音を出力してもよい。
【0089】
この波面合成再生方式は、音源オブジェクト指向再生方式の一つの実装方式と言える。音源オブジェクト指向再生方式は、全ての音が、いずれかの音源オブジェクトが発する音であるとする方式であり、各音源オブジェクト(以下、「仮想音源」と呼ぶ。)が自身の位置情報と音声信号とを含んでいる。音楽コンテンツを例にとると、各仮想音源は、それぞれの楽器の音と楽器が配置されている位置情報とを含む。WFS方式などの波面合成再生方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方仮想音源から放射されているかのような感覚を受ける。
【0090】
この波面合成再生方式では、仮想音源を表す入力信号を必要とする。そして、一般的に、1つの仮想音源には1チャネル分の音声信号とその仮想音源の位置情報が含まれることを必要とする。上述の音楽コンテンツを例にとると、例えば楽器毎に録音された音声信号とその楽器の位置情報ということになり、本発明を用いたテレビ会議では各発言者の位置情報ということになる。
【0091】
以下、そのようなアレイスピーカによる波面合成再生を行う例を挙げ、図11〜図13を参照しながら、主に再生信号生成部84の処理について説明する。図11は、受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図、図12は、波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図、図13は、図12の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。
【0092】
いま、図11に示す位置関係110のように、受聴者から左右のスピーカ111L,111Rの中点にひいた線と、同じく受聴者113からいずれかのスピーカ111L/111Rの中心までひいた線がなす見開き角をθ、受聴者113から推定合成音像112の位置までひいた線がなす見開き角をθとする。ここで、左右のスピーカ111L,111Rから同じ音声信号を、音圧バランスを変えて出力した場合、その出力音声によって生じる合成音像102の方向は、音圧バランスを表す前述のパラメータαを用いて次の式で近似できることが一般的に知られている(以下、立体音響におけるサインの法則と呼ぶ)。
【0093】
【数12】

【0094】
よって、i番目の小帯域における相関信号の合成音像の方向θ(i)は次式によって求められる。ここで、θは予め決定しておく値で、例えばθ=π/6[rad]などとしてよい。
【0095】
【数13】

ここで伝送したのは数式(38)の値であるから、数式(40)は、
θ(i)=sin−1(α′(i)sinθ) (41)
と書き換えられる。
【0096】
次に、図12のように、波面合成再生方式における複数個の仮想音源を仮定し、スピーカアレイ121(図10のスピーカアレイ101に相当)の後方に配置する。そうした場合、再生信号生成部84では、2chの音声信号を仮想音源数の音声信号に変換することになる。例えば変換後のチャネル数を5つとした場合、それを図12で示す位置関係120のように、波面合成再生方式における仮想音源122a〜122eと見做し、スピーカ群(スピーカアレイ)121の後方に配置する。なお、仮想音源122a〜122eにおける隣り合う仮想音源との間隔は均等とする。したがって、ここでの変換例では、2chの音声信号を5つの音声信号に変換することになる。
【0097】
再生信号生成部84は、入力された離散フーリエ変換後のモノラル音声信号を、前記5つの仮想音源122a〜122eのうち、隣接するいずれか2つの仮想音源に割り当てる。ここで、前提として5つの仮想音源の両端(仮想音源122a,122e)より内側になることとする。すなわち、2chステレオ再生時の2つのスピーカによってなす見開き角内におさまるように5つの仮想音源122a〜122eを配置するものとする。そして、合成音像の推定方向から、その合成音像を挟むような隣接する2つの仮想音源を決定し、その2つの仮想音源への音圧バランスの割り当てを調整して、その2つの仮想音源によって合成音像を生じさせるように再生する、という方法を採る。
【0098】
そこで、図13で示す位置関係130のように、受聴者133から両端の仮想音源122a,122eの中点にひいた線と、端の仮想音源122eにひいた線とがなす見開き角をθ′、受聴者133から合成音像131にひいた線とがなす見開き角をθ′とする。さらに、受聴者133から合成音像131を挟む2つの仮想音源122c,122dの中点にひいた線と、受聴者133から両端の仮想音源122a,122eの中点にひいた線(受聴者133から仮想音源122cにひいた線)とがなす見開き角をφ、受聴者133から合成音像131にひいた線とがなす見開き角をφとする。ここで、φは正の実数である。これらの変数を用いて仮想音源に割り当てる方法について説明する。
【0099】
まず、見開き角の差によるスケーリングを次の式のように行う。
θ′=(θ′/θ)θ (42)
これにより、仮想音源の配置による見開き角の差異が考慮され、変換されることになる。ただし、θ′とθの値は、音声データ再生装置のシステム実装時に調整すればよく、またθ′とθの値を等しくしなくても特に問題は生じないため、この例では、θ=π/6[rad]、θ′=π/4[rad]として説明する。
【0100】
次に、i番目の合成音像の方向θ(i)が数式(41)によって推定され、例えばθ(i)=π/15[rad]であったとすると、数式(42)よりθ′(i)=π/10[rad]となる。そして、仮想音源が5つの場合、図13に示すように合成音像131は左から数えて3番目の仮想音源122cと4番目の仮想音源122dの間に位置することになる。また、仮想音源が5つである場合、3番目の仮想音源122cと4番目の仮想音源122dの間について、θ′=π/4[rad]より、φ≒0.078[rad]となり、i番目の小帯域におけるφをφ(i)とすると、φ(i)=θ′(i)−φ≒0.022π[rad]となる。このようにして、各小帯域における相関信号によって生じる合成音像の方向を、それを挟む2つの仮想音源の方向からの相対的な角度で表す。そして上述したように、その2つの仮想音源122c,122dでその合成音像を生じさせることを考える。そのためには、2つの仮想音源122c,122dからの出力音声信号の音圧バランスを調整すればよく、その調整方法については、再び数式(39)として利用した立体音響におけるサインの法則を用いる。
【0101】
ここで、i番目の小帯域における相関信号によって生じる合成音像を挟む2つの仮想音源122c,122dのうち、3番目の仮想音源122cに対するスケーリング係数をg、4番目の仮想音源122dに対するスケーリング係数をgとすると、3番目の仮想音源122cからはg・est′(S(i)(k))、4番目の仮想音源122dからはg・est′(S(i)(k))の音声信号を出力することになる。そして、g、gは立体音響におけるサインの法則により、
【数14】

を満たせばよい。
【0102】
一方、3番目の仮想音源122cと4番目の仮想音源122dからの電力の合計が、符号化側の2ch収音時の相関信号の電力と等しくなるように次式のようにα(i)を使ってg、gを正規化すると、
+g=1+[α(i) (44)
となる。ただし、α(i)は、受信したα′(i)を用い、数式(38)の逆の演算を行うことにより求めることができる。
【0103】
これらを連立させることで、
【数15】

と求められる。この数式(45)に上述のφ(i)、φを代入することによって、g、gを算出する。このようにして算出したスケーリング係数に基づき、上述したように3番目の仮想音源112cにはg・est′(S(i)(k))の音声信号を、4番目の仮想音源122dからはg・est′(S(i)(k))の音声信号を割り当てる。そして、これも上述したように、無相関信号は両端の仮想音源122a,122eに割り当てられる。すなわち、1番目の仮想音源122aにはest′(N(i)(k))を、5番目の仮想音源122eにはest′(N(i)(k))を割り当てる。
【0104】
この例とは異なり、もし合成音像の推定方向が1番目と2番目の仮想音源の間であった場合には、1番目の仮想音源にはg・est′(S(i)(k))とest′(N(i)(k))の両方が割り当てられることになる。また、もし合成音像の推定方向が4番目と5番目の仮想音源の間であった場合には、5番目の仮想音源にはg・est′(S(i)(k))とest′(N(i)(k))の両方が割り当てられることになる。
【0105】
以上のようにして、i番目の小帯域についての左右チャネルの相関信号と無相関信号の割り当てが行われる。このような処理を全ての小帯域について行う。その結果、仮想音源の数をJとすると、各仮想音源(出力チャネル)に対する周波数領域の出力音声信号Y(k),・・・,Y(k)が求まる。
【0106】
そして離散フーリエ逆変換部85が、下式のように、得られた各出力チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号y′(m)を求める。ここで、DFT−1は離散フーリエ逆変換を表す。
y′(m)=DFT−1(Y(k)) (1≦j≦J) (46)
ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号y′(m)も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、1つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。
【0107】
変換後のデータは、符号化側での処理と同様に、図8の後処理部86においてノイズ除去処理を行う。このようにして、各スピーカに対する出力音声を得る。
【0108】
ここでは、スピーカアレイ121は、演算量を少なくするために、ディスプレイの正面方向に音を発するように正面方向を向いて設置されていることを前提として説明したが、これに限ったものではない。
【0109】
また、5つの仮想音源を仮定する例を示したが、仮想音源ではなく実際のスピーカに直接、上述と同じようにして再生音を割り当ててもよい。その場合、1つの小帯域が担当する出力音は、1つのスピーカあるいは隣接する2つのスピーカのみから再生されることとなる。
【0110】
以上のようなテレビ会議システムにより音声を収音して符号化し、伝送して復号化すれば、映像と音像方向を一致させた実在感がある映像+音声を遠隔地に伝送することが可能となる。さらに、本発明に係るテレビ会議装置では、上述のように符号化時に音像方向情報を抽出する処理に伴ってノイズも低減できるため、明瞭な音質で伝送できる。
【0111】
本発明では、発話側は、映像信号とともにモノラル音声信号と僅かな付加情報(音像方向情報)を伝送するように構成しておくだけでよいため、既存のテレビ会議システムの端末にそのような構成を加えることは容易である。また、既存のテレビ会議システムの端末においてそのような構成を付加しない場合でも、例えば受話側のテレビ会議装置で音像方向情報を例えば中央などの所定の方向に予め決めておけば、テレビ会議自体は遂行できる。さらに、ステレオ音声信号を受信した場合にも対応できる。例えば、ステレオ音声信号を受信した場合に、図2の発話側の音声信号処理部20を利用して音像方向を得て、図8の受話側の音声信号処理部80により図1のスピーカ34でなるスピーカアレイから出力するように構成しておけばよい。このように、本発明に係るテレビ会議装置では、モノラル音声信号のやり取りを行うため、既存のテレビ会議システムの機器との互換性が高い。
【0112】
また、本発明に係るテレビ会議装置では、音像方向情報の送信及び音像方向情報からのスピーカアレイへのモノラル音声信号の割り当てを可能とするだけでこのような効果が得られるため、コストを大きく増加させることもない。
【0113】
また、双方向通信のテレビ会議システムを考慮すると、本発明に係るテレビ会議装置に、マイクで拾ったスピーカからの音声をキャンセルするようなエコーキャンセリングシステムを加えることが好ましい。本発明ではモノラル音声を使用しているため、エコーキャンセリングシステムも従来電話やテレビ会議システムで広く使用されている1入力1出力用のエコーキャンセリングシステムを使用でき、多入力・多出力用の複雑なエコーキャンセリングシステムは必要としない。
【0114】
次に、スピーカとマイクの配置方法について、図14〜図18を参照しながら説明する。図14〜図18はそれぞれ、本発明に係るテレビ会議装置の例を示す外観図であり、図1のテレビ会議システムにおける符号化側の装置10と復号化側の装置30の双方の機能を兼ね備えたテレビ会議装置の例を示す外観図である。なお、図14〜図18のいずれにおいても、スピーカアレイを構成するスピーカの数は図示したものに限らず、複数であればよい。
【0115】
図14で示すテレビ会議装置140のように、ディスプレイ141の両端に離して2つのマイク142L,142Rを配置し、ディスプレイ141の下部にスピーカアレイ143(この例では8個のスピーカでなるアレイ)を配置してもよい。図14のように2つのマイク142L,142Rを離して設置する場合、発話者がいる空間的範囲を広くカバーするためマイクは無指向性であることが望ましく、その場合、本発明によって精度良く音像位置を推定することが可能となる。ただし、発話者がディスプレイの左右どちらかよりに位置することが多い場合に適したテレビ会議装置としては、図14に示すマイク142L,142Rの位置に、指向性マイクを設置することが好ましい。
【0116】
また、図15で示すテレビ会議装置150のように、2つのマイク152L,152Rをディスプレイ151の上部に配置して、ディスプレイ151の下部に設けたスピーカアレイ153との距離を空け、なるべくマイク152L,152Rに再び入る出力音声を少なくするような配置をしてもよい。あるいは、図16で示すテレビ会議装置160のように、複数枚(この例では4枚)のディスプレイ161a〜161dを組み合わせた大型ディスプレイに適用してもよい。つまり、その大型ディスプレイの両端に離して2つのマイク162L,1162Rを配置し、その大型ディスプレイの下部にスピーカアレイ163(この例では15個のスピーカでなるアレイ)を配置してもよい。
【0117】
また、スピーカアレイの配置についても、図17で示すテレビ会議装置150のように、両端に離して2つのマイク172L,172Rが配置されたディスプレイ171の上部に、スピーカアレイ173を配置してもよい。
【0118】
また、図18で示すテレビ会議装置180のように、指向性を有する2つのマイク182L,182Rを左右両側の開き方向に向けるように、ディスプレイ181の下部であってスピーカアレイ183が配置されたやや上に設置するなどしてもよい。なお、マイク182L,182Rは、スピーカアレイ183のやや下に配置してもよいし、ディスプレイ181の上部に配置してもよい。このように、2つのマイクは、ディスプレイの上部あるいは下部に隣接して設置された指向性マイクであってもよい。
【0119】
また、本発明におけるテレビ会議装置では、水平方向のスピーカを用いており、上下方向の映像と音像の一致については考慮していない。その理由は、一般的に人間は、上下方向の音像知覚については、水平方向と比べ精度が低いとされているため、水平方向に音像と映像を一致させれば、映像と音像との距離は比較的近くなるので、それに加え、映像と同期する音声はあたかも映像の方から聞こえる、いわゆる腹話術効果の補助効果により、発話者から音声が聞こえるシステムを提供することができる。
【0120】
なお、本発明で適用可能な波面合成再生方式としては、上述したようにスピーカアレイ(複数のスピーカ)を備えて仮想音源に対する音像としてそれらのスピーカから出力するようにする方式であればよく、上述したWFS方式の他、人間の音像知覚に関する現象としての先行音効果(ハース効果)を利用した方式など様々な方式が挙げられる。ここで、先行音効果とは、同一の音声を複数の音源から再生し、音源それぞれから聴取者に到達する各音声に小さな時間差がある場合、先行して到達した音声の音源方向に音像が定位する効果を指し示したものである。この効果を利用すれば、仮想音源位置に音像を知覚させることが可能となる。ただし、その効果だけで音像を明確に知覚させることは難しい。ここで、人間は音圧を最も高く感じる方向に音像を知覚するという性質も持ち合わせている。したがって、テレビ会議装置において、上述の先行音効果と、この最大音圧方向知覚の効果とを組み合わせ、これにより、少ない数のスピーカでも仮想音源の方向に音像を知覚させるように構成することもできる。
【0121】
また、例えば図2で例示した音声信号処理部20や図8で例示した音声信号処理部80における各構成要素、あるいは図1で例示した構成要素13,14,31,32など、本発明に係るテレビ会議装置の各構成要素は、例えばマイクロプロセッサ(またはDSP:Digital Signal Processor)、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路/IC(Integrated Circuit)チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路/ICチップセットとして搭載することも可能である。
【0122】
また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、テレビ会議装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはDSPによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体(外部記録媒体や内部記憶装置)であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばCD−ROMまたはDVD−ROMなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。
【符号の説明】
【0123】
3…バッファ、10…符号化側の装置、11L,11R…マイク、12L,12R…増幅器、13…A/Dコンバータ、14…符号化部、15…カメラ、20…発話側の音声信号処理部、21…前処理部、22…離散フーリエ変換部、23…信号分離抽出部、24L,24S,24R…ゲイン調整部、25…合成部、26…離散フーリエ逆変換部、27…後処理部、28…圧縮符号化処理部、30…復号化側の装置、31…復号化部、32…D/Aコンバータ、33…増幅器、34…スピーカ、35…ディスプレイ、80…受話側の音声信号処理部、81…復号処理部、82…前処理部、83…離散フーリエ変換部、84…再生信号生成部、85…離散フーリエ逆変換部、86…後処理部。

【特許請求の範囲】
【請求項1】
左右の2つのマイクと、該2つのマイクによって収音する対象の空間を撮影するカメラとを発話用に備えるとともに、3つ以上のスピーカが水平方向に並べられたスピーカアレイと、ディスプレイとを受話用に備え、ネットワークを介して他のテレビ会議装置と通信するテレビ会議装置であって、
前記他のテレビ会議装置において2つのマイクで収音された左右2つの音声信号から生成・送信された、モノラル音声信号及び該モノラル音声信号の音像方向を示す音像方向情報を、処理する受話側の音声信号処理部を備え、
該受話側の音声信号処理部は、前記音像方向情報が示す音像方向を、前記スピーカアレイを前記他のテレビ会議装置の前記2つのマイクの位置を結ぶ線分と見做した時の音像方向に変換し、前記モノラル音声信号が変換後の音像方向に定位するように、該変換後の音像方向に対応する1つあるいは複数の前記スピーカから前記モノラル音声信号が示す音声を出力させる処理を行うことを特徴とするテレビ会議装置。
【請求項2】
前記テレビ会議装置は、前記2つのマイクで入力された左右2つの音声信号から、モノラル音声信号、及び該モノラル音声信号の音像方向を示す音像方向情報を生成する発話側の音声信号処理部を、更に備えたことを特徴とする請求項1に記載のテレビ会議装置。
【請求項3】
前記2つのマイクは、前記ディスプレイの両端に離して設置された無指向性マイクであることを特徴とする請求項1または2に記載のテレビ会議装置。
【請求項4】
前記2つのマイクは、前記ディスプレイの両端に離して設置された指向性マイクであることを特徴とする請求項1または2に記載のテレビ会議装置。
【請求項5】
前記2つのマイクは、前記ディスプレイの上部あるいは下部に隣接して設置された指向性マイクであることを特徴とする請求項1または2に記載のテレビ会議装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2012−248986(P2012−248986A)
【公開日】平成24年12月13日(2012.12.13)
【国際特許分類】
【出願番号】特願2011−117747(P2011−117747)
【出願日】平成23年5月26日(2011.5.26)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.QRコード
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度、独立行政法人情報通信研究機構「高度通信・放送研究開発委託研究/革新的な三次元映像技術による超臨場感コミュニケーション技術の研究開発」、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】