音再現システム、音再現装置および音再現方法
【構成】 音再現システム10a(10b、10c)は、コンピュータ18(26、34)を含み、コンピュータ18は、他のコンピュータ26、34から他のユーザの音声に対応する音声データおよび自身のユーザの位置を基準とした他のユーザの顔の向きに対応する角度データを受信すると、角度データが示す顔の方向(角度)に応じた音声フィルタを用いて、受信した音データを畳み込む。そして、コンピュータ18に接続された複数のスピーカを有するスピーカアレイ20を用いて、畳み込んだ音データを出力する。したがって、他のコンピュータ26、34の使用者の顔の向きに応じた音声が再現される。
【効果】 再現される音によってその音の発生者の向きを知ることができるので、円滑に会話することができる。
【効果】 再現される音によってその音の発生者の向きを知ることができるので、円滑に会話することができる。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は音再現システム、音再現装置および音再現方法に関し、特にたとえば、複数のマイクロホンを有するマイクロホンユニットと複数のラウドスピーカを有するスピーカユニットを用いた、音再現システム、音再現装置および音再現方法に関する。
【背景技術】
【0002】
この種の従来の音再現システムの一例が非特許文献1に開示されている。この非特許文献1に開示される3次元音場通信システムでは、70ch(チャネル)のマイクロホンアレイで収録した音響データを62chのラウドスピーカで再現する音場制御(Boundary Surface Control:BoSC)再生システムを用いて、遠隔地に存在する利用者が音響空間を共有しながら会話を行うことが可能である。具体的には、予め収録し逆フィルタが畳み込まれた62chの音場データがサーバに記憶される。このサーバには、インターネットおよびLANのようなネットワークを介して、異なる場所に配置された2台のクライアントマシン(PC)が接続される。各クライアントマシンには、3次元の音場再現システムが接続されている。サーバは、利用者が選択した再現音場を双方の音場再現システム(スピーカアレイシステム)に同時に伝送する。各音場再現システムの利用者の音声に対応する音声データは、ネットワークを介して、それぞれ他方のクライアントマシンに伝送される。各クライアントマシンでは、他方の利用者の音声に対応する音声データ(1ch)が、実時間で畳み込まれた後に、音場データ(62ch)に重ね合わせて出力される。したがって、異なる場所に存在する利用者は、サーバから出力される音場データを共有するとともに、会話することができる。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】「1.数値解析技術と可視化・可聴化 1.7三次元音場通信システム」 榎本成悟 音響技術 No.148/Dec.2009 pp37-42
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、非特許文献1の3次元音場通信システムでは、各クライアントマシンでは、他方の利用者の音声に対応する音声データ(1ch)は、予め用意された音声フィルタを用いて畳み込まれた後に、音場データ(62ch)に重ね合わせて出力されるだけであるため、当該他方の利用者がどこを向いて話しているのかを再現された音声から認識することができない。したがって、背景技術の3次元音場通信システムにさらにクライアントマシンおよび音場再現システムなどを接続して、三者以上の利用者が会話する場合には、誰が誰に話し掛けているのかを、認識するのが困難である。このため、円滑に会話することができない。
【0005】
それゆえに、この発明の主たる目的は、新規な、音再現システム、音再現装置および音再現方法を提供することである。
【0006】
また、この発明の他の目的は、再現された音でその音の発生者の向きを認識できる、音再現システム、音再現装置および音再現方法を提供することである。
【課題を解決するための手段】
【0007】
本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。
【0008】
第1の発明は、少なくとも、複数の第1ラウドスピーカを有するスピーカアレイを備える音再現装置を複数備える、音再現システムであって、各音再現装置は、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、使用者の発生する音に対応する音データを検出する音検出手段、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する角度検出手段、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、他の音再現装置からの音データと角度データとを受信する第1データ受信手段、第1データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する音出力手段を備える、音再現システムである。
【0009】
第1の発明では、音再現システム(10)では、少なくとも、複数の第1ラウドスピーカ(230)を有するスピーカアレイ(20、28、36)を備える音再現装置(18、20、26、28、34、36)を複数備える。各音再現装置は、フィルタ記憶手段、音検出手段、角度検出手段、データ送信手段、第1データ受信手段、音処理手段、および音出力手段を備える。フィルタ記憶手段は、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶する。音検出手段は、使用者の発生する音、たとえば、当該使用者の音声や当該使用者が演奏する楽器の音に対応する音データを検出する。角度検出手段は、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する。データ送信手段は、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信する。第1データ受信手段は、他の音再現装置からの音データと角度データとを受信する。音処理手段は、第1データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、第1データ受信手段によって受信された音データに畳み込み処理を施す。音出力手段は、音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する。
【0010】
第1の発明によれば、角度毎に対応する音声フィルタを記憶しておき、他の音再現装置からの音データを、同じく他の音声再現装置からの角度データが示す角度に対応する音声フィルタを用いて畳み込むので、スピーカアレイによってその角度が示す方向の音を再現することができる。このため、再現される音によってその音の発生者の向きを知ることができる。したがって、スピーカアレイのユーザは、たとえば、誰が誰に話し掛けているのかを再現された音から認識することができ、円滑に会話することができる。
【0011】
第2の発明は、第1の発明に従属し、音声フィルタは、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第2ラウドスピーカを配置し、当該第2ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、当該マイクロホンアレイによって測定されるインパルス応答に基づいて生成される。
【0012】
第2の発明では、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第2ラウドスピーカを配置する。つまり、マイクロホンアレイが聴者として配置され、第2ラウドスピーカが話者として配置される。そして、当該第2ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、マイクロホンアレイによって測定されるインパルス応答が測定される。各マイクロホンで測定されたインパルス応答から伝達特性が測定され、第2ラウドスピーカの回転角度毎の音声フィルタが生成されるのである。
【0013】
第2の発明によれば、或る場所においてラウドスピーカおよびマイクロホンアレイを用いて予め測定したインパルス応答に基づいて音声フィルタを生成するので、音再現装置を使用して会話するユーザは、或る場所で会話しているような臨場感を得ることができる。
【0014】
第3の発明は、第2の発明に従属し、第2ラウドスピーカは、マイクロホンアレイの正面方向から所定角度の方向に、所定距離を隔てて配置される。
【0015】
第3の発明では、第2ラウドスピーカは、マイクロホンアレイの正面方向から所定の角度の方向に、所定距離を隔てて配置される。この音再現装置を用いて、たとえば、遠隔地に存在する三者間で会話する場合には、仮想の位置関係として、所定長さの辺を有する正三角形の頂点の位置に各ユーザの位置が想定される。したがって、そのような位置関係を再現するように、第2ラウドスピーカおよびマイクロホンアレイが配置されるのである。
【0016】
第3の発明によれば、仮想の位置関係を再現するように、ラウドスピーカおよびマイクロホンアレイを配置するので、この位置関係で測定されたインパルス応答に基づいて生成された音声フィルタを用いた場合には、或る場所にその位置関係で会話しているような臨場感を得ることができる。
【0017】
第4の発明は、第1ないし第3の発明のいずれかに従属し、マイクロホンアレイは、或る音場に配置され、マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して各音再現装置に伝送するサーバをさらに備え、各音再現装置は、サーバから伝送された音場データを受信する第2データ受信手段をさらに備え、音出力手段は、第2データ受信手段によって受信された音場データを、音処理手段によって畳み込み処理が施された音データに重畳してスピーカアレイに出力する。
【0018】
第4の発明では、マイクロホンアレイは、或る音場に配置される。音再現システムは、さらに、サーバ(12)を備える。このサーバは、マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して各音再現装置に伝送する。各音再現装置は、第2データ受信手段をさらに備える。第2データ受信手段は、サーバから伝送された音場データを受信する。音出力手段は、第2データ受信手段によって受信された音場データを、音処理手段によって畳み込み処理が施された音データに重畳してスピーカアレイに出力する。したがって、或る音場が再現されるとともに、他の音再現装置からの音が再現される。
【0019】
第4の発明によれば、たとえば、音再現装置を用いて会話しているユーザは、音場を共有しながら、会話することができる。
【0020】
第5の発明は、第4の発明に従属し、スピーカアレイは、第1所定数の第1ラウドスピーカを有し、マイクロホンアレイは、第2所定数のマイクロホンを有し、線形独立性の高い、第1所定数よりも少ない第3所定数の第1ラウドスピーカを選択するスピーカ選択手段、および線形独立性の高い、第2所定数よりも少ない第4所定数のマイクロホンを選択するマイクロホン選択手段をさらに備え、サーバは、第4所定数のマイクロホンを用いて音場データを収録して、畳み込み処理を施し、音出力手段は、第2データ受信手段によって受信された音場データを第3所定数の第1ラウドスピーカを使用して出力する。
【0021】
第5の発明では、スピーカアレイは、第1所定数の第1ラウドスピーカを有し、マイクロホンアレイは、第2所定数のマイクロホンを有している。スピーカ選択手段は、線形独立性の高い、第1所定数よりも少ない第3所定数の第1ラウドスピーカを選択する。同様に、マイクロホン選択手段は、線形独立性の高い、第2所定数よりも少ない第4所定数のマイクロホンを選択する。したがって、サーバは、第4所定数のマイクロホンを用いて音場データを収録して、畳み込み処理を施す。また、音出力手段は、第2データ受信手段によって受信された音場データを第3所定数の第1ラウドスピーカを使用して出力する。
【0022】
第5の発明によれば、使用するラウドスピーカおよびマイクロホンの数を低減するので、畳み込みの処理負荷を軽減するとともに、データの伝送量を低減することができる。したがって、リアルタイムに音場を共有したり、会話したりすることができる。また、線形独立性の高い、ラウドスピーカおよびマイクロホンをそれぞれ選択するので、それらの数を低減したとしても、臨場感を損なうことがない。
【0023】
第6の発明は、複数のラウドスピーカを有するスピーカアレイ、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、使用者の発生する音に対応する音データを検出する音検出手段、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する角度検出手段、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、他の音再現装置からの音データと角度データとを受信するデータ受信手段、データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する音出力手段を備える、音再現装置である。
【0024】
第7の発明は、複数のラウドスピーカを有するスピーカアレイおよび角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段を備える音再現装置を複数備える、音再現システムの音再現方法であって、各音再現装置は、(a)使用者の発生する音に対応する音データを検出し、(b)他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出し、(c)ステップ(a)によって検出された音データとステップ(b)によって検出された角度データとを他の音再現装置に送信し、(d)他の音再現装置からの音データと角度データとを受信し、(e)ステップ(d)によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、ステップ(d)によって受信された音データに畳み込み処理を施し、そして(f)ステップ(e)によって畳み込み処理が施された音データをスピーカアレイに出力する、音再現方法である。
【0025】
第6および第7の発明においても、再現される音によってその音の発生者の向きを知ることができる。
【発明の効果】
【0026】
この発明によれば、音の発生者の角度に応じた音声フィルタを用いるので、再現される音によってその音の発生者の向きを知ることができる。したがって、たとえば、異なる場所に存在する複数の人間が音再現装置を用いて会話するような場合には、誰が誰に話し掛けているのかを再現された音によって知ることができ、円滑に会話することができる。
【0027】
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【図面の簡単な説明】
【0028】
【図1】図1はこの発明の音場共有システムの一例を示す図解図である。
【図2】図2は図1に示すマイクロホンアレイの例を示す図解図である。
【図3】図3は図1に示す音場共有システムに用いるスピーカアレイシステムの例を示す図解図である。
【図4】図4は音場再現の原理を説明するための図解図である。
【図5】図5はグラムシュミットの直交化法を説明するための図解図である。
【図6】図6は各ラウドスピーカを最初に選択した場合に、62個のマイクロホンに対して24個のラウドスピーカを選択したときの評価指標の平均値および最小値の変化を示すグラフである。
【図7】図7は60番のラウドスピーカを最初に選択した場合に、選択された24個のラウドスピーカの配置位置を示す図解図である。
【図8】図8は選択された24個のラウドスピーカに対して選択された8個のマイクロホンの配置位置を示す図解図である。
【図9】図9は図1の音場共有システムに用いるスピーカアレイシステムの使用状態を真上方向から見た模式図である。
【図10】図10は図1に示す音場共有システムを用いて三者間で会話する場合の仮想の位置関係を示す図解図である。
【図11】図11は図10に示した仮想の位置関係で話者の顔の向きに応じた音声のインパルス応答を検出した実環境を真上から見た図を示す。
【図12】図12はマイクロホンアレイのうちの或るマイクロホンで検出されたインパルス応答およびハニング窓を用いて減衰させたインパルス応答を示すグラフである。
【図13】図13は話者と聴者との位置および向きを示す図解図およびそれらをラウドスピーカおよびマイクロホンアレイを用いて表した図解図である。
【図14】図14は実環境および再現環境での実験における被験者の主観評価による角度誤りの平均を示すグラフである。
【図15】図15は実環境および再現環境での実験において、話者の向く角度毎の被験者の主観評価による角度誤り平均を示す棒グラフである。
【図16】図16は実環境および再現環境の間で、被験者の主観による角度誤り平均の相関関係を示す図である。
【発明を実施するための形態】
【0029】
図1を参照して、この実施例の音場共有システム10は音再現システムとしても機能し、サーバ12を含む。サーバ12は、汎用のサーバであり、このサーバ12には、マイクロホンアレイ14が接続される。また、サーバ12は、インターネットまたはLAN或いはその両方のようなネットワーク16を介して、コンピュータ18、コンピュータ26およびコンピュータ34に接続される。コンピュータ18、26、34は、汎用のPCまたはワークステーションである。コンピュータ18には、スピーカアレイシステム20、マイクロホン22およびカメラ24が接続される。また、コンピュータ26には、スピーカアレイシステム28、マイクロホン30およびカメラ32が接続される。そして、コンピュータ34にも、スピーカアレイシステム36、マイクロホン38およびカメラ40が接続される。
【0030】
この図1に示す音場共有システム10は、3つのBoSC再生システム10a、10bおよび10cを含む。図1の点線枠で囲むように、BoSC再生システム10aは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ18、スピーカアレイシステム20、マイクロホン22およびカメラ24によって構成される。また、図1の一点鎖線枠で囲むように、BoSC再生システム10bは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ26、スピーカアレイシステム28、マイクロホン30およびカメラ32によって構成される。さらに、図1の二点鎖線枠で囲むように、BoSC再生システム10cは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ34、スピーカアレイシステム36、マイクロホン38およびカメラ40によって構成される。
【0031】
ただし、コンピュータ18およびスピーカアレイ20、コンピュータ26およびスピーカアレイ28、コンピュータ34およびスピーカアレイ36のそれぞれの組は、マイクロホンアレイ14で検出された音場データまたは他のBoSCシステム10a、10b、10cからの音声データ或いはそれらの両方を再現するための音再現装置として機能する。
【0032】
図2に示すように、マイクロホンアレイ14は、球形に近い形状の骨格14aおよびこの骨格14aを支持するスタンド14bを含む。骨格14aは、C80 フラーレン(Fullerene)の構造を基に、底部の10個の頂点を切り取った70個の頂点を有している。図示は省略するが、骨格14aの表面(外面)であり、70個の頂点の各々には1個の無指向性のマイクロホンが取り付けられる。たとえば、マイクロホンとしては、DPA 4060−BMを用いることができる。スタンド14bは、支持軸140および三脚142によって構成され、支持軸140は、骨格14aの切り取った底部を通ってこの骨格14aの天井をその内側から支持している。
【0033】
なお、骨格14aは、前面側と重なる部分以外は、背面側であっても正面から見えるが、分かり易く示すために、図2では、背面側に相当する部分を点線で示してある。
【0034】
また、図3に示すように、スピーカアレイシステム20、28、36は、楕円形のドーム部220およびこれを支える4本の柱部222を含む。この楕円形のドーム部220は、たとえば木製の4層の架台220a、220b、220c、220dによって構成される。ただし、図3では、ドーム部220の内部をその斜め下方から見た図であり、架台220dおよび柱部222についてはその一部を示してある。図示は省略するが、ドーム部220および柱部222の内部は空洞にされ、架台(220a−220d)自体が密室型エンクロージャの役割を果たす。
【0035】
また、スピーカアレイシステム20、28、36の各々には、70個のラウドスピーカ230が設置される。具体的には、架台220aには6個のフルレンジユニット(Fostex FE83E)すなわちラウドスピーカ230が設置され、架台220bには16個のラウドスピーカ230が設置され、架台220cには24個のラウドスピーカ230が設置され、そして、架台220dには16個のラウドスピーカ230が設置される。さらに、4本の柱部222の各々には、低域を補うため、2個のサブウーファーユニット(Fostex FW108N)すなわちラウドスピーカ230が設置される。
【0036】
このようなスピーカアレイシステム20、28、36は、それぞれ、音場再現ルーム(図示せず)内に設置される。音場再現ルームは、1.5帖の防音室であり、YAMAHAウッディボックス(遮音性能Dr−30)が用いられる。また、音場再現ルーム内には、リフト付きの椅子(図示せず)が設けられる。これは、スピーカアレイシステム20、28、36のドーム部220内であり、ラウドスピーカ230の数が最大となる架台220cの高さに、椅子に座ったユーザの耳の位置(高さ)を設定するためである。
【0037】
なお、マイクロホンアレイ14、およびコンピュータ(18、26、34)とスピーカアレイシステム(20、28、36)とを含む音場再現ルーム(音場再現システム)については、「1.数値解析技術と可視化・可聴化 1.7三次元音場通信システム」 榎本成悟 音響技術 No.148/Dec.2009 pp37-42に開示されているため、さらなる詳細な説明は省略することにする。
【0038】
たとえば、図1に示した音場共有システム10では、マイクロホンアレイ14は、オーケストラの演奏会場などの音場に配置される。サーバ12は、マイクロホンアレイ14からアンプ(図示せず)を介して入力される音場信号をディジタルの音場データに変換し、この音場データに対して逆システムの畳み込み処理を実行する。サーバ12は、畳み込み処理を実行した音場データを、ネットワーク16を介して、コンピュータ18、26および34に送信する。
【0039】
コンピュータ18、26、34は、それぞれ、サーバ12からの音場データをアナログの音場信号に変換し、スピーカアレイシステム20、28、36に出力する。したがって、スピーカアレイシステム20、28、36では、上述の音場が再現される。このため、スピーカアレイシステム20、28、36を使用する各ユーザ(図示せず)は、遠隔地に存在している場合であっても、スピーカアレイシステム20、28、36を介して、たとえば演奏会場で収録した生のオーケストラを楽しむことができる。
【0040】
また、各ユーザは、マイクロホン22、30、38を通して音声を入力することができる。マイクロホン22で検出された音声信号はコンピュータ18でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ26、34に送信される。コンピュータ26は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム28に出力する。同様に、コンピュータ34は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム36に出力する。ただし、コンピュータ26、34は、それぞれ、音場データと音声データとを重畳し、重畳したデータ(以下、「音データ」という)をアナログの信号(以下、「音信号」という)に変換する。以下、同様である。したがって、音場が再現されるとともに、他のユーザの音声が再現される。
【0041】
また、マイクロホン30で検出された音声信号はコンピュータ26でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ18、34に送信される。コンピュータ18は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム20に出力する。同様に、コンピュータ34は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム36に出力する。つまり、コンピュータ18、34は、それぞれ、音場データと音声データとを重畳した音データを音信号に変換する。
【0042】
さらに、マイクロホン38で検出された音声信号はコンピュータ34でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ18、26に送信される。コンピュータ18、26は、上述したように、それぞれ、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム20、28に出力する。
【0043】
したがって、スピーカアレイシステム20のユーザ、スピーカアレイシステム28のユーザ、およびスピーカアレイシステム36のユーザは、音場を共有するとともに、三者間で会話することが可能である。
【0044】
なお、詳細な説明は省略するが、たとえば、マイクロホン22、30、38としては、ヘッドセットのマイクロホンを用いることができる。
【0045】
また、詳細な説明は省略するが、各コンピュータ18、26、34は、他のコンピュータ18、26、34からの音声データを個別の音声フィルタを用いて畳み込む。たとえば、各コンピュータ18、26、34は、使用する通信ポートやIPアドレスによって、他のコンピュータ18、26、34を識別することが可能である。
【0046】
ここで、BoSCの原理およびBoSCを用いた音場再現システムについて簡単に説明する。境界音場制御では、キルヒホッフ・ヘルムホルツ積分方程式(KHIE)に基づき、図4の左側に示す原音場内の領域V内の音場が、図4の右側に示す際現音場内の領域V´において再現される。ただし、領域Vを囲む境界S上の収録点rと、領域V’を囲む境界S’上の制御点r’との相対的な位置は等しいものとする。つまり、数1が成立すると仮定する。ただし、点sおよび点s’は各領域内部の任意の点である。
【0047】
[数1]
|r−s|=|r’−s’|,s∈V,s’∈V’
このとき、内部に音源を含まない領域内の音圧p(s),p(s’)はKHIEより、数2および数3のそれぞれで示される。
【0048】
【数2】
【0049】
【数3】
【0050】
ただし、ωは角周波数であり、ρ0は媒質の密度であり、p(r),vn(r)はそれぞれ境界上の点rにおける音圧と法線nの方向の粒子速度であり、G(r|s)は自由空間グリーン関数である。
【0051】
ここで、数1より、数4に示す関係が成立する。さらに、数4に従って、数5が成立する。
【0052】
【数4】
【0053】
【数5】
【0054】
この数5から、原音原で収音された境界面S上の音圧と粒子速度が再現音場において等しくなるように、2次音源から信号を出力すれば、領域V内の音場が領域V’において再現されることが分かる。
【0055】
ただし、2次音源の出力は、すべての2次音源からすべての制御点までの伝達特性を打ち消す逆フィルタと収録点で観測された信号を畳み込むことにより決定される。したがって、図4に示すような、BoSC音場再現システムを実現するためには、安定であり、かつ頑健な逆フィルタ(pinv(H))を設計することが重要になる。
【0056】
なお、逆フィルタの設計方法は、文献(S.Enomoto et al., "Three-dimensional sound field reproduction and recording systems based on boundary surface control principle", Proc. of 14th ICAD, Presentation o 16, 2008 Jun.)に詳細に開示されているため、ここでは、簡単に説明することにする。
【0057】
図4に示すような、2次音源数M、制御点数Nの多チャネル−多点制御逆システム(以下、単に「逆システム」という)を周波数領域で設計する方法について簡単に説明する。ただし、逆システムとは、M×N個の逆フィルタ群の総称である。
【0058】
2次音源iから制御点jまでの伝達関数をHji(ω)とし、入力信号をXj(ω)とし、そして、観測信号をPj(ω)とすると、これらの関係は、数6で表すことができる。ただし、iは2次音源番号(1、2、…、M)であり、jは制御点番号(1、2、…、N)であり、そして、W(ω)は逆システムである。
【0059】
【数6】
【0060】
このとき、P(ω)=X(ω)とするためには、数7を満たす必要がある。ただし、+は疑似逆行列を意味する。これによって、[W(ω)]は、[H(ω)]の逆システムとして定義される。
【0061】
[数7]
[W(ω)] = [H(ω)]+
ここで、正則化法が逆問題を解決する合理的な方法であることは良く知られている。これは既に音再生システムに適用されている(TOKUNO et al., "Inverse Filter of Sound Reproduction Systems Using Regularization" EIEIC TRANS. FUNDAMENTALS, Vol.E80-A, NO.5 MAY 1997など)。正則化法を用いることにより、ランク([H(ω)])=Nについての算出された逆行列[W^(ω)](表記の都合上、“^”をWの横に示してあるが、実際には数8に示すように、Wの上に記載される。以下、同じ。)は数8で与えられる。ただし、数8において、#は共役転置を意味し、−1は逆行列を意味し、β(ω)は正則化パラメータであり、IMはM×Mの単位行列である。以下、同様である。
【0062】
【数8】
【0063】
一方、数7の右辺に示される、ランク([H(ω)])=Mについての逆行列[H(ω)]+は、数9として導かれる。
【0064】
【数9】
【0065】
数8および数9は、それぞれ、最小二乗解および最小ノルム解(ノルム最小型一般逆行列)として解釈される。ただし、ランク([H(ω)])=N=Mであり、[H(ω)]は特異行列(非正則行列)では無く、そして[W(ω)]=[H(ω)]−1で与えられる。また、時間領域逆フィルタ係数は、[W^(ω)]の逆離散フーリエ変換から得られる。
【0066】
なお、BoSC再生システムにおいては、スピーカアレイシステム(20、28、36)のラウドスピーカ230の配置およびマイクロホンアレイ14のマイクロホンの配置は、空間サンプリングに影響を及ぼす。
【0067】
数8および数9においては、適切な正則化パラメータβ(ω)が選択されることにより、逆システムの不安定性を緩和する(取り除く)ことができる。この実施例では、正則化パラメータβ(ω)は、各オブターブの周波数帯域で定義される。さらに、逆フィルタは、予め防音室でそれぞれのラウドスピーカ230とマイクロホンアレイ14の各マイクロホンとの組の間で測定されたインパルス応答を使用することによって、計算された。測定されたインパルス応答を使用したため、環境の変化によって引き起こされた変動には追従しなかった。ただし、変動する実際の環境においては、MIMO(Multiple-Input Multiple-Output)の適応型の逆フィルタをBoSC再生システムに適用することができる。
【0068】
ここで、図1−図3に示したマイクロホンアレイ14およびスピーカアレイシステム20、28、36をそのまま使用する場合には、サーバ12における処理負荷がかなり大きい。具体的には、マイクロホンアレイ14が70chであり、スピーカアレイシステム20、28、36が62chであるため、サーバ12は、マイクロホンアレイ14の各マイクロホンの音場信号(音場データ)と、逆システムとの畳み込み処理を62×70回行う必要があり、また、各回の畳み込み処理は、逆システムのタップ数(この実施例では、2048ポイント×2タップ=4096)分実行する必要がある。
【0069】
また、伝送する音場データの量(データ量)が膨大であるため、各クライアント(コンピュータ18、26、34)において、約45Mbpsの帯域を必要とする。
【0070】
さらに、コンピュータ18、26、34によって、ユーザの音声に対応する音声データと音声フィルタを畳み込み演算する場合にも、70chをフルに使用する場合には、処理負荷が比較的大きくなってしまう。
【0071】
したがって、サーバ12からコンピュータ18、26、34に音場データをリアルタイムに送信するのは困難であり、当然のことながら、スピーカアレイシステム20、28、36を使用するユーザがリアルタイムにオーケストラ等を楽しむことも困難である。つまり、リアルタイムに音場を共有することができない。また、リアルタイムに会話することもできない。
【0072】
これを回避するため、たとえば、マイクロホンアレイ14で使用するマイクロホンの数やスピーカアレイシステム20、28、36で使用するラウドスピーカ230の数を減らすことにより、畳み込み処理の処理負荷および伝送するデータ量を低減することが考えられる。しかし、使用するマイクロホンおよびラウドスピーカ230の数を単に減らせば良いということでは無く、再現される音場の臨場感を損なわない必要がある。
【0073】
そこで、この実施例では、臨場感を損なうことなく、使用するマイクロホンおよびラウドスピーカ230を低減するようにしてある。
【0074】
この実施例では、まず、グラムシュミットの直交化法を用いて、70chのマイクロホンアレイ14を用いた場合に、スピーカアレイシステム22で使用するラウドスピーカ230が抽出(選出)される。そして、選出されたラウドスピーカ230を用いる場合に、グラムシュミットの直交化法を用いて、マイクロホンアレイ14で使用するマイクロホンが抽出(選出)される。
【0075】
詳細な説明は省略するが、使用するラウドスピーカ230およびマイクロホンの抽出(選出)は、サーバ12、コンピュータ18、26、34または図示しない別のコンピュータを用いて実行することができる。
【0076】
ここでは、単一の周波数について、グラムシュミットの直交化法を使用することでラウドスピーカ230を選択する場合の基本的なアルゴリズムを説明する。N×Mに含まれるN次元の縦ベクトルからの線形独立性が低ければ、行列式は悪い状態であると言われる。[H(ω)]において線形独立性の劣化は、BoSC再生システム10a、10b、10cの不安定性を引き起こす。ここで、数6に示した[H(ω)]は、数10のように書くことができる。
【0077】
[数10]
P(ω) = [H(ω)]Y(ω)
= {h1(ω),…,hM(ω)}Y(ω)
ただし、Y(ω)=[W(ω)]X(ω)およびhi(ω)は、[H(ω)]に含まれるN次元の縦ベクトルである。この縦ベクトルh(ω)は、周波数ωにおける、或るラウドスピーカ230とマイクロホンアレイ14の各々のマイクロホンとの間の伝達関数である。それゆえに、グラムシュミットの直交化法を用いたラウドスピーカ230の選択は、[H(ω)]から高い線形独立を有する縦ベクトルh(ω)の組を選択することを意味する。以下、グラムシュミットの直交化法のアルゴリズムについて簡単に説明することにする。
【0078】
ラウドスピーカ230を選択するn番目のステップにおいては、既にn−1個のラウドスピーカ230が選択されている。[H]に含まれる縦ベクトルの集合は、τ={h1,…,hM}で示される。Sn−1は、n−1番目のステップまでに選択されたベクトルの部分集合を示し、τn−1は、n−1番目のステップまでに未使用のベクトルの部分集合を示す。vn−1={v1,…,vn−1}は、部分集合Sn−1によって張られる平面の正規直交基底を示す。
【0079】
たとえば、最初のステップでは、すべてのラウドスピーカ230のうちの1つのラウドスピーカ230が基準ラウドスピーカ230として選択され、基準ラウドスピーカ230以外のすべてのラウドスピーカ230が評価対象のラウドスピーカ230(評価対象ラウドスピーカ230)として選択される。後述するように、グラムシュミットの直交化法により、基準ラウドスピーカ230との関係において、複数の評価対象ラウドスピーカ230から1の評価対象ラウドスピーカ230が選択される。次のステップでは、同じくグラムシュミットの直交化法により、最初に選択された基準ラウドスピーカ230および先のステップで選択された評価対象ラウドスピーカ230との関係において、残りの複数の評価対象ラウドスピーカ230から1の評価対象ラウドスピーカ230が選択される。つまり、このステップでは、先のステップで選択された評価対象ラウドスピーカ230は、基準ラウドスピーカ230と言える。これが繰り返されるのである。
【0080】
ただし、低域を補う8個のラウドスピーカ230は、基準ラウドスピーカ230や評価対象ラウドスピーカ230の対象外である。
【0081】
図5は、部分集合Sn−1によって張られた平面の一例である。n番目のステップでは、部分集合Sn−1によって張られた平面に対するhn^(数11に示すように、実際には“^”はhの上に表記される。以下、同じ。)の垂直成分が最大となるように、hn^が選択される。部分集合τn−1に含まれる任意のベクトルhiの垂直成分riは数11で表される。
【0082】
[数11]
ri = zi - p
ただし、pは部分集合Sn−1によって張られた平面上の投影(射影)を示す。n番目のラウドスピーカ230は、たとえば数12で示される、垂直成分riのノルムが最大となるように決定される。
【0083】
【数12】
【0084】
ただし、評価指標の値であるJ(hi)は数13で定義される。
【0085】
[数13]
J(hi) = ||ri||
hi^の垂直成分がrn^(実際には“^”の記号はrの上に表記される。以下、同じ。)として示される場合には、n番目の正規直交ベクトルvnは数14に従って決定される。
【0086】
【数14】
【0087】
n番目のステップで最大化された評価指標の値Jn^(実際には“^”の記号はJの上に表記される。以下、同じ。)は数15で示される。
【0088】
【数15】
【0089】
このような数11−数15に従う処理は、評価指標の値Jn^が予め設定された閾値Jthr^よりも小さくなるまで繰り返される。ただし、周波数帯域[ωl,ωh]について、2つの評価指標の値が数16に従って求められる。
【0090】
【数16】
【0091】
ただし、hi ̄={hi(ωl),…,hi(ωh)}であり(実際には、数16に示すように、“ ̄”はhの上に表記される。)、Kは離散周波数ωkの数であり、akは離散周波数ωkに対する任意の重み係数を示す。垂直成分ri(ωk)と正規直交ベクトルvi(ωk)は、単一の周波数の場合と同様に、離散周波数毎に分離して求められる。最適化処理では、評価指標の値Javgは最大化される。一方、評価指標の値Jminは最適化処理の終了判定に用いられる。つまり、Jmin^<Jthr^となったときにラウドスピーカ230の選択を終了する。
【0092】
ただし、最適化処理については、文献(Asano, Suzuki, and Swanson " Optimization of control source configuration in active control systems using Gram-Schmidt orthogonalization", Speech and Audio Processing, IEEE Transactions on, Mar. 1999)に開示されている。
【0093】
この文献においては、評価指標の値が閾値以上(Jmin^≧Jthr^)である場合には、ラウドスピーカ230の選択は継続される。しかし、適切な閾値を決定する方法は確認されていない。したがって、この実施例では、音場共有システム10において、リアルタイムに音場を共有することができるスピーカアレイシステム(20、28、36)のラウドスピーカ230の最大数とマイクロホンアレイ14のマイクロホンの最大数とを検証した。そして、グラムシュミットの直交化法を使用することで、最大数までのラウドスピーカ230の番号(配置位置)を決定した。
【0094】
ここで、上述したように、グラムシュミットの直交化法では、スピーカ位置は、それ以前に選択されたスピーカ位置に基づいて決定されるため、その選択結果は、1番目に選択されるスピーカ位置に強い影響を及ぼされる。
【0095】
たとえば、使用するラウドスピーカ230の個数を、半数程度(32個)、3分の1程度(24個)、4分の1程度(16個)に削減する場合について検討した。図6は、24個のラウドスピーカ230が選択された(24ステップの選択処理を実行した)場合の評価指標の値Javg,Jminの変化である。図6において、横軸は最初に選択されたラウドスピーカ230(基準ラウドスピーカ230)のスピーカ位置(図10参照)を示し、縦軸は評価値(dB)を示す。ただし、2本の実線のうち、細い実線が評価指標の値Javgを示し、細い実線が評価指標の値Jminの変化を示す。
【0096】
詳細な説明は省略するが、たとえば、最初に選択される基準ラウドスピーカ230は「1」番(図7参照)から順次変化(2、3、…、62)され、それぞれの場合について、選択された24個のスピーカ位置(ラウドスピーカ230の番号)の組が選択されるとともに、各組について評価指標の値Javg,Jminが算出される。ただし、選択された24個のスピーカ位置(ラウドスピーカ230の番号)の組と、各組について算出された評価指標の値Javg,Jminは、上述したコンピュータのメモリ(図示は省略するが、ハードディスクやRAM)に記憶される。そして、後述するように、複数の組のうち、評価指標の値Javg,Jminが所定の条件を満たす一組が選択される。したがって、選択された一組の24個のラウドスピーカ230を用いて音場が再現されるのである。
【0097】
また、自由空間グリーン関数は、スピーカアレイシステム(20、28、36)の各ラウドスピーカ230とマイクロホンアレイ14のマイクロホンとの間の伝達関数を得るのに使用された。後述する刺激のための上限周波数は、ここでは制限されなかった。しかし、ラウドスピーカ230の構成(設定)は、20Hzから1kHzまでの範囲を、20Hz毎の周波数で決定された。図示は省略するが、上限周波数が制限されない場合には、上側の層(架台220a、架台220b)に配置されたラウドスピーカ230が、多く選択された。ラウドスピーカ230が全く無い方向から来る波面を統合するのは立体音の再生系においては困難である。したがって、ラウドスピーカ230は、マイクロホンアレイ14に囲まれるあらゆる可能な方向に位置されるべきである。
【0098】
上述したように、図6には、ラウドスピーカ230について、24ステップ(回)の選択処理を実行した場合の評価指標の値Javg,Jminを折れ線で示したグラフである。この図6からも分かるように、スピーカ位置が「60」(図7参照)であるラウドスピーカ230を最初に選択し、全部で24個のラウドスピーカ230を選択した場合の評価指標の値Javg,Jminが最大である。
【0099】
この実施例では、複数の組(この実施例では、62個の組)のうち、評価指標の値Javg,Jminが所定の条件を満たす一組の24個のラウドスピーカ230が選択される。具体的には、評価指標の値Javgが最大である組が選択される。ただし、評価指標の値Javgが最大である組についての評価指標の値Jminが極端に低い場合には、線形独立性の低い周波数が存在するため、評価指標の値Javgが最大であっても、選択するのは適切ではない。正しく音場を再現できないと考えられるからである。かかる場合には、次に評価指標の値Javgが大きい組が選択される。ただし、次に評価指標の値Javgが大きい組についての評価指標の値Jminが極端に低い場合には、その次に評価指標の値Javgが大きい組が選択される。それ以降も同様である。たとえば、評価指標の値Jminが極端に低いかどうかについては、予め設定された閾値によってコンピュータは判断する。この閾値は、音場共有システム10の開発者ないし使用者が設定する値である。ただし、図示は省略するが、選択するラウドスピーカ230の個数が増えるに従って、評価指標の値Javg,Jminは次第に低下するため、選択するラウドスピーカ230の個数に応じて、閾値も可変的に設定する必要がある。
【0100】
予備試験の結果では、サーバ12およびコンピュータ18、26、34の性能およびネットワーク16を含む通信速度の制約から、[W(ω)]における要素の数がM×N=192以内で、スピーカアレイシステム(20、28、36)のラウドスピーカ230の数(M)およびマイクロホンアレイ14のマイクロホンの数(N)が決定されるべきであることが示された。したがって、上述したように、ラウドスピーカ230の数(M)を「24」に決定したため、選択されるマイクロホンの数(N)は最大で「8」である。
【0101】
ただし、この実施例では、サーバ12およびコンピュータ18、26、34のCPU(図示せず)はXeon(登録商標) QuadCore×2であり、メモリ(図示せず)は4GBである。また、サーバ12には、オペレーティングシステムとして、Windows(登録商標) XP 64bitが採用された。また、サーバ12とコンピュータ18、26、34とを結ぶネットワーク16としては、超高速・高機能研究開発テストベッドネットワーク(JGN2plus:1Gbps)およびLAN(100Mbps)が用いられた。
【0102】
なお、図示は省略するが、予備実験においては、サーバ12とコンピュータ18とは、上述のLANを用いて接続され、サーバ12とコンピュータ26、34とは、上述のJGN2plusおよびLANを用いて接続される。
【0103】
図7(A)および(B)には、上述したように、スピーカ位置が「60」のラウドスピーカ230が最初に選択し、全部で24個のラウドスピーカ230を選択した場合の24個のラウドスピーカ230の位置の分布が示される。図7(A)は、ラウドスピーカ230の配置を真上から見た場合の模式図であり、図7(B)は、ラウドスピーカ230の配置を真横から見た場合の模式図である。つまり、図7(A)は、ラウドスピーカ230の水平方向の分布を示し、図7(B)は、ラウドスピーカ230の垂直方向の分布を示す。
【0104】
図7(B)からも分かるように、図7(A)に示す分布においては、スピーカ位置が中央に向かうに従って高さ方向(Z方向)の値は大きくなる。つまり、架台220aに設けられたラウドスピーカ230のスピーカ位置は、「1」−「6」である。また、架台220bに設けられたラウドスピーカ230のスピーカ位置は、「7」−「22」である。さらに、架台220cに設けられたラウドスピーカ230のスピーカ位置は、「23」−「46」である。そして、架台220dに設けられたラウドスピーカ230のスピーカ位置は、「47」−「62」である。
【0105】
なお、低域を補うために、4本の柱部222に設けられた8個のラウドスピーカ230は選択の対象では無いため、図7(A)および(B)には示されていない。
【0106】
また、図7(A)および(B)では、Y軸のマイナス方向がユーザの顔が向く前方であり、Y軸のプラス方向がユーザの後頭部の向く後方である。さらに、図7(A)に示すように、X軸のマイナス方向がユーザの右方であり、X軸のプラス方向がユーザの左方である。そして、図7(B)に示すように、Z軸のマイナス方向がユーザの耳の位置からの下方であり、Z軸のプラス方向がユーザの耳の位置からの上方である。
【0107】
図7(A)においては、最初に選択されたラウドスピーカ230のスピーカ位置を示す丸印(「60」が記載された丸印)に網掛模様が付される。また、これに続いて、グラムシュミットの直交化法に基づく繰り返しの結果として選ばれたラウドスピーカ230のスピーカ位置を示す丸印(ここでは、「1」−「6」、「7」、「9」、「11」、「13」、「15」、「17」、「19」、「21」、「23」、「31」、「35」、「48」、「51」、「54」、「56」、「58」、「62」が記載された丸印)に斜線模様が付されている。さらに、模様が付されていない丸印は、選択されなかったラウドスピーカ230のスピーカ位置を示す。
【0108】
また、図7(B)においては、配置されるラウドスピーカ230のZ方向の位置に応じて、異なる図形(円、三角形、四角形、菱形)を示してある。また、図7(B)では、最初に選択されたラウドスピーカ230のスピーカ位置は、黒色を付した図形の位置で示される。そして、図7(B)では、2番目以降に選択されたラウドスピーカ230のスピーカ位置は、灰色を付した図形の位置で示される。
【0109】
図7(A)および(B)からは、各方向と高さに分布されたラウドスピーカ230が規則的に観測される。図7(A)に示すように、ラウドスピーカ230の分布を真上から平面的に見た場合には、縦方向および横方向のそれぞれにおいて、選択されたラウドスピーカ230が略対称に分布していることが分かる。このことは、図7(B)に示すように、ラウドスピーカ230の分布を真横から平面的に見た場合も同様である。
【0110】
また、スピーカアレイシステム(20、28、36)のラウドスピーカ230とマイクロホンアレイ14のマイクロホンとの構成を入れ替えることによって、上述したグラムシュミットの直交化法を適用することにより、マイクロホンを選択した。ただし、グラムシュミットの直交化法を用いた選択方法については既に説明したため、重複した説明は省略することにする。
【0111】
図8は、図7(A)および(B)に示した24個のラウドスピーカ230の配列に対して、選択された8個のマイクロホンの配列を示す。図示は省略するが、マイクロホンの位置は、ラウドスピーカ230のスピーカ位置と同様に、番号が割り当てられている。図8では少し分かり難いが、XY平面を真上から平面的に見た場合には、選択されたマイクロホンはすべての方向に均等に分布している。
【0112】
このように、グラムシュミットの直交化法を使用することによって、マイクロホンおよびラウドスピーカ230の数を低減するようにしたが、この低減による影響を評価するために、水平面の音源定位テストが行われた。この音源定位テストの方法および評価結果については、発明者等によって2010年8月に公開された「Optimization of loudspeaker and microphone configurations for sound reproduction system based on boundary surface control principle - An optimizing approach using Gram-Schmidt orthogonalization and its evaluation -」に開示されているため、その説明は省略することにする。上述したように、この音源定位テストの結果、ラウドスピーカ230の個数が24個に決定され、サーバ12等の性能および通信速度の制約によって、マイクロホンの個数が8個に決定される。
【0113】
詳細な説明は省略するが、選択されたマイクロホンで検出された音場信号がマイクロホンアレイ14からサーバ12に与えられる。このとき、選択されていないマイクロホンは不能化される。つまり、サーバ12は、選択されていないマイクロホンからの音場信号を検出しない。一方、コンピュータ18、26、34は、選択されたラウドスピーカ230のみに、音場データや音声データを出力する。
【0114】
上述したように、この実施例では、各スピーカアレイシステム20、28、36では、他のユーザが発生した音声に対応する音声データは音場データとともに出力(再現)される。したがって、話者の顔の向きを何ら考慮せずに、コンピュータ18、26、34で、他のコンピュータ18、26、34から受信した音声データと音声フィルタを畳み込んだだけでは、誰が誰に向かって話し掛けているのかを認識するのが困難である。たとえば、話者が自分の名前と聴者(相手)の名前とを毎回発話することも考えられるが、自然な会話とは言えない。
【0115】
したがって、この実施例では、話者の顔の向き(発話の方向)を考慮した音声フィルタを用いるようにしてある。簡単に言うと、音響信号(この実施例では、音声信号)の伝達特性を考慮した音声フィルタが用いられる。
【0116】
図3では省略したが、図1に示したように、BoSC再生システム10a、10b、10cは、それぞれ、カメラ24、32、40を有している。図9に示すように、カメラ24は、スピーカアレイシステム20を使用するユーザが正面を向いた状態で、そのレンズ(撮影方向)が対向するように、当該スピーカアレイシステム20の架台220dに取り付けられる。
【0117】
なお、図9では、上述のように選択した24個のラウドスピーカ230がユーザの周囲を均等に囲むように模式的に示してある。
【0118】
また、カメラ24と同様に、カメラ32、40は、それぞれ、スピーカアレイシステム28、36の架台220dに取り付けられる。
【0119】
さらに、上述したように、ユーザは、ヘッドセットのマイクロホン22、30、38を装着してある。これは、ラウドスピーカ230から出力される音がマイクロホン22、30、38で検出されるのを出来る限り防止して、ユーザが発生する音声のみを検出するようにするためである。
【0120】
コンピュータ18、26、34は、各々に接続されたカメラ24、32、40で撮影された映像(顔画像)を解析することにより、ユーザの顔の向き、すなわち正面方向に対する顔の角度を求める。顔画像から顔の向き等を求める方法は、既に周知であるため、その説明は省略するが、たとえば、特開平10−274516号に開示の技術を用いることができる。
【0121】
ただし、他のコンピュータ18、26、34に送信される角度データは、他のユーザ(聴者)の位置を基準とした場合の自身のユーザ(話者)の顔の向きについての角度である。したがって、顔画像から顔の向きを求めた後に、他のユーザの位置(方向)を基準(0°)とした場合の角度に変換される。
【0122】
このように検出された角度を、再現する音声に反映させるために、音声の伝達特性が検出され、上述したように、この伝達特性を考慮した音声フィルタが用いられる。この実施例では、音声の伝達特性を検出するのであるが、簡単のため、音再現システム10を利用する三者が、或る空間において、各辺が所定長さ(2m)を有する正三角形の頂点の位置に存在すると仮定してある。
【0123】
つまり、図10に示すように、ユーザA、B、Cは、辺の長さが2mの正三角形の頂点の位置に存在し、各ユーザA、B、Cの正面方向は、頂点から当該頂点に対向する辺に垂下する方向に設定される。したがって、この仮想の位置関係においては、ユーザAがユーザBに話し掛ける場合には、ユーザAは正面方向から右に30°の方向を向いて発話する。また、ユーザAがユーザCに話し掛ける場合には、ユーザAは正面方向から左に30°の方向を向いて発話する。説明は省略するが、ユーザBおよびユーザCについても同様である。
【0124】
この仮想の位置関係を再現するべく、或る場所において、音声の伝達特性を検出した。図11は、音声の伝達特性を検出した環境を真上から見た図である。図11に示す或る場所は、小会議室であり、横が10mで縦が3.9mの長方形状を有している。ただし、図11からも分かるように、小会議室は、長方形の左上部において、内側に少し凹んでいる。
【0125】
また、小会議室には、音声の伝達特性を検出するためのラウドスピーカ50およびマイクロホンアレイ52が配置される。ラウドスピーカ50としては、たとえば、人間が発生する音声に近似する音を再現可能なスピーカ(YAMAHA MSP−3)が用いられる。また、マイクロホンアレイ52としては、上述したマイクロホンアレイ14と同じものが用いられる。ただし、音再現システム10に用いられる場合と音声の伝達特性の検出に用いられる場合とを区別するために、異なる参照符号を付してある。
【0126】
図11からも分かるように、マイクロホンアレイ52は、小会議室の下側の壁際の中央に配置される。ラウドスピーカ50は、マイクロホンアレイ52の正面方向を真上方向とした場合に、左に30°回転した方向であり、ラウドスピーカ50の正面がマイクロホンアレイ52に向いたときに、その正面とマイクロホンアレイ52の中心との距離が2mになる位置に配置される。そして、ラウドスピーカ50は、その位置で15°刻みで、一周(360°)回転される。15°毎に、ラウドスピーカ50から刺激としてスイープ音を出力し、そのときマイクロホンアレイ52の各マイクロホンm(m=1,2,…,M)で検出されるインパルス応答を伝達特性Hang[m]として検出する。ただし、この実施例では、上述したように、M=70である。また、angは、音源の指向性を模擬する角度であり、上述した使用者A、B、Cの正面方向に対する角度である。ただし、この実施例では、ラウドスピーカ50は、左回り(反時計回り)に15°刻みで回転される。さらに、スイープ音には、Time Stretched Pulse法を用いて作成した24kHzまでの信号を用いた。また、この小会議室の残響時間は、約0.6秒である。
【0127】
なお、15°刻みでラウドスピーカ50を回転させるのは、人間の聴覚によって識別可能な角度が20°程度だからである。
【0128】
つまり、図11に示す場合には、ラウドスピーカ50が話者であり、マイクロホンアレイ52の内部の中心に聴者の頭部(耳の高さ)が来るように当該聴者が存在するものとして、伝達特性が測定されるのである。したがって、図10に示したような仮想の位置関係において、すべての場合について、伝達特性Hang[m]を検出するためには、ラウドスピーカ50とマイクロホンアレイ52の配置位置を逆にしたり、ラウドスピーカ50を点線で示す位置(マイクロホンアレイ52の正面方向から右に30°回転した位置)に移動させたり、点線で示すラウドスピーカ50とマイクロホンアレイ52との配置位置を逆にしたりして、伝達特性Hang[m]を測定する必要がある。ただし、この実施例では、簡単のため、図11に実線で示したラウドスピーカ50とマイクロホンアレイ52との配置位置でのみ、伝達特性Hang[m]を測定し、これを各コンピュータ18、26、34で使用するようにしてある。
【0129】
ここで、図12には、マイクロホンアレイ52の或るマイクロホンで検出されたインパルス応答(後述する「減衰されたインパルス応答」と区別するために、ここでは「元のインパルス応答」という)の波形が点線で示される。この元のインパルス応答では、初期反射音と後期反射音とを含んでいる。上述したように、図11で示したような小会議室では、残響時間があるため、減衰するのに時間がかかってしまい、これを正しく再現するためには、逆フィルタの長さが2048ポイントを超えてしまう。これでは、リアルタイムでの処理を実現できなくなってしまう。したがって、この実施例では、ハニング窓を用いることにより、逆フィルタの長さが2048ポイントを超えないようにしてある。ハニング窓を用いることによって減衰されたインパルス応答は、図12において、実線で示される。ただし、ハニング窓は、各マイクロホンで記録されるインパルス応答の直接音をその中央に有している。また、図12から分かるように、この減衰されたインパルス応答は、初期反射音を十分含んでいて、後期反射音を何ら含んでいない。しかし、減衰されたインパルス応答に基づく伝達特性Hang[m]を用いた場合であっても、図11で示した小会議室でユーザが会話しているように、話者と聴者との位置関係をほぼ正確に再現することができる。
【0130】
図示は省略するが、各コンピュータ18、26、34では、メモリ(ハードディスクやRAM)に伝達特性Hang[m]に対応するデータ(伝達特性データ)が記憶される。したがって、コンピュータ18、26、34は、他のコンピュータ18、26、34から送信される角度データが示す角度angに応じた伝達特性データを読み出し、読み出した伝達特性データに対応する伝達特性Hang[m]を考慮した音声フィルタを用いて音声信号を再現する。したがって、指向性を有する音声が再現される。
【0131】
ここで、具体的に説明する。単一のマイクロホン22(30、38)で収録された音響信号(この実施例では、ユーザが発生した音声に対応する音声信号)をSとする。また、BoSC再生システム内の2次音源スピーカs(s=1,2,…,N)と制御点i(i=1,2,…,M)に対する逆フィルタをGinv[s,i]とする。ただし、制御点iの配置は、マイクロホンアレイ52と合同であり、m=iが成り立つ。また、2次音源スピーカsは、ラウドスピーカ230であり、この実施例では、N=24である。
【0132】
図13(A)のように、話者から見た聴者の位置する方向をθとし、話者が向いている方向をαとすると、聴者に対する話者の向き(角度)はα−θで表される。ここで、図13(A)に示す話者と聴者とを上述したラウドスピーカ50とマイクロホンアレイ52とで表すと、図13(B)のように示される。したがって、角度ang=α−θの伝達特性Hang[m]を用いて、発話方向を含む音声を再現すると、BoSC再生システム内の2次音源sからの出力信号R(s)は、数17で示される。ただし、V[s]は、伝達特性Hang[m]を考慮した音声フィルタである。
【0133】
【数17】
【0134】
つまり、コンピュータ18、26、34は、RAMやハードディスクのような内部メモリに、角度に応じた音声フィルタV[s]または伝達特性Hang[m]に対応するデータ(音声フィルタデータまたは伝達特性データ)を記憶しておき、他のコンピュータ18,26、34から受信した角度データが示す角度に応じた角度に応じた音声フィルタV[s]を用いて、受信した音声データを畳み込むのである。ただし、上述したように、15°刻みで伝達特性Hang[m]は測定されるため、音声フィルタV[s]の15°刻みである。したがって、角度データが示す角度に応じた音声フィルタV[s]を選択する場合には、0°、15°、…、330°、345°のうち、角度データが示す角度が最も近い角度に応じた音声フィルタV[s]が選択される。ただし、7.5°、22.5°などのように、角度データが示す角度が、隣接する2つの角度の中間値である場合には、この2つの角度のうちから所定のルールに従って選択した一つの角度に応じた音声フィルタV[s]が選択される。たとえば、所定のルールとしては、前回の角度に近い方を選択したり、角度の小さい(または大きい)方を選択したり、ランダムに選択したりすることが考えられる。いずれのルールを採用したとしても、上述したように、人間の聴覚で識別可能な範囲内であるため、不都合が生じることはない。
【0135】
このように、この実施例では、図11に示したような小会議室で測定したインパルス応答に基づいて伝達特性Hang[m]を有する音声フィルタV[s]を生成するため、スピーカアレイ20、28、36を使用するユーザは、この小会議室で、辺の長さが2mの正三角形の頂点の位置で会話しているような臨場感を得ることができる。
【0136】
したがって、他の場所でインパルス応答の検出を行えば、当該他の場所で会話しているような臨場感を得ることができる。たとえば、マイクロホンアレイ14が配置されるオーケストラの会場の客席でインパルス応答を検出して音声フィルタを生成しておければ、当該オーケストラの会場で生のオーケストラを聴きながら、会話をしている臨場感を得ることができる。
【0137】
ここで、話者の顔の角度と音声再現の主観評価を行うために、以下のような実験を行った。実験では、ラウドスピーカ50から出力する刺激(刺激音)として、一般的な挨拶(ここでは、「こんにちは」)を言う30代の男性の音声が用いられた。実験における被験者は、20代または30代の10人の日本人である。ただし、5人は女性であり、5人は男性である。
【0138】
また、この実験においては、使用する角度は、後述する2つの環境、すなわち実際の環境(以下、「実環境」とう)および音場再現システム(スピーカアレイシステム20(28、36でも可)で再現する環境(以下、「再現環境」という)の両方において、反時計回りに0°から90°までであり、15°刻みで変化される。ただし、0°の位置は、ラウドスピーカ50の正面(話者の顔)がマイクロホンアレイ52(聴者すなわち被験者)に対向している位置に合わせられる。この角度範囲を使用することによって、想定された三者間の関係(仮想の位置関係)において、話者が話し掛けている聴者を音響的に知覚できるかどうかを判断することができる。
【0139】
上述したように、この実施例では、2つの環境で主観評価を行った。1つ目は、実環境で回転しているラウドスピーカ50を用いて音声を再現した場合についての主観評価である。2つ目は、再現環境で上記の音声フィルタV[s]を使用して上記の角度範囲内で角度を変化させて音声を再現した場合についての主観評価である。
【0140】
まず、1つ目の主観評価についての実験では、インパルス応答が測定された場合と、同じ場所および同じ条件で行われ、ラウドスピーカ50は実環境において無作為に回転させた。また、上述したように、音声フィルタ向けのインパルス応答を測定するのに使用されたラウドスピーカ50が、実環境における音声の再現にも使用された。そして、被験者には、インパルス応答を測定した際に、マイクロホンアレイ52が置かれた位置で評価を行ってもらった。また、実験中に、被験者が頭部を回転することを許可した。ただし、被験者は、マイクロホンアレイ52の球状の骨格(図2の14a)の中心の高さに自身の耳の位置が来るように、椅子に座るなどして高さを調整した。さらに、実験では、ラウドスピーカ50が被験者に見えるのを防ぐために、その前(被験者とラウドスピーカ50の間)に、カーテンを設けた。
【0141】
なお、音圧レベル計から得られた結果では、音場へのカーテン設けたことの影響がわずかであることが示された。また、ラウドスピーカ50のパワー出力は、被験者以外の者が調整したので、音量は顔の角度や上記の2つの環境(実環境および再現環境)でよって影響を受けていない。
【0142】
2つ目の主観評価についての実験では、コンピュータ18(26、34でも可)およびスピーカアレイシステム20(28、36でも可)を用いて、上述したように、0から90°までを15°刻みで変化させるように、上述の音声フィルタV[s]を用いて刺激音を出力した。
【0143】
音声の方向が質問される前に、ラウドスピーカ50の位置が被験者に知らされた。また、実験では、ラウドスピーカ50を、反時計回りに0°から90°まで、15°刻みで回転させ、そして、逆向きに(時計回りに)、90°から0°まで、15°刻みで回転させることによって音声の方向を変化させ、被験者に音声を聴かせた。質問に従って、被験者は、最初に0°の位置で音声を聞かされた後に、2度同じ角度の位置で音声を聞かされる。つまり、音声の方向は、0°から90°までの間で、15°刻みで変化するため、7つの方向から1つの方向(角度)を選択しなければならない。7つの音声の方向は、各被験者に無作為の順に、試験された。被験者は、実環境と再現環境との両方で、全部で14個の質問に回答した。
【0144】
各環境において、次のように、角度誤りを定義することができる。実環境においては、ラウドスピーカ50が向いている角度と回答された角度の絶対誤差が定義される。また、再現環境においては、再生される音声の方向(角度)と回答された角度の絶対誤差が定義される。図14は、各環境において、全被験者についての平均角度誤差の箱ひげ図を示す。図14に示すように、実環境および再現環境におけるそれぞれの平均角度誤差は、13.7°と20.8°である。図10に示した三者間の仮想の位置関係(正三角形の頂点の位置に各ユーザを配置)を考慮して、再現環境における平均角度誤差は、誰が誰に話し掛けているかを知覚可能な程度に小さいと言える。
【0145】
しかしながら、平均角度誤差の間には、2つの環境間で7.1度の差がある。両側t検定は、平均角度誤差の差が統計的有意差(p<0.05)を有していることを示している。したがって、被験者には、再現環境において発話方向の角度を知覚することは、実環境よりも難しいことが分かる。また、ほとんどの被験者は、再現環境において、発話方向の角度を知覚することは、実環境よりも難しいと論評した。そして、被験者等は、それらの違いは残響の長さであると論評した。また、実験に使用した会議室などの音波反射を有する共用空間では、後期反射音が向かう角度を知覚するのに有意な効果を持っていると考えられる。
【0146】
図15には、話者が向く角度(ここでは、ラウドスピーカ50が向く角度またはスピーカアレイシステム20(28、36)で再現された発話方向の角度)毎の平均角度誤差を示した棒グラフである。ただし、格子模様が付されている棒グラフは、実環境についての平均角度誤差であり、斜線が付されている棒グラフは、再現環境についての平均角度誤差である。
【0147】
この図15から分かるように、話者の向く角度が90°であるときに、2つの環境の間には、著しい違いがある。これは、一部の被験者において、音声が90度まで回転したことを知覚できなかったためと考えられる。
【0148】
また、図16は、被験者毎に、平均角度誤差の散布図を示す。つまり、各被験者についての平均角度誤差の実環境と再現環境との間における相関関係が示される。ただし、円の中に記載した数字は、被験者を個別に識別するために付した番号である。また、実線の円は男性の被験者であり、点線の円は女性の被験者である。
【0149】
この図16では、被験者の半分が、2つの環境における発話方向の知覚の差が小さいことを示している。残りの半分の被験者については、実環境における発話方向の角度の知覚が、より高い精度が示されている。質問に対する回答結果が2つの環境においてほとんど差が無い被験者の一人(女性)は、再現環境で0°から90°まで回転する発話方向の角度を明確に知覚していた。これらの結果は、被験者等の能力(聴力)によって、発話方向の角度を認知することには、個人差があることを示している。そして、図16では、特に女性の被験者においては、2つの環境においてほとんど差が無いことが示される。
【0150】
なお、主観評価実験においては、各角度での音声の大きさ(強さ)を一定に保つために、ラウドスピーカ50の出力パワーが制御された。しかしながら、音再現システム10を用いて実際に三者間で会話を行う場合には、音声の大きさ(強さ)は、話者が向く方向(角度)に応じて自然に変化するため、より発話方向の知覚が行い易いことが考えられる。
【0151】
この実施例によれば、単に音声を再現するのみならず、話者の音声の向きを再現することができるので、遠隔に存在するユーザが音場再現システムをそれぞれ用いて会話する場合であっても、再現される音声によって、誰が誰に話しているのかを知覚することができる。したがって、円滑に会話することができる。
【0152】
なお、この実施例では、ヘッドセットマイクロホンを装着したユーザの音声を再現するようにしたが、これに限定される必要はない。ユーザが演奏する楽器の音やユーザが行う手拍子の音を再現するようにしてもよい。ただし、ユーザが楽器を演奏する場合には、楽器の向きを検出する必要があるため、たとえば、楽器にジャイロセンサが設けられ、ジャイロセンサの出力に応じて楽器の方向が検出される。また、ユーザが行う手拍子の音を再現する場合には、当該ユーザの手首付近にマイクロホンが装着され、ユーザの手が有る方向ないし体の向きを検出するために、手首やお腹付近に、ジャイロセンサが設けられる。
【0153】
また、この実施例では、カメラで撮影された映像からユーザの顔の向きを検出するようにしたが、これに限定される必要はない。たとえば、ユーザの頭部(ヘッドセットマイクロホン)にジャイロセンサを装着して、ジャイロセンサの出力に基づいてユーザの顔の向きを検出するようにしてもよい。
【0154】
また、この実施例では、或る場所に、ラウドスピーカおよびマイクロホンアレイを設置して、インパルス応答を測定することにより、音声の伝達特性を検出し、検出した伝達特性を音声フィルタに反映させるようにしたが、これに限定される必要はない。たとえば、鏡像法を用いたシミュレーションによって、各角度angについての伝達特性を算出することもできる。かかる場合には、想定される環境における仮想の壁面に反射率が設定され、これによって反射音が生成される。
【0155】
さらに、この実施例では、仮想の位置関係として、正三角形の頂点の位置にユーザが位置する場合についてのみ示したが、これに限定される必要はない。様々な距離と、マイクロホンアレイの正面方向に対するラウドスピーカの様々な角度について、インパルス応答を測定または計算することにより、多数の伝達特性を用意しておけば、ユーザ同士の様々な位置関係に対応して、音声を再現することができる。
【0156】
さらにまた、この実施例では、マイクロホンアレイによって検出された音場データも再現するようにしたが、音場データは再現されなくてもよい。
【0157】
また、この実施例では、三者間の会話を再現するようにしたが、二者間または四者間以上の会話も再現することができる。たとえば、四者間の会話では、仮想の位置関係として、所定長さの辺を有する正方形の頂点にユーザを配置することが考えられる。また、五者間の会話では、仮想の位置関係として、所定長さの辺を有する正五角形の頂点にユーザを配置することが考えられる。他の場合も同様である。ただし、実際の位置関係を多角形で表現して、その頂点に各ユーザを配置するようにしてもよい。いずれの場合にも、測定や計算により求められた伝達特性を考慮した音声フィルタが用意される。
この実施例では、現時点における、サーバおよびコンピュータの性能に加え、データの伝送速度を考慮して、マイクロホンアレイおよびスピーカアレイシステムで使用するマイクロホンおよびラウドスピーカの個数を低減してあるが、性能や伝送速度が向上された場合には、それらの個数を低減しなくても、リアルタイムに音場データや音声データを再現できると考えられる。
【符号の説明】
【0158】
10 …音場共有システム
12 …サーバ
14 …マイクロホンアレイ
18,26,34 …コンピュータ
20,28,36 …スピーカアレイシステム
22,30,38 …マイクロホン
24,32,40 …カメラ
【技術分野】
【0001】
この発明は音再現システム、音再現装置および音再現方法に関し、特にたとえば、複数のマイクロホンを有するマイクロホンユニットと複数のラウドスピーカを有するスピーカユニットを用いた、音再現システム、音再現装置および音再現方法に関する。
【背景技術】
【0002】
この種の従来の音再現システムの一例が非特許文献1に開示されている。この非特許文献1に開示される3次元音場通信システムでは、70ch(チャネル)のマイクロホンアレイで収録した音響データを62chのラウドスピーカで再現する音場制御(Boundary Surface Control:BoSC)再生システムを用いて、遠隔地に存在する利用者が音響空間を共有しながら会話を行うことが可能である。具体的には、予め収録し逆フィルタが畳み込まれた62chの音場データがサーバに記憶される。このサーバには、インターネットおよびLANのようなネットワークを介して、異なる場所に配置された2台のクライアントマシン(PC)が接続される。各クライアントマシンには、3次元の音場再現システムが接続されている。サーバは、利用者が選択した再現音場を双方の音場再現システム(スピーカアレイシステム)に同時に伝送する。各音場再現システムの利用者の音声に対応する音声データは、ネットワークを介して、それぞれ他方のクライアントマシンに伝送される。各クライアントマシンでは、他方の利用者の音声に対応する音声データ(1ch)が、実時間で畳み込まれた後に、音場データ(62ch)に重ね合わせて出力される。したがって、異なる場所に存在する利用者は、サーバから出力される音場データを共有するとともに、会話することができる。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】「1.数値解析技術と可視化・可聴化 1.7三次元音場通信システム」 榎本成悟 音響技術 No.148/Dec.2009 pp37-42
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、非特許文献1の3次元音場通信システムでは、各クライアントマシンでは、他方の利用者の音声に対応する音声データ(1ch)は、予め用意された音声フィルタを用いて畳み込まれた後に、音場データ(62ch)に重ね合わせて出力されるだけであるため、当該他方の利用者がどこを向いて話しているのかを再現された音声から認識することができない。したがって、背景技術の3次元音場通信システムにさらにクライアントマシンおよび音場再現システムなどを接続して、三者以上の利用者が会話する場合には、誰が誰に話し掛けているのかを、認識するのが困難である。このため、円滑に会話することができない。
【0005】
それゆえに、この発明の主たる目的は、新規な、音再現システム、音再現装置および音再現方法を提供することである。
【0006】
また、この発明の他の目的は、再現された音でその音の発生者の向きを認識できる、音再現システム、音再現装置および音再現方法を提供することである。
【課題を解決するための手段】
【0007】
本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。
【0008】
第1の発明は、少なくとも、複数の第1ラウドスピーカを有するスピーカアレイを備える音再現装置を複数備える、音再現システムであって、各音再現装置は、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、使用者の発生する音に対応する音データを検出する音検出手段、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する角度検出手段、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、他の音再現装置からの音データと角度データとを受信する第1データ受信手段、第1データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する音出力手段を備える、音再現システムである。
【0009】
第1の発明では、音再現システム(10)では、少なくとも、複数の第1ラウドスピーカ(230)を有するスピーカアレイ(20、28、36)を備える音再現装置(18、20、26、28、34、36)を複数備える。各音再現装置は、フィルタ記憶手段、音検出手段、角度検出手段、データ送信手段、第1データ受信手段、音処理手段、および音出力手段を備える。フィルタ記憶手段は、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶する。音検出手段は、使用者の発生する音、たとえば、当該使用者の音声や当該使用者が演奏する楽器の音に対応する音データを検出する。角度検出手段は、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する。データ送信手段は、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信する。第1データ受信手段は、他の音再現装置からの音データと角度データとを受信する。音処理手段は、第1データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、第1データ受信手段によって受信された音データに畳み込み処理を施す。音出力手段は、音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する。
【0010】
第1の発明によれば、角度毎に対応する音声フィルタを記憶しておき、他の音再現装置からの音データを、同じく他の音声再現装置からの角度データが示す角度に対応する音声フィルタを用いて畳み込むので、スピーカアレイによってその角度が示す方向の音を再現することができる。このため、再現される音によってその音の発生者の向きを知ることができる。したがって、スピーカアレイのユーザは、たとえば、誰が誰に話し掛けているのかを再現された音から認識することができ、円滑に会話することができる。
【0011】
第2の発明は、第1の発明に従属し、音声フィルタは、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第2ラウドスピーカを配置し、当該第2ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、当該マイクロホンアレイによって測定されるインパルス応答に基づいて生成される。
【0012】
第2の発明では、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第2ラウドスピーカを配置する。つまり、マイクロホンアレイが聴者として配置され、第2ラウドスピーカが話者として配置される。そして、当該第2ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、マイクロホンアレイによって測定されるインパルス応答が測定される。各マイクロホンで測定されたインパルス応答から伝達特性が測定され、第2ラウドスピーカの回転角度毎の音声フィルタが生成されるのである。
【0013】
第2の発明によれば、或る場所においてラウドスピーカおよびマイクロホンアレイを用いて予め測定したインパルス応答に基づいて音声フィルタを生成するので、音再現装置を使用して会話するユーザは、或る場所で会話しているような臨場感を得ることができる。
【0014】
第3の発明は、第2の発明に従属し、第2ラウドスピーカは、マイクロホンアレイの正面方向から所定角度の方向に、所定距離を隔てて配置される。
【0015】
第3の発明では、第2ラウドスピーカは、マイクロホンアレイの正面方向から所定の角度の方向に、所定距離を隔てて配置される。この音再現装置を用いて、たとえば、遠隔地に存在する三者間で会話する場合には、仮想の位置関係として、所定長さの辺を有する正三角形の頂点の位置に各ユーザの位置が想定される。したがって、そのような位置関係を再現するように、第2ラウドスピーカおよびマイクロホンアレイが配置されるのである。
【0016】
第3の発明によれば、仮想の位置関係を再現するように、ラウドスピーカおよびマイクロホンアレイを配置するので、この位置関係で測定されたインパルス応答に基づいて生成された音声フィルタを用いた場合には、或る場所にその位置関係で会話しているような臨場感を得ることができる。
【0017】
第4の発明は、第1ないし第3の発明のいずれかに従属し、マイクロホンアレイは、或る音場に配置され、マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して各音再現装置に伝送するサーバをさらに備え、各音再現装置は、サーバから伝送された音場データを受信する第2データ受信手段をさらに備え、音出力手段は、第2データ受信手段によって受信された音場データを、音処理手段によって畳み込み処理が施された音データに重畳してスピーカアレイに出力する。
【0018】
第4の発明では、マイクロホンアレイは、或る音場に配置される。音再現システムは、さらに、サーバ(12)を備える。このサーバは、マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して各音再現装置に伝送する。各音再現装置は、第2データ受信手段をさらに備える。第2データ受信手段は、サーバから伝送された音場データを受信する。音出力手段は、第2データ受信手段によって受信された音場データを、音処理手段によって畳み込み処理が施された音データに重畳してスピーカアレイに出力する。したがって、或る音場が再現されるとともに、他の音再現装置からの音が再現される。
【0019】
第4の発明によれば、たとえば、音再現装置を用いて会話しているユーザは、音場を共有しながら、会話することができる。
【0020】
第5の発明は、第4の発明に従属し、スピーカアレイは、第1所定数の第1ラウドスピーカを有し、マイクロホンアレイは、第2所定数のマイクロホンを有し、線形独立性の高い、第1所定数よりも少ない第3所定数の第1ラウドスピーカを選択するスピーカ選択手段、および線形独立性の高い、第2所定数よりも少ない第4所定数のマイクロホンを選択するマイクロホン選択手段をさらに備え、サーバは、第4所定数のマイクロホンを用いて音場データを収録して、畳み込み処理を施し、音出力手段は、第2データ受信手段によって受信された音場データを第3所定数の第1ラウドスピーカを使用して出力する。
【0021】
第5の発明では、スピーカアレイは、第1所定数の第1ラウドスピーカを有し、マイクロホンアレイは、第2所定数のマイクロホンを有している。スピーカ選択手段は、線形独立性の高い、第1所定数よりも少ない第3所定数の第1ラウドスピーカを選択する。同様に、マイクロホン選択手段は、線形独立性の高い、第2所定数よりも少ない第4所定数のマイクロホンを選択する。したがって、サーバは、第4所定数のマイクロホンを用いて音場データを収録して、畳み込み処理を施す。また、音出力手段は、第2データ受信手段によって受信された音場データを第3所定数の第1ラウドスピーカを使用して出力する。
【0022】
第5の発明によれば、使用するラウドスピーカおよびマイクロホンの数を低減するので、畳み込みの処理負荷を軽減するとともに、データの伝送量を低減することができる。したがって、リアルタイムに音場を共有したり、会話したりすることができる。また、線形独立性の高い、ラウドスピーカおよびマイクロホンをそれぞれ選択するので、それらの数を低減したとしても、臨場感を損なうことがない。
【0023】
第6の発明は、複数のラウドスピーカを有するスピーカアレイ、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、使用者の発生する音に対応する音データを検出する音検出手段、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する角度検出手段、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、他の音再現装置からの音データと角度データとを受信するデータ受信手段、データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する音出力手段を備える、音再現装置である。
【0024】
第7の発明は、複数のラウドスピーカを有するスピーカアレイおよび角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段を備える音再現装置を複数備える、音再現システムの音再現方法であって、各音再現装置は、(a)使用者の発生する音に対応する音データを検出し、(b)他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出し、(c)ステップ(a)によって検出された音データとステップ(b)によって検出された角度データとを他の音再現装置に送信し、(d)他の音再現装置からの音データと角度データとを受信し、(e)ステップ(d)によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、ステップ(d)によって受信された音データに畳み込み処理を施し、そして(f)ステップ(e)によって畳み込み処理が施された音データをスピーカアレイに出力する、音再現方法である。
【0025】
第6および第7の発明においても、再現される音によってその音の発生者の向きを知ることができる。
【発明の効果】
【0026】
この発明によれば、音の発生者の角度に応じた音声フィルタを用いるので、再現される音によってその音の発生者の向きを知ることができる。したがって、たとえば、異なる場所に存在する複数の人間が音再現装置を用いて会話するような場合には、誰が誰に話し掛けているのかを再現された音によって知ることができ、円滑に会話することができる。
【0027】
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【図面の簡単な説明】
【0028】
【図1】図1はこの発明の音場共有システムの一例を示す図解図である。
【図2】図2は図1に示すマイクロホンアレイの例を示す図解図である。
【図3】図3は図1に示す音場共有システムに用いるスピーカアレイシステムの例を示す図解図である。
【図4】図4は音場再現の原理を説明するための図解図である。
【図5】図5はグラムシュミットの直交化法を説明するための図解図である。
【図6】図6は各ラウドスピーカを最初に選択した場合に、62個のマイクロホンに対して24個のラウドスピーカを選択したときの評価指標の平均値および最小値の変化を示すグラフである。
【図7】図7は60番のラウドスピーカを最初に選択した場合に、選択された24個のラウドスピーカの配置位置を示す図解図である。
【図8】図8は選択された24個のラウドスピーカに対して選択された8個のマイクロホンの配置位置を示す図解図である。
【図9】図9は図1の音場共有システムに用いるスピーカアレイシステムの使用状態を真上方向から見た模式図である。
【図10】図10は図1に示す音場共有システムを用いて三者間で会話する場合の仮想の位置関係を示す図解図である。
【図11】図11は図10に示した仮想の位置関係で話者の顔の向きに応じた音声のインパルス応答を検出した実環境を真上から見た図を示す。
【図12】図12はマイクロホンアレイのうちの或るマイクロホンで検出されたインパルス応答およびハニング窓を用いて減衰させたインパルス応答を示すグラフである。
【図13】図13は話者と聴者との位置および向きを示す図解図およびそれらをラウドスピーカおよびマイクロホンアレイを用いて表した図解図である。
【図14】図14は実環境および再現環境での実験における被験者の主観評価による角度誤りの平均を示すグラフである。
【図15】図15は実環境および再現環境での実験において、話者の向く角度毎の被験者の主観評価による角度誤り平均を示す棒グラフである。
【図16】図16は実環境および再現環境の間で、被験者の主観による角度誤り平均の相関関係を示す図である。
【発明を実施するための形態】
【0029】
図1を参照して、この実施例の音場共有システム10は音再現システムとしても機能し、サーバ12を含む。サーバ12は、汎用のサーバであり、このサーバ12には、マイクロホンアレイ14が接続される。また、サーバ12は、インターネットまたはLAN或いはその両方のようなネットワーク16を介して、コンピュータ18、コンピュータ26およびコンピュータ34に接続される。コンピュータ18、26、34は、汎用のPCまたはワークステーションである。コンピュータ18には、スピーカアレイシステム20、マイクロホン22およびカメラ24が接続される。また、コンピュータ26には、スピーカアレイシステム28、マイクロホン30およびカメラ32が接続される。そして、コンピュータ34にも、スピーカアレイシステム36、マイクロホン38およびカメラ40が接続される。
【0030】
この図1に示す音場共有システム10は、3つのBoSC再生システム10a、10bおよび10cを含む。図1の点線枠で囲むように、BoSC再生システム10aは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ18、スピーカアレイシステム20、マイクロホン22およびカメラ24によって構成される。また、図1の一点鎖線枠で囲むように、BoSC再生システム10bは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ26、スピーカアレイシステム28、マイクロホン30およびカメラ32によって構成される。さらに、図1の二点鎖線枠で囲むように、BoSC再生システム10cは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ34、スピーカアレイシステム36、マイクロホン38およびカメラ40によって構成される。
【0031】
ただし、コンピュータ18およびスピーカアレイ20、コンピュータ26およびスピーカアレイ28、コンピュータ34およびスピーカアレイ36のそれぞれの組は、マイクロホンアレイ14で検出された音場データまたは他のBoSCシステム10a、10b、10cからの音声データ或いはそれらの両方を再現するための音再現装置として機能する。
【0032】
図2に示すように、マイクロホンアレイ14は、球形に近い形状の骨格14aおよびこの骨格14aを支持するスタンド14bを含む。骨格14aは、C80 フラーレン(Fullerene)の構造を基に、底部の10個の頂点を切り取った70個の頂点を有している。図示は省略するが、骨格14aの表面(外面)であり、70個の頂点の各々には1個の無指向性のマイクロホンが取り付けられる。たとえば、マイクロホンとしては、DPA 4060−BMを用いることができる。スタンド14bは、支持軸140および三脚142によって構成され、支持軸140は、骨格14aの切り取った底部を通ってこの骨格14aの天井をその内側から支持している。
【0033】
なお、骨格14aは、前面側と重なる部分以外は、背面側であっても正面から見えるが、分かり易く示すために、図2では、背面側に相当する部分を点線で示してある。
【0034】
また、図3に示すように、スピーカアレイシステム20、28、36は、楕円形のドーム部220およびこれを支える4本の柱部222を含む。この楕円形のドーム部220は、たとえば木製の4層の架台220a、220b、220c、220dによって構成される。ただし、図3では、ドーム部220の内部をその斜め下方から見た図であり、架台220dおよび柱部222についてはその一部を示してある。図示は省略するが、ドーム部220および柱部222の内部は空洞にされ、架台(220a−220d)自体が密室型エンクロージャの役割を果たす。
【0035】
また、スピーカアレイシステム20、28、36の各々には、70個のラウドスピーカ230が設置される。具体的には、架台220aには6個のフルレンジユニット(Fostex FE83E)すなわちラウドスピーカ230が設置され、架台220bには16個のラウドスピーカ230が設置され、架台220cには24個のラウドスピーカ230が設置され、そして、架台220dには16個のラウドスピーカ230が設置される。さらに、4本の柱部222の各々には、低域を補うため、2個のサブウーファーユニット(Fostex FW108N)すなわちラウドスピーカ230が設置される。
【0036】
このようなスピーカアレイシステム20、28、36は、それぞれ、音場再現ルーム(図示せず)内に設置される。音場再現ルームは、1.5帖の防音室であり、YAMAHAウッディボックス(遮音性能Dr−30)が用いられる。また、音場再現ルーム内には、リフト付きの椅子(図示せず)が設けられる。これは、スピーカアレイシステム20、28、36のドーム部220内であり、ラウドスピーカ230の数が最大となる架台220cの高さに、椅子に座ったユーザの耳の位置(高さ)を設定するためである。
【0037】
なお、マイクロホンアレイ14、およびコンピュータ(18、26、34)とスピーカアレイシステム(20、28、36)とを含む音場再現ルーム(音場再現システム)については、「1.数値解析技術と可視化・可聴化 1.7三次元音場通信システム」 榎本成悟 音響技術 No.148/Dec.2009 pp37-42に開示されているため、さらなる詳細な説明は省略することにする。
【0038】
たとえば、図1に示した音場共有システム10では、マイクロホンアレイ14は、オーケストラの演奏会場などの音場に配置される。サーバ12は、マイクロホンアレイ14からアンプ(図示せず)を介して入力される音場信号をディジタルの音場データに変換し、この音場データに対して逆システムの畳み込み処理を実行する。サーバ12は、畳み込み処理を実行した音場データを、ネットワーク16を介して、コンピュータ18、26および34に送信する。
【0039】
コンピュータ18、26、34は、それぞれ、サーバ12からの音場データをアナログの音場信号に変換し、スピーカアレイシステム20、28、36に出力する。したがって、スピーカアレイシステム20、28、36では、上述の音場が再現される。このため、スピーカアレイシステム20、28、36を使用する各ユーザ(図示せず)は、遠隔地に存在している場合であっても、スピーカアレイシステム20、28、36を介して、たとえば演奏会場で収録した生のオーケストラを楽しむことができる。
【0040】
また、各ユーザは、マイクロホン22、30、38を通して音声を入力することができる。マイクロホン22で検出された音声信号はコンピュータ18でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ26、34に送信される。コンピュータ26は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム28に出力する。同様に、コンピュータ34は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム36に出力する。ただし、コンピュータ26、34は、それぞれ、音場データと音声データとを重畳し、重畳したデータ(以下、「音データ」という)をアナログの信号(以下、「音信号」という)に変換する。以下、同様である。したがって、音場が再現されるとともに、他のユーザの音声が再現される。
【0041】
また、マイクロホン30で検出された音声信号はコンピュータ26でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ18、34に送信される。コンピュータ18は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム20に出力する。同様に、コンピュータ34は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム36に出力する。つまり、コンピュータ18、34は、それぞれ、音場データと音声データとを重畳した音データを音信号に変換する。
【0042】
さらに、マイクロホン38で検出された音声信号はコンピュータ34でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ18、26に送信される。コンピュータ18、26は、上述したように、それぞれ、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム20、28に出力する。
【0043】
したがって、スピーカアレイシステム20のユーザ、スピーカアレイシステム28のユーザ、およびスピーカアレイシステム36のユーザは、音場を共有するとともに、三者間で会話することが可能である。
【0044】
なお、詳細な説明は省略するが、たとえば、マイクロホン22、30、38としては、ヘッドセットのマイクロホンを用いることができる。
【0045】
また、詳細な説明は省略するが、各コンピュータ18、26、34は、他のコンピュータ18、26、34からの音声データを個別の音声フィルタを用いて畳み込む。たとえば、各コンピュータ18、26、34は、使用する通信ポートやIPアドレスによって、他のコンピュータ18、26、34を識別することが可能である。
【0046】
ここで、BoSCの原理およびBoSCを用いた音場再現システムについて簡単に説明する。境界音場制御では、キルヒホッフ・ヘルムホルツ積分方程式(KHIE)に基づき、図4の左側に示す原音場内の領域V内の音場が、図4の右側に示す際現音場内の領域V´において再現される。ただし、領域Vを囲む境界S上の収録点rと、領域V’を囲む境界S’上の制御点r’との相対的な位置は等しいものとする。つまり、数1が成立すると仮定する。ただし、点sおよび点s’は各領域内部の任意の点である。
【0047】
[数1]
|r−s|=|r’−s’|,s∈V,s’∈V’
このとき、内部に音源を含まない領域内の音圧p(s),p(s’)はKHIEより、数2および数3のそれぞれで示される。
【0048】
【数2】
【0049】
【数3】
【0050】
ただし、ωは角周波数であり、ρ0は媒質の密度であり、p(r),vn(r)はそれぞれ境界上の点rにおける音圧と法線nの方向の粒子速度であり、G(r|s)は自由空間グリーン関数である。
【0051】
ここで、数1より、数4に示す関係が成立する。さらに、数4に従って、数5が成立する。
【0052】
【数4】
【0053】
【数5】
【0054】
この数5から、原音原で収音された境界面S上の音圧と粒子速度が再現音場において等しくなるように、2次音源から信号を出力すれば、領域V内の音場が領域V’において再現されることが分かる。
【0055】
ただし、2次音源の出力は、すべての2次音源からすべての制御点までの伝達特性を打ち消す逆フィルタと収録点で観測された信号を畳み込むことにより決定される。したがって、図4に示すような、BoSC音場再現システムを実現するためには、安定であり、かつ頑健な逆フィルタ(pinv(H))を設計することが重要になる。
【0056】
なお、逆フィルタの設計方法は、文献(S.Enomoto et al., "Three-dimensional sound field reproduction and recording systems based on boundary surface control principle", Proc. of 14th ICAD, Presentation o 16, 2008 Jun.)に詳細に開示されているため、ここでは、簡単に説明することにする。
【0057】
図4に示すような、2次音源数M、制御点数Nの多チャネル−多点制御逆システム(以下、単に「逆システム」という)を周波数領域で設計する方法について簡単に説明する。ただし、逆システムとは、M×N個の逆フィルタ群の総称である。
【0058】
2次音源iから制御点jまでの伝達関数をHji(ω)とし、入力信号をXj(ω)とし、そして、観測信号をPj(ω)とすると、これらの関係は、数6で表すことができる。ただし、iは2次音源番号(1、2、…、M)であり、jは制御点番号(1、2、…、N)であり、そして、W(ω)は逆システムである。
【0059】
【数6】
【0060】
このとき、P(ω)=X(ω)とするためには、数7を満たす必要がある。ただし、+は疑似逆行列を意味する。これによって、[W(ω)]は、[H(ω)]の逆システムとして定義される。
【0061】
[数7]
[W(ω)] = [H(ω)]+
ここで、正則化法が逆問題を解決する合理的な方法であることは良く知られている。これは既に音再生システムに適用されている(TOKUNO et al., "Inverse Filter of Sound Reproduction Systems Using Regularization" EIEIC TRANS. FUNDAMENTALS, Vol.E80-A, NO.5 MAY 1997など)。正則化法を用いることにより、ランク([H(ω)])=Nについての算出された逆行列[W^(ω)](表記の都合上、“^”をWの横に示してあるが、実際には数8に示すように、Wの上に記載される。以下、同じ。)は数8で与えられる。ただし、数8において、#は共役転置を意味し、−1は逆行列を意味し、β(ω)は正則化パラメータであり、IMはM×Mの単位行列である。以下、同様である。
【0062】
【数8】
【0063】
一方、数7の右辺に示される、ランク([H(ω)])=Mについての逆行列[H(ω)]+は、数9として導かれる。
【0064】
【数9】
【0065】
数8および数9は、それぞれ、最小二乗解および最小ノルム解(ノルム最小型一般逆行列)として解釈される。ただし、ランク([H(ω)])=N=Mであり、[H(ω)]は特異行列(非正則行列)では無く、そして[W(ω)]=[H(ω)]−1で与えられる。また、時間領域逆フィルタ係数は、[W^(ω)]の逆離散フーリエ変換から得られる。
【0066】
なお、BoSC再生システムにおいては、スピーカアレイシステム(20、28、36)のラウドスピーカ230の配置およびマイクロホンアレイ14のマイクロホンの配置は、空間サンプリングに影響を及ぼす。
【0067】
数8および数9においては、適切な正則化パラメータβ(ω)が選択されることにより、逆システムの不安定性を緩和する(取り除く)ことができる。この実施例では、正則化パラメータβ(ω)は、各オブターブの周波数帯域で定義される。さらに、逆フィルタは、予め防音室でそれぞれのラウドスピーカ230とマイクロホンアレイ14の各マイクロホンとの組の間で測定されたインパルス応答を使用することによって、計算された。測定されたインパルス応答を使用したため、環境の変化によって引き起こされた変動には追従しなかった。ただし、変動する実際の環境においては、MIMO(Multiple-Input Multiple-Output)の適応型の逆フィルタをBoSC再生システムに適用することができる。
【0068】
ここで、図1−図3に示したマイクロホンアレイ14およびスピーカアレイシステム20、28、36をそのまま使用する場合には、サーバ12における処理負荷がかなり大きい。具体的には、マイクロホンアレイ14が70chであり、スピーカアレイシステム20、28、36が62chであるため、サーバ12は、マイクロホンアレイ14の各マイクロホンの音場信号(音場データ)と、逆システムとの畳み込み処理を62×70回行う必要があり、また、各回の畳み込み処理は、逆システムのタップ数(この実施例では、2048ポイント×2タップ=4096)分実行する必要がある。
【0069】
また、伝送する音場データの量(データ量)が膨大であるため、各クライアント(コンピュータ18、26、34)において、約45Mbpsの帯域を必要とする。
【0070】
さらに、コンピュータ18、26、34によって、ユーザの音声に対応する音声データと音声フィルタを畳み込み演算する場合にも、70chをフルに使用する場合には、処理負荷が比較的大きくなってしまう。
【0071】
したがって、サーバ12からコンピュータ18、26、34に音場データをリアルタイムに送信するのは困難であり、当然のことながら、スピーカアレイシステム20、28、36を使用するユーザがリアルタイムにオーケストラ等を楽しむことも困難である。つまり、リアルタイムに音場を共有することができない。また、リアルタイムに会話することもできない。
【0072】
これを回避するため、たとえば、マイクロホンアレイ14で使用するマイクロホンの数やスピーカアレイシステム20、28、36で使用するラウドスピーカ230の数を減らすことにより、畳み込み処理の処理負荷および伝送するデータ量を低減することが考えられる。しかし、使用するマイクロホンおよびラウドスピーカ230の数を単に減らせば良いということでは無く、再現される音場の臨場感を損なわない必要がある。
【0073】
そこで、この実施例では、臨場感を損なうことなく、使用するマイクロホンおよびラウドスピーカ230を低減するようにしてある。
【0074】
この実施例では、まず、グラムシュミットの直交化法を用いて、70chのマイクロホンアレイ14を用いた場合に、スピーカアレイシステム22で使用するラウドスピーカ230が抽出(選出)される。そして、選出されたラウドスピーカ230を用いる場合に、グラムシュミットの直交化法を用いて、マイクロホンアレイ14で使用するマイクロホンが抽出(選出)される。
【0075】
詳細な説明は省略するが、使用するラウドスピーカ230およびマイクロホンの抽出(選出)は、サーバ12、コンピュータ18、26、34または図示しない別のコンピュータを用いて実行することができる。
【0076】
ここでは、単一の周波数について、グラムシュミットの直交化法を使用することでラウドスピーカ230を選択する場合の基本的なアルゴリズムを説明する。N×Mに含まれるN次元の縦ベクトルからの線形独立性が低ければ、行列式は悪い状態であると言われる。[H(ω)]において線形独立性の劣化は、BoSC再生システム10a、10b、10cの不安定性を引き起こす。ここで、数6に示した[H(ω)]は、数10のように書くことができる。
【0077】
[数10]
P(ω) = [H(ω)]Y(ω)
= {h1(ω),…,hM(ω)}Y(ω)
ただし、Y(ω)=[W(ω)]X(ω)およびhi(ω)は、[H(ω)]に含まれるN次元の縦ベクトルである。この縦ベクトルh(ω)は、周波数ωにおける、或るラウドスピーカ230とマイクロホンアレイ14の各々のマイクロホンとの間の伝達関数である。それゆえに、グラムシュミットの直交化法を用いたラウドスピーカ230の選択は、[H(ω)]から高い線形独立を有する縦ベクトルh(ω)の組を選択することを意味する。以下、グラムシュミットの直交化法のアルゴリズムについて簡単に説明することにする。
【0078】
ラウドスピーカ230を選択するn番目のステップにおいては、既にn−1個のラウドスピーカ230が選択されている。[H]に含まれる縦ベクトルの集合は、τ={h1,…,hM}で示される。Sn−1は、n−1番目のステップまでに選択されたベクトルの部分集合を示し、τn−1は、n−1番目のステップまでに未使用のベクトルの部分集合を示す。vn−1={v1,…,vn−1}は、部分集合Sn−1によって張られる平面の正規直交基底を示す。
【0079】
たとえば、最初のステップでは、すべてのラウドスピーカ230のうちの1つのラウドスピーカ230が基準ラウドスピーカ230として選択され、基準ラウドスピーカ230以外のすべてのラウドスピーカ230が評価対象のラウドスピーカ230(評価対象ラウドスピーカ230)として選択される。後述するように、グラムシュミットの直交化法により、基準ラウドスピーカ230との関係において、複数の評価対象ラウドスピーカ230から1の評価対象ラウドスピーカ230が選択される。次のステップでは、同じくグラムシュミットの直交化法により、最初に選択された基準ラウドスピーカ230および先のステップで選択された評価対象ラウドスピーカ230との関係において、残りの複数の評価対象ラウドスピーカ230から1の評価対象ラウドスピーカ230が選択される。つまり、このステップでは、先のステップで選択された評価対象ラウドスピーカ230は、基準ラウドスピーカ230と言える。これが繰り返されるのである。
【0080】
ただし、低域を補う8個のラウドスピーカ230は、基準ラウドスピーカ230や評価対象ラウドスピーカ230の対象外である。
【0081】
図5は、部分集合Sn−1によって張られた平面の一例である。n番目のステップでは、部分集合Sn−1によって張られた平面に対するhn^(数11に示すように、実際には“^”はhの上に表記される。以下、同じ。)の垂直成分が最大となるように、hn^が選択される。部分集合τn−1に含まれる任意のベクトルhiの垂直成分riは数11で表される。
【0082】
[数11]
ri = zi - p
ただし、pは部分集合Sn−1によって張られた平面上の投影(射影)を示す。n番目のラウドスピーカ230は、たとえば数12で示される、垂直成分riのノルムが最大となるように決定される。
【0083】
【数12】
【0084】
ただし、評価指標の値であるJ(hi)は数13で定義される。
【0085】
[数13]
J(hi) = ||ri||
hi^の垂直成分がrn^(実際には“^”の記号はrの上に表記される。以下、同じ。)として示される場合には、n番目の正規直交ベクトルvnは数14に従って決定される。
【0086】
【数14】
【0087】
n番目のステップで最大化された評価指標の値Jn^(実際には“^”の記号はJの上に表記される。以下、同じ。)は数15で示される。
【0088】
【数15】
【0089】
このような数11−数15に従う処理は、評価指標の値Jn^が予め設定された閾値Jthr^よりも小さくなるまで繰り返される。ただし、周波数帯域[ωl,ωh]について、2つの評価指標の値が数16に従って求められる。
【0090】
【数16】
【0091】
ただし、hi ̄={hi(ωl),…,hi(ωh)}であり(実際には、数16に示すように、“ ̄”はhの上に表記される。)、Kは離散周波数ωkの数であり、akは離散周波数ωkに対する任意の重み係数を示す。垂直成分ri(ωk)と正規直交ベクトルvi(ωk)は、単一の周波数の場合と同様に、離散周波数毎に分離して求められる。最適化処理では、評価指標の値Javgは最大化される。一方、評価指標の値Jminは最適化処理の終了判定に用いられる。つまり、Jmin^<Jthr^となったときにラウドスピーカ230の選択を終了する。
【0092】
ただし、最適化処理については、文献(Asano, Suzuki, and Swanson " Optimization of control source configuration in active control systems using Gram-Schmidt orthogonalization", Speech and Audio Processing, IEEE Transactions on, Mar. 1999)に開示されている。
【0093】
この文献においては、評価指標の値が閾値以上(Jmin^≧Jthr^)である場合には、ラウドスピーカ230の選択は継続される。しかし、適切な閾値を決定する方法は確認されていない。したがって、この実施例では、音場共有システム10において、リアルタイムに音場を共有することができるスピーカアレイシステム(20、28、36)のラウドスピーカ230の最大数とマイクロホンアレイ14のマイクロホンの最大数とを検証した。そして、グラムシュミットの直交化法を使用することで、最大数までのラウドスピーカ230の番号(配置位置)を決定した。
【0094】
ここで、上述したように、グラムシュミットの直交化法では、スピーカ位置は、それ以前に選択されたスピーカ位置に基づいて決定されるため、その選択結果は、1番目に選択されるスピーカ位置に強い影響を及ぼされる。
【0095】
たとえば、使用するラウドスピーカ230の個数を、半数程度(32個)、3分の1程度(24個)、4分の1程度(16個)に削減する場合について検討した。図6は、24個のラウドスピーカ230が選択された(24ステップの選択処理を実行した)場合の評価指標の値Javg,Jminの変化である。図6において、横軸は最初に選択されたラウドスピーカ230(基準ラウドスピーカ230)のスピーカ位置(図10参照)を示し、縦軸は評価値(dB)を示す。ただし、2本の実線のうち、細い実線が評価指標の値Javgを示し、細い実線が評価指標の値Jminの変化を示す。
【0096】
詳細な説明は省略するが、たとえば、最初に選択される基準ラウドスピーカ230は「1」番(図7参照)から順次変化(2、3、…、62)され、それぞれの場合について、選択された24個のスピーカ位置(ラウドスピーカ230の番号)の組が選択されるとともに、各組について評価指標の値Javg,Jminが算出される。ただし、選択された24個のスピーカ位置(ラウドスピーカ230の番号)の組と、各組について算出された評価指標の値Javg,Jminは、上述したコンピュータのメモリ(図示は省略するが、ハードディスクやRAM)に記憶される。そして、後述するように、複数の組のうち、評価指標の値Javg,Jminが所定の条件を満たす一組が選択される。したがって、選択された一組の24個のラウドスピーカ230を用いて音場が再現されるのである。
【0097】
また、自由空間グリーン関数は、スピーカアレイシステム(20、28、36)の各ラウドスピーカ230とマイクロホンアレイ14のマイクロホンとの間の伝達関数を得るのに使用された。後述する刺激のための上限周波数は、ここでは制限されなかった。しかし、ラウドスピーカ230の構成(設定)は、20Hzから1kHzまでの範囲を、20Hz毎の周波数で決定された。図示は省略するが、上限周波数が制限されない場合には、上側の層(架台220a、架台220b)に配置されたラウドスピーカ230が、多く選択された。ラウドスピーカ230が全く無い方向から来る波面を統合するのは立体音の再生系においては困難である。したがって、ラウドスピーカ230は、マイクロホンアレイ14に囲まれるあらゆる可能な方向に位置されるべきである。
【0098】
上述したように、図6には、ラウドスピーカ230について、24ステップ(回)の選択処理を実行した場合の評価指標の値Javg,Jminを折れ線で示したグラフである。この図6からも分かるように、スピーカ位置が「60」(図7参照)であるラウドスピーカ230を最初に選択し、全部で24個のラウドスピーカ230を選択した場合の評価指標の値Javg,Jminが最大である。
【0099】
この実施例では、複数の組(この実施例では、62個の組)のうち、評価指標の値Javg,Jminが所定の条件を満たす一組の24個のラウドスピーカ230が選択される。具体的には、評価指標の値Javgが最大である組が選択される。ただし、評価指標の値Javgが最大である組についての評価指標の値Jminが極端に低い場合には、線形独立性の低い周波数が存在するため、評価指標の値Javgが最大であっても、選択するのは適切ではない。正しく音場を再現できないと考えられるからである。かかる場合には、次に評価指標の値Javgが大きい組が選択される。ただし、次に評価指標の値Javgが大きい組についての評価指標の値Jminが極端に低い場合には、その次に評価指標の値Javgが大きい組が選択される。それ以降も同様である。たとえば、評価指標の値Jminが極端に低いかどうかについては、予め設定された閾値によってコンピュータは判断する。この閾値は、音場共有システム10の開発者ないし使用者が設定する値である。ただし、図示は省略するが、選択するラウドスピーカ230の個数が増えるに従って、評価指標の値Javg,Jminは次第に低下するため、選択するラウドスピーカ230の個数に応じて、閾値も可変的に設定する必要がある。
【0100】
予備試験の結果では、サーバ12およびコンピュータ18、26、34の性能およびネットワーク16を含む通信速度の制約から、[W(ω)]における要素の数がM×N=192以内で、スピーカアレイシステム(20、28、36)のラウドスピーカ230の数(M)およびマイクロホンアレイ14のマイクロホンの数(N)が決定されるべきであることが示された。したがって、上述したように、ラウドスピーカ230の数(M)を「24」に決定したため、選択されるマイクロホンの数(N)は最大で「8」である。
【0101】
ただし、この実施例では、サーバ12およびコンピュータ18、26、34のCPU(図示せず)はXeon(登録商標) QuadCore×2であり、メモリ(図示せず)は4GBである。また、サーバ12には、オペレーティングシステムとして、Windows(登録商標) XP 64bitが採用された。また、サーバ12とコンピュータ18、26、34とを結ぶネットワーク16としては、超高速・高機能研究開発テストベッドネットワーク(JGN2plus:1Gbps)およびLAN(100Mbps)が用いられた。
【0102】
なお、図示は省略するが、予備実験においては、サーバ12とコンピュータ18とは、上述のLANを用いて接続され、サーバ12とコンピュータ26、34とは、上述のJGN2plusおよびLANを用いて接続される。
【0103】
図7(A)および(B)には、上述したように、スピーカ位置が「60」のラウドスピーカ230が最初に選択し、全部で24個のラウドスピーカ230を選択した場合の24個のラウドスピーカ230の位置の分布が示される。図7(A)は、ラウドスピーカ230の配置を真上から見た場合の模式図であり、図7(B)は、ラウドスピーカ230の配置を真横から見た場合の模式図である。つまり、図7(A)は、ラウドスピーカ230の水平方向の分布を示し、図7(B)は、ラウドスピーカ230の垂直方向の分布を示す。
【0104】
図7(B)からも分かるように、図7(A)に示す分布においては、スピーカ位置が中央に向かうに従って高さ方向(Z方向)の値は大きくなる。つまり、架台220aに設けられたラウドスピーカ230のスピーカ位置は、「1」−「6」である。また、架台220bに設けられたラウドスピーカ230のスピーカ位置は、「7」−「22」である。さらに、架台220cに設けられたラウドスピーカ230のスピーカ位置は、「23」−「46」である。そして、架台220dに設けられたラウドスピーカ230のスピーカ位置は、「47」−「62」である。
【0105】
なお、低域を補うために、4本の柱部222に設けられた8個のラウドスピーカ230は選択の対象では無いため、図7(A)および(B)には示されていない。
【0106】
また、図7(A)および(B)では、Y軸のマイナス方向がユーザの顔が向く前方であり、Y軸のプラス方向がユーザの後頭部の向く後方である。さらに、図7(A)に示すように、X軸のマイナス方向がユーザの右方であり、X軸のプラス方向がユーザの左方である。そして、図7(B)に示すように、Z軸のマイナス方向がユーザの耳の位置からの下方であり、Z軸のプラス方向がユーザの耳の位置からの上方である。
【0107】
図7(A)においては、最初に選択されたラウドスピーカ230のスピーカ位置を示す丸印(「60」が記載された丸印)に網掛模様が付される。また、これに続いて、グラムシュミットの直交化法に基づく繰り返しの結果として選ばれたラウドスピーカ230のスピーカ位置を示す丸印(ここでは、「1」−「6」、「7」、「9」、「11」、「13」、「15」、「17」、「19」、「21」、「23」、「31」、「35」、「48」、「51」、「54」、「56」、「58」、「62」が記載された丸印)に斜線模様が付されている。さらに、模様が付されていない丸印は、選択されなかったラウドスピーカ230のスピーカ位置を示す。
【0108】
また、図7(B)においては、配置されるラウドスピーカ230のZ方向の位置に応じて、異なる図形(円、三角形、四角形、菱形)を示してある。また、図7(B)では、最初に選択されたラウドスピーカ230のスピーカ位置は、黒色を付した図形の位置で示される。そして、図7(B)では、2番目以降に選択されたラウドスピーカ230のスピーカ位置は、灰色を付した図形の位置で示される。
【0109】
図7(A)および(B)からは、各方向と高さに分布されたラウドスピーカ230が規則的に観測される。図7(A)に示すように、ラウドスピーカ230の分布を真上から平面的に見た場合には、縦方向および横方向のそれぞれにおいて、選択されたラウドスピーカ230が略対称に分布していることが分かる。このことは、図7(B)に示すように、ラウドスピーカ230の分布を真横から平面的に見た場合も同様である。
【0110】
また、スピーカアレイシステム(20、28、36)のラウドスピーカ230とマイクロホンアレイ14のマイクロホンとの構成を入れ替えることによって、上述したグラムシュミットの直交化法を適用することにより、マイクロホンを選択した。ただし、グラムシュミットの直交化法を用いた選択方法については既に説明したため、重複した説明は省略することにする。
【0111】
図8は、図7(A)および(B)に示した24個のラウドスピーカ230の配列に対して、選択された8個のマイクロホンの配列を示す。図示は省略するが、マイクロホンの位置は、ラウドスピーカ230のスピーカ位置と同様に、番号が割り当てられている。図8では少し分かり難いが、XY平面を真上から平面的に見た場合には、選択されたマイクロホンはすべての方向に均等に分布している。
【0112】
このように、グラムシュミットの直交化法を使用することによって、マイクロホンおよびラウドスピーカ230の数を低減するようにしたが、この低減による影響を評価するために、水平面の音源定位テストが行われた。この音源定位テストの方法および評価結果については、発明者等によって2010年8月に公開された「Optimization of loudspeaker and microphone configurations for sound reproduction system based on boundary surface control principle - An optimizing approach using Gram-Schmidt orthogonalization and its evaluation -」に開示されているため、その説明は省略することにする。上述したように、この音源定位テストの結果、ラウドスピーカ230の個数が24個に決定され、サーバ12等の性能および通信速度の制約によって、マイクロホンの個数が8個に決定される。
【0113】
詳細な説明は省略するが、選択されたマイクロホンで検出された音場信号がマイクロホンアレイ14からサーバ12に与えられる。このとき、選択されていないマイクロホンは不能化される。つまり、サーバ12は、選択されていないマイクロホンからの音場信号を検出しない。一方、コンピュータ18、26、34は、選択されたラウドスピーカ230のみに、音場データや音声データを出力する。
【0114】
上述したように、この実施例では、各スピーカアレイシステム20、28、36では、他のユーザが発生した音声に対応する音声データは音場データとともに出力(再現)される。したがって、話者の顔の向きを何ら考慮せずに、コンピュータ18、26、34で、他のコンピュータ18、26、34から受信した音声データと音声フィルタを畳み込んだだけでは、誰が誰に向かって話し掛けているのかを認識するのが困難である。たとえば、話者が自分の名前と聴者(相手)の名前とを毎回発話することも考えられるが、自然な会話とは言えない。
【0115】
したがって、この実施例では、話者の顔の向き(発話の方向)を考慮した音声フィルタを用いるようにしてある。簡単に言うと、音響信号(この実施例では、音声信号)の伝達特性を考慮した音声フィルタが用いられる。
【0116】
図3では省略したが、図1に示したように、BoSC再生システム10a、10b、10cは、それぞれ、カメラ24、32、40を有している。図9に示すように、カメラ24は、スピーカアレイシステム20を使用するユーザが正面を向いた状態で、そのレンズ(撮影方向)が対向するように、当該スピーカアレイシステム20の架台220dに取り付けられる。
【0117】
なお、図9では、上述のように選択した24個のラウドスピーカ230がユーザの周囲を均等に囲むように模式的に示してある。
【0118】
また、カメラ24と同様に、カメラ32、40は、それぞれ、スピーカアレイシステム28、36の架台220dに取り付けられる。
【0119】
さらに、上述したように、ユーザは、ヘッドセットのマイクロホン22、30、38を装着してある。これは、ラウドスピーカ230から出力される音がマイクロホン22、30、38で検出されるのを出来る限り防止して、ユーザが発生する音声のみを検出するようにするためである。
【0120】
コンピュータ18、26、34は、各々に接続されたカメラ24、32、40で撮影された映像(顔画像)を解析することにより、ユーザの顔の向き、すなわち正面方向に対する顔の角度を求める。顔画像から顔の向き等を求める方法は、既に周知であるため、その説明は省略するが、たとえば、特開平10−274516号に開示の技術を用いることができる。
【0121】
ただし、他のコンピュータ18、26、34に送信される角度データは、他のユーザ(聴者)の位置を基準とした場合の自身のユーザ(話者)の顔の向きについての角度である。したがって、顔画像から顔の向きを求めた後に、他のユーザの位置(方向)を基準(0°)とした場合の角度に変換される。
【0122】
このように検出された角度を、再現する音声に反映させるために、音声の伝達特性が検出され、上述したように、この伝達特性を考慮した音声フィルタが用いられる。この実施例では、音声の伝達特性を検出するのであるが、簡単のため、音再現システム10を利用する三者が、或る空間において、各辺が所定長さ(2m)を有する正三角形の頂点の位置に存在すると仮定してある。
【0123】
つまり、図10に示すように、ユーザA、B、Cは、辺の長さが2mの正三角形の頂点の位置に存在し、各ユーザA、B、Cの正面方向は、頂点から当該頂点に対向する辺に垂下する方向に設定される。したがって、この仮想の位置関係においては、ユーザAがユーザBに話し掛ける場合には、ユーザAは正面方向から右に30°の方向を向いて発話する。また、ユーザAがユーザCに話し掛ける場合には、ユーザAは正面方向から左に30°の方向を向いて発話する。説明は省略するが、ユーザBおよびユーザCについても同様である。
【0124】
この仮想の位置関係を再現するべく、或る場所において、音声の伝達特性を検出した。図11は、音声の伝達特性を検出した環境を真上から見た図である。図11に示す或る場所は、小会議室であり、横が10mで縦が3.9mの長方形状を有している。ただし、図11からも分かるように、小会議室は、長方形の左上部において、内側に少し凹んでいる。
【0125】
また、小会議室には、音声の伝達特性を検出するためのラウドスピーカ50およびマイクロホンアレイ52が配置される。ラウドスピーカ50としては、たとえば、人間が発生する音声に近似する音を再現可能なスピーカ(YAMAHA MSP−3)が用いられる。また、マイクロホンアレイ52としては、上述したマイクロホンアレイ14と同じものが用いられる。ただし、音再現システム10に用いられる場合と音声の伝達特性の検出に用いられる場合とを区別するために、異なる参照符号を付してある。
【0126】
図11からも分かるように、マイクロホンアレイ52は、小会議室の下側の壁際の中央に配置される。ラウドスピーカ50は、マイクロホンアレイ52の正面方向を真上方向とした場合に、左に30°回転した方向であり、ラウドスピーカ50の正面がマイクロホンアレイ52に向いたときに、その正面とマイクロホンアレイ52の中心との距離が2mになる位置に配置される。そして、ラウドスピーカ50は、その位置で15°刻みで、一周(360°)回転される。15°毎に、ラウドスピーカ50から刺激としてスイープ音を出力し、そのときマイクロホンアレイ52の各マイクロホンm(m=1,2,…,M)で検出されるインパルス応答を伝達特性Hang[m]として検出する。ただし、この実施例では、上述したように、M=70である。また、angは、音源の指向性を模擬する角度であり、上述した使用者A、B、Cの正面方向に対する角度である。ただし、この実施例では、ラウドスピーカ50は、左回り(反時計回り)に15°刻みで回転される。さらに、スイープ音には、Time Stretched Pulse法を用いて作成した24kHzまでの信号を用いた。また、この小会議室の残響時間は、約0.6秒である。
【0127】
なお、15°刻みでラウドスピーカ50を回転させるのは、人間の聴覚によって識別可能な角度が20°程度だからである。
【0128】
つまり、図11に示す場合には、ラウドスピーカ50が話者であり、マイクロホンアレイ52の内部の中心に聴者の頭部(耳の高さ)が来るように当該聴者が存在するものとして、伝達特性が測定されるのである。したがって、図10に示したような仮想の位置関係において、すべての場合について、伝達特性Hang[m]を検出するためには、ラウドスピーカ50とマイクロホンアレイ52の配置位置を逆にしたり、ラウドスピーカ50を点線で示す位置(マイクロホンアレイ52の正面方向から右に30°回転した位置)に移動させたり、点線で示すラウドスピーカ50とマイクロホンアレイ52との配置位置を逆にしたりして、伝達特性Hang[m]を測定する必要がある。ただし、この実施例では、簡単のため、図11に実線で示したラウドスピーカ50とマイクロホンアレイ52との配置位置でのみ、伝達特性Hang[m]を測定し、これを各コンピュータ18、26、34で使用するようにしてある。
【0129】
ここで、図12には、マイクロホンアレイ52の或るマイクロホンで検出されたインパルス応答(後述する「減衰されたインパルス応答」と区別するために、ここでは「元のインパルス応答」という)の波形が点線で示される。この元のインパルス応答では、初期反射音と後期反射音とを含んでいる。上述したように、図11で示したような小会議室では、残響時間があるため、減衰するのに時間がかかってしまい、これを正しく再現するためには、逆フィルタの長さが2048ポイントを超えてしまう。これでは、リアルタイムでの処理を実現できなくなってしまう。したがって、この実施例では、ハニング窓を用いることにより、逆フィルタの長さが2048ポイントを超えないようにしてある。ハニング窓を用いることによって減衰されたインパルス応答は、図12において、実線で示される。ただし、ハニング窓は、各マイクロホンで記録されるインパルス応答の直接音をその中央に有している。また、図12から分かるように、この減衰されたインパルス応答は、初期反射音を十分含んでいて、後期反射音を何ら含んでいない。しかし、減衰されたインパルス応答に基づく伝達特性Hang[m]を用いた場合であっても、図11で示した小会議室でユーザが会話しているように、話者と聴者との位置関係をほぼ正確に再現することができる。
【0130】
図示は省略するが、各コンピュータ18、26、34では、メモリ(ハードディスクやRAM)に伝達特性Hang[m]に対応するデータ(伝達特性データ)が記憶される。したがって、コンピュータ18、26、34は、他のコンピュータ18、26、34から送信される角度データが示す角度angに応じた伝達特性データを読み出し、読み出した伝達特性データに対応する伝達特性Hang[m]を考慮した音声フィルタを用いて音声信号を再現する。したがって、指向性を有する音声が再現される。
【0131】
ここで、具体的に説明する。単一のマイクロホン22(30、38)で収録された音響信号(この実施例では、ユーザが発生した音声に対応する音声信号)をSとする。また、BoSC再生システム内の2次音源スピーカs(s=1,2,…,N)と制御点i(i=1,2,…,M)に対する逆フィルタをGinv[s,i]とする。ただし、制御点iの配置は、マイクロホンアレイ52と合同であり、m=iが成り立つ。また、2次音源スピーカsは、ラウドスピーカ230であり、この実施例では、N=24である。
【0132】
図13(A)のように、話者から見た聴者の位置する方向をθとし、話者が向いている方向をαとすると、聴者に対する話者の向き(角度)はα−θで表される。ここで、図13(A)に示す話者と聴者とを上述したラウドスピーカ50とマイクロホンアレイ52とで表すと、図13(B)のように示される。したがって、角度ang=α−θの伝達特性Hang[m]を用いて、発話方向を含む音声を再現すると、BoSC再生システム内の2次音源sからの出力信号R(s)は、数17で示される。ただし、V[s]は、伝達特性Hang[m]を考慮した音声フィルタである。
【0133】
【数17】
【0134】
つまり、コンピュータ18、26、34は、RAMやハードディスクのような内部メモリに、角度に応じた音声フィルタV[s]または伝達特性Hang[m]に対応するデータ(音声フィルタデータまたは伝達特性データ)を記憶しておき、他のコンピュータ18,26、34から受信した角度データが示す角度に応じた角度に応じた音声フィルタV[s]を用いて、受信した音声データを畳み込むのである。ただし、上述したように、15°刻みで伝達特性Hang[m]は測定されるため、音声フィルタV[s]の15°刻みである。したがって、角度データが示す角度に応じた音声フィルタV[s]を選択する場合には、0°、15°、…、330°、345°のうち、角度データが示す角度が最も近い角度に応じた音声フィルタV[s]が選択される。ただし、7.5°、22.5°などのように、角度データが示す角度が、隣接する2つの角度の中間値である場合には、この2つの角度のうちから所定のルールに従って選択した一つの角度に応じた音声フィルタV[s]が選択される。たとえば、所定のルールとしては、前回の角度に近い方を選択したり、角度の小さい(または大きい)方を選択したり、ランダムに選択したりすることが考えられる。いずれのルールを採用したとしても、上述したように、人間の聴覚で識別可能な範囲内であるため、不都合が生じることはない。
【0135】
このように、この実施例では、図11に示したような小会議室で測定したインパルス応答に基づいて伝達特性Hang[m]を有する音声フィルタV[s]を生成するため、スピーカアレイ20、28、36を使用するユーザは、この小会議室で、辺の長さが2mの正三角形の頂点の位置で会話しているような臨場感を得ることができる。
【0136】
したがって、他の場所でインパルス応答の検出を行えば、当該他の場所で会話しているような臨場感を得ることができる。たとえば、マイクロホンアレイ14が配置されるオーケストラの会場の客席でインパルス応答を検出して音声フィルタを生成しておければ、当該オーケストラの会場で生のオーケストラを聴きながら、会話をしている臨場感を得ることができる。
【0137】
ここで、話者の顔の角度と音声再現の主観評価を行うために、以下のような実験を行った。実験では、ラウドスピーカ50から出力する刺激(刺激音)として、一般的な挨拶(ここでは、「こんにちは」)を言う30代の男性の音声が用いられた。実験における被験者は、20代または30代の10人の日本人である。ただし、5人は女性であり、5人は男性である。
【0138】
また、この実験においては、使用する角度は、後述する2つの環境、すなわち実際の環境(以下、「実環境」とう)および音場再現システム(スピーカアレイシステム20(28、36でも可)で再現する環境(以下、「再現環境」という)の両方において、反時計回りに0°から90°までであり、15°刻みで変化される。ただし、0°の位置は、ラウドスピーカ50の正面(話者の顔)がマイクロホンアレイ52(聴者すなわち被験者)に対向している位置に合わせられる。この角度範囲を使用することによって、想定された三者間の関係(仮想の位置関係)において、話者が話し掛けている聴者を音響的に知覚できるかどうかを判断することができる。
【0139】
上述したように、この実施例では、2つの環境で主観評価を行った。1つ目は、実環境で回転しているラウドスピーカ50を用いて音声を再現した場合についての主観評価である。2つ目は、再現環境で上記の音声フィルタV[s]を使用して上記の角度範囲内で角度を変化させて音声を再現した場合についての主観評価である。
【0140】
まず、1つ目の主観評価についての実験では、インパルス応答が測定された場合と、同じ場所および同じ条件で行われ、ラウドスピーカ50は実環境において無作為に回転させた。また、上述したように、音声フィルタ向けのインパルス応答を測定するのに使用されたラウドスピーカ50が、実環境における音声の再現にも使用された。そして、被験者には、インパルス応答を測定した際に、マイクロホンアレイ52が置かれた位置で評価を行ってもらった。また、実験中に、被験者が頭部を回転することを許可した。ただし、被験者は、マイクロホンアレイ52の球状の骨格(図2の14a)の中心の高さに自身の耳の位置が来るように、椅子に座るなどして高さを調整した。さらに、実験では、ラウドスピーカ50が被験者に見えるのを防ぐために、その前(被験者とラウドスピーカ50の間)に、カーテンを設けた。
【0141】
なお、音圧レベル計から得られた結果では、音場へのカーテン設けたことの影響がわずかであることが示された。また、ラウドスピーカ50のパワー出力は、被験者以外の者が調整したので、音量は顔の角度や上記の2つの環境(実環境および再現環境)でよって影響を受けていない。
【0142】
2つ目の主観評価についての実験では、コンピュータ18(26、34でも可)およびスピーカアレイシステム20(28、36でも可)を用いて、上述したように、0から90°までを15°刻みで変化させるように、上述の音声フィルタV[s]を用いて刺激音を出力した。
【0143】
音声の方向が質問される前に、ラウドスピーカ50の位置が被験者に知らされた。また、実験では、ラウドスピーカ50を、反時計回りに0°から90°まで、15°刻みで回転させ、そして、逆向きに(時計回りに)、90°から0°まで、15°刻みで回転させることによって音声の方向を変化させ、被験者に音声を聴かせた。質問に従って、被験者は、最初に0°の位置で音声を聞かされた後に、2度同じ角度の位置で音声を聞かされる。つまり、音声の方向は、0°から90°までの間で、15°刻みで変化するため、7つの方向から1つの方向(角度)を選択しなければならない。7つの音声の方向は、各被験者に無作為の順に、試験された。被験者は、実環境と再現環境との両方で、全部で14個の質問に回答した。
【0144】
各環境において、次のように、角度誤りを定義することができる。実環境においては、ラウドスピーカ50が向いている角度と回答された角度の絶対誤差が定義される。また、再現環境においては、再生される音声の方向(角度)と回答された角度の絶対誤差が定義される。図14は、各環境において、全被験者についての平均角度誤差の箱ひげ図を示す。図14に示すように、実環境および再現環境におけるそれぞれの平均角度誤差は、13.7°と20.8°である。図10に示した三者間の仮想の位置関係(正三角形の頂点の位置に各ユーザを配置)を考慮して、再現環境における平均角度誤差は、誰が誰に話し掛けているかを知覚可能な程度に小さいと言える。
【0145】
しかしながら、平均角度誤差の間には、2つの環境間で7.1度の差がある。両側t検定は、平均角度誤差の差が統計的有意差(p<0.05)を有していることを示している。したがって、被験者には、再現環境において発話方向の角度を知覚することは、実環境よりも難しいことが分かる。また、ほとんどの被験者は、再現環境において、発話方向の角度を知覚することは、実環境よりも難しいと論評した。そして、被験者等は、それらの違いは残響の長さであると論評した。また、実験に使用した会議室などの音波反射を有する共用空間では、後期反射音が向かう角度を知覚するのに有意な効果を持っていると考えられる。
【0146】
図15には、話者が向く角度(ここでは、ラウドスピーカ50が向く角度またはスピーカアレイシステム20(28、36)で再現された発話方向の角度)毎の平均角度誤差を示した棒グラフである。ただし、格子模様が付されている棒グラフは、実環境についての平均角度誤差であり、斜線が付されている棒グラフは、再現環境についての平均角度誤差である。
【0147】
この図15から分かるように、話者の向く角度が90°であるときに、2つの環境の間には、著しい違いがある。これは、一部の被験者において、音声が90度まで回転したことを知覚できなかったためと考えられる。
【0148】
また、図16は、被験者毎に、平均角度誤差の散布図を示す。つまり、各被験者についての平均角度誤差の実環境と再現環境との間における相関関係が示される。ただし、円の中に記載した数字は、被験者を個別に識別するために付した番号である。また、実線の円は男性の被験者であり、点線の円は女性の被験者である。
【0149】
この図16では、被験者の半分が、2つの環境における発話方向の知覚の差が小さいことを示している。残りの半分の被験者については、実環境における発話方向の角度の知覚が、より高い精度が示されている。質問に対する回答結果が2つの環境においてほとんど差が無い被験者の一人(女性)は、再現環境で0°から90°まで回転する発話方向の角度を明確に知覚していた。これらの結果は、被験者等の能力(聴力)によって、発話方向の角度を認知することには、個人差があることを示している。そして、図16では、特に女性の被験者においては、2つの環境においてほとんど差が無いことが示される。
【0150】
なお、主観評価実験においては、各角度での音声の大きさ(強さ)を一定に保つために、ラウドスピーカ50の出力パワーが制御された。しかしながら、音再現システム10を用いて実際に三者間で会話を行う場合には、音声の大きさ(強さ)は、話者が向く方向(角度)に応じて自然に変化するため、より発話方向の知覚が行い易いことが考えられる。
【0151】
この実施例によれば、単に音声を再現するのみならず、話者の音声の向きを再現することができるので、遠隔に存在するユーザが音場再現システムをそれぞれ用いて会話する場合であっても、再現される音声によって、誰が誰に話しているのかを知覚することができる。したがって、円滑に会話することができる。
【0152】
なお、この実施例では、ヘッドセットマイクロホンを装着したユーザの音声を再現するようにしたが、これに限定される必要はない。ユーザが演奏する楽器の音やユーザが行う手拍子の音を再現するようにしてもよい。ただし、ユーザが楽器を演奏する場合には、楽器の向きを検出する必要があるため、たとえば、楽器にジャイロセンサが設けられ、ジャイロセンサの出力に応じて楽器の方向が検出される。また、ユーザが行う手拍子の音を再現する場合には、当該ユーザの手首付近にマイクロホンが装着され、ユーザの手が有る方向ないし体の向きを検出するために、手首やお腹付近に、ジャイロセンサが設けられる。
【0153】
また、この実施例では、カメラで撮影された映像からユーザの顔の向きを検出するようにしたが、これに限定される必要はない。たとえば、ユーザの頭部(ヘッドセットマイクロホン)にジャイロセンサを装着して、ジャイロセンサの出力に基づいてユーザの顔の向きを検出するようにしてもよい。
【0154】
また、この実施例では、或る場所に、ラウドスピーカおよびマイクロホンアレイを設置して、インパルス応答を測定することにより、音声の伝達特性を検出し、検出した伝達特性を音声フィルタに反映させるようにしたが、これに限定される必要はない。たとえば、鏡像法を用いたシミュレーションによって、各角度angについての伝達特性を算出することもできる。かかる場合には、想定される環境における仮想の壁面に反射率が設定され、これによって反射音が生成される。
【0155】
さらに、この実施例では、仮想の位置関係として、正三角形の頂点の位置にユーザが位置する場合についてのみ示したが、これに限定される必要はない。様々な距離と、マイクロホンアレイの正面方向に対するラウドスピーカの様々な角度について、インパルス応答を測定または計算することにより、多数の伝達特性を用意しておけば、ユーザ同士の様々な位置関係に対応して、音声を再現することができる。
【0156】
さらにまた、この実施例では、マイクロホンアレイによって検出された音場データも再現するようにしたが、音場データは再現されなくてもよい。
【0157】
また、この実施例では、三者間の会話を再現するようにしたが、二者間または四者間以上の会話も再現することができる。たとえば、四者間の会話では、仮想の位置関係として、所定長さの辺を有する正方形の頂点にユーザを配置することが考えられる。また、五者間の会話では、仮想の位置関係として、所定長さの辺を有する正五角形の頂点にユーザを配置することが考えられる。他の場合も同様である。ただし、実際の位置関係を多角形で表現して、その頂点に各ユーザを配置するようにしてもよい。いずれの場合にも、測定や計算により求められた伝達特性を考慮した音声フィルタが用意される。
この実施例では、現時点における、サーバおよびコンピュータの性能に加え、データの伝送速度を考慮して、マイクロホンアレイおよびスピーカアレイシステムで使用するマイクロホンおよびラウドスピーカの個数を低減してあるが、性能や伝送速度が向上された場合には、それらの個数を低減しなくても、リアルタイムに音場データや音声データを再現できると考えられる。
【符号の説明】
【0158】
10 …音場共有システム
12 …サーバ
14 …マイクロホンアレイ
18,26,34 …コンピュータ
20,28,36 …スピーカアレイシステム
22,30,38 …マイクロホン
24,32,40 …カメラ
【特許請求の範囲】
【請求項1】
少なくとも、複数の第1ラウドスピーカを有するスピーカアレイを備える音再現装置を複数備える、音再現システムであって、
各音再現装置は、
角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、
使用者の発生する音に対応する音データを検出する音検出手段、
他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出する角度検出手段、
前記音検出手段によって検出された音データと前記角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、
他の音再現装置からの音データと角度データとを受信する第1データ受信手段、
前記第1データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記第1データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および
前記音処理手段によって畳み込み処理が施された音データを前記スピーカアレイに出力する音出力手段を備える、音再現システム。
【請求項2】
前記音声フィルタは、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第2ラウドスピーカを配置し、当該第2ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、当該マイクロホンアレイによって測定されるインパルス応答に基づいて生成される、請求項1記載の音再現システム。
【請求項3】
前記第2ラウドスピーカは、前記マイクロホンアレイの正面方向から所定角度の方向に、所定距離を隔てて配置される、請求項2記載の音再現システム。
【請求項4】
前記マイクロホンアレイは、或る音場に配置され、
前記マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して前記各音再現装置に伝送するサーバをさらに備え、
前記各音再現装置は、前記サーバから伝送された音場データを受信する第2データ受信手段をさらに備え、
前記音出力手段は、前記第2データ受信手段によって受信された音場データを、前記音処理手段によって畳み込み処理が施された前記音データに重畳して前記スピーカアレイに出力する、請求項1ないし3のいずれかに記載の音再現システム。
【請求項5】
前記スピーカアレイは、第1所定数の第1ラウドスピーカを有し、
前記マイクロホンアレイは、第2所定数のマイクロホンを有し、
線形独立性の高い、第1所定数よりも少ない第3所定数の第1ラウドスピーカを選択するスピーカ選択手段、および
線形独立性の高い、第2所定数よりも少ない第4所定数のマイクロホンを選択するマイクロホン選択手段をさらに備え、
前記サーバは、前記第4所定数のマイクロホンを用いて前記音場データを収録して、畳み込み処理を施し、
前記音出力手段は、前記第2データ受信手段によって受信された音場データを前記第3所定数の第1ラウドスピーカを使用して出力する、請求項4記載の音再現システム。
【請求項6】
複数のラウドスピーカを有するスピーカアレイ、
角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、
使用者の発生する音に対応する音データを検出する音検出手段、
他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出する角度検出手段、
前記音検出手段によって検出された音データと前記角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、
他の音再現装置からの音データと角度データとを受信するデータ受信手段、
前記データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および
前記音処理手段によって畳み込み処理が施された音データを前記スピーカアレイに出力する音出力手段を備える、音再現装置。
【請求項7】
複数のラウドスピーカを有するスピーカアレイおよび角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段を備える音再現装置を複数備える、音再現システムの音再現方法であって、
各音再現装置は、
(a)使用者の発生する音に対応する音データを検出し、
(b)他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出し、
(c)前記ステップ(a)によって検出された音データと前記ステップ(b)によって検出された角度データとを他の音再現装置に送信し、
(d)他の音再現装置からの音データと角度データとを受信し、
(e)前記ステップ(d)によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記ステップ(d)によって受信された音データに畳み込み処理を施し、そして
(f)前記ステップ(e)によって畳み込み処理が施された音データを前記スピーカアレイに出力する、音再現方法。
【請求項1】
少なくとも、複数の第1ラウドスピーカを有するスピーカアレイを備える音再現装置を複数備える、音再現システムであって、
各音再現装置は、
角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、
使用者の発生する音に対応する音データを検出する音検出手段、
他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出する角度検出手段、
前記音検出手段によって検出された音データと前記角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、
他の音再現装置からの音データと角度データとを受信する第1データ受信手段、
前記第1データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記第1データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および
前記音処理手段によって畳み込み処理が施された音データを前記スピーカアレイに出力する音出力手段を備える、音再現システム。
【請求項2】
前記音声フィルタは、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第2ラウドスピーカを配置し、当該第2ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、当該マイクロホンアレイによって測定されるインパルス応答に基づいて生成される、請求項1記載の音再現システム。
【請求項3】
前記第2ラウドスピーカは、前記マイクロホンアレイの正面方向から所定角度の方向に、所定距離を隔てて配置される、請求項2記載の音再現システム。
【請求項4】
前記マイクロホンアレイは、或る音場に配置され、
前記マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して前記各音再現装置に伝送するサーバをさらに備え、
前記各音再現装置は、前記サーバから伝送された音場データを受信する第2データ受信手段をさらに備え、
前記音出力手段は、前記第2データ受信手段によって受信された音場データを、前記音処理手段によって畳み込み処理が施された前記音データに重畳して前記スピーカアレイに出力する、請求項1ないし3のいずれかに記載の音再現システム。
【請求項5】
前記スピーカアレイは、第1所定数の第1ラウドスピーカを有し、
前記マイクロホンアレイは、第2所定数のマイクロホンを有し、
線形独立性の高い、第1所定数よりも少ない第3所定数の第1ラウドスピーカを選択するスピーカ選択手段、および
線形独立性の高い、第2所定数よりも少ない第4所定数のマイクロホンを選択するマイクロホン選択手段をさらに備え、
前記サーバは、前記第4所定数のマイクロホンを用いて前記音場データを収録して、畳み込み処理を施し、
前記音出力手段は、前記第2データ受信手段によって受信された音場データを前記第3所定数の第1ラウドスピーカを使用して出力する、請求項4記載の音再現システム。
【請求項6】
複数のラウドスピーカを有するスピーカアレイ、
角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、
使用者の発生する音に対応する音データを検出する音検出手段、
他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出する角度検出手段、
前記音検出手段によって検出された音データと前記角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、
他の音再現装置からの音データと角度データとを受信するデータ受信手段、
前記データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および
前記音処理手段によって畳み込み処理が施された音データを前記スピーカアレイに出力する音出力手段を備える、音再現装置。
【請求項7】
複数のラウドスピーカを有するスピーカアレイおよび角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段を備える音再現装置を複数備える、音再現システムの音再現方法であって、
各音再現装置は、
(a)使用者の発生する音に対応する音データを検出し、
(b)他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出し、
(c)前記ステップ(a)によって検出された音データと前記ステップ(b)によって検出された角度データとを他の音再現装置に送信し、
(d)他の音再現装置からの音データと角度データとを受信し、
(e)前記ステップ(d)によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記ステップ(d)によって受信された音データに畳み込み処理を施し、そして
(f)前記ステップ(e)によって畳み込み処理が施された音データを前記スピーカアレイに出力する、音再現方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2012−109643(P2012−109643A)
【公開日】平成24年6月7日(2012.6.7)
【国際特許分類】
【出願番号】特願2010−254608(P2010−254608)
【出願日】平成22年11月15日(2010.11.15)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り オーストラリア音響学会「Proceedings of 20th International Congress on Acoustics,ICA2010」2010年8月発行
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】
【公開日】平成24年6月7日(2012.6.7)
【国際特許分類】
【出願日】平成22年11月15日(2010.11.15)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り オーストラリア音響学会「Proceedings of 20th International Congress on Acoustics,ICA2010」2010年8月発行
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】
[ Back to top ]