音再現システム、音再現装置および音再現方法

【構成】音再現システム１０ａ（１０ｂ、１０ｃ）は、コンピュータ１８（２６、３４）を含み、コンピュータ１８は、他のコンピュータ２６、３４から他のユーザの音声に対応する音声データおよび自身のユーザの位置を基準とした他のユーザの顔の向きに対応する角度データを受信すると、角度データが示す顔の方向（角度）に応じた音声フィルタを用いて、受信した音データを畳み込む。そして、コンピュータ１８に接続された複数のスピーカを有するスピーカアレイ２０を用いて、畳み込んだ音データを出力する。したがって、他のコンピュータ２６、３４の使用者の顔の向きに応じた音声が再現される。
【効果】再現される音によってその音の発生者の向きを知ることができるので、円滑に会話することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は音再現システム、音再現装置および音再現方法に関し、特にたとえば、複数のマイクロホンを有するマイクロホンユニットと複数のラウドスピーカを有するスピーカユニットを用いた、音再現システム、音再現装置および音再現方法に関する。
【背景技術】
【０００２】
この種の従来の音再現システムの一例が非特許文献１に開示されている。この非特許文献１に開示される３次元音場通信システムでは、７０ｃｈ（チャネル）のマイクロホンアレイで収録した音響データを６２ｃｈのラウドスピーカで再現する音場制御（ＢｏｕｎｄａｒｙＳｕｒｆａｃｅＣｏｎｔｒｏｌ：ＢｏＳＣ）再生システムを用いて、遠隔地に存在する利用者が音響空間を共有しながら会話を行うことが可能である。具体的には、予め収録し逆フィルタが畳み込まれた６２ｃｈの音場データがサーバに記憶される。このサーバには、インターネットおよびＬＡＮのようなネットワークを介して、異なる場所に配置された２台のクライアントマシン（ＰＣ）が接続される。各クライアントマシンには、３次元の音場再現システムが接続されている。サーバは、利用者が選択した再現音場を双方の音場再現システム（スピーカアレイシステム）に同時に伝送する。各音場再現システムの利用者の音声に対応する音声データは、ネットワークを介して、それぞれ他方のクライアントマシンに伝送される。各クライアントマシンでは、他方の利用者の音声に対応する音声データ（１ｃｈ）が、実時間で畳み込まれた後に、音場データ（６２ｃｈ）に重ね合わせて出力される。したがって、異なる場所に存在する利用者は、サーバから出力される音場データを共有するとともに、会話することができる。
【先行技術文献】
【非特許文献】
【０００３】
【非特許文献１】「１．数値解析技術と可視化・可聴化１．７三次元音場通信システム」榎本成悟音響技術 No.148/Dec.2009 pp37-42
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかし、非特許文献１の３次元音場通信システムでは、各クライアントマシンでは、他方の利用者の音声に対応する音声データ（１ｃｈ）は、予め用意された音声フィルタを用いて畳み込まれた後に、音場データ（６２ｃｈ）に重ね合わせて出力されるだけであるため、当該他方の利用者がどこを向いて話しているのかを再現された音声から認識することができない。したがって、背景技術の３次元音場通信システムにさらにクライアントマシンおよび音場再現システムなどを接続して、三者以上の利用者が会話する場合には、誰が誰に話し掛けているのかを、認識するのが困難である。このため、円滑に会話することができない。
【０００５】
それゆえに、この発明の主たる目的は、新規な、音再現システム、音再現装置および音再現方法を提供することである。
【０００６】
また、この発明の他の目的は、再現された音でその音の発生者の向きを認識できる、音再現システム、音再現装置および音再現方法を提供することである。
【課題を解決するための手段】
【０００７】
本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。
【０００８】
第１の発明は、少なくとも、複数の第１ラウドスピーカを有するスピーカアレイを備える音再現装置を複数備える、音再現システムであって、各音再現装置は、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、使用者の発生する音に対応する音データを検出する音検出手段、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する角度検出手段、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、他の音再現装置からの音データと角度データとを受信する第１データ受信手段、第１データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する音出力手段を備える、音再現システムである。
【０００９】
第１の発明では、音再現システム（１０）では、少なくとも、複数の第１ラウドスピーカ（２３０）を有するスピーカアレイ（２０、２８、３６）を備える音再現装置（１８、２０、２６、２８、３４、３６）を複数備える。各音再現装置は、フィルタ記憶手段、音検出手段、角度検出手段、データ送信手段、第１データ受信手段、音処理手段、および音出力手段を備える。フィルタ記憶手段は、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶する。音検出手段は、使用者の発生する音、たとえば、当該使用者の音声や当該使用者が演奏する楽器の音に対応する音データを検出する。角度検出手段は、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する。データ送信手段は、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信する。第１データ受信手段は、他の音再現装置からの音データと角度データとを受信する。音処理手段は、第１データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、第１データ受信手段によって受信された音データに畳み込み処理を施す。音出力手段は、音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する。
【００１０】
第１の発明によれば、角度毎に対応する音声フィルタを記憶しておき、他の音再現装置からの音データを、同じく他の音声再現装置からの角度データが示す角度に対応する音声フィルタを用いて畳み込むので、スピーカアレイによってその角度が示す方向の音を再現することができる。このため、再現される音によってその音の発生者の向きを知ることができる。したがって、スピーカアレイのユーザは、たとえば、誰が誰に話し掛けているのかを再現された音から認識することができ、円滑に会話することができる。
【００１１】
第２の発明は、第１の発明に従属し、音声フィルタは、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第２ラウドスピーカを配置し、当該第２ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、当該マイクロホンアレイによって測定されるインパルス応答に基づいて生成される。
【００１２】
第２の発明では、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第２ラウドスピーカを配置する。つまり、マイクロホンアレイが聴者として配置され、第２ラウドスピーカが話者として配置される。そして、当該第２ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、マイクロホンアレイによって測定されるインパルス応答が測定される。各マイクロホンで測定されたインパルス応答から伝達特性が測定され、第２ラウドスピーカの回転角度毎の音声フィルタが生成されるのである。
【００１３】
第２の発明によれば、或る場所においてラウドスピーカおよびマイクロホンアレイを用いて予め測定したインパルス応答に基づいて音声フィルタを生成するので、音再現装置を使用して会話するユーザは、或る場所で会話しているような臨場感を得ることができる。
【００１４】
第３の発明は、第２の発明に従属し、第２ラウドスピーカは、マイクロホンアレイの正面方向から所定角度の方向に、所定距離を隔てて配置される。
【００１５】
第３の発明では、第２ラウドスピーカは、マイクロホンアレイの正面方向から所定の角度の方向に、所定距離を隔てて配置される。この音再現装置を用いて、たとえば、遠隔地に存在する三者間で会話する場合には、仮想の位置関係として、所定長さの辺を有する正三角形の頂点の位置に各ユーザの位置が想定される。したがって、そのような位置関係を再現するように、第２ラウドスピーカおよびマイクロホンアレイが配置されるのである。
【００１６】
第３の発明によれば、仮想の位置関係を再現するように、ラウドスピーカおよびマイクロホンアレイを配置するので、この位置関係で測定されたインパルス応答に基づいて生成された音声フィルタを用いた場合には、或る場所にその位置関係で会話しているような臨場感を得ることができる。
【００１７】
第４の発明は、第１ないし第３の発明のいずれかに従属し、マイクロホンアレイは、或る音場に配置され、マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して各音再現装置に伝送するサーバをさらに備え、各音再現装置は、サーバから伝送された音場データを受信する第２データ受信手段をさらに備え、音出力手段は、第２データ受信手段によって受信された音場データを、音処理手段によって畳み込み処理が施された音データに重畳してスピーカアレイに出力する。
【００１８】
第４の発明では、マイクロホンアレイは、或る音場に配置される。音再現システムは、さらに、サーバ（１２）を備える。このサーバは、マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して各音再現装置に伝送する。各音再現装置は、第２データ受信手段をさらに備える。第２データ受信手段は、サーバから伝送された音場データを受信する。音出力手段は、第２データ受信手段によって受信された音場データを、音処理手段によって畳み込み処理が施された音データに重畳してスピーカアレイに出力する。したがって、或る音場が再現されるとともに、他の音再現装置からの音が再現される。
【００１９】
第４の発明によれば、たとえば、音再現装置を用いて会話しているユーザは、音場を共有しながら、会話することができる。
【００２０】
第５の発明は、第４の発明に従属し、スピーカアレイは、第１所定数の第１ラウドスピーカを有し、マイクロホンアレイは、第２所定数のマイクロホンを有し、線形独立性の高い、第１所定数よりも少ない第３所定数の第１ラウドスピーカを選択するスピーカ選択手段、および線形独立性の高い、第２所定数よりも少ない第４所定数のマイクロホンを選択するマイクロホン選択手段をさらに備え、サーバは、第４所定数のマイクロホンを用いて音場データを収録して、畳み込み処理を施し、音出力手段は、第２データ受信手段によって受信された音場データを第３所定数の第１ラウドスピーカを使用して出力する。
【００２１】
第５の発明では、スピーカアレイは、第１所定数の第１ラウドスピーカを有し、マイクロホンアレイは、第２所定数のマイクロホンを有している。スピーカ選択手段は、線形独立性の高い、第１所定数よりも少ない第３所定数の第１ラウドスピーカを選択する。同様に、マイクロホン選択手段は、線形独立性の高い、第２所定数よりも少ない第４所定数のマイクロホンを選択する。したがって、サーバは、第４所定数のマイクロホンを用いて音場データを収録して、畳み込み処理を施す。また、音出力手段は、第２データ受信手段によって受信された音場データを第３所定数の第１ラウドスピーカを使用して出力する。
【００２２】
第５の発明によれば、使用するラウドスピーカおよびマイクロホンの数を低減するので、畳み込みの処理負荷を軽減するとともに、データの伝送量を低減することができる。したがって、リアルタイムに音場を共有したり、会話したりすることができる。また、線形独立性の高い、ラウドスピーカおよびマイクロホンをそれぞれ選択するので、それらの数を低減したとしても、臨場感を損なうことがない。
【００２３】
第６の発明は、複数のラウドスピーカを有するスピーカアレイ、角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、使用者の発生する音に対応する音データを検出する音検出手段、他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出する角度検出手段、音検出手段によって検出された音データと角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、他の音再現装置からの音データと角度データとを受信するデータ受信手段、データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および音処理手段によって畳み込み処理が施された音データをスピーカアレイに出力する音出力手段を備える、音再現装置である。
【００２４】
第７の発明は、複数のラウドスピーカを有するスピーカアレイおよび角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段を備える音再現装置を複数備える、音再現システムの音再現方法であって、各音再現装置は、（ａ）使用者の発生する音に対応する音データを検出し、（ｂ）他の使用者の方向を基準として、使用者が音を発生した方向に対応する角度データを検出し、（ｃ）ステップ（ａ）によって検出された音データとステップ（ｂ）によって検出された角度データとを他の音再現装置に送信し、（ｄ）他の音再現装置からの音データと角度データとを受信し、（ｅ）ステップ（ｄ）によって受信された角度データが示す角度に応じた音声フィルタデータをフィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、ステップ（ｄ）によって受信された音データに畳み込み処理を施し、そして（ｆ）ステップ（ｅ）によって畳み込み処理が施された音データをスピーカアレイに出力する、音再現方法である。
【００２５】
第６および第７の発明においても、再現される音によってその音の発生者の向きを知ることができる。
【発明の効果】
【００２６】
この発明によれば、音の発生者の角度に応じた音声フィルタを用いるので、再現される音によってその音の発生者の向きを知ることができる。したがって、たとえば、異なる場所に存在する複数の人間が音再現装置を用いて会話するような場合には、誰が誰に話し掛けているのかを再現された音によって知ることができ、円滑に会話することができる。
【００２７】
この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【図面の簡単な説明】
【００２８】
【図１】図１はこの発明の音場共有システムの一例を示す図解図である。
【図２】図２は図１に示すマイクロホンアレイの例を示す図解図である。
【図３】図３は図１に示す音場共有システムに用いるスピーカアレイシステムの例を示す図解図である。
【図４】図４は音場再現の原理を説明するための図解図である。
【図５】図５はグラムシュミットの直交化法を説明するための図解図である。
【図６】図６は各ラウドスピーカを最初に選択した場合に、６２個のマイクロホンに対して２４個のラウドスピーカを選択したときの評価指標の平均値および最小値の変化を示すグラフである。
【図７】図７は６０番のラウドスピーカを最初に選択した場合に、選択された２４個のラウドスピーカの配置位置を示す図解図である。
【図８】図８は選択された２４個のラウドスピーカに対して選択された８個のマイクロホンの配置位置を示す図解図である。
【図９】図９は図１の音場共有システムに用いるスピーカアレイシステムの使用状態を真上方向から見た模式図である。
【図１０】図１０は図１に示す音場共有システムを用いて三者間で会話する場合の仮想の位置関係を示す図解図である。
【図１１】図１１は図１０に示した仮想の位置関係で話者の顔の向きに応じた音声のインパルス応答を検出した実環境を真上から見た図を示す。
【図１２】図１２はマイクロホンアレイのうちの或るマイクロホンで検出されたインパルス応答およびハニング窓を用いて減衰させたインパルス応答を示すグラフである。
【図１３】図１３は話者と聴者との位置および向きを示す図解図およびそれらをラウドスピーカおよびマイクロホンアレイを用いて表した図解図である。
【図１４】図１４は実環境および再現環境での実験における被験者の主観評価による角度誤りの平均を示すグラフである。
【図１５】図１５は実環境および再現環境での実験において、話者の向く角度毎の被験者の主観評価による角度誤り平均を示す棒グラフである。
【図１６】図１６は実環境および再現環境の間で、被験者の主観による角度誤り平均の相関関係を示す図である。
【発明を実施するための形態】
【００２９】
図１を参照して、この実施例の音場共有システム１０は音再現システムとしても機能し、サーバ１２を含む。サーバ１２は、汎用のサーバであり、このサーバ１２には、マイクロホンアレイ１４が接続される。また、サーバ１２は、インターネットまたはＬＡＮ或いはその両方のようなネットワーク１６を介して、コンピュータ１８、コンピュータ２６およびコンピュータ３４に接続される。コンピュータ１８、２６、３４は、汎用のＰＣまたはワークステーションである。コンピュータ１８には、スピーカアレイシステム２０、マイクロホン２２およびカメラ２４が接続される。また、コンピュータ２６には、スピーカアレイシステム２８、マイクロホン３０およびカメラ３２が接続される。そして、コンピュータ３４にも、スピーカアレイシステム３６、マイクロホン３８およびカメラ４０が接続される。
【００３０】
この図１に示す音場共有システム１０は、３つのＢｏＳＣ再生システム１０ａ、１０ｂおよび１０ｃを含む。図１の点線枠で囲むように、ＢｏＳＣ再生システム１０ａは、サーバ１２、マイクロホンアレイ１４、ネットワーク１６、コンピュータ１８、スピーカアレイシステム２０、マイクロホン２２およびカメラ２４によって構成される。また、図１の一点鎖線枠で囲むように、ＢｏＳＣ再生システム１０ｂは、サーバ１２、マイクロホンアレイ１４、ネットワーク１６、コンピュータ２６、スピーカアレイシステム２８、マイクロホン３０およびカメラ３２によって構成される。さらに、図１の二点鎖線枠で囲むように、ＢｏＳＣ再生システム１０ｃは、サーバ１２、マイクロホンアレイ１４、ネットワーク１６、コンピュータ３４、スピーカアレイシステム３６、マイクロホン３８およびカメラ４０によって構成される。
【００３１】
ただし、コンピュータ１８およびスピーカアレイ２０、コンピュータ２６およびスピーカアレイ２８、コンピュータ３４およびスピーカアレイ３６のそれぞれの組は、マイクロホンアレイ１４で検出された音場データまたは他のＢｏＳＣシステム１０ａ、１０ｂ、１０ｃからの音声データ或いはそれらの両方を再現するための音再現装置として機能する。
【００３２】
図２に示すように、マイクロホンアレイ１４は、球形に近い形状の骨格１４ａおよびこの骨格１４ａを支持するスタンド１４ｂを含む。骨格１４ａは、Ｃ_８０フラーレン（Ｆｕｌｌｅｒｅｎｅ）の構造を基に、底部の１０個の頂点を切り取った７０個の頂点を有している。図示は省略するが、骨格１４ａの表面（外面）であり、７０個の頂点の各々には１個の無指向性のマイクロホンが取り付けられる。たとえば、マイクロホンとしては、ＤＰＡ４０６０−ＢＭを用いることができる。スタンド１４ｂは、支持軸１４０および三脚１４２によって構成され、支持軸１４０は、骨格１４ａの切り取った底部を通ってこの骨格１４ａの天井をその内側から支持している。
【００３３】
なお、骨格１４ａは、前面側と重なる部分以外は、背面側であっても正面から見えるが、分かり易く示すために、図２では、背面側に相当する部分を点線で示してある。
【００３４】
また、図３に示すように、スピーカアレイシステム２０、２８、３６は、楕円形のドーム部２２０およびこれを支える４本の柱部２２２を含む。この楕円形のドーム部２２０は、たとえば木製の４層の架台２２０ａ、２２０ｂ、２２０ｃ、２２０ｄによって構成される。ただし、図３では、ドーム部２２０の内部をその斜め下方から見た図であり、架台２２０ｄおよび柱部２２２についてはその一部を示してある。図示は省略するが、ドーム部２２０および柱部２２２の内部は空洞にされ、架台（２２０ａ−２２０ｄ）自体が密室型エンクロージャの役割を果たす。
【００３５】
また、スピーカアレイシステム２０、２８、３６の各々には、７０個のラウドスピーカ２３０が設置される。具体的には、架台２２０ａには６個のフルレンジユニット（ＦｏｓｔｅｘＦＥ８３Ｅ）すなわちラウドスピーカ２３０が設置され、架台２２０ｂには１６個のラウドスピーカ２３０が設置され、架台２２０ｃには２４個のラウドスピーカ２３０が設置され、そして、架台２２０ｄには１６個のラウドスピーカ２３０が設置される。さらに、４本の柱部２２２の各々には、低域を補うため、２個のサブウーファーユニット（ＦｏｓｔｅｘＦＷ１０８Ｎ）すなわちラウドスピーカ２３０が設置される。
【００３６】
このようなスピーカアレイシステム２０、２８、３６は、それぞれ、音場再現ルーム（図示せず）内に設置される。音場再現ルームは、１．５帖の防音室であり、ＹＡＭＡＨＡウッディボックス（遮音性能Ｄｒ−３０）が用いられる。また、音場再現ルーム内には、リフト付きの椅子（図示せず）が設けられる。これは、スピーカアレイシステム２０、２８、３６のドーム部２２０内であり、ラウドスピーカ２３０の数が最大となる架台２２０ｃの高さに、椅子に座ったユーザの耳の位置（高さ）を設定するためである。
【００３７】
なお、マイクロホンアレイ１４、およびコンピュータ（１８、２６、３４）とスピーカアレイシステム（２０、２８、３６）とを含む音場再現ルーム（音場再現システム）については、「１．数値解析技術と可視化・可聴化１．７三次元音場通信システム」榎本成悟音響技術 No.148/Dec.2009 pp37-42に開示されているため、さらなる詳細な説明は省略することにする。
【００３８】
たとえば、図１に示した音場共有システム１０では、マイクロホンアレイ１４は、オーケストラの演奏会場などの音場に配置される。サーバ１２は、マイクロホンアレイ１４からアンプ（図示せず）を介して入力される音場信号をディジタルの音場データに変換し、この音場データに対して逆システムの畳み込み処理を実行する。サーバ１２は、畳み込み処理を実行した音場データを、ネットワーク１６を介して、コンピュータ１８、２６および３４に送信する。
【００３９】
コンピュータ１８、２６、３４は、それぞれ、サーバ１２からの音場データをアナログの音場信号に変換し、スピーカアレイシステム２０、２８、３６に出力する。したがって、スピーカアレイシステム２０、２８、３６では、上述の音場が再現される。このため、スピーカアレイシステム２０、２８、３６を使用する各ユーザ（図示せず）は、遠隔地に存在している場合であっても、スピーカアレイシステム２０、２８、３６を介して、たとえば演奏会場で収録した生のオーケストラを楽しむことができる。
【００４０】
また、各ユーザは、マイクロホン２２、３０、３８を通して音声を入力することができる。マイクロホン２２で検出された音声信号はコンピュータ１８でディジタルの音声データに変換され、ネットワーク１６を介してコンピュータ２６、３４に送信される。コンピュータ２６は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム２８に出力する。同様に、コンピュータ３４は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム３６に出力する。ただし、コンピュータ２６、３４は、それぞれ、音場データと音声データとを重畳し、重畳したデータ（以下、「音データ」という）をアナログの信号（以下、「音信号」という）に変換する。以下、同様である。したがって、音場が再現されるとともに、他のユーザの音声が再現される。
【００４１】
また、マイクロホン３０で検出された音声信号はコンピュータ２６でディジタルの音声データに変換され、ネットワーク１６を介してコンピュータ１８、３４に送信される。コンピュータ１８は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム２０に出力する。同様に、コンピュータ３４は、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム３６に出力する。つまり、コンピュータ１８、３４は、それぞれ、音場データと音声データとを重畳した音データを音信号に変換する。
【００４２】
さらに、マイクロホン３８で検出された音声信号はコンピュータ３４でディジタルの音声データに変換され、ネットワーク１６を介してコンピュータ１８、２６に送信される。コンピュータ１８、２６は、上述したように、それぞれ、受信した音声データと音声フィルタを畳み込み演算し、アナログの音声信号に変換して、スピーカアレイシステム２０、２８に出力する。
【００４３】
したがって、スピーカアレイシステム２０のユーザ、スピーカアレイシステム２８のユーザ、およびスピーカアレイシステム３６のユーザは、音場を共有するとともに、三者間で会話することが可能である。
【００４４】
なお、詳細な説明は省略するが、たとえば、マイクロホン２２、３０、３８としては、ヘッドセットのマイクロホンを用いることができる。
【００４５】
また、詳細な説明は省略するが、各コンピュータ１８、２６、３４は、他のコンピュータ１８、２６、３４からの音声データを個別の音声フィルタを用いて畳み込む。たとえば、各コンピュータ１８、２６、３４は、使用する通信ポートやＩＰアドレスによって、他のコンピュータ１８、２６、３４を識別することが可能である。
【００４６】
ここで、ＢｏＳＣの原理およびＢｏＳＣを用いた音場再現システムについて簡単に説明する。境界音場制御では、キルヒホッフ・ヘルムホルツ積分方程式（ＫＨＩＥ）に基づき、図４の左側に示す原音場内の領域Ｖ内の音場が、図４の右側に示す際現音場内の領域Ｖ´において再現される。ただし、領域Ｖを囲む境界Ｓ上の収録点ｒと、領域Ｖ’を囲む境界Ｓ’上の制御点ｒ’との相対的な位置は等しいものとする。つまり、数１が成立すると仮定する。ただし、点ｓおよび点ｓ’は各領域内部の任意の点である。
【００４７】
［数１］
｜ｒ−ｓ｜＝｜ｒ’−ｓ’｜，ｓ∈Ｖ，ｓ’∈Ｖ’
このとき、内部に音源を含まない領域内の音圧ｐ（ｓ），ｐ（ｓ’）はＫＨＩＥより、数２および数３のそれぞれで示される。
【００４８】
【数２】

【００４９】
【数３】

【００５０】
ただし、ωは角周波数であり、ρ_０は媒質の密度であり、ｐ（ｒ），ｖ_ｎ（ｒ）はそれぞれ境界上の点ｒにおける音圧と法線ｎの方向の粒子速度であり、Ｇ（ｒ｜ｓ）は自由空間グリーン関数である。
【００５１】
ここで、数１より、数４に示す関係が成立する。さらに、数４に従って、数５が成立する。
【００５２】
【数４】

【００５３】
【数５】

【００５４】
この数５から、原音原で収音された境界面Ｓ上の音圧と粒子速度が再現音場において等しくなるように、２次音源から信号を出力すれば、領域Ｖ内の音場が領域Ｖ’において再現されることが分かる。
【００５５】
ただし、２次音源の出力は、すべての２次音源からすべての制御点までの伝達特性を打ち消す逆フィルタと収録点で観測された信号を畳み込むことにより決定される。したがって、図４に示すような、ＢｏＳＣ音場再現システムを実現するためには、安定であり、かつ頑健な逆フィルタ（ｐｉｎｖ（Ｈ））を設計することが重要になる。
【００５６】
なお、逆フィルタの設計方法は、文献（S.Enomoto et al., "Three-dimensional sound field reproduction and recording systems based on boundary surface control principle", Proc. of 14th ICAD, Presentation o 16, 2008 Jun.）に詳細に開示されているため、ここでは、簡単に説明することにする。
【００５７】
図４に示すような、２次音源数Ｍ、制御点数Ｎの多チャネル−多点制御逆システム（以下、単に「逆システム」という）を周波数領域で設計する方法について簡単に説明する。ただし、逆システムとは、Ｍ×Ｎ個の逆フィルタ群の総称である。
【００５８】
２次音源ｉから制御点ｊまでの伝達関数をＨｊｉ（ω）とし、入力信号をＸｊ（ω）とし、そして、観測信号をＰｊ（ω）とすると、これらの関係は、数６で表すことができる。ただし、ｉは２次音源番号（１、２、…、Ｍ）であり、ｊは制御点番号（１、２、…、Ｎ）であり、そして、Ｗ（ω）は逆システムである。
【００５９】
【数６】

【００６０】
このとき、Ｐ（ω）＝Ｘ（ω）とするためには、数７を満たす必要がある。ただし、＋は疑似逆行列を意味する。これによって、［Ｗ（ω）］は、［Ｈ（ω）］の逆システムとして定義される。
【００６１】
［数７］
[W(ω)] = [H(ω)]⁺
ここで、正則化法が逆問題を解決する合理的な方法であることは良く知られている。これは既に音再生システムに適用されている（TOKUNO et al., "Inverse Filter of Sound Reproduction Systems Using Regularization" EIEIC TRANS. FUNDAMENTALS, Vol.E80-A, NO.5 MAY 1997など）。正則化法を用いることにより、ランク（［Ｈ（ω）］）＝Ｎについての算出された逆行列［Ｗ＾（ω）］（表記の都合上、“＾”をＷの横に示してあるが、実際には数８に示すように、Ｗの上に記載される。以下、同じ。）は数８で与えられる。ただし、数８において、＃は共役転置を意味し、−１は逆行列を意味し、β（ω）は正則化パラメータであり、Ｉ_ＭはＭ×Ｍの単位行列である。以下、同様である。
【００６２】
【数８】

【００６３】
一方、数７の右辺に示される、ランク（［Ｈ（ω）］）＝Ｍについての逆行列［Ｈ（ω）］^＋は、数９として導かれる。
【００６４】
【数９】

【００６５】
数８および数９は、それぞれ、最小二乗解および最小ノルム解（ノルム最小型一般逆行列）として解釈される。ただし、ランク（［Ｈ（ω）］）＝Ｎ＝Ｍであり、［Ｈ（ω）］は特異行列（非正則行列）では無く、そして［Ｗ（ω）］＝［Ｈ（ω）］^−１で与えられる。また、時間領域逆フィルタ係数は、［Ｗ＾（ω）］の逆離散フーリエ変換から得られる。
【００６６】
なお、ＢｏＳＣ再生システムにおいては、スピーカアレイシステム（２０、２８、３６）のラウドスピーカ２３０の配置およびマイクロホンアレイ１４のマイクロホンの配置は、空間サンプリングに影響を及ぼす。
【００６７】
数８および数９においては、適切な正則化パラメータβ（ω）が選択されることにより、逆システムの不安定性を緩和する（取り除く）ことができる。この実施例では、正則化パラメータβ（ω）は、各オブターブの周波数帯域で定義される。さらに、逆フィルタは、予め防音室でそれぞれのラウドスピーカ２３０とマイクロホンアレイ１４の各マイクロホンとの組の間で測定されたインパルス応答を使用することによって、計算された。測定されたインパルス応答を使用したため、環境の変化によって引き起こされた変動には追従しなかった。ただし、変動する実際の環境においては、ＭＩＭＯ(Multiple-Input Multiple-Output)の適応型の逆フィルタをＢｏＳＣ再生システムに適用することができる。
【００６８】
ここで、図１−図３に示したマイクロホンアレイ１４およびスピーカアレイシステム２０、２８、３６をそのまま使用する場合には、サーバ１２における処理負荷がかなり大きい。具体的には、マイクロホンアレイ１４が７０ｃｈであり、スピーカアレイシステム２０、２８、３６が６２ｃｈであるため、サーバ１２は、マイクロホンアレイ１４の各マイクロホンの音場信号（音場データ）と、逆システムとの畳み込み処理を６２×７０回行う必要があり、また、各回の畳み込み処理は、逆システムのタップ数（この実施例では、２０４８ポイント×２タップ＝４０９６）分実行する必要がある。
【００６９】
また、伝送する音場データの量（データ量）が膨大であるため、各クライアント（コンピュータ１８、２６、３４）において、約４５Ｍｂｐｓの帯域を必要とする。
【００７０】
さらに、コンピュータ１８、２６、３４によって、ユーザの音声に対応する音声データと音声フィルタを畳み込み演算する場合にも、７０ｃｈをフルに使用する場合には、処理負荷が比較的大きくなってしまう。
【００７１】
したがって、サーバ１２からコンピュータ１８、２６、３４に音場データをリアルタイムに送信するのは困難であり、当然のことながら、スピーカアレイシステム２０、２８、３６を使用するユーザがリアルタイムにオーケストラ等を楽しむことも困難である。つまり、リアルタイムに音場を共有することができない。また、リアルタイムに会話することもできない。
【００７２】
これを回避するため、たとえば、マイクロホンアレイ１４で使用するマイクロホンの数やスピーカアレイシステム２０、２８、３６で使用するラウドスピーカ２３０の数を減らすことにより、畳み込み処理の処理負荷および伝送するデータ量を低減することが考えられる。しかし、使用するマイクロホンおよびラウドスピーカ２３０の数を単に減らせば良いということでは無く、再現される音場の臨場感を損なわない必要がある。
【００７３】
そこで、この実施例では、臨場感を損なうことなく、使用するマイクロホンおよびラウドスピーカ２３０を低減するようにしてある。
【００７４】
この実施例では、まず、グラムシュミットの直交化法を用いて、７０ｃｈのマイクロホンアレイ１４を用いた場合に、スピーカアレイシステム２２で使用するラウドスピーカ２３０が抽出（選出）される。そして、選出されたラウドスピーカ２３０を用いる場合に、グラムシュミットの直交化法を用いて、マイクロホンアレイ１４で使用するマイクロホンが抽出（選出）される。
【００７５】
詳細な説明は省略するが、使用するラウドスピーカ２３０およびマイクロホンの抽出（選出）は、サーバ１２、コンピュータ１８、２６、３４または図示しない別のコンピュータを用いて実行することができる。
【００７６】
ここでは、単一の周波数について、グラムシュミットの直交化法を使用することでラウドスピーカ２３０を選択する場合の基本的なアルゴリズムを説明する。Ｎ×Ｍに含まれるＮ次元の縦ベクトルからの線形独立性が低ければ、行列式は悪い状態であると言われる。［Ｈ（ω）］において線形独立性の劣化は、ＢｏＳＣ再生システム１０ａ、１０ｂ、１０ｃの不安定性を引き起こす。ここで、数６に示した［Ｈ（ω）］は、数１０のように書くことができる。
【００７７】
［数１０］
P(ω) = [H(ω)]Y(ω)
= {h₁(ω),…,h_M(ω)}Y(ω)
ただし、Ｙ（ω）＝［Ｗ（ω）］Ｘ（ω）およびｈ_ｉ（ω）は、［Ｈ（ω）］に含まれるＮ次元の縦ベクトルである。この縦ベクトルｈ（ω）は、周波数ωにおける、或るラウドスピーカ２３０とマイクロホンアレイ１４の各々のマイクロホンとの間の伝達関数である。それゆえに、グラムシュミットの直交化法を用いたラウドスピーカ２３０の選択は、［Ｈ（ω）］から高い線形独立を有する縦ベクトルｈ（ω）の組を選択することを意味する。以下、グラムシュミットの直交化法のアルゴリズムについて簡単に説明することにする。
【００７８】
ラウドスピーカ２３０を選択するｎ番目のステップにおいては、既にｎ−１個のラウドスピーカ２３０が選択されている。［Ｈ］に含まれる縦ベクトルの集合は、τ＝｛ｈ_１，…，ｈ_Ｍ｝で示される。Ｓ_ｎ−１は、ｎ−１番目のステップまでに選択されたベクトルの部分集合を示し、τ_ｎ−１は、ｎ−１番目のステップまでに未使用のベクトルの部分集合を示す。ｖ_ｎ−１＝｛ｖ_１，…，ｖ_ｎ−１｝は、部分集合Ｓ_ｎ−１によって張られる平面の正規直交基底を示す。
【００７９】
たとえば、最初のステップでは、すべてのラウドスピーカ２３０のうちの１つのラウドスピーカ２３０が基準ラウドスピーカ２３０として選択され、基準ラウドスピーカ２３０以外のすべてのラウドスピーカ２３０が評価対象のラウドスピーカ２３０（評価対象ラウドスピーカ２３０）として選択される。後述するように、グラムシュミットの直交化法により、基準ラウドスピーカ２３０との関係において、複数の評価対象ラウドスピーカ２３０から１の評価対象ラウドスピーカ２３０が選択される。次のステップでは、同じくグラムシュミットの直交化法により、最初に選択された基準ラウドスピーカ２３０および先のステップで選択された評価対象ラウドスピーカ２３０との関係において、残りの複数の評価対象ラウドスピーカ２３０から１の評価対象ラウドスピーカ２３０が選択される。つまり、このステップでは、先のステップで選択された評価対象ラウドスピーカ２３０は、基準ラウドスピーカ２３０と言える。これが繰り返されるのである。
【００８０】
ただし、低域を補う８個のラウドスピーカ２３０は、基準ラウドスピーカ２３０や評価対象ラウドスピーカ２３０の対象外である。
【００８１】
図５は、部分集合Ｓ_ｎ−１によって張られた平面の一例である。ｎ番目のステップでは、部分集合Ｓ_ｎ−１によって張られた平面に対するｈ_ｎ＾（数１１に示すように、実際には“＾”はｈの上に表記される。以下、同じ。）の垂直成分が最大となるように、ｈ_ｎ＾が選択される。部分集合τ_ｎ−１に含まれる任意のベクトルｈ_ｉの垂直成分ｒ_ｉは数１１で表される。
【００８２】
［数１１］
r_i = z_i- p
ただし、ｐは部分集合Ｓ_ｎ−１によって張られた平面上の投影（射影）を示す。ｎ番目のラウドスピーカ２３０は、たとえば数１２で示される、垂直成分ｒ_ｉのノルムが最大となるように決定される。
【００８３】
【数１２】

【００８４】
ただし、評価指標の値であるＪ（ｈ_ｉ）は数１３で定義される。
【００８５】
［数１３］
J(h_i) = ||r_i||
ｈ_ｉ＾の垂直成分がｒ_ｎ＾（実際には“＾”の記号はｒの上に表記される。以下、同じ。）として示される場合には、ｎ番目の正規直交ベクトルｖ_ｎは数１４に従って決定される。
【００８６】
【数１４】

【００８７】
ｎ番目のステップで最大化された評価指標の値Ｊ_ｎ＾（実際には“＾”の記号はＪの上に表記される。以下、同じ。）は数１５で示される。
【００８８】
【数１５】

【００８９】
このような数１１−数１５に従う処理は、評価指標の値Ｊ_ｎ＾が予め設定された閾値Ｊ_ｔｈｒ＾よりも小さくなるまで繰り返される。ただし、周波数帯域［ω_ｌ，ω_ｈ］について、２つの評価指標の値が数１６に従って求められる。
【００９０】
【数１６】

【００９１】
ただし、ｈ_ｉ￣＝｛ｈ_ｉ（ω_ｌ），…，ｈ_ｉ（ω_ｈ）｝であり（実際には、数１６に示すように、“￣”はｈの上に表記される。）、Ｋは離散周波数ω_ｋの数であり、ａ_ｋは離散周波数ω_ｋに対する任意の重み係数を示す。垂直成分ｒ_ｉ（ω_ｋ）と正規直交ベクトルｖ_ｉ（ω_ｋ）は、単一の周波数の場合と同様に、離散周波数毎に分離して求められる。最適化処理では、評価指標の値Ｊ_ａｖｇは最大化される。一方、評価指標の値Ｊ_ｍｉｎは最適化処理の終了判定に用いられる。つまり、Ｊ_ｍｉｎ＾＜Ｊ_ｔｈｒ＾となったときにラウドスピーカ２３０の選択を終了する。
【００９２】
ただし、最適化処理については、文献（Asano, Suzuki, and Swanson " Optimization of control source configuration in active control systems using Gram-Schmidt orthogonalization", Speech and Audio Processing, IEEE Transactions on, Mar. 1999）に開示されている。
【００９３】
この文献においては、評価指標の値が閾値以上（Ｊ_ｍｉｎ＾≧Ｊ_ｔｈｒ＾）である場合には、ラウドスピーカ２３０の選択は継続される。しかし、適切な閾値を決定する方法は確認されていない。したがって、この実施例では、音場共有システム１０において、リアルタイムに音場を共有することができるスピーカアレイシステム（２０、２８、３６）のラウドスピーカ２３０の最大数とマイクロホンアレイ１４のマイクロホンの最大数とを検証した。そして、グラムシュミットの直交化法を使用することで、最大数までのラウドスピーカ２３０の番号（配置位置）を決定した。
【００９４】
ここで、上述したように、グラムシュミットの直交化法では、スピーカ位置は、それ以前に選択されたスピーカ位置に基づいて決定されるため、その選択結果は、１番目に選択されるスピーカ位置に強い影響を及ぼされる。
【００９５】
たとえば、使用するラウドスピーカ２３０の個数を、半数程度（３２個）、３分の１程度（２４個）、４分の１程度（１６個）に削減する場合について検討した。図６は、２４個のラウドスピーカ２３０が選択された（２４ステップの選択処理を実行した）場合の評価指標の値Ｊ_ａｖｇ，Ｊ_ｍｉｎの変化である。図６において、横軸は最初に選択されたラウドスピーカ２３０（基準ラウドスピーカ２３０）のスピーカ位置（図１０参照）を示し、縦軸は評価値（ｄＢ）を示す。ただし、２本の実線のうち、細い実線が評価指標の値Ｊ_ａｖｇを示し、細い実線が評価指標の値Ｊ_ｍｉｎの変化を示す。
【００９６】
詳細な説明は省略するが、たとえば、最初に選択される基準ラウドスピーカ２３０は「１」番（図７参照）から順次変化（２、３、…、６２）され、それぞれの場合について、選択された２４個のスピーカ位置（ラウドスピーカ２３０の番号）の組が選択されるとともに、各組について評価指標の値Ｊ_ａｖｇ，Ｊ_ｍｉｎが算出される。ただし、選択された２４個のスピーカ位置（ラウドスピーカ２３０の番号）の組と、各組について算出された評価指標の値Ｊ_ａｖｇ，Ｊ_ｍｉｎは、上述したコンピュータのメモリ（図示は省略するが、ハードディスクやＲＡＭ）に記憶される。そして、後述するように、複数の組のうち、評価指標の値Ｊ_ａｖｇ，Ｊ_ｍｉｎが所定の条件を満たす一組が選択される。したがって、選択された一組の２４個のラウドスピーカ２３０を用いて音場が再現されるのである。
【００９７】
また、自由空間グリーン関数は、スピーカアレイシステム（２０、２８、３６）の各ラウドスピーカ２３０とマイクロホンアレイ１４のマイクロホンとの間の伝達関数を得るのに使用された。後述する刺激のための上限周波数は、ここでは制限されなかった。しかし、ラウドスピーカ２３０の構成（設定）は、２０Hzから１kHzまでの範囲を、２０Hz毎の周波数で決定された。図示は省略するが、上限周波数が制限されない場合には、上側の層（架台２２０ａ、架台２２０ｂ）に配置されたラウドスピーカ２３０が、多く選択された。ラウドスピーカ２３０が全く無い方向から来る波面を統合するのは立体音の再生系においては困難である。したがって、ラウドスピーカ２３０は、マイクロホンアレイ１４に囲まれるあらゆる可能な方向に位置されるべきである。
【００９８】
上述したように、図６には、ラウドスピーカ２３０について、２４ステップ（回）の選択処理を実行した場合の評価指標の値Ｊ_ａｖｇ，Ｊ_ｍｉｎを折れ線で示したグラフである。この図６からも分かるように、スピーカ位置が「６０」（図７参照）であるラウドスピーカ２３０を最初に選択し、全部で２４個のラウドスピーカ２３０を選択した場合の評価指標の値Ｊ_ａｖｇ，Ｊ_ｍｉｎが最大である。
【００９９】
この実施例では、複数の組（この実施例では、６２個の組）のうち、評価指標の値Ｊ_ａｖｇ，Ｊ_ｍｉｎが所定の条件を満たす一組の２４個のラウドスピーカ２３０が選択される。具体的には、評価指標の値Ｊ_ａｖｇが最大である組が選択される。ただし、評価指標の値Ｊ_ａｖｇが最大である組についての評価指標の値Ｊ_ｍｉｎが極端に低い場合には、線形独立性の低い周波数が存在するため、評価指標の値Ｊ_ａｖｇが最大であっても、選択するのは適切ではない。正しく音場を再現できないと考えられるからである。かかる場合には、次に評価指標の値Ｊ_ａｖｇが大きい組が選択される。ただし、次に評価指標の値Ｊ_ａｖｇが大きい組についての評価指標の値Ｊ_ｍｉｎが極端に低い場合には、その次に評価指標の値Ｊ_ａｖｇが大きい組が選択される。それ以降も同様である。たとえば、評価指標の値Ｊ_ｍｉｎが極端に低いかどうかについては、予め設定された閾値によってコンピュータは判断する。この閾値は、音場共有システム１０の開発者ないし使用者が設定する値である。ただし、図示は省略するが、選択するラウドスピーカ２３０の個数が増えるに従って、評価指標の値Ｊ_ａｖｇ，Ｊ_ｍｉｎは次第に低下するため、選択するラウドスピーカ２３０の個数に応じて、閾値も可変的に設定する必要がある。
【０１００】
予備試験の結果では、サーバ１２およびコンピュータ１８、２６、３４の性能およびネットワーク１６を含む通信速度の制約から、［Ｗ（ω）］における要素の数がＭ×Ｎ＝１９２以内で、スピーカアレイシステム（２０、２８、３６）のラウドスピーカ２３０の数（Ｍ）およびマイクロホンアレイ１４のマイクロホンの数（Ｎ）が決定されるべきであることが示された。したがって、上述したように、ラウドスピーカ２３０の数（Ｍ）を「２４」に決定したため、選択されるマイクロホンの数（Ｎ）は最大で「８」である。
【０１０１】
ただし、この実施例では、サーバ１２およびコンピュータ１８、２６、３４のＣＰＵ（図示せず）はＸｅｏｎ（登録商標）ＱｕａｄＣｏｒｅ×２であり、メモリ（図示せず）は４ＧＢである。また、サーバ１２には、オペレーティングシステムとして、Ｗｉｎｄｏｗｓ（登録商標）ＸＰ６４ｂｉｔが採用された。また、サーバ１２とコンピュータ１８、２６、３４とを結ぶネットワーク１６としては、超高速・高機能研究開発テストベッドネットワーク（ＪＧＮ２ｐｌｕｓ：１Ｇｂｐｓ）およびＬＡＮ（１００Ｍｂｐｓ）が用いられた。
【０１０２】
なお、図示は省略するが、予備実験においては、サーバ１２とコンピュータ１８とは、上述のＬＡＮを用いて接続され、サーバ１２とコンピュータ２６、３４とは、上述のＪＧＮ２ｐｌｕｓおよびＬＡＮを用いて接続される。
【０１０３】
図７（Ａ）および（Ｂ）には、上述したように、スピーカ位置が「６０」のラウドスピーカ２３０が最初に選択し、全部で２４個のラウドスピーカ２３０を選択した場合の２４個のラウドスピーカ２３０の位置の分布が示される。図７（Ａ）は、ラウドスピーカ２３０の配置を真上から見た場合の模式図であり、図７（Ｂ）は、ラウドスピーカ２３０の配置を真横から見た場合の模式図である。つまり、図７（Ａ）は、ラウドスピーカ２３０の水平方向の分布を示し、図７（Ｂ）は、ラウドスピーカ２３０の垂直方向の分布を示す。
【０１０４】
図７（Ｂ）からも分かるように、図７（Ａ）に示す分布においては、スピーカ位置が中央に向かうに従って高さ方向（Ｚ方向）の値は大きくなる。つまり、架台２２０ａに設けられたラウドスピーカ２３０のスピーカ位置は、「１」−「６」である。また、架台２２０ｂに設けられたラウドスピーカ２３０のスピーカ位置は、「７」−「２２」である。さらに、架台２２０ｃに設けられたラウドスピーカ２３０のスピーカ位置は、「２３」−「４６」である。そして、架台２２０ｄに設けられたラウドスピーカ２３０のスピーカ位置は、「４７」−「６２」である。
【０１０５】
なお、低域を補うために、４本の柱部２２２に設けられた８個のラウドスピーカ２３０は選択の対象では無いため、図７（Ａ）および（Ｂ）には示されていない。
【０１０６】
また、図７（Ａ）および(Ｂ）では、Ｙ軸のマイナス方向がユーザの顔が向く前方であり、Ｙ軸のプラス方向がユーザの後頭部の向く後方である。さらに、図７（Ａ）に示すように、Ｘ軸のマイナス方向がユーザの右方であり、Ｘ軸のプラス方向がユーザの左方である。そして、図７（Ｂ）に示すように、Ｚ軸のマイナス方向がユーザの耳の位置からの下方であり、Ｚ軸のプラス方向がユーザの耳の位置からの上方である。
【０１０７】
図７（Ａ）においては、最初に選択されたラウドスピーカ２３０のスピーカ位置を示す丸印（「６０」が記載された丸印）に網掛模様が付される。また、これに続いて、グラムシュミットの直交化法に基づく繰り返しの結果として選ばれたラウドスピーカ２３０のスピーカ位置を示す丸印（ここでは、「１」−「６」、「７」、「９」、「１１」、「１３」、「１５」、「１７」、「１９」、「２１」、「２３」、「３１」、「３５」、「４８」、「５１」、「５４」、「５６」、「５８」、「６２」が記載された丸印）に斜線模様が付されている。さらに、模様が付されていない丸印は、選択されなかったラウドスピーカ２３０のスピーカ位置を示す。
【０１０８】
また、図７（Ｂ）においては、配置されるラウドスピーカ２３０のＺ方向の位置に応じて、異なる図形（円、三角形、四角形、菱形）を示してある。また、図７（Ｂ）では、最初に選択されたラウドスピーカ２３０のスピーカ位置は、黒色を付した図形の位置で示される。そして、図７（Ｂ）では、２番目以降に選択されたラウドスピーカ２３０のスピーカ位置は、灰色を付した図形の位置で示される。
【０１０９】
図７（Ａ）および（Ｂ）からは、各方向と高さに分布されたラウドスピーカ２３０が規則的に観測される。図７（Ａ）に示すように、ラウドスピーカ２３０の分布を真上から平面的に見た場合には、縦方向および横方向のそれぞれにおいて、選択されたラウドスピーカ２３０が略対称に分布していることが分かる。このことは、図７（Ｂ）に示すように、ラウドスピーカ２３０の分布を真横から平面的に見た場合も同様である。
【０１１０】
また、スピーカアレイシステム（２０、２８、３６）のラウドスピーカ２３０とマイクロホンアレイ１４のマイクロホンとの構成を入れ替えることによって、上述したグラムシュミットの直交化法を適用することにより、マイクロホンを選択した。ただし、グラムシュミットの直交化法を用いた選択方法については既に説明したため、重複した説明は省略することにする。
【０１１１】
図８は、図７（Ａ）および（Ｂ）に示した２４個のラウドスピーカ２３０の配列に対して、選択された８個のマイクロホンの配列を示す。図示は省略するが、マイクロホンの位置は、ラウドスピーカ２３０のスピーカ位置と同様に、番号が割り当てられている。図８では少し分かり難いが、ＸＹ平面を真上から平面的に見た場合には、選択されたマイクロホンはすべての方向に均等に分布している。
【０１１２】
このように、グラムシュミットの直交化法を使用することによって、マイクロホンおよびラウドスピーカ２３０の数を低減するようにしたが、この低減による影響を評価するために、水平面の音源定位テストが行われた。この音源定位テストの方法および評価結果については、発明者等によって２０１０年８月に公開された「Optimization of loudspeaker and microphone configurations for sound reproduction system based on boundary surface control principle - An optimizing approach using Gram-Schmidt orthogonalization and its evaluation -」に開示されているため、その説明は省略することにする。上述したように、この音源定位テストの結果、ラウドスピーカ２３０の個数が２４個に決定され、サーバ１２等の性能および通信速度の制約によって、マイクロホンの個数が８個に決定される。
【０１１３】
詳細な説明は省略するが、選択されたマイクロホンで検出された音場信号がマイクロホンアレイ１４からサーバ１２に与えられる。このとき、選択されていないマイクロホンは不能化される。つまり、サーバ１２は、選択されていないマイクロホンからの音場信号を検出しない。一方、コンピュータ１８、２６、３４は、選択されたラウドスピーカ２３０のみに、音場データや音声データを出力する。
【０１１４】
上述したように、この実施例では、各スピーカアレイシステム２０、２８、３６では、他のユーザが発生した音声に対応する音声データは音場データとともに出力（再現）される。したがって、話者の顔の向きを何ら考慮せずに、コンピュータ１８、２６、３４で、他のコンピュータ１８、２６、３４から受信した音声データと音声フィルタを畳み込んだだけでは、誰が誰に向かって話し掛けているのかを認識するのが困難である。たとえば、話者が自分の名前と聴者（相手）の名前とを毎回発話することも考えられるが、自然な会話とは言えない。
【０１１５】
したがって、この実施例では、話者の顔の向き（発話の方向）を考慮した音声フィルタを用いるようにしてある。簡単に言うと、音響信号（この実施例では、音声信号）の伝達特性を考慮した音声フィルタが用いられる。
【０１１６】
図３では省略したが、図１に示したように、ＢｏＳＣ再生システム１０ａ、１０ｂ、１０ｃは、それぞれ、カメラ２４、３２、４０を有している。図９に示すように、カメラ２４は、スピーカアレイシステム２０を使用するユーザが正面を向いた状態で、そのレンズ（撮影方向）が対向するように、当該スピーカアレイシステム２０の架台２２０ｄに取り付けられる。
【０１１７】
なお、図９では、上述のように選択した２４個のラウドスピーカ２３０がユーザの周囲を均等に囲むように模式的に示してある。
【０１１８】
また、カメラ２４と同様に、カメラ３２、４０は、それぞれ、スピーカアレイシステム２８、３６の架台２２０ｄに取り付けられる。
【０１１９】
さらに、上述したように、ユーザは、ヘッドセットのマイクロホン２２、３０、３８を装着してある。これは、ラウドスピーカ２３０から出力される音がマイクロホン２２、３０、３８で検出されるのを出来る限り防止して、ユーザが発生する音声のみを検出するようにするためである。
【０１２０】
コンピュータ１８、２６、３４は、各々に接続されたカメラ２４、３２、４０で撮影された映像（顔画像）を解析することにより、ユーザの顔の向き、すなわち正面方向に対する顔の角度を求める。顔画像から顔の向き等を求める方法は、既に周知であるため、その説明は省略するが、たとえば、特開平１０−２７４５１６号に開示の技術を用いることができる。
【０１２１】
ただし、他のコンピュータ１８、２６、３４に送信される角度データは、他のユーザ（聴者）の位置を基準とした場合の自身のユーザ（話者）の顔の向きについての角度である。したがって、顔画像から顔の向きを求めた後に、他のユーザの位置（方向）を基準（０°）とした場合の角度に変換される。
【０１２２】
このように検出された角度を、再現する音声に反映させるために、音声の伝達特性が検出され、上述したように、この伝達特性を考慮した音声フィルタが用いられる。この実施例では、音声の伝達特性を検出するのであるが、簡単のため、音再現システム１０を利用する三者が、或る空間において、各辺が所定長さ（２ｍ）を有する正三角形の頂点の位置に存在すると仮定してある。
【０１２３】
つまり、図１０に示すように、ユーザＡ、Ｂ、Ｃは、辺の長さが２ｍの正三角形の頂点の位置に存在し、各ユーザＡ、Ｂ、Ｃの正面方向は、頂点から当該頂点に対向する辺に垂下する方向に設定される。したがって、この仮想の位置関係においては、ユーザＡがユーザＢに話し掛ける場合には、ユーザＡは正面方向から右に３０°の方向を向いて発話する。また、ユーザＡがユーザＣに話し掛ける場合には、ユーザＡは正面方向から左に３０°の方向を向いて発話する。説明は省略するが、ユーザＢおよびユーザＣについても同様である。
【０１２４】
この仮想の位置関係を再現するべく、或る場所において、音声の伝達特性を検出した。図１１は、音声の伝達特性を検出した環境を真上から見た図である。図１１に示す或る場所は、小会議室であり、横が１０ｍで縦が３．９ｍの長方形状を有している。ただし、図１１からも分かるように、小会議室は、長方形の左上部において、内側に少し凹んでいる。
【０１２５】
また、小会議室には、音声の伝達特性を検出するためのラウドスピーカ５０およびマイクロホンアレイ５２が配置される。ラウドスピーカ５０としては、たとえば、人間が発生する音声に近似する音を再現可能なスピーカ（ＹＡＭＡＨＡＭＳＰ−３）が用いられる。また、マイクロホンアレイ５２としては、上述したマイクロホンアレイ１４と同じものが用いられる。ただし、音再現システム１０に用いられる場合と音声の伝達特性の検出に用いられる場合とを区別するために、異なる参照符号を付してある。
【０１２６】
図１１からも分かるように、マイクロホンアレイ５２は、小会議室の下側の壁際の中央に配置される。ラウドスピーカ５０は、マイクロホンアレイ５２の正面方向を真上方向とした場合に、左に３０°回転した方向であり、ラウドスピーカ５０の正面がマイクロホンアレイ５２に向いたときに、その正面とマイクロホンアレイ５２の中心との距離が２ｍになる位置に配置される。そして、ラウドスピーカ５０は、その位置で１５°刻みで、一周（３６０°）回転される。１５°毎に、ラウドスピーカ５０から刺激としてスイープ音を出力し、そのときマイクロホンアレイ５２の各マイクロホンｍ（ｍ＝１，２，…，Ｍ）で検出されるインパルス応答を伝達特性Ｈ_ａｎｇ[ｍ]として検出する。ただし、この実施例では、上述したように、Ｍ＝７０である。また、ａｎｇは、音源の指向性を模擬する角度であり、上述した使用者Ａ、Ｂ、Ｃの正面方向に対する角度である。ただし、この実施例では、ラウドスピーカ５０は、左回り（反時計回り）に１５°刻みで回転される。さらに、スイープ音には、ＴｉｍｅＳｔｒｅｔｃｈｅｄＰｕｌｓｅ法を用いて作成した２４ｋＨｚまでの信号を用いた。また、この小会議室の残響時間は、約０．６秒である。
【０１２７】
なお、１５°刻みでラウドスピーカ５０を回転させるのは、人間の聴覚によって識別可能な角度が２０°程度だからである。
【０１２８】
つまり、図１１に示す場合には、ラウドスピーカ５０が話者であり、マイクロホンアレイ５２の内部の中心に聴者の頭部（耳の高さ）が来るように当該聴者が存在するものとして、伝達特性が測定されるのである。したがって、図１０に示したような仮想の位置関係において、すべての場合について、伝達特性Ｈ_ａｎｇ［ｍ］を検出するためには、ラウドスピーカ５０とマイクロホンアレイ５２の配置位置を逆にしたり、ラウドスピーカ５０を点線で示す位置（マイクロホンアレイ５２の正面方向から右に３０°回転した位置）に移動させたり、点線で示すラウドスピーカ５０とマイクロホンアレイ５２との配置位置を逆にしたりして、伝達特性Ｈ_ａｎｇ［ｍ］を測定する必要がある。ただし、この実施例では、簡単のため、図１１に実線で示したラウドスピーカ５０とマイクロホンアレイ５２との配置位置でのみ、伝達特性Ｈ_ａｎｇ［ｍ］を測定し、これを各コンピュータ１８、２６、３４で使用するようにしてある。
【０１２９】
ここで、図１２には、マイクロホンアレイ５２の或るマイクロホンで検出されたインパルス応答（後述する「減衰されたインパルス応答」と区別するために、ここでは「元のインパルス応答」という）の波形が点線で示される。この元のインパルス応答では、初期反射音と後期反射音とを含んでいる。上述したように、図１１で示したような小会議室では、残響時間があるため、減衰するのに時間がかかってしまい、これを正しく再現するためには、逆フィルタの長さが２０４８ポイントを超えてしまう。これでは、リアルタイムでの処理を実現できなくなってしまう。したがって、この実施例では、ハニング窓を用いることにより、逆フィルタの長さが２０４８ポイントを超えないようにしてある。ハニング窓を用いることによって減衰されたインパルス応答は、図１２において、実線で示される。ただし、ハニング窓は、各マイクロホンで記録されるインパルス応答の直接音をその中央に有している。また、図１２から分かるように、この減衰されたインパルス応答は、初期反射音を十分含んでいて、後期反射音を何ら含んでいない。しかし、減衰されたインパルス応答に基づく伝達特性Ｈ_ａｎｇ［ｍ］を用いた場合であっても、図１１で示した小会議室でユーザが会話しているように、話者と聴者との位置関係をほぼ正確に再現することができる。
【０１３０】
図示は省略するが、各コンピュータ１８、２６、３４では、メモリ（ハードディスクやＲＡＭ）に伝達特性Ｈ_ａｎｇ［ｍ］に対応するデータ（伝達特性データ）が記憶される。したがって、コンピュータ１８、２６、３４は、他のコンピュータ１８、２６、３４から送信される角度データが示す角度ａｎｇに応じた伝達特性データを読み出し、読み出した伝達特性データに対応する伝達特性Ｈ_ａｎｇ［ｍ］を考慮した音声フィルタを用いて音声信号を再現する。したがって、指向性を有する音声が再現される。
【０１３１】
ここで、具体的に説明する。単一のマイクロホン２２（３０、３８）で収録された音響信号（この実施例では、ユーザが発生した音声に対応する音声信号）をＳとする。また、ＢｏＳＣ再生システム内の２次音源スピーカｓ（ｓ＝１，２，…，Ｎ）と制御点ｉ（ｉ＝１，２，…，Ｍ）に対する逆フィルタをＧ_ｉｎｖ［ｓ，ｉ］とする。ただし、制御点ｉの配置は、マイクロホンアレイ５２と合同であり、ｍ＝ｉが成り立つ。また、２次音源スピーカｓは、ラウドスピーカ２３０であり、この実施例では、Ｎ＝２４である。
【０１３２】
図１３（Ａ）のように、話者から見た聴者の位置する方向をθとし、話者が向いている方向をαとすると、聴者に対する話者の向き（角度）はα−θで表される。ここで、図１３（Ａ）に示す話者と聴者とを上述したラウドスピーカ５０とマイクロホンアレイ５２とで表すと、図１３（Ｂ）のように示される。したがって、角度ａｎｇ＝α−θの伝達特性Ｈ_ａｎｇ［ｍ］を用いて、発話方向を含む音声を再現すると、ＢｏＳＣ再生システム内の２次音源ｓからの出力信号Ｒ（ｓ）は、数１７で示される。ただし、Ｖ[ｓ]は、伝達特性Ｈ_ａｎｇ［ｍ］を考慮した音声フィルタである。
【０１３３】
【数１７】

【０１３４】
つまり、コンピュータ１８、２６、３４は、ＲＡＭやハードディスクのような内部メモリに、角度に応じた音声フィルタＶ［ｓ］または伝達特性Ｈ_ａｎｇ［ｍ］に対応するデータ（音声フィルタデータまたは伝達特性データ）を記憶しておき、他のコンピュータ１８，２６、３４から受信した角度データが示す角度に応じた角度に応じた音声フィルタＶ［ｓ］を用いて、受信した音声データを畳み込むのである。ただし、上述したように、１５°刻みで伝達特性Ｈ_ａｎｇ［ｍ］は測定されるため、音声フィルタＶ［ｓ］の１５°刻みである。したがって、角度データが示す角度に応じた音声フィルタＶ［ｓ］を選択する場合には、０°、１５°、…、３３０°、３４５°のうち、角度データが示す角度が最も近い角度に応じた音声フィルタＶ［ｓ］が選択される。ただし、７．５°、２２．５°などのように、角度データが示す角度が、隣接する２つの角度の中間値である場合には、この２つの角度のうちから所定のルールに従って選択した一つの角度に応じた音声フィルタＶ［ｓ］が選択される。たとえば、所定のルールとしては、前回の角度に近い方を選択したり、角度の小さい（または大きい）方を選択したり、ランダムに選択したりすることが考えられる。いずれのルールを採用したとしても、上述したように、人間の聴覚で識別可能な範囲内であるため、不都合が生じることはない。
【０１３５】
このように、この実施例では、図１１に示したような小会議室で測定したインパルス応答に基づいて伝達特性Ｈ_ａｎｇ［ｍ］を有する音声フィルタＶ［ｓ］を生成するため、スピーカアレイ２０、２８、３６を使用するユーザは、この小会議室で、辺の長さが２ｍの正三角形の頂点の位置で会話しているような臨場感を得ることができる。
【０１３６】
したがって、他の場所でインパルス応答の検出を行えば、当該他の場所で会話しているような臨場感を得ることができる。たとえば、マイクロホンアレイ１４が配置されるオーケストラの会場の客席でインパルス応答を検出して音声フィルタを生成しておければ、当該オーケストラの会場で生のオーケストラを聴きながら、会話をしている臨場感を得ることができる。
【０１３７】
ここで、話者の顔の角度と音声再現の主観評価を行うために、以下のような実験を行った。実験では、ラウドスピーカ５０から出力する刺激（刺激音）として、一般的な挨拶（ここでは、「こんにちは」）を言う３０代の男性の音声が用いられた。実験における被験者は、２０代または３０代の１０人の日本人である。ただし、５人は女性であり、５人は男性である。
【０１３８】
また、この実験においては、使用する角度は、後述する２つの環境、すなわち実際の環境（以下、「実環境」とう）および音場再現システム（スピーカアレイシステム２０（２８、３６でも可）で再現する環境（以下、「再現環境」という）の両方において、反時計回りに０°から９０°までであり、１５°刻みで変化される。ただし、０°の位置は、ラウドスピーカ５０の正面（話者の顔）がマイクロホンアレイ５２（聴者すなわち被験者）に対向している位置に合わせられる。この角度範囲を使用することによって、想定された三者間の関係（仮想の位置関係）において、話者が話し掛けている聴者を音響的に知覚できるかどうかを判断することができる。
【０１３９】
上述したように、この実施例では、２つの環境で主観評価を行った。１つ目は、実環境で回転しているラウドスピーカ５０を用いて音声を再現した場合についての主観評価である。２つ目は、再現環境で上記の音声フィルタＶ[ｓ]を使用して上記の角度範囲内で角度を変化させて音声を再現した場合についての主観評価である。
【０１４０】
まず、１つ目の主観評価についての実験では、インパルス応答が測定された場合と、同じ場所および同じ条件で行われ、ラウドスピーカ５０は実環境において無作為に回転させた。また、上述したように、音声フィルタ向けのインパルス応答を測定するのに使用されたラウドスピーカ５０が、実環境における音声の再現にも使用された。そして、被験者には、インパルス応答を測定した際に、マイクロホンアレイ５２が置かれた位置で評価を行ってもらった。また、実験中に、被験者が頭部を回転することを許可した。ただし、被験者は、マイクロホンアレイ５２の球状の骨格（図２の１４ａ）の中心の高さに自身の耳の位置が来るように、椅子に座るなどして高さを調整した。さらに、実験では、ラウドスピーカ５０が被験者に見えるのを防ぐために、その前（被験者とラウドスピーカ５０の間）に、カーテンを設けた。
【０１４１】
なお、音圧レベル計から得られた結果では、音場へのカーテン設けたことの影響がわずかであることが示された。また、ラウドスピーカ５０のパワー出力は、被験者以外の者が調整したので、音量は顔の角度や上記の２つの環境（実環境および再現環境）でよって影響を受けていない。
【０１４２】
２つ目の主観評価についての実験では、コンピュータ１８（２６、３４でも可）およびスピーカアレイシステム２０（２８、３６でも可）を用いて、上述したように、０から９０°までを１５°刻みで変化させるように、上述の音声フィルタＶ[ｓ]を用いて刺激音を出力した。
【０１４３】
音声の方向が質問される前に、ラウドスピーカ５０の位置が被験者に知らされた。また、実験では、ラウドスピーカ５０を、反時計回りに０°から９０°まで、１５°刻みで回転させ、そして、逆向きに（時計回りに）、９０°から０°まで、１５°刻みで回転させることによって音声の方向を変化させ、被験者に音声を聴かせた。質問に従って、被験者は、最初に０°の位置で音声を聞かされた後に、２度同じ角度の位置で音声を聞かされる。つまり、音声の方向は、０°から９０°までの間で、１５°刻みで変化するため、７つの方向から１つの方向（角度）を選択しなければならない。７つの音声の方向は、各被験者に無作為の順に、試験された。被験者は、実環境と再現環境との両方で、全部で１４個の質問に回答した。
【０１４４】
各環境において、次のように、角度誤りを定義することができる。実環境においては、ラウドスピーカ５０が向いている角度と回答された角度の絶対誤差が定義される。また、再現環境においては、再生される音声の方向（角度）と回答された角度の絶対誤差が定義される。図１４は、各環境において、全被験者についての平均角度誤差の箱ひげ図を示す。図１４に示すように、実環境および再現環境におけるそれぞれの平均角度誤差は、１３．７°と２０．８°である。図１０に示した三者間の仮想の位置関係（正三角形の頂点の位置に各ユーザを配置）を考慮して、再現環境における平均角度誤差は、誰が誰に話し掛けているかを知覚可能な程度に小さいと言える。
【０１４５】
しかしながら、平均角度誤差の間には、２つの環境間で７．１度の差がある。両側ｔ検定は、平均角度誤差の差が統計的有意差（ｐ＜０．０５）を有していることを示している。したがって、被験者には、再現環境において発話方向の角度を知覚することは、実環境よりも難しいことが分かる。また、ほとんどの被験者は、再現環境において、発話方向の角度を知覚することは、実環境よりも難しいと論評した。そして、被験者等は、それらの違いは残響の長さであると論評した。また、実験に使用した会議室などの音波反射を有する共用空間では、後期反射音が向かう角度を知覚するのに有意な効果を持っていると考えられる。
【０１４６】
図１５には、話者が向く角度（ここでは、ラウドスピーカ５０が向く角度またはスピーカアレイシステム２０（２８、３６）で再現された発話方向の角度）毎の平均角度誤差を示した棒グラフである。ただし、格子模様が付されている棒グラフは、実環境についての平均角度誤差であり、斜線が付されている棒グラフは、再現環境についての平均角度誤差である。
【０１４７】
この図１５から分かるように、話者の向く角度が９０°であるときに、２つの環境の間には、著しい違いがある。これは、一部の被験者において、音声が９０度まで回転したことを知覚できなかったためと考えられる。
【０１４８】
また、図１６は、被験者毎に、平均角度誤差の散布図を示す。つまり、各被験者についての平均角度誤差の実環境と再現環境との間における相関関係が示される。ただし、円の中に記載した数字は、被験者を個別に識別するために付した番号である。また、実線の円は男性の被験者であり、点線の円は女性の被験者である。
【０１４９】
この図１６では、被験者の半分が、２つの環境における発話方向の知覚の差が小さいことを示している。残りの半分の被験者については、実環境における発話方向の角度の知覚が、より高い精度が示されている。質問に対する回答結果が２つの環境においてほとんど差が無い被験者の一人（女性）は、再現環境で０°から９０°まで回転する発話方向の角度を明確に知覚していた。これらの結果は、被験者等の能力（聴力）によって、発話方向の角度を認知することには、個人差があることを示している。そして、図１６では、特に女性の被験者においては、２つの環境においてほとんど差が無いことが示される。
【０１５０】
なお、主観評価実験においては、各角度での音声の大きさ（強さ）を一定に保つために、ラウドスピーカ５０の出力パワーが制御された。しかしながら、音再現システム１０を用いて実際に三者間で会話を行う場合には、音声の大きさ（強さ）は、話者が向く方向（角度）に応じて自然に変化するため、より発話方向の知覚が行い易いことが考えられる。
【０１５１】
この実施例によれば、単に音声を再現するのみならず、話者の音声の向きを再現することができるので、遠隔に存在するユーザが音場再現システムをそれぞれ用いて会話する場合であっても、再現される音声によって、誰が誰に話しているのかを知覚することができる。したがって、円滑に会話することができる。
【０１５２】
なお、この実施例では、ヘッドセットマイクロホンを装着したユーザの音声を再現するようにしたが、これに限定される必要はない。ユーザが演奏する楽器の音やユーザが行う手拍子の音を再現するようにしてもよい。ただし、ユーザが楽器を演奏する場合には、楽器の向きを検出する必要があるため、たとえば、楽器にジャイロセンサが設けられ、ジャイロセンサの出力に応じて楽器の方向が検出される。また、ユーザが行う手拍子の音を再現する場合には、当該ユーザの手首付近にマイクロホンが装着され、ユーザの手が有る方向ないし体の向きを検出するために、手首やお腹付近に、ジャイロセンサが設けられる。
【０１５３】
また、この実施例では、カメラで撮影された映像からユーザの顔の向きを検出するようにしたが、これに限定される必要はない。たとえば、ユーザの頭部（ヘッドセットマイクロホン）にジャイロセンサを装着して、ジャイロセンサの出力に基づいてユーザの顔の向きを検出するようにしてもよい。
【０１５４】
また、この実施例では、或る場所に、ラウドスピーカおよびマイクロホンアレイを設置して、インパルス応答を測定することにより、音声の伝達特性を検出し、検出した伝達特性を音声フィルタに反映させるようにしたが、これに限定される必要はない。たとえば、鏡像法を用いたシミュレーションによって、各角度ａｎｇについての伝達特性を算出することもできる。かかる場合には、想定される環境における仮想の壁面に反射率が設定され、これによって反射音が生成される。
【０１５５】
さらに、この実施例では、仮想の位置関係として、正三角形の頂点の位置にユーザが位置する場合についてのみ示したが、これに限定される必要はない。様々な距離と、マイクロホンアレイの正面方向に対するラウドスピーカの様々な角度について、インパルス応答を測定または計算することにより、多数の伝達特性を用意しておけば、ユーザ同士の様々な位置関係に対応して、音声を再現することができる。
【０１５６】
さらにまた、この実施例では、マイクロホンアレイによって検出された音場データも再現するようにしたが、音場データは再現されなくてもよい。
【０１５７】
また、この実施例では、三者間の会話を再現するようにしたが、二者間または四者間以上の会話も再現することができる。たとえば、四者間の会話では、仮想の位置関係として、所定長さの辺を有する正方形の頂点にユーザを配置することが考えられる。また、五者間の会話では、仮想の位置関係として、所定長さの辺を有する正五角形の頂点にユーザを配置することが考えられる。他の場合も同様である。ただし、実際の位置関係を多角形で表現して、その頂点に各ユーザを配置するようにしてもよい。いずれの場合にも、測定や計算により求められた伝達特性を考慮した音声フィルタが用意される。
この実施例では、現時点における、サーバおよびコンピュータの性能に加え、データの伝送速度を考慮して、マイクロホンアレイおよびスピーカアレイシステムで使用するマイクロホンおよびラウドスピーカの個数を低減してあるが、性能や伝送速度が向上された場合には、それらの個数を低減しなくても、リアルタイムに音場データや音声データを再現できると考えられる。
【符号の説明】
【０１５８】
１０ …音場共有システム
１２ …サーバ
１４ …マイクロホンアレイ
１８，２６，３４ …コンピュータ
２０，２８，３６ …スピーカアレイシステム
２２，３０，３８ …マイクロホン
２４，３２，４０ …カメラ

【特許請求の範囲】
【請求項１】
少なくとも、複数の第１ラウドスピーカを有するスピーカアレイを備える音再現装置を複数備える、音再現システムであって、
各音再現装置は、
角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、
使用者の発生する音に対応する音データを検出する音検出手段、
他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出する角度検出手段、
前記音検出手段によって検出された音データと前記角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、
他の音再現装置からの音データと角度データとを受信する第１データ受信手段、
前記第１データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記第１データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および
前記音処理手段によって畳み込み処理が施された音データを前記スピーカアレイに出力する音出力手段を備える、音再現システム。
【請求項２】
前記音声フィルタは、或る場所において、複数のマイクロホンを有するマイクロホンアレイを所定の向きで配置し、当該マイクロホンアレイに対向するように第２ラウドスピーカを配置し、当該第２ラウドスピーカから刺激音を発生させるとともに所定角度ずつ回転させたときに、当該マイクロホンアレイによって測定されるインパルス応答に基づいて生成される、請求項１記載の音再現システム。
【請求項３】
前記第２ラウドスピーカは、前記マイクロホンアレイの正面方向から所定角度の方向に、所定距離を隔てて配置される、請求項２記載の音再現システム。
【請求項４】
前記マイクロホンアレイは、或る音場に配置され、
前記マイクロホンアレイによって検出された音場データを収録し、当該音場データに畳み込みの処理を施して前記各音再現装置に伝送するサーバをさらに備え、
前記各音再現装置は、前記サーバから伝送された音場データを受信する第２データ受信手段をさらに備え、
前記音出力手段は、前記第２データ受信手段によって受信された音場データを、前記音処理手段によって畳み込み処理が施された前記音データに重畳して前記スピーカアレイに出力する、請求項１ないし３のいずれかに記載の音再現システム。
【請求項５】
前記スピーカアレイは、第１所定数の第１ラウドスピーカを有し、
前記マイクロホンアレイは、第２所定数のマイクロホンを有し、
線形独立性の高い、第１所定数よりも少ない第３所定数の第１ラウドスピーカを選択するスピーカ選択手段、および
線形独立性の高い、第２所定数よりも少ない第４所定数のマイクロホンを選択するマイクロホン選択手段をさらに備え、
前記サーバは、前記第４所定数のマイクロホンを用いて前記音場データを収録して、畳み込み処理を施し、
前記音出力手段は、前記第２データ受信手段によって受信された音場データを前記第３所定数の第１ラウドスピーカを使用して出力する、請求項４記載の音再現システム。
【請求項６】
複数のラウドスピーカを有するスピーカアレイ、
角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段、
使用者の発生する音に対応する音データを検出する音検出手段、
他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出する角度検出手段、
前記音検出手段によって検出された音データと前記角度検出手段によって検出された角度データとを他の音再現装置に送信するデータ送信手段、
他の音再現装置からの音データと角度データとを受信するデータ受信手段、
前記データ受信手段によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記データ受信手段によって受信された音データに畳み込み処理を施す音処理手段、および
前記音処理手段によって畳み込み処理が施された音データを前記スピーカアレイに出力する音出力手段を備える、音再現装置。
【請求項７】
複数のラウドスピーカを有するスピーカアレイおよび角度毎に設けられた音声フィルタに対応する音声フィルタデータを記憶するフィルタ記憶手段を備える音再現装置を複数備える、音再現システムの音再現方法であって、
各音再現装置は、
（ａ）使用者の発生する音に対応する音データを検出し、
（ｂ）他の使用者の方向を基準として、前記使用者が前記音を発生した方向に対応する角度データを検出し、
（ｃ）前記ステップ（ａ）によって検出された音データと前記ステップ（ｂ）によって検出された角度データとを他の音再現装置に送信し、
（ｄ）他の音再現装置からの音データと角度データとを受信し、
（ｅ）前記ステップ（ｄ）によって受信された角度データが示す角度に応じた音声フィルタデータを前記フィルタ記憶手段から読み出し、読み出した音声フィルタデータに対応する音声フィルタを用いて、前記ステップ（ｄ）によって受信された音データに畳み込み処理を施し、そして
（ｆ）前記ステップ（ｅ）によって畳み込み処理が施された音データを前記スピーカアレイに出力する、音再現方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【公開番号】特開２０１２−１０９６４３（Ｐ２０１２−１０９６４３Ａ）
【公開日】平成２４年６月７日（２０１２．６．７）
【国際特許分類】

電気 (1,674,590)
- 電気通信技術 (544,871)
  - ステレオ方式 (2,651)
    - 擬似ステレオ方式，例．付加的なチャンネル信号が，モノラル信号か... (1,137)
      - 擬似４チャンネル形式，例．後チャンネル信号が２チャンネルステレ... (1,092)
  - スピーカ，マイクロホン，蓄音機ピックアップまたは類似の音響電気... (21,935)
    - 変換器の細部 (7,425)
      - 所望の周波数あるいは指向特性を得るための装置 (2,455)
        
        所望の指向特性のみを得るためのもの (1,679)
        
        一群の同一変換器の組合せによるもの (1,162)

【出願番号】特願２０１０−２５４６０８（Ｐ２０１０−２５４６０８）
【出願日】平成２２年１１月１５日（２０１０．１１．１５）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　オーストラリア音響学会「Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２０ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｇｒｅｓｓ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，ＩＣＡ２０１０」２０１０年８月発行
【出願人】（３０１０２２４７１）独立行政法人情報通信研究機構 (1,071)
【Ｆターム（参考）】

[ Back to top ]

音再現システム、音再現装置および音再現方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音再現システム、音再現装置および音再現方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク