説明

音源位置探査システム

【課題】モバイル端末を用いて音源位置の推定精度を向上させる音源位置探査システムを提供する。
【解決手段】端末1000のデータ送信部1006は、マイクロホン1001、音響指紋変換部1002、メモリ1003、位置取得部1004及びマイク方向取得部1005から取得したデータをまとめて音声タグとして音源位置サーバ1010に送付する。音源位置サーバ1010は、端末1000から送信された音声タグを音声タグDB1012に登録し、音源位置計算部1013は、新規音声タグの音響指紋が登録済の音声タグの音響指紋に一致あるいは似た部分がないか音声タグDB1012を検索する。音響指紋の一致列が見付かった場合には、音源位置計算部1013は、マイクロホンの指向性に関する情報を、音源が存在しうる位置の範囲として読み換えることで、音源の位置推定を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源の位置を探査する音源位置探査システムに関する。
【背景技術】
【0002】
音源探査技術は、例えば、騒音源を探知することで騒音減少に役立てたり、位置が異なる複数の音源を分離するための前処理として行われたり、あるいは、音源の位置を測定することにより、位置をトリガーとするなんらかのサービスを行ったり、様々な目的に利用される。
【0003】
目的が様々であるために、音源探査を行う装置にも様々な形のものがある。例えば、騒音の測定機器に利用されるようなものは、機器を大量に安価に生産したり、携帯性に優れたものにする必要性が低く、逆に、精度に対する要求が強いために、機器は大型化したり特殊化したりする傾向にある。具体的には、多数のマイクロホンをアレー状に並べたマイクロホンアレイを用いたり、超狭指向性でかつ感度がよいマイクロホンを用いたりすることにより、音源位置推定の精度を上げている。
【0004】
これに対して、例えば、持ち運びが容易な家電製品に利用されるようなものは、部材のサイズや値段に制限があるため、せいぜい通常の小型マイクロホンを1本あるいは2本程度しか使うことが許されない。
【0005】
特許文献1には、家庭用ビデオカメラに組み込む音源探査装置の構成が開示されている。すなわち、この音源探査装置は、指向性が異なる2本のマイクロホンで、同時に目標音源から音声を収録し、この2本のマイクロホンから収録された同一音の周波数強度分布を比較することで、音源の方向を探知するものである。つまり、2本のマイクロホンの指向性が異なるため、音源の方向によって、2本のマイクの周波数強度分布に差が生じることを利用するものである。
【0006】
特許文献2には、家庭用テレビゲーム機器に組み込む音源探査装置が開示されている。ユーザはテレビゲームを行う際に、コントローラを手に持つが、このコントローラに、音源を仕込む。そして、テレビ画面の左右にマイクロホンを設置し、このマイクに音源からの音声が到達する時間をそれぞれ計算し、音源すなわちコントローラ(ユーザ)の位置を探知するものである。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2009−296219号公報
【特許文献2】特開2010−021854号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記特許文献1及び特許文献2に開示の構成では、いずれも音源の位置を探査するために、なお特殊な機器を用いている。すなわち、特許文献1のマイクロホンは、指向性が異なるマイクを2本利用しなければならない。また、特許文献2では、音源であるスピーカーが音源位置探査システムの必須の構成要素になっている。これらの構成は、マイクロホンアレイを用いるよりは、一般向けではあるものの、携帯電話などのモバイル端末等に音源探査装置を組み込む場合、過剰な品質となってしまったり、モバイル端末のコスト上昇につながったりしてしまい、音源探査装置を組み込んだモバイル端末を普及させるのは困難である。
【0009】
本発明の目的は、モバイル端末を用いて音源位置の推定精度を向上させる音源位置探査システムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明の音源位置探査システムは、マイクロホンと、前記マイクロホンによって収録された音声を音響指紋に変換する音響指紋変換手段と、現在地を示す位置情報を取得する位置取得手段と、前記マイクロホンの指向性を示す指向性情報、前記音響指紋、前記位置情報及び自装置を識別する識別子を組にした音声タグを送信する送信手段と、を有する無線通信端末装置と、複数の無線通信端末装置より送信された前記音声タグを識別子毎に時系列で記憶する音声タグ記憶手段と、異なる識別子間で前記音声タグの一部が一致又は近似しており、かつ、一定の時間内に収録された音響指紋を探索し、探索された音響指紋と同じ組の位置情報及び指向性情報を用いて、音源の位置を推定する音源位置計算手段と、を有するサーバ装置と、を具備する構成を採る。
【発明の効果】
【0011】
本発明によれば、モバイル端末を用いて音源位置の推定精度を向上させることができる。
【図面の簡単な説明】
【0012】
【図1】本発明の実施の形態1に係る音源位置探査システムのシステム構成図
【図2】図1に示した音源位置探査システムが利用される様子を示した模式図
【図3】特徴量ベクトルを抽出する様子を示す模式図
【図4】指向性情報パターンを示す模式図
【図5】音声タグが登録された状態を示す模式図
【図6】図2に示した端末から送信されてきた音声タグが登録された状態を示す模式図
【図7】マップ上で指向性情報パターンを重ね合わせた結果を示す模式図
【図8】指向性情報パターンを2次元のビットマップとして示した模式図
【図9】図7に示した重ね合わせの結果をビットマップで表した模式図
【図10】マイクロホンに指向性があった場合の指向性情報パターンを示す模式図
【図11】4つの端末の指向性情報パターンを重ね合わせた結果を示す模式図
【図12】2つの音声タグ列を示す模式図
【図13】指向性情報パターンの減算を行って、音源位置を推定する様子を示す模式図
【図14】指向性情報パターンを拡大し、音源位置を推定する様子を示す模式図
【図15】時間的に離れた場合における指向性情報パターンを重ね合わせて、音源位置を推定する様子を示す模式図
【図16】時間的に離れた端末が送付した音声タグ列を示す模式図
【図17】本発明の実施の形態2に係る音源位置探査システムのシステム構成図
【図18】図17に示した音源位置探査システムが利用される様子を示した模式図
【図19】マップに道路と車を重ね合わせた様子を示す模式図
【図20】図19に示した4つの端末から送信されてきた音声タグが登録された状態を示す模式図
【発明を実施するための形態】
【0013】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。ただし、実施の形態において、同一機能を有する構成には、同一符号を付し、重複する説明は省略する。
【0014】
(実施の形態1)
図1は、本発明の実施の形態1に係る音源位置探査システムのシステム構成図である。本発明のシステム構成には、2通りあり、ここでは、サーバクライアント型の構成を例に説明する。
【0015】
図1において、1000は、携帯情報端末であり、対象音を収録し、音響指紋に変換する機能、収録時の位置情報等を検知する機能等が実装されている。なお、本実施の形態においては、携帯情報端末を端末と呼称する。
【0016】
1001は、マイクロホンである。マイクロホンの指向性情報や音声収録の録音レベルは、メモリ1003内に記録されており、それらの情報は随時読み出すことができる。
【0017】
1002は、音響指紋変換部であり、後述する方法でマイクロホン1001が収録した音声を音響指紋に変換する。
【0018】
1004は、位置取得部であり、3次元空間の座標、または地面や床を平面とみたてた場合の平面上での端末1000の現在地を示す2次元座標等を取得する。本発明の効果としては、そのどちらでも同等であるため、説明の便宜上、位置取得部1004は地球上での2次元位置座標を取得できるものとする。つまり、緯度経度を取得するものである。
【0019】
1005は、マイク方向取得部であり、マイクロホン1001の正面が向いている方向を取得する。ここでいう方向とは、位置取得部1004に合わせて、地図上の方向(つまり、北を0°、東を90°南を180°、西を270°とするもの)を示す。なお、これは二次元平面上の方向であるが、これに俯角(水平方向からの上下角度)を交えて3次元空間内の角度を加えてもよい。
【0020】
1006は、データ送信部であり、マイクロホン1001、音響指紋変換部1002、メモリ1003、位置取得部1004及びマイク方向取得部1005からのデータをまとめて(まとめられたデータを音声タグと呼ぶ)、適切なフォーマットに変換し、音源位置サーバ1010に送付する。
【0021】
1007は、ネットワークI/F(ネットワークインタフェース)であり、データ送信部1006等の端末1000内のモジュールの依頼を受け、ネットワーク1030を介して外部機器とデータの送受信を行う。
【0022】
1010は、音源位置サーバである。
【0023】
1011は、データベース登録部(DB登録部)であり、端末1000から音声タグという情報構造体を受け取り、音声タグデータベース(音声タグDB)1012に保存する。音声タグDB1012は、音声タグを記録及び検索可能なデータベースである。
【0024】
1013は、音源位置計算部であり、音声タグDB1012中の音声タグの情報を用いて、音源の位置の精度を高める計算を行う。
【0025】
1014は、ネットワークI/F(ネットワークインタフェース)であり、DB登録部1011等の音源位置サーバ1010内のモジュールの依頼を受け、ネットワーク1030を介して外部機器とデータの送受信を行う。
【0026】
1015は、マップであり、一種の白地図の集合である。新しく音源が見付かると、その音源用に新たに1枚の白地図が生成される。生成されたマップは、音源とリンクされて管理される。つまり、論理的には、全世界の地図が、ユニークな音源の数だけ存在し、相互に音源とリンクされている。なお、地図といっても、重ね合せの計算と結果の保持に使われるもので、そこに地形、道路やランドマーク等が書き込まれているわけではない。マップは位置(緯度、経度)が定義された平面であり、位置とそれに対する「その位置に音源が存在する尤もらしさを表現したポイント」が記録できるだけのものである。
【0027】
1030は、ネットワークである。
【0028】
図2は、図1に示した音源位置探査システムが利用される様子を示した模式図である。図1では、表現の便宜上、端末1000が1つしかないように記載しているが、実際は端末1000の他にも多数の端末(2000、2001、2002)が存在し、これらの端末は、複数の無線ネットワークアクセスポイント(2030、2031)を介して、ネットワーク1030に接続されている。
【0029】
これらの端末は、基本的な構成は端末1000と同じであるが、それぞれの内部のモジュールの諸元値は異なっていてよい。例えば、マイクロホンの指向性や利得などの性能が異なっていてよい。
【0030】
ここで、図1に示した音源位置探査システムの動作概要について図2を用いて説明する。図2に示すように、実世界においては、複数の多様な音源(2020、2021)が存在する。これらの音源の位置を、端末(1000、2000、2001、2002)を使って探査するが、端末には汎用の必ずしも性能の高くない(つまり安価)マイクロホンしか搭載されていないため、1つ1つの端末単独ではおおよそ自分の周囲に音源があるという程度しかわからない。そこで、複数の端末から、その端末単独でわかる音源の位置(精度が低い)に関する情報を、音源位置サーバ1010に集積し、これらの情報を統合することにより、音源の位置の精度を高めることが考えられる。
【0031】
ただし、このような音源の情報を統合するためには、同じ音源のデータのみを用いる必要がある。図2の例では音源が2つあるが、例えば、音源2020に関しては端末1000及び2000起源の情報のみを使う必要がある。これには、端末1000と2000は同じ音源からの音を収録しており、2001と2002の収録している音(音源2021からの音)とは異なると判別できなくてはならない。この判別を行うために、収録した音を音響指紋に変換し、音響指紋が(ほぼ)一致するかどうかで、同一音の判定を行う。音響指紋とこの利用方法については後述する。
【0032】
図2に示す状況において、各端末(1000、2000、2001、2002)が、音源(2020、2021)の音をそれぞれのマイクロホンで収録を開始する。まず、端末1000を例にとって、音声タグが音源位置サーバ1010まで送付される処理手順について説明する。
【0033】
端末1000が、音源2020の音をマイクロホン1001で収録すると、その音声を音響指紋変換部1002が逐次音響指紋に変換する。音響指紋とは、音声からある一定の時区間の断片を取り出し、その断片から抽出した特徴量のベクトルである。図3は、これを簡単に示した模式図である。
【0034】
図3(a)の3000は、音声をスペクトログラム風に表示したものであるが、まず音声3000から断片3001を切り取る。これは、時間t0〜t1までの時区間の音声(幅はΔt)を切り取ったものである。この音声断片3001(図3(b))を、適当な特徴量抽出アルゴリズムを用いて図3(c)に示すような特徴量ベクトルvt0に変換する。ここで、f0〜fnが個々の特徴量である。
【0035】
特徴量抽出アルゴリズムは各種提案されており、これらのアルゴリズによれば、上記時区間の幅Δtにしても、1秒程度から数分間に及ぶ場合などバラエティーがある。本実施の形態における音源は、楽曲と異なり、音声の開始するタイミングが定かではないため、Δtの値は1秒程度が望ましい。また、音響指紋を作成するサイクル(周期)も、十から数十分の1秒程度が望ましい。また、特徴量にしてもいろいろな方法が考えられる。いずれの方法を使うにしろ、ロバスト性、つまり、「人間の耳に同じように聞こえる音声は、似た特徴量ベクトルに変換され、異なる音声断片は異なる特徴量ベクトルに変換される」という性質を有する必要がある。通常の音響指紋は、このような特徴を持つものが多い。
【0036】
このような特徴量ベクトルの各要素f0〜fnは、普通数値で現わされるが、特徴量ベクトルvは、n次元空間でのベクトルとなる。この場合、特徴量ベクトルの類似度をなんらかのベクトル間の距離と定義すれば、「同じ音声に対する特徴量ベクトルの距離は0、似ている音声では距離は小さく、似ていない音声ほど距離が遠くなる」ということとなる。
【0037】
本発明においては、この特性を満たす特徴量抽出アルゴリズムであれば、いかなるアルゴリズムでも利用できる。具体例を挙げるならば、以下の論文に開示されている方法を用いれば、本発明に適した特徴量ベクトルを作ることができる。“Computer Vision for Music Identification(2005)”、by Yan Ke、 Derek Hoiem、 Rahul Sukthankar、Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR′05) Volume 1、Pages:597−604、ISBN〜ISSN:1063−6919、0−7695−2372−2
【0038】
さて、時区間t0〜t1に対する音響指紋v(t0)が作成されると、次の時区間に対する音響指紋v(t1)が作成される。なお、前掲した論文においてなされるように、時区間は重なる部分があってもよく、システム全体で一貫した方法で作成されればそれでよい。
【0039】
なお、収録した音声のレベルがある一定以下の場合の扱いについて補っておく。通常の音響指紋作成方法では、小さい音や無音に対しても音響指紋を作成することができる。しかし、本発明の場合は音源位置の探査が目的であり、音が小さいあるいは無音の場合は、音源なしと考えて音響指紋を作る必要はない。この場合は、音響指紋なしを意味するような特別の音響指紋が作成されるとする。
【0040】
このように、音声が収録されると実時間で次々と音響指紋が作成されていく。
【0041】
音響指紋変換部1002により作成された音響指紋は、データ送信部1006に渡される。データ送信部1006は、この音響指紋を作成した時の指向性情報とマイクロホン1001の録音レベル(収録した音のレベルではなく、マイクロホンの録音利得である)をメモリ1003から読み取る。同時に、データ送信部1006は、端末1000が存在する経度及び緯度を位置取得部1004から取得し、さらに、マイクロホン1001が向いている方向をマイク方向取得部1005から取得する。
【0042】
ここで、マイクロホンの指向性情報とは、マイクロホンの向きに対してどの程度感度よく音を拾えるかの情報である。つまり、方向によるマイクロホンの感度である。図4には、指向性情報を模式的に示してある。図4(a)は、無指向性つまりどの方向からの音でも同一に拾える場合で、4000は端末を、4001は指向性のパターンを示し、ある一定の音量の音源を置いた場合に、同じ音量でマイクが拾える場所を結んだものである。図4(b)は、指向性がある場合の指向性情報である。4002は端末を、4003は指向性パターンを示し、マイクロホン前方では感度がよく、マイクロホンの後ろに回ると感度が落ちる様子を示している。
【0043】
本発明の場合には、この指向性情報である閉曲線(4001、4003)を、音源が存在し得る位置の範囲と置き換えて利用する。この閉曲線を指向性情報パターンと呼ぶとする。実際の指向性情報パターンは、音源の周波数や音量により複雑な影響を受けるし、また、音源の音量も一定ではないため、厳密に言えばこの読み換えは成立しない場面も多い。しかしながら、本発明においては、個々のマイクロホンの精度に頼らずに、複数の大量のマイクロホンを利用することで全体として精度を上げることを考えるため、この読み換えでも十分であると言える。さらに、同様の理由で、それぞれの全ての端末が指向性情報持つ必要はない。この場合、代わりに普通の携帯電話やスマートホンで利用されるようなマイクロホンを想定して、平均的な指向性情報というものを考え、指向性情報を持たない端末にはそれを用いればよい。
【0044】
また、それ程精密な指向性情報がいらないことから、端末(マイクロホン)の機種毎に指向性情報を用意するのではなく、典型的な指向性情報を用意し(例えば、無指向性で感度が低い、無指向性で感度が高い、狭指向性など)、その中から選ぶようにしてもよい。
【0045】
さて、データ送信部1006に、音響指紋(fp)、指向性情報(dir)、録音レベル(lev)、位置情報(pos)、マイク方向(ori)の情報が集まったとする。これらと端末の識別子(id)や、収録時(t)をまとめた組を「音声タグ」と呼ぶとする。つまり、音声タグATagは、Atag=(id、fp、dir、lev、pos、ori、t)という6つ組となる。ここで必須であるのは、id、fp、dir、pos、tである。
【0046】
マイク方向(ori)がない場合は、指向性情報(dir)は無視されて、無指向性マイクとしての指向性情報が代わりに使われる。また、オプションとして、上記6つ組に、マイクロホン1001で収録した音声を加えてもよい。ただし、生の音声データは、これがあれば、後に各種用途に利用できるのだが、音響指紋等他のデータに比較して巨大であり、端末1000の処理能力やネットワーク1030の帯域等に余裕がある場合にしか、加えることはできないだろう。
【0047】
音声タグが作成されると、データ送信部1006は、ネットワークI/F1007からネットワーク1030を介して、その音声タグを音源位置サーバ1010に送付する。
【0048】
この送付のタイミングについては、音声タグが1つできる度に送付してもよいし、ある程度の数が溜ったところで一括して送付してもよい。当然後者の方がネッワーク送付に関するオーバーヘッドが削減されて、全体としての効率は良くなるが、それとは逆に音声タグのリアルタイム性は失われる。これは、この音源位置探査システムが供される目的等により適当なタイミングを決めるとよい。
【0049】
次に、音源位置サーバ1010の動作について説明する。
【0050】
端末1000を始めとして、各端末から音声タグが送付されてくると、DB登録部1011は、それを音声タグDB1012に登録する。
【0051】
図5は、ある1つの端末から送信されてきた音声タグが登録された状態を模式的に表したものである。5000は、音声タグの列で、音声タグの収録時tの順に並べられている。その中から1つの音声タグを取りだしたものが5001と5002である。5001はその音声タグの音響指紋、5002は音声タグのうち音響指紋以外のその他の情報及び推定された位置情報(マップ1015内に保持されている)へのリンクが書きこまれている。これは、今後の説明で音響指紋は中心的な役割を果すために、便宜上、特に取り出して表現したものである。
【0052】
なお、これは、あくまで論理的に、このように格納されているということであり、実際に実装された音声タグDB1012のデータの物理的な配置がこのようになっているという意味ではない。
【0053】
今、図6に示すように、3つの端末からの音声タグ列が音声タグDB1012に登録されているとする。図6の6000、6001、6002は、音声タグ列から音響指紋のみを表示して図示したものである。例えば、図6(a)は端末1000の音響指紋を、(b)は端末2000の音響指紋を、(c)は端末2001の音響指紋をそれぞれ示す。図2に示したように、端末1000と端末2000は同一の音源2020の音声を収録しており、端末2001は別音源2021を収録しているとする。
【0054】
このような状態で音源位置計算部1013が位置の精密化を行う過程について説明する。音源位置計算部1013は、新規登録の音声タグが音声タグDB1012に登録されると適当なタイミングで、その新規音声タグの音響指紋が登録済の音声タグの音響指紋に一致あるいは似た部分がないか音声タグDB1012を検索する。つまり、新規音声タグの音響指紋からある一定の閾値以下の距離に既登録の音響指紋がないかを検索する。この検索は、新規登録時に即座に行ってもよいし、ある程度新規登録分が溜ってから一斉に行ってもよい。
【0055】
同一音源からの音を収録していた場合は、ある一定の連続した音響指紋列が互いに似ている、あるいは一致していると判断されることになる。例えば、これが図6の6003と6004の部分であるとする。端末(識別子=i)の時間tにおける音響指紋をv(i、t)と表現すれば、6003の音響指紋列は、端末識別子をiとすると、次のように表される。
D1=(v(i、t0)、v(i、t0+1)、v(i、t0+2)、…、v(i、t0+n−1))
【0056】
また、6004の音響指紋列は、端末識別子をjとすると、次のように表される。
D2=(v(j、t1)、v(j、t1+1)、v(j、t1+2)、…、v(j、t1+n−1))
【0057】
D1、D2の式において、v(i、t0+m)≒v(j、t1+m)、mは0からn−1の整数、とういう関係が成り立つということである。音響指紋列がいくつ連続していれば良いかは、実装上の決定事項となる。また、連続が一瞬途切れた場合の扱いについては、適当な確率モデルを用いて判定することになる。例えば、前掲の論文“Computer Vision for Music Identification(2005)”では、録音音声と原音を比較する際に、一致するかしないかをベルヌーイ過程とモデル化して判定する方法が、“occlusion model”という名称で提案されており、それを用いてもよい。あるいは、もっと単純に、ある適当な時間幅(数秒〜10数秒など)で7割一致していれば、一致と判断してもよい。
【0058】
また、時刻t0とt1は、|t0−t1|≦th(thは、数秒〜数分の値で、実装上のパラメータ)の関係にあればよく、一致している必要はない。これは、音声の収録時刻を記録するのが端末側として、端末の時計には当然ばらつきがあるからである。また、サーバ側の登録時間を収録時間と読みかえて、収録時間をサーバ側で付与したとしても、登録のための待ち時間や通信時間はデータ毎に異なるため、やはりばらつきが発生することになる。
【0059】
このような音響指紋の一致列が見付かった場合には、音源位置計算部1013は、他の作業と平行して、位置の精密化の作業を開始する。
【0060】
前述した通り、本発明では、マイクロホンの指向性に関する情報を、音源が存在しうる位置の範囲として読み換えることで、音源の位置推定を行う。そして、音源位置の精密化とは、同一の音源に由来すると思われる音声タグに記録されている指向性情報を重ね合わせることにより実現される。この重ね合わせは、マップ1015上で行われる。
【0061】
図7は、このマップ1015上で指向性情報を重ね合わせた結果を模式的に現わしたものである。図7の背景にあるのがマップ1015であり、その上に端末1000、2000の実際の位置(音声タグ中の位置情報)に従い、端末1000、2000を配置する(図7における1000、2000の位置)。次に、それぞれの端末位置を中心にマイク方向に従い、回転を加えた指向性情報をマッピングする(7000及び7001)。図7の状況では、指向性情報を無指向性(指向性情報のパターンが円)と仮定しているので、マイク方向はあまり意味を持たない。そして、最終的に指向性情報のパターン7000と7001の重なり合う部分7002に音源があると推定される。
【0062】
つまり、端末1000から見て、音源は7000の中にあると推定され、かつ、端末2000からみれば、7001内にあると推定されるから、その結果、音源のより確からしい位置は、7000と7001の重ね合わせ部分である領域7002内ということになる。
【0063】
なお、この重ね合わせの計算の実装について補足をしておく。指向性情報のパターンである閉曲線同士の重ねあわせを正確に計算してしまうと、もともとの位置情報やマイク方向の誤差を考えればあきらかに過剰品質になる。そこで、計算を効率的に行うために、指向性情報のデータ構造や計算方法を簡略化してやる必要がある。その一例として、マップ1015を連続した位置がとれる平面ではなく、離散的な位置しかとれないとすることで、計算量を減らす方法が考えられる。つまり、マップ1015の位置に関しては、位置取得部1004の位置精度を大きく超えて実装しても意味がないから、例えば、東西方向及び南北方向に対して1メートル単位での位置しかとれないよう位置の量子化を行う(1メートルではなく、緯度経度で0.1秒単位なども考えられる)。この結果、指向性情報は閉曲線で囲まれた領域ではなく、2次元のビットマップとして表現できる。これを模式的に表現したのが図8である。
【0064】
図8では、原点部分に端末(マイクロホン)があり、y軸正方向がマイクロホン正面である。各ビットは、1メートル四方の地面に相当し、ビット毎に音源の存在ポイントというべき整数値が保持される。1が指向性パターン8000の内側つまり、音源が存在する可能性がある場所を表わし、外側は0である(図8では、0は省略してある)。
【0065】
マップ1015も同様に表現できる。例えば、図7の重ね合わせの結果を、ビットマップで表すと図9のようになる。7000と7001の重なった部分は、それぞれのビットマップの各ビットの数を足し合わせたものとなる。この場合は、1+1で2となる(図9の7002の部分)。つまり、指向性情報パターン7000、7001の外部は、音源の存在するポイントが0で、1の部分は0の部分より存在する尤もらしさがあがり、領域7002の部分はポイント2で、このマップ1015中で音源が存在する尤もらしさが一番高い部分となる。
【0066】
以上の計算は、地図上での指向性情報の重ね合わせが2つだけの場合であるが、これが3以上になっても同様の計算を行えばよい。これを図6の場合で説明する。前述したように、図6の6003の音響指紋列は、端末識別子をiとすると、次のように表された。
D1=(v(i、t0)、v(i、t0+1)、v(i、t0+2)、…、v(i、t0+n−1))
【0067】
また、6004の音響指紋列は、端末識別子をjとすると、次のように表された。
D2=(v(j、t1)、v(j、t1+1)、v(j、t1+2)、…、v(j、t1+n−1))
【0068】
D1、D2の式において、v(i、t0+m)≒v(j、t1+m)、mは0からn−1の整数、とういう関係が成り立った。ここでさらに、v(k、t)に対応する音声タグをatag(k、t)として、その音声タグの指向性情報をatag(k、t)[dir]、マイク方向をatag(k、t)[ori]、位置情報をatag(k、t)[pos]と表記することにする。
【0069】
この場合、指向性情報の重ね合わせとは、atag(i、t0+m)[dir]及びatag(j、t1+m)[dir]の指向性情報を、マイク方向と位置情報を勘案して、mにつき0からn−1まで、マップ1015上で各ビット毎に加算していってやればよい。すなわち、以下の計算を行うということである。
【0070】
atag(k、t)について、kは、{i、j}と変化させ、tは、k=iの時は、t0〜t0+n−1、k=jの時はt1〜t1+n−1と変化させて、全てのk、tの組み合わせに対して、次の(1)から(2)を計算する。
【0071】
(1)atag(k、t)[dir]をatag(k、t)[ori]だけ回転させる。この結果をTとする。
【0072】
(2)T上の位置(x、y)のビットに書き込まれた値をT(x、y)とし、マップ1015上の位置(north、east)のビットをMAP(north、east)とし、位置情報atag(atag(k、t)[pos]) =(N、E)とすれば、指向性情報が取り得る範囲でx、yを変化させて、以下を計算する。
【0073】
MAP(N+x、E+y)+=T(x、y)(ただし、+=は、足し込みの演算子)
そして、その重ね合わせの結果、音源の存在する尤もらしさが一番高い数値の地点(例えば、図9の7002)が、この音声タグ列に対して推定された音源の位置となる。
【0074】
次に、端末1000及び2000のマイクロホンに指向性があった場合の例を、図10を使って説明する。基本的には、無指向性の場合と同じであり、最終的には図10に示したようになる。
【0075】
マップ1015上に位置情報の通り端末を配する(図10の1000、2000)。その端末を中心に、その端末のマイク方向分回転させた指向性情報パターンを重ねる。端末1000に関してのマイク方向が10002、端末2000のマイク方向は、10003である。なお、回転の演算の実装であるが、自由な角度の回転を許すと演算量が増え、全体の効率が落ちることから、回転の角度に関しても、例えば30°単位での離散的な値しか取れないとし、マイク方向の値を適当にまるめれば良い。さらには、予め30°毎に回転させた指向性情報を計算しておき、マイク方向の回転の演算をする場合は、その事前に計算された結果を呼び出すだけにすれば、一層の演算速度の向上が期待できる。図10の場合の最終的な音源の推定位置は、10004でハッチングをかけた部分となる。
【0076】
次に、複数端末の指向性情報を重ね合わせた場合について説明する。図11は、端末11000から11003の4つの端末で収録した音声に、似た音響指紋列が観測された場合の重ね合わせ結果である。ここで、似た音響指紋列が観測された端末が複数になると、重ね合わせの箇所も複数になる。例えば、図11では、11010や11011等いくつかの部分で複数の指向性情報の重ねあわせが発生している。
【0077】
この中で、音源がある位置として推定されるのは、マップ1015の各ビットの中で、ビットの音源の存在する尤もらしさのポイントが最も高い部分が音源の位置と推定される。図11では、領域11010中のビット数値は、3つの指向性情報のパターンが重なっているので3である。それに対して、領域11011では2であるから、領域11010の部分の方が音源位置としてより好ましいということとなる。
【0078】
以上が、基本的な音源の位置推定方法である。次に、さらに音源の位置推定を正確にするための工夫、拡張を4種説明する。まず、最初の手法について説明する。今までは、指向性情報の重ね合わせをすることで、音源位置推定の精度を上げられることを示したが、指向性情報の減算をすることでも推定精度を向上させることができる。
【0079】
今、図12に示したような音声タグ列(a)、(b)があるとする。音声タグ列の表現方法は、図5で使ったものと同じで、音声タグ列の上部が、音響指紋の列で、下が音響指紋以外の情報の列である。ここの説明では、位置情報しか言及しないため、位置情報の列と考えてもらってよい。また、図12の音声タグ列(a)を生成した端末を13000(図13)とし、図12の音声タグ列(b)を生成した端末を13001(図13)とする。
【0080】
ここで、ある音源に対する音響指紋列12000と、その他の情報の列12001がある場合に、その他の情報の列12001中の位置情報から距離的及び時間的に近接した距離であるにも関わらず、音響指紋列12000に似た列が存在しない部分があるかを、音声タグ列(b)の音響指紋列から検索する。ここで、そのような部分があった場合には、減算によって音源位置を推定することができる。
【0081】
例えば、図12の音声タグ列(b)の中で、時間t0に近く、その他の情報の列12001に近接した位置情報をもった部分がないかを探す。この結果、12001と12002の部分の位置情報が近いにもかかわらず、音響指紋列12000に似た列が音声タグ列(b)に存在しなかったとする。この場合、図12の音声タグ列(a)に対応した端末の指向性情報から、図12の音声タグ列(b)に対応する端末の指向性情報を減算することができる。つまり、音響指紋列12000に対応する音源をXとすれば、Xの位置は、12001部分に記録されている端末13000の位置の近く(すなわち、指向性情報パターン13010内)ということになる。そして、その音源Xが音を発していた時刻t0において、端末13001は、端末13000の付近にあったにもかかわらず音源Xの音を収録していない。これは、音源Xは、端末13001の指向性情報のパターン13011外にある可能性が高いということである。両者の状況を勘案すれば、音源は、領域13012内にあると推定される。この領域13012とは、指向性情報のパターン13010から、13011を引いたものであり、それゆえに、減算による音源位置の推定と呼ぶ。
【0082】
次に、2番目の手法について説明する。これは、重ね合わせができる状況にあるにも関わらず重ね合わされた指向性情報のパターンがない場合に利用する。図14にこの2番目の手法を適用した結果を示す。端末は14000〜14003まで4台あるとし、これら4台が比較的近い距離内で、ほぼ同じ時刻に、同一音源の音と思われる音響指紋列を記録していたとする。この場合、指向性領域(14010〜14013)を重ね合わせることができるはずだが、図14に示す通り14010〜14013には重ね合わせる領域がない。この場合、音が非常に大きかったため、通常では聞こえないはずの指向性情報のパターン外の音まで拾ったと解釈するのが妥当と思われる。そこで、指向性情報パターンを通常の領域の数倍拡大し、再度重ね合わせを試みる。なお、何倍にするかは、実装上の調整パラメータとなる。ここでは、例えば5倍に拡大し(14020〜14023)、再度重ね合わせを行うと、音源位置の推定領域14030が得られる。
【0083】
なお、音声タグにもし録音レベルが記録されていれば、単純に一定倍するのではなく、録音レベルに応じて倍数を決めてもよい。例えば、録音レベルが低い場合は、指向性情報パターンを大きく広げるのがよく(つまり、録音レベルを下げているにもかかわらず音声が収録できたのは、非常に大きな音だったと考えられる)、録音レベルが高い場合は、指向性情報パターンを縮小させるのがよい。
【0084】
次に、3番目の手法について説明する。これは、時間的には離れているが、距離的には近接している位置で、複数の端末(単一でもよい)が、同一の音源由来と思われる音声を収録した場合である。例えば、学校等で毎日夕刻になると下校のために同じ曲を流している、あるいは、視覚障碍者用の信号機の音楽など、繰り返し同じ場所で流される音声を異なる時間に収録した場合が考えられる。よって、同一の音源と考えてよいので、指向性情報を重ね合わせることができる。
【0085】
これを図15、図16を参照しながら説明する。まず、時刻t1で、端末15000が、地点(n1、e1)において、音源X由来と思われる音声を観測したとする(図15(a))。15010は、この場合の指向性情報のパターンである。次に、tに近接していない時刻t2において、端末15001が、地点(n2、e2)において、音源X由来と思われる音声を観測したとする(図15(b))。
【0086】
図16(a)、(b)は、この状況での端末15000、15001が送付した音声タグ列である。図16(a)(16000)は、端末15000が送付したもので、図16(b)(16001)は、端末15001が送付したものである。音声タグ列の表記は、図5で説明したのと同様に、音声タグ列上段が音響指紋列であり、下段がその他の情報(ここでは、位置情報)である。図16(a)の音響指紋列16010と、図16(b)の音響指紋列16001とは音源X由来であるが、時間t1、t2は、ほぼ同時刻とは言えないほど離れているため、通常は指向性情報の重ね合わせは起こらない。
【0087】
しかしながら、位置情報16011と16021の距離を計算して十分近接していた(例えば、2位置間の距離がある閾値以下の場合)ならば、前述したような状況が考えられるため、重ね合わせを行うべきである。重ね合わせがなされた状況を、図15(c)に示す。この結果、図15(c)の15020のような、音源位置の推定領域を得ることができる。
【0088】
なお、この場合、端末15000と15001は、同じ端末でもよい。これは、図16の(c)のような状況である。この場合、ある1つの端末の音響タグ列16002において、時刻t1とt2で同じ音源に由来すると思われる音響指紋16030、16040が得られており、位置16031と16041が十分近接していればよい。
【0089】
さらに、この方法を応用して、プリセットされた音源を用意することもできる。これは、音声タグDB1012中に、音のランドマークとして機能するであろう音源を音声タグ列に変換して記録しておく。音のランドマークとは、例えば、前掲した学校等で夕刻にかかる曲や、信号機の音、その他、駅の階段を示す鳥の声などである。ただし、実際に収録した音ではないから、この音声タグに含まれる位置情報や指向性情報は、不定を示す特別な値を入れておく。
【0090】
一方、これらプリセットされた音源と同じ音源を収録した端末がある場合、その端末が生成した音声タグ列の音響指紋列には、必ずプリセットされた音声タグ列の音響指紋列と一致する部分がある。そして、この後、音源位置推定が行われ、当初は音源位置が不明であったプリセット音源の位置がある程度推定される。そして、これを収録した端末が増えれば、音源の位置がより正確になっていく。
【0091】
前記の信号機の音であれば、同じ音声を発する信号機が100台あるとすれば、その信号機の音源に対応するマップ1015は、音源位置の存在するポイントのピークが100観測されるように変化していくことになる(音源位置が大きくかわる毎に、新規のマップを生成するという方法も考えられる)。
【0092】
最後に、4番目の方法について説明する。これは、位置を明かにしたい音源がある場合に、端末に要請して、音声を収録させる方法である。具体的には、位置をより明かにしたい音源がある場合に、他端末あるいは音源位置サーバから、その位置に一番近い端末に命じて(端末を通じてユーザに命じて)、その音源の付近へ移動させることで、積極的に音源位置を明確にする方法である。
【0093】
このように実施の形態1によれば、マイクロホン間の相対位置や向きが任意に変化し得る状況において、複数の端末から得られた音響指紋列を用いて、音響指紋による音声のマッチングを行うことにより、特殊なマイクロホンを使うことなく、音源位置の推定精度を向上させることができる。
【0094】
(実施の形態2)
実施の形態1では、システム構成をサーバクライアント型とする場合に付いて説明したが、本発明の実施の形態2では、システム構成をP2P(Peer to Peer)型のサーバなしとする場合について説明する。
【0095】
図17は、本発明の実施の形態2に係る音源位置探査システムのシステム構成図である。図17において、17000は、端末である。
【0096】
17001は、データ送信部であり、マイクロホン1001、音響指紋変換部1002、メモリ1003、位置取得部1004及びマイク方向取得部1005からのデータをまとめて(まとめられたデータを音声タグと呼ぶ)、適切なフォーマットに変換し、P2Pネットワーク17010を介して接続されている近隣の端末に対して、音声タグを送付する。
【0097】
17002〜17005は、同名のモジュールが実施の形態1にも登場している。実施の形態1では、システム全体に対して(論理的には)1つだけのDB登録部、音声タグDB、マップ、音源位置計算部が存在した。つまり、これらの機能は音源位置サーバ1011にしかなかった。これに対して、実施の形態2のP2P型構成では、端末全てにこれらの機能が備わっている。ただし、実施の形態1での音源位置サーバ1010は、広い地域に存在する多数の端末からのデータを処理しなければならないため、巨大なデータベースや強力な処理能力が必要であったが、本実施の形態のDB登録部17002、音声タグDB17003、マップ17004、音源位置計算部17005は、自端末の近隣の端末しか相手にしないため、サーバクライアント型の構成に比較して、これらのモジュールは小規模コンパクトに実装することができる。
【0098】
DB登録部17002も、DB登録部1011と機能は同一である。その他、音声タグDB17003、マップ17004、音源位置計算部17005に関しても、実施の形態1の同名のモジュールと機能は同一であるが、ただし、実装段階では小規模、つまりメモリ量等を大幅に削減してよい。
【0099】
17006は、DBマップ同期部であるが、これはP2P構成にするために必要になったモジュールである。一般に端末は、メモリ等の記憶容量に恵まれているわけではないため、音声タグ列やマップを、全世界の全端末分、長期間保持するわけにはいかない。またP2P通信の特性として、そもそも全ての端末からの音声タグを受信できるわけではない。
【0100】
このため、近隣の端末から各種機能を実行するために必要なデータを受け取り、また、必要なくなったデータを削除する仕組みが必要である。DBマップ同期部17006は、この作業を行うためのモジュールである。
【0101】
DBマップ同期部17006は、自端末17000の位置(位置取得部1004から取得)を常に把握するとともに、通信可能な他端末が、自端末17000の近隣の範囲内に存在する音源に関するマップをもっていれば、その複製を転送して自分のマップとして管理するようにする。この管理範囲を「マップ管理範囲」と呼ぶ。
【0102】
逆に、自分が持つマップ17004中に、マップ管理範囲から逸脱した音源に対するマップがあれば、それを削除する。マップ管理範囲は、自端末を中心にした一定の半径の円(または球)か、あるいは計算を簡便にするために、矩形(直方体)等であってもよい。また、他端末からマップの転送要求を受けた場合、DBマップ同期部17006は、要求されたマップを渡す。
【0103】
マップと同様に、音声タグ列に関しても他端末とデータを交換する必要がある。いま、通信可能な他端末の音声タグDB内にある音声タグ列中おいて、以下の条件を満す音声タグ列があれば、その音声タグ列の複製を音声タグDB17003内にコピーする。
【0104】
条件:音声タグ列のうち、現在から一定の過去の範囲内の音声タグのうち少なくとも1つ以上の音声タグの位置情報が、自端末17000の近隣内であること。
【0105】
この「一定の」というのは、実装上のパラメータである。また「少なくとも1つ」というのも、実装時にある程度は増やしてもかまわない。つまり、一定の時間内の過去において、自端末17000の現在地から一定の範囲内に一度でも存在した端末であれば(ただし、現在通信可能な端末内で)、その端末が生成したタグ列を自分の音声タグDB17003内に複製する。この「一定の時間内の過去」かつ「自端末の現在地からの一定の範囲内」を「音声タグ管理範囲」と呼ぶ。なお、他端末から音声タグをコピーする場合、列全てを複製せずに、その「一定の時間内の過去」分だけの複製でもよい。
【0106】
また、当然、音声タグDB17003内のある音声タグ列において、音声タグ管理範囲内に入っている音声タグが1つもなくなってしまった場合、その音声タグ列は削除してよい(音声タグDB17003の容量が十分大きければ、しばらくは削除しなくてもよい)。
【0107】
なお、このマップ管理範囲と音声タグ管理範囲においては、通信可能な端末を問題にしているが、うまくP2Pネットワークが構築されれば通信可能な端末とは事実上全端末を指すことになる。これではデータ交換を行う範囲が広すぎ、ネットワークに負荷をかけすぎる可能性があるため、実際の実装上では、ホップ数の制限等を加える必要がある。
【0108】
17007は、ネットワークI/Fであり、P2Pネットワーク17010を利用して近隣の端末と通信を行う。
【0109】
17020は、他の端末であり、基本的には端末17000と同等のものである。すなわち、他端末17020は、端末17000に対して実施の形態1における音源位置サーバと同様の機能を果たすことになり、音源位置サーバ装置と捉えることができる。
【0110】
図18は、図17に示した音源位置探査システムが利用される様子を示した模式図である。18000〜18003は端末、18030と18031が音源、18020〜18022がルーティング経路である。
【0111】
18000〜18002の端末(端末群18040)は、お互いにマップ管理範囲及び音声タグ管理範囲内にあるデータを持っているとする。すると、端末群18040内では、マップ管理範囲内及び音声タグ管理範囲内にあるデータは時間とともに共有化されていくことになる。
【0112】
一方、端末18003が持っているデータは、マップ管理範囲内及び音声タグ管理範囲内にないのだから、共有されることはない。また、端末18003が、自分が生成した音声タグ(Yとする)を、経路18022を介して端末18002に送信したとしても、それがさらに端末18001に転送されることもない。これは、Yは、長さ1の音声タグ列として、端末18002内の音声タグDBに登録されるが、直後にYは、DBマップ同期部17006により削除されてしまうからである。なお、一旦登録した直後に削除するのは、効率が悪いため、最初からYの受け取り拒否をするようにしてもよい。
【0113】
このように、近い距離にある端末同士(ある端末が音声タグを生成して他端末に送っても、それが削除されないような距離)の中では、おおむね位置計測部17005が位置を精密化するのに必要なデータが揃う。すなわち、実施の形態1で説明したような動作と同様な音源位置の推定動作がなされることになる。
【0114】
以上のように、サーバクライアント構成(実施の形態1)と比較して、P2P構成でも同様な音源位置の推定が可能である。さらにP2P構成ではサーバクライアント構成に比較した利点もある。サーバクライアント方式では、サーバ側に音声タグ列をすべて集めて、その上で位置情報の精密化を行う。サーバ側では多数のデータを処理しなければならず、あるクライアント(端末)が、他クライアント由来の位置情報を利用できるようになるまでには、多少時間がかかることになる。
【0115】
それに対して、P2P側では、ある端末の近隣の端末が生成した音声タグが、ほぼリアルタイムに自分の音声タグDB内に複製されることになるため、他端末で収録した音声を、自分で収録した音声と時間的な差違がほとんどなく利用することができる。
【0116】
ここで、図19、図20を使って、この利点に関して具体的に説明をする。図19は、マップ17004に、道路と車を重ね合わせて図示した模式図である。19000、19001は道路であり、19001は19000にT字路として交わっている。19020、19030、19040、17000は、端末であり、これら端末を持っているユーザ4人は、それぞれ道の路側帯に立っていることになる。なお、17000は、図17の端末と同じものであり、この説明の中では自端末と呼称する場合もある。他の19020、19030、19040も、基本的な端末内の構成は、17000と同じである。
【0117】
このような状況で、1台の車Cが図面上から下方向に道路上を走っており、時刻t0、t1、t2における車Cの位置を示している。ただし、t0<t1<t2である。
【0118】
19021、19031、19041、19051は、指向性情報のパターンを、それぞれの端末の位置に応じてマップ17004上に重ねて表示したものである。
【0119】
なお、4台の全ての端末は、お互いにマップ管理範囲と音声タグ管理範囲にあり、また通信可能であるとする。このため、ある端末で作成された音声タグは、リアルタイムで他の端末の音声タグDB内にもコピーされる。
【0120】
時刻t2以降の時点nowにおける端末17000の音声タグDB17003内を模式的に図20に示す。音声タグDB17003内には、端末17000が自分で作成した音声タグ列20030の他に、端末19020が作成した音声タグ列20000、端末19030が作成した音声タグ列20010、端末19040が作成した音声タグ列20020の複製が存在している。つまり、他端末で音声タグが生成されると、瞬時に端末17000にも転送され、既にある音声タグ列の末尾(つまり現時点)に追加される。
【0121】
ここで、音響指紋変換部1002は、車Cが走行時に発する音声に対して、同一の音声タグ指紋列を生成することができるとする。この場合に、音声タグDB内17003内の音声タグ列19020、19030、19040には、同一の音響指紋列が存在することになる。つまり、図20おいて、20001、20011、20021の部分である。
【0122】
これら、音響指紋列に対する位置は、20002、20012、20022中に存在する各端末の位置とマイクの方向(ただし、ここでは説明の便宜上、無指向性とするので、マイクの方向は意味をもたない)、指向性情報から図19の19021、19031、19041の円内となる。つまり、端末17000の場所からは、車Cの音を直接聞くことはできないが(指向性情報パターン19051の外にあるので)、音源が自端末17000方向に向って、上から下(例えば、北から南)に近づいてくることがわかる。
【0123】
もし、今音源に対する音響指紋列20001等からこの音響指紋列が車のエンジン音やサイレン等であることが分かれば、おおよそ自端末17000の方向に向っているものが、車であることまで分かることになる。さらに、道路19000があるなどの地理情報も利用できれば、この車が、道路19000上にあることまで推論できるだろう。この場合は、端末17000のユーザに対して、「この道19001から道路19000に出ると、ちょうど車Cが接近しており、危ない」などの警告を出すことも可能であろう。この警告機能は、ユーザが例えばヘッドホンを用いて音楽を聞いており、周囲の音をよく聞き取れない状況であるとか、聴覚障碍者にとっても有用であると思われる。
【0124】
このように実施の形態2によれば、端末を用いたP2P型の音源位置探査システムを構築し、端末毎に取得した音響指紋列をP2Pネットワークを介して複数の端末間で互いに共有して、音響指紋による音声のマッチングを行うことにより、音源位置の推定精度を向上させることができる。
【産業上の利用可能性】
【0125】
本発明にかかる音源位置探査システムは、モバイル端末を用いて音源位置の推定精度を向上させるものとして有用である。
【符号の説明】
【0126】
1000 携帯情報端末
1001 マイクロホン
1002 音響指紋変換部
1003 メモリ
1004 位置取得部
1005 マイク方向取得部
1006 データ送信部
1007 ネットワークインタフェース
1010 音源位置サーバ
1011 DB登録部
1012 音声タグDB
1013 音源位置計算部
1014 ネットワークインタフェース
1030 ネットワーク
2000、2001、2002 携帯情報端末
2020、2021 音源
2030、2031 無線ネットワークアクセスポイント
4000、4002 携帯情報端末
11000、11001、11002、11003 携帯情報端末
13000、13001 携帯情報端末
14000、14001、14002、14003 携帯情報端末
15000、15001 携帯情報端末
17000 携帯情報端末
17001 データ送信部
17002 DB登録部
17003 音声タグDB
17004 マップ
17005 音源位置計算部
17007 ネットワークインタフェース
17010 ピアツーピアネットワーク
17020 他の携帯情報端末
18000、18001、18002、18003 携帯情報端末
18030、18031 音源
19020、19030、19040 携帯情報端末


【特許請求の範囲】
【請求項1】
マイクロホンと、
前記マイクロホンによって収録された音声を音響指紋に変換する音響指紋変換手段と、
現在地を示す位置情報を取得する位置取得手段と、
前記マイクロホンの指向性を示す指向性情報、前記音響指紋、前記位置情報及び自装置を識別する識別子を組にした音声タグを送信する送信手段と、
を有する無線通信端末装置と、
複数の無線通信端末装置より送信された前記音声タグを識別子毎に時系列で記憶する音声タグ記憶手段と、
異なる識別子間で前記音声タグの一部が一致又は近似しており、かつ、一定の時間内に収録された音響指紋を探索し、探索された音響指紋と同じ組の位置情報及び指向性情報を用いて、音源の位置を推定する音源位置計算手段と、
を有するサーバ装置と、
を具備する音源位置探査システム。
【請求項2】
前記サーバ装置は、前記無線通信端末装置とピアツーピアネットワークを介して接続された他の無線通信装置である請求項1に記載の音源位置探査システム。
【請求項3】
前記無線通信端末装置は、前記マイクロホンの向いているマイク方向を取得するマイク方向取得手段を具備し、
前記送信手段は、前記マイク方向を前記音声タグに加えて送信し、
前記サーバ装置における前記音源位置計算手段は、前記マイク方向と指向性情報とを組み合わせて、音源位置を推定する、
請求項1又は請求項2に記載の音源位置探査システム。
【請求項4】
前記無線通信端末装置における前記送信手段は、前記マイクロホンの録音利得である録音レベルを前記音声タグに加えて送信し、
前記サーバ装置における前記音源位置計算手段は、前記マイクロホンの録音利得と指向性情報とを組み合わせて、音源位置を推定する、
請求項1又は請求項2に記載の音源位置探査システム。
【請求項5】
前記音源位置計算手段は、同一の識別子を有する複数の音声タグの一部が一致又は近似しており、かつ、一定の時間内に収録された音響指紋を探索する、
請求項1又は請求項2に記載の音源位置探査システム。
【請求項6】
前記音声タグ記憶手段は、音源が発した音声の音響指紋を含む音声タグを予め記憶する、
請求項1又は請求項2に記載の音源位置探査システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate