説明

発言者位置特定システム、位置信号出力装置及び位置特定装置

【課題】音声コミュニケーションシステムにおいて、マイクを用いずに短時間で発言者の位置を特定することができ、複数の人が同時に発言を行う場合でも、各発言者の位置を特定することができるようにする。
【解決手段】本発明は、発言者の位置を特定する発言者位置特定システムにおいて、利用者が発した音声を検出し、その音声検出結果に応じて、所定のタイミングで複数の信号波を出力する1又は複数の位置信号出力装置と、各位置信号出力装置から出力された複数の信号波を受信し、受信した複数の信号波を用いて、当該信号波を出力する位置信号出力装置の距離及び方向を求め、当該位置信号出力装置の位置を発言者の位置として特定する位置特定装置とを備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発言者位置特定システム、位置信号出力装置及び位置特定装置に関し、例えば会議システム等の音声コミュニケーションシステムで、複数の参加者のうち発言者の位置を特定する発言者位置特定システム、位置信号出力装置及び位置特定装置に適用し得るものである。
【背景技術】
【0002】
複数の参加者の間で会議システムを用いて会議を行う場合、発言者の音声や映像を正しく捉えることが望まれる。
【0003】
例えば、広い会議室の場合、発言者の位置を正確に特定することが難しく、発言者の音声や映像を正確に捉えることが難しい。また例えば、それぞれ離れた拠点間で会議を行う場合、高品質、高臨場感を実現するために、発言者の音声や映像を正確に捉えることが要求される。
【0004】
そのため、会議システム等の音声コミュニケーションシステムでは、発言者の音声や映像を明瞭に伝達するために、発言者の位置を特定することが必要である。
【0005】
例えば、特許文献1には、音声の発生方向より発言者の方向を検出し、カメラ映像から発言者の領域を検出し、これらの検出結果を複合的に判断することにより、発言者の位置を特定する技術が記載されている。特許文献1の記載技術は、固定的に全景を撮影するカメラで発言者の位置を検出し、その検出位置に向けてズーム用のカメラを回転させたり又はズームさせたりして発言者の映像を捉えることとしている。
【0006】
また、特許文献2には、音声の発生方向に基づいてカメラの位置を制御し、カメラ映像から発言者を検出して、映像中の発言者の位置にマーカを表示させる方法が記載されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平5−244587号公報
【特許文献2】特開2003−189273号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述した特許文献1及び特許文献2の記載技術は、音声の発生方向にカメラを向けて発言者を検出する技術である。
【0009】
発言者が一人の場合には、マイクが捉える音源が1つであるから、その音源の方向にカメラを向けることができるが、複数の者が同時に発言する場合には、複数の音声が重畳されてマイクに収音されるので、音声の発生方向を検出することができない。
【0010】
そのため、複数の人が同時に発言を行う場合でも発言者の位置を検出することが望まれている。
【0011】
また、特許文献1の記載技術は、発言者を検出するための全景撮影用カメラと、発言者の映像を伝達するためのズームカメラとを別々に用意しなければならず、例えば会議を行うために、合わせて2台以上のカメラが必要となるという問題がある。
【0012】
さらに、特許文献1の場合、発言者を検出するカメラが回転やズームが可能であれば、発言者の映像を伝達するカメラと共用することができるが、発言者を確認するまでに時間がかかってしまうという問題がある。
【0013】
また、特許文献2の記載技術は、音声の発生方向に基づいてカメラを制御する際、一旦、全景が写るようにカメラを制御した後に、発言者を検出するため、発言者の映像を捉えるまでの時間がかかる場合があるという問題点がある。
【0014】
そのため、カメラを用いず、短時間で発言者の位置を検出することが望まれている。
【0015】
そこで、本発明は、以上の問題に鑑みたものであり、例えば会議や電話等のコミュニケーションを行う際に、マイクを用いずに短時間で発言者の位置を特定することができ、複数の人が同時に発言を行う場合でも、各発言者の位置を特定することができる発言者位置特定システム、位置信号出力装置及び位置特定装置を提供する。
【課題を解決するための手段】
【0016】
かかる課題を解決するために、第1の本発明の位置信号出力装置は、発言者の位置を示す位置信号を出力する位置信号出力装置であって、(1)それぞれ複数の信号波を上記位置信号として出力する信号波出力手段と、(2)利用者が発した音声を検出する音声検出手段と、(3)音声検出手段により検出された音声検出結果に応じて、信号波出力手段から出力される複数の信号波の出力制御を行う信号生成制御手段とを備えることを特徴とする。
【0017】
第2の本発明の位置特定装置は、第1の本発明の位置信号出力装置から出力された位置信号に基づいて、発言者の位置を特定する位置特定装置であって、(1)位置信号出力装置から出力された複数の信号波を受信する受信手段と、(2)受信手段により受信された複数の信号波を用いて、当該信号波を出力する位置信号出力装置の距離及び方向を求め、当該位置信号出力装置の位置を発言者の位置として特定する発言者位置特定手段とを備えることを特徴とする。
【0018】
第3の本発明の発言者位置特定システムは、発言者の位置を特定する発言者位置特定システムにおいて、(1)利用者が発した音声を検出し、その音声検出結果に応じて、所定のタイミングで複数の信号波を出力する第1の本発明の1又は複数の位置信号出力装置と、(2)各位置信号出力装置から出力された複数の信号波を受信し、受信した複数の信号波を用いて、当該信号波を出力する位置信号出力装置の距離及び方向を求め、当該位置信号出力装置の位置を発言者の位置として特定する第2の本発明の位置特定装置とを備えることを特徴とする。
【発明の効果】
【0019】
本発明によれば、音声コミュニケーションシステムにおいて、マイクを用いずに短時間で発言者の位置を特定することができ、複数の人が同時に発言を行う場合でも、各発言者の位置を特定することができる。その結果、発言者の音声や映像を正しく捉えることができ、発言者の音声や映像を明瞭に伝達することができる。
【図面の簡単な説明】
【0020】
【図1】第1の実施形態の位置被検出装置と会議端末の構成を示す構成図である。
【図2】第1の実施形態の位置被検出装置の外観構成図である。
【図3】第1の実施形態の位置被検出装置の機能構成を示す構成図である。
【図4】第1の実施形態の位置検出部の機能構成を示す構成図である。
【図5】第1の実施形態の位置被検出装置における動作を説明する説明図である。
【図6】第1の実施形態の位置検出部における動作を説明する説明図である。
【図7】第2の実施形態の位置被検出装置と会議端末の構成を示す構成図である。
【図8】第2の実施形態の位置被検出装置の外観構成図である。
【図9】第2の実施形態の位置被検出装置の機能構成を示す構成図である。
【図10】第2の実施形態の位置信号受信部の構成を示す構成図である。
【図11】第2の実施形態の位置特定部の機能構成を示す構成図である。
【図12】第2の実施形態の位置被検出装置における動作を説明する説明図である。
【図13】第2の実施形態の位置検出装置における動作を説明する説明図である。
【図14】第2の実施形態の位置検出装置における方向を求める動作を説明する説明図である。
【図15】第3の実施形態の位置被検出装置における動作を説明する説明図である。
【図16】第4の実施形態の位置被検出装置における動作を説明する説明図である。
【発明を実施するための形態】
【0021】
(A)第1の実施形態
以下では、本発明の発言者位置特定システム、位置信号出力装置及び位置特定装置の第1の実施形態を、図面を参照しながら説明する。
【0022】
第1の実施形態では、複数の参加者が参加するテレビ会議システムを構成する発言者位置特定システムに、本発明を適用した場合の実施形態を例示する。
【0023】
第1の実施形態のテレビ会議システムは、様々な態様で用いることができ、例えば、広い会議室で行う会議や、それぞれ離れた拠点間で行う遠隔会議などで用いることができる。
【0024】
(A−1)第1の実施形態の構成
(A−1−1)全体構成
図1は、第1の実施形態のテレビ会議システムを構成する位置被検出装置1A及び会議端末2Aの構成を示す構成図である。
【0025】
位置被検出装置1Aは、発言者の音声が入力されると、位置信号を出力する位置信号出力装置である。ここで、位置信号は、位置被検出装置1Aの位置を知らせる信号である。例えば、位置信号としては、複数の電磁波を適用することができる。これにより、複数の電磁波を検出した会議端末2Aの位置検出部21が、複数の電磁波の送出元である位置被検出装置1Aの位置を特定することで、発言者の位置を特定することができる。
【0026】
位置被検出装置1Aが送出する電磁波としては、例えば、電波、赤外線、可視光線等を適用することができる。また、複数の電磁波は、それぞれ波長が同じものであってもよいし、それぞれ波長が異なるものであってもよい。第1の実施形態では、複数の電磁波がそれぞれ赤外線である場合を例示する。
【0027】
また、位置被検出装置1Aは、例えば、会議参加者が所持したり又は会議参加者の近傍に置かれたりして、発言者の音声を捉えることができる位置に置かれるものである。例えば、位置被検出装置1Aは、参加者が使用するマイクやテーブルの上に置かれる卓上装置等に搭載されるようにしてもよい。
【0028】
会議端末2Aは、参加者の音声、映像を捉え、音声データ、映像データに基づく会議データを用いてテレビ会議を制御するものである。会議端末2Aは、例えば、ネットワークを通じて、図示しない他の会議端末や会議サーバとの間で会議データの授受を行うことができる。また、会議端末2Aは、発言者の発言に伴い複数の電磁波を検出し、この複数の電磁波の検出により位置被検出装置1Aの位置(発言者の位置)を特定するものである。
【0029】
図1に示すように、会議端末2Aは、位置検出部21、撮影制御部22、会議制御部23、マイク24、カメラ25、テレビモニタ26、スピーカ27などを有して構成されるものである。
【0030】
位置検出部21は、到来した複数の電磁波を2次元イメージセンサで受信し、当該イメージセンサから得られる2次元領域上の画像データに基づいて、各電磁波の送出元の位置データを検出するものである。また、位置検出部21は、検出した位置データを撮影制御部22に与えるものである。
【0031】
ここで、位置検出部21は、2次元イメージセンサ等の2次元領域上で電磁波の送出位置を特定するものである。この2次元イメージセンサは、位置被検出装置1Aが送出する電磁波を検出することができるものであれば、特に限定されるものではなく、例えば、赤外線イメージセンサ、CCDイメージセンサ、CMOSイメージセンサなどを適用することができる。第1の実施形態では、電磁波が赤外線であることから、赤外線イメージセンサを適用する場合を例示する。
【0032】
撮影制御部22は、位置検出部21から位置データを受け取り、この位置データに基づいて、発言者の位置を撮像するようにカメラ25に対してカメラ制御データを与えるものである。また、撮影制御部22は、マイク24からマイクデータや、撮像したカメラデータをカメラ25から受け取り、マイクデータとカメラデータをメディアデータとして会議制御部23に与えるものである。
【0033】
会議制御部23は、撮影制御部22からのメディアデータに基づいて会議データを生成してネットワークに伝送したり、又ネットワークを通じて外部機器から受信した会議データを復号し、復号映像データをテレビモニタ26に与えたり、復号音声データをスピーカ27に与えたりするものである。
【0034】
マイク24は、参加者が発した音声を捕捉したマイクデータを撮影制御部22に与えるものである。なお、マイク24の数は、1個である必要はなく、複数個備えるようにしてもよい。
【0035】
カメラ25は、撮影制御部22からのカメラ制御データに基づいて撮像するものである。カメラ25は、撮影制御部22の制御の下、例えば、回転、ズームなどを行い、発言者の位置を撮像する。なお、カメラ25の数は特に限定されるものではない。
【0036】
スピーカ27は、会議制御部27から復号音声データを受け取り、この復号音声データに基づいて音声を出力するものである。なお、スピーカ27の数は特に限定されるものではない。
【0037】
テレビモニタ26は、会議制御部26から受け取った復号映像データに基づいて映像を映し出すものである。なお、テレビモニタ26の数も特に限定されるものではない。
【0038】
(A−1−2)位置被検出装置1Aの構成
図2は、位置被検出装置1Aの外観構成の一例を示す外観図である。
【0039】
位置被検出装置1Aは、発言者の位置を特定するために、参加者が所持したり又は参加者の近傍に置かれることが望ましい。位置被検出装置1Aの形態は、特に限定されるものではないが、図2では、位置被検出装置1Aの外観構成の一例として、ピンマイク型とした場合(図2(a)参照)、卓上型とする場合(図2(b)参照)の外観構成を例示する。
【0040】
図2(a)に例示するピンマイク型の位置被検出装置1Aは、例えば利用者の衣服等の固定することができるものである。そのため、筐体10を衣服等に固定する固定具14を有している。
【0041】
図2(b)に例示する卓上型の位置被検出装置1Aは、例えばテーブルなどの上に置くことができるものである。図2(b)では、筐体10が立方体である場合を例示するが、その形状は特に限定されるものではない。
【0042】
図2(a)及び図2(b)に示すように、位置被検出装置1Aは、例えば2個の赤外線発光素子12が表出している。2個の赤外線発光素子12の相互距離は、特に限定されるものではないが、会議端末2Aの位置検出部21に予め登録されている。すなわち、位置検出部21は、2個の赤外線発光素子の距離を認識している。
【0043】
赤外線発光素子12は、例えば発光ダイオードなどを適用することができ、後述する音声センサ11により音声入力により発光するものである。赤外線発光素子12の発光タイミングや発光パタンは、例えば位置被検出装置1A毎や利用者毎等に異なるものとしてよい。なお、2個の赤外線発光素子12が共に同じ発光パタンであることが望ましい。
【0044】
また、位置被検出装置1Aの筐体10内部には、音声センサ11及び電池13がある。音声センサ11は、音を感知して電気信号に変換するものである。また、電池13は、電源の一例であり、例えば、乾電池、太陽電池などを広く適用することができる。
【0045】
図3は、位置被検出装置1Aの機能構成を示すブロック図である。図3において、位置被検出装置1Aは、音声検出部101、信号生成制御部102、信号発生部103を少なくとも有する。
【0046】
音声検出部101は、参加者が発声した音声を検出し、音声検出データを信号生成部102に与えるものである。音声検出部101は、例えば、図2に例示する音声センサ11が該当する。
【0047】
信号生成制御部102は、音声検出部101からの音声検出データに基づいて、制御信号を信号発生部103に与えるものである。信号生成制御部102は、例えば、図2に例示する赤外線発光素子12の発光タイミングや発光パタンなどを制御するものである。
【0048】
信号発生部103は、信号生成制御部102からの制御信号に基づいて、電磁波である位置信号(発言者信号ともいう)を発生するものである。信号生成制御部102は、例えば、図2に例示する赤外線発光素子12の一部に該当するものであり、信号生成制御部102の制御を受けて赤外線を発光する。
【0049】
(A−1−3)位置検出部21の構成
図4は、位置検出部21の機能構成を示すブロック図である。図4に示すように、位置検出部21は、受信部211、画像データ形成部212、時間変化検出部213、空間位置算出部214を有する。
【0050】
受信部211は、到来する電磁波を受信するものである。受信部211は、例えば、イメージセンサの受信部を適用することができる。
【0051】
画像データ形成部212は、受信部211が受信した信号に基づいて2次元領域上での受信信号の位置を示す画像データを形成するものである。
【0052】
時間変化検出部213は、画像形成部212により形成された画像データを時間軸上で監視し、画像データの時間変化を検出するものである。
【0053】
空間位置算出部214は、画像データ形成部212により形成された画像データの位置を、会議を行う室内空間における位置に換算するものである。
【0054】
(A−2)第1の実施形態の動作
次に、第1の実施形態の発言者位置特定処理の動作を図面を参照しながら説明する。
【0055】
以下では、それぞれ離れた拠点間でテレビ電話会議を行う場合に、いずれの拠点で発言した発言者の位置を特定し、その発言者の音声及び映像を他の拠点に伝送する場合を例示して説明する。
【0056】
(A−2−1)位置被検出装置1Aによる位置信号の送出処理
まず、発言者が発言すると、位置被検出装置1Aの音声検出部101が、発話区間を示す音声検出データを信号生成制御部102に出力する。
【0057】
信号生成制御部102は、音声検出部101からの音声検出データに基づいて、音声が検出された発話区間において所定のタイミングで、2個の赤外線発光素子12を同時に発光制御する。これにより、2個の赤外線発光素子12は、赤外線による発言者信号を出力(発光)する。
【0058】
図5は、位置被検出装置1Aにおける動作を説明する説明図である。以下では、図5を参照しながら、位置被検出装置1Aにおける動作を詳細に説明する。
【0059】
音声検出部101は、入力した音声信号の信号強度を所定時間毎に積算する。そして、信号強度の積算値が所定値より大きい場合発話状態にあると判断し、音声検出データを出力する。
【0060】
例えば、図5(A)は、音声入力信号の信号波形を示す。位置被検出装置1Aに音声入力信号が入力すると、音声検出部101は、音声入力信号の信号強度の積算値を求め、この積算値が所定値を超えると、図5(B)に示すように音声検出データを出力する。また、音声検出部101は、音声入力信号が入力されなくなり、信号強度の積算値が減少して所定値以下となると音声検出データの出力を止める。これにより、図5(B)に示すように、時刻t1〜t2の区間と時刻t3〜t4の区間とを発話区間として検出する。
【0061】
なお、ここでは、例えば、瞬時に入力した音を発言音声と判断しないために、音声入力信号の信号強度の積算値を用いることとするが、音声を検出することができるのであれば、音声検出部101が音声入力信号の入力に基づいて発話状態を検出するようにしてもよい。
【0062】
次に、信号生成制御部102は、音声検出部101により検出された時刻t1〜t2の区間と、時刻t3〜t4の区間とにおいて、ランダムに発言者信号の出力タイミングを決定し、該タイミングにて2個の赤外線発光素子12を同時に駆動制御する。
【0063】
これにより、信号発生部103である赤外線発光素子12は、信号生成制御部102の制御の下、所定の発光パタンで赤外線を位置信号として出力する。ここで、信号生成制御部102は、発話区間内に2個の赤外線発光素子12を発光させるようにする。
【0064】
例えば、図5(C)及び図5(D)は、発言者信号の出力パタンを示す。図5(C)は、2個の赤外線発光素子のうちの一方の素子に対する信号パタンであり、図5(D)は、他方の素子に対する信号パタンである。
【0065】
図5(C)及び図5(D)では、音声検出部101が発話を検出すると、これをトリガーにして信号生成制御部102が発言者信号1及び発言者信号2を出力する。その後、信号生成制御部102は、直前の出力タイミングから所定時間経過後に、次の発言者信号1及び発言者信号2を出力する。この直線の出力タイミングを基準にした所定時間は、例えば予め予測される発話区間よりも短い期間とすることが望ましいが、特に限定されるものではなく、予め設定してもよいし、ランダムに可変するようにしてもよい。
【0066】
上記のように、2個の赤外線発光素子12は、信号生成制御部102の制御により、発行パタンが同じ赤外線が同時に出力される。
【0067】
(A−2−2)位置検出部21の位置検出処理
位置検出部21は、位置被検出装置1Aからの位置信号を、赤外線イメージセンサで受信し、当該赤外線イメージセンサから得られる赤外画像データの時間変化に基づいて、位置被検出装置1Aの2個の赤外線発光素子12の位置を検出する。
【0068】
さらに、位置検出部21は、3次元空間上の位置情報に変換し、この位置情報を発言者データとして撮影制御部22に与える。
【0069】
図6は、位置検出部21による位置検出動作を説明する説明図である。以下では、図6を参照しながら、位置検出部21の位置検出動作を詳細に説明する。
【0070】
図6に示す矩形領域は、位置検出部21の赤外線イメージセンサで受信された赤外画像データを示す。
【0071】
例えば、2人の発言者がほぼ同時に発言した場合、それぞれの発言者の各位置被検出装置1Aは位置信号を出力する。すなわち、4個の赤外線発光素子12が発光する。位置検出部21では、赤外線イメージセンサの受信部211で赤外線発光素子12が発光した赤外線を受信し、画像データ形成部212が受信した赤外線に基づく画像データを形成して、信号強度の高い対象を2次元領域の赤外画像データ上で検出する。この4個の対象を、図6では「A」、「B」、「C」、「D」とする。
【0072】
位置検出部21では、時間変化検出部213が、赤外画像データの時間変化に基づいて、上記4個の対象の中から、同一の位置被検出装置1Aから出力された2個の対象を組として選択する。
【0073】
ここで、時間変化検出部213による対象の選択方法は、種々の方法を適用することができるが、例えば、赤外線発光素子12の発光パタンが時間的に同じであるものを組として選択する。すなわち、位置被検出装置1Aの2個の赤外線発光素子12は、時間的に同じ発光パタンで点滅する。また、発光パタンは、位置被検出装置1A毎に異なる。そこで、時間変化検出部213は、赤外画像データの時間変化を監視して、時間変化に伴い同じパタンで発光する対象を組として選択する。
【0074】
例えば、図6に例示する赤外画像では、AとBとが同じ発光パタンであり、CとDとが同じ発光パタンであるとする。時間変化検出部213は、赤外画像データの時間的変化を監視し、発光パタンが同じであるAとB、CとDをそれぞれ組として選択する。そして、AとBが同じ位置被検出装置1Aから発光された赤外線発光素子12であり、CとDが別の位置被検出装置1Aから発光された赤外線発光素子12であると識別することができる。
【0075】
次に、位置検出部21では、空間位置算出部214が、赤外画像データ上の赤外線発光素子の位置に基づいて、対応する位置被検出装置1Aの3次元空間上の位置を求める。
【0076】
空間位置算出部214による3次元空間上での位置被検出装置1Aの位置の求める方法は、種々の方法を適用することができるが、例えば以下のようにして求めることができる。
【0077】
空間位置算出部214は、赤外線イメージセンサの光学的特性に基づき、赤外線発光素子12の3次元空間上の方向を、赤外画像データ上の位置(例えば、図5のA)から一意に求める。
【0078】
さらに、空間位置算出部214には、位置被検出装置1Aの2個の赤外線発光素子の間の距離が予め登録されている。そこで、空間位置算出部214は、赤外線イメージセンサの光学的特性に基づき、赤外線発光素子12までの距離を赤外画像データ上での距離(例えば、図5のAB間の距離)から一意に求める。
【0079】
例えば、赤外画像データは2次元領域であるから、赤外画像データ上で検出された各対象の位置(x,y)を知ることができる。そのため、空間位置算出部214は、同じ位置被検出装置1Aから発光されていると判断された、赤外画像データ上の2個の対象の位置から、当該2個の対象の距離を求める。
【0080】
そして、空間位置算出部214は、赤外線イメージセンサの光学的特性に基づいて用意された変換表を参照することにより、赤外画像データ上で計測された2個の赤外線受光素子12の位置と距離を、発言者通知装置の3次元空間上の位置(距離と方向)の情報に変換し、これを発言者データとして撮影制御部22に出力する。
【0081】
図6の例では、位置検出部21は、(A、B)の組に対応した位置被検出装置1Aと、(C、D)の組に対応した位置被検出装置1Aの両方に対応する発言者データを撮影制御部22に出力する。
【0082】
(A−2−3)会議端末2Aにおける処理
次に、位置検出部21により検出された位置被検出装置1Aの位置を用いた、会議端末2Aにおける処理を説明する。
【0083】
撮影制御部22は、位置検出部21から1又は複数の発言者データを受け取ると、1又は複数の発言者データのそれぞれの位置情報に基づいてカメラ25の向きを制御したり、距離情報に基づいてカメラ25のズームを制御したりする。
【0084】
また、撮影制御部22は、各発言者データの位置情報に基づき、マイク24から入力したマイクデータから、発言者の方向にある音源の音声データを抽出し、発言者データの距離情報に基づき該音声データの音量を制御する。
【0085】
ここで、撮影制御部22による特定方向の音源からの音声データを抽出する方法(音源分離方法)としては、種々の方法を広く適用することができる。例えば、第1の実施形態では、マイクを構成する2×2の音波センサ各々の音響信号に遅延を与えて合成した空間フィルタを複数種類用意し、これらを組み合わせて再合成することにより、特定方向の音響データを取り出す方法を適用する(参照文献:矢頭隆、森戸誠、「臨場感テレワークにおける音処理技術」、OKIテクニカルレビュー、第213号Vol.75、No.2、pp.16−20、2008年10月)。
【0086】
撮影制御部22は、カメラ25から入力されたカメラデータと、音波データに基づき音源分離された音声データとを合わせ、メディアデータとして会議制御部23に出力する。
【0087】
会議制御部23は、撮影制御部22からメディアデータを入力すると、これを符号化して会議データとしてネットワーク経由にて外部機器へ送信する。これにより、発言者に適した映像及び音声を遠隔地に伝達することができる。
【0088】
また、会議制御部23は、外部機器からネットワーク経由で受信した会議データを復号し、復号映像データをテレビモニタ26に出力し、復号音声データをスピーカ27に出力する。これにより、利用者は、遠隔地からの映像及び音声を視聴できる。
【0089】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、位置被検出装置が発言者の発話状況に基づいてランダムなタイミングにて2つの発言者信号を送出し、会議端末がこれを受信して、同タイミングで発生する発信者信号の組を検出して、これに基づいて発信通知装置の3次元空間上の位置を特定するので、複数の人が同時に発言を行う場合においても、発言者の位置を検出可能である。これにより、発言者の3次元空間上の位置に基づいて、発言者の映像及び音声を制御することが可能となる。
【0090】
(B)第2の実施形態
次に、本発明の発言者位置特定システム、位置信号出力装置及び位置特定装置の第2の実施形態を、図面を参照しながら説明する。
【0091】
第2の実施形態も、第1の実施形態と同様に、テレビ会議システムの発言者特定システムに本発明を適用した場合の実施形態を例示する。
【0092】
(B−1)第2の実施形態の構成
図7は、第2の実施形態のテレビ会議システムを構成する位置被検出装置1B及び会議端末2Bの構成を示す構成図である。
【0093】
第2の実施形態が、第1の実施形態と異なる点は、位置被検出装置1Bの構成と、位置被検出装置1Bの位置を特定する会議端末2Bの構成及び処理である。
【0094】
従って、以下では、第2の実施形態の特徴的な位置被検出装置1Bの構成と、会議端末2Bの内部構成を中心に説明することとし、第1の実施形態で既に説明した構成及び処理については省略する。
【0095】
(B−1−1)位置被検出装置1Bの構成
図8は、位置被検出装置1Bの外観構成の一例を示す外観図である。図8(a)は、ピンマイク型とした場合であり、図8(b)は卓上型とした場合である。
【0096】
位置被検出装置1Bは、第1の実施形態と同様に、発言者の位置を特定するために、参加者が所持したり又は参加者の近傍に置いたりすることが望ましい。
【0097】
図8(a)及び図8(b)に例示するように、位置被検出装置1Bは、例えば1個の赤外線発光素子12と1個の音波振動素子41とを有する。なお、図8(a)及び図8(b)では赤外線発光素子12の上方に音波振動子41を設けているが、赤外線発光素子12及び音波振動素子41の配置は特に限定されるものではない。
【0098】
音波振動素子41は、音声センサ11により入力音声が検出されると、所定の信号波を送出するものである。
【0099】
赤外線発光素子12は、第1の実施形態と同様に、例えば、発光ダイオオードなどを適用することができ、音声センサ11により音声の入力に応じて発光するものである。
【0100】
ここで、音波振動子41及び赤外線発光素子12の駆動制御が、第1の実施形態と異なる。第1の実施形態では、音声センサ11により検出された発話区間に音波振動子41及び赤外線発光素子12を駆動させるが、第2の実施形態では、無音区間にこれらを駆動させる。
【0101】
図9は、第2の実施形態の位置被検出装置1Bの機能構成を示す構成図である。図9において、位置被検出装置1Bは、音声検出部101、信号生成制御部202、信号発生部203を少なくとも有する。
【0102】
音声検出部101は、第1の実施形態と同様に、音声入力信号の信号強度の積算値を求め、この積算値が所定値を超えると発話区間、積算値が所定値以下になると無音区間として音声を検出するものである。
【0103】
信号生成制御部202は、音声検出部101からの音声検出データに基づいて、無音区間に、音波振動素子41及び赤外線発光素子12を駆動させる制御信号を出力するものである。
【0104】
信号発生部203は、例えば、音波振動素子41及び赤外線発光素子12に該当し、信号生成制御部202からの制御信号に基づいて、位置信号(発言者信号)を出力するものである。
【0105】
(B−1−2)会議端末2Bの構成
第2の実施形態の会議端末2Bが、第1の実施形態と異なる点は、位置検出部21に代えて、位置信号受信部31及び位置特定部32を備える点である。
【0106】
位置信号受信部31は、到来した位置信号を受信するものである。位置信号受信部31は、位置信号として赤外線と音波振動素子41からの信号波を受信し、受信した赤外線データ及び信号波データ(音波データ)を位置特定部32に与えるものである。また、位置信号受信部31は、参加者が発した音声を入力して、その音声信号を音波データとして撮影制御部22に与えるものである。
【0107】
図10は、位置信号受信部31の構成を示す構成図である。図10において、位置信号受信部31は、1個の赤外線センサ310、4個の音波センサ311〜314を有して構成される。
【0108】
図10に示すように、位置信号受信部31は、赤外線センサ310を中心として、4個の音波センサ311〜314を2行2列で配置する。これにより、x、y、z軸で表現される3次元空間において、原点に赤外線センサ310が配置され、z=0平面上に原点を中心とした音波センサ311〜314が配置される。
【0109】
位置特定部32は、位置信号受信部31が受信した赤外線データ及び音波データを受け取り、この赤外線データ及び音波データに基づいて、3次元空間における位置被検出装置1Bの位置を特定するものである。また、位置特定部32は、求めた位置被検出装置1Bの位置を位置データとして撮影制御部22に与えるものである。
【0110】
図11は、位置特定部32の機能構成を示す構成図である。図11において、位置特定部32は、位置信号受信部31からの赤外線データ及び音波データに基づいて、3次元空間上での位置被検出装置1Bの位置を算出する空間位置算出部320を有する。
【0111】
図11に示すように、空間位置算出部320は、遅延算出部321、距離算出部322、方向特定部323を有する。
【0112】
遅延算出部321は、位置信号受信部31による赤外線データの受信時刻を基準として、位置信号受信部31による各音波データの受信時刻を求めることにより、各音波データの受信に係る遅延時間を求めるものである。
【0113】
距離算出部32は、遅延算出部321により求められた各音波データの受信に係る遅延時間に基づいて、各音波センサ311〜314から位置被検出装置1Bまでの距離を求めるものである。
【0114】
方向特定部323は、遅延算出部321により求められた各音波データの受信に係る遅延に基づいて、会議端末2Bから位置被検出装置1Bの方向を求めるものである。
【0115】
(B−2)第2の実施形態の動作
次に、第2の実施形態の発言者位置特定処理の動作を、図面を参照しながら説明する。(B−2−1)位置被検出装置1Bによる位置信号の送出処理
図12は、位置被検出装置1Bの動作を説明する説明図である。
【0116】
まず、参加者が発言すると、発声された音声が位置被検出装置1Bに入力する。音声検出部101は、音声入力信号の信号強度を所定時間毎に積算し、その積算値が所定値を超えると音声検出データを出力し、積算値が所定値以下となると音声検出データの出力を止める。
【0117】
例えば、図12(A)及び図12(B)の場合、音声検出部101は、時刻t1〜t2の区間、時刻t3〜t4の区間を発話区間とし、この区間に音声検出データを出力する。
【0118】
信号生成制御部202は、音声検出部101からの音声検出データに基づいて、音声検出後の最初の無音時に、音波振動素子41及び赤外線発光素子12に対して、信号を送出させる制御信号を与える。
【0119】
ここで、音声は、通常、文節や文章の切れ目に無音区間が存在する。例えば、図12(A)及び図12(B)に示すように、音声入力信号は、無音区間と発話区間とが交互に繰り返すパタンで入力される。
【0120】
信号生成制御部202は、図12(C)及び図12(D)に示すように、音声検出データを受け取り、その後の最初の無音時(すなわち、時刻t2)に、赤外線発光素子12と音波振動素子41とを同時に駆動させるように制御信号を出力する。
【0121】
これにより、赤外線発光素子12と音波振動素子41はそれぞれ、信号生成部202からの制御信号を受け取り、信号を送出する。
【0122】
例えば、赤外線発光素子12は、一定時間だけ赤外線を発光し、音波振動素子41は、所定の単一周波数の音波を一定時間だけ発振する。すなわち、位置信号のうち赤外線による信号は、一定時間だけ発光するパタン信号となり、位置信号のうち音波による信号は、単一周波数の音波を一定期間だけ発振するパタン信号となる。
【0123】
(B−2−2)位置検出処理
位置被検出装置1Bから送出された位置信号は、会議端末2Bの位置信号受信部31により受信される。
【0124】
ここで、位置信号受信部31は、図10に示すように、1個の赤外線センサ310と、これを中心とした4個の音声センサ311〜314とを有して構成される。
【0125】
そのため、位置信号のうち赤外線については赤外線センサ310により受信され、赤外線センサ310により検知されると、赤外線データが位置特定部32に与えられる。また、位置信号のうち音波については、音波センサ311〜314により受信され、音波センサ311〜314により検知されると、音波データが位置特定部32に与えられる。
【0126】
位置信号受信部31からの赤外線データ及び音波データが、位置特定部32に与えられると、位置特定部32は、赤外線データ及び音波データに基づいて、3次元空間上の位置被検出装置1Bの位置を求め、距離情報及び方向情報からなる位置データを撮影制御部22に与える。
【0127】
ここで、位置特定部32による位置被検出装置1Bの位置の特定方法は、種々の方法を適用することができるが、その一例として、以下の方法を適用することができる。
【0128】
図13は、位置特定部32により位置特定処理を説明する説明図である。なお、図13では、音波センサから出力される音波センサ信号(音波データ)については、2つだけを示している。
【0129】
まず、位置特定部32では、位置信号受信部31からの赤外線データ及び音波データを受け取り、遅延算出部321が、赤外線センサ310による赤外線検知時刻を基準にして、各音波センサ311〜314による音波検知時刻を求めて、音波センサ311〜314からの各音波データについて遅延時間を求める。
【0130】
これは、例えば図13(A)及び図13(B)に示すように、位置被検出装置1Bから赤外線と音波とが同時に出力されるが、伝搬速度は赤外線の方が速いので、赤外線は、出力とほぼ同時に位置信号受信部31の赤外線センサ310により検知される(図13(C)参照)。一方、音波は赤外線より伝搬速度が遅いので、遅延して受信される(図13(D)及び図13(E)参照)。
【0131】
そこで、遅延算出部321は、赤外線検知時刻を基準にして、音波センサ1信号の遅延時間をT1、音波センサ2信号の遅延時間をT2とする。
【0132】
距離算出部322は、遅延算出部321により求められた各音波データの遅延時間に基づいて、各音波センサ311〜314から位置被検出装置1Bまでの距離を求める。
【0133】
位置被検出装置1Bまでの距離の算出方法は、例えば、音波の伝播速度に、各音波データの遅延時間を乗算することにより、位置被検出装置1Bと位置信号受信部31との間の距離を求めることができる。
【0134】
また、方向特定部323は、遅延算出部321からの各音波データの遅延時間に基づいて、位置被検出装置1Bの方向を求める。
【0135】
ここで、方向特定部323による位置被検出装置1Bの方向を求める方法は、種々の方法を広く適用することができるが、例えば、以下のような方法を用いることができる。
【0136】
図14は、位置被検出装置1Bの方向を求める方法を説明する説明図である。図14では、z=0の平面上に2個の音波センサ311及び音波センサ312が配置されている場合を示す。
【0137】
例えば、距離算出部322により求められた位置被検出装置1Bと位置信号受信部31との間の距離が、音波センサ311と音波センサ312と間の距離Dに比べて十分に大きい場合を考える。この場合、図14に示すように、音波センサ311及び音波センサ312に到来する音波の入射角度θは同じであると考えることができる。
【0138】
また、このとき、音波センサ311及び音波センサ312に到来する音波は、Δだけの遅延をもってそれぞれの音波センサ311及び312に入力される。従って、音波センサ311及び音波センサ312に到来する音波の遅延時間τは、各音波センサ311及び312への入射角度θとには、式(1)のような幾何学的関係がある。
【0139】
θ=sin−1(Δ/D) …(1)
Δ=v・τ …(2)
ただし、Dは、音波センサ間の距離、vは音波伝播速度を示す。
【0140】
なお、図14は、水平平面上に配置した音波センサ間の音波の遅延関係を説明したが、垂直平面上に配置した場合にも式(1)の関係式は成立する。従って、4個の音波センサ311〜314について、位置信号(音波)の受信時刻差を計測することにより、3次元空間における位置被検出装置1Bの方向を求めることができる。
【0141】
以上の原理に基づき、位置特定部32は、赤外線データと音波データの中からデータ強度の変化時刻を検出し、これに基づいて、位置被検出装置1Bまでの距離および3次元空間での方向を計算し、これを位置データとして撮影制御部22に出力する。
【0142】
撮影制御部22以降の会議端末2Bの処理は、第1の実施形態で説明した処理と同じであるので、ここでの説明を省略する。
【0143】
(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、位置被検出装置が発言者の発話状況に基づいて赤外線と音波の位置信号を送出し、会議端末が1個の赤外線センサと4個の音波センサで受信し、これらの受信時刻差に基づいて位置被検出装置の3次元位置を検出するので、カメラを必要とすることなく、短時間で、発言者の位置を検出することができる。
【0144】
また、第2の実施形態では、位置被検出装置を、発言者による音声の隙間を検出して、その期間に位置信号を送出するように構成したので、発言者による音声と位置信号の音波とが同時に発生することを避けることができ、会議端末における発言者の位置検出を安定に行うことができる。
【0145】
(C)第3の実施形態
次に、本発明の発言者位置特定システム、位置信号出力装置及び位置特定装置の第3の実施形態を、図面を参照しながら説明する。
【0146】
第3の実施形態も、第2の実施形態と同様に、テレビ会議システムの発言者特定システムに本発明を適用した場合の実施形態を例示する。
【0147】
(C−1)第3の実施形態の構成及び動作
第3の実施形態が、第2の実施形態と異なる点は、位置被検出装置1Bの音波振動素子41が音波に代えて超音波を送出すること、超音波及び赤外線を送出するタイミングである。
【0148】
そこで、第3の実施形態では、図7〜図11を参照しながら、第3の実施形態に特徴的な処理を中心に説明することとし、第1及び第2の実施形態で既に説明した構成については省略する。
【0149】
図7において、第3の実施形態の位置被検出装置1Bは、音波振動素子41及び赤外線発光素子12を有する。音波振動素子41は、音声センサ11の音声入力の検知に応じて、超音波を出力する素子である。
【0150】
図9において、第3の実施形態の位置被検出装置1Bは、音声検出部101、信号生成制御部202、信号発生部203を有する。
【0151】
ここで、第3の実施形態の信号生成制御部202は、音声検出部101から音声検出データに基づき、発話区間において、所定のパタンで超音波及び赤外線を出力するように、制御信号を信号生成部203に与えるものである。
【0152】
これにより、参加者が発言すると、その発話区間において、音波振動素子41及び赤外線発光素子12が、同時に同じパタンで、超音波及び赤外線を出力することとなる。
【0153】
図15は、第3の実施形態の位置被検出装置1Bにおける動作を説明する説明図である。
【0154】
図15において、参加者が発言すると、その発声した音声が位置被検出装置1Bに与えられる(図15(A)参照)。音声検出部101は、第1の実施形態と同様にして音声入力信号を検出し、音声検出データを出力する(図15(B)参照)。
【0155】
信号生成制御部202は、音声検出部101からの音声検出データに基づいて、発言者による発言開始直後及びその後の所定周期毎に音声が検出された場合に、赤外線及び超音波を出力させる制御信号を出力する。
【0156】
例えば、図15(B)に例示するように、音声検出部101は、時刻t1〜t2の区間と時刻t3〜t4の区間とを発話区間とする。
【0157】
この場合、信号生成制御部202は、音声が検出された時刻t1に、赤外線発光素子12と音波振動素子41を同時に駆動する。これにより、赤外線発光素子12及び音波振動素子41は、同時に赤外線及び超音波を位置信号として出力する。
【0158】
さらに、信号生成制御部202は、その後、所定周期毎に音声の有無を確認し、音声が検出された場合、赤外線発光素子12と音波振動素子41を同時に駆動する。これにより、発話区間において、赤外線発光素子12及び音波振動素子41から所定周期毎に赤外線及び超音波を出力することになる。
【0159】
会議端末2Bにおいて、位置信号受信部31は、基本的には第2の実施形態と同じ構成であるが、第2の実施形態と異なる点は、音波センサ311〜314が、超音波の周波数帯域まで検出できることである。
【0160】
位置信号受信部31は、1個の赤外線センサ310と、4個の音波センサ311〜314とに基づいて赤外線と超音波を検出して、赤外線データ及び超音波データを位置特定部32に与える。なお、位置特定部32以降の処理は、第2の実施形態で説明したので、ここでの処理説明は省略する。
【0161】
(C−2)第3の実施形態の効果
以上のように、第3の実施形態によれば、位置被検出装置が発言者の発話状況に基づいて赤外線と超音波の位置信号を送出し、会議端末が1個の赤外線センサと4個の超音波センサで受信し、これらの受信時刻差に基づいて位置被検出装置の3次元位置を検出するので、第2の実施例と同様に、カメラを必要とすることなく、短時間で、発言者の位置を検出することができる。
【0162】
また、第3の実施形態によれば、発言者による音声と位置信号の超音波が同時に発生しても、会議端末における発言者の位置検出を安定に行うことができ、同時に、会議参加者の耳に超音波の位置信号が検知されることがないという効果もある。
【0163】
(D)第4の実施形態
次に、本発明の発言者位置特定システム、位置信号出力装置及び位置特定装置の第4の実施形態を、図面を参照しながら説明する。
【0164】
第4の実施形態も、第2の実施形態と同様に、テレビ会議システムの発言者特定システムに本発明を適用した場合の実施形態を例示する。
【0165】
(D−1)第4の実施形態の構成及び動作
第4の実施形態が、第2の実施形態と異なる点は、位置被検出装置1Bの音波振動素子41が音波に代えて音声帯域外の信号波を送出すること、音声帯域外の信号波及び赤外線を送出するタイミングである。
【0166】
そこで、第4の実施形態でも、図7〜図11を参照しながら、第4の実施形態に特徴的な処理を中心に説明することとし、第1及び第2の実施形態で既に説明した構成については省略する。
【0167】
図16は、第4の実施形態の位置被検出装置1Bにおける動作を説明する説明図である。
【0168】
まず、参加者が発話すると、位置被検出装置1Bの音声検出部101が発話区間を示す音声検出データを出力し、次に、位置被検出装置1Bの信号生成制御部202が、該音声検出データに基づいて発言者による発言開始直後に、赤外線および音声帯域外の信号波を出力させる制御信号を出力する。
【0169】
図16において、音声検出部101は、音声入力信号の信号強度を一定時間間隔毎に積算し、その値が所定借より大きい場合に発話状態にあると判断し、音声検出データを出力する。例えば、図16では、時刻t1〜t2の区間と時刻t3〜t4の区間において、音声検出データが出力される。
【0170】
次に、信号生成制御部202は、音声が検出された時刻t1およびt3に、赤外線発光素子12と音波振動素子41を同時に駆動して、赤外線発光素子12と音波振動素子41が赤外線及び音声帯域以外の信号波を位置信号として出力する。
【0171】
位置信号受信部31は、位置被検出装置1Bからの位置信号を、1個の赤外線センサ310と4個の音波センサ311〜314にて受信し、その受信信号を赤外線データ及び音波データとして、位置特定部32に出力する。なお、音声センサ311〜314は、音声帯域以外の信号波を検出するできるものである。
【0172】
位置特定部32は、第2の実施形態と同様の原理に基づいて、位置被検出装置1Bまでの距離および3次元空間での方向からなる位置データを求め、撮影制御部22に出力する。
【0173】
第2の実施形態の位置特定部32は、赤外線データと音波データの中からデータ強度の変化時刻を検出し、これに基づいて、位置被検出装置1Bまでの距離および3次元空間での方向を計算した。
【0174】
第4の実施形態は、赤外線及び音声帯域以外の信号波を発話区間に出力させる。そのため、第4の実施形態では、発言者の音声と位置信号との混信による位置信号の誤検出を避ける必要がある。
【0175】
そこで、位置特定部32は、第2の実施形態と同様の原理を用いるが、次に示すような方法をさらに適用する。
【0176】
例えば、位置特定部32は、4個の音波センサ311〜314の音波データから各々音声帯域外の信号波データを抽出し、そのうち、4個の信号波データ間で一定区間毎の相互相関関数または相当量を計算し、相互相関数または相当量がピークを示す音波データ間の時間差を検出して、これを各音波センサ311〜314間の受信時間差とみなす。
【0177】
すなわち、任意の2つの音波データS1(t)、S2(t)の時間区間(T1,T2)における相互相関関数CCF(T1,dt)とする。例えば、この相互相関関数CCF(T1,dt)は式(3)のように示すことができる。
【数1】

【0178】
位置特定部32は、相互相関関数CCF(T1,dt)に基づいて、時間区間(T1,T2)を変化させながら、CCF(T1,dt)がピーク値を示すdtを求め、これを音波センサ間の受信時間差とみなす。
【0179】
さらに、位置特定部32は、上記受信時刻差に基づいて、第2の実施形態と同様の方法により、位置被検出装置1Bまでの距離および3次元空間での方向を計算する。これ以降の会議端末2Bの処理は、第1及び第2の実施形態で説明した処理なので説明を省略する。
【0180】
(D−2)第4の実施形態の効果
以上のように、第4の実施形態によれば、位置被検出装置が発言者の発話状況に基づいて赤外線と音声帯域外の音波(信号波)の位置信号を送出し、会議端末が1個の赤外線センサと4個の音波センサで受信し、これらの受信時刻差に基づいて位置被検出装置の3次元位置を検出するので、第2の実施形態と同様に、カメラを必要とすることなく、短時間で、発声者の位置を検出することができる。
【0181】
また、第4の実施形態の会議端末は、発言者による音声と位置信号の音波が同時に発生しても、周波数フィルタで両者を分離して処理するので、会議端末における発言者の位置検出を安定に行うことができる。しかも、会議端末において、発言者による音声を入力するマイクと位置信号の音波を入力するマイクとを同じ音響帯域のデバイスとして共用化することができるので、超音波を用いる第3の実施形態に比べて、会議端末のコストを低減させることができる。
【0182】
(E)他の実施形態
(E−1)第1〜第4の実施形態では、本発明による発言者位置特定システムをテレビ会議システムに適用した場合について説明したが、本発明の利用形態はテレビ会議システムに限定されるものではない。
【0183】
例えば、音声によるコミュニケーションを伴う他の利用分野(例えば、音声会議システム、音声電話、テレビ電話、音声プレゼンテーションなど)に本発明を適用するようにしてもよい。これにより、発言者の位置を検出し、該位置に基づく情報伝達が可能となる。
【0184】
(E−2)第1の実施形態では、位置被検出装置が、音声を検出している間、発言者信号をランダムなタイミングで送信する場合について説明したが、位置被検出装置の他の構成として、音声を検出している間、発言者信号を、発言者または発言通知装置毎に一意に設定されたタイミングで送信するように構成してもよく、第1の実施例と同様に、複数の人が同時に発言を行う場合においても、発言者の位置を検出可能である。
【0185】
さらに、この場合、位置検出部が上記のタイミングを識別することにより、発言者または位置被検出装置を識別できるので、会議データに発言者のID情報を加えることによって、誰が発言しているのかを他の会議参加者に通知するなど、発言者毎の会議データ管理が可能となる。
【0186】
(E−3)第2〜第4の実施形態では、位置信号受信部の音波センサを4個で構成する場合について説明した。図14に説明したように、水平または垂直方向の角度を検出するための音波センサは最低2個必要であるので、3次元空間上の角度を検出するためには音波センサは最低3個あればよい。また、角度の検出精度を向上させるために、音波センサの個数を増やしてもよい。さらに、位置被検出装置と会議端末がほぼ同じ水平面上に存在することが保証される場合には、水平方向に配置した2個の音波センサのみを用意してもよい。
【0187】
(E−4)上述した第1〜第4の実施形態において、位置被検出装置及び会議端末における処理は、いわゆるソフトウェア処理により実現することができる。例えば、ハードウェア構成として、CPU、ROM、RAM、EEPROM等からなり、CPUが、ROMに格納された処理プログラムを読み出し、処理に必要なデータを用いて処理プログラムを実行することにより各機能を実現することができる。
【符号の説明】
【0188】
1A及び1B…位置被検出装置、
11…音声センサ、12…赤外線発光素子、41…音波振動素子、
101…音声検出部、102及び202…信号生成制御部、
103及び203…信号発生部、
2A及び2B…会議端末、
21…位置検出部、22…撮影制御部、23…会議制御部、24…マイク、
25…カメラ、26…テレビモニタ、27…スピーカ、
31…位置信号受信部、310…赤外線センサ、311〜314…音波センサ、
32…位置特定部、
211…受信部、212…画像データ形成部、213…時間変化検出部、
214及び320…空間位置算出部、321…遅延算出部、322…距離算出部、
323…方向特定部。

【特許請求の範囲】
【請求項1】
発言者の位置を示す位置信号を出力する位置信号出力装置であって、
それぞれ複数の信号波を上記位置信号として出力する信号波出力手段と、
利用者が発した音声を検出する音声検出手段と、
上記音声検出手段により検出された音声検出結果に応じて、上記信号波出力手段から出力される複数の信号波の出力制御を行う信号生成制御手段と
を備えることを特徴とする位置信号出力装置。
【請求項2】
上記複数の信号波がいずれも電磁波であり、
上記信号生成制御手段が、上記音声検出手段により検出された音声検出区間に、上記複数の電磁波を同時に出力させるものである
ことを特徴とする請求項1に記載の位置信号出力装置。
【請求項3】
上記複数の信号波のうち、一方は電磁波であり、他方が音響波であり、
上記信号生成制御手段が、上記音声検出手段により検出された音声の無音区間に、上記電磁波及び音響波を同時に出力させるものである
ことを特徴とする請求項1に記載の位置信号出力装置。
【請求項4】
上記複数の信号波のうち、一方は電磁波であり、他方は不可聴音信号波であり、
上記信号生成制御手段が、上記音声検出手段により検出された音声検出区間に、上記電磁波及び不可聴音信号波を同時に出力させるものである
ことを特徴とする請求項1に記載の位置信号出力装置。
【請求項5】
請求項1〜4のいずれかに記載の位置信号出力装置から出力された位置信号に基づいて、発言者の位置を特定する位置特定装置であって、
上記位置信号出力装置から出力された複数の信号波を受信する受信手段と、
上記受信手段により受信された複数の信号波を用いて、当該信号波を出力する上記位置信号出力装置の距離及び方向を求め、当該位置信号出力装置の位置を発言者の位置として特定する発言者位置特定手段と
を備えることを特徴とする位置特定装置。
【請求項6】
上記受信手段がイメージセンサであり、2次元領域上で上記複数の信号波を検出し、
上記発言者位置特定手段が、上記受信手段により検出された2次元領域上での検出位置間の距離を用いて、3次元領域上での位置を求めるものである
ことを特徴とする請求項5に記載の位置特定装置。
【請求項7】
上記受信手段が、電磁波検知部と、複数の音信号波検知部とを有するものであり、
上記発言者位置特定手段が、上記電磁波検知部の検知結果と、上記複数の音信号波検知部の検知結果とから求めた到来時刻差に基づいて、上記位置信号出力装置の距離及び方向を求めるものである
ことを特徴とする請求項5に記載の位置特定装置。
【請求項8】
上記発言者位置特定手段が、上記複数の音信号波検知部から音声帯域外の信号を抽出し、任意の音信号波検知信号部に対応した対象信号と、他の音信号波検知信号部に対応した対象信号との相関を取り、この相関がピーク値を示す時間差に基づいて、上記位置信号出力装置の方向を求めるものである
ことを特徴とする請求項5又は7に記載の位置特定装置。
【請求項9】
発言者の位置を特定する発言者位置特定システムにおいて、
利用者が発した音声を検出し、その音声検出結果に応じて、所定のタイミングで複数の信号波を出力する請求項1〜4のいずれかに記載の1又は複数の位置信号出力装置と、
上記各位置信号出力装置から出力された複数の信号波を受信し、受信した複数の信号波を用いて、当該信号波を出力する上記位置信号出力装置の距離及び方向を求め、当該位置信号出力装置の位置を発言者の位置として特定する請求項5〜8のいずれかに記載の位置特定装置と
を備えることを特徴とする発言者位置特定システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2011−199763(P2011−199763A)
【公開日】平成23年10月6日(2011.10.6)
【国際特許分類】
【出願番号】特願2010−66717(P2010−66717)
【出願日】平成22年3月23日(2010.3.23)
【出願人】(308033722)株式会社OKIネットワークス (165)
【Fターム(参考)】