位置出力装置、位置出力システムおよびプログラム
【課題】音声を発生する話者の三次元位置を、より良好に把握することができる位置出力装置等を提供する。
【解決手段】装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み話者の音声を取得する少なくとも3個以上設けられるマイクロフォン11a,11b,11cと、装着者の口からの距離が互いに異なる2つのマイクロフォン11a、マイクロフォン11cで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する識別手段と、識別手段によって話者が他者と識別された場合に、話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、を備えることを特徴とする端末装置10。
【解決手段】装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み話者の音声を取得する少なくとも3個以上設けられるマイクロフォン11a,11b,11cと、装着者の口からの距離が互いに異なる2つのマイクロフォン11a、マイクロフォン11cで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する識別手段と、識別手段によって話者が他者と識別された場合に、話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、を備えることを特徴とする端末装置10。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、位置出力装置、位置出力システムおよびプログラムに関する。
【背景技術】
【0002】
特許文献1には、互いに所定の距離だけ離れて配置される少なくとも3つのマイクロホンと、3つのマイクロホンのうち第1の組み合わせの2つのマイクロホンから出力される出力信号の時間差又は位相差を検出して音源の方向を検出する第1の方向検出手段と、第2の組み合わせの2つのマイクロホンから出力される出力信号の時間差又は位相差を検出して音源の方向を検出する第2の方向検出手段と、を有し、第1の方向検出手段及び第2の方向検出手段により得られる方向を基にして音源の位置を特定するようにしたマイクロホン装置が開示されている。
また特許文献2には、正三角形の頂点に配置された3つのマイクロホンからなるマイクロホンアレーと、マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定部と、を具備する。音源方向推定部は、到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平1−109996号公報
【特許文献2】特開2010−175431号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、音声を発生する話者の三次元位置を、より良好に把握することを目的とする。
【課題を解決するための手段】
【0005】
請求項1に記載の発明は、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、を備えることを特徴とする位置出力装置である。
【0006】
請求項2に記載の発明は、前記対面角度は、2個の前記音声取得手段を結ぶ線分と、当該線分の中点および話者を結ぶ線分との角度であることを特徴とする請求項1に記載の位置出力装置である。
請求項3に記載の発明は、前記位置導出手段は、2個の前記音声取得手段を結ぶ線分の中点を頂点とし前記対面角度を半頂角とする円錐の側面に話者の音声の音源が位置するとともに、当該音源は3つの当該円錐の側面の交点に位置することを利用して話者の三次元位置を導出することを特徴とする請求項1または2に記載の位置出力装置である。
請求項4に記載の発明は、前記初期値選択手段は、話者が置かれる三次元空間中に設定され初期値の候補となる候補点に対する対面角度と話者に対する対面角度を比較することで前記候補点の中から初期値を選択することを特徴とする請求項1乃至3の何れか1項に記載の位置出力装置である。
請求項5に記載の発明は、前記初期値選択手段および前記位置導出手段を収容する装置本体と、前記装置本体に両端が接続することにより環形状をなす紐部材と、をさらに備え、
前記音声取得手段は、前記紐部材に少なくとも1つ取り付けられ、環形状の前記紐部材を首に掛けることで前記装置本体を装着者に装着するようにしたことを特徴とする請求項1乃至4の何れか1項に記載の位置出力装置である。
【0007】
請求項6に記載の発明は、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、前記位置導出手段により導出された話者の三次元位置の情報を出力する出力手段と、前記出力手段により出力された話者の三次元位置の情報を受信する受信手段と、を備えることを特徴とする位置出力システムである。
【0008】
請求項7に記載の発明は、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、前記音声取得手段により取得された前記音声の情報を出力する出力手段と、前記出力手段により出力された前記音声の情報を受信する受信手段と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、を備えることを特徴とする位置出力システムである。
【0009】
請求項8に記載の発明は、コンピュータに、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上の音声取得手段に取得された話者の音声の情報を取得する機能と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する機能と、話者が他者と識別された場合に、取得された話者の音声の情報から、前記音声取得手段に話者の音声が到達する時間差を導出する機能と、前記時間差および前記音声取得手段が離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を導出する機能と、前記対面角度から、話者の三次元位置を導出するための数値計算の初期値を選択する機能と、選択された初期値を用いた数値計算により話者の三次元位置を導出する機能と、を実現させるプログラムである。
【発明の効果】
【0010】
請求項1の発明によれば、本発明を採用しない場合に比べ、音声を発生する話者の三次元位置を、より良好に把握することができる位置出力装置を提供できる。
請求項2の発明によれば、本発明を採用しない場合に比べ、対面角度の数学的取り扱いがより簡単になる。
請求項3の発明によれば、本発明を採用しない場合に比べ、話者の三次元位置を求めるための方程式がより簡単になる。
請求項4の発明によれば、本発明を採用しない場合に比べ、より適切な初期値を選択することができる。
請求項5の発明によれば、本発明を採用しない場合に比べ、装置の装着をより簡単に行なうことができる。
請求項6の発明によれば、話者の三次元位置を利用して装着者と話者の関係を推測することができるシステムを構築できる。
請求項7の発明によれば、話者の三次元位置を利用して装着者と話者の関係を推測することができるシステムを構築できる。
請求項8の発明によれば、本発明を採用しない場合に比べ、音声を発生する話者の三次元位置を、より良好に把握することができる機能をコンピュータにより実現できる。
【図面の簡単な説明】
【0011】
【図1】本実施形態による位置出力システムの構成例を示す図である。
【図2】端末装置の構成例を示す図である。
【図3】音声解析部についてさらに詳しく説明した図である。
【図4】端末装置の動作について説明したフローチャートである。
【図5】(a)〜(c)は、本実施の形態において時間差を求める方法を説明した図である。
【図6】本実施の形態における対面角度について説明した図である。
【図7】第1マイクロフォンおよび第2マイクロフォンを使用して対面角度を求める方法について説明した図である。
【図8】各点の位置関係を示した概念図である。
【図9】1つの円錐について抜き出して説明した図である。
【図10】設定される候補点の三次元位置を示した概念図である。
【図11】端末装置の一例を示した図である。
【図12】端末装置の一例を示した図である。
【図13】数値計算における初期値と数値計算の結果との関係について説明した図である。
【図14】端末装置の一例を示した図である。
【発明を実施するための形態】
【0012】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<システム構成例>
図1は、本実施形態による位置出力システムの構成例を示す図である。
図1に示すように、本実施形態の位置出力システム1は、位置出力装置の一例である端末装置10とホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(Wireless Fidelity)(登録商標)、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wideband)等の既存の方式による回線を用いて良い。また、図示の例では、端末装置10が1台のみ記載されているが、詳しくは後述するように、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。
【0013】
端末装置10は、話者の音声を取得するための音声取得手段として、3個以上設けられるマイクロフォン(第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11c)と、増幅器(第1増幅器13a、第2増幅器13b、および第3増幅器13c)とを備える。また、端末装置10は、処理手段として、収録音声を解析する音声解析部15と、解析結果をホスト装置20に送信するためのデータ送信部16とを備え、さらに電源部17とを備える。
【0014】
本実施の形態において、第1マイクロフォン11aと第2マイクロフォン11bとは、水平方向に予め定められた距離だけ離間して配される。ここでは、第1マイクロフォン11aと第2マイクロフォン11bとは装着者の口に近い位置に水平方向に並んで配置され、この間の距離は例えば、10cm〜20cmである。また第3マイクロフォン11cは、第1マイクロフォン11a、第2マイクロフォン11bに対し装着者の口(発声部位)からの距離が遠い位置に配置される。ここでは、第3マイクロフォン11cは、第1マイクロフォン11a、第2マイクロフォン11bから、例えば35cm程度の距離をおいて下方に配置される。つまり本実施の形態では、端末装置10に配されるマイクロフォンは、装着者の口からの距離が互いに異なる2つ、および水平方向の距離が離れた2つの双方を選択可能となっている。ここでは前者として、第1マイクロフォン11aと第3マイクロフォン11cの組、および第2マイクロフォン11bと第3マイクロフォン11cの組が選択できる。さらに後者として、第1マイクロフォン11aと第2マイクロフォン11bの組が選択できる。
本実施形態の第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11cとして用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。とくに無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンが好ましい。
【0015】
第1増幅器13a、第2増幅器13b、および第3増幅器13cは、第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11cが取得音声に応じて出力する電気信号を増幅する。本実施形態の第1増幅器13a、第2増幅器13b、および第3増幅器13cとして用いられる増幅器としては、既存のオペアンプ等を用いて良い。
【0016】
音声解析部15は、第1増幅器13a、第2増幅器13b、および第3増幅器13cから出力された電気信号を解析し、話者の三次元位置を出力する。この話者の三次元位置を出力するための具体的な処理の内容については後述する。
【0017】
データ送信部16は、音声解析部15による解析結果を含む取得データと端末のIDを、上記の無線通信回線を介してホスト装置20へ送信する。ホスト装置20へ送信する情報としては、ホスト装置20において行われる処理の内容に応じて、上記の解析結果の他、例えば、第1マイクロフォン11a、第2マイクロフォン11b、第3マイクロフォン11cによる音声の取得時刻、取得音声の音圧等の情報を含めて良い。また端末装置10に音声解析部15による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。なお有線回線で送信しても良い。本実施の形態では、データ送信部16は、音声解析部15により導出された話者の三次元位置の情報を出力する出力手段として機能する。
【0018】
電源部17は、上記の第1マイクロフォン11a、第2マイクロフォン11b、第3マイクロフォン11c、第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15およびデータ送信部16に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部17は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。
【0019】
ホスト装置20は、端末装置10から送信されたデータを受信するデータ受信部21と、受信したデータを蓄積するデータ蓄積部22と、蓄積したデータを解析するデータ解析部23と、解析結果を出力する出力部24とを備える。このホスト装置20は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置10が使用され、ホスト装置20は、その複数台の端末装置10の各々からデータを受信する。
【0020】
データ受信部21は、上記の無線回線に対応しており、各端末装置10からデータを受信してデータ蓄積部22へ送る。本実施の形態では、データ受信部21は、データ送信部16により出力された話者の三次元位置の情報を受信する受信手段として機能する。データ蓄積部22は、データ受信部21から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置10から送信される端末IDと、あらかじめホスト装置20に登録されている発話者名と端末IDの照合により行う。また、端末装置10から端末IDの代わりに、装着者名を送信するようにしておいても良い。
【0021】
データ解析部23は、データ蓄積部22に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置10の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。
【0022】
出力部24は、データ解析部23による解析結果を出力したり、解析結果に基づく出力を行ったりする。この解析結果等を出力する手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。
【0023】
<端末装置の構成例>
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置10は、図2に示すように、装置本体30と、装置本体30に両端が接続することにより環形状をなす紐部材の一例である提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。
【0024】
装置本体30は、金属や樹脂等で形成された薄い直方体のケース31に、少なくとも第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15、データ送信部16および電源部17を実現する回路と電源部17の電源(電池)とを収納して構成される。また本実施の形態では、ケース31に第3マイクロフォン11cが設けられる。さらにケース31には、装着者の氏名や所属等のID情報を表示したIDカード等を挿入するポケットを設けても良い。また、ケース31自体の表面にそのようなID情報等を記載しても良い。
【0025】
提げ紐40には、第1マイクロフォン11a、第2マイクロフォン11bが設けられる(以下、第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11cをそれぞれ区別しない場合には、マイクロフォン11a,11b,11cと記載)。提げ紐40の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。
【0026】
この提げ紐40は、筒状の構造を有し、提げ紐40の内部にマイクロフォン11a,11bを収納している。マイクロフォン11a,11bを挙げ紐40の内部に設けることにより、マイクロフォン11a,11bの損傷や汚れを防ぎ、対話者がマイクロフォン11a,11bの存在を意識することが抑制される。本実施の形態では、この環形状の提げ紐40を首に掛けることで装置本体30を使用者である装着者に装着するようにしている。
【0027】
また図3は、音声解析部15についてさらに詳しく説明した図である。
図3に示すように、音声解析部15は、話者が装着者か他者であるかを識別する識別手段の一例としての自他識別部151と、各マイクロフォン11a,11b,11cに話者の音声が到達する時間差を求める時間差導出部152と、端末装置10を装着する装着者と話者の向き合う角度である対面角度を求める対面角度導出部153と、自他識別部151によって話者が他者と識別された場合に、話者の三次元位置を求めるための数値計算の初期値を選択する初期値選択手段の一例としての初期値選択部154と、初期値選択部154が初期値を選択するためのLUT(Look up Table)を格納するLUT格納部155と、初期値選択部154により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段の一例としての数値計算部156とを備える。
【0028】
図4は、端末装置10の動作について説明したフローチャートである。以下、図2〜図4を使用して端末装置10の動作について説明を行なう。
まずマイクロフォン11a,11b,11cが、話者の音声を取得する(ステップ101)。そして第1増幅器13a、第2増幅器13b、および第3増幅器13cが、それぞれ第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11cからの音声信号を増幅する(ステップ102)。
【0029】
そして音声解析部15の自他識別部151において、詳しくは後述する方法により、話者が装着者か他者であるかを識別する(ステップ103)。ここで話者が装着者であった場合(ステップ103でNo)は、ステップ101に戻る。また話者が他者であった場合(ステップ103でYes)は、増幅された音声信号は、音声解析部15の時間差導出部152に送られる。そして詳しくは後述する方法により、各マイクロフォン11a,11b,11cに話者の音声が到達する時間差が求められる(ステップ104)、具体的には、第1マイクロフォン11aと第2マイクロフォン11bとの間の時間差Δt12、第2マイクロフォン11bと第3マイクロフォン11cとの間の時間差Δt23、第3マイクロフォン11cと第1マイクロフォン11aとの間の時間差Δt31、がそれぞれ求められる。
【0030】
さらに対面角度導出部153において、詳しくは後述する方法により、この時間差Δt12,Δt23,Δt31、およびマイクロフォン11a,11b,11c同士が離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を求める(ステップ105)。なお対面角度についても、この後、詳細に説明を行なう。具体的には、時間差Δt12と第1マイクロフォン11aと第2マイクロフォン11bとの間の距離D12に基づき、対面角度αを求める。同様にして時間差Δt23と第2マイクロフォン11bと第3マイクロフォン11cとの間の距離D23に基づき、対面角度βを求め、時間差Δt31と第3マイクロフォン11cと第1マイクロフォン11aとの間の距離D31に基づき、対面角度γを求める。
【0031】
次に初期値選択部154において、LUT格納部155を参照して話者の三次元位置を導出するための初期値を選択する(ステップ106)。この初期値の選択の方法についても、この後、詳細に説明を行なう。
そして数値計算部156において、選択された初期値から開始する数値計算を行い、話者の三次元位置を導出する(ステップ107)。
この話者の三次元位置の情報は、データ送信部16によりホスト装置20に出力される(ステップ108)。
【0032】
<話者が装着者か他者であるかを識別する方法の説明>
以上の構成において、話者が装着者か装着者以外の者である他者であるかを識別(自他識別)する方法について説明する。
本実施形態のシステムは、端末装置10に設けられたマイクロフォンのうち、例えば、第1マイクロフォン11aと第3マイクロフォン11cにより収録された音声の情報を用いて、端末装置10の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、収録音声の発話者に関して自他の別を識別する。また、本実施形態では、収録音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧(第1マイクロフォン11aと第3マイクロフォン11cへの入力音量)等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。
【0033】
図1および図2を参照して説明したように、本実施形態において、端末装置10の第3マイクロフォン11cは装着者の口(発声部位)から遠い位置に配置され、第1マイクロフォン11aは装着者の口(発声部位)に近い位置に配置される。すなわち、装着者の口(発声部位)を音源とすると、第1マイクロフォン11aと音源との間の距離と、第3マイクロフォン11cと音源との間の距離が大きく異なる。例えば、第1マイクロフォン11aと音源との間の距離は、第3マイクロフォン11cと音源との間の距離の1.5〜4倍程度に設定することができる。ここで、マイクロフォン11a、11cにおける収録音声の音圧は、マイクロフォン11a、11cと音源との間の距離が大きくなるにしたがって減衰(距離減衰)する。したがって、装着者の発話音声に関して、第1マイクロフォン11aにおける収録音声の音圧と第3マイクロフォン11cにおける収録音声の音圧とは大きく異なる。
【0034】
一方、装着者以外の者(他者)の口(発声部位)を音源とした場合を考えると、その他者が装着者から離れているため、第1マイクロフォン11aと音源との間の距離と、第3マイクロフォン11cと音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口(発声部位)を音源とした場合のように、第1マイクロフォン11aと音源との間の距離が第3マイクロフォン11cと音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第1マイクロフォン11aにおける収録音声の音圧と第3マイクロフォン11cにおける収録音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。
【0035】
そこで、本実施形態では、第1マイクロフォン11aにおける収録音声の音圧と第3マイクロフォン11cにおける収録音声の音圧の比である音圧比を求める。そしてこの音圧比の差を用いて、収録音声における装着者自身の発話音声と他者の発話音声とを識別する。より具体的には、本実施形態では、第3マイクロフォン11cの音圧と第1マイクロフォン11aの音圧との比に閾値を設定する。そして、音圧比が閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値よりも小さい音声は他者の発話音声と判断する。つまり本実施形態では、自他識別部151において、マイクロフォン11a、11b、11cのうち、装着者の口からの距離が互いに異なる2つの第1マイクロフォン11aと第3マイクロフォン11cで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する。
【0036】
なお上述した例では、第1マイクロフォン11aと第3マイクロフォン11cを使用して自他識別の判断を行なったが、これに限られるものではなく、第2マイクロフォン11bと第3マイクロフォン11cを使用しても同様であることは勿論である。
また上述した例では、第1マイクロフォン11aおよび第3マイクロフォン11cによる収録音声の音圧を基に自他識別の判断を行なったが、これに収録音声の位相差の情報を加味することも考えられる。つまり装着者の口(発声部位)を音源とすると、上述した通り、第1マイクロフォン11aと音源との間の距離と、第3マイクロフォン11cと音源との間の距離は大きく異なる。そのため第1マイクロフォン11aによる収録音声と、第3マイクロフォン11cによる収録音声の位相差は大きくなる。一方、装着者以外の者(他者)の口(発声部位)を音源とした場合は、上述の通り、他者が装着者から離れているため、第1マイクロフォン11aと音源との間の距離と、第3マイクロフォン11cと音源との間の距離は、大きく変わらない。そのため第1マイクロフォン11aによる収録音声と、第3マイクロフォン11cによる収録音声の位相差は小さくなる。よって第1マイクロフォン11aおよび第3マイクロフォン11cによる収録音声の位相差を考慮することで自他識別の判断の精度が向上する。
【0037】
<マイクロフォンに話者の音声が到達する時間差を求める方法の説明>
各マイクロフォン11a,11b,11cに話者の音声が到達する時間差Δt12,Δt21,Δt31は、以下のようにして求めることができる。なお以下の説明は、時間差Δt12を求める場合を例に取り説明を行なうが、時間差Δt21,Δt31についても同様の方法により求めることができる。
【0038】
図5(a)〜(c)は、本実施の形態において時間差Δt12を求める方法を説明した図である。このうち図5(a)は、第1マイクロフォン11aと第2マイクロフォン11bに到達する話者の音声をサンプリング周波数1MHzでサンプリングし、そのデータの中から連続する5000ポイントを抜き出した図である。
ここで横軸は5000ポイントのデータにそれぞれに付けられたデータ番号を表わし、縦軸は、話者の音声の振幅を表わす。そして実線は、第1マイクロフォン11aに到達した話者の音声の波形信号であり、点線は、第2マイクロフォン11bに到達した話者の音声の波形信号である。
【0039】
本実施の形態では、この2つの波形信号の相互相関関数を求める。つまり一方の波形信号を固定し,他方の波形信号をシフトしつつ積和をとる計算を行なう。図5(b)〜(c)は、この2つの波形信号に対する相互相関関数を示した図である。このうち図5(b)は、サンプリングした5000ポイントのデータ全体の相互相関関数であり、図5(c)は、図5(b)に示した相互相関関数のピーク付近を拡大した図である。なお図5(b)〜(c)では、第1マイクロフォン11aに到達した話者の音声の波形信号を固定し、第2マイクロフォン11bに到達した話者の音声の波形信号をシフトして相互相関関数を求めた場合を示している。
図5(c)に示すようにデータ番号0を基準にしてピーク位置は、−227ポイントずれている。これは第1マイクロフォン11aを基準にして第2マイクロフォン11bに到達する話者の音声が、この分遅延して到達することを意味する。本実施の形態においてサンプリング周波数は、上述の通り1MHzなので、サンプリングした各データ間の時間は、1×10−6(s)である。よってこの遅延時間としては227×1×10−6(s)=227(μs)となる。つまりこの場合、時間差Δt12は、227(μs)である。
【0040】
<対面角度の説明>
図6は、本実施の形態における対面角度について説明した図である。
本実施の形態において対面角度とは、上述の通り端末装置10の装着者と話者の向き合う角度である。そして図6に本実施の形態で定義される対面角度について示している。ここでは、本実施の形態の対面角度の例として、第1マイクロフォン11aおよび第2マイクロフォン11bを基準とする対面角度αを図示している。
本実施の形態では、対面角度αとして、2個の音声取得手段である第1マイクロフォン11aと第2マイクロフォン11bとを結ぶ線分と、この線分の中点および話者を結ぶ線分との角度を採用する。これにより対面角度αの数学的取り扱いがより簡単になる。そしてこの定義を採用した場合、例えば、装着者と話者がそれぞれ正面を向いて対向しているときは、この二人の対面角度αは、90°となる。
なお第2マイクロフォン11bおよび第3マイクロフォン11cを基準とした対面角度である対面角度β、および第3マイクロフォン11cおよび第1マイクロフォン11aを基準とした対面角度である対面角度γも同様にして定義することができる。
【0041】
<対面角度を求める方法の説明>
図7は、第1マイクロフォン11aおよび第2マイクロフォン11bを使用して対面角度αを求める方法について説明した図である。
ここで、点M1を第1マイクロフォン11aの位置、点M2を第2マイクロフォン11bの位置であるとする。また点Sを話者の位置であるとする。なおここで話者の位置とは、より正確には、話者の音声の音源である発声点の位置である。そして発声点である点Sから発した音声は、同心円状に広がる。このとき音声は有限の速度である音速で広がるため音声が第1マイクロフォン11aの位置である点M1に到達した時間と第2マイクロフォン11bの位置である点M2に到達した時間とは異なり、音声の行路差δ12に対応した時間差Δt12が生じる。そして点M1と点M2との間の距離をD12、点M1と点M2の中点C12と点Sの間の距離をL12とするとこれらの間には次の(1)式が成立する。
【0042】
δ12=(L122+L12D12cosα+D122/4)0.5−(L122−L12D12cosα+D122/4)0.5 …(1)
【0043】
この(1)式は、L12>D12の場合、L12による影響が小さいため、下記(2)式に近似できる。
【0044】
δ12≒D12cosα …(2)
【0045】
また音速cと時間差Δt12を使用すると、下記(3)式が成立する。
【0046】
δ12=cΔt12 …(3)
【0047】
つまりこの(2)式および(3)式を使用することで、対面角度αが求まる。つまり2つの音声取得手段である第1マイクロフォン11aと第2マイクロフォン11bに話者の音声が到達する時間差Δt12および第1マイクロフォン11aと第2マイクロフォン11bが離間する距離D12に基づいて、装着者と話者の向き合う角度である対面角度αを導出することができる。なお対面角度β,γも同様にして導出することができる。
【0048】
<話者の三次元位置の導出方法の説明>
次に上述のようにして求められた対面角度α,β,γを利用して、話者の三次元位置を導出する方法の説明を行なう。
まずマイクロフォン11a,11b,11cの位置をそれぞれ点M1、点M2、点M3とすると、点M1、点M2、点M3を頂点とする三角形は、△M1M2M3となる。そして各頂点M1、M2、M3の三次元座標をここでは、それぞれ(xM1,yM1,zM1)、(xM2,yM2,zM2)、(xM3,yM3,zM3)とする。さらに線分M1M2の中点C12、線分M2M3の中点C23、線分M3M1の中点C31の三次元座標を、それぞれ(xC12,yC12,zC12)、(xC23,yC23,zC23)、(xC31,yC31,zC31)とする。また話者の位置である点Sの三次元座標を(x,y,z)とする。
【0049】
図8は、点M1、点M2、点M3、および点Sの位置関係を示した概念図である。
図8では、点M1および点M2の中点C12を頂点とし、半頂角をαとする円錐、および点M3および点M1の中点C31を頂点とし、半頂角をγとする円錐を実線で示している。そして上述した対面角度の定義より、点Sは、これらの円錐面(円錐の側面)の何れかの位置に存在することになる。
またこの関係は、点M2および点M3の中点C23を頂点とし、半頂角をβとする円錐、についても同様のことが言える。つまり、点Sは、これら3つの円錐の円錐面の交点に存在する。なお図8では、説明をわかりやすくするため、点M2および点M3の中点C23を頂点とし、半頂角をβとする円錐については、図示していない。
【0050】
また図9は、点M1および点M2の中点C12を頂点とし、半頂角をαとする円錐について抜き出して説明した図である。
ここで図9において、中点C12から円錐の底面に垂線を下ろし、中点C12を起点としてこの垂線方向にのびるaベクトルを考える。また、中点C12を起点として円錐面に沿った方向にのびるrベクトルを考える。このとき点M2は、この垂線上に存在し、aベクトルとrベクトルのなす角度は、対面角度αである。
そしてaベクトルとrベクトルの内積を使用してaベクトル、rベクトル、および対面角度αの関係を表わすと、次の(4)式、および(5)式が成立する。
【0051】
【数1】
【0052】
【数2】
【0053】
また点M1、中点C12、および点Sの三次元座標を使用すると、次の(6)式、(7)式、および(8)式が成立する。
【0054】
【数3】
【0055】
【数4】
【0056】
【数5】
【0057】
この(8)式の関係を対面角度β,γについて適用すると、次の(9)式および(10)式が成立する。
【0058】
【数6】
【0059】
【数7】
【0060】
つまり話者の位置である点Sの三次元座標(x,y,z)は、(8)式〜(10)式に示した3つの式による3元2次連立方程式を解くことで求めることができる。
このように本実施の形態では、2個のマイクロフォンを結ぶ線分の中点を頂点とし対面角度を半頂角とする円錐の側面に話者の音声の音源が位置するとともに、この音源は3つの円錐の側面の交点に位置することを利用して話者の三次元位置を導出する。
【0061】
しかしながら(8)式〜(10)式の3元2次連立方程式を解析的に解くことは困難である。そのため本実施の形態では、数値的に解く方法で、点Sの三次元座標(x,y,z)を求める。ただし数値的に解く方法でも(8)式〜(10)式のような非線形の方程式を解く場合、解が発散しやすいという問題がある。解が発散するか、収束するか否かは初期値の与え方により決まる。そのため収束解を得るためには、初期値の選択が重要となる。
【0062】
<初期値の選択の方法の説明>
そこで本実施の形態では、端末装置10および話者が置かれる三次元空間中に初期値の候補となる候補点を予め用意しておき、この中から点Sの三次元座標により近いものを初期値として選択することで収束解を得られやすくしている。
より具体的には、予め定められた原点を設定し、この原点からx軸、y軸、z軸方向に予め定められた間隔にて候補点を設定する。
【0063】
図10は、設置される候補点の三次元位置を示した概念図である。
ここでは、原点Oからx軸、y軸、z軸方向に等間隔で候補点が設定されている。この点は、例えば、x軸、y軸、z軸方向に10mの範囲で、1m間隔で設定することができる。
そして本実施の形態では、このように設定された候補点に対する対面角度α,β,γを予め求めておく。そして候補点の三次元座標と対面角度α,β,γとの関係をLUT(Look up Table)として持っておく。本実施の形態では、このLUTは、LUT格納部155に格納されている。そして初期値選択部154が、このLUTを参照し、実際に導出された対面角度α,β,γの値と、このLUTに格納されている対面角度α,β,γの値を比較する。そしてそれぞれの対面角度α,β,γについて値の差が最も小さいものを選択し、これに対応する三次元座標を初期値として選択する。
このように本実施の形態では、話者が置かれる三次元空間中に設定され初期値の候補となる候補点に対する対面角度と話者に対する対面角度を比較することで候補点の中から初期値を選択する。
【0064】
<話者の三次元位置を導出する数値計算の説明>
上記方法により初期値が選択された後は、数値計算部156が、この初期値を用いて数値計算を行ない、(8)式〜(10)式の3元2次連立方程式を解く。そして得られた収束解が、話者の位置である点Sの三次元座標(x,y,z)である。本実施の形態では、数値計算の方法については、特に限定されることはなく、ニュートン法、二分法など一般的な方法が使用できる。
なお上述した方法で選択された初期値による数値計算では、収束解が得られず、発散する場合もあり得る。この場合は、LUTに格納されている対面角度α,β,γの値をさらに比較し、それぞれの対面角度α,β,γについて値の差が次に小さいものを選択する。そしてこれに対応する三次元座標を再度初期値として採用し、数値計算を行なってもよい。
【0065】
以上詳述した本実施の形態の位置出力システム1によれば、より簡易な構成で、話者の三次元位置を出力することができる。そして計算量が膨大になりにくいとともに、話者の三次元位置をより正確に出力することができる。
【0066】
以上詳述したような位置出力システム1により、話者の三次元位置の情報を装着者と話者との関係を判定する情報として利用できる。
ここで装着者と話者との関係として判定を行なう事項としては、例えば、装着者と話者とのコミュニケーション関係である。例えば、装着者と話者が近い距離に位置し、さらに対面角度の情報により向き合っていることがわかれば、装着者と話者が会話を行なっている可能性が高い。また装着者と話者が反対方向を向いていれば、会話を行なっていない可能性が高い。実際には、他に話者や装着者の音声が取得されるタイミングや、間合いなど他の情報も使用して判定が行なわれる。また装着者と話者との関係として、上下方向の対面角度を使用して、一方が他方を上から見下ろしている関係にあるなどの判定も可能である。また複数の端末装置10からの情報をもとに、会話を行っている複数人の間での位置の相互関係などの処理をしても良い。
【0067】
また上述した例では、自他識別の判断、初期値の選択、および三次元位置の導出を端末装置10で行なっていたが、これに限られるものではなく、ホスト装置20の方で行なってもよい。この形態における対面角度出力システム1としては、図1のものに対し、音声解析部15で行なっていた自他識別の判断および三次元位置の導出を、例えば、ホスト装置20のデータ解析部23で行なう。そしてこの場合データ解析部23は、話者が装着者か他者かを識別する識別手段として機能するとともに、話者の三次元位置を求めるための数値計算の初期値を選択する初期値選択手段、および初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段として機能する。さらにこの場合、端末装置10のデータ送信部16は、マイクロフォン11a,11b,11cにより取得された音声の情報を、音声解析部15を介さずに受け、データ受信部21に対し送信する。またホスト装置20のデータ受信部21は、データ送信部16により送信された音声の情報を受信する。即ちデータ送信部16は、マイクロフォン11a,11b,11cにより取得された音声の情報を送信する出力手段として機能し、データ受信部21は、データ送信部16により出力された音声の情報を受信する受信手段として機能する。
【0068】
<プログラムの説明>
なお図4で説明を行った本実施の形態における端末装置10が行なう処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置10に設けられた制御用コンピュータ内部の図示しないCPUが、端末装置10の各機能を実現するプログラムを実行し、これらの各機能を実現させる。
【0069】
よって図4で説明を行った端末装置10が行なう処理は、コンピュータに、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上のマイクロフォンに取得された話者の音声の情報を取得する機能と、マイクロフォンのうち、装着者の口からの距離が互いに異なる2つのマイクロフォンで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する機能と、話者が他者と識別された場合に、取得された話者の音声の情報から、マイクロフォンに話者の音声が到達する時間差を導出する機能と、この時間差およびマイクロフォンが離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を導出する機能と、この対面角度から、話者の三次元位置を導出するための数値計算の初期値を選択する機能と、選択された初期値を用いた数値計算により話者の三次元位置を導出する機能と、を実現させるプログラムとして捉えることもできる。
【実施例】
【0070】
(実施例1)
図11のように構成した端末装置10を用意した。図11において端末装置10には、6個のマイクロフォンである第1マイクロフォン11a,第2マイクロフォン11b,第3マイクロフォン11c,第4マイクロフォン11d,第5マイクロフォン11e,第6マイクロフォン11fが配置されている。このうち第1マイクロフォン11aは、装置本体30の点M1で示される箇所に配置される。また他のマイクロフォン11b,11c,11d,11e,11fは、提げ紐40の点M2、点M3、点M4、点M5、点M8で示される箇所にそれぞれ配置される。そして本実施の形態では、点M1と点M2との距離を30cm、点M1と点M3との距離を30cm、点M2と点M3との距離を15cm、点M2と点M4との距離を12cmとしている。なお点M5は、線分M1M2の中点に、点M8は、線分M3M4の中点に位置する。
また点M1、点M2、点M3、点M5は、同じ平面上に配置され、この平面とは異なる平面上に点M2、点M3、点M4、点M8が配置するようにしている。そしてこの2つの平面の交差する角度は20°とした。
【0071】
このような端末装置10において、点M1−点M4、点M2−点M3、点M5−点M8のペアを考え、この箇所に配される3組のマイクロフォンを使用して、話者の位置の出力を行なった。このとき対面角度α、対面角度β、対面角度γは、それぞれ60°となった。そしてこの対面角度α,β,γに基づき、初期値を選択した。より具体的には、それぞれの対面角度α,β,γの値の差が最も小さいものをLUTの中から選択した。そして本実施の形態では、初期値の三次元座標として(−9,6,5)の位置(この場合、単位は例えば(m)である。)が選ばれた。そしてこの初期値から開始するニュートン法を利用した数値計算を行なったところ、6回の繰り返し計算で収束し、話者の位置である三次元座標として(−8.4,5.5,2.6)の結果を得た。これは、話者の位置として正しい解であった。
また話者の位置を9通りの場合に変更して、同様の計算を行なったが、何れも10回以内の繰り返し計算で収束し、何れも正しい解が得られた。
【0072】
なお本実施の形態では、このように全てのマイクロフォンを同じ平面上に配置せず、少なくとも1つのマイロフォンを他のマイクロフォンが属する平面から外して配置している。このようにすることで、話者の位置によらずに話者の三次元位置を出力することができる。これが全てのマイクロフォンを同じ平面上に配置した場合は、対面角度が、0°、90°、180°、270°の場合に数値計算が収束せず正しい解が得られないことがある。上述のようなマイクロフォンの配置を採用することで、この現象を回避することができる。
【0073】
(比較例1)
図12のように構成した端末装置10を用意した。図12において端末装置10には、4個のマイクロフォンである第1マイクロフォン11a,第2マイクロフォン11b,第3マイクロフォン11c,第4マイクロフォン11dが配置されている。このうち第1マイクロフォン11aは、装置本体30の点M1で示される箇所に配置される。また他のマイクロフォン11b,11c,11dは、提げ紐40の点M2、点M3、点M4で示される箇所にそれぞれ配置される。そして本実施の形態では、点M1と点M2、および点M1と点M3との距離を30cm、点M2と点M3との距離を15cm、点M2と点M4、および点M3と点M4との距離を12cmとしている。また点M1、点M2、点M3は、同じ平面上に配置され、この平面とは異なる平面上に点M2、点M3、点M4が配置するようにしている。そしてこの2つの平面の交差する角度は20°とした。
【0074】
このような端末装置10において、点M1−点M2、点M2−点M3、点M3−点M1のペアを考え、この箇所に配される3組のマイクロフォンを使用して、話者の位置の出力を行なった。このとき初期値を図13(a)〜(f)のように適当に選択し、この初期値を使用して数値計算を行なった。
数値計算の結果を図13に示す。なおこのとき話者の正しい三次元位置は、(1.5,1.2,0.8)であった。ここで図13(b)〜(c)、(e)〜(f)のように初期値として正しい三次元位置に非常に近い値を与えた場合は、正しい解が得られた。一方、図13(a)、(d)のように初期値として正しい三次元位置から少し遠い値を与えた場合は、収束解が得られず、発散し、正しい結果は得られなかった。このように初期値の与え方により結果は著しく異なり、適切な方法により初期値を選択しないと解が発散しやすいことがわかる。
【0075】
(比較例2)
(8)式〜(10)式に示す3元2次連立方程式を解析的に解くことを試みたが、計算量が膨大であり、解くことができなかった。
【0076】
(実施例2)
図14のように構成した端末装置10を用意した。図14において端末装置10には、4個のマイクロフォンである第1マイクロフォン11a,第2マイクロフォン11b,第3マイクロフォン11c,第4マイクロフォン11dが配置されている。このうち第1マイクロフォン11a,第2マイクロフォン11b,第3マイクロフォン11cは、装置本体30の点M1、点M2、点M3で示される箇所にそれぞれ配置される。また第4マイクロフォン11dは、提げ紐40の点M4で示される箇所に配置される。また点M1、点M2、点M3は、一致直線状に並び、線分M2M3と線分M1M4は直交するようにした。そして本実施の形態では、点M1と点M2、および点M2と点M3との距離をそれぞれ5cmとした。また点M1と点M4との位置関係は、図11で示した場合と同様である。
【0077】
このような端末装置10において、点M1−点M2、点M1−点M3、点M1−点M4のペアを考え、この箇所に配される3組のマイクロフォンを使用して、話者の位置の出力を行なった。このとき実施例1と同様にして初期値を選択し、数値計算を行なった。その結果、話者の位置として正しい解を得ることができた。
【0078】
本実施の形態では、選択したマイクロフォンを結ぶ線分が直交している。つまり線分M1M2と線分M1M4、線分M1M3と線分M1M4とは直交する。このように使用するマイクロフォンのペアの配置をT字型や十字型となるようにすることで、方程式の非線形項の係数が0になり、ヤコビアンの対角化ができる。そしてその結果、数値計算を行なう際の計算量を劇的に減少させることができる。
【符号の説明】
【0079】
1…位置出力システム、10…端末装置、11a…第1マイクロフォン、11b…第2マイクロフォン、11c…第3マイクロフォン、15…音声解析部、16…データ送信部、20…ホスト装置、30…装置本体、40…提げ紐、151…自他識別部、154…初期値選択部、156…数値計算部
【技術分野】
【0001】
本発明は、位置出力装置、位置出力システムおよびプログラムに関する。
【背景技術】
【0002】
特許文献1には、互いに所定の距離だけ離れて配置される少なくとも3つのマイクロホンと、3つのマイクロホンのうち第1の組み合わせの2つのマイクロホンから出力される出力信号の時間差又は位相差を検出して音源の方向を検出する第1の方向検出手段と、第2の組み合わせの2つのマイクロホンから出力される出力信号の時間差又は位相差を検出して音源の方向を検出する第2の方向検出手段と、を有し、第1の方向検出手段及び第2の方向検出手段により得られる方向を基にして音源の位置を特定するようにしたマイクロホン装置が開示されている。
また特許文献2には、正三角形の頂点に配置された3つのマイクロホンからなるマイクロホンアレーと、マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定部と、を具備する。音源方向推定部は、到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平1−109996号公報
【特許文献2】特開2010−175431号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、音声を発生する話者の三次元位置を、より良好に把握することを目的とする。
【課題を解決するための手段】
【0005】
請求項1に記載の発明は、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、を備えることを特徴とする位置出力装置である。
【0006】
請求項2に記載の発明は、前記対面角度は、2個の前記音声取得手段を結ぶ線分と、当該線分の中点および話者を結ぶ線分との角度であることを特徴とする請求項1に記載の位置出力装置である。
請求項3に記載の発明は、前記位置導出手段は、2個の前記音声取得手段を結ぶ線分の中点を頂点とし前記対面角度を半頂角とする円錐の側面に話者の音声の音源が位置するとともに、当該音源は3つの当該円錐の側面の交点に位置することを利用して話者の三次元位置を導出することを特徴とする請求項1または2に記載の位置出力装置である。
請求項4に記載の発明は、前記初期値選択手段は、話者が置かれる三次元空間中に設定され初期値の候補となる候補点に対する対面角度と話者に対する対面角度を比較することで前記候補点の中から初期値を選択することを特徴とする請求項1乃至3の何れか1項に記載の位置出力装置である。
請求項5に記載の発明は、前記初期値選択手段および前記位置導出手段を収容する装置本体と、前記装置本体に両端が接続することにより環形状をなす紐部材と、をさらに備え、
前記音声取得手段は、前記紐部材に少なくとも1つ取り付けられ、環形状の前記紐部材を首に掛けることで前記装置本体を装着者に装着するようにしたことを特徴とする請求項1乃至4の何れか1項に記載の位置出力装置である。
【0007】
請求項6に記載の発明は、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、前記位置導出手段により導出された話者の三次元位置の情報を出力する出力手段と、前記出力手段により出力された話者の三次元位置の情報を受信する受信手段と、を備えることを特徴とする位置出力システムである。
【0008】
請求項7に記載の発明は、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、前記音声取得手段により取得された前記音声の情報を出力する出力手段と、前記出力手段により出力された前記音声の情報を受信する受信手段と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、を備えることを特徴とする位置出力システムである。
【0009】
請求項8に記載の発明は、コンピュータに、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上の音声取得手段に取得された話者の音声の情報を取得する機能と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する機能と、話者が他者と識別された場合に、取得された話者の音声の情報から、前記音声取得手段に話者の音声が到達する時間差を導出する機能と、前記時間差および前記音声取得手段が離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を導出する機能と、前記対面角度から、話者の三次元位置を導出するための数値計算の初期値を選択する機能と、選択された初期値を用いた数値計算により話者の三次元位置を導出する機能と、を実現させるプログラムである。
【発明の効果】
【0010】
請求項1の発明によれば、本発明を採用しない場合に比べ、音声を発生する話者の三次元位置を、より良好に把握することができる位置出力装置を提供できる。
請求項2の発明によれば、本発明を採用しない場合に比べ、対面角度の数学的取り扱いがより簡単になる。
請求項3の発明によれば、本発明を採用しない場合に比べ、話者の三次元位置を求めるための方程式がより簡単になる。
請求項4の発明によれば、本発明を採用しない場合に比べ、より適切な初期値を選択することができる。
請求項5の発明によれば、本発明を採用しない場合に比べ、装置の装着をより簡単に行なうことができる。
請求項6の発明によれば、話者の三次元位置を利用して装着者と話者の関係を推測することができるシステムを構築できる。
請求項7の発明によれば、話者の三次元位置を利用して装着者と話者の関係を推測することができるシステムを構築できる。
請求項8の発明によれば、本発明を採用しない場合に比べ、音声を発生する話者の三次元位置を、より良好に把握することができる機能をコンピュータにより実現できる。
【図面の簡単な説明】
【0011】
【図1】本実施形態による位置出力システムの構成例を示す図である。
【図2】端末装置の構成例を示す図である。
【図3】音声解析部についてさらに詳しく説明した図である。
【図4】端末装置の動作について説明したフローチャートである。
【図5】(a)〜(c)は、本実施の形態において時間差を求める方法を説明した図である。
【図6】本実施の形態における対面角度について説明した図である。
【図7】第1マイクロフォンおよび第2マイクロフォンを使用して対面角度を求める方法について説明した図である。
【図8】各点の位置関係を示した概念図である。
【図9】1つの円錐について抜き出して説明した図である。
【図10】設定される候補点の三次元位置を示した概念図である。
【図11】端末装置の一例を示した図である。
【図12】端末装置の一例を示した図である。
【図13】数値計算における初期値と数値計算の結果との関係について説明した図である。
【図14】端末装置の一例を示した図である。
【発明を実施するための形態】
【0012】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<システム構成例>
図1は、本実施形態による位置出力システムの構成例を示す図である。
図1に示すように、本実施形態の位置出力システム1は、位置出力装置の一例である端末装置10とホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(Wireless Fidelity)(登録商標)、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wideband)等の既存の方式による回線を用いて良い。また、図示の例では、端末装置10が1台のみ記載されているが、詳しくは後述するように、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。
【0013】
端末装置10は、話者の音声を取得するための音声取得手段として、3個以上設けられるマイクロフォン(第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11c)と、増幅器(第1増幅器13a、第2増幅器13b、および第3増幅器13c)とを備える。また、端末装置10は、処理手段として、収録音声を解析する音声解析部15と、解析結果をホスト装置20に送信するためのデータ送信部16とを備え、さらに電源部17とを備える。
【0014】
本実施の形態において、第1マイクロフォン11aと第2マイクロフォン11bとは、水平方向に予め定められた距離だけ離間して配される。ここでは、第1マイクロフォン11aと第2マイクロフォン11bとは装着者の口に近い位置に水平方向に並んで配置され、この間の距離は例えば、10cm〜20cmである。また第3マイクロフォン11cは、第1マイクロフォン11a、第2マイクロフォン11bに対し装着者の口(発声部位)からの距離が遠い位置に配置される。ここでは、第3マイクロフォン11cは、第1マイクロフォン11a、第2マイクロフォン11bから、例えば35cm程度の距離をおいて下方に配置される。つまり本実施の形態では、端末装置10に配されるマイクロフォンは、装着者の口からの距離が互いに異なる2つ、および水平方向の距離が離れた2つの双方を選択可能となっている。ここでは前者として、第1マイクロフォン11aと第3マイクロフォン11cの組、および第2マイクロフォン11bと第3マイクロフォン11cの組が選択できる。さらに後者として、第1マイクロフォン11aと第2マイクロフォン11bの組が選択できる。
本実施形態の第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11cとして用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。とくに無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンが好ましい。
【0015】
第1増幅器13a、第2増幅器13b、および第3増幅器13cは、第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11cが取得音声に応じて出力する電気信号を増幅する。本実施形態の第1増幅器13a、第2増幅器13b、および第3増幅器13cとして用いられる増幅器としては、既存のオペアンプ等を用いて良い。
【0016】
音声解析部15は、第1増幅器13a、第2増幅器13b、および第3増幅器13cから出力された電気信号を解析し、話者の三次元位置を出力する。この話者の三次元位置を出力するための具体的な処理の内容については後述する。
【0017】
データ送信部16は、音声解析部15による解析結果を含む取得データと端末のIDを、上記の無線通信回線を介してホスト装置20へ送信する。ホスト装置20へ送信する情報としては、ホスト装置20において行われる処理の内容に応じて、上記の解析結果の他、例えば、第1マイクロフォン11a、第2マイクロフォン11b、第3マイクロフォン11cによる音声の取得時刻、取得音声の音圧等の情報を含めて良い。また端末装置10に音声解析部15による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。なお有線回線で送信しても良い。本実施の形態では、データ送信部16は、音声解析部15により導出された話者の三次元位置の情報を出力する出力手段として機能する。
【0018】
電源部17は、上記の第1マイクロフォン11a、第2マイクロフォン11b、第3マイクロフォン11c、第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15およびデータ送信部16に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部17は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。
【0019】
ホスト装置20は、端末装置10から送信されたデータを受信するデータ受信部21と、受信したデータを蓄積するデータ蓄積部22と、蓄積したデータを解析するデータ解析部23と、解析結果を出力する出力部24とを備える。このホスト装置20は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置10が使用され、ホスト装置20は、その複数台の端末装置10の各々からデータを受信する。
【0020】
データ受信部21は、上記の無線回線に対応しており、各端末装置10からデータを受信してデータ蓄積部22へ送る。本実施の形態では、データ受信部21は、データ送信部16により出力された話者の三次元位置の情報を受信する受信手段として機能する。データ蓄積部22は、データ受信部21から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置10から送信される端末IDと、あらかじめホスト装置20に登録されている発話者名と端末IDの照合により行う。また、端末装置10から端末IDの代わりに、装着者名を送信するようにしておいても良い。
【0021】
データ解析部23は、データ蓄積部22に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置10の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。
【0022】
出力部24は、データ解析部23による解析結果を出力したり、解析結果に基づく出力を行ったりする。この解析結果等を出力する手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。
【0023】
<端末装置の構成例>
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置10は、図2に示すように、装置本体30と、装置本体30に両端が接続することにより環形状をなす紐部材の一例である提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。
【0024】
装置本体30は、金属や樹脂等で形成された薄い直方体のケース31に、少なくとも第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15、データ送信部16および電源部17を実現する回路と電源部17の電源(電池)とを収納して構成される。また本実施の形態では、ケース31に第3マイクロフォン11cが設けられる。さらにケース31には、装着者の氏名や所属等のID情報を表示したIDカード等を挿入するポケットを設けても良い。また、ケース31自体の表面にそのようなID情報等を記載しても良い。
【0025】
提げ紐40には、第1マイクロフォン11a、第2マイクロフォン11bが設けられる(以下、第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11cをそれぞれ区別しない場合には、マイクロフォン11a,11b,11cと記載)。提げ紐40の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。
【0026】
この提げ紐40は、筒状の構造を有し、提げ紐40の内部にマイクロフォン11a,11bを収納している。マイクロフォン11a,11bを挙げ紐40の内部に設けることにより、マイクロフォン11a,11bの損傷や汚れを防ぎ、対話者がマイクロフォン11a,11bの存在を意識することが抑制される。本実施の形態では、この環形状の提げ紐40を首に掛けることで装置本体30を使用者である装着者に装着するようにしている。
【0027】
また図3は、音声解析部15についてさらに詳しく説明した図である。
図3に示すように、音声解析部15は、話者が装着者か他者であるかを識別する識別手段の一例としての自他識別部151と、各マイクロフォン11a,11b,11cに話者の音声が到達する時間差を求める時間差導出部152と、端末装置10を装着する装着者と話者の向き合う角度である対面角度を求める対面角度導出部153と、自他識別部151によって話者が他者と識別された場合に、話者の三次元位置を求めるための数値計算の初期値を選択する初期値選択手段の一例としての初期値選択部154と、初期値選択部154が初期値を選択するためのLUT(Look up Table)を格納するLUT格納部155と、初期値選択部154により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段の一例としての数値計算部156とを備える。
【0028】
図4は、端末装置10の動作について説明したフローチャートである。以下、図2〜図4を使用して端末装置10の動作について説明を行なう。
まずマイクロフォン11a,11b,11cが、話者の音声を取得する(ステップ101)。そして第1増幅器13a、第2増幅器13b、および第3増幅器13cが、それぞれ第1マイクロフォン11a、第2マイクロフォン11b、および第3マイクロフォン11cからの音声信号を増幅する(ステップ102)。
【0029】
そして音声解析部15の自他識別部151において、詳しくは後述する方法により、話者が装着者か他者であるかを識別する(ステップ103)。ここで話者が装着者であった場合(ステップ103でNo)は、ステップ101に戻る。また話者が他者であった場合(ステップ103でYes)は、増幅された音声信号は、音声解析部15の時間差導出部152に送られる。そして詳しくは後述する方法により、各マイクロフォン11a,11b,11cに話者の音声が到達する時間差が求められる(ステップ104)、具体的には、第1マイクロフォン11aと第2マイクロフォン11bとの間の時間差Δt12、第2マイクロフォン11bと第3マイクロフォン11cとの間の時間差Δt23、第3マイクロフォン11cと第1マイクロフォン11aとの間の時間差Δt31、がそれぞれ求められる。
【0030】
さらに対面角度導出部153において、詳しくは後述する方法により、この時間差Δt12,Δt23,Δt31、およびマイクロフォン11a,11b,11c同士が離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を求める(ステップ105)。なお対面角度についても、この後、詳細に説明を行なう。具体的には、時間差Δt12と第1マイクロフォン11aと第2マイクロフォン11bとの間の距離D12に基づき、対面角度αを求める。同様にして時間差Δt23と第2マイクロフォン11bと第3マイクロフォン11cとの間の距離D23に基づき、対面角度βを求め、時間差Δt31と第3マイクロフォン11cと第1マイクロフォン11aとの間の距離D31に基づき、対面角度γを求める。
【0031】
次に初期値選択部154において、LUT格納部155を参照して話者の三次元位置を導出するための初期値を選択する(ステップ106)。この初期値の選択の方法についても、この後、詳細に説明を行なう。
そして数値計算部156において、選択された初期値から開始する数値計算を行い、話者の三次元位置を導出する(ステップ107)。
この話者の三次元位置の情報は、データ送信部16によりホスト装置20に出力される(ステップ108)。
【0032】
<話者が装着者か他者であるかを識別する方法の説明>
以上の構成において、話者が装着者か装着者以外の者である他者であるかを識別(自他識別)する方法について説明する。
本実施形態のシステムは、端末装置10に設けられたマイクロフォンのうち、例えば、第1マイクロフォン11aと第3マイクロフォン11cにより収録された音声の情報を用いて、端末装置10の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、収録音声の発話者に関して自他の別を識別する。また、本実施形態では、収録音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧(第1マイクロフォン11aと第3マイクロフォン11cへの入力音量)等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。
【0033】
図1および図2を参照して説明したように、本実施形態において、端末装置10の第3マイクロフォン11cは装着者の口(発声部位)から遠い位置に配置され、第1マイクロフォン11aは装着者の口(発声部位)に近い位置に配置される。すなわち、装着者の口(発声部位)を音源とすると、第1マイクロフォン11aと音源との間の距離と、第3マイクロフォン11cと音源との間の距離が大きく異なる。例えば、第1マイクロフォン11aと音源との間の距離は、第3マイクロフォン11cと音源との間の距離の1.5〜4倍程度に設定することができる。ここで、マイクロフォン11a、11cにおける収録音声の音圧は、マイクロフォン11a、11cと音源との間の距離が大きくなるにしたがって減衰(距離減衰)する。したがって、装着者の発話音声に関して、第1マイクロフォン11aにおける収録音声の音圧と第3マイクロフォン11cにおける収録音声の音圧とは大きく異なる。
【0034】
一方、装着者以外の者(他者)の口(発声部位)を音源とした場合を考えると、その他者が装着者から離れているため、第1マイクロフォン11aと音源との間の距離と、第3マイクロフォン11cと音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口(発声部位)を音源とした場合のように、第1マイクロフォン11aと音源との間の距離が第3マイクロフォン11cと音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第1マイクロフォン11aにおける収録音声の音圧と第3マイクロフォン11cにおける収録音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。
【0035】
そこで、本実施形態では、第1マイクロフォン11aにおける収録音声の音圧と第3マイクロフォン11cにおける収録音声の音圧の比である音圧比を求める。そしてこの音圧比の差を用いて、収録音声における装着者自身の発話音声と他者の発話音声とを識別する。より具体的には、本実施形態では、第3マイクロフォン11cの音圧と第1マイクロフォン11aの音圧との比に閾値を設定する。そして、音圧比が閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値よりも小さい音声は他者の発話音声と判断する。つまり本実施形態では、自他識別部151において、マイクロフォン11a、11b、11cのうち、装着者の口からの距離が互いに異なる2つの第1マイクロフォン11aと第3マイクロフォン11cで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する。
【0036】
なお上述した例では、第1マイクロフォン11aと第3マイクロフォン11cを使用して自他識別の判断を行なったが、これに限られるものではなく、第2マイクロフォン11bと第3マイクロフォン11cを使用しても同様であることは勿論である。
また上述した例では、第1マイクロフォン11aおよび第3マイクロフォン11cによる収録音声の音圧を基に自他識別の判断を行なったが、これに収録音声の位相差の情報を加味することも考えられる。つまり装着者の口(発声部位)を音源とすると、上述した通り、第1マイクロフォン11aと音源との間の距離と、第3マイクロフォン11cと音源との間の距離は大きく異なる。そのため第1マイクロフォン11aによる収録音声と、第3マイクロフォン11cによる収録音声の位相差は大きくなる。一方、装着者以外の者(他者)の口(発声部位)を音源とした場合は、上述の通り、他者が装着者から離れているため、第1マイクロフォン11aと音源との間の距離と、第3マイクロフォン11cと音源との間の距離は、大きく変わらない。そのため第1マイクロフォン11aによる収録音声と、第3マイクロフォン11cによる収録音声の位相差は小さくなる。よって第1マイクロフォン11aおよび第3マイクロフォン11cによる収録音声の位相差を考慮することで自他識別の判断の精度が向上する。
【0037】
<マイクロフォンに話者の音声が到達する時間差を求める方法の説明>
各マイクロフォン11a,11b,11cに話者の音声が到達する時間差Δt12,Δt21,Δt31は、以下のようにして求めることができる。なお以下の説明は、時間差Δt12を求める場合を例に取り説明を行なうが、時間差Δt21,Δt31についても同様の方法により求めることができる。
【0038】
図5(a)〜(c)は、本実施の形態において時間差Δt12を求める方法を説明した図である。このうち図5(a)は、第1マイクロフォン11aと第2マイクロフォン11bに到達する話者の音声をサンプリング周波数1MHzでサンプリングし、そのデータの中から連続する5000ポイントを抜き出した図である。
ここで横軸は5000ポイントのデータにそれぞれに付けられたデータ番号を表わし、縦軸は、話者の音声の振幅を表わす。そして実線は、第1マイクロフォン11aに到達した話者の音声の波形信号であり、点線は、第2マイクロフォン11bに到達した話者の音声の波形信号である。
【0039】
本実施の形態では、この2つの波形信号の相互相関関数を求める。つまり一方の波形信号を固定し,他方の波形信号をシフトしつつ積和をとる計算を行なう。図5(b)〜(c)は、この2つの波形信号に対する相互相関関数を示した図である。このうち図5(b)は、サンプリングした5000ポイントのデータ全体の相互相関関数であり、図5(c)は、図5(b)に示した相互相関関数のピーク付近を拡大した図である。なお図5(b)〜(c)では、第1マイクロフォン11aに到達した話者の音声の波形信号を固定し、第2マイクロフォン11bに到達した話者の音声の波形信号をシフトして相互相関関数を求めた場合を示している。
図5(c)に示すようにデータ番号0を基準にしてピーク位置は、−227ポイントずれている。これは第1マイクロフォン11aを基準にして第2マイクロフォン11bに到達する話者の音声が、この分遅延して到達することを意味する。本実施の形態においてサンプリング周波数は、上述の通り1MHzなので、サンプリングした各データ間の時間は、1×10−6(s)である。よってこの遅延時間としては227×1×10−6(s)=227(μs)となる。つまりこの場合、時間差Δt12は、227(μs)である。
【0040】
<対面角度の説明>
図6は、本実施の形態における対面角度について説明した図である。
本実施の形態において対面角度とは、上述の通り端末装置10の装着者と話者の向き合う角度である。そして図6に本実施の形態で定義される対面角度について示している。ここでは、本実施の形態の対面角度の例として、第1マイクロフォン11aおよび第2マイクロフォン11bを基準とする対面角度αを図示している。
本実施の形態では、対面角度αとして、2個の音声取得手段である第1マイクロフォン11aと第2マイクロフォン11bとを結ぶ線分と、この線分の中点および話者を結ぶ線分との角度を採用する。これにより対面角度αの数学的取り扱いがより簡単になる。そしてこの定義を採用した場合、例えば、装着者と話者がそれぞれ正面を向いて対向しているときは、この二人の対面角度αは、90°となる。
なお第2マイクロフォン11bおよび第3マイクロフォン11cを基準とした対面角度である対面角度β、および第3マイクロフォン11cおよび第1マイクロフォン11aを基準とした対面角度である対面角度γも同様にして定義することができる。
【0041】
<対面角度を求める方法の説明>
図7は、第1マイクロフォン11aおよび第2マイクロフォン11bを使用して対面角度αを求める方法について説明した図である。
ここで、点M1を第1マイクロフォン11aの位置、点M2を第2マイクロフォン11bの位置であるとする。また点Sを話者の位置であるとする。なおここで話者の位置とは、より正確には、話者の音声の音源である発声点の位置である。そして発声点である点Sから発した音声は、同心円状に広がる。このとき音声は有限の速度である音速で広がるため音声が第1マイクロフォン11aの位置である点M1に到達した時間と第2マイクロフォン11bの位置である点M2に到達した時間とは異なり、音声の行路差δ12に対応した時間差Δt12が生じる。そして点M1と点M2との間の距離をD12、点M1と点M2の中点C12と点Sの間の距離をL12とするとこれらの間には次の(1)式が成立する。
【0042】
δ12=(L122+L12D12cosα+D122/4)0.5−(L122−L12D12cosα+D122/4)0.5 …(1)
【0043】
この(1)式は、L12>D12の場合、L12による影響が小さいため、下記(2)式に近似できる。
【0044】
δ12≒D12cosα …(2)
【0045】
また音速cと時間差Δt12を使用すると、下記(3)式が成立する。
【0046】
δ12=cΔt12 …(3)
【0047】
つまりこの(2)式および(3)式を使用することで、対面角度αが求まる。つまり2つの音声取得手段である第1マイクロフォン11aと第2マイクロフォン11bに話者の音声が到達する時間差Δt12および第1マイクロフォン11aと第2マイクロフォン11bが離間する距離D12に基づいて、装着者と話者の向き合う角度である対面角度αを導出することができる。なお対面角度β,γも同様にして導出することができる。
【0048】
<話者の三次元位置の導出方法の説明>
次に上述のようにして求められた対面角度α,β,γを利用して、話者の三次元位置を導出する方法の説明を行なう。
まずマイクロフォン11a,11b,11cの位置をそれぞれ点M1、点M2、点M3とすると、点M1、点M2、点M3を頂点とする三角形は、△M1M2M3となる。そして各頂点M1、M2、M3の三次元座標をここでは、それぞれ(xM1,yM1,zM1)、(xM2,yM2,zM2)、(xM3,yM3,zM3)とする。さらに線分M1M2の中点C12、線分M2M3の中点C23、線分M3M1の中点C31の三次元座標を、それぞれ(xC12,yC12,zC12)、(xC23,yC23,zC23)、(xC31,yC31,zC31)とする。また話者の位置である点Sの三次元座標を(x,y,z)とする。
【0049】
図8は、点M1、点M2、点M3、および点Sの位置関係を示した概念図である。
図8では、点M1および点M2の中点C12を頂点とし、半頂角をαとする円錐、および点M3および点M1の中点C31を頂点とし、半頂角をγとする円錐を実線で示している。そして上述した対面角度の定義より、点Sは、これらの円錐面(円錐の側面)の何れかの位置に存在することになる。
またこの関係は、点M2および点M3の中点C23を頂点とし、半頂角をβとする円錐、についても同様のことが言える。つまり、点Sは、これら3つの円錐の円錐面の交点に存在する。なお図8では、説明をわかりやすくするため、点M2および点M3の中点C23を頂点とし、半頂角をβとする円錐については、図示していない。
【0050】
また図9は、点M1および点M2の中点C12を頂点とし、半頂角をαとする円錐について抜き出して説明した図である。
ここで図9において、中点C12から円錐の底面に垂線を下ろし、中点C12を起点としてこの垂線方向にのびるaベクトルを考える。また、中点C12を起点として円錐面に沿った方向にのびるrベクトルを考える。このとき点M2は、この垂線上に存在し、aベクトルとrベクトルのなす角度は、対面角度αである。
そしてaベクトルとrベクトルの内積を使用してaベクトル、rベクトル、および対面角度αの関係を表わすと、次の(4)式、および(5)式が成立する。
【0051】
【数1】
【0052】
【数2】
【0053】
また点M1、中点C12、および点Sの三次元座標を使用すると、次の(6)式、(7)式、および(8)式が成立する。
【0054】
【数3】
【0055】
【数4】
【0056】
【数5】
【0057】
この(8)式の関係を対面角度β,γについて適用すると、次の(9)式および(10)式が成立する。
【0058】
【数6】
【0059】
【数7】
【0060】
つまり話者の位置である点Sの三次元座標(x,y,z)は、(8)式〜(10)式に示した3つの式による3元2次連立方程式を解くことで求めることができる。
このように本実施の形態では、2個のマイクロフォンを結ぶ線分の中点を頂点とし対面角度を半頂角とする円錐の側面に話者の音声の音源が位置するとともに、この音源は3つの円錐の側面の交点に位置することを利用して話者の三次元位置を導出する。
【0061】
しかしながら(8)式〜(10)式の3元2次連立方程式を解析的に解くことは困難である。そのため本実施の形態では、数値的に解く方法で、点Sの三次元座標(x,y,z)を求める。ただし数値的に解く方法でも(8)式〜(10)式のような非線形の方程式を解く場合、解が発散しやすいという問題がある。解が発散するか、収束するか否かは初期値の与え方により決まる。そのため収束解を得るためには、初期値の選択が重要となる。
【0062】
<初期値の選択の方法の説明>
そこで本実施の形態では、端末装置10および話者が置かれる三次元空間中に初期値の候補となる候補点を予め用意しておき、この中から点Sの三次元座標により近いものを初期値として選択することで収束解を得られやすくしている。
より具体的には、予め定められた原点を設定し、この原点からx軸、y軸、z軸方向に予め定められた間隔にて候補点を設定する。
【0063】
図10は、設置される候補点の三次元位置を示した概念図である。
ここでは、原点Oからx軸、y軸、z軸方向に等間隔で候補点が設定されている。この点は、例えば、x軸、y軸、z軸方向に10mの範囲で、1m間隔で設定することができる。
そして本実施の形態では、このように設定された候補点に対する対面角度α,β,γを予め求めておく。そして候補点の三次元座標と対面角度α,β,γとの関係をLUT(Look up Table)として持っておく。本実施の形態では、このLUTは、LUT格納部155に格納されている。そして初期値選択部154が、このLUTを参照し、実際に導出された対面角度α,β,γの値と、このLUTに格納されている対面角度α,β,γの値を比較する。そしてそれぞれの対面角度α,β,γについて値の差が最も小さいものを選択し、これに対応する三次元座標を初期値として選択する。
このように本実施の形態では、話者が置かれる三次元空間中に設定され初期値の候補となる候補点に対する対面角度と話者に対する対面角度を比較することで候補点の中から初期値を選択する。
【0064】
<話者の三次元位置を導出する数値計算の説明>
上記方法により初期値が選択された後は、数値計算部156が、この初期値を用いて数値計算を行ない、(8)式〜(10)式の3元2次連立方程式を解く。そして得られた収束解が、話者の位置である点Sの三次元座標(x,y,z)である。本実施の形態では、数値計算の方法については、特に限定されることはなく、ニュートン法、二分法など一般的な方法が使用できる。
なお上述した方法で選択された初期値による数値計算では、収束解が得られず、発散する場合もあり得る。この場合は、LUTに格納されている対面角度α,β,γの値をさらに比較し、それぞれの対面角度α,β,γについて値の差が次に小さいものを選択する。そしてこれに対応する三次元座標を再度初期値として採用し、数値計算を行なってもよい。
【0065】
以上詳述した本実施の形態の位置出力システム1によれば、より簡易な構成で、話者の三次元位置を出力することができる。そして計算量が膨大になりにくいとともに、話者の三次元位置をより正確に出力することができる。
【0066】
以上詳述したような位置出力システム1により、話者の三次元位置の情報を装着者と話者との関係を判定する情報として利用できる。
ここで装着者と話者との関係として判定を行なう事項としては、例えば、装着者と話者とのコミュニケーション関係である。例えば、装着者と話者が近い距離に位置し、さらに対面角度の情報により向き合っていることがわかれば、装着者と話者が会話を行なっている可能性が高い。また装着者と話者が反対方向を向いていれば、会話を行なっていない可能性が高い。実際には、他に話者や装着者の音声が取得されるタイミングや、間合いなど他の情報も使用して判定が行なわれる。また装着者と話者との関係として、上下方向の対面角度を使用して、一方が他方を上から見下ろしている関係にあるなどの判定も可能である。また複数の端末装置10からの情報をもとに、会話を行っている複数人の間での位置の相互関係などの処理をしても良い。
【0067】
また上述した例では、自他識別の判断、初期値の選択、および三次元位置の導出を端末装置10で行なっていたが、これに限られるものではなく、ホスト装置20の方で行なってもよい。この形態における対面角度出力システム1としては、図1のものに対し、音声解析部15で行なっていた自他識別の判断および三次元位置の導出を、例えば、ホスト装置20のデータ解析部23で行なう。そしてこの場合データ解析部23は、話者が装着者か他者かを識別する識別手段として機能するとともに、話者の三次元位置を求めるための数値計算の初期値を選択する初期値選択手段、および初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段として機能する。さらにこの場合、端末装置10のデータ送信部16は、マイクロフォン11a,11b,11cにより取得された音声の情報を、音声解析部15を介さずに受け、データ受信部21に対し送信する。またホスト装置20のデータ受信部21は、データ送信部16により送信された音声の情報を受信する。即ちデータ送信部16は、マイクロフォン11a,11b,11cにより取得された音声の情報を送信する出力手段として機能し、データ受信部21は、データ送信部16により出力された音声の情報を受信する受信手段として機能する。
【0068】
<プログラムの説明>
なお図4で説明を行った本実施の形態における端末装置10が行なう処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置10に設けられた制御用コンピュータ内部の図示しないCPUが、端末装置10の各機能を実現するプログラムを実行し、これらの各機能を実現させる。
【0069】
よって図4で説明を行った端末装置10が行なう処理は、コンピュータに、装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上のマイクロフォンに取得された話者の音声の情報を取得する機能と、マイクロフォンのうち、装着者の口からの距離が互いに異なる2つのマイクロフォンで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する機能と、話者が他者と識別された場合に、取得された話者の音声の情報から、マイクロフォンに話者の音声が到達する時間差を導出する機能と、この時間差およびマイクロフォンが離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を導出する機能と、この対面角度から、話者の三次元位置を導出するための数値計算の初期値を選択する機能と、選択された初期値を用いた数値計算により話者の三次元位置を導出する機能と、を実現させるプログラムとして捉えることもできる。
【実施例】
【0070】
(実施例1)
図11のように構成した端末装置10を用意した。図11において端末装置10には、6個のマイクロフォンである第1マイクロフォン11a,第2マイクロフォン11b,第3マイクロフォン11c,第4マイクロフォン11d,第5マイクロフォン11e,第6マイクロフォン11fが配置されている。このうち第1マイクロフォン11aは、装置本体30の点M1で示される箇所に配置される。また他のマイクロフォン11b,11c,11d,11e,11fは、提げ紐40の点M2、点M3、点M4、点M5、点M8で示される箇所にそれぞれ配置される。そして本実施の形態では、点M1と点M2との距離を30cm、点M1と点M3との距離を30cm、点M2と点M3との距離を15cm、点M2と点M4との距離を12cmとしている。なお点M5は、線分M1M2の中点に、点M8は、線分M3M4の中点に位置する。
また点M1、点M2、点M3、点M5は、同じ平面上に配置され、この平面とは異なる平面上に点M2、点M3、点M4、点M8が配置するようにしている。そしてこの2つの平面の交差する角度は20°とした。
【0071】
このような端末装置10において、点M1−点M4、点M2−点M3、点M5−点M8のペアを考え、この箇所に配される3組のマイクロフォンを使用して、話者の位置の出力を行なった。このとき対面角度α、対面角度β、対面角度γは、それぞれ60°となった。そしてこの対面角度α,β,γに基づき、初期値を選択した。より具体的には、それぞれの対面角度α,β,γの値の差が最も小さいものをLUTの中から選択した。そして本実施の形態では、初期値の三次元座標として(−9,6,5)の位置(この場合、単位は例えば(m)である。)が選ばれた。そしてこの初期値から開始するニュートン法を利用した数値計算を行なったところ、6回の繰り返し計算で収束し、話者の位置である三次元座標として(−8.4,5.5,2.6)の結果を得た。これは、話者の位置として正しい解であった。
また話者の位置を9通りの場合に変更して、同様の計算を行なったが、何れも10回以内の繰り返し計算で収束し、何れも正しい解が得られた。
【0072】
なお本実施の形態では、このように全てのマイクロフォンを同じ平面上に配置せず、少なくとも1つのマイロフォンを他のマイクロフォンが属する平面から外して配置している。このようにすることで、話者の位置によらずに話者の三次元位置を出力することができる。これが全てのマイクロフォンを同じ平面上に配置した場合は、対面角度が、0°、90°、180°、270°の場合に数値計算が収束せず正しい解が得られないことがある。上述のようなマイクロフォンの配置を採用することで、この現象を回避することができる。
【0073】
(比較例1)
図12のように構成した端末装置10を用意した。図12において端末装置10には、4個のマイクロフォンである第1マイクロフォン11a,第2マイクロフォン11b,第3マイクロフォン11c,第4マイクロフォン11dが配置されている。このうち第1マイクロフォン11aは、装置本体30の点M1で示される箇所に配置される。また他のマイクロフォン11b,11c,11dは、提げ紐40の点M2、点M3、点M4で示される箇所にそれぞれ配置される。そして本実施の形態では、点M1と点M2、および点M1と点M3との距離を30cm、点M2と点M3との距離を15cm、点M2と点M4、および点M3と点M4との距離を12cmとしている。また点M1、点M2、点M3は、同じ平面上に配置され、この平面とは異なる平面上に点M2、点M3、点M4が配置するようにしている。そしてこの2つの平面の交差する角度は20°とした。
【0074】
このような端末装置10において、点M1−点M2、点M2−点M3、点M3−点M1のペアを考え、この箇所に配される3組のマイクロフォンを使用して、話者の位置の出力を行なった。このとき初期値を図13(a)〜(f)のように適当に選択し、この初期値を使用して数値計算を行なった。
数値計算の結果を図13に示す。なおこのとき話者の正しい三次元位置は、(1.5,1.2,0.8)であった。ここで図13(b)〜(c)、(e)〜(f)のように初期値として正しい三次元位置に非常に近い値を与えた場合は、正しい解が得られた。一方、図13(a)、(d)のように初期値として正しい三次元位置から少し遠い値を与えた場合は、収束解が得られず、発散し、正しい結果は得られなかった。このように初期値の与え方により結果は著しく異なり、適切な方法により初期値を選択しないと解が発散しやすいことがわかる。
【0075】
(比較例2)
(8)式〜(10)式に示す3元2次連立方程式を解析的に解くことを試みたが、計算量が膨大であり、解くことができなかった。
【0076】
(実施例2)
図14のように構成した端末装置10を用意した。図14において端末装置10には、4個のマイクロフォンである第1マイクロフォン11a,第2マイクロフォン11b,第3マイクロフォン11c,第4マイクロフォン11dが配置されている。このうち第1マイクロフォン11a,第2マイクロフォン11b,第3マイクロフォン11cは、装置本体30の点M1、点M2、点M3で示される箇所にそれぞれ配置される。また第4マイクロフォン11dは、提げ紐40の点M4で示される箇所に配置される。また点M1、点M2、点M3は、一致直線状に並び、線分M2M3と線分M1M4は直交するようにした。そして本実施の形態では、点M1と点M2、および点M2と点M3との距離をそれぞれ5cmとした。また点M1と点M4との位置関係は、図11で示した場合と同様である。
【0077】
このような端末装置10において、点M1−点M2、点M1−点M3、点M1−点M4のペアを考え、この箇所に配される3組のマイクロフォンを使用して、話者の位置の出力を行なった。このとき実施例1と同様にして初期値を選択し、数値計算を行なった。その結果、話者の位置として正しい解を得ることができた。
【0078】
本実施の形態では、選択したマイクロフォンを結ぶ線分が直交している。つまり線分M1M2と線分M1M4、線分M1M3と線分M1M4とは直交する。このように使用するマイクロフォンのペアの配置をT字型や十字型となるようにすることで、方程式の非線形項の係数が0になり、ヤコビアンの対角化ができる。そしてその結果、数値計算を行なう際の計算量を劇的に減少させることができる。
【符号の説明】
【0079】
1…位置出力システム、10…端末装置、11a…第1マイクロフォン、11b…第2マイクロフォン、11c…第3マイクロフォン、15…音声解析部、16…データ送信部、20…ホスト装置、30…装置本体、40…提げ紐、151…自他識別部、154…初期値選択部、156…数値計算部
【特許請求の範囲】
【請求項1】
装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、
前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、
前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、
を備えることを特徴とする位置出力装置。
【請求項2】
前記対面角度は、2個の前記音声取得手段を結ぶ線分と、当該線分の中点および話者を結ぶ線分との角度であることを特徴とする請求項1に記載の位置出力装置。
【請求項3】
前記位置導出手段は、2個の前記音声取得手段を結ぶ線分の中点を頂点とし前記対面角度を半頂角とする円錐の側面に話者の音声の音源が位置するとともに、当該音源は3つの当該円錐の側面の交点に位置することを利用して話者の三次元位置を導出することを特徴とする請求項1または2に記載の位置出力装置。
【請求項4】
前記初期値選択手段は、話者が置かれる三次元空間中に設定され初期値の候補となる候補点に対する対面角度と話者に対する対面角度を比較することで前記候補点の中から初期値を選択することを特徴とする請求項1乃至3の何れか1項に記載の位置出力装置。
【請求項5】
前記初期値選択手段および前記位置導出手段を収容する装置本体と、
前記装置本体に両端が接続することにより環形状をなす紐部材と、
をさらに備え、
前記音声取得手段は、前記紐部材に少なくとも1つ取り付けられ、
環形状の前記紐部材を首に掛けることで前記装置本体を装着者に装着するようにしたことを特徴とする請求項1乃至4の何れか1項に記載の位置出力装置。
【請求項6】
装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、
前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、
前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、
前記位置導出手段により導出された話者の三次元位置の情報を出力する出力手段と、
前記出力手段により出力された話者の三次元位置の情報を受信する受信手段と、
を備えることを特徴とする位置出力システム。
【請求項7】
装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、
前記音声取得手段により取得された前記音声の情報を出力する出力手段と、
前記出力手段により出力された前記音声の情報を受信する受信手段と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、
前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、
前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、
を備えることを特徴とする位置出力システム。
【請求項8】
コンピュータに、
装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上の音声取得手段に取得された話者の音声の情報を取得する機能と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する機能と、
話者が他者と識別された場合に、取得された話者の音声の情報から、前記音声取得手段に話者の音声が到達する時間差を導出する機能と、
前記時間差および前記音声取得手段が離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を導出する機能と、
前記対面角度から、話者の三次元位置を導出するための数値計算の初期値を選択する機能と、
選択された初期値を用いた数値計算により話者の三次元位置を導出する機能と、
を実現させるプログラム。
【請求項1】
装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、
前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、
前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、
を備えることを特徴とする位置出力装置。
【請求項2】
前記対面角度は、2個の前記音声取得手段を結ぶ線分と、当該線分の中点および話者を結ぶ線分との角度であることを特徴とする請求項1に記載の位置出力装置。
【請求項3】
前記位置導出手段は、2個の前記音声取得手段を結ぶ線分の中点を頂点とし前記対面角度を半頂角とする円錐の側面に話者の音声の音源が位置するとともに、当該音源は3つの当該円錐の側面の交点に位置することを利用して話者の三次元位置を導出することを特徴とする請求項1または2に記載の位置出力装置。
【請求項4】
前記初期値選択手段は、話者が置かれる三次元空間中に設定され初期値の候補となる候補点に対する対面角度と話者に対する対面角度を比較することで前記候補点の中から初期値を選択することを特徴とする請求項1乃至3の何れか1項に記載の位置出力装置。
【請求項5】
前記初期値選択手段および前記位置導出手段を収容する装置本体と、
前記装置本体に両端が接続することにより環形状をなす紐部材と、
をさらに備え、
前記音声取得手段は、前記紐部材に少なくとも1つ取り付けられ、
環形状の前記紐部材を首に掛けることで前記装置本体を装着者に装着するようにしたことを特徴とする請求項1乃至4の何れか1項に記載の位置出力装置。
【請求項6】
装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、
前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、
前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、
前記位置導出手段により導出された話者の三次元位置の情報を出力する出力手段と、
前記出力手段により出力された話者の三次元位置の情報を受信する受信手段と、
を備えることを特徴とする位置出力システム。
【請求項7】
装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上設けられる音声取得手段と、
前記音声取得手段により取得された前記音声の情報を出力する出力手段と、
前記出力手段により出力された前記音声の情報を受信する受信手段と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、
前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、
前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、
を備えることを特徴とする位置出力システム。
【請求項8】
コンピュータに、
装着者の口からの距離が互いに異なる2つと水平方向の距離が離れた2つを含み、話者の音声を取得する少なくとも3個以上の音声取得手段に取得された話者の音声の情報を取得する機能と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる2つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する機能と、
話者が他者と識別された場合に、取得された話者の音声の情報から、前記音声取得手段に話者の音声が到達する時間差を導出する機能と、
前記時間差および前記音声取得手段が離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を導出する機能と、
前記対面角度から、話者の三次元位置を導出するための数値計算の初期値を選択する機能と、
選択された初期値を用いた数値計算により話者の三次元位置を導出する機能と、
を実現させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2013−83621(P2013−83621A)
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【出願番号】特願2012−3038(P2012−3038)
【出願日】平成24年1月11日(2012.1.11)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【出願日】平成24年1月11日(2012.1.11)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]