位置出力装置、位置出力システムおよびプログラム

【課題】音声を発生する話者の三次元位置を、より良好に把握することができる位置出力装置等を提供する。
【解決手段】装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み話者の音声を取得する少なくとも３個以上設けられるマイクロフォン１１ａ，１１ｂ，１１ｃと、装着者の口からの距離が互いに異なる２つのマイクロフォン１１ａ、マイクロフォン１１ｃで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する識別手段と、識別手段によって話者が他者と識別された場合に、話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、を備えることを特徴とする端末装置１０。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、位置出力装置、位置出力システムおよびプログラムに関する。
【背景技術】
【０００２】
特許文献１には、互いに所定の距離だけ離れて配置される少なくとも３つのマイクロホンと、３つのマイクロホンのうち第１の組み合わせの２つのマイクロホンから出力される出力信号の時間差又は位相差を検出して音源の方向を検出する第１の方向検出手段と、第２の組み合わせの２つのマイクロホンから出力される出力信号の時間差又は位相差を検出して音源の方向を検出する第２の方向検出手段と、を有し、第１の方向検出手段及び第２の方向検出手段により得られる方向を基にして音源の位置を特定するようにしたマイクロホン装置が開示されている。
また特許文献２には、正三角形の頂点に配置された３つのマイクロホンからなるマイクロホンアレーと、マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定部と、を具備する。音源方向推定部は、到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定装置が開示されている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平１−１０９９９６号公報
【特許文献２】特開２０１０−１７５４３１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
本発明は、音声を発生する話者の三次元位置を、より良好に把握することを目的とする。
【課題を解決するための手段】
【０００５】
請求項１に記載の発明は、装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み、話者の音声を取得する少なくとも３個以上設けられる音声取得手段と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる２つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、を備えることを特徴とする位置出力装置である。
【０００６】
請求項２に記載の発明は、前記対面角度は、２個の前記音声取得手段を結ぶ線分と、当該線分の中点および話者を結ぶ線分との角度であることを特徴とする請求項１に記載の位置出力装置である。
請求項３に記載の発明は、前記位置導出手段は、２個の前記音声取得手段を結ぶ線分の中点を頂点とし前記対面角度を半頂角とする円錐の側面に話者の音声の音源が位置するとともに、当該音源は３つの当該円錐の側面の交点に位置することを利用して話者の三次元位置を導出することを特徴とする請求項１または２に記載の位置出力装置である。
請求項４に記載の発明は、前記初期値選択手段は、話者が置かれる三次元空間中に設定され初期値の候補となる候補点に対する対面角度と話者に対する対面角度を比較することで前記候補点の中から初期値を選択することを特徴とする請求項１乃至３の何れか１項に記載の位置出力装置である。
請求項５に記載の発明は、前記初期値選択手段および前記位置導出手段を収容する装置本体と、前記装置本体に両端が接続することにより環形状をなす紐部材と、をさらに備え、
前記音声取得手段は、前記紐部材に少なくとも１つ取り付けられ、環形状の前記紐部材を首に掛けることで前記装置本体を装着者に装着するようにしたことを特徴とする請求項１乃至４の何れか１項に記載の位置出力装置である。
【０００７】
請求項６に記載の発明は、装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み、話者の音声を取得する少なくとも３個以上設けられる音声取得手段と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる２つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、前記位置導出手段により導出された話者の三次元位置の情報を出力する出力手段と、前記出力手段により出力された話者の三次元位置の情報を受信する受信手段と、を備えることを特徴とする位置出力システムである。
【０００８】
請求項７に記載の発明は、装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み、話者の音声を取得する少なくとも３個以上設けられる音声取得手段と、前記音声取得手段により取得された前記音声の情報を出力する出力手段と、前記出力手段により出力された前記音声の情報を受信する受信手段と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる２つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、を備えることを特徴とする位置出力システムである。
【０００９】
請求項８に記載の発明は、コンピュータに、装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み、話者の音声を取得する少なくとも３個以上の音声取得手段に取得された話者の音声の情報を取得する機能と、前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる２つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する機能と、話者が他者と識別された場合に、取得された話者の音声の情報から、前記音声取得手段に話者の音声が到達する時間差を導出する機能と、前記時間差および前記音声取得手段が離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を導出する機能と、前記対面角度から、話者の三次元位置を導出するための数値計算の初期値を選択する機能と、選択された初期値を用いた数値計算により話者の三次元位置を導出する機能と、を実現させるプログラムである。
【発明の効果】
【００１０】
請求項１の発明によれば、本発明を採用しない場合に比べ、音声を発生する話者の三次元位置を、より良好に把握することができる位置出力装置を提供できる。
請求項２の発明によれば、本発明を採用しない場合に比べ、対面角度の数学的取り扱いがより簡単になる。
請求項３の発明によれば、本発明を採用しない場合に比べ、話者の三次元位置を求めるための方程式がより簡単になる。
請求項４の発明によれば、本発明を採用しない場合に比べ、より適切な初期値を選択することができる。
請求項５の発明によれば、本発明を採用しない場合に比べ、装置の装着をより簡単に行なうことができる。
請求項６の発明によれば、話者の三次元位置を利用して装着者と話者の関係を推測することができるシステムを構築できる。
請求項７の発明によれば、話者の三次元位置を利用して装着者と話者の関係を推測することができるシステムを構築できる。
請求項８の発明によれば、本発明を採用しない場合に比べ、音声を発生する話者の三次元位置を、より良好に把握することができる機能をコンピュータにより実現できる。
【図面の簡単な説明】
【００１１】
【図１】本実施形態による位置出力システムの構成例を示す図である。
【図２】端末装置の構成例を示す図である。
【図３】音声解析部についてさらに詳しく説明した図である。
【図４】端末装置の動作について説明したフローチャートである。
【図５】（ａ）〜（ｃ）は、本実施の形態において時間差を求める方法を説明した図である。
【図６】本実施の形態における対面角度について説明した図である。
【図７】第１マイクロフォンおよび第２マイクロフォンを使用して対面角度を求める方法について説明した図である。
【図８】各点の位置関係を示した概念図である。
【図９】１つの円錐について抜き出して説明した図である。
【図１０】設定される候補点の三次元位置を示した概念図である。
【図１１】端末装置の一例を示した図である。
【図１２】端末装置の一例を示した図である。
【図１３】数値計算における初期値と数値計算の結果との関係について説明した図である。
【図１４】端末装置の一例を示した図である。
【発明を実施するための形態】
【００１２】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
＜システム構成例＞
図１は、本実施形態による位置出力システムの構成例を示す図である。
図１に示すように、本実施形態の位置出力システム１は、位置出力装置の一例である端末装置１０とホスト装置２０とを備えて構成される。端末装置１０とホスト装置２０とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Ｗｉ−Ｆｉ（Wireless Fidelity）(登録商標)、Bluetooth(登録商標)、ZigBee(登録商標)、ＵＷＢ（Ultra Wideband）等の既存の方式による回線を用いて良い。また、図示の例では、端末装置１０が１台のみ記載されているが、詳しくは後述するように、端末装置１０は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置１０が用意される。以下、端末装置１０を装着した使用者を装着者と呼ぶ。
【００１３】
端末装置１０は、話者の音声を取得するための音声取得手段として、３個以上設けられるマイクロフォン（第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、および第３マイクロフォン１１ｃ）と、増幅器（第１増幅器１３ａ、第２増幅器１３ｂ、および第３増幅器１３ｃ）とを備える。また、端末装置１０は、処理手段として、収録音声を解析する音声解析部１５と、解析結果をホスト装置２０に送信するためのデータ送信部１６とを備え、さらに電源部１７とを備える。
【００１４】
本実施の形態において、第１マイクロフォン１１ａと第２マイクロフォン１１ｂとは、水平方向に予め定められた距離だけ離間して配される。ここでは、第１マイクロフォン１１ａと第２マイクロフォン１１ｂとは装着者の口に近い位置に水平方向に並んで配置され、この間の距離は例えば、１０ｃｍ〜２０ｃｍである。また第３マイクロフォン１１ｃは、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂに対し装着者の口（発声部位）からの距離が遠い位置に配置される。ここでは、第３マイクロフォン１１ｃは、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂから、例えば３５ｃｍ程度の距離をおいて下方に配置される。つまり本実施の形態では、端末装置１０に配されるマイクロフォンは、装着者の口からの距離が互いに異なる２つ、および水平方向の距離が離れた２つの双方を選択可能となっている。ここでは前者として、第１マイクロフォン１１ａと第３マイクロフォン１１ｃの組、および第２マイクロフォン１１ｂと第３マイクロフォン１１ｃの組が選択できる。さらに後者として、第１マイクロフォン１１ａと第２マイクロフォン１１ｂの組が選択できる。
本実施形態の第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、および第３マイクロフォン１１ｃとして用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。とくに無指向性のＭＥＭＳ（Micro Electro Mechanical Systems）型マイクロフォンが好ましい。
【００１５】
第１増幅器１３ａ、第２増幅器１３ｂ、および第３増幅器１３ｃは、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、および第３マイクロフォン１１ｃが取得音声に応じて出力する電気信号を増幅する。本実施形態の第１増幅器１３ａ、第２増幅器１３ｂ、および第３増幅器１３ｃとして用いられる増幅器としては、既存のオペアンプ等を用いて良い。
【００１６】
音声解析部１５は、第１増幅器１３ａ、第２増幅器１３ｂ、および第３増幅器１３ｃから出力された電気信号を解析し、話者の三次元位置を出力する。この話者の三次元位置を出力するための具体的な処理の内容については後述する。
【００１７】
データ送信部１６は、音声解析部１５による解析結果を含む取得データと端末のＩＤを、上記の無線通信回線を介してホスト装置２０へ送信する。ホスト装置２０へ送信する情報としては、ホスト装置２０において行われる処理の内容に応じて、上記の解析結果の他、例えば、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、第３マイクロフォン１１ｃによる音声の取得時刻、取得音声の音圧等の情報を含めて良い。また端末装置１０に音声解析部１５による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。なお有線回線で送信しても良い。本実施の形態では、データ送信部１６は、音声解析部１５により導出された話者の三次元位置の情報を出力する出力手段として機能する。
【００１８】
電源部１７は、上記の第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、第３マイクロフォン１１ｃ、第１増幅器１３ａ、第２増幅器１３ｂ、第３増幅器１３ｃ、音声解析部１５およびデータ送信部１６に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部１７は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。
【００１９】
ホスト装置２０は、端末装置１０から送信されたデータを受信するデータ受信部２１と、受信したデータを蓄積するデータ蓄積部２２と、蓄積したデータを解析するデータ解析部２３と、解析結果を出力する出力部２４とを備える。このホスト装置２０は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置１０が使用され、ホスト装置２０は、その複数台の端末装置１０の各々からデータを受信する。
【００２０】
データ受信部２１は、上記の無線回線に対応しており、各端末装置１０からデータを受信してデータ蓄積部２２へ送る。本実施の形態では、データ受信部２１は、データ送信部１６により出力された話者の三次元位置の情報を受信する受信手段として機能する。データ蓄積部２２は、データ受信部２１から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置１０から送信される端末ＩＤと、あらかじめホスト装置２０に登録されている発話者名と端末ＩＤの照合により行う。また、端末装置１０から端末ＩＤの代わりに、装着者名を送信するようにしておいても良い。
【００２１】
データ解析部２３は、データ蓄積部２２に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置１０の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。
【００２２】
出力部２４は、データ解析部２３による解析結果を出力したり、解析結果に基づく出力を行ったりする。この解析結果等を出力する手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。
【００２３】
＜端末装置の構成例＞
図２は、端末装置１０の構成例を示す図である。
上記のように、端末装置１０は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置１０は、図２に示すように、装置本体３０と、装置本体３０に両端が接続することにより環形状をなす紐部材の一例である提げ紐４０とを備えた構成とする。図示の構成において、使用者は、提げ紐４０に首を通し、装置本体３０を首から提げて装着する。
【００２４】
装置本体３０は、金属や樹脂等で形成された薄い直方体のケース３１に、少なくとも第１増幅器１３ａ、第２増幅器１３ｂ、第３増幅器１３ｃ、音声解析部１５、データ送信部１６および電源部１７を実現する回路と電源部１７の電源（電池）とを収納して構成される。また本実施の形態では、ケース３１に第３マイクロフォン１１ｃが設けられる。さらにケース３１には、装着者の氏名や所属等のＩＤ情報を表示したＩＤカード等を挿入するポケットを設けても良い。また、ケース３１自体の表面にそのようなＩＤ情報等を記載しても良い。
【００２５】
提げ紐４０には、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂが設けられる（以下、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、および第３マイクロフォン１１ｃをそれぞれ区別しない場合には、マイクロフォン１１ａ，１１ｂ，１１ｃと記載）。提げ紐４０の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。
【００２６】
この提げ紐４０は、筒状の構造を有し、提げ紐４０の内部にマイクロフォン１１ａ，１１ｂを収納している。マイクロフォン１１ａ，１１ｂを挙げ紐４０の内部に設けることにより、マイクロフォン１１ａ，１１ｂの損傷や汚れを防ぎ、対話者がマイクロフォン１１ａ，１１ｂの存在を意識することが抑制される。本実施の形態では、この環形状の提げ紐４０を首に掛けることで装置本体３０を使用者である装着者に装着するようにしている。
【００２７】
また図３は、音声解析部１５についてさらに詳しく説明した図である。
図３に示すように、音声解析部１５は、話者が装着者か他者であるかを識別する識別手段の一例としての自他識別部１５１と、各マイクロフォン１１ａ，１１ｂ，１１ｃに話者の音声が到達する時間差を求める時間差導出部１５２と、端末装置１０を装着する装着者と話者の向き合う角度である対面角度を求める対面角度導出部１５３と、自他識別部１５１によって話者が他者と識別された場合に、話者の三次元位置を求めるための数値計算の初期値を選択する初期値選択手段の一例としての初期値選択部１５４と、初期値選択部１５４が初期値を選択するためのＬＵＴ（Look up Table）を格納するＬＵＴ格納部１５５と、初期値選択部１５４により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段の一例としての数値計算部１５６とを備える。
【００２８】
図４は、端末装置１０の動作について説明したフローチャートである。以下、図２〜図４を使用して端末装置１０の動作について説明を行なう。
まずマイクロフォン１１ａ，１１ｂ，１１ｃが、話者の音声を取得する（ステップ１０１）。そして第１増幅器１３ａ、第２増幅器１３ｂ、および第３増幅器１３ｃが、それぞれ第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、および第３マイクロフォン１１ｃからの音声信号を増幅する（ステップ１０２）。
【００２９】
そして音声解析部１５の自他識別部１５１において、詳しくは後述する方法により、話者が装着者か他者であるかを識別する（ステップ１０３）。ここで話者が装着者であった場合（ステップ１０３でＮｏ）は、ステップ１０１に戻る。また話者が他者であった場合（ステップ１０３でＹｅｓ）は、増幅された音声信号は、音声解析部１５の時間差導出部１５２に送られる。そして詳しくは後述する方法により、各マイクロフォン１１ａ，１１ｂ，１１ｃに話者の音声が到達する時間差が求められる（ステップ１０４）、具体的には、第１マイクロフォン１１ａと第２マイクロフォン１１ｂとの間の時間差Δｔ_１２、第２マイクロフォン１１ｂと第３マイクロフォン１１ｃとの間の時間差Δｔ_２３、第３マイクロフォン１１ｃと第１マイクロフォン１１ａとの間の時間差Δｔ_３１、がそれぞれ求められる。
【００３０】
さらに対面角度導出部１５３において、詳しくは後述する方法により、この時間差Δｔ_１２，Δｔ_２３，Δｔ_３１、およびマイクロフォン１１ａ，１１ｂ，１１ｃ同士が離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を求める（ステップ１０５）。なお対面角度についても、この後、詳細に説明を行なう。具体的には、時間差Δｔ_１２と第１マイクロフォン１１ａと第２マイクロフォン１１ｂとの間の距離Ｄ_１２に基づき、対面角度αを求める。同様にして時間差Δｔ_２３と第２マイクロフォン１１ｂと第３マイクロフォン１１ｃとの間の距離Ｄ_２３に基づき、対面角度βを求め、時間差Δｔ_３１と第３マイクロフォン１１ｃと第１マイクロフォン１１ａとの間の距離Ｄ_３１に基づき、対面角度γを求める。
【００３１】
次に初期値選択部１５４において、ＬＵＴ格納部１５５を参照して話者の三次元位置を導出するための初期値を選択する（ステップ１０６）。この初期値の選択の方法についても、この後、詳細に説明を行なう。
そして数値計算部１５６において、選択された初期値から開始する数値計算を行い、話者の三次元位置を導出する（ステップ１０７）。
この話者の三次元位置の情報は、データ送信部１６によりホスト装置２０に出力される（ステップ１０８）。
【００３２】
＜話者が装着者か他者であるかを識別する方法の説明＞
以上の構成において、話者が装着者か装着者以外の者である他者であるかを識別（自他識別）する方法について説明する。
本実施形態のシステムは、端末装置１０に設けられたマイクロフォンのうち、例えば、第１マイクロフォン１１ａと第３マイクロフォン１１ｃにより収録された音声の情報を用いて、端末装置１０の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、収録音声の発話者に関して自他の別を識別する。また、本実施形態では、収録音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧（第１マイクロフォン１１ａと第３マイクロフォン１１ｃへの入力音量）等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。
【００３３】
図１および図２を参照して説明したように、本実施形態において、端末装置１０の第３マイクロフォン１１ｃは装着者の口（発声部位）から遠い位置に配置され、第１マイクロフォン１１ａは装着者の口（発声部位）に近い位置に配置される。すなわち、装着者の口（発声部位）を音源とすると、第１マイクロフォン１１ａと音源との間の距離と、第３マイクロフォン１１ｃと音源との間の距離が大きく異なる。例えば、第１マイクロフォン１１ａと音源との間の距離は、第３マイクロフォン１１ｃと音源との間の距離の１．５〜４倍程度に設定することができる。ここで、マイクロフォン１１ａ、１１ｃにおける収録音声の音圧は、マイクロフォン１１ａ、１１ｃと音源との間の距離が大きくなるにしたがって減衰（距離減衰）する。したがって、装着者の発話音声に関して、第１マイクロフォン１１ａにおける収録音声の音圧と第３マイクロフォン１１ｃにおける収録音声の音圧とは大きく異なる。
【００３４】
一方、装着者以外の者（他者）の口（発声部位）を音源とした場合を考えると、その他者が装着者から離れているため、第１マイクロフォン１１ａと音源との間の距離と、第３マイクロフォン１１ｃと音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口（発声部位）を音源とした場合のように、第１マイクロフォン１１ａと音源との間の距離が第３マイクロフォン１１ｃと音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第１マイクロフォン１１ａにおける収録音声の音圧と第３マイクロフォン１１ｃにおける収録音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。
【００３５】
そこで、本実施形態では、第１マイクロフォン１１ａにおける収録音声の音圧と第３マイクロフォン１１ｃにおける収録音声の音圧の比である音圧比を求める。そしてこの音圧比の差を用いて、収録音声における装着者自身の発話音声と他者の発話音声とを識別する。より具体的には、本実施形態では、第３マイクロフォン１１ｃの音圧と第１マイクロフォン１１ａの音圧との比に閾値を設定する。そして、音圧比が閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値よりも小さい音声は他者の発話音声と判断する。つまり本実施形態では、自他識別部１５１において、マイクロフォン１１ａ、１１ｂ、１１ｃのうち、装着者の口からの距離が互いに異なる２つの第１マイクロフォン１１ａと第３マイクロフォン１１ｃで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する。
【００３６】
なお上述した例では、第１マイクロフォン１１ａと第３マイクロフォン１１ｃを使用して自他識別の判断を行なったが、これに限られるものではなく、第２マイクロフォン１１ｂと第３マイクロフォン１１ｃを使用しても同様であることは勿論である。
また上述した例では、第１マイクロフォン１１ａおよび第３マイクロフォン１１ｃによる収録音声の音圧を基に自他識別の判断を行なったが、これに収録音声の位相差の情報を加味することも考えられる。つまり装着者の口（発声部位）を音源とすると、上述した通り、第１マイクロフォン１１ａと音源との間の距離と、第３マイクロフォン１１ｃと音源との間の距離は大きく異なる。そのため第１マイクロフォン１１ａによる収録音声と、第３マイクロフォン１１ｃによる収録音声の位相差は大きくなる。一方、装着者以外の者（他者）の口（発声部位）を音源とした場合は、上述の通り、他者が装着者から離れているため、第１マイクロフォン１１ａと音源との間の距離と、第３マイクロフォン１１ｃと音源との間の距離は、大きく変わらない。そのため第１マイクロフォン１１ａによる収録音声と、第３マイクロフォン１１ｃによる収録音声の位相差は小さくなる。よって第１マイクロフォン１１ａおよび第３マイクロフォン１１ｃによる収録音声の位相差を考慮することで自他識別の判断の精度が向上する。
【００３７】
＜マイクロフォンに話者の音声が到達する時間差を求める方法の説明＞
各マイクロフォン１１ａ，１１ｂ，１１ｃに話者の音声が到達する時間差Δｔ_１２，Δｔ_２１，Δｔ_３１は、以下のようにして求めることができる。なお以下の説明は、時間差Δｔ_１２を求める場合を例に取り説明を行なうが、時間差Δｔ_２１，Δｔ_３１についても同様の方法により求めることができる。
【００３８】
図５（ａ）〜（ｃ）は、本実施の形態において時間差Δｔ_１２を求める方法を説明した図である。このうち図５（ａ）は、第１マイクロフォン１１ａと第２マイクロフォン１１ｂに到達する話者の音声をサンプリング周波数１ＭＨｚでサンプリングし、そのデータの中から連続する５０００ポイントを抜き出した図である。
ここで横軸は５０００ポイントのデータにそれぞれに付けられたデータ番号を表わし、縦軸は、話者の音声の振幅を表わす。そして実線は、第１マイクロフォン１１ａに到達した話者の音声の波形信号であり、点線は、第２マイクロフォン１１ｂに到達した話者の音声の波形信号である。
【００３９】
本実施の形態では、この２つの波形信号の相互相関関数を求める。つまり一方の波形信号を固定し，他方の波形信号をシフトしつつ積和をとる計算を行なう。図５（ｂ）〜（ｃ）は、この２つの波形信号に対する相互相関関数を示した図である。このうち図５（ｂ）は、サンプリングした５０００ポイントのデータ全体の相互相関関数であり、図５（ｃ）は、図５（ｂ）に示した相互相関関数のピーク付近を拡大した図である。なお図５（ｂ）〜（ｃ）では、第１マイクロフォン１１ａに到達した話者の音声の波形信号を固定し、第２マイクロフォン１１ｂに到達した話者の音声の波形信号をシフトして相互相関関数を求めた場合を示している。
図５（ｃ）に示すようにデータ番号０を基準にしてピーク位置は、−２２７ポイントずれている。これは第１マイクロフォン１１ａを基準にして第２マイクロフォン１１ｂに到達する話者の音声が、この分遅延して到達することを意味する。本実施の形態においてサンプリング周波数は、上述の通り１ＭＨｚなので、サンプリングした各データ間の時間は、１×１０^−６（ｓ）である。よってこの遅延時間としては２２７×１×１０^−６（ｓ）＝２２７（μｓ）となる。つまりこの場合、時間差Δｔ_１２は、２２７（μｓ）である。
【００４０】
＜対面角度の説明＞
図６は、本実施の形態における対面角度について説明した図である。
本実施の形態において対面角度とは、上述の通り端末装置１０の装着者と話者の向き合う角度である。そして図６に本実施の形態で定義される対面角度について示している。ここでは、本実施の形態の対面角度の例として、第１マイクロフォン１１ａおよび第２マイクロフォン１１ｂを基準とする対面角度αを図示している。
本実施の形態では、対面角度αとして、２個の音声取得手段である第１マイクロフォン１１ａと第２マイクロフォン１１ｂとを結ぶ線分と、この線分の中点および話者を結ぶ線分との角度を採用する。これにより対面角度αの数学的取り扱いがより簡単になる。そしてこの定義を採用した場合、例えば、装着者と話者がそれぞれ正面を向いて対向しているときは、この二人の対面角度αは、９０°となる。
なお第２マイクロフォン１１ｂおよび第３マイクロフォン１１ｃを基準とした対面角度である対面角度β、および第３マイクロフォン１１ｃおよび第１マイクロフォン１１ａを基準とした対面角度である対面角度γも同様にして定義することができる。
【００４１】
＜対面角度を求める方法の説明＞
図７は、第１マイクロフォン１１ａおよび第２マイクロフォン１１ｂを使用して対面角度αを求める方法について説明した図である。
ここで、点Ｍ１を第１マイクロフォン１１ａの位置、点Ｍ２を第２マイクロフォン１１ｂの位置であるとする。また点Ｓを話者の位置であるとする。なおここで話者の位置とは、より正確には、話者の音声の音源である発声点の位置である。そして発声点である点Ｓから発した音声は、同心円状に広がる。このとき音声は有限の速度である音速で広がるため音声が第１マイクロフォン１１ａの位置である点Ｍ１に到達した時間と第２マイクロフォン１１ｂの位置である点Ｍ２に到達した時間とは異なり、音声の行路差δ_１２に対応した時間差Δｔ_１２が生じる。そして点Ｍ１と点Ｍ２との間の距離をＤ_１２、点Ｍ１と点Ｍ２の中点Ｃ１２と点Ｓの間の距離をＬ_１２とするとこれらの間には次の（１）式が成立する。
【００４２】
δ₁₂＝（Ｌ₁₂^２＋Ｌ₁₂Ｄ₁₂cosα＋Ｄ₁₂^２／４）^0.5−（Ｌ₁₂^２−Ｌ₁₂Ｄ₁₂cosα＋Ｄ₁₂^２／４）^0.5 …（１）
【００４３】
この（１）式は、Ｌ_１２＞Ｄ_１２の場合、Ｌ_１２による影響が小さいため、下記（２）式に近似できる。
【００４４】
δ₁₂≒Ｄ₁₂cosα …（２）
【００４５】
また音速ｃと時間差Δｔ_１２を使用すると、下記（３）式が成立する。
【００４６】
δ₁₂＝ｃΔｔ₁₂ …（３）
【００４７】
つまりこの（２）式および（３）式を使用することで、対面角度αが求まる。つまり２つの音声取得手段である第１マイクロフォン１１ａと第２マイクロフォン１１ｂに話者の音声が到達する時間差Δｔ_１２および第１マイクロフォン１１ａと第２マイクロフォン１１ｂが離間する距離Ｄ_１２に基づいて、装着者と話者の向き合う角度である対面角度αを導出することができる。なお対面角度β，γも同様にして導出することができる。
【００４８】
＜話者の三次元位置の導出方法の説明＞
次に上述のようにして求められた対面角度α，β，γを利用して、話者の三次元位置を導出する方法の説明を行なう。
まずマイクロフォン１１ａ，１１ｂ，１１ｃの位置をそれぞれ点Ｍ１、点Ｍ２、点Ｍ３とすると、点Ｍ１、点Ｍ２、点Ｍ３を頂点とする三角形は、△Ｍ１Ｍ２Ｍ３となる。そして各頂点Ｍ１、Ｍ２、Ｍ３の三次元座標をここでは、それぞれ（ｘ_Ｍ１，ｙ_Ｍ１，ｚ_Ｍ１）、（ｘ_Ｍ２，ｙ_Ｍ２，ｚ_Ｍ２）、（ｘ_Ｍ３，ｙ_Ｍ３，ｚ_Ｍ３）とする。さらに線分Ｍ１Ｍ２の中点Ｃ１２、線分Ｍ２Ｍ３の中点Ｃ２３、線分Ｍ３Ｍ１の中点Ｃ３１の三次元座標を、それぞれ（ｘ_Ｃ１２，ｙ_Ｃ１２，ｚ_Ｃ１２）、（ｘ_Ｃ２３，ｙ_Ｃ２３，ｚ_Ｃ２３）、（ｘ_Ｃ３１，ｙ_Ｃ３１，ｚ_Ｃ３１）とする。また話者の位置である点Ｓの三次元座標を（ｘ，ｙ，ｚ）とする。
【００４９】
図８は、点Ｍ１、点Ｍ２、点Ｍ３、および点Ｓの位置関係を示した概念図である。
図８では、点Ｍ１および点Ｍ２の中点Ｃ１２を頂点とし、半頂角をαとする円錐、および点Ｍ３および点Ｍ１の中点Ｃ３１を頂点とし、半頂角をγとする円錐を実線で示している。そして上述した対面角度の定義より、点Ｓは、これらの円錐面（円錐の側面）の何れかの位置に存在することになる。
またこの関係は、点Ｍ２および点Ｍ３の中点Ｃ２３を頂点とし、半頂角をβとする円錐、についても同様のことが言える。つまり、点Ｓは、これら３つの円錐の円錐面の交点に存在する。なお図８では、説明をわかりやすくするため、点Ｍ２および点Ｍ３の中点Ｃ２３を頂点とし、半頂角をβとする円錐については、図示していない。
【００５０】
また図９は、点Ｍ１および点Ｍ２の中点Ｃ１２を頂点とし、半頂角をαとする円錐について抜き出して説明した図である。
ここで図９において、中点Ｃ１２から円錐の底面に垂線を下ろし、中点Ｃ１２を起点としてこの垂線方向にのびるａベクトルを考える。また、中点Ｃ１２を起点として円錐面に沿った方向にのびるｒベクトルを考える。このとき点Ｍ２は、この垂線上に存在し、ａベクトルとｒベクトルのなす角度は、対面角度αである。
そしてａベクトルとｒベクトルの内積を使用してａベクトル、ｒベクトル、および対面角度αの関係を表わすと、次の（４）式、および（５）式が成立する。
【００５１】
【数１】

【００５２】
【数２】

【００５３】
また点Ｍ１、中点Ｃ１２、および点Ｓの三次元座標を使用すると、次の（６）式、（７）式、および（８）式が成立する。
【００５４】
【数３】

【００５５】
【数４】

【００５６】
【数５】

【００５７】
この（８）式の関係を対面角度β，γについて適用すると、次の（９）式および（１０）式が成立する。
【００５８】
【数６】

【００５９】
【数７】

【００６０】
つまり話者の位置である点Ｓの三次元座標（ｘ，ｙ，ｚ）は、（８）式〜（１０）式に示した３つの式による３元２次連立方程式を解くことで求めることができる。
このように本実施の形態では、２個のマイクロフォンを結ぶ線分の中点を頂点とし対面角度を半頂角とする円錐の側面に話者の音声の音源が位置するとともに、この音源は３つの円錐の側面の交点に位置することを利用して話者の三次元位置を導出する。
【００６１】
しかしながら（８）式〜（１０）式の３元２次連立方程式を解析的に解くことは困難である。そのため本実施の形態では、数値的に解く方法で、点Ｓの三次元座標（ｘ，ｙ，ｚ）を求める。ただし数値的に解く方法でも（８）式〜（１０）式のような非線形の方程式を解く場合、解が発散しやすいという問題がある。解が発散するか、収束するか否かは初期値の与え方により決まる。そのため収束解を得るためには、初期値の選択が重要となる。
【００６２】
＜初期値の選択の方法の説明＞
そこで本実施の形態では、端末装置１０および話者が置かれる三次元空間中に初期値の候補となる候補点を予め用意しておき、この中から点Ｓの三次元座標により近いものを初期値として選択することで収束解を得られやすくしている。
より具体的には、予め定められた原点を設定し、この原点からｘ軸、ｙ軸、ｚ軸方向に予め定められた間隔にて候補点を設定する。
【００６３】
図１０は、設置される候補点の三次元位置を示した概念図である。
ここでは、原点Ｏからｘ軸、ｙ軸、ｚ軸方向に等間隔で候補点が設定されている。この点は、例えば、ｘ軸、ｙ軸、ｚ軸方向に１０ｍの範囲で、１ｍ間隔で設定することができる。
そして本実施の形態では、このように設定された候補点に対する対面角度α，β，γを予め求めておく。そして候補点の三次元座標と対面角度α，β，γとの関係をＬＵＴ（Look up Table）として持っておく。本実施の形態では、このＬＵＴは、ＬＵＴ格納部１５５に格納されている。そして初期値選択部１５４が、このＬＵＴを参照し、実際に導出された対面角度α，β，γの値と、このＬＵＴに格納されている対面角度α，β，γの値を比較する。そしてそれぞれの対面角度α，β，γについて値の差が最も小さいものを選択し、これに対応する三次元座標を初期値として選択する。
このように本実施の形態では、話者が置かれる三次元空間中に設定され初期値の候補となる候補点に対する対面角度と話者に対する対面角度を比較することで候補点の中から初期値を選択する。
【００６４】
＜話者の三次元位置を導出する数値計算の説明＞
上記方法により初期値が選択された後は、数値計算部１５６が、この初期値を用いて数値計算を行ない、（８）式〜（１０）式の３元２次連立方程式を解く。そして得られた収束解が、話者の位置である点Ｓの三次元座標（ｘ，ｙ，ｚ）である。本実施の形態では、数値計算の方法については、特に限定されることはなく、ニュートン法、二分法など一般的な方法が使用できる。
なお上述した方法で選択された初期値による数値計算では、収束解が得られず、発散する場合もあり得る。この場合は、ＬＵＴに格納されている対面角度α，β，γの値をさらに比較し、それぞれの対面角度α，β，γについて値の差が次に小さいものを選択する。そしてこれに対応する三次元座標を再度初期値として採用し、数値計算を行なってもよい。
【００６５】
以上詳述した本実施の形態の位置出力システム１によれば、より簡易な構成で、話者の三次元位置を出力することができる。そして計算量が膨大になりにくいとともに、話者の三次元位置をより正確に出力することができる。
【００６６】
以上詳述したような位置出力システム１により、話者の三次元位置の情報を装着者と話者との関係を判定する情報として利用できる。
ここで装着者と話者との関係として判定を行なう事項としては、例えば、装着者と話者とのコミュニケーション関係である。例えば、装着者と話者が近い距離に位置し、さらに対面角度の情報により向き合っていることがわかれば、装着者と話者が会話を行なっている可能性が高い。また装着者と話者が反対方向を向いていれば、会話を行なっていない可能性が高い。実際には、他に話者や装着者の音声が取得されるタイミングや、間合いなど他の情報も使用して判定が行なわれる。また装着者と話者との関係として、上下方向の対面角度を使用して、一方が他方を上から見下ろしている関係にあるなどの判定も可能である。また複数の端末装置１０からの情報をもとに、会話を行っている複数人の間での位置の相互関係などの処理をしても良い。
【００６７】
また上述した例では、自他識別の判断、初期値の選択、および三次元位置の導出を端末装置１０で行なっていたが、これに限られるものではなく、ホスト装置２０の方で行なってもよい。この形態における対面角度出力システム１としては、図１のものに対し、音声解析部１５で行なっていた自他識別の判断および三次元位置の導出を、例えば、ホスト装置２０のデータ解析部２３で行なう。そしてこの場合データ解析部２３は、話者が装着者か他者かを識別する識別手段として機能するとともに、話者の三次元位置を求めるための数値計算の初期値を選択する初期値選択手段、および初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段として機能する。さらにこの場合、端末装置１０のデータ送信部１６は、マイクロフォン１１ａ，１１ｂ，１１ｃにより取得された音声の情報を、音声解析部１５を介さずに受け、データ受信部２１に対し送信する。またホスト装置２０のデータ受信部２１は、データ送信部１６により送信された音声の情報を受信する。即ちデータ送信部１６は、マイクロフォン１１ａ，１１ｂ，１１ｃにより取得された音声の情報を送信する出力手段として機能し、データ受信部２１は、データ送信部１６により出力された音声の情報を受信する受信手段として機能する。
【００６８】
＜プログラムの説明＞
なお図４で説明を行った本実施の形態における端末装置１０が行なう処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置１０に設けられた制御用コンピュータ内部の図示しないＣＰＵが、端末装置１０の各機能を実現するプログラムを実行し、これらの各機能を実現させる。
【００６９】
よって図４で説明を行った端末装置１０が行なう処理は、コンピュータに、装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み、話者の音声を取得する少なくとも３個以上のマイクロフォンに取得された話者の音声の情報を取得する機能と、マイクロフォンのうち、装着者の口からの距離が互いに異なる２つのマイクロフォンで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する機能と、話者が他者と識別された場合に、取得された話者の音声の情報から、マイクロフォンに話者の音声が到達する時間差を導出する機能と、この時間差およびマイクロフォンが離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を導出する機能と、この対面角度から、話者の三次元位置を導出するための数値計算の初期値を選択する機能と、選択された初期値を用いた数値計算により話者の三次元位置を導出する機能と、を実現させるプログラムとして捉えることもできる。
【実施例】
【００７０】
（実施例１）
図１１のように構成した端末装置１０を用意した。図１１において端末装置１０には、６個のマイクロフォンである第１マイクロフォン１１ａ，第２マイクロフォン１１ｂ，第３マイクロフォン１１ｃ，第４マイクロフォン１１ｄ，第５マイクロフォン１１ｅ，第６マイクロフォン１１ｆが配置されている。このうち第１マイクロフォン１１ａは、装置本体３０の点Ｍ１で示される箇所に配置される。また他のマイクロフォン１１ｂ，１１ｃ，１１ｄ，１１ｅ，１１ｆは、提げ紐４０の点Ｍ２、点Ｍ３、点Ｍ４、点Ｍ５、点Ｍ８で示される箇所にそれぞれ配置される。そして本実施の形態では、点Ｍ１と点Ｍ２との距離を３０ｃｍ、点Ｍ１と点Ｍ３との距離を３０ｃｍ、点Ｍ２と点Ｍ３との距離を１５ｃｍ、点Ｍ２と点Ｍ４との距離を１２ｃｍとしている。なお点Ｍ５は、線分Ｍ１Ｍ２の中点に、点Ｍ８は、線分Ｍ３Ｍ４の中点に位置する。
また点Ｍ１、点Ｍ２、点Ｍ３、点Ｍ５は、同じ平面上に配置され、この平面とは異なる平面上に点Ｍ２、点Ｍ３、点Ｍ４、点Ｍ８が配置するようにしている。そしてこの２つの平面の交差する角度は２０°とした。
【００７１】
このような端末装置１０において、点Ｍ１−点Ｍ４、点Ｍ２−点Ｍ３、点Ｍ５−点Ｍ８のペアを考え、この箇所に配される３組のマイクロフォンを使用して、話者の位置の出力を行なった。このとき対面角度α、対面角度β、対面角度γは、それぞれ６０°となった。そしてこの対面角度α，β，γに基づき、初期値を選択した。より具体的には、それぞれの対面角度α，β，γの値の差が最も小さいものをＬＵＴの中から選択した。そして本実施の形態では、初期値の三次元座標として（−９，６，５）の位置（この場合、単位は例えば（ｍ）である。）が選ばれた。そしてこの初期値から開始するニュートン法を利用した数値計算を行なったところ、６回の繰り返し計算で収束し、話者の位置である三次元座標として（−８．４，５．５，２．６）の結果を得た。これは、話者の位置として正しい解であった。
また話者の位置を９通りの場合に変更して、同様の計算を行なったが、何れも１０回以内の繰り返し計算で収束し、何れも正しい解が得られた。
【００７２】
なお本実施の形態では、このように全てのマイクロフォンを同じ平面上に配置せず、少なくとも１つのマイロフォンを他のマイクロフォンが属する平面から外して配置している。このようにすることで、話者の位置によらずに話者の三次元位置を出力することができる。これが全てのマイクロフォンを同じ平面上に配置した場合は、対面角度が、０°、９０°、１８０°、２７０°の場合に数値計算が収束せず正しい解が得られないことがある。上述のようなマイクロフォンの配置を採用することで、この現象を回避することができる。
【００７３】
（比較例１）
図１２のように構成した端末装置１０を用意した。図１２において端末装置１０には、４個のマイクロフォンである第１マイクロフォン１１ａ，第２マイクロフォン１１ｂ，第３マイクロフォン１１ｃ，第４マイクロフォン１１ｄが配置されている。このうち第１マイクロフォン１１ａは、装置本体３０の点Ｍ１で示される箇所に配置される。また他のマイクロフォン１１ｂ，１１ｃ，１１ｄは、提げ紐４０の点Ｍ２、点Ｍ３、点Ｍ４で示される箇所にそれぞれ配置される。そして本実施の形態では、点Ｍ１と点Ｍ２、および点Ｍ１と点Ｍ３との距離を３０ｃｍ、点Ｍ２と点Ｍ３との距離を１５ｃｍ、点Ｍ２と点Ｍ４、および点Ｍ３と点Ｍ４との距離を１２ｃｍとしている。また点Ｍ１、点Ｍ２、点Ｍ３は、同じ平面上に配置され、この平面とは異なる平面上に点Ｍ２、点Ｍ３、点Ｍ４が配置するようにしている。そしてこの２つの平面の交差する角度は２０°とした。
【００７４】
このような端末装置１０において、点Ｍ１−点Ｍ２、点Ｍ２−点Ｍ３、点Ｍ３−点Ｍ１のペアを考え、この箇所に配される３組のマイクロフォンを使用して、話者の位置の出力を行なった。このとき初期値を図１３（ａ）〜（ｆ）のように適当に選択し、この初期値を使用して数値計算を行なった。
数値計算の結果を図１３に示す。なおこのとき話者の正しい三次元位置は、（１．５，１．２，０．８）であった。ここで図１３（ｂ）〜（ｃ）、（ｅ）〜（ｆ）のように初期値として正しい三次元位置に非常に近い値を与えた場合は、正しい解が得られた。一方、図１３（ａ）、（ｄ）のように初期値として正しい三次元位置から少し遠い値を与えた場合は、収束解が得られず、発散し、正しい結果は得られなかった。このように初期値の与え方により結果は著しく異なり、適切な方法により初期値を選択しないと解が発散しやすいことがわかる。
【００７５】
（比較例２）
（８）式〜（１０）式に示す３元２次連立方程式を解析的に解くことを試みたが、計算量が膨大であり、解くことができなかった。
【００７６】
（実施例２）
図１４のように構成した端末装置１０を用意した。図１４において端末装置１０には、４個のマイクロフォンである第１マイクロフォン１１ａ，第２マイクロフォン１１ｂ，第３マイクロフォン１１ｃ，第４マイクロフォン１１ｄが配置されている。このうち第１マイクロフォン１１ａ，第２マイクロフォン１１ｂ，第３マイクロフォン１１ｃは、装置本体３０の点Ｍ１、点Ｍ２、点Ｍ３で示される箇所にそれぞれ配置される。また第４マイクロフォン１１ｄは、提げ紐４０の点Ｍ４で示される箇所に配置される。また点Ｍ１、点Ｍ２、点Ｍ３は、一致直線状に並び、線分Ｍ２Ｍ３と線分Ｍ１Ｍ４は直交するようにした。そして本実施の形態では、点Ｍ１と点Ｍ２、および点Ｍ２と点Ｍ３との距離をそれぞれ５ｃｍとした。また点Ｍ１と点Ｍ４との位置関係は、図１１で示した場合と同様である。
【００７７】
このような端末装置１０において、点Ｍ１−点Ｍ２、点Ｍ１−点Ｍ３、点Ｍ１−点Ｍ４のペアを考え、この箇所に配される３組のマイクロフォンを使用して、話者の位置の出力を行なった。このとき実施例１と同様にして初期値を選択し、数値計算を行なった。その結果、話者の位置として正しい解を得ることができた。
【００７８】
本実施の形態では、選択したマイクロフォンを結ぶ線分が直交している。つまり線分Ｍ１Ｍ２と線分Ｍ１Ｍ４、線分Ｍ１Ｍ３と線分Ｍ１Ｍ４とは直交する。このように使用するマイクロフォンのペアの配置をＴ字型や十字型となるようにすることで、方程式の非線形項の係数が０になり、ヤコビアンの対角化ができる。そしてその結果、数値計算を行なう際の計算量を劇的に減少させることができる。
【符号の説明】
【００７９】
１…位置出力システム、１０…端末装置、１１ａ…第１マイクロフォン、１１ｂ…第２マイクロフォン、１１ｃ…第３マイクロフォン、１５…音声解析部、１６…データ送信部、２０…ホスト装置、３０…装置本体、４０…提げ紐、１５１…自他識別部、１５４…初期値選択部、１５６…数値計算部

【特許請求の範囲】
【請求項１】
装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み、話者の音声を取得する少なくとも３個以上設けられる音声取得手段と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる２つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、
前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、
前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、
を備えることを特徴とする位置出力装置。
【請求項２】
前記対面角度は、２個の前記音声取得手段を結ぶ線分と、当該線分の中点および話者を結ぶ線分との角度であることを特徴とする請求項１に記載の位置出力装置。
【請求項３】
前記位置導出手段は、２個の前記音声取得手段を結ぶ線分の中点を頂点とし前記対面角度を半頂角とする円錐の側面に話者の音声の音源が位置するとともに、当該音源は３つの当該円錐の側面の交点に位置することを利用して話者の三次元位置を導出することを特徴とする請求項１または２に記載の位置出力装置。
【請求項４】
前記初期値選択手段は、話者が置かれる三次元空間中に設定され初期値の候補となる候補点に対する対面角度と話者に対する対面角度を比較することで前記候補点の中から初期値を選択することを特徴とする請求項１乃至３の何れか１項に記載の位置出力装置。
【請求項５】
前記初期値選択手段および前記位置導出手段を収容する装置本体と、
前記装置本体に両端が接続することにより環形状をなす紐部材と、
をさらに備え、
前記音声取得手段は、前記紐部材に少なくとも１つ取り付けられ、
環形状の前記紐部材を首に掛けることで前記装置本体を装着者に装着するようにしたことを特徴とする請求項１乃至４の何れか１項に記載の位置出力装置。
【請求項６】
装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み、話者の音声を取得する少なくとも３個以上設けられる音声取得手段と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる２つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、
前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、
前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、
前記位置導出手段により導出された話者の三次元位置の情報を出力する出力手段と、
前記出力手段により出力された話者の三次元位置の情報を受信する受信手段と、
を備えることを特徴とする位置出力システム。
【請求項７】
装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み、話者の音声を取得する少なくとも３個以上設けられる音声取得手段と、
前記音声取得手段により取得された前記音声の情報を出力する出力手段と、
前記出力手段により出力された前記音声の情報を受信する受信手段と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる２つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する識別手段と、
前記識別手段によって話者が他者と識別された場合に、前記音声取得手段に話者の音声が到達する時間差および当該音声取得手段が離間する距離から導出される装着者と話者の向き合う角度である対面角度から話者の三次元位置を導出するための数値計算の初期値を選択する初期値選択手段と、
前記初期値選択手段により選択された初期値を用いた数値計算により話者の三次元位置を導出する位置導出手段と、
を備えることを特徴とする位置出力システム。
【請求項８】
コンピュータに、
装着者の口からの距離が互いに異なる２つと水平方向の距離が離れた２つを含み、話者の音声を取得する少なくとも３個以上の音声取得手段に取得された話者の音声の情報を取得する機能と、
前記音声取得手段のうち、前記装着者の口からの距離が互いに異なる２つの当該音声取得手段で取得される音声の音圧差に基づいて、話者が当該装着者か他者かを識別する機能と、
話者が他者と識別された場合に、取得された話者の音声の情報から、前記音声取得手段に話者の音声が到達する時間差を導出する機能と、
前記時間差および前記音声取得手段が離間する距離に基づいて、装着者と話者の向き合う角度である対面角度を導出する機能と、
前記対面角度から、話者の三次元位置を導出するための数値計算の初期値を選択する機能と、
選択された初期値を用いた数値計算により話者の三次元位置を導出する機能と、
を実現させるプログラム。

【図１】