音声解析装置
【課題】使用者に装着された音声取得手段にて音声を取得し、取得した音声の非言語情報に基づいて、使用者の顔の向きを検知する。
【解決手段】端末装置10は、使用者の口を挟んで対称な位置となるように装着される第2マイクロフォン11bおよび第3マイクロフォン11cと、これらとは使用者の口からの距離が異なる位置となるように装着される第1マイクロフォン11aと、第1マイクロフォン11aにより取得された音声の音声信号と第2マイクロフォン11bにより取得された音声の音声信号との比較結果に基づき、取得された音声が使用者の発話音声か、使用者以外の他者の発話音声かを識別し、使用者の顔の向きを検知する音声解析部と、を備える。
【解決手段】端末装置10は、使用者の口を挟んで対称な位置となるように装着される第2マイクロフォン11bおよび第3マイクロフォン11cと、これらとは使用者の口からの距離が異なる位置となるように装着される第1マイクロフォン11aと、第1マイクロフォン11aにより取得された音声の音声信号と第2マイクロフォン11bにより取得された音声の音声信号との比較結果に基づき、取得された音声が使用者の発話音声か、使用者以外の他者の発話音声かを識別し、使用者の顔の向きを検知する音声解析部と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声解析装置に関する。
【背景技術】
【0002】
特許文献1には、次の従来技術が開示されている。この従来技術は、それぞれ前方指向性を有し、左右に間隔をおいて配設されるとともに、一方は前方に向けて他方は後方に向けて配置された2つのマイクロホンと、マイクロホンで集音された音の時間差情報をパルスニューロンモデルにより検出する時間差検出部と、マイクロホンで集音された音の音圧差情報をパルスニューロンモデルにより検出する音圧差検出部と、音の時間差情報に基づいて左右方向における音源の方向情報をパルスニューロンモデルにより検出する左右方向検出部と、音の音圧差情報に基づいて前後方向における音源の方向情報をパルスニューロンモデルにより検出する前後方向検出部とを備える音源定位装置である。
【0003】
また、特許文献2には、次の従来技術が開示されている。この従来技術は、第1、第2の無指向性マイクロフォンと、これらの無指向性マイクロフォンからの出力信号を入力として音声、非音声を検出する音声/非音声検出手段を設ける。非音声のときに第2のマイクロフォンの出力から騒音レベルを推定し、騒音レベルに応じてその出力を増幅する。そして第1の無指向性マイクロフォンの出力から可変信号増幅手段の出力を減算する。こうして高騒音時には両指向性、低騒音時には無指向性と指向特性を変化させる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−109868号公報
【特許文献2】特開平8−191496号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、使用者に装着された音声取得手段にて音声を取得し、取得した音声の非言語情報に基づいて、使用者の姿勢としての顔の向きを検知する音声解析装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、
装置本体と、
前記装置本体に接続され、当該装置本体を使用者の首から提げるために用いられる提げ紐と、
前記提げ紐の前記装置本体に接続する端部または当該装置本体に設けられた第1音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた一方の提げ紐に設けられた第2音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた他方の提げ紐に設けられた第3音声取得手段と、
前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、前記提げ紐を首に掛けた使用者の顔の向きを検知する解析処理を行う解析部と、
前記装置本体に設けられ、前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置である。
請求項2に記載の発明は、
前記提げ紐は、筒状の構造を有し、当該提げ紐に設けられた前記第1音声取得手段、前記第2音声取得手段および前記第3音声取得手段は、当該提げ紐の内部に設けられていることを特徴とする、請求項1に記載の音声解析装置である。
請求項3に記載の発明は、
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項1または請求項2に記載の音声解析装置である。
請求項4に記載の発明は、
前記提げ紐において前記端部から最も遠い位置に設けられた第4音声取得手段をさらに備え、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項1乃至請求項3のいずれかに記載の音声解析装置である。
請求項5に記載の発明は、
前記提げ紐は、前記使用者が正面を向いた状態で発話した音声に関して、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧との差が一定の範囲内となる長さであり、
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項4に記載の音声解析装置である。
請求項6に記載の発明は、
使用者が正面を向いた状態で当該使用者の口からの音波伝搬経路の距離が第1の距離である位置となるように当該使用者に装着される第1音声取得手段と、
前記使用者が正面を向いた状態で当該使用者の口からの距離が前記第1の距離とは異なる第2の距離である位置となるように当該使用者に装着される第2音声取得手段と、
前記使用者が正面を向いた状態で、当該使用者の口を挟んで前記第2音声取得手段と対称な位置となるように当該使用者に装着される第3音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が当該第1音声取得手段、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の発話音声か、当該使用者以外の他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の顔の向きを検知する解析処理を行う解析部と、
前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置である。
請求項7に記載の発明は、
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項6に記載の音声解析装置である。
請求項8に記載の発明は、
前記使用者の背面側に装着される第4音声取得手段をさらに備え、
前記第1音声取得手段は前記使用者の正面側に装着され、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項6または請求項7に記載の音声解析装置である。
請求項9に記載の発明は、
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項8に記載の音声解析装置である。
【発明の効果】
【0007】
請求項1の発明によれば、収録した音声の非言語情報に基づいて発話者が装置の使用者か否かを識別し、発話者の顔の向きを検知することができる。
請求項2の発明によれば、使用者が提げ紐にて装置を装着することにより、収録音声の非言語情報に基づく発話者の識別および発話者の顔の向きの検知が可能となる位置に音声取得手段を装着することができる。
請求項3の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の識別および発話者の顔の向きの検知が実現される。
請求項4の発明によれば、収録した音声の非言語情報に基づいて発話者の縦方向における顔の向きを検知することができる。
請求項5の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の縦方向における顔の向きの検知が実現される。
請求項6の発明によれば、収録した音声の非言語情報に基づいて発話者が装置の使用者か否かを識別し、発話者の顔の向きを検知することができる。
請求項7の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の識別および発話者の顔の向きの検知が実現される。
請求項8の発明によれば、収録した音声の非言語情報に基づいて発話者の縦方向における顔の向きを検知することができる。
請求項9の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の縦方向における顔の向きの検知が実現される。
【図面の簡単な説明】
【0008】
【図1】本実施形態による音声解析システムの構成例を示す図である。
【図2】本実施形態における端末装置の構成例を示す図である。
【図3】装着者および他者の口(発声部位)と、マイクロフォンとの位置の関係を示す図である。
【図4】マイクロフォンと音源との間の音波伝搬経路の距離と音圧(入力音量)との関係を示す図である。
【図5】装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
【図6】装着者の顔の向きと、装着者の口(発声部位)と第2マイクロフォンおよび第3マイクロフォンとの間の距離との関係を説明する図である。
【図7】本実施形態における端末装置の動作を示すフローチャートである。
【図8】発話者(装着者)の顔の縦方向(上下)の向きを検知するための端末装置の構成例を示す図である。
【図9】提げ紐に対するマイクロフォンの実装構造の例を示す図である。
【図10】本実施形態の端末装置をそれぞれ装着した複数の装着者が会話している状況を示す図である。
【図11】図10の会話状況における各端末装置の発話情報の例を示す図である。
【図12】本実施形態におけるホスト装置の機能構成例を示す図である。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<システム構成例>
図1は、本実施形態による音声解析システムの構成例を示す図である。
図1に示すように、本実施形態のシステムは、端末装置10とホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(商標)(Wireless Fidelity)、Bluetooth(商標)、ZigBee(商標)、UWB(Ultra Wideband)等の既存の方式による回線を用いて良い。また、図示の例では、端末装置10が1台のみ記載されているが、詳しくは後述するように、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。
【0010】
端末装置10は、音声取得手段として、少なくとも、3個のマイクロフォン(第1マイクロフォン11a、第2マイクロフォン11b、第3マイクロフォン11c)と、増幅器(第1増幅器13a、第2増幅器13b、第3増幅器13c)とを備える。また、端末装置10は、処理手段として、収録音声を解析する音声解析部15と、解析結果をホスト装置20に送信するためのデータ送信部16とを備え、さらに電源部17を備える。
【0011】
第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cは、装着者の口(発声部位)からの音波伝搬経路の距離(以下、単に「距離」と記す)が個別に設定された、異なる位置に配置される。ここでは、第1マイクロフォン11aは装着者の口(発声部位)から遠い位置(例えば、35cm程度)に配置され、第2マイクロフォン11bおよび第3マイクロフォン11cは装着者の口(発声部位)に近い位置(例えば、10cm程度)に配置されるものとする。また、第2マイクロフォン11bは装着者の口(発声部位)の右側、第3マイクロフォン11cは装着者の口(発声部位)の左側に、装着者が正面を向いた状態で装着者の口(発声部位)を挟んで対称な位置に配置される。本実施形態の第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cとして用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。特に無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンを用いることが好ましい。
【0012】
第1増幅器13a、第2増幅器13bおよび第3増幅器13cは、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cが取得音声に応じて出力する電気信号(音声信号)を増幅する。本実施形態の第1増幅器13a、第2増幅器13bおよび第3増幅器13cとして用いられる増幅器としては、既存のオペアンプ等を用いて良い。
【0013】
音声解析部15は、第1増幅器13a、第2増幅器13bおよび第3増幅器13cから出力された音声信号を解析する。そして、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cで取得した音声が端末装置10を装着した装着者自身が発話した音声か、他者の発話による音声かを識別する。すなわち、音声解析部15は、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cで取得した音声に基づき、音声の発話者を識別する識別部として機能する。発話者識別のための具体的な処理の内容については後述する。
【0014】
また、音声解析部15は、音声の発話者が装着者自身であると判断した場合に、第1増幅器13a、第2増幅器13bおよび第3増幅器13cから出力された音声信号をさらに解析し、装着者の口(発声部位)が第2マイクロフォン11b側と第3マイクロフォン11c側のどちらを向いているかを判断する。すなわち、音声解析部15は、第2マイクロフォン11bおよび第3マイクロフォン11cで取得した音声に基づき、装着者の姿勢(顔の向き)を検知する検知部として機能する。姿勢検知のための具体的な処理の内容については後述する。
【0015】
データ送信部16は、音声解析部15による解析結果を含む取得データと端末装置10のIDを、上記の無線通信回線を介してホスト装置20へ送信する。ホスト装置20へ送信する情報としては、ホスト装置20において行われる処理の内容に応じて、上記の解析結果の他、例えば、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cによる音声の取得時刻、取得音声の音圧等の情報を含めて良い。なお、端末装置10に音声解析部15による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。有線回線で送信しても良い。
【0016】
電源部17は、上記の第1マイクロフォン11a、第2マイクロフォン11b、第3マイクロフォン11c、第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15およびデータ送信部16に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部17は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。
【0017】
ホスト装置20は、端末装置10から送信されたデータを受信するデータ受信部21と、受信したデータを蓄積するデータ蓄積部22と、蓄積したデータを解析するデータ解析部23と、解析結果を出力する出力部24とを備える。このホスト装置20は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置10が使用され、ホスト装置20は、その複数台の端末装置10の各々からデータを受信する。
【0018】
データ受信部21は、上記の無線通信回線に対応しており、各端末装置10からデータを受信してデータ蓄積部22へ送る。データ蓄積部22は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部21から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置10から送信される端末IDと、予めホスト装置20に登録されている発話者名と端末IDの照合により行う。また、端末装置10から端末IDの代わりに、装着者名を送信するようにしておいても良い。
【0019】
データ解析部23は、例えばパーソナルコンピュータのプログラム制御されたCPUにより実現され、データ蓄積部22に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置10の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。
【0020】
出力部24は、データ解析部23による解析結果を出力したり、解析結果に基づく出力を行ったりする。出力手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。
【0021】
<端末装置の構成例>
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置10は、図2に示すように、装置本体30と、装置本体30に接続された提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。
【0022】
装置本体30は、金属や樹脂等で形成された薄い直方体のケース31に、少なくとも第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15、データ送信部16および電源部17を実現する回路と電源部17の電源(電池)とを収納して構成される。ケース31には、装着者の氏名や所属等のID情報を表示したIDカード等を挿入するポケットを設けても良い。また、ケース31自体の表面にそのようなID情報等を印刷したり、ID情報等を記載したシールを貼り付けたりしても良い。
【0023】
提げ紐40には、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cが設けられる(以下、第1マイクロフォン11a〜第3マイクロフォン11cを区別しない場合には、マイクロフォン11と記載)。マイクロフォン11は、提げ紐40の内部を通るケーブル(電線等)により、装置本体30に収納された第1増幅器13a、第2増幅器13b、第3増幅器13cに接続される。提げ紐40の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。
【0024】
この提げ紐40は、筒状の構造を有し、提げ紐40の内部にマイクロフォン11を収納している。マイクロフォン11を提げ紐40の内部に設けることにより、マイクロフォン11の損傷や汚れを防ぎ、対話者がマイクロフォン11の存在を意識することが抑制される。なお、装着者の口(発声部位)から遠い位置に配置される第1マイクロフォン11aは、ケース31に内蔵して装置本体30に設けても良い。本実施形態では、第1マイクロフォン11aが提げ紐40に設けられる場合を例として説明する。
【0025】
図2を参照すると、第1マイクロフォン11aは、提げ紐40の装置本体30に接続される端部(例えば、接続部位から10cm以内の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第1マイクロフォン11aは、装着者の口(発声部位)から約30cmから40cm程度離れた位置に配置される。なお、第1マイクロフォン11aが装置本体30に設けられた場合も、装着者の口(発声部位)から第1マイクロフォン11aまでの距離は同程度である。
【0026】
第2マイクロフォン11bおよび第3マイクロフォン11cは、提げ紐40の装置本体30に接続される端部から離れた位置(例えば、接続部位から20cm〜30cm程度の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第2マイクロフォン11bおよび第3マイクロフォン11cは、装着者の首元(例えば鎖骨に当たる位置)に位置し、装着者の口(発声部位)から約10cmから20cm程度離れた位置に配置される。そして、この状態で、第2マイクロフォン11bおよび第3マイクロフォン11cは、装着者の首元の左右に分かれて配置されるため、装着者が正面を向いた状態で装着者の口(発声部位)を挟んで対称に位置することとなる。
【0027】
なお、本実施形態の端末装置10は、図2に示す構成に限定されるものではない。例えば、マイクロフォン11は、第1マイクロフォン11aから装着者の口(発声部位)までの(音波伝搬経路の)距離が第2マイクロフォン11bおよび第3マイクロフォン11cから装着者の口(発声部位)までの(音波伝搬経路の)距離の数倍程度となるように、第1マイクロフォン11a〜第3マイクロフォン11cの位置関係が特定されれば良い。したがって、第1マイクロフォン11aを首の後ろ側の提げ紐40に設けても良い。また、マイクロフォン11は、上記のように提げ紐40に設ける構成に限らず、種々の方法で装着者に装着して良い。例えば、第1マイクロフォン11a〜第3マイクロフォン11cの各々を、個別にピン等を用いて衣服に固定するように構成しても良い。また、第1マイクロフォン11a〜第3マイクロフォン11cの位置関係が所望の位置で固定されるようにデザインされた専用の装着具を用意して装着しても良い。
【0028】
また、装置本体30は、図2に示したように、提げ紐40に接続されて装着者の首から提げられる構成に限らず、携帯することが容易な装置として構成されていれば良い。例えば、本実施形態のような提げ紐ではなく、クリップやベルトにより衣服や体に装着するように構成しても良いし、単にポケット等に納めて携帯するような構成としても良い。また、携帯電話その他の既存の携帯型電子情報端末に、マイクロフォン11からの音声信号を受け付けて増幅し、解析する機能を実現させても良い。ただし、第1マイクロフォン11aが装置本体30に設けられる場合は、第1マイクロフォン11aと第2マイクロフォン11bおよび第3マイクロフォン11cとの位置関係を上記のように保持する必要があるため、携帯時の装置本体30の位置は特定される。
【0029】
さらにまた、マイクロフォン11と装置本体30(あるいは音声解析部15)を有線で接続するのではなく、無線通信により接続しても良い。第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15、データ送信部16および電源部17は、上記の構成例では単一のケース31に収納されることとしたが、複数の個体に分けて構成しても良い。例えば、電源部17をケース31に収納せず、外部電源に接続して使用する構成としても良い。
【0030】
<収録音声の非言語情報に基づく発話者(自他)の識別>
次に、本実施形態における発話者の識別方法について説明する。
本実施形態のシステムは、端末装置10に設けられた3つのマイクロフォン11のうち、第1マイクロフォン11aにより収録された音声の情報と、第2マイクロフォン11bまたは第3マイクロフォン11cにより収録された音声の情報とを用いて、端末装置10の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、収録音声の発話者に関して自他の別を識別する。また、本実施形態では、収録音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧(マイクロフォン11への入力音量)等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。なお、本実施形態による発話者の識別処理では、第2マイクロフォン11bで収録された音声の情報と第3マイクロフォン11cで収録された音声の情報のうち、いずれか一方が用いられる。以下の説明では、第2マイクロフォン11bで収録された音声の情報を用いるものとする。
【0031】
図1および図2を参照して説明したように、本実施形態において、端末装置10の第1マイクロフォン11aは装着者の口(発声部位)から遠い位置に配置され、第2マイクロフォン11bは装着者の口(発声部位)に近い位置に配置される。すなわち、装着者の口(発声部位)を音源とすると、第1マイクロフォン11aと音源との間の距離と、第2マイクロフォン11bと音源との間の距離が大きく異なる。具体的には、第1マイクロフォン11aと音源との間の距離は、第2マイクロフォン11bと音源との間の距離の1.5〜4倍程度である。ここで、マイクロフォン11における収録音声の音圧は、マイクロフォン11と音源との間の距離が大きくなるにしたがって減衰(距離減衰)する。したがって、装着者の発話音声に関して、第1マイクロフォン11aにおける収録音声の音圧と第2マイクロフォン11bにおける収録音声の音圧とは大きく異なる。
【0032】
一方、装着者以外の者(他者)の口(発声部位)を音源とした場合を考えると、その他者が装着者から離れているため、第1マイクロフォン11aと音源との間の距離と、第2マイクロフォン11bと音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口(発声部位)を音源とした場合のように、第1マイクロフォン11aと音源との間の距離が第2マイクロフォン11bと音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第1マイクロフォン11aにおける収録音声の音圧と第2マイクロフォン11bにおける収録音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。
【0033】
図3は、装着者および他者の口(発声部位)と、マイクロフォン11との位置の関係を示す図である。
図3に示す関係において、装着者の口(発声部位)である音源aと第1マイクロフォン11aとの間の距離をLa1、音源aと第2マイクロフォン11bとの間の距離をLa2とする。また、他者の口(発声部位)である音源bと第1マイクロフォン11aとの間の距離をLb1、音源bと第2マイクロフォン11bとの間の距離をLb2とする。この場合、次の関係が成り立つ。
La1>La2(La1≒1.5×La2〜4×La2)
Lb1≒La2
【0034】
図4は、マイクロフォン11と音源との間の距離と音圧(入力音量)との関係を示す図である。
上述したように、音圧は、マイクロフォン11と音源との間の距離に応じて距離減衰する。図4において、距離La1の場合の音圧Ga1と距離La2の場合の音圧Ga2とを比較すると、音圧Ga2は、音圧Ga1の4倍程度となっている。一方、距離Lb1と距離Lb2とが近似するため、距離Lb1の場合の音圧Gb1と距離Lb2の場合の音圧Gb2とは、ほぼ等しい。そこで、本実施形態では、この音圧比の差を用いて、収録音声における装着者自身の発話音声と他者の発話音声とを識別する。なお、図4に示した例では、距離Lb1、Lb2を60cmとしたが、ここでは音圧Gb1と音圧Gb2とがほぼ等しくなることに意味があり、距離Lb1、Lb2は図示の値に限定されない。
【0035】
図5は、装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
図4を参照して説明したように、装着者自身の発話音声に関して、第2マイクロフォン11bの音圧Ga2は、第1マイクロフォン11aの音圧Ga1の数倍(例えば4倍程度)である。また、他者の発話音声に関して、第2マイクロフォン11bの音圧Gb2は、第1マイクロフォン11aの音圧Gb1とほぼ等しい(1倍程度)。そこで、本実施形態では、第2マイクロフォン11bの音圧と第1マイクロフォン11aの音圧との比に閾値αを設定する。そして、音圧比が閾値αよりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値αよりも小さい音声は他者の発話音声と判断する。図5に示す例では、閾値αを「2」とし、音圧比Ga2/Ga1は閾値α=「2」を超えるので装着者自身の発話音声と判断され、音圧比Gb2/Gb1は閾値α=「2」よりも小さいので他者の発話音声と判断されている。
【0036】
ところで、マイクロフォン11により収録される音声には、発話音声の他に、環境音等のいわゆる雑音(ノイズ)が含まれる。この雑音の音源とマイクロフォン11との間の距離の関係は、他者の発話音声の場合と類似する。すなわち、図4、図5に示した例によれば、雑音の音源cと第1マイクロフォン11aとの間の距離をLc1とし、雑音の音源cと第2マイクロフォン11bとの間の距離をLc2とすると、距離Lc1と距離Lc2とは近似する。そして、マイクロフォン11の収録音声における音圧比Gc2/Gc1は、閾値α=「2」よりも小さくなる。しかし、このような雑音は、バンドパスフィルタやゲインフィルタ等を用いた既存の技術によるフィルタリング処理を行うことにより発話音声から分離され、除去される。
【0037】
以上、第1マイクロフォン11aで収録された音声の情報と第2マイクロフォン11bで収録された音声の情報とを用いた、本実施形態による発話者の識別処理について説明した。ここで、上記の処理において、第2マイクロフォン11bで収録された音声の代わりに第3マイクロフォン11cで収録された音声の情報を用いても、同様に音声の発話者を識別することができる。
【0038】
<発話者(装着者)の姿勢の検知>
次に、本実施形態における発話者(装着者)の姿勢(顔の向き)の検知方法について説明する。
本実施形態のシステムは、上記の発話者の識別処理により発話者が端末装置10の装着者であると判断された場合に、その発話者(装着者)の姿勢として、発話者の顔の向きを検知する。言い換えれば、本実施形態は、発話者(装着者)の口(発声部位)の向く方向を検知する。本実施形態において、発話者の姿勢を検知するために、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧等の非言語情報を用いることは、上記の発話者識別の場合と同様である。
【0039】
図1および図2を参照して説明したように、本実施形態において、端末装置10の第2マイクロフォン11bと第3マイクロフォン11cとは、装着者の口(発声部位)からほぼ等距離であって、装着者が正面を向いた状態で装着者の口(発声部位)を挟んで対称な位置に配置される。したがって、装着者が正面を向いて発話した場合、第2マイクロフォン11bと第3マイクロフォン11cによる収録音声の音圧は、ほぼ同じ値となる。
【0040】
これに対し、装着者が正面に対してある程度の角度を持つ向きに顔を向けて発話した場合、装着者の口(発声部位)と第2マイクロフォン11bとの間の距離と、装着者の口(発声部位)と第3マイクロフォン11cとの間の距離とは大きく異なる。そのため、第2マイクロフォン11bによる収録音声の音圧と第3マイクロフォン11cによる収録音声の音圧は大きく異なる。
【0041】
図6は、装着者の顔の向きと、装着者の口(発声部位)と第2マイクロフォン11bおよび第3マイクロフォン11cとの間の距離との関係を説明する図である。
図6(a)に示すように、装着者が正面を向いている場合、音源aである装着者の口(発声部位)と第2マイクロフォン11bとの間の距離La2と、音源aである装着者の口(発声部位)と第3マイクロフォン11cとの間の距離La3との関係は、
La2≒La3
である。これに対し、例えば図6(b)に示すように、装着者が右(第2マイクロフォン11b側)を向いて発話した場合、距離La2と距離La3との関係は、
La3>La2
である。したがって、図6(b)の場合、第2マイクロフォン11bの音圧Ga2と第3マイクロフォン11cの音圧Ga3との関係は、
Ga2>Ga3
である。
【0042】
そこで、本実施形態では、第2マイクロフォン11bの音圧Ga2と第3マイクロフォン11cの音圧Ga3との差分を求め、この差分値が予め設定された閾値βを超える場合に、発話者(装着者)は音圧の値が大きい方のマイクロフォン11の側(右または左)を向いていると判断する。すなわち、
Ga2−Ga3>β
である場合は、発話者(装着者)の顔が第2マイクロフォン11b側を向いており、
Ga3−Ga2>β
である場合は、発話者(装着者)の顔が第3マイクロフォン11c側を向いていると判断する。
【0043】
なお、発話者(装着者)の顔の向きを判断するために第2マイクロフォン11bの音圧Ga2と第3マイクロフォン11cの音圧Ga3とを参酌する場合、単に音圧Ga2と音圧Ga3の値の大小関係を参酌しても良い。すなわち、
Ga2>Ga3
または、
Ga3>Ga2
のいずれかに該当する場合に、発話者(装着者)は音圧の値が大きい方のマイクロフォン11の側を向いていると判断しても良い。これに対し、上記の例では、雑音や発話音声の反響のような発話環境の影響により音圧の値に誤差が生じることを考慮し、音圧値の差分を閾値βと比較することとした。
【0044】
<端末装置の動作例>
図7は、本実施形態における端末装置10の動作を示すフローチャートである。
図7に示すように、端末装置10のマイクロフォン11が音声を取得すると、各マイクロフォン11から取得音声に応じた電気信号(音声信号)が第1増幅器13a〜第3増幅器13cへ送られる(ステップ601)。第1増幅器13a〜第3増幅器13cは、マイクロフォン11からの音声信号を取得すると、信号を増幅して音声解析部15へ送る(ステップ602)。
【0045】
音声解析部15は、第1増幅器13a〜第3増幅器13cで増幅された信号に対してフィルタリング処理を行い、信号から環境音等の雑音(ノイズ)の成分を除去する(ステップ603)。次に、音声解析部15は、雑音成分が除かれた信号に対し、一定の時間単位(例えば、数十分の一秒〜数百分の一秒)毎に、各マイクロフォン11の収録音声における平均音圧を求める(ステップ604)。
【0046】
ステップ604で求めた各マイクロフォン11、12における平均音圧の利得が有る場合(ステップ605でYes)、音声解析部15は、発話音声が有る(発話が行われた)と判断し、次に、第1マイクロフォン11における平均音圧と第2マイクロフォン12における平均音圧との比(音圧比)を求める(ステップ606)。そして、ステップ606で求めた音圧比が閾値αよりも大きい場合(ステップ607でYes)、音声解析部15は、発話音声は装着者自身の発話による音声であると判断する(ステップ608)。また、ステップ606で求めた音圧比が閾値αよりも小さい場合(ステップ607でNo)、音声解析部15は、発話音声は他者の発話による音声であると判断する(ステップ609)。
【0047】
一方、ステップ604で求めた各マイクロフォン11、12における平均音圧の利得が無い場合(ステップ605でNo)、音声解析部15は、発話音声が無い(発話が行われていない)と判断する(ステップ610)。なお、ステップ605の判断は、ステップ603のフィルタリング処理で除去しきれなかった雑音が信号に残っている場合を考慮し、平均音圧の利得の値が一定値以上の場合に、利得があると判断しても良い。
【0048】
ステップ608で装着者の発話音声と判断した場合、次に、音声解析部15は、第2マイクロフォン11bの平均音圧と第3マイクロフォン11cの平均音圧との差(音圧差)を求める。そして、求めた音圧差が閾値βよりも大きい場合(ステップ611でYes)、音声解析部15は、音圧値の大小関係に応じて発話者(装着者)の顔の向きを特定する(ステップ612)。一方、求めた音圧差が閾値βよりも小さい場合(ステップ611でNo)、音声解析部15は、発話者(装着者)の顔の向きを特定しない。なお、発話者(装着者)の顔の向きを特定しない場合、発話者(装着者)の顔の向きに関する情報の扱いについては、システムの仕様等に応じて定め得る。例えば、発話者(装着者)の顔の向きに関する情報が無いとしても良いし、音圧に基づいて発話者(装着者)の顔の向きを特定できない場合は発話者(装着者)が正面を向いているものとして扱っても良い。
【0049】
この後、音声解析部15は、データ送信部16を介して、ステップ604〜ステップ612の処理で得られた情報(発話の有無、発話者、発話者(装着者)の顔の向きの情報)を解析結果としてホスト装置20へ送信させる(ステップ613)。このとき、発話者毎(装着者自身または他者)の発話時間の長さや平均音圧の利得の値、その他の付加情報を解析結果と共にホスト装置20へ送信させても良い。
【0050】
なお、本実施形態では、第1マイクロフォン11aの音圧と第2マイクロフォン11bの音圧とを比較することにより、発話音声が装着者自身の発話による音声か他者の発話による音声かを判断した。しかし、本実施形態による発話者の識別は、マイクロフォン11により取得された音声信号そのものから抽出される非言語情報に基づいて行うものであれば良く、音圧の比較には限定されない。例えば、第1マイクロフォン11aにおける音声取得時刻(音声信号の出力時刻)と第2マイクロフォン11bにおける音声取得時刻とを比較しても良い。この場合、装着者自身の発話音声は、装着者の口(発声部位)から第1マイクロフォン11aまでの距離と、装着者の口(発声部位)から第2マイクロフォン11bまでの距離との差が大きいため、音声取得時刻にある程度の差(時間差)が生じる。一方、他者の発話音声は、装着者の口(発声部位)から第1マイクロフォン11aまでの距離と、装着者の口(発声部位)から第2マイクロフォン11bまでの距離との差が小さいため、装着者の発話音声の場合よりも音声取得時刻の時間差が小さい。そこで、音声取得時刻の時間差に対して閾値を設定し、音声取得時刻の時間差が閾値よりも大きい場合には装着者自身の発話と判断し、音声取得時刻の時間差が閾値よりも小さい場合には他者の発話と判断するようにしても良い。
【0051】
同様に、本実施形態では、第2マイクロフォン11bの音圧と第3マイクロフォン11cの音圧とを比較することにより、発話者(装着者)の顔の向きを特定した。しかし、本実施形態による発話者(装着者)の顔の向きの検知は、マイクロフォン11により取得された音声信号そのものから抽出される非言語情報に基づいて行うものであれば良く、音圧の比較には限定されない。例えば、第2マイクロフォン11bにおける音声取得時刻(音声信号の出力時刻)と第3マイクロフォン11cにおける音声取得時刻とを比較しても良い。この場合、発話者(装着者)が正面を向いているならば、第2マイクロフォン11bにおける音声取得時刻と第3マイクロフォン11cにおける音声取得時刻はほぼ等しい。これに対し、発話者(装着者)が正面に対してある程度の角度を持つ向きに顔を向けて発話した場合、発話者(装着者)の顔が向いている側のマイクロフォン11(例えば第2マイクロフォン11b)の音声取得時刻は、反対側のマイクロフォン11(例えば第3マイクロフォン11c)の音声取得時刻よりも早い。そこで、音声取得時刻の時間差に対して閾値を設定し、音声取得時刻の時間差が閾値よりも大きい場合には、発話者(装着者)の顔が、音声取得時刻が早い方のマイクロフォン11側に向いていると判断するようにしても良い。
【0052】
さらにまた、上記の動作例では、発話者が装着者自身か他者かを識別した後、発話者が装着者自身であった場合に、発話者(装着者)の顔の向きを特定(検知)した。これに対し、第2マイクロフォン11bの音圧と第3マイクロフォン11cの音圧とに基づき発話者の顔の向きを特定した後に、発話者が装着者自身か他者かを識別しても良い。後者の場合、発話者が他者であった場合は、発話者の顔の向きの検知結果は無効な情報として破棄しても良いし、装着者に対する他者の位置を特定するための情報として用いても良い。
【0053】
また、上記の動作例では、第1マイクロフォン11aの音圧と第2マイクロフォン11bの音圧とを比較して発話者(装着者自身か他者か)を識別したが、これに代えて、第1マイクロフォン11aの音圧と第3マイクロフォン11cの音圧とを比較して識別しても良い。
【0054】
<端末装置10の拡張>
上記の構成例では、第2マイクロフォン11bおよび第3マイクロフォン11cにより取得された音声信号に基づき、発話者(装着者)の顔の横方向(左右)の向きを検知した。本実施形態のシステムは、端末装置10に、マイクロフォン11をさらに追加することにより、上記横方向の向きに加え、発話者(装着者)の顔の縦方向(上下)の向きを検知する。
【0055】
図8は、発話者(装着者)の顔の縦方向(上下)の向きを検知するための端末装置10の構成例を示す図である。
図8(a)に示すように、本構成例の端末装置10は、4組のマイクロフォン11を備える。このうち、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cは、図1および図2を参照して説明した構成例と同様であるため、同一の符号を付して説明を省略する。
【0056】
第4マイクロフォン11dは、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cと同様の無指向性のマイクロフォンである。この第4マイクロフォン11dは、提げ紐40の装置本体30に接続される接続部位から最も遠い位置に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第4マイクロフォン11dは、装着者の首の真後ろ(背面側)に配置される。
【0057】
また、特に図示しないが、端末装置10は、第4マイクロフォン11dから出力される電気信号(音声信号)を増幅する第4増幅器を備える。この第4増幅器は、図1に示した第1増幅器13a〜第3増幅器13cと同様である。第4増幅器で増幅された音声信号は、音声解析部15へ送られる。
【0058】
また、図8(b)に示すように、本構成例において、第1マイクロフォン11aおよび第4マイクロフォン11dは、装着者が正面を向いた状態で装着者の口(発声部位)からほぼ等距離となるように配置される。すなわち、第1マイクロフォン11aが提げ紐40に設けられている場合は、第4マイクロフォン11dとの位置関係が上記の関係となる位置に第1マイクロフォン11aが設けられる。また、第1マイクロフォン11aが装置本体30に設けられている場合は、第1マイクロフォン11aと第4マイクロフォン11dとの位置関係が上記の関係となるように提げ紐40の長さが調整される。
【0059】
このような構成とすれば、装着者の口(発声部位)である音源aと第1マイクロフォン11aとの間の距離をLa1、音源aと第4マイクロフォン11dとの間の距離をLa4とすると、装着者が顔を下方に向ければ、
La4>La1
である。したがって、第1マイクロフォン11aの音圧Ga1と第4マイクロフォン11dの音圧Ga4との関係は、
Ga1>Ga4
である。反対に、装着者が顔を上方に向ければ、
La1>La4
であり、音圧Ga1、Ga4は、
Ga4>Ga1
である。
【0060】
よって、装着者の顔の横方向(左右)の向きを検知した場合と同様に、音圧Ga1と音圧Ga4との差分を求め、予め設定された閾値γを超える場合に、装着者は音圧の値が大きい方(下方または上方)を向いていると判断する。なお、この場合においても、装着者の顔の横方向(左右)の向きを検知した場合と同様に、閾値を用いず、単に音圧Ga1と音圧Ga4の値の大小関係を参酌しても良い。また、装着者の顔の横方向(左右)の向きを検知した場合と同様に、音圧に代えて、第1マイクロフォン11aにおける音声取得時刻と第4マイクロフォン11dにおける音声取得時刻とを比較して、装着者の顔の向き(下方または上方)を判断しても良い。
【0061】
上記の構成では、第1マイクロフォン11aと第4マイクロフォン11dとの位置関係を、装着者が正面を向いた状態でLa1≒La4(ほぼ等距離)となるように構成した。しかし、本実施形態の端末装置10は、初期状態として、装着者が正面を向いた状態で発話した音声の第1マイクロフォン11aによる音圧Ga1と第4マイクロフォン11dによる音圧Ga4の差が閾値γよりも小さければ良い(または、Ga1≒Ga4の関係を満たせば良い)。したがって、装着者が端末装置10を装着した際に、第1マイクロフォン11aによる音圧Ga1および第4マイクロフォン11dによる音圧Ga4が上記の関係を満たすように提げ紐40の長さを調整するようにしても良い。
【0062】
<提げ紐40によるマイクロフォン11の装着>
次に、本実施形態の端末装置10に用いられる提げ紐40および提げ紐40に対するマイクロフォン11の実装構造について、さらに説明する。
本実施形態では、図6を参照して説明したように、装着者の口(発声部位)からの距離がほぼ等しいマイクロフォン11では、そのマイクロフォン11における音圧がほぼ等しくなることを利用して、装着者の顔の向きを検知している。しかし、例えば筒状の提げ紐40が途中で捻れることにより、装着者が端末装置10を装着した際の各マイクロフォン11の向きが非統一となる場合がある。例えば、一つのマイクロフォン11は表向き(装着者の体に接する向きとは反対の向き)となり、他の一つのマイクロフォン11は裏向き(装着者の体に接する向き)となる場合がある。このような場合、これらのマイクロフォン11の向きが音圧に影響する。すなわち、これら二つのマイクロフォン11の位置が、たとえ装着者の口(発声部位)から等距離の位置であっても、各マイクロフォン11の音圧が異なる場合があり得る。そこで、下記のように、マイクロフォン11の向きによる音圧への影響が少ない構成を取ることが考えられる。
【0063】
図9は、提げ紐40に対するマイクロフォン11の実装構造の例を示す図である。
図9に示す例において、マイクロフォン11は、短い筒状のケース41に挿入された状態で提げ紐40に実装されている。このような構成とすれば、音声はケース41の両端の穴を経てマイクロフォン11に入力される。したがって、ケース41の内部でのマイクロフォン11の向きは、音圧に影響し難い。
【0064】
この他、特に図示しないが、提げ紐40の形状を幅の広い帯状とすることが考えられる。帯状とすることで、提げ紐40が撚れ難くなり、提げ紐40に実装されたマイクロフォン11の向きも統一され易くなる。そのため、各マイクロフォン11の向きの相違による音圧への影響が生じ難くなる。また、提げ紐40の材質として、革や金属のような、ある程度の硬度を有するものを用いることにより、より一層、提げ紐40が撚れ難くなる。
【0065】
<システムの適用例とホスト装置の機能>
本実施形態のシステムでは、複数の端末装置10により上記のようにして得られた発話に関する情報(以下、発話情報)がホスト装置20に集められる。ホスト装置20は、複数の端末装置10から得られた情報を用いて、システムの利用目的や利用態様等に応じて種々の解析を行う。以下、複数の装着者のコミュニケーションに関する情報を取得するシステムとして本実施形態を用いる例を説明する。
【0066】
図10は、本実施形態の端末装置10をそれぞれ装着した複数の装着者が会話している状況を示す図である。図11は、図10の会話状況における各端末装置10A、10Bの発話情報の例を示す図である。
図10に示すように、端末装置10をそれぞれ装着した二人の装着者A、装着者Bが会話している場合を考える。このとき、装着者Aの端末装置10Aにおいて装着者の発話として認識される音声は、装着者Bの端末装置10Bでは他者の発話として認識される。反対に、端末装置10Bにおいて装着者の発話として認識される音声は、端末装置10Aでは他者の発話として認識される。
【0067】
端末装置10Aおよび端末装置10Bからは、それぞれ独立に、発話情報がホスト装置20に送られる。このとき、端末装置10Aから取得した発話情報と、端末装置10Bから取得した発話情報とは、図11に示すように、発話者(装着者と他者)の識別結果は反対になるが、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報は近似する。そこで、本適用例のホスト装置20は、端末装置10Aから取得した情報と端末装置10Bから取得した情報とを比較することにより、これらの情報が同じ発話状況を示していると判断し、装着者Aと装着者Bとが会話していることを認識する。ここで、発話状況を示す情報としては、少なくとも、上述した発話者ごとの個々の発話における発話時間の長さ、個々の発話の開始時刻と終了時刻、発話者が切り替わった時刻(タイミング)等のように、発話に関する時間情報が用いられる。なお、特定の会話に係る発話状況を判断するために、これらの発話に関する時間情報の一部のみを用いても良いし、他の情報を付加的に用いても良い。
【0068】
図12は、本適用例におけるホスト装置20の機能構成例を示す図である。
本適用例において、ホスト装置20は、端末装置10から取得した発話情報のうち、会話を行っている装着者の端末装置10からの発話情報(以下、会話情報)を検出する会話情報検出部201と、検出された会話情報を解析する会話情報解析部202とを備える。この会話情報検出部201および会話情報解析部202は、データ解析部23の機能として実現される。
【0069】
ホスト装置20には、端末装置10A、端末装置10B以外の端末装置10からも発話情報が送られる。データ受信部21により受信された各端末装置10からの発話情報は、データ蓄積部22に蓄積される。そして、データ解析部23の会話情報検出部201が、データ蓄積部22に蓄積された各端末装置10の発話情報を読み出し、特定の会話に係る発話情報である会話情報を検出する。
【0070】
上記の図11に示したように、端末装置10Aの発話情報と端末装置10Bの発話情報は、他の端末装置10の発話情報とは異なる特徴的な対応関係が抽出される。会話情報検出部201は、データ蓄積部22に蓄積されている各端末装置10から取得した発話情報を比較し、複数の端末装置10から取得した発話情報の中から、上記のような対応関係を有する発話情報を検出し、同一の会話に係る会話情報として識別する。ホスト装置20には、複数の端末装置10から発話情報が随時送られているので、会話情報検出部201は、例えば、一定時間分の発話情報を順次区切りながら上記の処理を行い、特定の会話に係る会話情報が含まれているか否かを判断する。
【0071】
なお、会話情報検出部201が複数の端末装置10の発話情報から特定の会話に係る会話情報を検出するための条件は、上述した図11に示す対応関係に限定されない。複数の発話情報の中から特定の会話に係る会話情報を識別し得る、いかなる手法にて検出しても良い。
【0072】
また、上記の例では、端末装置10をそれぞれ装着した二人の装着者が会話している例を示したが、会話に参加する人数は二人に限定されない。三人以上の装着者が会話している場合、各装着者が装着している端末装置10において、自装置の装着者の発話音声が装着者自身の発話音声として認識され、他者(二人以上)の発話音声と区別される。しかし、発話時間や発話者が切り替わったタイミング等の発話状況を示す情報は、各端末装置10における取得情報どうしの間で近似する。そこで、会話情報検出部201は、上記の二人の会話の場合と同様に、同一の会話に参加している装着者の端末装置10から取得した発話情報を検出し、会話に参加していない装着者の端末装置10から取得した発話情報と区別する。
【0073】
次に、会話情報解析部202は、会話情報検出部201により検出された会話情報を解析して、その会話の特徴を抽出する。本実施形態では、具体例として、対話度、傾聴度、会話活性度の3種類の評価基準により会話の特徴を抽出する。ここで、対話度とは、会話参加者の発言頻度のバランスを表すものとする。傾聴度とは、個々の会話参加者における他者の発言を聴く度合い表すものとする。会話活性度とは、会話全体における発言の密度を表すものとする。
【0074】
対話度は、会話が行われている間における発話者の交代回数と、発話者が交代するまでの時間(一人の発話者が連続して発話している時間)のばらつきによって特定される。これは、一定時間の会話情報において、話者が切り替わった回数および切り替わったときの時刻から得られる。そして、発話者の交代回数が多く、各発話者の連続発話時間のばらつきが小さいほど、対話度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。
【0075】
傾聴度は、会話情報における会話参加者ごとの自身の発話時間と他者の発話時間との比率によって特定される。例えば、下式の場合、値が大きいほど傾聴度の値(レベル)が大きいものとする。
傾聴度=(他者の発話時間)÷(装着者自身の発話時間)
この評価基準は、同一の会話に係る会話情報であっても、各会話参加者の端末装置10から取得した発話情報ごとに異なるものとなる。
【0076】
会話活性度は、いわゆる会話の盛り上がりを表す指標であり、会話情報全体に対する無言時間(会話参加者の誰も発言していない時間)の比率によって特定される。無言時間の総和が短いほど、会話において会話参加者のいずれかが発言していることを意味し、会話活性度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。
【0077】
以上のようにして、会話情報解析部202による会話情報の解析により、その会話情報に係る会話の特徴が抽出される。また、上記の解析により、その会話における各参加者の参加の仕方が特定される。なお、上記の評価基準は、会話の特徴を表す情報の一例に過ぎず、他の評価項目を採用したり、項目毎に重み付けを加えたりすることにより、本実施形態のシステムの利用目的や利用態様に応じた評価基準を設定して良い。
【0078】
上記のような解析を、データ蓄積部22に蓄積された発話情報の中から会話情報検出部201により検出された種々の会話情報に対して行うことにより、端末装置10の装着者のグループ全体におけるコミュニケーションの傾向を分析することができる。具体的には、例えば、会話参加者の数、会話が行われた時間、対話度、活性度などの値と会話の発生頻度との相関関係を調べることで、装着者のグループにおいてどのような態様の会話が行われる傾向があるかが判断される。
【0079】
また、特定の装着者の複数の会話情報に対して上記のような解析を行うことにより、装着者個人のコミュニケーションの傾向を分析することができる。特定の装着者による会話への参加の仕方は、会話の相手や会話参加者の数といった条件に応じて、一定の傾向を持つ場合がある。そこで、特定の装着者における複数の会話情報を調べることにより、例えば、特定の相手との会話では対話レベルが大きい、会話参加者の数が多くなると傾聴度が大きくなる等のような特徴が検出されることが期待される。
【0080】
なお、上記の発話情報の識別処理および会話情報解析処理は、本実施形態によるシステムの適用例を示すに過ぎず、本実施形態によるシステムの利用目的や利用態様、ホスト装置20の機能等を限定するものではない。本実施形態の端末装置10により取得した発話情報に対して種々の解析や調査を実行するための処理機能が、ホスト装置20の機能として実現され得る。
【符号の説明】
【0081】
10…端末装置、11a…第1マイクロフォン、11b…第2マイクロフォン、11c…第3マイクロフォン、11d…第4マイクロフォン、13a…第1増幅器、13b…第2増幅器、13c…第3増幅器、15…音声解析部、16…データ送信部、17…電源部、20…ホスト装置、21…データ受信部、22…データ蓄積部、23…データ解析部、24…出力部、30…装置本体、40…提げ紐、201…会話情報検出部、202…会話情報解析部
【技術分野】
【0001】
本発明は、音声解析装置に関する。
【背景技術】
【0002】
特許文献1には、次の従来技術が開示されている。この従来技術は、それぞれ前方指向性を有し、左右に間隔をおいて配設されるとともに、一方は前方に向けて他方は後方に向けて配置された2つのマイクロホンと、マイクロホンで集音された音の時間差情報をパルスニューロンモデルにより検出する時間差検出部と、マイクロホンで集音された音の音圧差情報をパルスニューロンモデルにより検出する音圧差検出部と、音の時間差情報に基づいて左右方向における音源の方向情報をパルスニューロンモデルにより検出する左右方向検出部と、音の音圧差情報に基づいて前後方向における音源の方向情報をパルスニューロンモデルにより検出する前後方向検出部とを備える音源定位装置である。
【0003】
また、特許文献2には、次の従来技術が開示されている。この従来技術は、第1、第2の無指向性マイクロフォンと、これらの無指向性マイクロフォンからの出力信号を入力として音声、非音声を検出する音声/非音声検出手段を設ける。非音声のときに第2のマイクロフォンの出力から騒音レベルを推定し、騒音レベルに応じてその出力を増幅する。そして第1の無指向性マイクロフォンの出力から可変信号増幅手段の出力を減算する。こうして高騒音時には両指向性、低騒音時には無指向性と指向特性を変化させる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−109868号公報
【特許文献2】特開平8−191496号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、使用者に装着された音声取得手段にて音声を取得し、取得した音声の非言語情報に基づいて、使用者の姿勢としての顔の向きを検知する音声解析装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、
装置本体と、
前記装置本体に接続され、当該装置本体を使用者の首から提げるために用いられる提げ紐と、
前記提げ紐の前記装置本体に接続する端部または当該装置本体に設けられた第1音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた一方の提げ紐に設けられた第2音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた他方の提げ紐に設けられた第3音声取得手段と、
前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、前記提げ紐を首に掛けた使用者の顔の向きを検知する解析処理を行う解析部と、
前記装置本体に設けられ、前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置である。
請求項2に記載の発明は、
前記提げ紐は、筒状の構造を有し、当該提げ紐に設けられた前記第1音声取得手段、前記第2音声取得手段および前記第3音声取得手段は、当該提げ紐の内部に設けられていることを特徴とする、請求項1に記載の音声解析装置である。
請求項3に記載の発明は、
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項1または請求項2に記載の音声解析装置である。
請求項4に記載の発明は、
前記提げ紐において前記端部から最も遠い位置に設けられた第4音声取得手段をさらに備え、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項1乃至請求項3のいずれかに記載の音声解析装置である。
請求項5に記載の発明は、
前記提げ紐は、前記使用者が正面を向いた状態で発話した音声に関して、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧との差が一定の範囲内となる長さであり、
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項4に記載の音声解析装置である。
請求項6に記載の発明は、
使用者が正面を向いた状態で当該使用者の口からの音波伝搬経路の距離が第1の距離である位置となるように当該使用者に装着される第1音声取得手段と、
前記使用者が正面を向いた状態で当該使用者の口からの距離が前記第1の距離とは異なる第2の距離である位置となるように当該使用者に装着される第2音声取得手段と、
前記使用者が正面を向いた状態で、当該使用者の口を挟んで前記第2音声取得手段と対称な位置となるように当該使用者に装着される第3音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が当該第1音声取得手段、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の発話音声か、当該使用者以外の他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の顔の向きを検知する解析処理を行う解析部と、
前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置である。
請求項7に記載の発明は、
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項6に記載の音声解析装置である。
請求項8に記載の発明は、
前記使用者の背面側に装着される第4音声取得手段をさらに備え、
前記第1音声取得手段は前記使用者の正面側に装着され、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項6または請求項7に記載の音声解析装置である。
請求項9に記載の発明は、
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項8に記載の音声解析装置である。
【発明の効果】
【0007】
請求項1の発明によれば、収録した音声の非言語情報に基づいて発話者が装置の使用者か否かを識別し、発話者の顔の向きを検知することができる。
請求項2の発明によれば、使用者が提げ紐にて装置を装着することにより、収録音声の非言語情報に基づく発話者の識別および発話者の顔の向きの検知が可能となる位置に音声取得手段を装着することができる。
請求項3の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の識別および発話者の顔の向きの検知が実現される。
請求項4の発明によれば、収録した音声の非言語情報に基づいて発話者の縦方向における顔の向きを検知することができる。
請求項5の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の縦方向における顔の向きの検知が実現される。
請求項6の発明によれば、収録した音声の非言語情報に基づいて発話者が装置の使用者か否かを識別し、発話者の顔の向きを検知することができる。
請求項7の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の識別および発話者の顔の向きの検知が実現される。
請求項8の発明によれば、収録した音声の非言語情報に基づいて発話者の縦方向における顔の向きを検知することができる。
請求項9の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の縦方向における顔の向きの検知が実現される。
【図面の簡単な説明】
【0008】
【図1】本実施形態による音声解析システムの構成例を示す図である。
【図2】本実施形態における端末装置の構成例を示す図である。
【図3】装着者および他者の口(発声部位)と、マイクロフォンとの位置の関係を示す図である。
【図4】マイクロフォンと音源との間の音波伝搬経路の距離と音圧(入力音量)との関係を示す図である。
【図5】装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
【図6】装着者の顔の向きと、装着者の口(発声部位)と第2マイクロフォンおよび第3マイクロフォンとの間の距離との関係を説明する図である。
【図7】本実施形態における端末装置の動作を示すフローチャートである。
【図8】発話者(装着者)の顔の縦方向(上下)の向きを検知するための端末装置の構成例を示す図である。
【図9】提げ紐に対するマイクロフォンの実装構造の例を示す図である。
【図10】本実施形態の端末装置をそれぞれ装着した複数の装着者が会話している状況を示す図である。
【図11】図10の会話状況における各端末装置の発話情報の例を示す図である。
【図12】本実施形態におけるホスト装置の機能構成例を示す図である。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<システム構成例>
図1は、本実施形態による音声解析システムの構成例を示す図である。
図1に示すように、本実施形態のシステムは、端末装置10とホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(商標)(Wireless Fidelity)、Bluetooth(商標)、ZigBee(商標)、UWB(Ultra Wideband)等の既存の方式による回線を用いて良い。また、図示の例では、端末装置10が1台のみ記載されているが、詳しくは後述するように、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。
【0010】
端末装置10は、音声取得手段として、少なくとも、3個のマイクロフォン(第1マイクロフォン11a、第2マイクロフォン11b、第3マイクロフォン11c)と、増幅器(第1増幅器13a、第2増幅器13b、第3増幅器13c)とを備える。また、端末装置10は、処理手段として、収録音声を解析する音声解析部15と、解析結果をホスト装置20に送信するためのデータ送信部16とを備え、さらに電源部17を備える。
【0011】
第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cは、装着者の口(発声部位)からの音波伝搬経路の距離(以下、単に「距離」と記す)が個別に設定された、異なる位置に配置される。ここでは、第1マイクロフォン11aは装着者の口(発声部位)から遠い位置(例えば、35cm程度)に配置され、第2マイクロフォン11bおよび第3マイクロフォン11cは装着者の口(発声部位)に近い位置(例えば、10cm程度)に配置されるものとする。また、第2マイクロフォン11bは装着者の口(発声部位)の右側、第3マイクロフォン11cは装着者の口(発声部位)の左側に、装着者が正面を向いた状態で装着者の口(発声部位)を挟んで対称な位置に配置される。本実施形態の第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cとして用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。特に無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンを用いることが好ましい。
【0012】
第1増幅器13a、第2増幅器13bおよび第3増幅器13cは、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cが取得音声に応じて出力する電気信号(音声信号)を増幅する。本実施形態の第1増幅器13a、第2増幅器13bおよび第3増幅器13cとして用いられる増幅器としては、既存のオペアンプ等を用いて良い。
【0013】
音声解析部15は、第1増幅器13a、第2増幅器13bおよび第3増幅器13cから出力された音声信号を解析する。そして、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cで取得した音声が端末装置10を装着した装着者自身が発話した音声か、他者の発話による音声かを識別する。すなわち、音声解析部15は、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cで取得した音声に基づき、音声の発話者を識別する識別部として機能する。発話者識別のための具体的な処理の内容については後述する。
【0014】
また、音声解析部15は、音声の発話者が装着者自身であると判断した場合に、第1増幅器13a、第2増幅器13bおよび第3増幅器13cから出力された音声信号をさらに解析し、装着者の口(発声部位)が第2マイクロフォン11b側と第3マイクロフォン11c側のどちらを向いているかを判断する。すなわち、音声解析部15は、第2マイクロフォン11bおよび第3マイクロフォン11cで取得した音声に基づき、装着者の姿勢(顔の向き)を検知する検知部として機能する。姿勢検知のための具体的な処理の内容については後述する。
【0015】
データ送信部16は、音声解析部15による解析結果を含む取得データと端末装置10のIDを、上記の無線通信回線を介してホスト装置20へ送信する。ホスト装置20へ送信する情報としては、ホスト装置20において行われる処理の内容に応じて、上記の解析結果の他、例えば、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cによる音声の取得時刻、取得音声の音圧等の情報を含めて良い。なお、端末装置10に音声解析部15による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。有線回線で送信しても良い。
【0016】
電源部17は、上記の第1マイクロフォン11a、第2マイクロフォン11b、第3マイクロフォン11c、第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15およびデータ送信部16に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部17は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。
【0017】
ホスト装置20は、端末装置10から送信されたデータを受信するデータ受信部21と、受信したデータを蓄積するデータ蓄積部22と、蓄積したデータを解析するデータ解析部23と、解析結果を出力する出力部24とを備える。このホスト装置20は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置10が使用され、ホスト装置20は、その複数台の端末装置10の各々からデータを受信する。
【0018】
データ受信部21は、上記の無線通信回線に対応しており、各端末装置10からデータを受信してデータ蓄積部22へ送る。データ蓄積部22は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部21から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置10から送信される端末IDと、予めホスト装置20に登録されている発話者名と端末IDの照合により行う。また、端末装置10から端末IDの代わりに、装着者名を送信するようにしておいても良い。
【0019】
データ解析部23は、例えばパーソナルコンピュータのプログラム制御されたCPUにより実現され、データ蓄積部22に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置10の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。
【0020】
出力部24は、データ解析部23による解析結果を出力したり、解析結果に基づく出力を行ったりする。出力手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。
【0021】
<端末装置の構成例>
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置10は、図2に示すように、装置本体30と、装置本体30に接続された提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。
【0022】
装置本体30は、金属や樹脂等で形成された薄い直方体のケース31に、少なくとも第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15、データ送信部16および電源部17を実現する回路と電源部17の電源(電池)とを収納して構成される。ケース31には、装着者の氏名や所属等のID情報を表示したIDカード等を挿入するポケットを設けても良い。また、ケース31自体の表面にそのようなID情報等を印刷したり、ID情報等を記載したシールを貼り付けたりしても良い。
【0023】
提げ紐40には、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cが設けられる(以下、第1マイクロフォン11a〜第3マイクロフォン11cを区別しない場合には、マイクロフォン11と記載)。マイクロフォン11は、提げ紐40の内部を通るケーブル(電線等)により、装置本体30に収納された第1増幅器13a、第2増幅器13b、第3増幅器13cに接続される。提げ紐40の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。
【0024】
この提げ紐40は、筒状の構造を有し、提げ紐40の内部にマイクロフォン11を収納している。マイクロフォン11を提げ紐40の内部に設けることにより、マイクロフォン11の損傷や汚れを防ぎ、対話者がマイクロフォン11の存在を意識することが抑制される。なお、装着者の口(発声部位)から遠い位置に配置される第1マイクロフォン11aは、ケース31に内蔵して装置本体30に設けても良い。本実施形態では、第1マイクロフォン11aが提げ紐40に設けられる場合を例として説明する。
【0025】
図2を参照すると、第1マイクロフォン11aは、提げ紐40の装置本体30に接続される端部(例えば、接続部位から10cm以内の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第1マイクロフォン11aは、装着者の口(発声部位)から約30cmから40cm程度離れた位置に配置される。なお、第1マイクロフォン11aが装置本体30に設けられた場合も、装着者の口(発声部位)から第1マイクロフォン11aまでの距離は同程度である。
【0026】
第2マイクロフォン11bおよび第3マイクロフォン11cは、提げ紐40の装置本体30に接続される端部から離れた位置(例えば、接続部位から20cm〜30cm程度の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第2マイクロフォン11bおよび第3マイクロフォン11cは、装着者の首元(例えば鎖骨に当たる位置)に位置し、装着者の口(発声部位)から約10cmから20cm程度離れた位置に配置される。そして、この状態で、第2マイクロフォン11bおよび第3マイクロフォン11cは、装着者の首元の左右に分かれて配置されるため、装着者が正面を向いた状態で装着者の口(発声部位)を挟んで対称に位置することとなる。
【0027】
なお、本実施形態の端末装置10は、図2に示す構成に限定されるものではない。例えば、マイクロフォン11は、第1マイクロフォン11aから装着者の口(発声部位)までの(音波伝搬経路の)距離が第2マイクロフォン11bおよび第3マイクロフォン11cから装着者の口(発声部位)までの(音波伝搬経路の)距離の数倍程度となるように、第1マイクロフォン11a〜第3マイクロフォン11cの位置関係が特定されれば良い。したがって、第1マイクロフォン11aを首の後ろ側の提げ紐40に設けても良い。また、マイクロフォン11は、上記のように提げ紐40に設ける構成に限らず、種々の方法で装着者に装着して良い。例えば、第1マイクロフォン11a〜第3マイクロフォン11cの各々を、個別にピン等を用いて衣服に固定するように構成しても良い。また、第1マイクロフォン11a〜第3マイクロフォン11cの位置関係が所望の位置で固定されるようにデザインされた専用の装着具を用意して装着しても良い。
【0028】
また、装置本体30は、図2に示したように、提げ紐40に接続されて装着者の首から提げられる構成に限らず、携帯することが容易な装置として構成されていれば良い。例えば、本実施形態のような提げ紐ではなく、クリップやベルトにより衣服や体に装着するように構成しても良いし、単にポケット等に納めて携帯するような構成としても良い。また、携帯電話その他の既存の携帯型電子情報端末に、マイクロフォン11からの音声信号を受け付けて増幅し、解析する機能を実現させても良い。ただし、第1マイクロフォン11aが装置本体30に設けられる場合は、第1マイクロフォン11aと第2マイクロフォン11bおよび第3マイクロフォン11cとの位置関係を上記のように保持する必要があるため、携帯時の装置本体30の位置は特定される。
【0029】
さらにまた、マイクロフォン11と装置本体30(あるいは音声解析部15)を有線で接続するのではなく、無線通信により接続しても良い。第1増幅器13a、第2増幅器13b、第3増幅器13c、音声解析部15、データ送信部16および電源部17は、上記の構成例では単一のケース31に収納されることとしたが、複数の個体に分けて構成しても良い。例えば、電源部17をケース31に収納せず、外部電源に接続して使用する構成としても良い。
【0030】
<収録音声の非言語情報に基づく発話者(自他)の識別>
次に、本実施形態における発話者の識別方法について説明する。
本実施形態のシステムは、端末装置10に設けられた3つのマイクロフォン11のうち、第1マイクロフォン11aにより収録された音声の情報と、第2マイクロフォン11bまたは第3マイクロフォン11cにより収録された音声の情報とを用いて、端末装置10の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、収録音声の発話者に関して自他の別を識別する。また、本実施形態では、収録音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧(マイクロフォン11への入力音量)等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。なお、本実施形態による発話者の識別処理では、第2マイクロフォン11bで収録された音声の情報と第3マイクロフォン11cで収録された音声の情報のうち、いずれか一方が用いられる。以下の説明では、第2マイクロフォン11bで収録された音声の情報を用いるものとする。
【0031】
図1および図2を参照して説明したように、本実施形態において、端末装置10の第1マイクロフォン11aは装着者の口(発声部位)から遠い位置に配置され、第2マイクロフォン11bは装着者の口(発声部位)に近い位置に配置される。すなわち、装着者の口(発声部位)を音源とすると、第1マイクロフォン11aと音源との間の距離と、第2マイクロフォン11bと音源との間の距離が大きく異なる。具体的には、第1マイクロフォン11aと音源との間の距離は、第2マイクロフォン11bと音源との間の距離の1.5〜4倍程度である。ここで、マイクロフォン11における収録音声の音圧は、マイクロフォン11と音源との間の距離が大きくなるにしたがって減衰(距離減衰)する。したがって、装着者の発話音声に関して、第1マイクロフォン11aにおける収録音声の音圧と第2マイクロフォン11bにおける収録音声の音圧とは大きく異なる。
【0032】
一方、装着者以外の者(他者)の口(発声部位)を音源とした場合を考えると、その他者が装着者から離れているため、第1マイクロフォン11aと音源との間の距離と、第2マイクロフォン11bと音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口(発声部位)を音源とした場合のように、第1マイクロフォン11aと音源との間の距離が第2マイクロフォン11bと音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第1マイクロフォン11aにおける収録音声の音圧と第2マイクロフォン11bにおける収録音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。
【0033】
図3は、装着者および他者の口(発声部位)と、マイクロフォン11との位置の関係を示す図である。
図3に示す関係において、装着者の口(発声部位)である音源aと第1マイクロフォン11aとの間の距離をLa1、音源aと第2マイクロフォン11bとの間の距離をLa2とする。また、他者の口(発声部位)である音源bと第1マイクロフォン11aとの間の距離をLb1、音源bと第2マイクロフォン11bとの間の距離をLb2とする。この場合、次の関係が成り立つ。
La1>La2(La1≒1.5×La2〜4×La2)
Lb1≒La2
【0034】
図4は、マイクロフォン11と音源との間の距離と音圧(入力音量)との関係を示す図である。
上述したように、音圧は、マイクロフォン11と音源との間の距離に応じて距離減衰する。図4において、距離La1の場合の音圧Ga1と距離La2の場合の音圧Ga2とを比較すると、音圧Ga2は、音圧Ga1の4倍程度となっている。一方、距離Lb1と距離Lb2とが近似するため、距離Lb1の場合の音圧Gb1と距離Lb2の場合の音圧Gb2とは、ほぼ等しい。そこで、本実施形態では、この音圧比の差を用いて、収録音声における装着者自身の発話音声と他者の発話音声とを識別する。なお、図4に示した例では、距離Lb1、Lb2を60cmとしたが、ここでは音圧Gb1と音圧Gb2とがほぼ等しくなることに意味があり、距離Lb1、Lb2は図示の値に限定されない。
【0035】
図5は、装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
図4を参照して説明したように、装着者自身の発話音声に関して、第2マイクロフォン11bの音圧Ga2は、第1マイクロフォン11aの音圧Ga1の数倍(例えば4倍程度)である。また、他者の発話音声に関して、第2マイクロフォン11bの音圧Gb2は、第1マイクロフォン11aの音圧Gb1とほぼ等しい(1倍程度)。そこで、本実施形態では、第2マイクロフォン11bの音圧と第1マイクロフォン11aの音圧との比に閾値αを設定する。そして、音圧比が閾値αよりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値αよりも小さい音声は他者の発話音声と判断する。図5に示す例では、閾値αを「2」とし、音圧比Ga2/Ga1は閾値α=「2」を超えるので装着者自身の発話音声と判断され、音圧比Gb2/Gb1は閾値α=「2」よりも小さいので他者の発話音声と判断されている。
【0036】
ところで、マイクロフォン11により収録される音声には、発話音声の他に、環境音等のいわゆる雑音(ノイズ)が含まれる。この雑音の音源とマイクロフォン11との間の距離の関係は、他者の発話音声の場合と類似する。すなわち、図4、図5に示した例によれば、雑音の音源cと第1マイクロフォン11aとの間の距離をLc1とし、雑音の音源cと第2マイクロフォン11bとの間の距離をLc2とすると、距離Lc1と距離Lc2とは近似する。そして、マイクロフォン11の収録音声における音圧比Gc2/Gc1は、閾値α=「2」よりも小さくなる。しかし、このような雑音は、バンドパスフィルタやゲインフィルタ等を用いた既存の技術によるフィルタリング処理を行うことにより発話音声から分離され、除去される。
【0037】
以上、第1マイクロフォン11aで収録された音声の情報と第2マイクロフォン11bで収録された音声の情報とを用いた、本実施形態による発話者の識別処理について説明した。ここで、上記の処理において、第2マイクロフォン11bで収録された音声の代わりに第3マイクロフォン11cで収録された音声の情報を用いても、同様に音声の発話者を識別することができる。
【0038】
<発話者(装着者)の姿勢の検知>
次に、本実施形態における発話者(装着者)の姿勢(顔の向き)の検知方法について説明する。
本実施形態のシステムは、上記の発話者の識別処理により発話者が端末装置10の装着者であると判断された場合に、その発話者(装着者)の姿勢として、発話者の顔の向きを検知する。言い換えれば、本実施形態は、発話者(装着者)の口(発声部位)の向く方向を検知する。本実施形態において、発話者の姿勢を検知するために、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧等の非言語情報を用いることは、上記の発話者識別の場合と同様である。
【0039】
図1および図2を参照して説明したように、本実施形態において、端末装置10の第2マイクロフォン11bと第3マイクロフォン11cとは、装着者の口(発声部位)からほぼ等距離であって、装着者が正面を向いた状態で装着者の口(発声部位)を挟んで対称な位置に配置される。したがって、装着者が正面を向いて発話した場合、第2マイクロフォン11bと第3マイクロフォン11cによる収録音声の音圧は、ほぼ同じ値となる。
【0040】
これに対し、装着者が正面に対してある程度の角度を持つ向きに顔を向けて発話した場合、装着者の口(発声部位)と第2マイクロフォン11bとの間の距離と、装着者の口(発声部位)と第3マイクロフォン11cとの間の距離とは大きく異なる。そのため、第2マイクロフォン11bによる収録音声の音圧と第3マイクロフォン11cによる収録音声の音圧は大きく異なる。
【0041】
図6は、装着者の顔の向きと、装着者の口(発声部位)と第2マイクロフォン11bおよび第3マイクロフォン11cとの間の距離との関係を説明する図である。
図6(a)に示すように、装着者が正面を向いている場合、音源aである装着者の口(発声部位)と第2マイクロフォン11bとの間の距離La2と、音源aである装着者の口(発声部位)と第3マイクロフォン11cとの間の距離La3との関係は、
La2≒La3
である。これに対し、例えば図6(b)に示すように、装着者が右(第2マイクロフォン11b側)を向いて発話した場合、距離La2と距離La3との関係は、
La3>La2
である。したがって、図6(b)の場合、第2マイクロフォン11bの音圧Ga2と第3マイクロフォン11cの音圧Ga3との関係は、
Ga2>Ga3
である。
【0042】
そこで、本実施形態では、第2マイクロフォン11bの音圧Ga2と第3マイクロフォン11cの音圧Ga3との差分を求め、この差分値が予め設定された閾値βを超える場合に、発話者(装着者)は音圧の値が大きい方のマイクロフォン11の側(右または左)を向いていると判断する。すなわち、
Ga2−Ga3>β
である場合は、発話者(装着者)の顔が第2マイクロフォン11b側を向いており、
Ga3−Ga2>β
である場合は、発話者(装着者)の顔が第3マイクロフォン11c側を向いていると判断する。
【0043】
なお、発話者(装着者)の顔の向きを判断するために第2マイクロフォン11bの音圧Ga2と第3マイクロフォン11cの音圧Ga3とを参酌する場合、単に音圧Ga2と音圧Ga3の値の大小関係を参酌しても良い。すなわち、
Ga2>Ga3
または、
Ga3>Ga2
のいずれかに該当する場合に、発話者(装着者)は音圧の値が大きい方のマイクロフォン11の側を向いていると判断しても良い。これに対し、上記の例では、雑音や発話音声の反響のような発話環境の影響により音圧の値に誤差が生じることを考慮し、音圧値の差分を閾値βと比較することとした。
【0044】
<端末装置の動作例>
図7は、本実施形態における端末装置10の動作を示すフローチャートである。
図7に示すように、端末装置10のマイクロフォン11が音声を取得すると、各マイクロフォン11から取得音声に応じた電気信号(音声信号)が第1増幅器13a〜第3増幅器13cへ送られる(ステップ601)。第1増幅器13a〜第3増幅器13cは、マイクロフォン11からの音声信号を取得すると、信号を増幅して音声解析部15へ送る(ステップ602)。
【0045】
音声解析部15は、第1増幅器13a〜第3増幅器13cで増幅された信号に対してフィルタリング処理を行い、信号から環境音等の雑音(ノイズ)の成分を除去する(ステップ603)。次に、音声解析部15は、雑音成分が除かれた信号に対し、一定の時間単位(例えば、数十分の一秒〜数百分の一秒)毎に、各マイクロフォン11の収録音声における平均音圧を求める(ステップ604)。
【0046】
ステップ604で求めた各マイクロフォン11、12における平均音圧の利得が有る場合(ステップ605でYes)、音声解析部15は、発話音声が有る(発話が行われた)と判断し、次に、第1マイクロフォン11における平均音圧と第2マイクロフォン12における平均音圧との比(音圧比)を求める(ステップ606)。そして、ステップ606で求めた音圧比が閾値αよりも大きい場合(ステップ607でYes)、音声解析部15は、発話音声は装着者自身の発話による音声であると判断する(ステップ608)。また、ステップ606で求めた音圧比が閾値αよりも小さい場合(ステップ607でNo)、音声解析部15は、発話音声は他者の発話による音声であると判断する(ステップ609)。
【0047】
一方、ステップ604で求めた各マイクロフォン11、12における平均音圧の利得が無い場合(ステップ605でNo)、音声解析部15は、発話音声が無い(発話が行われていない)と判断する(ステップ610)。なお、ステップ605の判断は、ステップ603のフィルタリング処理で除去しきれなかった雑音が信号に残っている場合を考慮し、平均音圧の利得の値が一定値以上の場合に、利得があると判断しても良い。
【0048】
ステップ608で装着者の発話音声と判断した場合、次に、音声解析部15は、第2マイクロフォン11bの平均音圧と第3マイクロフォン11cの平均音圧との差(音圧差)を求める。そして、求めた音圧差が閾値βよりも大きい場合(ステップ611でYes)、音声解析部15は、音圧値の大小関係に応じて発話者(装着者)の顔の向きを特定する(ステップ612)。一方、求めた音圧差が閾値βよりも小さい場合(ステップ611でNo)、音声解析部15は、発話者(装着者)の顔の向きを特定しない。なお、発話者(装着者)の顔の向きを特定しない場合、発話者(装着者)の顔の向きに関する情報の扱いについては、システムの仕様等に応じて定め得る。例えば、発話者(装着者)の顔の向きに関する情報が無いとしても良いし、音圧に基づいて発話者(装着者)の顔の向きを特定できない場合は発話者(装着者)が正面を向いているものとして扱っても良い。
【0049】
この後、音声解析部15は、データ送信部16を介して、ステップ604〜ステップ612の処理で得られた情報(発話の有無、発話者、発話者(装着者)の顔の向きの情報)を解析結果としてホスト装置20へ送信させる(ステップ613)。このとき、発話者毎(装着者自身または他者)の発話時間の長さや平均音圧の利得の値、その他の付加情報を解析結果と共にホスト装置20へ送信させても良い。
【0050】
なお、本実施形態では、第1マイクロフォン11aの音圧と第2マイクロフォン11bの音圧とを比較することにより、発話音声が装着者自身の発話による音声か他者の発話による音声かを判断した。しかし、本実施形態による発話者の識別は、マイクロフォン11により取得された音声信号そのものから抽出される非言語情報に基づいて行うものであれば良く、音圧の比較には限定されない。例えば、第1マイクロフォン11aにおける音声取得時刻(音声信号の出力時刻)と第2マイクロフォン11bにおける音声取得時刻とを比較しても良い。この場合、装着者自身の発話音声は、装着者の口(発声部位)から第1マイクロフォン11aまでの距離と、装着者の口(発声部位)から第2マイクロフォン11bまでの距離との差が大きいため、音声取得時刻にある程度の差(時間差)が生じる。一方、他者の発話音声は、装着者の口(発声部位)から第1マイクロフォン11aまでの距離と、装着者の口(発声部位)から第2マイクロフォン11bまでの距離との差が小さいため、装着者の発話音声の場合よりも音声取得時刻の時間差が小さい。そこで、音声取得時刻の時間差に対して閾値を設定し、音声取得時刻の時間差が閾値よりも大きい場合には装着者自身の発話と判断し、音声取得時刻の時間差が閾値よりも小さい場合には他者の発話と判断するようにしても良い。
【0051】
同様に、本実施形態では、第2マイクロフォン11bの音圧と第3マイクロフォン11cの音圧とを比較することにより、発話者(装着者)の顔の向きを特定した。しかし、本実施形態による発話者(装着者)の顔の向きの検知は、マイクロフォン11により取得された音声信号そのものから抽出される非言語情報に基づいて行うものであれば良く、音圧の比較には限定されない。例えば、第2マイクロフォン11bにおける音声取得時刻(音声信号の出力時刻)と第3マイクロフォン11cにおける音声取得時刻とを比較しても良い。この場合、発話者(装着者)が正面を向いているならば、第2マイクロフォン11bにおける音声取得時刻と第3マイクロフォン11cにおける音声取得時刻はほぼ等しい。これに対し、発話者(装着者)が正面に対してある程度の角度を持つ向きに顔を向けて発話した場合、発話者(装着者)の顔が向いている側のマイクロフォン11(例えば第2マイクロフォン11b)の音声取得時刻は、反対側のマイクロフォン11(例えば第3マイクロフォン11c)の音声取得時刻よりも早い。そこで、音声取得時刻の時間差に対して閾値を設定し、音声取得時刻の時間差が閾値よりも大きい場合には、発話者(装着者)の顔が、音声取得時刻が早い方のマイクロフォン11側に向いていると判断するようにしても良い。
【0052】
さらにまた、上記の動作例では、発話者が装着者自身か他者かを識別した後、発話者が装着者自身であった場合に、発話者(装着者)の顔の向きを特定(検知)した。これに対し、第2マイクロフォン11bの音圧と第3マイクロフォン11cの音圧とに基づき発話者の顔の向きを特定した後に、発話者が装着者自身か他者かを識別しても良い。後者の場合、発話者が他者であった場合は、発話者の顔の向きの検知結果は無効な情報として破棄しても良いし、装着者に対する他者の位置を特定するための情報として用いても良い。
【0053】
また、上記の動作例では、第1マイクロフォン11aの音圧と第2マイクロフォン11bの音圧とを比較して発話者(装着者自身か他者か)を識別したが、これに代えて、第1マイクロフォン11aの音圧と第3マイクロフォン11cの音圧とを比較して識別しても良い。
【0054】
<端末装置10の拡張>
上記の構成例では、第2マイクロフォン11bおよび第3マイクロフォン11cにより取得された音声信号に基づき、発話者(装着者)の顔の横方向(左右)の向きを検知した。本実施形態のシステムは、端末装置10に、マイクロフォン11をさらに追加することにより、上記横方向の向きに加え、発話者(装着者)の顔の縦方向(上下)の向きを検知する。
【0055】
図8は、発話者(装着者)の顔の縦方向(上下)の向きを検知するための端末装置10の構成例を示す図である。
図8(a)に示すように、本構成例の端末装置10は、4組のマイクロフォン11を備える。このうち、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cは、図1および図2を参照して説明した構成例と同様であるため、同一の符号を付して説明を省略する。
【0056】
第4マイクロフォン11dは、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cと同様の無指向性のマイクロフォンである。この第4マイクロフォン11dは、提げ紐40の装置本体30に接続される接続部位から最も遠い位置に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第4マイクロフォン11dは、装着者の首の真後ろ(背面側)に配置される。
【0057】
また、特に図示しないが、端末装置10は、第4マイクロフォン11dから出力される電気信号(音声信号)を増幅する第4増幅器を備える。この第4増幅器は、図1に示した第1増幅器13a〜第3増幅器13cと同様である。第4増幅器で増幅された音声信号は、音声解析部15へ送られる。
【0058】
また、図8(b)に示すように、本構成例において、第1マイクロフォン11aおよび第4マイクロフォン11dは、装着者が正面を向いた状態で装着者の口(発声部位)からほぼ等距離となるように配置される。すなわち、第1マイクロフォン11aが提げ紐40に設けられている場合は、第4マイクロフォン11dとの位置関係が上記の関係となる位置に第1マイクロフォン11aが設けられる。また、第1マイクロフォン11aが装置本体30に設けられている場合は、第1マイクロフォン11aと第4マイクロフォン11dとの位置関係が上記の関係となるように提げ紐40の長さが調整される。
【0059】
このような構成とすれば、装着者の口(発声部位)である音源aと第1マイクロフォン11aとの間の距離をLa1、音源aと第4マイクロフォン11dとの間の距離をLa4とすると、装着者が顔を下方に向ければ、
La4>La1
である。したがって、第1マイクロフォン11aの音圧Ga1と第4マイクロフォン11dの音圧Ga4との関係は、
Ga1>Ga4
である。反対に、装着者が顔を上方に向ければ、
La1>La4
であり、音圧Ga1、Ga4は、
Ga4>Ga1
である。
【0060】
よって、装着者の顔の横方向(左右)の向きを検知した場合と同様に、音圧Ga1と音圧Ga4との差分を求め、予め設定された閾値γを超える場合に、装着者は音圧の値が大きい方(下方または上方)を向いていると判断する。なお、この場合においても、装着者の顔の横方向(左右)の向きを検知した場合と同様に、閾値を用いず、単に音圧Ga1と音圧Ga4の値の大小関係を参酌しても良い。また、装着者の顔の横方向(左右)の向きを検知した場合と同様に、音圧に代えて、第1マイクロフォン11aにおける音声取得時刻と第4マイクロフォン11dにおける音声取得時刻とを比較して、装着者の顔の向き(下方または上方)を判断しても良い。
【0061】
上記の構成では、第1マイクロフォン11aと第4マイクロフォン11dとの位置関係を、装着者が正面を向いた状態でLa1≒La4(ほぼ等距離)となるように構成した。しかし、本実施形態の端末装置10は、初期状態として、装着者が正面を向いた状態で発話した音声の第1マイクロフォン11aによる音圧Ga1と第4マイクロフォン11dによる音圧Ga4の差が閾値γよりも小さければ良い(または、Ga1≒Ga4の関係を満たせば良い)。したがって、装着者が端末装置10を装着した際に、第1マイクロフォン11aによる音圧Ga1および第4マイクロフォン11dによる音圧Ga4が上記の関係を満たすように提げ紐40の長さを調整するようにしても良い。
【0062】
<提げ紐40によるマイクロフォン11の装着>
次に、本実施形態の端末装置10に用いられる提げ紐40および提げ紐40に対するマイクロフォン11の実装構造について、さらに説明する。
本実施形態では、図6を参照して説明したように、装着者の口(発声部位)からの距離がほぼ等しいマイクロフォン11では、そのマイクロフォン11における音圧がほぼ等しくなることを利用して、装着者の顔の向きを検知している。しかし、例えば筒状の提げ紐40が途中で捻れることにより、装着者が端末装置10を装着した際の各マイクロフォン11の向きが非統一となる場合がある。例えば、一つのマイクロフォン11は表向き(装着者の体に接する向きとは反対の向き)となり、他の一つのマイクロフォン11は裏向き(装着者の体に接する向き)となる場合がある。このような場合、これらのマイクロフォン11の向きが音圧に影響する。すなわち、これら二つのマイクロフォン11の位置が、たとえ装着者の口(発声部位)から等距離の位置であっても、各マイクロフォン11の音圧が異なる場合があり得る。そこで、下記のように、マイクロフォン11の向きによる音圧への影響が少ない構成を取ることが考えられる。
【0063】
図9は、提げ紐40に対するマイクロフォン11の実装構造の例を示す図である。
図9に示す例において、マイクロフォン11は、短い筒状のケース41に挿入された状態で提げ紐40に実装されている。このような構成とすれば、音声はケース41の両端の穴を経てマイクロフォン11に入力される。したがって、ケース41の内部でのマイクロフォン11の向きは、音圧に影響し難い。
【0064】
この他、特に図示しないが、提げ紐40の形状を幅の広い帯状とすることが考えられる。帯状とすることで、提げ紐40が撚れ難くなり、提げ紐40に実装されたマイクロフォン11の向きも統一され易くなる。そのため、各マイクロフォン11の向きの相違による音圧への影響が生じ難くなる。また、提げ紐40の材質として、革や金属のような、ある程度の硬度を有するものを用いることにより、より一層、提げ紐40が撚れ難くなる。
【0065】
<システムの適用例とホスト装置の機能>
本実施形態のシステムでは、複数の端末装置10により上記のようにして得られた発話に関する情報(以下、発話情報)がホスト装置20に集められる。ホスト装置20は、複数の端末装置10から得られた情報を用いて、システムの利用目的や利用態様等に応じて種々の解析を行う。以下、複数の装着者のコミュニケーションに関する情報を取得するシステムとして本実施形態を用いる例を説明する。
【0066】
図10は、本実施形態の端末装置10をそれぞれ装着した複数の装着者が会話している状況を示す図である。図11は、図10の会話状況における各端末装置10A、10Bの発話情報の例を示す図である。
図10に示すように、端末装置10をそれぞれ装着した二人の装着者A、装着者Bが会話している場合を考える。このとき、装着者Aの端末装置10Aにおいて装着者の発話として認識される音声は、装着者Bの端末装置10Bでは他者の発話として認識される。反対に、端末装置10Bにおいて装着者の発話として認識される音声は、端末装置10Aでは他者の発話として認識される。
【0067】
端末装置10Aおよび端末装置10Bからは、それぞれ独立に、発話情報がホスト装置20に送られる。このとき、端末装置10Aから取得した発話情報と、端末装置10Bから取得した発話情報とは、図11に示すように、発話者(装着者と他者)の識別結果は反対になるが、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報は近似する。そこで、本適用例のホスト装置20は、端末装置10Aから取得した情報と端末装置10Bから取得した情報とを比較することにより、これらの情報が同じ発話状況を示していると判断し、装着者Aと装着者Bとが会話していることを認識する。ここで、発話状況を示す情報としては、少なくとも、上述した発話者ごとの個々の発話における発話時間の長さ、個々の発話の開始時刻と終了時刻、発話者が切り替わった時刻(タイミング)等のように、発話に関する時間情報が用いられる。なお、特定の会話に係る発話状況を判断するために、これらの発話に関する時間情報の一部のみを用いても良いし、他の情報を付加的に用いても良い。
【0068】
図12は、本適用例におけるホスト装置20の機能構成例を示す図である。
本適用例において、ホスト装置20は、端末装置10から取得した発話情報のうち、会話を行っている装着者の端末装置10からの発話情報(以下、会話情報)を検出する会話情報検出部201と、検出された会話情報を解析する会話情報解析部202とを備える。この会話情報検出部201および会話情報解析部202は、データ解析部23の機能として実現される。
【0069】
ホスト装置20には、端末装置10A、端末装置10B以外の端末装置10からも発話情報が送られる。データ受信部21により受信された各端末装置10からの発話情報は、データ蓄積部22に蓄積される。そして、データ解析部23の会話情報検出部201が、データ蓄積部22に蓄積された各端末装置10の発話情報を読み出し、特定の会話に係る発話情報である会話情報を検出する。
【0070】
上記の図11に示したように、端末装置10Aの発話情報と端末装置10Bの発話情報は、他の端末装置10の発話情報とは異なる特徴的な対応関係が抽出される。会話情報検出部201は、データ蓄積部22に蓄積されている各端末装置10から取得した発話情報を比較し、複数の端末装置10から取得した発話情報の中から、上記のような対応関係を有する発話情報を検出し、同一の会話に係る会話情報として識別する。ホスト装置20には、複数の端末装置10から発話情報が随時送られているので、会話情報検出部201は、例えば、一定時間分の発話情報を順次区切りながら上記の処理を行い、特定の会話に係る会話情報が含まれているか否かを判断する。
【0071】
なお、会話情報検出部201が複数の端末装置10の発話情報から特定の会話に係る会話情報を検出するための条件は、上述した図11に示す対応関係に限定されない。複数の発話情報の中から特定の会話に係る会話情報を識別し得る、いかなる手法にて検出しても良い。
【0072】
また、上記の例では、端末装置10をそれぞれ装着した二人の装着者が会話している例を示したが、会話に参加する人数は二人に限定されない。三人以上の装着者が会話している場合、各装着者が装着している端末装置10において、自装置の装着者の発話音声が装着者自身の発話音声として認識され、他者(二人以上)の発話音声と区別される。しかし、発話時間や発話者が切り替わったタイミング等の発話状況を示す情報は、各端末装置10における取得情報どうしの間で近似する。そこで、会話情報検出部201は、上記の二人の会話の場合と同様に、同一の会話に参加している装着者の端末装置10から取得した発話情報を検出し、会話に参加していない装着者の端末装置10から取得した発話情報と区別する。
【0073】
次に、会話情報解析部202は、会話情報検出部201により検出された会話情報を解析して、その会話の特徴を抽出する。本実施形態では、具体例として、対話度、傾聴度、会話活性度の3種類の評価基準により会話の特徴を抽出する。ここで、対話度とは、会話参加者の発言頻度のバランスを表すものとする。傾聴度とは、個々の会話参加者における他者の発言を聴く度合い表すものとする。会話活性度とは、会話全体における発言の密度を表すものとする。
【0074】
対話度は、会話が行われている間における発話者の交代回数と、発話者が交代するまでの時間(一人の発話者が連続して発話している時間)のばらつきによって特定される。これは、一定時間の会話情報において、話者が切り替わった回数および切り替わったときの時刻から得られる。そして、発話者の交代回数が多く、各発話者の連続発話時間のばらつきが小さいほど、対話度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。
【0075】
傾聴度は、会話情報における会話参加者ごとの自身の発話時間と他者の発話時間との比率によって特定される。例えば、下式の場合、値が大きいほど傾聴度の値(レベル)が大きいものとする。
傾聴度=(他者の発話時間)÷(装着者自身の発話時間)
この評価基準は、同一の会話に係る会話情報であっても、各会話参加者の端末装置10から取得した発話情報ごとに異なるものとなる。
【0076】
会話活性度は、いわゆる会話の盛り上がりを表す指標であり、会話情報全体に対する無言時間(会話参加者の誰も発言していない時間)の比率によって特定される。無言時間の総和が短いほど、会話において会話参加者のいずれかが発言していることを意味し、会話活性度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。
【0077】
以上のようにして、会話情報解析部202による会話情報の解析により、その会話情報に係る会話の特徴が抽出される。また、上記の解析により、その会話における各参加者の参加の仕方が特定される。なお、上記の評価基準は、会話の特徴を表す情報の一例に過ぎず、他の評価項目を採用したり、項目毎に重み付けを加えたりすることにより、本実施形態のシステムの利用目的や利用態様に応じた評価基準を設定して良い。
【0078】
上記のような解析を、データ蓄積部22に蓄積された発話情報の中から会話情報検出部201により検出された種々の会話情報に対して行うことにより、端末装置10の装着者のグループ全体におけるコミュニケーションの傾向を分析することができる。具体的には、例えば、会話参加者の数、会話が行われた時間、対話度、活性度などの値と会話の発生頻度との相関関係を調べることで、装着者のグループにおいてどのような態様の会話が行われる傾向があるかが判断される。
【0079】
また、特定の装着者の複数の会話情報に対して上記のような解析を行うことにより、装着者個人のコミュニケーションの傾向を分析することができる。特定の装着者による会話への参加の仕方は、会話の相手や会話参加者の数といった条件に応じて、一定の傾向を持つ場合がある。そこで、特定の装着者における複数の会話情報を調べることにより、例えば、特定の相手との会話では対話レベルが大きい、会話参加者の数が多くなると傾聴度が大きくなる等のような特徴が検出されることが期待される。
【0080】
なお、上記の発話情報の識別処理および会話情報解析処理は、本実施形態によるシステムの適用例を示すに過ぎず、本実施形態によるシステムの利用目的や利用態様、ホスト装置20の機能等を限定するものではない。本実施形態の端末装置10により取得した発話情報に対して種々の解析や調査を実行するための処理機能が、ホスト装置20の機能として実現され得る。
【符号の説明】
【0081】
10…端末装置、11a…第1マイクロフォン、11b…第2マイクロフォン、11c…第3マイクロフォン、11d…第4マイクロフォン、13a…第1増幅器、13b…第2増幅器、13c…第3増幅器、15…音声解析部、16…データ送信部、17…電源部、20…ホスト装置、21…データ受信部、22…データ蓄積部、23…データ解析部、24…出力部、30…装置本体、40…提げ紐、201…会話情報検出部、202…会話情報解析部
【特許請求の範囲】
【請求項1】
装置本体と、
前記装置本体に接続され、当該装置本体を使用者の首から提げるために用いられる提げ紐と、
前記提げ紐の前記装置本体に接続する端部または当該装置本体に設けられた第1音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた一方の提げ紐に設けられた第2音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた他方の提げ紐に設けられた第3音声取得手段と、
前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、前記提げ紐を首に掛けた使用者の顔の向きを検知する解析処理を行う解析部と、
前記装置本体に設けられ、前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置。
【請求項2】
前記提げ紐は、筒状の構造を有し、当該提げ紐に設けられた前記第1音声取得手段、前記第2音声取得手段および前記第3音声取得手段は、当該提げ紐の内部に設けられていることを特徴とする、請求項1に記載の音声解析装置。
【請求項3】
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項1または請求項2に記載の音声解析装置。
【請求項4】
前記提げ紐において前記端部から最も遠い位置に設けられた第4音声取得手段をさらに備え、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項1乃至請求項3のいずれかに記載の音声解析装置。
【請求項5】
前記提げ紐は、前記使用者が正面を向いた状態で発話した音声に関して、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧との差が一定の範囲内となる長さであり、
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項4に記載の音声解析装置。
【請求項6】
使用者が正面を向いた状態で当該使用者の口からの音波伝搬経路の距離が第1の距離である位置となるように当該使用者に装着される第1音声取得手段と、
前記使用者が正面を向いた状態で当該使用者の口からの音波伝搬経路の距離が前記第1の距離とは異なる第2の距離である位置となるように当該使用者に装着される第2音声取得手段と、
前記使用者が正面を向いた状態で、当該使用者の口を挟んで前記第2音声取得手段と対称な位置となるように当該使用者に装着される第3音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が当該第1音声取得手段、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の発話音声か、当該使用者以外の他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の顔の向きを検知する解析処理を行う解析部と、
前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置。
【請求項7】
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項6に記載の音声解析装置。
【請求項8】
前記使用者の背面側に装着される第4音声取得手段をさらに備え、
前記第1音声取得手段は前記使用者の正面側に装着され、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項6または請求項7に記載の音声解析装置。
【請求項9】
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項8に記載の音声解析装置。
【請求項1】
装置本体と、
前記装置本体に接続され、当該装置本体を使用者の首から提げるために用いられる提げ紐と、
前記提げ紐の前記装置本体に接続する端部または当該装置本体に設けられた第1音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた一方の提げ紐に設けられた第2音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた他方の提げ紐に設けられた第3音声取得手段と、
前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、前記提げ紐を首に掛けた使用者の顔の向きを検知する解析処理を行う解析部と、
前記装置本体に設けられ、前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置。
【請求項2】
前記提げ紐は、筒状の構造を有し、当該提げ紐に設けられた前記第1音声取得手段、前記第2音声取得手段および前記第3音声取得手段は、当該提げ紐の内部に設けられていることを特徴とする、請求項1に記載の音声解析装置。
【請求項3】
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項1または請求項2に記載の音声解析装置。
【請求項4】
前記提げ紐において前記端部から最も遠い位置に設けられた第4音声取得手段をさらに備え、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項1乃至請求項3のいずれかに記載の音声解析装置。
【請求項5】
前記提げ紐は、前記使用者が正面を向いた状態で発話した音声に関して、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧との差が一定の範囲内となる長さであり、
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項4に記載の音声解析装置。
【請求項6】
使用者が正面を向いた状態で当該使用者の口からの音波伝搬経路の距離が第1の距離である位置となるように当該使用者に装着される第1音声取得手段と、
前記使用者が正面を向いた状態で当該使用者の口からの音波伝搬経路の距離が前記第1の距離とは異なる第2の距離である位置となるように当該使用者に装着される第2音声取得手段と、
前記使用者が正面を向いた状態で、当該使用者の口を挟んで前記第2音声取得手段と対称な位置となるように当該使用者に装着される第3音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が当該第1音声取得手段、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の発話音声か、当該使用者以外の他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の顔の向きを検知する解析処理を行う解析部と、
前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置。
【請求項7】
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項6に記載の音声解析装置。
【請求項8】
前記使用者の背面側に装着される第4音声取得手段をさらに備え、
前記第1音声取得手段は前記使用者の正面側に装着され、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項6または請求項7に記載の音声解析装置。
【請求項9】
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項8に記載の音声解析装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2013−72977(P2013−72977A)
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願番号】特願2011−211476(P2011−211476)
【出願日】平成23年9月27日(2011.9.27)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願日】平成23年9月27日(2011.9.27)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]