説明

音声解析装置および音声解析システム

【課題】音声取得手段にて音声を取得し、取得した音声の非言語情報に基づいて話者を識別する。
【解決手段】端末装置は、使用者の口からの距離が相異なる位置となるように使用者に装着される第1マイクロフォン11および第2マイクロフォン12と、第1マイクロフォン11により取得された音声の音声信号と第2マイクロフォン12により取得された音声の音声信号との比較結果に基づき、第1マイクロフォン11および第2マイクロフォン12により取得された音声が第1マイクロフォン11および第2マイクロフォン12を装着した使用者の発話音声か、使用者以外の他者の発話音声かを識別する音声解析部と、を備える。ホスト装置は、複数の端末装置から発話者の識別結果を含む発話情報を取得して解析し、発話者間のコミュニケーションの傾向を表す情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声解析装置および音声解析システムに関する。
【背景技術】
【0002】
特許文献1には、次の従来技術が開示されている。この従来技術は、第1、第2の無指向性マイクロフォンと、これらの無指向性マイクロフォンからの出力信号を入力として音声、非音声を検出する音声/非音声検出手段を設ける。非音声のときに第2のマイクロフォンの出力から騒音レベルを推定し、騒音レベルに応じてその出力を増幅する。そして第1の無指向性マイクロフォンの出力から可変信号増幅手段の出力を減算する。こうして高騒音時には両指向性、低騒音時には無指向性と指向特性を変化させる。
【0003】
また、特許文献2には、次の従来技術が開示されている。この従来技術は、雑音音響環境内で音響的に別個の音声信号を生成するために、ヘッドセットを構成する。ヘッドセットは、使用者の口の近傍に所定の間隙を介した一対のマイクロフォンを配置する。マイクロフォンは各々使用者の音声を受け取り、さらに音響環境の雑音を受け取る。雑音と情報の両方の成分を有するマイクロフォン信号は、分離プロセス内に受け取る。分離プロセスは、実質的に雑音成分を低減した音声信号を生成する。それから、送信用に音声信号を処理する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平8−191496号公報
【特許文献2】特表2008−507926号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、音声取得手段にて音声を取得し、取得した音声の非言語情報に基づいて話者を識別する音声解析装置およびシステムを提供することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、
装置本体と、
前記装置本体に接続され、当該装置本体を使用者の首から提げるのに用いられる提げ紐と、
前記提げ紐または当該装置本体に設けられた第1音声取得手段と、
前記提げ紐を首に掛けたときに、前記使用者の口から前記第1音声取得手段までの音波伝搬経路の距離より、前記使用者の口からの音波伝搬経路の距離が小さくなる位置に設けられた第2音声取得手段と、
前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第2音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別する識別部と、
前記装置本体に設けられ、前記識別部による識別結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置である。
請求項2に記載の発明は、
前記提げ紐は、筒状の構造を有し、当該提げ紐に設けられた前記第1音声取得手段および前記第2音声取得手段は、当該提げ紐の内部に設けられていることを特徴とする、請求項1に記載の音声解析装置である。
請求項3に記載の発明は、
前記識別部は、前記第1音声取得手段により取得された音声の音圧と、前記第2音声取得手段により取得された音声の音圧との音圧比から、当該音声の発話者が前記使用者か前記他者かを判断することを特徴とする、請求項1または請求項2のいずれかに記載の音声解析装置である。
請求項4に記載の発明は、
使用者の口からの音波伝搬経路の距離が相異なる位置となるように使用者に装着される第1音声取得手段および第2音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第2音声取得手段により取得された音声が当該第1音声取得手段および当該第2音声取得手段を装着した使用者の発話音声か、当該使用者以外の他者の発話音声かを識別する識別部と、
前記識別部による識別結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置である。
請求項5に記載の発明は、
前記識別部は、前記第1音声取得手段により取得された音声の音圧と、前記第2音声取得手段により取得された音圧との音圧比から、当該音声の発話者が前記使用者か前記他者かを判断することを特徴とする、請求項4に記載の音声解析装置である。
請求項6に記載の発明は、
前記識別部は、前記第1音声取得手段により取得された音声の音声信号および前記第2音声取得手段により取得された音声の音声信号に対してフィルタリング処理を行い、取得音声から雑音を除去した後に前記音圧の比較を行うことを特徴とする、請求項5に記載の音声解析装置である。
請求項7に記載の発明は、
使用者に装着される端末装置と、
前記端末装置から情報を取得するホスト装置とを備え、
前記端末装置は、
第1音声取得手段と、
前記使用者の口からの音波伝搬経路の距離が前記第1音声取得手段とは異なる位置に設けられた第2音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第2音声取得手段により取得された音声が前記端末装置を装着した使用者の発話音声か、他者の発話音声かを識別する識別部と、
前記識別部による識別結果を含む前記音声信号に関する情報である発話情報を前記ホスト装置へ送信する送信部とを備え、
前記ホスト装置は、
複数の前記端末装置から送信された前記発話情報を受信する受信部と、
前記受信部により受信された取得した前記発話情報を当該発話情報を送信した前記端末装置ごとに蓄積する蓄積部と、
前記蓄積部に蓄積された前記発話情報を解析する解析部と、
前記解析部による解析結果を出力する出力部と、
を備えることを特徴とする、音声解析システムである。
請求項8に記載の発明は、
前記解析部は、前記解析の一つとして、複数の前記端末装置から取得された前記発話情報を比較し、当該発話情報に含まれる発話に関する時間情報に基づいて、特定の会話に参加している前記使用者の発話情報を識別することを特徴とする、請求項7に記載の音声解析システムである。
【発明の効果】
【0007】
請求項1の発明によれば、収録した音声の非言語情報に基づいて発話者を識別することができる。
請求項2の発明によれば、提げ紐の外部に音声取得手段がある場合に比べ、使用者が音声取得手段の存在を意識せずに装着できることが見込まれる。
請求項3の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の識別が実現される。
請求項4の発明によれば、収録した音声の非言語情報に基づいて発話者を識別することができる。
請求項5の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の識別が実現される。
請求項6の発明によれば、収録した音声から雑音成分が除かれることにより、他者の発話の識別性能が向上する。
請求項7の発明によれば、複数の発話者における発話状況を解析することができる。
請求項8の発明によれば、複数の発話者における発話情報のうち、特定の発話者による会話に係る発話情報を抽出することができる。
【図面の簡単な説明】
【0008】
【図1】本実施形態による音声解析システムの構成例を示す図である。
【図2】本実施形態における端末装置の構成例を示す図である。
【図3】装着者および他者の口(発声部位)と、マイクロフォンとの位置の関係を示す図である。
【図4】マイクロフォンと音源との間の音波伝搬経路の距離と音圧(入力音量)との関係を示す図である。
【図5】装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
【図6】本実施形態における端末装置の動作を示すフローチャートである。
【図7】本実施形態の端末装置をそれぞれ装着した複数の装着者が会話している状況を示す図である。
【図8】図7の会話状況における各端末装置の発話情報の例を示す図である。
【図9】本実施形態におけるホスト装置の機能構成例を示す図である。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<システム構成例>
図1は、本実施形態による音声解析システムの構成例を示す図である。
図1に示すように、本実施形態のシステムは、端末装置10とホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(商標)(Wireless Fidelity)、Bluetooth(商標)、ZigBee(商標)、UWB(Ultra Wideband)等の既存の方式による回線を用いて良い。また、図示の例では、端末装置10が1台のみ記載されているが、詳しくは後述するように、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。
【0010】
端末装置10は、音声取得手段として、少なくとも、1組のマイクロフォン(第1マイクロフォン11および第2マイクロフォン12)と、増幅器(第1増幅器13および第2増幅器14)とを備える。また、端末装置10は、処理手段として、収録音声を解析する音声解析部15と、解析結果をホスト装置20に送信するためのデータ送信部16とを備え、さらに電源部17を備える。
【0011】
第1マイクロフォン11と第2マイクロフォン12とは、装着者の口(発声部位)からの音波伝搬経路の距離(以下、単に「距離」と記す)が異なる位置に配置される。ここでは、第1マイクロフォン11は装着者の口(発声部位)から遠い位置(例えば、35cm程度)に配置され、第2マイクロフォン12は装着者の口(発声部位)に近い位置(例えば、10cm程度)に配置されるものとする。本実施形態の第1マイクロフォン11および第2マイクロフォン12として用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。特に無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンを用いることが好ましい。
【0012】
第1増幅器13および第2増幅器14は、第1マイクロフォン11および第2マイクロフォン12が取得音声に応じて出力する電気信号(音声信号)を増幅する。本実施形態の第1増幅器13および第2増幅器14として用いられる増幅器としては、既存のオペアンプ等を用いて良い。
【0013】
音声解析部15は、第1増幅器13および第2増幅器14から出力された音声信号を解析する。そして、第1マイクロフォン11および第2マイクロフォン12で取得した音声が端末装置10を装着した装着者自身が発話した音声か、他者の発話による音声かを識別する。すなわち、音声解析部15は、第1マイクロフォン11および第2マイクロフォン12で取得した音声に基づき、音声の発話者を識別する識別部として機能する。発話者識別のための具体的な処理の内容については後述する。
【0014】
データ送信部16は、音声解析部15による解析結果を含む取得データと端末装置10のIDを、上記の無線通信回線を介してホスト装置20へ送信する。ホスト装置20へ送信する情報としては、ホスト装置20において行われる処理の内容に応じて、上記の解析結果の他、例えば、第1マイクロフォン11および第2マイクロフォン12による音声の取得時刻、取得音声の音圧等の情報を含めて良い。なお、端末装置10に音声解析部15による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。有線回線で送信しても良い。
【0015】
電源部17は、上記の第1マイクロフォン11、第2マイクロフォン12、第1増幅器13、第2増幅器14、音声解析部15およびデータ送信部16に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部17は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。
【0016】
ホスト装置20は、端末装置10から送信されたデータを受信するデータ受信部21と、受信したデータを蓄積するデータ蓄積部22と、蓄積したデータを解析するデータ解析部23と、解析結果を出力する出力部24とを備える。このホスト装置20は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置10が使用され、ホスト装置20は、その複数台の端末装置10の各々からデータを受信する。
【0017】
データ受信部21は、上記の無線通信回線に対応しており、各端末装置10からデータを受信してデータ蓄積部22へ送る。データ蓄積部22は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部21から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置10から送信される端末IDと、予めホスト装置20に登録されている発話者名と端末IDの照合により行う。また、端末装置10から端末IDの代わりに、装着者名を送信するようにしておいても良い。
【0018】
データ解析部23は、例えばパーソナルコンピュータのプログラム制御されたCPUにより実現され、データ蓄積部22に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置10の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。
【0019】
出力部24は、データ解析部23による解析結果を出力したり、解析結果に基づく出力を行ったりする。出力手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。
【0020】
<端末装置の構成例>
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置10は、図2に示すように、装置本体30と、装置本体30に接続された提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。
【0021】
装置本体30は、金属や樹脂等で形成された薄い直方体のケース31に、少なくとも第1増幅器13、第2増幅器14、音声解析部15、データ送信部16および電源部17を実現する回路と電源部17の電源(電池)とを収納して構成される。ケース31には、装着者の氏名や所属等のID情報を表示したIDカード等を挿入するポケットを設けても良い。また、ケース31自体の表面にそのようなID情報等を印刷したり、ID情報等を記載したシールを貼り付けたりしても良い。
【0022】
提げ紐40には、第1マイクロフォン11および第2マイクロフォン12が設けられる(以下、第1マイクロフォン11と第2マイクロフォン12とを区別しない場合には、マイクロフォン11、12と記載)。マイクロフォン11、12は、提げ紐40の内部を通るケーブル(電線等)により、装置本体30に収納された第1増幅器13、第2増幅器14に接続される。提げ紐40の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。
【0023】
この提げ紐40は、筒状の構造を有し、提げ紐40の内部にマイクロフォン11、12を収納している。マイクロフォン11、12を提げ紐40の内部に設けることにより、マイクロフォン11、12の損傷や汚れを防ぎ、対話者がマイクロフォン11、12の存在を意識することが抑制される。なお、装着者の口(発声部位)から遠い位置に配置される第1マイクロフォン11は、ケース31に内蔵して装置本体30に設けても良い。本実施形態では、第1マイクロフォン11が提げ紐40に設けられる場合を例として説明する。
【0024】
図2を参照すると、第1マイクロフォン11は、提げ紐40の装置本体30に接続される端部(例えば、接続部位から10cm以内の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第1マイクロフォン11は、装着者の口(発声部位)から約30cmから40cm程度離れた位置に配置される。なお、第1マイクロフォン11が装置本体30に設けられた場合も、装着者の口(発声部位)から第1マイクロフォン11までの距離は同程度である。
【0025】
第2マイクロフォン12は、提げ紐40の装置本体30に接続される端部から離れた位置(例えば、接続部位から20cm〜30cm程度の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第2マイクロフォン12は、装着者の首元(例えば鎖骨に当たる位置)に位置し、装着者の口(発声部位)から約10cmから20cm程度離れた位置に配置される。
【0026】
なお、本実施形態の端末装置10は、図2に示す構成に限定されるものではない。例えば、マイクロフォン11、12は、第1マイクロフォン11から装着者の口(発声部位)までの(音波伝搬経路の)距離が第2マイクロフォン12から装着者の口(発声部位)までの(音波伝搬経路の)距離の数倍程度となるように、第1マイクロフォン11と第2マイクロフォン12の位置関係が特定されれば良い。したがって、第1マイクロフォン11を首の後ろ側の提げ紐40に設けても良い。また、マイクロフォン11、12は、上記のように提げ紐40に設ける構成に限らず、種々の方法で装着者に装着して良い。例えば、第1マイクロフォン11と第2マイクロフォン12の各々を、個別にピン等を用いて衣服に固定するように構成しても良い。また、第1マイクロフォン11と第2マイクロフォン12の位置関係が所望の位置で固定されるようにデザインされた専用の装着具を用意して装着しても良い。
【0027】
また、装置本体30は、図2に示したように、提げ紐40に接続されて装着者の首から提げられる構成に限らず、携帯することが容易な装置として構成されていれば良い。例えば、本実施形態のような提げ紐ではなく、クリップやベルトにより衣服や体に装着するように構成しても良いし、単にポケット等に納めて携帯するような構成としても良い。また、携帯電話その他の既存の携帯型電子情報端末に、マイクロフォン11、12からの音声信号を受け付けて増幅し、解析する機能を実現させても良い。ただし、第1マイクロフォン11が装置本体30に設けられる場合は、第1マイクロフォン11と第2マイクロフォン12との位置関係を上記のように保持する必要があるため、携帯時の装置本体30の位置は特定される。
【0028】
さらにまた、マイクロフォン11、12と装置本体30(あるいは音声解析部15)を有線で接続するのではなく、無線通信により接続しても良い。第1増幅器13、第2増幅器14、音声解析部15、データ送信部16および電源部17は、上記の構成例では単一のケース31に収納されることとしたが、複数の個体に分けて構成しても良い。例えば、電源部17をケース31に収納せず、外部電源に接続して使用する構成としても良い。
【0029】
<収録音声の非言語情報に基づく発話者(自他)の識別>
次に、本実施形態における発話者の識別方法について説明する。
本実施形態のシステムは、端末装置10に設けられた2つのマイクロフォン11、12により収録された音声の情報を用いて、端末装置10の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、収録音声の発話者に関して自他の別を識別する。また、本実施形態では、収録音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧(マイクロフォン11、12への入力音量)等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。
【0030】
図1および図2を参照して説明したように、本実施形態において、端末装置10の第1マイクロフォン11は装着者の口(発声部位)から遠い位置に配置され、第2マイクロフォン12は装着者の口(発声部位)に近い位置に配置される。すなわち、装着者の口(発声部位)を音源とすると、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離が大きく異なる。具体的には、第1マイクロフォン11と音源との間の距離は、第2マイクロフォン12と音源との間の距離の1.5〜4倍程度である。ここで、マイクロフォン11、12における収録音声の音圧は、マイクロフォン11、12と音源との間の距離が大きくなるにしたがって減衰(距離減衰)する。したがって、装着者の発話音声に関して、第1マイクロフォン11における収録音声の音圧と第2マイクロフォン12における収録音声の音圧とは大きく異なる。
【0031】
一方、装着者以外の者(他者)の口(発声部位)を音源とした場合を考えると、その他者が装着者から離れているため、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口(発声部位)を音源とした場合のように、第1マイクロフォン11と音源との間の距離が第2マイクロフォン12と音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第1マイクロフォン11における収録音声の音圧と第2マイクロフォン12における収録音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。
【0032】
図3は、装着者および他者の口(発声部位)と、マイクロフォン11、12との位置の関係を示す図である。
図3に示す関係において、装着者の口(発声部位)である音源aと第1マイクロフォン11との間の距離をLa1、音源aと第2マイクロフォン12との間の距離をLa2とする。また、他者の口(発声部位)である音源bと第1マイクロフォン11との間の距離をLb1、音源bと第2マイクロフォン12との間の距離をLb2とする。この場合、次の関係が成り立つ。
La1>La2(La1≒1.5×La2〜4×La2)
Lb1≒La2
【0033】
図4は、マイクロフォン11、12と音源との間の距離と音圧(入力音量)との関係を示す図である。
上述したように、音圧は、マイクロフォン11、12と音源との間の距離に応じて距離減衰する。図4において、距離La1の場合の音圧Ga1と距離La2の場合の音圧Ga2とを比較すると、音圧Ga2は、音圧Ga1の4倍程度となっている。一方、距離Lb1と距離Lb2とが近似するため、距離Lb1の場合の音圧Gb1と距離Lb2の場合の音圧Gb2とは、ほぼ等しい。そこで、本実施形態では、この音圧比の差を用いて、収録音声における装着者自身の発話音声と他者の発話音声とを識別する。なお、図4に示した例では、距離Lb1、Lb2を60cmとしたが、ここでは音圧Gb1と音圧Gb2とがほぼ等しくなることに意味があり、距離Lb1、Lb2は図示の値に限定されない。
【0034】
図5は、装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
図4を参照して説明したように、装着者自身の発話音声に関して、第2マイクロフォン12の音圧Ga2は、第1マイクロフォン11の音圧Ga1の数倍(例えば4倍程度)である。また、他者の発話音声に関して、第2マイクロフォン12の音圧Gb2は、第1マイクロフォン11の音圧Gb1とほぼ等しい(1倍程度)。そこで、本実施形態では、第2マイクロフォン12の音圧と第1マイクロフォン11の音圧との比に閾値を設定する。そして、音圧比が閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値よりも小さい音声は他者の発話音声と判断する。図5に示す例では、閾値を2とし、音圧比Ga2/Ga1は閾値2を超えるので装着者自身の発話音声と判断され、音圧比Gb2/Gb1は閾値2よりも小さいので他者の発話音声と判断されている。
【0035】
ところで、マイクロフォン11、12により収録される音声には、発話音声の他に、環境音等のいわゆる雑音(ノイズ)が含まれる。この雑音の音源とマイクロフォン11、12との間の距離の関係は、他者の発話音声の場合と類似する。すなわち、図4、図5に示した例によれば、雑音の音源cと第1マイクロフォン11との間の距離をLc1とし、雑音の音源cと第2マイクロフォン12との間の距離をLc2とすると、距離Lc1と距離Lc2とは近似する。そして、マイクロフォン11、12の収録音声における音圧比Gc2/Gc1は、閾値2よりも小さくなる。しかし、このような雑音は、バンドパスフィルタやゲインフィルタ等を用いた既存の技術によるフィルタリング処理を行うことにより発話音声から分離され、除去される。
【0036】
<端末装置の動作例>
図6は、本実施形態における端末装置10の動作を示すフローチャートである。
図6に示すように、端末装置10のマイクロフォン11、12が音声を取得すると、各マイクロフォン11、12から取得音声に応じた電気信号(音声信号)が第1増幅器13および第2増幅器14へ送られる(ステップ601)。第1増幅器13および第2増幅器14は、マイクロフォン11、12からの音声信号を取得すると、信号を増幅して音声解析部15へ送る(ステップ602)。
【0037】
音声解析部15は、第1増幅器13および第2増幅器14で増幅された信号に対してフィルタリング処理を行い、信号から環境音等の雑音(ノイズ)の成分を除去する(ステップ603)。次に、音声解析部15は、雑音成分が除かれた信号に対し、一定の時間単位(例えば、数十分の一秒〜数百分の一秒)毎に、各マイクロフォン11、12の収録音声における平均音圧を求める(ステップ604)。
【0038】
ステップ604で求めた各マイクロフォン11、12における平均音圧の利得が有る場合(ステップ605でYes)、音声解析部15は、発話音声が有る(発話が行われた)と判断し、次に、第1マイクロフォン11における平均音圧と第2マイクロフォン12における平均音圧との比(音圧比)を求める(ステップ606)。そして、ステップ606で求めた音圧比が閾値よりも大きい場合(ステップ607でYes)、音声解析部15は、発話音声は装着者自身の発話による音声であると判断する(ステップ608)。また、ステップ606で求めた音圧比が閾値よりも小さい場合(ステップ607でNo)、音声解析部15は、発話音声は他者の発話による音声であると判断する(ステップ609)。
【0039】
一方、ステップ604で求めた各マイクロフォン11、12における平均音圧の利得が無い場合(ステップ605でNo)、音声解析部15は、発話音声が無い(発話が行われていない)と判断する(ステップ610)。なお、ステップ605の判断は、ステップ603のフィルタリング処理で除去しきれなかった雑音が信号に残っている場合を考慮し、平均音圧の利得の値が一定値以上の場合に、利得があると判断しても良い。
【0040】
この後、音声解析部15は、データ送信部16を介して、ステップ604〜ステップ610の処理で得られた情報(発話の有無、発話者の情報)を解析結果としてホスト装置20へ送信させる(ステップ611)。このとき、発話者毎(装着者自身または他者)の発話時間の長さや平均音圧の利得の値、その他の付加情報を解析結果と共にホスト装置20へ送信させても良い。
【0041】
なお、本実施形態では、第1マイクロフォン11の音圧と第2マイクロフォン12の音圧とを比較することにより、発話音声が装着者自身の発話による音声か他者の発話による音声かを判断した。しかし、本実施形態による発話者の識別は、マイクロフォン11、12により取得された音声信号そのものから抽出される非言語情報に基づいて行うものであれば良く、音圧の比較には限定されない。例えば、第1マイクロフォン11における音声取得時刻(音声信号の出力時刻)と第2マイクロフォン12における音声取得時刻とを比較しても良い。この場合、装着者自身の発話音声は、装着者の口(発声部位)から第1マイクロフォン11までの距離と、装着者の口(発声部位)から第2マイクロフォン12までの距離との差が大きいため、音声取得時刻にある程度の差(時間差)が生じる。一方、他者の発話音声は、装着者の口(発声部位)から第1マイクロフォン11までの距離と、装着者の口(発声部位)から第2マイクロフォン12までの距離との差が小さいため、装着者の発話音声の場合よりも音声取得時刻の時間差が小さい。そこで、音声取得時刻の時間差に対して閾値を設定し、音声取得時刻の時間差が閾値よりも大きい場合には装着者自身の発話と判断し、音声取得時刻の時間差が閾値よりも小さい場合には他者の発話と判断するようにしても良い。
【0042】
<システムの適用例とホスト装置の機能>
本実施形態のシステムでは、複数の端末装置10により上記のようにして得られた発話に関する情報(以下、発話情報)がホスト装置20に集められる。ホスト装置20は、複数の端末装置10から得られた情報を用いて、システムの利用目的や利用態様等に応じて種々の解析を行う。以下、複数の装着者のコミュニケーションに関する情報を取得するシステムとして本実施形態を用いる例を説明する。
【0043】
図7は、本実施形態の端末装置10をそれぞれ装着した複数の装着者が会話している状況を示す図である。図8は、図7の会話状況における各端末装置10A、10Bの発話情報の例を示す図である。
図7に示すように、端末装置10をそれぞれ装着した二人の装着者A、装着者Bが会話している場合を考える。このとき、装着者Aの端末装置10Aにおいて装着者の発話として認識される音声は、装着者Bの端末装置10Bでは他者の発話として認識される。反対に、端末装置10Bにおいて装着者の発話として認識される音声は、端末装置10Aでは他者の発話として認識される。
【0044】
端末装置10Aおよび端末装置10Bからは、それぞれ独立に、発話情報がホスト装置20に送られる。このとき、端末装置10Aから取得した発話情報と、端末装置10Bから取得した発話情報とは、図8に示すように、発話者(装着者と他者)の識別結果は反対になるが、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報は近似する。そこで、本適用例のホスト装置20は、端末装置10Aから取得した情報と端末装置10Bから取得した情報とを比較することにより、これらの情報が同じ発話状況を示していると判断し、装着者Aと装着者Bとが会話していることを認識する。ここで、発話状況を示す情報としては、少なくとも、上述した発話者ごとの個々の発話における発話時間の長さ、個々の発話の開始時刻と終了時刻、発話者が切り替わった時刻(タイミング)等のように、発話に関する時間情報が用いられる。なお、特定の会話に係る発話状況を判断するために、これらの発話に関する時間情報の一部のみを用いても良いし、他の情報を付加的に用いても良い。
【0045】
図9は、本適用例におけるホスト装置20の機能構成例を示す図である。
本適用例において、ホスト装置20は、端末装置10から取得した発話情報のうち、会話を行っている装着者の端末装置10からの発話情報(以下、会話情報)を検出する会話情報検出部201と、検出された会話情報を解析する会話情報解析部202とを備える。この会話情報検出部201および会話情報解析部202は、データ解析部23の機能として実現される。
【0046】
ホスト装置20には、端末装置10A、端末装置10B以外の端末装置10からも発話情報が送られる。データ受信部21により受信された各端末装置10からの発話情報は、データ蓄積部22に蓄積される。そして、データ解析部23の会話情報検出部201が、データ蓄積部22に蓄積された各端末装置10の発話情報を読み出し、特定の会話に係る発話情報である会話情報を検出する。
【0047】
上記の図8に示したように、端末装置10Aの発話情報と端末装置10Bの発話情報は、他の端末装置10の発話情報とは異なる特徴的な対応関係が抽出される。会話情報検出部201は、データ蓄積部22に蓄積されている各端末装置10から取得した発話情報を比較し、複数の端末装置10から取得した発話情報の中から、上記のような対応関係を有する発話情報を検出し、同一の会話に係る会話情報として識別する。ホスト装置20には、複数の端末装置10から発話情報が随時送られているので、会話情報検出部201は、例えば、一定時間分の発話情報を順次区切りながら上記の処理を行い、特定の会話に係る会話情報が含まれているか否かを判断する。
【0048】
なお、会話情報検出部201が複数の端末装置10の発話情報から特定の会話に係る会話情報を検出するための条件は、上述した図8に示す対応関係に限定されない。複数の発話情報の中から特定の会話に係る会話情報を識別し得る、いかなる手法にて検出しても良い。
【0049】
また、上記の例では、端末装置10をそれぞれ装着した二人の装着者が会話している例を示したが、会話に参加する人数は二人に限定されない。三人以上の装着者が会話している場合、各装着者が装着している端末装置10において、自装置の装着者の発話音声が装着者自身の発話音声として認識され、他者(二人以上)の発話音声と区別される。しかし、発話時間や発話者が切り替わったタイミング等の発話状況を示す情報は、各端末装置10における取得情報どうしの間で近似する。そこで、会話情報検出部201は、上記の二人の会話の場合と同様に、同一の会話に参加している装着者の端末装置10から取得した発話情報を検出し、会話に参加していない装着者の端末装置10から取得した発話情報と区別する。
【0050】
次に、会話情報解析部202は、会話情報検出部201により検出された会話情報を解析して、その会話の特徴を抽出する。本実施形態では、具体例として、対話度、傾聴度、会話活性度の3種類の評価基準により会話の特徴を抽出する。ここで、対話度とは、会話参加者の発言頻度のバランスを表すものとする。傾聴度とは、個々の会話参加者における他者の発言を聴く度合い表すものとする。会話活性度とは、会話全体における発言の密度を表すものとする。
【0051】
対話度は、会話が行われている間における発話者の交代回数と、発話者が交代するまでの時間(一人の発話者が連続して発話している時間)のばらつきによって特定される。これは、一定時間の会話情報において、話者が切り替わった回数および切り替わったときの時刻から得られる。そして、発話者の交代回数が多く、各発話者の連続発話時間のばらつきが小さいほど、対話度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。
【0052】
傾聴度は、会話情報における会話参加者ごとの自身の発話時間と他者の発話時間との比率によって特定される。例えば、下式の場合、値が大きいほど傾聴度の値(レベル)が大きいものとする。
傾聴度=(他者の発話時間)÷(装着者自身の発話時間)
この評価基準は、同一の会話に係る会話情報であっても、各会話参加者の端末装置10から取得した発話情報ごとに異なるものとなる。
【0053】
会話活性度は、いわゆる会話の盛り上がりを表す指標であり、会話情報全体に対する無言時間(会話参加者の誰も発言していない時間)の比率によって特定される。無言時間の総和が短いほど、会話において会話参加者のいずれかが発言していることを意味し、会話活性度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。
【0054】
以上のようにして、会話情報解析部202による会話情報の解析により、その会話情報に係る会話の特徴が抽出される。また、上記の解析により、その会話における各参加者の参加の仕方が特定される。なお、上記の評価基準は、会話の特徴を表す情報の一例に過ぎず、他の評価項目を採用したり、項目毎に重み付けを加えたりすることにより、本実施形態のシステムの利用目的や利用態様に応じた評価基準を設定して良い。
【0055】
上記のような解析を、データ蓄積部22に蓄積された発話情報の中から会話情報検出部201により検出された種々の会話情報に対して行うことにより、端末装置10の装着者のグループ全体におけるコミュニケーションの傾向を分析することができる。具体的には、例えば、会話参加者の数、会話が行われた時間、対話度、活性度などの値と会話の発生頻度との相関関係を調べることで、装着者のグループにおいてどのような態様の会話が行われる傾向があるかが判断される。
【0056】
また、特定の装着者の複数の会話情報に対して上記のような解析を行うことにより、装着者個人のコミュニケーションの傾向を分析することができる。特定の装着者による会話への参加の仕方は、会話の相手や会話参加者の数といった条件に応じて、一定の傾向を持つ場合がある。そこで、特定の装着者における複数の会話情報を調べることにより、例えば、特定の相手との会話では対話レベルが大きい、会話参加者の数が多くなると傾聴度が大きくなる等のような特徴が検出されることが期待される。
【0057】
なお、上記の発話情報の識別処理および会話情報解析処理は、本実施形態によるシステムの適用例を示すに過ぎず、本実施形態によるシステムの利用目的や利用態様、ホスト装置20の機能等を限定するものではない。本実施形態の端末装置10により取得した発話情報に対して種々の解析や調査を実行するための処理機能が、ホスト装置20の機能として実現され得る。
【符号の説明】
【0058】
10…端末装置、11…第1マイクロフォン、12…第2マイクロフォン、13…第1増幅器、14…第2増幅器、15…音声解析部、16…データ送信部、17…電源部、20…ホスト装置、21…データ受信部、22…データ蓄積部、23…データ解析部、24…出力部、30…装置本体、40…提げ紐、201…会話情報検出部、202…会話情報解析部

【特許請求の範囲】
【請求項1】
装置本体と、
前記装置本体に接続され、当該装置本体を使用者の首から提げるのに用いられる提げ紐と、
前記提げ紐または当該装置本体に設けられた第1音声取得手段と、
前記提げ紐を首に掛けたときに、前記使用者の口から前記第1音声取得手段までの音波伝搬経路の距離より、前記使用者の口からの音波伝搬経路の距離が小さくなる位置に設けられた第2音声取得手段と、
前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第2音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別する識別部と、
前記装置本体に設けられ、前記識別部による識別結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置。
【請求項2】
前記提げ紐は、筒状の構造を有し、当該提げ紐に設けられた前記第1音声取得手段および前記第2音声取得手段は、当該提げ紐の内部に設けられていることを特徴とする、請求項1に記載の音声解析装置。
【請求項3】
前記識別部は、前記第1音声取得手段により取得された音声の音圧と、前記第2音声取得手段により取得された音声の音圧との音圧比から、当該音声の発話者が前記使用者か前記他者かを判断することを特徴とする、請求項1または請求項2のいずれかに記載の音声解析装置。
【請求項4】
使用者の口からの音波伝搬経路の距離が相異なる位置となるように使用者に装着される第1音声取得手段および第2音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第2音声取得手段により取得された音声が当該第1音声取得手段および当該第2音声取得手段を装着した使用者の発話音声か、当該使用者以外の他者の発話音声かを識別する識別部と、
前記識別部による識別結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置。
【請求項5】
前記識別部は、前記第1音声取得手段により取得された音声の音圧と、前記第2音声取得手段により取得された音圧との音圧比から、当該音声の発話者が前記使用者か前記他者かを判断することを特徴とする、請求項4に記載の音声解析装置。
【請求項6】
前記識別部は、前記第1音声取得手段により取得された音声の音声信号および前記第2音声取得手段により取得された音声の音声信号に対してフィルタリング処理を行い、取得音声から雑音を除去した後に前記音圧の比較を行うことを特徴とする、請求項5に記載の音声解析装置。
【請求項7】
使用者に装着される端末装置と、
前記端末装置から情報を取得するホスト装置とを備え、
前記端末装置は、
第1音声取得手段と、
前記使用者の口からの音波伝搬経路の距離が前記第1音声取得手段とは異なる位置に設けられた第2音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第2音声取得手段により取得された音声が前記端末装置を装着した使用者の発話音声か、他者の発話音声かを識別する識別部と、
前記識別部による識別結果を含む前記音声信号に関する情報である発話情報を前記ホスト装置へ送信する送信部とを備え、
前記ホスト装置は、
複数の前記端末装置から送信された前記発話情報を受信する受信部と、
前記受信部により受信された取得した前記発話情報を当該発話情報を送信した前記端末装置ごとに蓄積する蓄積部と、
前記蓄積部に蓄積された前記発話情報を解析する解析部と、
前記解析部による解析結果を出力する出力部と、
を備えることを特徴とする、音声解析システム。
【請求項8】
前記解析部は、前記解析の一つとして、複数の前記端末装置から取得された前記発話情報を比較し、当該発話情報に含まれる発話に関する時間情報に基づいて、特定の会話に参加している前記使用者の発話情報を識別することを特徴とする、請求項7に記載の音声解析システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate