説明

音声情報処理装置

【課題】人の発話音声の中から、有意性の高い要点部分を客観的かつ容易に抽出する。
【解決手段】発話特徴解析制御部50が、音声認識部41により発話音声から生成されたテキスト情報、区間種別情報等、瞳孔径解析部42により眼球映像を解析して得られた瞳孔径、顔面動き量推定部43により通常顔映像から推定された顔面動きを入力し、発話音声の相対音量及び相対音高、発話速度、無意区間、テキスト化不可部分、発話者情動反応値及び聴取者情動反応値を発話特徴の解析結果として求める。また、表示装置20は、発声音の強弱及び高低、発声速度、無意区間の有無、テキスト化不可部分及び発話者情動反応値(または/及び聴取者情動反応値)を発話音声のテキスト情報の特性として、テキスト文字の形態に反映し、テキスト文字に対応した箇所に表現する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声をテキストに変換する装置に関し、特に、発話音声の中から有意性の高い要点部分を抽出する技術に関する。
【背景技術】
【0002】
従来、人の発話音声の中から、有意性の高い要点部分(人が興味をもって集中して話している部分)を抽出するには、オペレータが、発話音声を記録して再生し、再生音声を聞き取って解析することにより行っていた。このため、膨大な時間と作業が必要であった。このような人的作業の効率化を図るため、音声認識技術が利用されている。
【0003】
例えば、人の発話音声をテキスト化し、テキスト情報を解析する音声認識システムが知られている(非特許文献1,2、特許文献1を参照)。非特許文献1,2の音声認識システムは、音響モデルが、予め用意された音声認識対象の語彙(単語の集合)とその発音を規定した単語辞書を参照しながら、人の発話音声に対し音素、音節の周波数パターンのマッチングを行って入力音声を生成し、デコーダが、単語の連鎖を規定した言語モデルを参照しながら、音響モデルにより生成された入力音声を単語列であるテキストに変換するものである。また、特許文献1の音声認識システムは、発話音声のテキスト情報に編集を加えた場合であっても、テキスト情報に含まれる文字と、発話音声の認識結果に含まれる文字との間のマッチング結果を利用することにより、編集後のテキスト情報と元の発話音声との対応付けを可能にするものである。
【0004】
このような音声認識システムを用いることにより、人の発話音声をテキスト化し、テキスト情報に編集を加えることができる。また、オペレータは、音声認識システムによって得られたテキスト情報を解析することによって、有意性の高い要点部分を抽出することが可能になる。
【0005】
しかしながら、オペレータによるテキスト情報の解析作業も、前述した再生音声を聞き取る手法と同様に人的作業であるから、有意性の高い要点部分の抽出精度は、人の経験や勘等の主観的判断能力によって左右されてしまう。また、人の発話音声の品質は一定しておらず、周囲の環境や人の体調等によって異なるから、発話音声は、必ずしも分析が容易になるように整理され、かつ分かり易く表現されているとは限らない。このため、オペレータによる解析作業では、要点部分を精度高く抽出することができないという問題があった。そこで、人の経験や勘等の主観的判断能力に依存することなく、人の発話音声の中から、有意性の高い要点部分を精度高く抽出することが可能なシステムが所望されている。
【0006】
ところで、眼球映像から瞳孔径を算出し、その変動を捉えることにより情動反応を評価する技術が知られている(例えば、特許文献2を参照)。この技術は、映像コンテンツを見ている人間の眼球映像をカメラにより撮影し、その眼球映像から瞳孔径の変動を算出し、この変動を映像コンテンツに対する人間の情動反応として扱い、映像コンテンツに対する興味・関心度合いを算出するものである。
【0007】
この技術は、人の情動反応が瞳孔径の変動に表れるという知見に基づいている。しかしながら、情動反応には、人の本能的反応である一次情動と、人の意識が関係する高次の情動反応とがあり、瞳孔径には、これらの情動反応が重畳して表れることになる。したがって、瞳孔径の変動を捉えるのみでは、人が本当に興味・関心を持って反応しているか否かを精度高く判定することができない。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2007−133033号公報
【特許文献2】特開2004−282471号公報
【非特許文献】
【0009】
【非特許文献1】“Julius”、[online]、Julius developement team、[平成21年3月10日検索]、インターネット<URL: http://julius.sourceforge.jp/index.php?q=documents.html#beginner>
【非特許文献2】河原達也、他1名、“連続音声認識ソフトウェア Julius”、[online]、[平成21年3月10日検索]、インターネット<URL:http://julius.sourceforge.jp/paper/JSAI05.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0010】
そこで、本発明は上記課題を解決するためになされたものであり、その目的は、人の発話音声の中から、有意性の高い要点部分を客観的かつ容易に抽出することが可能な音声情報処理装置を提供することにある。
【課題を解決するための手段】
【0011】
上記目的を達成するために、本発明による音声情報処理装置は、発話者の発話音声をテキスト化し、テキスト情報に変換する音声情報処理装置において、語彙、前記語彙の発音、及び前記語彙に対しテキスト情報の区間を設定するための区間種別が規定された辞書を用いて、前記発話音声をテキスト情報に変換し、前記発話音声の信号レベルが所定の値未満となる沈黙区間を設定し、前記辞書に規定された語彙に対する区間種別及び前記テキスト情報に含まれる語彙によって、前記発話者が発声した時間区間のうちの実際に意味のある発声をした発言区間を設定し、前記発話者が発声した時間区間のうちの前記発言区間を除いた時間区間をその他発声区間に設定する音声認識部と、前記発話音声に基づいて、前記区間毎に、発話音声特性データを算出する発話音声特性データ算出部と、前記発話者の生理状態によって変化する生理反応データを入力し、前記生理反応データに基づいて、前記区間毎に、前記発話者の情動の程度を示す発話者情動反応値を算出する発話者情動反応値算出部と、前記発言区間及びその他発声区間におけるテキスト情報をテキスト文字で表示する際に、前記発話音声特性データ算出部により算出された発話音声特性データの値、及び前記発話者情動反応値算出部により算出された発話者情動反応値に応じた形態で、前記音声認識部により区別された区間毎に前記テキスト文字を表示し、前記沈黙区間を、予め設定された形態で表示する表示部と、を備えたことを特徴とする。
【0012】
また、本発明による音声情報処理装置は、前記発話音声特性データ算出部が、前記発話音声に基づいて、前記区間毎に、発話音声の音量、音高及び速度を算出し、前記発話者情動反応値算出部は、発話者の眼球運動に伴うデータ、顔面の動き、脈拍値、発汗量のうちの少なくとも一つまたは複数のデータに基づいて、前記区間毎に、発話者情動反応値を算出し、前記表示部が、前記発話音声特性データ算出部により算出された発話音声の音量、音高及び速度の値、並びに、前記発話者情動反応値算出部により算出された発話者情動反応値に応じたそれぞれの形態で前記テキスト文字を表示し、前記沈黙区間を空白で表示し、前記音声認識部によりテキスト化できなかった前記発言区間またはその他発声区間を、予め設定された形態で表示することを特徴とする。
【0013】
また、本発明による音声情報処理装置は、前記発話音声特性データ及び前記発話者情動反応値に基づいて、前記区間毎のテキスト情報の重要度を算出する区間重要度算出部と、前記テキスト情報の重要度と所定の値とに基づいて、重要度の高い区間を特定し、前記特定した区間のテキスト情報から単語を抽出する頻出重要単語抽出部と、前記抽出された単語を検索語としてデータベースを検索する検索部とを備え、前記表示部が、さらに、前記データベースの検索結果を表示することを特徴とする。
【0014】
また、本発明による音声情報処理装置は、前記発話者による発話を聴取する聴取者の眼球運動に伴うデータ、顔面の動き、脈拍値、発汗量のうちの少なくとも一つまたは複数のデータに基づいて、前記区間毎に、聴取者情動反応値を算出する聴取者情動反応値算出部を備え、前記表示部が、さらに、前記聴取者情動反応値算出部により算出された聴取者情動反応値に応じた形態で、前記テキスト文字を表示することを特徴とする。
【0015】
また、本発明による音声情報処理装置は、複数の発話者のそれぞれに対応して、前記処理をそれぞれ行う音声認識部、発話音声特性データ算出部、発話者情動反応値算出部及び表示部を備え、さらに、前記複数の発話者のうちの一人の発話者による発話の前記区間について、前記一人の発話者の発話音声特性データ及び発話者情動反応値、前記他の発話者の発話者情動反応値、並びに前記聴取者情動反応値に基づいて、前記一人の発話者による発話の重要度を算出する区間重要度算出部を備え、前記表示部が、さらに、前記重要度に応じた形態で、前記重要度が算出された前記一人の発話者における前記テキスト文字を表示することを特徴とする。
【0016】
また、本発明による音声情報処理装置を含むシステムは、近赤外線を前記発話者の目の周辺に照射する照射器と、前記近赤外線を透過するフィルタ、及び前記フィルタからの出射光を受光する撮像素子を有し、前記発話者の映像を前記フィルタ及び撮像素子を介して目隠し顔映像として出力するカメラとを備え、前記音声情報処理装置の表示部が、前記カメラにより出力された前記発話者の目隠し顔映像を表示することを特徴とする。
【発明の効果】
【0017】
以上のように、本発明によれば、発話音声の時間区間を発言区間、その他発声区間及び沈黙区間に区別し、これらの区間毎に発話音声特性データ及び情動反応データを算出し、発話音声を変換したテキスト情報を、発話音声の特性に応じた形態及び発話者の情動反応に応じた形態で表示するようにした。これにより、人の発話音声の中から、有意性の高い要点部分を客観的にかつ容易に抽出することが可能となる。
【図面の簡単な説明】
【0018】
【図1】本発明の第1の実施形態(実施例1)による音声情報処理装置のハードウェア構成を示す概略図である。
【図2】本発明の第1の実施形態(実施例1)による音声情報処理装置の機能構成を示すブロック図である。
【図3】発話者の顔を撮影するカメラの構成を示す図である。
【図4】記憶部に生成されるDBの一覧を示す図である。
【図5】発話特徴解析制御部の構成を示すブロック図である。
【図6】(1)は、発話音声の相対音量V(t)を示すグラフである。(2)は、情動反応値Es(t)を示すグラフである。
【図7】解析結果DBの構成例を説明する図である。
【図8】表示装置に表示される画面例である。
【図9】提示情報の表示例を説明する図である。
【図10】本発明の第2の実施形態(実施例2)による音声情報処理装置の機能構成を示すブロック図である。
【図11】本発明の第3の実施形態(実施例3)による音声情報処理装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【0019】
以下、本発明を実施するための形態について、図面を参照して説明する。
【0020】
〔実施例1〕
まず、本発明の第1の実施形態(実施例1)について説明する。図1は、実施例1の音声情報処理装置のハードウェア構成を示す概略図である。この音声情報処理装置1は、CPU101と、各種プログラム、DB(データベース)、テーブル等を記憶するROM及びRAMからなる記憶部102と、各種アプリケーションのプログラム、DB、データ等を記憶する記憶装置(ハードディスク装置)103と、ネットワークを介してデータの送受信を行う通信部104と、マイク14により集音された発話者の発話音声、カメラ15により撮影された発話者の眼球映像、カメラ17により撮影された発話者の顔の映像(通常顔映像及び目隠し顔映像)を入力する入力インタフェース部105と、発話者によるマウス、キーボード等の操作に伴い、所定のデータを入力制御する操作・入力部106、発話者に対し発話及びキー操作を促すための画面情報を表示器12に出力する表示出力インタフェース部107と、発話者に対し発話及びキー操作を促すための音声情報をスピーカ11に出力する音声出力インタフェース部108とを備えて構成され、これらの各構成要素はシステムバス109を介して相互に接続される。
【0021】
記憶装置103には、音声情報処理装置1の基本的な機能を提供するためのOS(オペレーティングシステム)プログラム、通信部104を介して外部の装置との間で通信を行う通信プログラム、発話者に対して発話を促すための案内情報を提示し、発話音声を解析することにより、発話音声の中から有意性の高い要点部分を抽出し、提示情報に変換して表示する一連の処理を行う音声情報処理プログラム等が記憶されている。尚、これらのプログラムは、音声情報処理装置1が処理を行うときに、CPU101により記憶装置103から記憶部102のRAMに読み出されて実行される。
【0022】
ここで、OSプログラムは、CPU101が記憶装置103から読み出して実行することにより、音声情報処理装置1の基本的な機能として、記憶部102、記憶装置103、通信部104、入力インタフェース部105、操作・入力部106、表示出力インタフェース部107及び音声出力インタフェース部108を管理する。そして、このOSプログラムがCPU101によって実行された状態で、前述の通信プログラム、音声情報処理プログラム等が実行される。
【0023】
制御部100は、CPU101及び記憶部102により構成され、CPU101が記憶部102及び記憶装置103に記憶された各種プログラムを読み出して実行することにより、音声情報処理装置1全体を統括制御する。このように、音声情報処理装置1は、図1に示したハードウェア構成により、制御部100が音声情報処理プログラムに従って各種処理を行う。
【0024】
図2は、実施例1による音声情報処理装置1の機能構成を示すブロック図であり、図1に示した制御部100が音声情報処理プログラムにより処理を実行する際の機能構成を示している。この音声情報処理装置1は、案内情報提示部31、入力部32、音声認識部41、瞳孔径解析部42、顔面動き量推定部43、発話特徴解析制御部50、記憶部60及び提示情報変換部70を備えている。また、この音声情報処理を実現するシステムは、音声情報処理装置1、スピーカ11、表示器12、マイク14とカメラ15と照射器16とを備えた目隠し用ゴーグル(ヘッドセット)13、カメラ17及び表示装置20を備えて構成される。音声情報処理装置1と表示装置20とは、インターネット等のネットワーク21により接続される。
【0025】
スピーカ11には、音声情報処理装置1から案内用の音声情報が出力される。これにより、発話者は、質問等の音声により意見を求められ、発話が促され、選択等のキー操作が促される。表示器12には、音声情報処理装置1から案内用の画面情報が出力される。これにより、発話者は、同様に、発話が促され、選択等のキー操作が促される。
【0026】
(目隠し用ゴーグル)
目隠し用ゴーグル13は、発話者の顔に装着される機器であり、マイク14により音声が集音され、カメラ15により眼球が撮影され、照射器16により近赤外線が目の周辺に照射される。すなわち、目隠し用ゴーグル13に備えたマイク14は、発話者の音声を集音できるように発話者の口付近に設置され、カメラ15は、発話者の眼球が撮影できるように発話者の目付近に設置され、照射器16は、発話者の目の周辺に近赤外線が照射できるように発話者の目付近に設置されている。照射器16が近赤外線を発話者の目の周辺に照射するのは、後述するカメラ17によって、通常の顔映像(以下、通常顔映像という。)に加えて、目の周辺がマスクされて発話者を特定することができない顔映像(以下、目隠し顔映像という。)を取得するためである。また、後述する眼球映像の解析処理において、瞳孔径、視点位置等を算出するために、近赤外線を照射したときに撮影した眼球映像を用いるからである。ここで照射される近赤外線は、発話者の目の周辺でハレーションを起こす程度の高輝度の電磁波である。このように、照射器16は、近赤外線を照射するようにしたから、発話者はまぶしさを感じることなく発話することができ、カメラ17によって自然な表情の顔映像を撮影することができる。また、照射器16は、例えば、目隠し用ゴーグル13の一部である眼鏡のフレームに取り付けるようにする。これにより、例えば、発話者の目の横方向または縦方向から近赤外線が照射されるから、照射器16が発話者の視野を妨げることがない。
【0027】
(顔撮影用カメラ)
カメラ17は、発話者の顔を撮影し、通常顔映像及び目隠し顔映像を出力する。図3は、カメラ17の構成を示す図である。図3(1)は1台のカメラで構成した例を示しており、カメラ17−1は、レンズ171、分光用プリズム172、近赤外線カットフィルタ173、撮像素子174、近赤外線透過フィルタ175及び撮像素子176を備えている。レンズ171を通過した発話者の顔映像信号は、分光用プリズム172によって2系統に分けられる。第1の系統の顔映像信号は近赤外線カットフィルタ173へ入射され、近赤外線が除去される。すなわち、照射器16により発話者の目の周辺に照射された近赤外線が除去される。そして、近赤外線が除去された顔映像信号は撮像素子174へ入射され、通常顔映像として出力される。一方、分光用プリズム172により分けられた第2の系統の顔映像信号は、近赤外線透過フィルタ175へ入射され、近赤外線が透過する。すなわち、照射器16により発話者の目の周辺に照射された近赤外線が透過する。そして、近赤外線が透過した顔映像信号は撮像素子176へ入射され、目隠し顔映像として出力される。
【0028】
図3(2)は2台のカメラで構成した例を示しており、カメラ17−2は、第1のカメラ部及び第2のカメラ部により構成される。第1のカメラ部は、レンズ171−1、照射器16により発話者の目の周辺に照射された近赤外線を除去するための近赤外線カットフィルタ173及び撮像素子174を備えている。また、第2のカメラ部は、レンズ171−2、照射器16により発話者の目の周辺に照射された近赤外線を透過する近赤外線透過フィルタ175及び撮像素子176を備えている。第1のカメラ部により通常顔映像が出力され、第2のカメラ部により目隠し顔映像が出力される。
【0029】
このように、カメラ17−1,17−2により、発話者の目を含めて顔により個人を特定することが可能な通常顔映像、及び、高輝度な近赤外線の効果によって発話者の目の周辺がマスクされ個人を特定することが不可能な目隠し顔映像が出力される。音声情報処理装置1は、発話者を秘匿するための顔映像を得るために、カメラ17−1,17−2から目隠し顔映像を直接入力すればよいから、通常顔映像に基づいて秘匿用の映像を生成するための後処理を行う必要がなく、発話者を秘匿する顔映像を容易に取得することができる。したがって、カメラ17−1,17−2により、発話者の目及びその周辺が撮影されないから、個人情報の保護を容易に実現することができる。尚、カメラ17−1,17−2は、必ずしも近赤外線透過フィルタ175を備えていなくてもよい。
【0030】
(音声情報処理装置)
次に、図2に示した音声情報処理装置1について説明する。音声情報処理装置1の案内情報提示部31は、記憶部60に記憶された案内情報DB61から案内情報を読み出し、この案内情報に基づいて、発話者に発話及び選択等のキー操作を促すための音声情報をスピーカ11に出力し、画面情報を表示器12に出力する。これにより、発話者は、質問等により意見を求められ、発話者による発話音声が目隠し用ゴーグル13に備えたマイク14によって集音される。記憶部60の案内情報DB61には、発話を引き出すための音声及び画面シーケンスの情報が記憶されている。
【0031】
入力部32は、目隠し用ゴーグル13に備えたマイク14から発話者の発話音声を、カメラ15から眼球映像をそれぞれ入力すると共に、カメラ17から発話者の通常顔映像及び目隠し顔映像を入力する。そして、これらの情報を同期した情報として、記憶部60に記憶する。これにより、記憶部60には、発話の特徴を解析制御するための情報として、発話音声DB62、眼球映像DB63、通常顔映像DB64及び目隠し顔映像DB65が生成される。
【0032】
図4は、記憶部60に記憶されるDBの一覧を示す図である。図4に示すように、記憶部60には、案内情報DB61、発話音声DB62、眼球映像DB63、通常顔映像DB64、目隠し顔映像DB65、テキスト情報等DB66、瞳孔径・顔面動きDB67、解析結果DB68等が記憶される。尚、図示していないが、発話者が選択したキー操作等の情報、及び音声情報処理装置1による処理のために必要なその他の情報も、記憶部60に記憶される。
【0033】
案内情報DB61には、発話者による発話等を促すための音声情報及び画面情報が案内情報として記憶される。発話音声DB62には発話者による発話音声が記憶され、眼球映像DB63には発話者の眼球映像が記憶され、通常顔映像DB64には発話者の通常顔映像が記憶され、目隠し顔映像DB65には発話者の目隠し顔映像が記憶される。発話音声DB62、眼球映像DB63、通常顔映像DB64及び目隠し顔映像DB65に記憶される各情報は互いに同期している。テキスト情報等DB66には、音声認識部41により認識されたテキスト情報、区間種別情報及び区間音量情報等が発話特徴解析制御部50を介して記憶される。瞳孔径・顔面動きDB67には、瞳孔径解析部42により解析された瞳孔径、及び顔面動き量推定部43により推定された顔面動きが発話特徴解析制御部50を介して記憶される。また、解析結果DB68には、発話特徴解析制御部50により解析された結果が記憶される。テキスト情報、区間種別情報、区間音量情報、瞳孔径、顔面動き及び解析結果の詳細については後述する。
【0034】
次に、発話者に対して案内情報を提示し、発話音声等を入力して記憶する一連の動作について説明する。発話の特徴が解析制御される発話者による開始のキー操作が行われると、入力部32は、その開始のキー操作を入力し(図2ではキー操作の入力については省略してある。)、案内情報提示部31は、記憶部60の案内情報DB61から案内情報を読み出し、この案内情報の中から、例えば「今から半年後の景気はどうなっていると思いますか」の音声情報をスピーカ11に出力する。発話者は、スピーカ11からこの音声を聞くことにより、この質問に対する意見を述べる。入力部32は、開始のキー操作に従って、マイク14から発話音声を入力すると共に、カメラ15から眼球映像を入力し、カメラ17から通常顔映像及び目隠し顔映像を入力する。そして、同期した情報として記憶部60に記憶する。次に、案内情報提示部31は、案内情報の中から、例えば「そう思うのはなぜですか」の音声情報をスピーカ11に出力する。同様にして、案内情報提示部31は、入力部32により発話音声が入力された後、「半年後の景気は以下のどれだと思いますか」の音声情報をスピーカ11に出力すると共に、「1.上向き 2.今のまま 3.下向き」の画面情報を表示器12に出力する。入力部32は、発話者のキー操作によって選択された情報を入力し、記憶部60に記憶する。そして、発話者による終了のキー操作が行われると、入力部32は、その終了のキー操作を入力し、発話音声、眼球映像、通常顔映像及び目隠し顔映像の入力及び記憶処理を終了する。
【0035】
このように、案内情報提示部31が、記憶部60の案内情報DB61から案内情報を読み出し、発話者へ提示する。そして、入力部32が、その質問等の意見として発話音声を入力すると共に、眼球映像、通常顔映像、目隠し顔映像等を入力し、同期した情報として記憶部60に記憶する。
【0036】
(音声認識部)
図2の音声情報処理装置1において、音声認識部41は、記憶部60の発話音声DB62から発話者の発話音声を読み出し、発話音声の特性に基づいて、発話音声の音声認識結果をテキスト化し、発話の内容を示すテキスト情報に変換する。具体的には、音声認識部41は、認識対象の語彙(=単語及び文節の集合)及びその発音を規定した辞書を備えており、その辞書を用いて、ある区間の発話音声に対し、音素(ローマ字一字にほぼ相当)または音節(かな一文字に相当)の周波数パターンが最も適合する単語または文節を抜き出す。そして、辞書内においてその単語または文節に付与されている、漢字・かな・カタカナ表現の文字列をもって、前記区間の発話音声を単語または文節毎に切り分けたテキスト情報に変換する。尚、発話音声をテキスト情報に変換する手法については既知であり、例えば、前述した非特許文献1,2に記載されている手法が用いられる。
【0037】
また、音声認識部41は、発話音声の特性に基づいて、発話音声の区間を発言区間、その他発声区間及び沈黙区間の3つに区別し、これら3つの区間の開始時刻t1、終了時刻t2及び区間時間長(秒等にて表現した時間)をそれぞれ求め、これらの情報を区間種別情報として生成する。発言区間は、発話者が発声した区間のうちの実際に意味のある発声をした区間をいい、その他発声区間は、発話者が発声した区間から発言区間を除いた区間をいい、沈黙区間は、発話者が発声していない無発声の区間をいう。具体的には、音声認識部41は、発話音声の入力信号レベルが所定の値以上に達しない区間を特定し、その発声区間を沈黙区間として区間種別情報を生成する。また、音声認識部41に備えた辞書には、単語及び文節が発言またはその他発声のいずれかに属するかについての区別が定義されており、音声認識部41は、沈黙区間以外の発声区間において、発話音声から認識した単語または文節を辞書にて検索し、辞書に定義されたその単語または文節の区別により、その区間が発言区間であるかその他発声区間であるかを判定し、区間種別情報を生成する。
【0038】
尚、音声認識部41は、発話音声をテキスト化すると共に、発話音声の区間を発言区間、その他発声区間及び沈黙区間の3つに区別するが、沈黙区間以外の発声区間において、発話音声の認識が不能な場合、つまり発話音声をテキスト化できない場合もあり得る。この場合、その発声区間を認識不可区間として区間種別情報を生成する。
【0039】
また、音声認識部41は、発話音声に基づいて、発言区間、その他発声区間及び沈黙区間毎の平均音量を算出し、この平均音量を区間音量情報として生成する。具体的には、音声認識部41は、各区間の音量を積分し、区間時間長で除算することにより、区間毎の平均音量を算出する。テキスト情報、区間種別情報及び区間音量情報は、発話音声と共に発話特徴解析制御部50に出力される。
【0040】
(瞳孔径解析部)
瞳孔径解析部42は、記憶部60の眼球映像DB63から発話者の眼球映像を読み出し、眼球映像を解析することにより、瞳孔径を算出する。具体的には、瞳孔径解析部42は、1フレームの眼球画像全体に2値化処理を施し、画像中の眼球の周りに計測用ウィンドウを設定し、その計測用ウィンドウ内の瞳孔部分の面積を2値化処理後のデータから求め、瞳孔径を算出する。このようにして算出された瞳孔径は、発話特徴解析制御部50に出力される。尚、眼球画像の解析手法についは既知であり、例えば、前述した特許文献2に記載されている手法が用いられる。
【0041】
(顔面動き量推定部)
顔面動き量推定部43は、記憶部60の通常顔映像DB64から発話者の通常顔映像を読み出し、通常顔映像を解析することにより、顔面動きデータ(以下、単に「顔面動き」という。)を推定する。尚、目隠し顔映像DB65から目隠し顔映像を読み出して解析することにより、顔面動きを推定するようにしてもよい。ここで、顔面動きは、首振りまたは身体移動に伴う動作をいい、顔面の動きの大きさ及び向きのデータからなる。具体的には、顔面動き量推定部43は、読み出した通常顔映像と、予め登録された発話者の顔映像とを比較し、類似する領域を抽出し(後述する(1)を参照)、その抽出した領域内の顔映像に基づいて、顔面の向きを通常顔映像のフレーム毎に検出する(後述する(2)を参照)。そして、顔面動き量推定部43は、検出した2フレーム間における顔の向きの変化をその経過時間で除算することにより、単位時間あたりの顔面動きを算出する。この顔面動きは、所定の撮像面に顔面を射影した場合に、その撮像面における平行移動速度を示すパラメータc,d(cは撮像面上における平行移動速度の水平成分、dは垂直成分にそれぞれ対応する)からなる顔面動きベクトルである。このようにして推定された顔面動きは、発話特徴解析制御部50に出力される。尚、顔面動きを算出する手法については既知であり、例えば、以下の(1)〜(4)を参照されたい。
(1)“王様の箱庭::blog Java(登録商標)Scriptから利用できる顔検出API「facekit」”、[online]、平成19年3月21日、インターネット<http://d.hatena.ne.jp/masayoshi/20070321>
(2)“Tutorial:OpenCV haartraining(Rapid Object Detection With A Cascade of Boosted Classifiers Based on Haar−like Features)”、[online]、インターネット<http://note.sonots.com/SciSoftware/haartraining.html>
(3)秦泉寺久美、他2名、「スプライト生成のためのグローバルモーション算出法と符号化への適用」、電子情報通信学会論文誌 D−2 Vol.J83−D−2 No.2、pp.535−544、2000年2月
(4)特許第3551908号公報
これ以外に、顔面動きを算出する手法としては、前記(1)で実現されている顔の向きを実時間で捉えて顔面動きデータを算出するものがある。また、その際のアルゴリズムとしては、前記(2)が用いられる。
【0042】
音声認識部41からのテキスト情報等、瞳孔径解析部42からの瞳孔径、及び顔面動き量推定部43からの顔面動きは、互いに同期し時間的に対応付けられた情報として発話特徴解析制御部50に出力される。
【0043】
(発話特徴解析制御部)
発話特徴解析制御部50は、音声認識部41からテキスト情報等を、瞳孔径解析部42から瞳孔径を、顔面動き量推定部43から顔面動きを互いに同期し時間的に対応付けられた情報として入力する。そして、発話特徴解析制御部50は、テキスト情報等、瞳孔径及び顔面動きを記憶部60に記憶する。これにより、記憶部60には、テキスト情報等DB66及び瞳孔径・顔面動きDB67が生成される。
【0044】
また、発話特徴解析制御部50は、入力した各種情報に基づいて、発話特徴を解析して解析結果を生成し、記憶部60に記憶する。これにより、記憶部60には、解析結果DB68が生成される。
【0045】
以下、発話特徴解析制御部50による発話特徴の解析処理について説明する。図5は、発話特徴解析制御部50の構成を示すブロック図である。この発話特徴解析制御部50は、相対音量算出部51、相対音高算出部52、発声速度算出部53、無意区間特定部54、テキスト化不可部分特定部55、発話者情動反応値算出部56、区間重要度算出手段57及び頻出重要単語抽出手段58を備えている。
【0046】
相対音量算出部51は、入力したテキスト情報、区間種別情報、区間音量情報及び発話音声により、文節または単語毎に切り分けられたテキストを有する発言区間及びその他発声区間について、発話音声の音量v(t)の最大値Vmax及び最小値Vminを求め、以下の式により相対音量V(t)を算出する。
V(t)=(v(t)−Vmin)/(Vmax−Vmin)
【0047】
また、相対音量算出部51は、発言区間及びその他発声区間について、単位時間あたりの相対音量V(t)の積分値を算出し、その区間の区間時間長で除算することにより区間平均音量Vを算出する。
【0048】
図6(1)は、発話音声の相対音量V(t)を示すグラフである。縦軸は発話音声の相対音量V(t)を示し、横軸は時間tを示している。横軸の時間tに沿って区切られたaは発言区間であり、bはその他発声区間、cは沈黙区間である。図6(1)から、テキスト「ん〜」「えっと」が発話されたその他発声区間bの相対音量よりも、テキスト「多分、」「今と変わらない」が発話された発言区間aの相対音量の方が大きいことがわかる。このように、相対音量算出部51により、発言区間及びその他発声区間発話音声の相対音量V(t)及び区間平均音量Vが算出される。尚、沈黙区間についても、相対音量V(t)及び区間平均音量Vが算出される。
【0049】
図5に戻って、相対音高算出部52は、入力したテキスト情報、区間種別情報及び発話音声により、文節または単語毎に切り分けられたテキストを有する発言区間及びその他発声区間について、発話音声の音高a(t)の最大値Amax及び最小値Aminを求め、以下の式により相対音高A(t)を算出する。
A(t)=(a(t)−Amin)/(Amax−Amin)
【0050】
また、相対音高算出部52は、発言区間及びその他発声区間について、単位時間あたりの相対音高A(t)の積分値を算出し、その区間の区間時間長で除算することにより区間平均音高Aを算出する。このように、相対音高算出部52により、発言区間及びその他発声区間における発話音声の相対音高A(t)及び区間平均音高Aが算出される。尚、沈黙区間についても、相対音高A(t)及び区間平均音高Aが算出される。
【0051】
発声速度算出部53は、入力したテキスト情報及び区間種別情報により、文節または単語毎に切り分けられたテキストを有する発言区間及びその他発声区間について、テキスト化された文節及び単語に対応する音素数(または音節数)Cを取得する。具体的には、発生速度算出部53は、音声認識部41により発話音声が文節及び単語毎のテキストに切り分けられた際に用いた辞書によって、音素数(または音節数)Cを取得する。
【0052】
そして、発声速度算出部53は、入力した区間種別情報における各区間の開始時刻t1及び終了時刻t2と、取得した音素数(または音節数)Cとを用いて、以下の式により発声速度VVを算出する。
VV=C/(t2−t1)
このように、発声速度算出部53により、発言区間及びその他発声区間における発声速度が算出される。
【0053】
無意区間特定部54は、入力した区間種別情報により、その他発声区間及び沈黙区間を無意区間として特定する。無意区間特定部54により無意区間に特定されたその他発声区間及び沈黙区間は、表示装置20において、区間種別情報における区間時間長に比例した大きさの所定の形態で表示される。
【0054】
テキスト化不可部分特定部55は、入力したテキスト情報及び区間種別情報により、認識不可区間をテキスト化不可部分として特定する。テキスト化不可部分特定部55により特定されたテキスト化不可部分は、表示装置20において、テキスト化されなかったことを示す表示がなされる。
【0055】
発話者情動反応値算出部56は、入力した瞳孔径及び顔面動きにより、発話者の情動反応値Es(t)を算出する。具体的には、発話者情動反応値算出部56は、入力した瞳孔径及び顔面動きを正規化し、相対的な瞳孔径p(t)及び顔面動きf(t)を算出し、これらの時系列データに対する重み値をそれぞれP,F、定数をSとして、以下の式により情動反応値Es(t)を算出する。
Es(t)=P・p(t)+F・f(t)+S
一般に、このようにして算出される情動反応値Es(t)には、発話者による発話の内容の有意性が反映される。すなわち、有意性の高い内容を発話しているときには、情動反応値Es(t)が大きくなる傾向がある。これは、人の瞳孔径及び顔面動きが、興味関心を示しているときに大きくなるからである。一方、有意性の低い内容を発話しているときには、情動反応値Es(t)が小さくなる傾向がある。
【0056】
尚、発話者情動反応値算出部56は、瞳孔径及び顔面動きに加えて、脈拍値、発汗量を入力するようにしてもよい。この場合、発話者情動反応値算出部56は、以下の式により情動反応値Es(t)を算出する。
Es(t)=P・p(t)+F・f(t)+B・b(t)+C・c(t)+S
b(t)は脈拍値の時系列データ、Bはその重み値、c(t)は発汗量の時系列データ、Cはその重み値とする。人の脈拍値及び発汗量は、興味関心を示しているときに大きくなるから、発話者が有意性の高い内容を発話しているときには、情動反応値Es(t)が大きくなる傾向がある。この場合、音声情報処理装置1は、脈拍センサから脈拍データを入力して脈拍値を求め、発汗量計測センサから発汗量データを入力して発汗量を求める。
【0057】
また、発話者情動反応値算出部56は、入力した区間種別情報における発言区間、その他発声区間及び沈黙区間について、単位時間あたりの情動反応値Es(t)の積分値を算出し、入力した区間種別情報における区間時間長で除算することにより、各区間の代表的な値として区間平均情動反応値Esを算出する。
【0058】
このように、発話者情動反応値算出部56は、発話者の瞳孔径、顔面動き等の、生理状態によって変化する生理反応データを入力し、情動反応値Es(t)及び区間平均情動反応値Esを算出する。尚、生理反応データは、これらのデータに限定されるものではなく、発話の有意性に伴って変動するデータであればよい。例えば、発話者の瞳孔径の代わりに視点位置の変動データを用いるようにしてもよい。この場合は、眼球映像に基づいて視点位置が算出される。また、例えば、脳波の値を用いるようにしてもよい。
【0059】
図6(2)は、発話者の情動反応値Es(t)を示すグラフである。縦軸は情動反応値Es(t)を示し、横軸は時間tを示している。このグラフは、図6(1)に示した発話音声の相対音量V(t)と時間的に対応している。図6(1)(2)から、情動反応値Es(t)の大きい領域(括弧で示した領域)に対応する発言区間aが、有意性の高い区間であるといえる。したがって、発話特徴解析制御部50は、発話者の情動反応値Es(t)と予め設定された閾値とを比較し、情動反応値Es(t)が閾値よりも大きい時間領域を特定し、その時間領域に対応するテキストをテキスト情報から抽出することができる。このようにして抽出されたテキストが、有意性の高い要点部分になる。
【0060】
図5に戻って、区間重要度算出手段57は、入力した区間種別情報、相対音量算出部51により算出された区間平均音量V、相対音高算出部52により算出された区間平均音高A、発声速度算出部53により算出された発声速度VV、及び、発話者情動反応値算出部56により算出された、発話者の区間平均情動反応値Esを用いて、発話音声区間毎のテキスト情報の重要度(有意度の高さ)Wを算出する。具体的には、区間重要度算出手段57は、以下の式により重要度Wを算出する。
W=fv(V)+fa(A)+fvv(VV)+fes(Es)
ここで、fv(V),fa(A),fvv(VV),fes(Es)は、それぞれ区間平均音量V、区間平均音高A、発声速度VV、発話者の区間平均情動反応値Esに関する関数であり、それぞれの特性に応じて重み付け及び高次関数の表現とすることが可能である。単純化した例として、区間重要度算出手段57は、発話音声特性データの線形結合により重要度Wを算出する場合、Wv,Wa,Wvv,Wesをそれぞれ重み付け係数として以下の式を用いるようにすればよい
fv(V)=Wv・V
fa(A)=Wa・A
fvv(VV)=Wvv・VV
fes(Es)=Wes・Es
ここで、Wv,Wa,Wvv,Wesは負の値としてもよい。このようにして算出された重要度Wは、テキスト情報における文節及び単語の重要度を示しているから、重要度Wに基づいて発話シーケンス中の重要な箇所を判定するために用いることができる。したがって、重要度Wを用いることにより、人の発話音声の中から、有意性の高い要点部分を客観的かつ容易に抽出することができる。この重要度Wは、表示装置20においてグラフに表示される。また、対応する区間のテキスト情報を所定の形態で表示する際に用いられる。
【0061】
頻出重要単語抽出手段58は、区間重要度算出手段57により算出された発話音声区間毎の重要度Wを発話音声区間の間で大小比較し、発話音声区間を重要度Wの高い順に並べ、全体の発話音声区間の中で重要度Wの高い所定数の発話音声区間を特定する。そして、頻出重要単語抽出手段58は、特定した発話音声区間内のテキスト情報から単語を抽出し、その単語を頻出重要単語に設定する。または、全体の発話音声区間において、抽出した単語の発声回数を算出し、その発声回数が所定数を越える場合に、その単語を頻出重要単語に設定する。尚、頻出重要単語抽出手段58は、発話音声区間毎の重要度Wの値を、最大100及び最小0に正規化し、閾値(例えば70)を予め設定しておき、それを越える発話音声区間を特定するようにしてもよい。この場合、頻出重要単語抽出手段58は、前述のとおり、特定した発話音声区間内のテキスト情報から単語を抽出し、頻出重要単語に設定する。または、全体の発話音声区間において、抽出した単語の発声回数を算出し、その発声回数が所定数を越える場合に、その単語を頻出重要単語に設定する。このようにして抽出された頻出重要単語は、データベースを検索するために使用され、表示装置20に表示される。
【0062】
尚、発話特徴解析制御部50は、図5に示した相対音量算出部51等に加え、発話を聴取する聴取者の情動反応値を算出する聴取者情動反応値算出部を備えるようにしてもよい。この場合、聴取者情動反応値算出部は、聴取者の瞳孔径、顔面動き等を入力し、発話者の情動反応値Es(t)と同様の式により、聴取者の情動反応値Eo(t)を算出する。また、情動反応値Eo(t)を積分して区間時間長で除算し、区間平均情動反応値Eoを算出する。聴取者が複数存在する場合は、聴取者毎に情動反応値Eo(t)を算出する。また、区間重要度算出手段57は、重要度Wの算出の際に、聴取者の区間平均情動反応値Eoを含めて、以下の式により重要度Wを算出するようにしてもよい。
W=fv(V)+fa(A)+fvv(VV)+fes(Es)+feo(Eo)
fv(V),fa(A),fvv(VV),fes(Es),feo(Eo)は、それぞれ区間平均音量V、区間平均音高A、発声速度VV、発話者の区間平均情動反応値Es、聴取者の区間平均情動反応値Eoに関する関数である。単純化した例として、区間重要度算出手段57は、発話音声特性データの線形結合により重要度Wを以下の式により算出するようにしてもよい。Wv,Wa,Wvv,Wes,Weoはそれぞれ重み付け係数である。
fv(V)=Wv・V
fa(A)=Wa・A
fvv(VV)=Wvv・VV
fes(Es)=Wes・Es
feo(Eo)=Weo・Eo
ここで、Wv,Wa,Wvv,Wes,Weoは負の値としてもよい。このように、区間重要度算出手段57は、聴取者の区間平均情動反応値Eoを含めることにより、信頼性の高い重要度Wを算出することができる。したがって、重要度Wを用いることにより、人の発話音声の中から、有意性の高い要点部分を一層客観的かつ容易に抽出することができる。
【0063】
このように、発話特徴解析制御部50により解析された発話音声の相対音量V(t)等は、解析結果として記憶部60の解析結果DB68に記憶されると共に、提示情報変換部70に出力される。
【0064】
(解析結果DB)
図7は、記憶部60における解析結果DB68の構成例を示す図である。解析結果DB68は、区間の番号を示すSr、開始時刻t1、終了時刻t2、区間の種別、テキスト、音量V、音素数(または音節数)C、音高A、発話者の区間平均情動反応値Es及び聴取者の区間平均情動反応値Eoにより構成される。区間の番号を示すSrは、音声認識部41により区別された3つの区間を時刻順に表した番号である。開始時刻t1及び終了時刻t2のmm:ss.ppは、mmが分、ssが秒、ppが秒の小数点以下をそれぞれ示している。区間の種別は、Lが発言区間、Vがその他発声区間、Sが沈黙区間である。音量V、音高Aは、各区間における区間平均音量V、区間平均音高Aである。N/Aは、データがないことを示している。
【0065】
図2に戻って、提示情報変換部70は、発話特徴解析制御部50から解析結果を入力するか、または記憶部60の解析結果DB68から解析結果を読み出すと共に、記憶部60の各DBからデータを読み出す。そして、提示情報変換部70は、解析結果等の中から必要なデータを選択して提示情報を生成し、ネットワーク21を介して表示装置20へ送信する。提示情報として送信するデータは、表示装置20が画面表示するために必要なデータであり、予め設定されている。
【0066】
また、提示情報変換部70は、解析結果の一つである、発話特徴解析制御部50の頻出重要単語抽出手段58により発話音声から抽出された頻出重要単語を検索ワードとして、ネットワーク21を介して任意のデータベースを検索する。そして、提示情報変換部70は、データベースの検索結果として得た情報を提示情報として表示装置20へ送信する。データベースの検索結果は、例えば、頻出重要単語に直接関連するテキスト、ウェブページ、画像、地図、ニュース、動画、電子メール、これらの情報の所在を表すリンク情報(URI:Uniform Resource Identifier)等である。これにより、表示装置20は、発話音声の中で有意性の高い要点部分の頻出重要単語について、直接関連する情報を表示することができる。
【0067】
(表示装置)
次に、図2に示した表示装置20について説明する。表示装置20は、音声情報処理装置1からネットワーク21を介して提示情報を受信し、画面表示用のデータに変換し、画面表示する。ここで、提示情報は、前述のとおり、解析結果、案内情報、発話音声、眼球映像、通常顔映像、目隠し顔映像、テキスト情報等、瞳孔径及び顔面動きのうちの、音声情報処理装置1の提示情報変換部70において予め設定されたデータである。
【0068】
図8は、表示装置20に表示される画面例である。表示装置20は、提示情報を受信し、提示情報から画面表示用のデータに変換し、図8に示す画面を表示する。具体的には、表示装置20は、提示情報として、テキスト情報、区間種別情報、発話音声の相対音量V(t)、発話者の情動反応値Es(t)及び聴取者の情動反応値Eo(t)を入力し、図8左上の「音声・情動の時間変動」の箇所に示すグラフの画面表示用データに変換し、発話音声の相対音量V(t)と共にテキスト情報及び区間の種別、並びに情動反応値Es(t)を表示する。表示装置20は、所定のキー操作の入力があると、発話者の情動反応値Es(t)に加えて、聴取者の情動反応値Eo(t)のグラフの色を変える等、種別が分かるようにして表示する。
【0069】
表示装置20は、図8右上の「閾値パラメータ設定スライダバー」の箇所に示すスライダバーを表示し、キー操作によってスライダバーの位置の変更入力があると、その位置に応じた閾値(発話者の情動反応値Es(t)に対する閾値、聴取者の情動反応値Eo(t)に対する閾値)及びパラメータ(音声再生速度)を設定する。
【0070】
表示装置20は、提示情報として発話音声を入力し、「閾値パラメータ設定スライダバー」の下の箇所に各ボタンを表示し、キー操作によるボタン指定の入力があると、そのボタンに応じた処理を行う。例えば、表示装置20は、再生ボタンの入力があると、「閾値パラメータ設定スライダバー」に設定された音声再生速度により、発話音声を再生してスピーカ(図2には図示せず)へ出力する。また、休止ボタンの入力があると、再生を一旦休止する。
【0071】
表示装置20は、提示情報として目隠し顔映像を入力し、図8左下の「映像」の箇所にその顔映像を表示する。このように、表示装置20に画面表示される目隠し顔映像は、図3に示したカメラ17から直接入力した映像であり、通常顔映像を加工して生成した映像ではないから、この目隠し顔映像を通常顔映像に戻すことができず、秘匿性の高い映像を提供することができる。
【0072】
表示装置20は、提示情報として、テキスト情報、区間種別情報、発話者の相対音量V(t)及び区間平均音量V、発話者の相対音高A(t)及び区間平均音高A、区間毎の音素数(または音節数)C及び発声速度VV、無意区間、テキスト化不可部分、発話者の情動反応値Es(t)及び区間平均情動反応値Es、並びに聴取者の情動反応値Eo(t)及び区間平均情動反応値Eoを入力し、図8右下の「変換テキスト」の箇所に示す形態で画面表示する。また、「変換テキスト」の左側に設けられたカーソルをキー操作により上下に移動させることにより、テキストの位置が指定され、表示するテキストが多い場合は音声再生しているテキスト部分のみを表示する。「変換テキスト」の表示については後述する。
【0073】
表示装置20は、図8右下の「機能オプション(必要な機能をチェック)」の箇所に示すチェックボックスを表示し、キー操作によってチェックの指定を行う。キー操作によるチェックの指定の入力があると、そのチェックボックスに入力があったことを示す表示を行い、そのチェックボックスに対応した機能を「変換テキスト」の箇所の表示形態に反映する。すなわち、チェックボックスに対応した「発声強弱表示」「発声音高表示」「発声速度表示」「無意区間表示」「テキスト化不可部表示」「発話者情動閾値」「聴取者情動閾値」のそれぞれの機能が、「変換テキスト」の箇所の表示形態に反映される。一方、キー操作によるチェックの指定解除の入力があると、そのチェックボックスの表示を消去し、その機能を解除する。また、「発話者情動閾値」のチェックボックスにチェックがされていない場合は発話者の情動反応値の表示が行われないから、「閾値パラメータ設定スライダバー」における「発話者情動閾値」のスライダバーを左端に表示する。「聴取者情動閾値」についても同様である。詳細については後述する。
【0074】
また、表示装置20は、前述したように、キー操作により再生ボタンの入力があると、「閾値パラメータ設定スライダバー」に設定された音声再生速度により、発話音声を再生してスピーカから出力する。このとき、表示装置20は、「音声・情動の時間変動」及び「変換テキスト」の箇所に、再生している発話音声のカーソルを表示する。図8は、「変わ」の発話音声が出力されているときの表示である。そして、表示装置20は、「変換テキスト」の「変わ」の箇所に、その区間の情報を小ウィンドウに表示する。具体的には、表示装置20は、小ウィンドウに、区間種別情報における区間時間長Δt:2.2sec、区間種別情報における種別:L(発言区間)、区間平均音量V:86、音素数(または音節数)C:5、区間平均音高A:420及び発話者の区間平均情動反応値Es:90を表示する。
【0075】
図9は、提示情報の表示例を説明する図であり、図8に示した「変換テキスト」の箇所の表示である。図9において、「ん〜多分今と変わらないと思います。つまり・・・・」は、発話音声から得られたテキスト情報を示している。また、テキスト情報の各文字に対応した折れ線は、音高の大きさを示している。
【0076】
図9を参照して、表示装置20は、テキスト情報を表示する際に、区間毎に算出された区間平均音量Vに応じて、区間毎のテキスト文字の大きさを変更する。具体的には、テキスト文字の大きさが区間平均音量Vに比例するように、区間平均音量Vが大きい場合はテキスト文字を大きく表示し、区間平均音量Vが小さい場合はテキスト文字を小さく表示する。これにより、発話者による発声音の強弱がテキスト文字の大きさに反映されるから、発話者が大きな声で話した箇所または小さな声で話した箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、大きな声または小さな声で話した箇所が、有意性の高い要点部分であるといえる。
【0077】
表示装置20は、テキスト情報の表示と共に、区間毎に算出された区間平均音高Aを折れ線グラフとして、テキスト情報の文字に対応して表示する。具体的には、区間平均音高Aが大きい場合はテキスト文字の上側の位置に表示し、区間平均音高Aが小さい場合はテキスト文字の下側の位置に表示する。これにより、発話者による発声音の高低が、テキスト文字に対応した位置に折れ線グラフとして表示されるから、発話者が高い声または低い声で話した箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、高い声または低い声で話した箇所が、有意性の高い要点部分であるといえる。
【0078】
表示装置20は、テキスト情報を表示する際に、区間毎に算出された発声速度VVに応じて、区間毎のテキスト文字の幅を変更する。具体的には、テキスト文字の幅が発声速度VVの大きさに比例するように、発声速度VVが大きい場合はテキスト文字の幅を大きくして表示し、発声速度VVが小さい場合はテキスト文字の幅を小さくして表示する。これにより、発話者による発声速度がテキスト文字の幅に反映されるから、発話者が速い速度で話した箇所または遅い速度で話した箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、速い速度または遅い速度で話した箇所が、有意性の高い要点部分であるといえる。
【0079】
表示装置20は、テキスト情報を表示する際に、特定した無意区間(その他発声区間及び沈黙区間)における区間時間長に対応した表示を、空白文字または擬音表現の形態で表示する。図9では、沈黙区間をアンダーラインで表示し、その他発声区間をテキスト情報の文字で表示している。この場合、その他発声区間のテキスト文字の表示に代えて、アンダーラインで表示するようにしてもよい。これにより、発話者が実際に意味のある発言をした区間以外の無意区間がテキスト文字とは異なる形態で表示されるから、テキスト文字の中で無意区間を容易に認識することができ、その区間は有意性の高い部分でないことを客観的に判断することができる。
【0080】
表示装置20は、テキスト情報を表示する際に、テキスト情報に含まれるテキスト化不可部分を、特定の文字で表示する。例えば、テキスト化不可部分を+++で表示する。これにより、発話者が発話したにもかかわらず、テキスト化できなかった箇所を容易に認識することができる。
【0081】
表示装置20は、テキスト情報を表示する際に、区間毎に算出された、発話者の区間平均情動反応値Esに応じて、区間毎のテキスト文字を濃淡表示する。具体的には、区間平均情動反応値Esが閾値(図8の「閾値パラメータ設定スライダバー」において設定された発話者情動閾値)よりも大きい場合は、テキスト文字が浮かび上がるように濃く表示し、区間平均情動反応値Esが閾値以下の場合は、テキスト文字が半透明になるように薄く表示する。これにより、発話者の瞳孔径及び顔面動きにより表される情動反応がテキスト文字の濃淡に反映されるから、発話者が情動を示している箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、情動を示している箇所が、有意性の高い要点部分であるといえる。
【0082】
表示装置20は、テキスト情報を表示する際に、区間毎に算出された、聴取者の区間平均情動反応値Eoに応じて、区間毎のテキスト文字の背景を色付けする。具体的には、区間平均情動反応値Eoが閾値(図8の「閾値パラメータ設定スライダバー」において設定された聴取者情動閾値)よりも大きい場合は、テキスト文字の背景を所定の色で濃く表示し、区間平均情動反応値Eoが閾値以下の場合は、テキスト文字の背景を所定の色で薄く表示する。これにより、発話者の発話を聞いている聴取者の瞳孔径及び顔面動きにより表される情動反応がテキスト文字の背景に色付けして反映されるから、聴取者が情動を示している箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、情動を示している箇所が、有意性の高い要点部分であるといえる。尚、図8及び図9では、図8の「機能オプション(必要な機能をチェック)」における「聴取者情動閾値」のチェックボックスがチェックされていないから、聴取者の区間平均情動反応値Eoに応じた色付けは表示されない。
【0083】
また、表示装置20は、図8に示した「機能オプション(必要な機能をチェック)」におけるチェックボックスがチェックされている場合、その機能による表示を行い、チェックされていない場合、その機能による表示を行わない。
【0084】
このように、図8に示した表示画面例のように、図9に示した「変換テキスト」の表示により、発話者による発声音の強弱及び高低、発声速度、無意区間の有無、テキスト化不可部及び発話者情動反応値(または/及び聴取者情動反応値)が、テキスト文字の形態に反映されると共に、テキスト文字に対応して表現される。これにより、発話音声のテキスト情報の特性を、発声音の強弱等のデータ及び生理反応データから特徴付けることができる。したがって、発話音声のテキスト情報の特性に基づいて、発話音声の中から、有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。この場合、テキスト文字を見るオペレータは、発声音の強弱及び高低、発声速度等を、テキスト文字の形態によって直感的に認識することができる。
【0085】
尚、表示装置20は、音声情報処理装置1からネットワーク21を介して提示情報を受信するようにしたが、音声情報処理装置1が表示装置20の機能を備え、図8に示した各データを図示しない表示器に表示するようにしてもよい。
【0086】
以上のように、本発明の実施形態による実施例1の音声情報処理装置1によれば、入力部32が、発話音声、眼球映像、通常顔映像及び目隠し顔映像を入力して記憶部60に記憶し、発話特徴解析制御部50が、音声認識部41により発話音声から生成されたテキスト情報、区間種別情報等、瞳孔径解析部42により眼球映像を解析して得られた瞳孔径、顔面動き量推定部43により通常顔映像から推定された顔面動きを入力し、発話音声の相対音量及び相対音高、発話速度、無意区間、テキスト化不可部分、発話者情動反応値及び聴取者情動反応値を求め、発話特徴の解析結果として記憶部60に記憶するようにした。また、表示装置20は、記憶部60に記憶されたデータのうちの所定の提示情報を受信し、発話者による発声音の強弱及び高低、発声速度、無意区間の有無、テキスト化不可部分及び発話者情動反応値(または/及び聴取者情動反応値)を発話音声のテキスト情報の特性として、テキスト文字の形態に反映し、テキスト文字に対応した箇所に表示するようにした。これにより、発話音声の中から有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。また、人的作業が不要になるから、発話音声の中から有意性の高い要点部分を容易に抽出することが可能となる。
【0087】
〔実施例2〕
次に、本発明の第2の実施形態(実施例2)について説明する。図10は、実施例2による音声情報処理装置の機能構成を示すブロック図である。この音声情報処理装置2は、図1に示した制御部100が音声情報処理プログラムにより処理を実行する際の機能構成を示している。この音声情報処理装置2は、案内情報提示部31、入力部33、音声認識部41、瞳孔径解析部42、顔面動き量推定部44、発話特徴解析制御部50、記憶部80及び提示情報変換部70を備えている。図2に示した実施例1の音声情報処理装置1と、この実施例2の音声情報処理装置2とを比較すると、音声情報処理装置2は、音声情報処理装置1に備えた構成とは異なる入力部33、顔面動き量推定部44及び記憶部80を備えている点で相違する。これら以外の構成は同じである。また、この音声情報処理を実現するシステムは、音声情報処理装置2、スピーカ11、表示器12、マイク14とカメラ15と照射器16と加速度センサ18とを備えた目隠し用ゴーグル(ヘッドセット)19、及び表示装置20を備えて構成される。音声情報処理装置2と表示装置20とは、インターネット等のネットワーク21により接続される。図2に示した実施例1のシステムと、この実施例2のシステムとを比較すると、実施例2のシステムは、加速度センサ18を備えており、通常顔映像及び目隠し顔映像を撮影するカメラ17を備えていない点で実施例1のシステムと相違する。
【0088】
加速度センサ18は、目隠し用ゴーグル19に設けられ、発話者の顔面動きを捉え、x,y,z方向の加速度センサデータを音声情報処理装置2の入力部33に出力する。加速度センサ18は、縦、横及び高さの3方向の加速度を測定する3軸対応のデバイスであり、物体に加わる3次元空間のあらゆる方向の加速度を測定することができる。
【0089】
音声情報処理装置2の入力部33は、目隠し用ゴーグル19に備えたマイク14から発話者の発話音声を、カメラ15から眼球映像を、加速度センサ18から加速度センサデータをそれぞれ入力する。そして、これらの情報を同期した情報として、記憶部80に記憶する。これにより、記憶部80には、発話音声DB62、眼球映像DB63及び加速度センサデータDBが生成される。
【0090】
顔面動き量推定部44は、記憶部80の加速度センサデータDBから加速度センサデータを読み出し、加速度センサデータを解析することにより発話者の顔面動き(顔面動きベクトル)を生成し、顔面動きを発話特徴解析制御部50に出力する。具体的には、顔面動き量推定部44は、x,y,z方向の加速度センサデータを時間方向にそれぞれ積分し、x,y,z方向の速度成分を得る。そして、これらの3つの速度成分からなるベクトルを所定の撮像面に射影することによって、その撮像面における平行移動速度を示すパラメータc,d(cは撮像面上における平行移動速度の水平成分、dは垂直成分にそれぞれ対応する)からなる顔面動きベクトルを算出する。尚、加速度センサ18からのx,y,z方向の加速度センサデータに基づいて、移動速度、移動距離、移動方向等の動き情報を生成する手法については既知である。詳細については、例えば特開2006−320566号公報を参照されたい。
【0091】
音声認識部41からのテキスト情報等、瞳孔径解析部42からの瞳孔径、及び顔面動き量推定部44からの顔面動きは、互いに同期し時間的に対応付けられた情報として発話特徴解析制御部50に出力される。
【0092】
表示装置20は、音声情報処理装置2からネットワーク21を介して提示情報を受信し、画面表示用のデータに変換し、画面表示する。ここで、提示情報は、解析結果、案内情報、発話音声、眼球映像、テキスト情報等、瞳孔径及び顔面動きのうちの、音声情報処理装置2の提示情報変換部70において予め設定されたデータである。
【0093】
以上のように、本発明の実施形態による実施例2の音声情報処理装置2によれば、実施例1の音声情報処理装置1の効果と同様に、発話音声の中から有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。また、人的作業が不要になるから、発話音声の中から有意性の高い要点部分を容易に抽出することが可能となる。
【0094】
〔実施例3〕
次に、本発明の第3の実施形態(実施例3)について説明する。図11は、実施例3による音声情報処理装置の機能構成を示すブロック図である。実施例3は、2人の発話者A,Bが発話し、それを聴取者が聞いているインタビューの状況を例にして、発話者A,Bの発話音声及び生理反応データ、並びに聴取者の生理反応データに基づいて、発話音声区間の重要度Wを算出し、発話者A,Bの対話状況を解析するものである。この音声情報処理装置3は、図1に示した制御部100が音声情報処理プログラムにより処理を実行する際の機能構成を示している。この音声情報処理装置3は、案内情報提示部31、入力部32−1,32−2,83、音声認識部41−1,41−2、瞳孔径解析部42−1,42−2、顔面動き量推定部43−1,43−2、瞳孔径解析・顔面動き量推定部85、発話特徴解析制御部86、記憶部84及び提示情報変換部70を備えている。図2に示した実施例1の音声情報処理装置1と、この実施例3の音声情報処理装置3とを比較すると、音声情報処理装置3は、案内情報提示部31及び記憶部84に加え、発話者A,B用の2系統の入力部32−1,32−2、音声認識部41−1,41−2、瞳孔径解析部42−1,42−2、顔面動き量推定部43−1,43−2を備え、さらに、聴取者用の入力部83及び瞳孔径解析・顔面動き量推定部85を備えている点で相違する。また、この音声情報処理を実現するシステムは、音声情報処理装置3、スピーカ11、表示器12、マイク14−1とカメラ15−1と照射器16−1とを備えた発話者A用の目隠し用ゴーグル13−1、発話者Aの通常顔及び目隠し顔を撮影するカメラ17−1、マイク14−2とカメラ15−2と照射器16−2とを備えた発話者B用の目隠し用ゴーグル13−2、発話者Bの通常顔及び目隠し顔を撮影するカメラ17−2、並びに、聴取者の眼球を撮影して眼球映像を出力するカメラ81及び聴取者の通常顔を撮影して通常顔映像を出力するカメラ82を備えて構成される。音声情報処理装置3と表示装置20とは、インターネット等のネットワーク21により接続される。図2に示した実施例1のシステムと、この実施例3のシステムとを比較すると、実施例3のシステムは、発話者A,B用の2系統の目隠し用ゴーグル13−1,13−2及びカメラ17−1,17−2、並びに聴取者用のカメラ81,82を備えている点で相違する。但し、図11において、図2と共通する部分には図2と同一の符号を付し、その詳しい説明は省略する。
【0095】
記憶部84には、入力部32−1を介して、発話者Aの発話音声、眼球映像、通常顔映像及び目隠し顔映像が記憶され、入力部32−2を介して、発話者Bの発話音声、眼球映像、通常顔映像及び目隠し顔映像が記憶される。また、記憶部84には、入力部83を介して、聴取者の眼球映像及び通常顔映像が記憶される。
【0096】
音声認識部41−1,41−2、瞳孔径解析部42−1,42−2及び顔面動き量推定部43−1,43−2は、図2に示した音声認識部41、瞳孔径解析部42及び顔面動き量推定部43と同様である。発話者A,Bのテキスト情報等、瞳孔径及び顔面動きは、記憶部84に記憶される。
【0097】
瞳孔径解析・顔面動き量推定部85は、図2に示した瞳孔径解析部42及び顔面動き量推定部43と同様であり、記憶部84から聴取者の眼球映像を読み出し、瞳孔径を算出する。また、記憶部84から聴取者の通常顔映像を読み出し、顔面動きを推定する。そして、瞳孔径解析・顔面動き量推定部85は、聴取者の瞳孔径及び顔面動きを発話特徴解析制御部86に出力する。聴取者の瞳孔径及び顔面動きは、記憶部84に記憶される。
【0098】
発話特徴解析制御部86は、図5に示したように、相対音量算出部51、相対音高算出部52、発声速度算出部53、無意区間特定部54、テキスト化不可部分特定部55、発話者情動反応値算出部56、区間重要度算出手段57及び頻出重要単語抽出手段58を備えており、これらに加え、前述した聴取者情動反応値算出部を備えている。相対音量算出部51、相対音高算出部52、発声速度算出部53、無意区間特定部54、テキスト化不可部分特定部55及び発話者情動反応値算出部56は、発話者A,Bの相対音量V(t)等をそれぞれ算出し、無意区間及びテキスト化不可部分をそれぞれ特定する。また、聴取者情動反応値算出部は、聴取者の情動反応値Eo(t)及び区間平均情動反応値Eoを算出する。
【0099】
区間重要度算出手段57は、発話音声区間において、区間平均音量V、区間平均音高A、発声速度VV、発話者A,Bの区間平均情動反応値Es及び聴取者の区間平均情動反応値Eoを用いて、テキスト情報の重要度Wを算出する。具体的には、区間重要度算出手段57は、発話者Aが発話し、発話者B及び聴取者がその発話を聞いている発話音声区間T1において、発話者Aの発話音声特性データ、区間平均情動反応値Es1(T1)、発話者Bの区間平均情動反応値Es2(T1)及び聴取者の区間平均情動反応値Eo(T1)等を用いて、発話者Aによる発話の重要度W1(T1)を算出する。また、区間重要度算出手段57は、発話音声区間T1の直後に、発話者Bが発話し、発話者A及び聴取者がその発話を聞いている発話音声区間T2において、発話者Bの発話音声特性データ、区間平均情動反応値Es2(T2)、発話者Aの区間平均情動反応値Es1(T2)及び聴取者の区間平均情動反応値Eo(T2)等を用いて、発話者Bによる発話の重要度W2(T2)を算出する。同様に、区間重要度算出手段57は、その直後に発話者Aが発話する発話音声区間T3において、発話者Aによる発話の重要度W1(T3)を算出し、その直後に発話者Bが発話する発話音声区間T4において、発話者Bによる発話の重要度W2(T4)を算出する。
【0100】
そして、区間重要度算出手段57は、発話者Aによる発話の重要度W1及び発話者Bによる発話の重要度W2を解析結果として提示情報変換部70に出力すると共に、記憶部84に記憶する。
【0101】
提示情報変換部70は、前述した提示情報を生成することに加え、発話者Aによる発話の重要度W1及び発話者Bによる発話の重要度W2を解析結果として入力する。そして、提示情報変換部70は、発話者Aによる発話の重要度W1が順次大きくなっているか否かを判定し、大きくなっていると判定した場合、すなわち、以下の式を満たす場合、発話者Aによる発話の重要度W1が増加傾向にあると判定する。
W1(T1)≦W1(T3)
また、提示情報変換部70は、発話者Bによる発話の重要度W2が順次大きくなっているか否かを判定し、大きくなっていると判定した場合、すなわち、以下の式を満たす場合、発話者Bによる発話の重要度W2が増加傾向にあると判定する。
W2(T2)≦W2(T4)
また、提示情報変換部70は、これらの条件を満たすと判定した場合、すなわち、発話者Aによる発話の重要度W1及び発話者Bによる発話の重要度W2が順次大きくなっていると判定した場合、発話者A,Bが同時に有用性の高い要点部分の発話をしている、つまり、その対話のシーケンスが相乗効果を生みだす重要な局面になっているものと判定する。
【0102】
そして、提示情報変換部70は、これらの判定結果を、ネットワーク21を介して表示装置20へ送信する。これらの判定結果は、発話者A,Bを特定するための識別子と共に、対話シーケンスのテキスト上の発話音声特性データと同様に、グラフとして表示される。また、対応するテキスト上に、重要度に応じて所定の形態にて表示される。
【0103】
以上のように、本発明の実施形態による実施例3の音声情報処理装置3によれば、実施例1の音声情報処理装置1の効果と同様に、発話音声の中から有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。また、人的作業が不要になるから、発話音声の中から有意性の高い要点部分を容易に抽出することが可能となる。さらに、表示装置20において、複数の発話者による対話の重要度W1,W2を時間軸上に数値化することにより、複数の発話者による発話音声の中から、有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。
【0104】
尚、実施例3では、発話者が2人の例で説明したが、本発明はその人数を限定するものではない。また、実施例3は、図10の実施例2に示したように、加速度センサデータによって顔面動きを推定するようにしてもよい。また、発話者が3人以上の場合、発話特徴解析制御部86の区間重要度算出手段57は、発話者Aによる発話の重要度W1、発話者Bによる発話の重要度W2、発話者Cによる発話の重要度W3等を算出し、提示情報変換部70は、発話音声区間毎のこれらの重要度W1,W2,W3等を用いて、前述の条件式により、重要度が増加している発話音声区間の局面を特定し、その局面において発話している発話者のグループを特定してその人数を算出する。そして、提示情報変換部70は、その人数が所定数よりも大きい場合は、その局面の発話内容(議論)が重要な部分、すなわち、有意性の高い要点部分であると判定し、その人数が所定数以下の場合は、その局面の議論が重要でない部分、すなわち有用性の高くない部分であると判定する。これにより、発話内容が有意性の高い要点部分であるか否か、すなわち、議論が重要であるか否かの軽重を判定することができる。
【符号の説明】
【0105】
1,2,3 音声情報処理装置
11 スピーカ
12 表示器
13,19 目隠し用ゴーグル
14 マイク
15,17,81,82 カメラ
16 照射器
18 加速度センサ
20 表示装置
21 ネットワーク
31 案内情報提示部
32,33,83 入力部
41 音声認識部
42 瞳孔径解析部
43,44 顔面動き量推定部
50,86 発話特徴解析制御部
51 相対音量算出部
52 相対音高算出部
53 発声速度算出部
54 無意区間特定部
55 テキスト化不可部分特定部
56 発話者情動反応値算出部
57 区間重要度算出手段
58 頻出重要単語抽出手段
60,80,84 記憶部
61 案内情報DB
62 発話音声DB
63 眼球映像DB
64 通常顔映像DB
65 目隠し顔映像DB
66 テキスト情報等DB
67 瞳孔径・顔面動きDB
68 解析結果DB
70 提示情報変換部
85 瞳孔径解析・顔面動き量推定部
100 制御部
101 CPU
102 記憶部
103 記憶装置
104 通信部
105 入力インタフェース部
106 操作・入力部
107 表示出力インタフェース部
108 音声出力インタフェース部
109 システムバス
171 レンズ
172 分光用プリズム
173 近赤外線カットフィルタ
174,176 撮像素子
175 近赤外線透過フィルタ

【特許請求の範囲】
【請求項1】
発話者の発話音声をテキスト化し、テキスト情報に変換する音声情報処理装置において、
語彙、前記語彙の発音、及び前記語彙に対しテキスト情報の区間を設定するための区間種別が規定された辞書を用いて、前記発話音声をテキスト情報に変換し、前記発話音声の信号レベルが所定の値未満となる沈黙区間を設定し、前記辞書に規定された語彙に対する区間種別及び前記テキスト情報に含まれる語彙によって、前記発話者が発声した時間区間のうちの実際に意味のある発声をした発言区間を設定し、前記発話者が発声した時間区間のうちの前記発言区間を除いた時間区間をその他発声区間に設定する音声認識部と、
前記発話音声に基づいて、前記区間毎に、発話音声特性データを算出する発話音声特性データ算出部と、
前記発話者の生理状態によって変化する生理反応データを入力し、前記生理反応データに基づいて、前記区間毎に、前記発話者の情動の程度を示す発話者情動反応値を算出する発話者情動反応値算出部と、
前記発言区間及びその他発声区間におけるテキスト情報をテキスト文字で表示する際に、前記発話音声特性データ算出部により算出された発話音声特性データの値、及び前記発話者情動反応値算出部により算出された発話者情動反応値に応じた形態で、前記音声認識部により区別された区間毎に前記テキスト文字を表示し、前記沈黙区間を、予め設定された形態で表示する表示部と、
を備えたことを特徴とする音声情報処理装置。
【請求項2】
請求項1に記載の音声情報処理装置において、
前記発話音声特性データ算出部は、前記発話音声に基づいて、前記区間毎に、発話音声の音量、音高及び速度を算出し、
前記発話者情動反応値算出部は、発話者の眼球運動に伴うデータ、顔面の動き、脈拍値、発汗量のうちの少なくとも一つまたは複数のデータに基づいて、前記区間毎に、発話者情動反応値を算出し、
前記表示部は、前記発話音声特性データ算出部により算出された発話音声の音量、音高及び速度の値、並びに、前記発話者情動反応値算出部により算出された発話者情動反応値に応じたそれぞれの形態で前記テキスト文字を表示し、前記沈黙区間を空白で表示し、前記音声認識部によりテキスト化できなかった前記発言区間またはその他発声区間を、予め設定された形態で表示することを特徴とする音声情報処理装置。
【請求項3】
請求項1または2に記載の音声情報処理装置において、
前記発話音声特性データ及び前記発話者情動反応値に基づいて、前記区間毎のテキスト情報の重要度を算出する区間重要度算出部と、
前記テキスト情報の重要度と所定の値とに基づいて、重要度の高い区間を特定し、前記特定した区間のテキスト情報から単語を抽出する頻出重要単語抽出部と、
前記抽出された単語を検索語としてデータベースを検索する検索部とを備え、
前記表示部は、さらに、前記データベースの検索結果を表示することを特徴とする音声情報処理装置。
【請求項4】
請求項1から3までのいずれか一項に記載の音声情報処理装置において、
前記発話者による発話を聴取する聴取者の眼球運動に伴うデータ、顔面の動き、脈拍値、発汗量のうちの少なくとも一つまたは複数のデータに基づいて、前記区間毎に、聴取者情動反応値を算出する聴取者情動反応値算出部を備え、
前記表示部は、さらに、前記聴取者情動反応値算出部により算出された聴取者情動反応値に応じた形態で、前記テキスト文字を表示することを特徴とする音声情報処理装置。
【請求項5】
請求項4に記載の音声情報処理装置において、
複数の発話者のそれぞれに対応して、前記処理をそれぞれ行う音声認識部、発話音声特性データ算出部、発話者情動反応値算出部及び表示部を備え、
さらに、前記複数の発話者のうちの一人の発話者による発話の前記区間について、前記一人の発話者の発話音声特性データ及び発話者情動反応値、前記他の発話者の発話者情動反応値、並びに前記聴取者情動反応値に基づいて、前記一人の発話者による発話の重要度を算出する区間重要度算出部を備え、
前記表示部は、さらに、前記重要度に応じた形態で、前記重要度が算出された前記一人の発話者における前記テキスト文字を表示することを特徴とする音声情報処理装置。
【請求項6】
請求項1から5までのいずれか一項に記載の音声情報処理装置を含むシステムにおいて、
近赤外線を前記発話者の目の周辺に照射する照射器と、
前記近赤外線を透過するフィルタ、及び前記フィルタからの出射光を受光する撮像素子を有し、前記発話者の映像を前記フィルタ及び撮像素子を介して目隠し顔映像として出力するカメラとを備え、
前記音声情報処理装置の表示部は、前記カメラにより出力された前記発話者の目隠し顔映像を表示することを特徴とするシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2010−256391(P2010−256391A)
【公開日】平成22年11月11日(2010.11.11)
【国際特許分類】
【出願番号】特願2009−102722(P2009−102722)
【出願日】平成21年4月21日(2009.4.21)
【出願人】(509114310)
【出願人】(509114332)
【Fターム(参考)】