音声情報処理装置

【課題】人の発話音声の中から、有意性の高い要点部分を客観的かつ容易に抽出する。
【解決手段】発話特徴解析制御部５０が、音声認識部４１により発話音声から生成されたテキスト情報、区間種別情報等、瞳孔径解析部４２により眼球映像を解析して得られた瞳孔径、顔面動き量推定部４３により通常顔映像から推定された顔面動きを入力し、発話音声の相対音量及び相対音高、発話速度、無意区間、テキスト化不可部分、発話者情動反応値及び聴取者情動反応値を発話特徴の解析結果として求める。また、表示装置２０は、発声音の強弱及び高低、発声速度、無意区間の有無、テキスト化不可部分及び発話者情動反応値（または／及び聴取者情動反応値）を発話音声のテキスト情報の特性として、テキスト文字の形態に反映し、テキスト文字に対応した箇所に表現する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声をテキストに変換する装置に関し、特に、発話音声の中から有意性の高い要点部分を抽出する技術に関する。
【背景技術】
【０００２】
従来、人の発話音声の中から、有意性の高い要点部分（人が興味をもって集中して話している部分）を抽出するには、オペレータが、発話音声を記録して再生し、再生音声を聞き取って解析することにより行っていた。このため、膨大な時間と作業が必要であった。このような人的作業の効率化を図るため、音声認識技術が利用されている。
【０００３】
例えば、人の発話音声をテキスト化し、テキスト情報を解析する音声認識システムが知られている（非特許文献１，２、特許文献１を参照）。非特許文献１，２の音声認識システムは、音響モデルが、予め用意された音声認識対象の語彙（単語の集合）とその発音を規定した単語辞書を参照しながら、人の発話音声に対し音素、音節の周波数パターンのマッチングを行って入力音声を生成し、デコーダが、単語の連鎖を規定した言語モデルを参照しながら、音響モデルにより生成された入力音声を単語列であるテキストに変換するものである。また、特許文献１の音声認識システムは、発話音声のテキスト情報に編集を加えた場合であっても、テキスト情報に含まれる文字と、発話音声の認識結果に含まれる文字との間のマッチング結果を利用することにより、編集後のテキスト情報と元の発話音声との対応付けを可能にするものである。
【０００４】
このような音声認識システムを用いることにより、人の発話音声をテキスト化し、テキスト情報に編集を加えることができる。また、オペレータは、音声認識システムによって得られたテキスト情報を解析することによって、有意性の高い要点部分を抽出することが可能になる。
【０００５】
しかしながら、オペレータによるテキスト情報の解析作業も、前述した再生音声を聞き取る手法と同様に人的作業であるから、有意性の高い要点部分の抽出精度は、人の経験や勘等の主観的判断能力によって左右されてしまう。また、人の発話音声の品質は一定しておらず、周囲の環境や人の体調等によって異なるから、発話音声は、必ずしも分析が容易になるように整理され、かつ分かり易く表現されているとは限らない。このため、オペレータによる解析作業では、要点部分を精度高く抽出することができないという問題があった。そこで、人の経験や勘等の主観的判断能力に依存することなく、人の発話音声の中から、有意性の高い要点部分を精度高く抽出することが可能なシステムが所望されている。
【０００６】
ところで、眼球映像から瞳孔径を算出し、その変動を捉えることにより情動反応を評価する技術が知られている（例えば、特許文献２を参照）。この技術は、映像コンテンツを見ている人間の眼球映像をカメラにより撮影し、その眼球映像から瞳孔径の変動を算出し、この変動を映像コンテンツに対する人間の情動反応として扱い、映像コンテンツに対する興味・関心度合いを算出するものである。
【０００７】
この技術は、人の情動反応が瞳孔径の変動に表れるという知見に基づいている。しかしながら、情動反応には、人の本能的反応である一次情動と、人の意識が関係する高次の情動反応とがあり、瞳孔径には、これらの情動反応が重畳して表れることになる。したがって、瞳孔径の変動を捉えるのみでは、人が本当に興味・関心を持って反応しているか否かを精度高く判定することができない。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開２００７−１３３０３３号公報
【特許文献２】特開２００４−２８２４７１号公報
【非特許文献】
【０００９】
【非特許文献１】“Ｊｕｌｉｕｓ”、［online］、Ｊｕｌｉｕｓｄｅｖｅｌｏｐｅｍｅｎｔｔｅａｍ、［平成２１年３月１０日検索］、インターネット＜ＵＲＬ： http://julius.sourceforge.jp/index.php?q=documents.html#beginner＞
【非特許文献２】河原達也、他１名、“連続音声認識ソフトウェアＪｕｌｉｕｓ”、［online］、［平成２１年３月１０日検索］、インターネット＜ＵＲＬ：http://julius.sourceforge.jp/paper/JSAI05.pdf＞
【発明の概要】
【発明が解決しようとする課題】
【００１０】
そこで、本発明は上記課題を解決するためになされたものであり、その目的は、人の発話音声の中から、有意性の高い要点部分を客観的かつ容易に抽出することが可能な音声情報処理装置を提供することにある。
【課題を解決するための手段】
【００１１】
上記目的を達成するために、本発明による音声情報処理装置は、発話者の発話音声をテキスト化し、テキスト情報に変換する音声情報処理装置において、語彙、前記語彙の発音、及び前記語彙に対しテキスト情報の区間を設定するための区間種別が規定された辞書を用いて、前記発話音声をテキスト情報に変換し、前記発話音声の信号レベルが所定の値未満となる沈黙区間を設定し、前記辞書に規定された語彙に対する区間種別及び前記テキスト情報に含まれる語彙によって、前記発話者が発声した時間区間のうちの実際に意味のある発声をした発言区間を設定し、前記発話者が発声した時間区間のうちの前記発言区間を除いた時間区間をその他発声区間に設定する音声認識部と、前記発話音声に基づいて、前記区間毎に、発話音声特性データを算出する発話音声特性データ算出部と、前記発話者の生理状態によって変化する生理反応データを入力し、前記生理反応データに基づいて、前記区間毎に、前記発話者の情動の程度を示す発話者情動反応値を算出する発話者情動反応値算出部と、前記発言区間及びその他発声区間におけるテキスト情報をテキスト文字で表示する際に、前記発話音声特性データ算出部により算出された発話音声特性データの値、及び前記発話者情動反応値算出部により算出された発話者情動反応値に応じた形態で、前記音声認識部により区別された区間毎に前記テキスト文字を表示し、前記沈黙区間を、予め設定された形態で表示する表示部と、を備えたことを特徴とする。
【００１２】
また、本発明による音声情報処理装置は、前記発話音声特性データ算出部が、前記発話音声に基づいて、前記区間毎に、発話音声の音量、音高及び速度を算出し、前記発話者情動反応値算出部は、発話者の眼球運動に伴うデータ、顔面の動き、脈拍値、発汗量のうちの少なくとも一つまたは複数のデータに基づいて、前記区間毎に、発話者情動反応値を算出し、前記表示部が、前記発話音声特性データ算出部により算出された発話音声の音量、音高及び速度の値、並びに、前記発話者情動反応値算出部により算出された発話者情動反応値に応じたそれぞれの形態で前記テキスト文字を表示し、前記沈黙区間を空白で表示し、前記音声認識部によりテキスト化できなかった前記発言区間またはその他発声区間を、予め設定された形態で表示することを特徴とする。
【００１３】
また、本発明による音声情報処理装置は、前記発話音声特性データ及び前記発話者情動反応値に基づいて、前記区間毎のテキスト情報の重要度を算出する区間重要度算出部と、前記テキスト情報の重要度と所定の値とに基づいて、重要度の高い区間を特定し、前記特定した区間のテキスト情報から単語を抽出する頻出重要単語抽出部と、前記抽出された単語を検索語としてデータベースを検索する検索部とを備え、前記表示部が、さらに、前記データベースの検索結果を表示することを特徴とする。
【００１４】
また、本発明による音声情報処理装置は、前記発話者による発話を聴取する聴取者の眼球運動に伴うデータ、顔面の動き、脈拍値、発汗量のうちの少なくとも一つまたは複数のデータに基づいて、前記区間毎に、聴取者情動反応値を算出する聴取者情動反応値算出部を備え、前記表示部が、さらに、前記聴取者情動反応値算出部により算出された聴取者情動反応値に応じた形態で、前記テキスト文字を表示することを特徴とする。
【００１５】
また、本発明による音声情報処理装置は、複数の発話者のそれぞれに対応して、前記処理をそれぞれ行う音声認識部、発話音声特性データ算出部、発話者情動反応値算出部及び表示部を備え、さらに、前記複数の発話者のうちの一人の発話者による発話の前記区間について、前記一人の発話者の発話音声特性データ及び発話者情動反応値、前記他の発話者の発話者情動反応値、並びに前記聴取者情動反応値に基づいて、前記一人の発話者による発話の重要度を算出する区間重要度算出部を備え、前記表示部が、さらに、前記重要度に応じた形態で、前記重要度が算出された前記一人の発話者における前記テキスト文字を表示することを特徴とする。
【００１６】
また、本発明による音声情報処理装置を含むシステムは、近赤外線を前記発話者の目の周辺に照射する照射器と、前記近赤外線を透過するフィルタ、及び前記フィルタからの出射光を受光する撮像素子を有し、前記発話者の映像を前記フィルタ及び撮像素子を介して目隠し顔映像として出力するカメラとを備え、前記音声情報処理装置の表示部が、前記カメラにより出力された前記発話者の目隠し顔映像を表示することを特徴とする。
【発明の効果】
【００１７】
以上のように、本発明によれば、発話音声の時間区間を発言区間、その他発声区間及び沈黙区間に区別し、これらの区間毎に発話音声特性データ及び情動反応データを算出し、発話音声を変換したテキスト情報を、発話音声の特性に応じた形態及び発話者の情動反応に応じた形態で表示するようにした。これにより、人の発話音声の中から、有意性の高い要点部分を客観的にかつ容易に抽出することが可能となる。
【図面の簡単な説明】
【００１８】
【図１】本発明の第１の実施形態（実施例１）による音声情報処理装置のハードウェア構成を示す概略図である。
【図２】本発明の第１の実施形態（実施例１）による音声情報処理装置の機能構成を示すブロック図である。
【図３】発話者の顔を撮影するカメラの構成を示す図である。
【図４】記憶部に生成されるＤＢの一覧を示す図である。
【図５】発話特徴解析制御部の構成を示すブロック図である。
【図６】（１）は、発話音声の相対音量Ｖ（ｔ）を示すグラフである。（２）は、情動反応値Ｅｓ（ｔ）を示すグラフである。
【図７】解析結果ＤＢの構成例を説明する図である。
【図８】表示装置に表示される画面例である。
【図９】提示情報の表示例を説明する図である。
【図１０】本発明の第２の実施形態（実施例２）による音声情報処理装置の機能構成を示すブロック図である。
【図１１】本発明の第３の実施形態（実施例３）による音声情報処理装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【００１９】
以下、本発明を実施するための形態について、図面を参照して説明する。
【００２０】
〔実施例１〕
まず、本発明の第１の実施形態（実施例１）について説明する。図１は、実施例１の音声情報処理装置のハードウェア構成を示す概略図である。この音声情報処理装置１は、ＣＰＵ１０１と、各種プログラム、ＤＢ（データベース）、テーブル等を記憶するＲＯＭ及びＲＡＭからなる記憶部１０２と、各種アプリケーションのプログラム、ＤＢ、データ等を記憶する記憶装置（ハードディスク装置）１０３と、ネットワークを介してデータの送受信を行う通信部１０４と、マイク１４により集音された発話者の発話音声、カメラ１５により撮影された発話者の眼球映像、カメラ１７により撮影された発話者の顔の映像（通常顔映像及び目隠し顔映像）を入力する入力インタフェース部１０５と、発話者によるマウス、キーボード等の操作に伴い、所定のデータを入力制御する操作・入力部１０６、発話者に対し発話及びキー操作を促すための画面情報を表示器１２に出力する表示出力インタフェース部１０７と、発話者に対し発話及びキー操作を促すための音声情報をスピーカ１１に出力する音声出力インタフェース部１０８とを備えて構成され、これらの各構成要素はシステムバス１０９を介して相互に接続される。
【００２１】
記憶装置１０３には、音声情報処理装置１の基本的な機能を提供するためのＯＳ（オペレーティングシステム）プログラム、通信部１０４を介して外部の装置との間で通信を行う通信プログラム、発話者に対して発話を促すための案内情報を提示し、発話音声を解析することにより、発話音声の中から有意性の高い要点部分を抽出し、提示情報に変換して表示する一連の処理を行う音声情報処理プログラム等が記憶されている。尚、これらのプログラムは、音声情報処理装置１が処理を行うときに、ＣＰＵ１０１により記憶装置１０３から記憶部１０２のＲＡＭに読み出されて実行される。
【００２２】
ここで、ＯＳプログラムは、ＣＰＵ１０１が記憶装置１０３から読み出して実行することにより、音声情報処理装置１の基本的な機能として、記憶部１０２、記憶装置１０３、通信部１０４、入力インタフェース部１０５、操作・入力部１０６、表示出力インタフェース部１０７及び音声出力インタフェース部１０８を管理する。そして、このＯＳプログラムがＣＰＵ１０１によって実行された状態で、前述の通信プログラム、音声情報処理プログラム等が実行される。
【００２３】
制御部１００は、ＣＰＵ１０１及び記憶部１０２により構成され、ＣＰＵ１０１が記憶部１０２及び記憶装置１０３に記憶された各種プログラムを読み出して実行することにより、音声情報処理装置１全体を統括制御する。このように、音声情報処理装置１は、図１に示したハードウェア構成により、制御部１００が音声情報処理プログラムに従って各種処理を行う。
【００２４】
図２は、実施例１による音声情報処理装置１の機能構成を示すブロック図であり、図１に示した制御部１００が音声情報処理プログラムにより処理を実行する際の機能構成を示している。この音声情報処理装置１は、案内情報提示部３１、入力部３２、音声認識部４１、瞳孔径解析部４２、顔面動き量推定部４３、発話特徴解析制御部５０、記憶部６０及び提示情報変換部７０を備えている。また、この音声情報処理を実現するシステムは、音声情報処理装置１、スピーカ１１、表示器１２、マイク１４とカメラ１５と照射器１６とを備えた目隠し用ゴーグル（ヘッドセット）１３、カメラ１７及び表示装置２０を備えて構成される。音声情報処理装置１と表示装置２０とは、インターネット等のネットワーク２１により接続される。
【００２５】
スピーカ１１には、音声情報処理装置１から案内用の音声情報が出力される。これにより、発話者は、質問等の音声により意見を求められ、発話が促され、選択等のキー操作が促される。表示器１２には、音声情報処理装置１から案内用の画面情報が出力される。これにより、発話者は、同様に、発話が促され、選択等のキー操作が促される。
【００２６】
（目隠し用ゴーグル）
目隠し用ゴーグル１３は、発話者の顔に装着される機器であり、マイク１４により音声が集音され、カメラ１５により眼球が撮影され、照射器１６により近赤外線が目の周辺に照射される。すなわち、目隠し用ゴーグル１３に備えたマイク１４は、発話者の音声を集音できるように発話者の口付近に設置され、カメラ１５は、発話者の眼球が撮影できるように発話者の目付近に設置され、照射器１６は、発話者の目の周辺に近赤外線が照射できるように発話者の目付近に設置されている。照射器１６が近赤外線を発話者の目の周辺に照射するのは、後述するカメラ１７によって、通常の顔映像（以下、通常顔映像という。）に加えて、目の周辺がマスクされて発話者を特定することができない顔映像（以下、目隠し顔映像という。）を取得するためである。また、後述する眼球映像の解析処理において、瞳孔径、視点位置等を算出するために、近赤外線を照射したときに撮影した眼球映像を用いるからである。ここで照射される近赤外線は、発話者の目の周辺でハレーションを起こす程度の高輝度の電磁波である。このように、照射器１６は、近赤外線を照射するようにしたから、発話者はまぶしさを感じることなく発話することができ、カメラ１７によって自然な表情の顔映像を撮影することができる。また、照射器１６は、例えば、目隠し用ゴーグル１３の一部である眼鏡のフレームに取り付けるようにする。これにより、例えば、発話者の目の横方向または縦方向から近赤外線が照射されるから、照射器１６が発話者の視野を妨げることがない。
【００２７】
（顔撮影用カメラ）
カメラ１７は、発話者の顔を撮影し、通常顔映像及び目隠し顔映像を出力する。図３は、カメラ１７の構成を示す図である。図３（１）は１台のカメラで構成した例を示しており、カメラ１７−１は、レンズ１７１、分光用プリズム１７２、近赤外線カットフィルタ１７３、撮像素子１７４、近赤外線透過フィルタ１７５及び撮像素子１７６を備えている。レンズ１７１を通過した発話者の顔映像信号は、分光用プリズム１７２によって２系統に分けられる。第１の系統の顔映像信号は近赤外線カットフィルタ１７３へ入射され、近赤外線が除去される。すなわち、照射器１６により発話者の目の周辺に照射された近赤外線が除去される。そして、近赤外線が除去された顔映像信号は撮像素子１７４へ入射され、通常顔映像として出力される。一方、分光用プリズム１７２により分けられた第２の系統の顔映像信号は、近赤外線透過フィルタ１７５へ入射され、近赤外線が透過する。すなわち、照射器１６により発話者の目の周辺に照射された近赤外線が透過する。そして、近赤外線が透過した顔映像信号は撮像素子１７６へ入射され、目隠し顔映像として出力される。
【００２８】
図３（２）は２台のカメラで構成した例を示しており、カメラ１７−２は、第１のカメラ部及び第２のカメラ部により構成される。第１のカメラ部は、レンズ１７１−１、照射器１６により発話者の目の周辺に照射された近赤外線を除去するための近赤外線カットフィルタ１７３及び撮像素子１７４を備えている。また、第２のカメラ部は、レンズ１７１−２、照射器１６により発話者の目の周辺に照射された近赤外線を透過する近赤外線透過フィルタ１７５及び撮像素子１７６を備えている。第１のカメラ部により通常顔映像が出力され、第２のカメラ部により目隠し顔映像が出力される。
【００２９】
このように、カメラ１７−１，１７−２により、発話者の目を含めて顔により個人を特定することが可能な通常顔映像、及び、高輝度な近赤外線の効果によって発話者の目の周辺がマスクされ個人を特定することが不可能な目隠し顔映像が出力される。音声情報処理装置１は、発話者を秘匿するための顔映像を得るために、カメラ１７−１，１７−２から目隠し顔映像を直接入力すればよいから、通常顔映像に基づいて秘匿用の映像を生成するための後処理を行う必要がなく、発話者を秘匿する顔映像を容易に取得することができる。したがって、カメラ１７−１，１７−２により、発話者の目及びその周辺が撮影されないから、個人情報の保護を容易に実現することができる。尚、カメラ１７−１，１７−２は、必ずしも近赤外線透過フィルタ１７５を備えていなくてもよい。
【００３０】
（音声情報処理装置）
次に、図２に示した音声情報処理装置１について説明する。音声情報処理装置１の案内情報提示部３１は、記憶部６０に記憶された案内情報ＤＢ６１から案内情報を読み出し、この案内情報に基づいて、発話者に発話及び選択等のキー操作を促すための音声情報をスピーカ１１に出力し、画面情報を表示器１２に出力する。これにより、発話者は、質問等により意見を求められ、発話者による発話音声が目隠し用ゴーグル１３に備えたマイク１４によって集音される。記憶部６０の案内情報ＤＢ６１には、発話を引き出すための音声及び画面シーケンスの情報が記憶されている。
【００３１】
入力部３２は、目隠し用ゴーグル１３に備えたマイク１４から発話者の発話音声を、カメラ１５から眼球映像をそれぞれ入力すると共に、カメラ１７から発話者の通常顔映像及び目隠し顔映像を入力する。そして、これらの情報を同期した情報として、記憶部６０に記憶する。これにより、記憶部６０には、発話の特徴を解析制御するための情報として、発話音声ＤＢ６２、眼球映像ＤＢ６３、通常顔映像ＤＢ６４及び目隠し顔映像ＤＢ６５が生成される。
【００３２】
図４は、記憶部６０に記憶されるＤＢの一覧を示す図である。図４に示すように、記憶部６０には、案内情報ＤＢ６１、発話音声ＤＢ６２、眼球映像ＤＢ６３、通常顔映像ＤＢ６４、目隠し顔映像ＤＢ６５、テキスト情報等ＤＢ６６、瞳孔径・顔面動きＤＢ６７、解析結果ＤＢ６８等が記憶される。尚、図示していないが、発話者が選択したキー操作等の情報、及び音声情報処理装置１による処理のために必要なその他の情報も、記憶部６０に記憶される。
【００３３】
案内情報ＤＢ６１には、発話者による発話等を促すための音声情報及び画面情報が案内情報として記憶される。発話音声ＤＢ６２には発話者による発話音声が記憶され、眼球映像ＤＢ６３には発話者の眼球映像が記憶され、通常顔映像ＤＢ６４には発話者の通常顔映像が記憶され、目隠し顔映像ＤＢ６５には発話者の目隠し顔映像が記憶される。発話音声ＤＢ６２、眼球映像ＤＢ６３、通常顔映像ＤＢ６４及び目隠し顔映像ＤＢ６５に記憶される各情報は互いに同期している。テキスト情報等ＤＢ６６には、音声認識部４１により認識されたテキスト情報、区間種別情報及び区間音量情報等が発話特徴解析制御部５０を介して記憶される。瞳孔径・顔面動きＤＢ６７には、瞳孔径解析部４２により解析された瞳孔径、及び顔面動き量推定部４３により推定された顔面動きが発話特徴解析制御部５０を介して記憶される。また、解析結果ＤＢ６８には、発話特徴解析制御部５０により解析された結果が記憶される。テキスト情報、区間種別情報、区間音量情報、瞳孔径、顔面動き及び解析結果の詳細については後述する。
【００３４】
次に、発話者に対して案内情報を提示し、発話音声等を入力して記憶する一連の動作について説明する。発話の特徴が解析制御される発話者による開始のキー操作が行われると、入力部３２は、その開始のキー操作を入力し（図２ではキー操作の入力については省略してある。）、案内情報提示部３１は、記憶部６０の案内情報ＤＢ６１から案内情報を読み出し、この案内情報の中から、例えば「今から半年後の景気はどうなっていると思いますか」の音声情報をスピーカ１１に出力する。発話者は、スピーカ１１からこの音声を聞くことにより、この質問に対する意見を述べる。入力部３２は、開始のキー操作に従って、マイク１４から発話音声を入力すると共に、カメラ１５から眼球映像を入力し、カメラ１７から通常顔映像及び目隠し顔映像を入力する。そして、同期した情報として記憶部６０に記憶する。次に、案内情報提示部３１は、案内情報の中から、例えば「そう思うのはなぜですか」の音声情報をスピーカ１１に出力する。同様にして、案内情報提示部３１は、入力部３２により発話音声が入力された後、「半年後の景気は以下のどれだと思いますか」の音声情報をスピーカ１１に出力すると共に、「１．上向き２．今のまま３．下向き」の画面情報を表示器１２に出力する。入力部３２は、発話者のキー操作によって選択された情報を入力し、記憶部６０に記憶する。そして、発話者による終了のキー操作が行われると、入力部３２は、その終了のキー操作を入力し、発話音声、眼球映像、通常顔映像及び目隠し顔映像の入力及び記憶処理を終了する。
【００３５】
このように、案内情報提示部３１が、記憶部６０の案内情報ＤＢ６１から案内情報を読み出し、発話者へ提示する。そして、入力部３２が、その質問等の意見として発話音声を入力すると共に、眼球映像、通常顔映像、目隠し顔映像等を入力し、同期した情報として記憶部６０に記憶する。
【００３６】
（音声認識部）
図２の音声情報処理装置１において、音声認識部４１は、記憶部６０の発話音声ＤＢ６２から発話者の発話音声を読み出し、発話音声の特性に基づいて、発話音声の音声認識結果をテキスト化し、発話の内容を示すテキスト情報に変換する。具体的には、音声認識部４１は、認識対象の語彙（＝単語及び文節の集合）及びその発音を規定した辞書を備えており、その辞書を用いて、ある区間の発話音声に対し、音素（ローマ字一字にほぼ相当）または音節（かな一文字に相当）の周波数パターンが最も適合する単語または文節を抜き出す。そして、辞書内においてその単語または文節に付与されている、漢字・かな・カタカナ表現の文字列をもって、前記区間の発話音声を単語または文節毎に切り分けたテキスト情報に変換する。尚、発話音声をテキスト情報に変換する手法については既知であり、例えば、前述した非特許文献１，２に記載されている手法が用いられる。
【００３７】
また、音声認識部４１は、発話音声の特性に基づいて、発話音声の区間を発言区間、その他発声区間及び沈黙区間の３つに区別し、これら３つの区間の開始時刻ｔ１、終了時刻ｔ２及び区間時間長（秒等にて表現した時間）をそれぞれ求め、これらの情報を区間種別情報として生成する。発言区間は、発話者が発声した区間のうちの実際に意味のある発声をした区間をいい、その他発声区間は、発話者が発声した区間から発言区間を除いた区間をいい、沈黙区間は、発話者が発声していない無発声の区間をいう。具体的には、音声認識部４１は、発話音声の入力信号レベルが所定の値以上に達しない区間を特定し、その発声区間を沈黙区間として区間種別情報を生成する。また、音声認識部４１に備えた辞書には、単語及び文節が発言またはその他発声のいずれかに属するかについての区別が定義されており、音声認識部４１は、沈黙区間以外の発声区間において、発話音声から認識した単語または文節を辞書にて検索し、辞書に定義されたその単語または文節の区別により、その区間が発言区間であるかその他発声区間であるかを判定し、区間種別情報を生成する。
【００３８】
尚、音声認識部４１は、発話音声をテキスト化すると共に、発話音声の区間を発言区間、その他発声区間及び沈黙区間の３つに区別するが、沈黙区間以外の発声区間において、発話音声の認識が不能な場合、つまり発話音声をテキスト化できない場合もあり得る。この場合、その発声区間を認識不可区間として区間種別情報を生成する。
【００３９】
また、音声認識部４１は、発話音声に基づいて、発言区間、その他発声区間及び沈黙区間毎の平均音量を算出し、この平均音量を区間音量情報として生成する。具体的には、音声認識部４１は、各区間の音量を積分し、区間時間長で除算することにより、区間毎の平均音量を算出する。テキスト情報、区間種別情報及び区間音量情報は、発話音声と共に発話特徴解析制御部５０に出力される。
【００４０】
（瞳孔径解析部）
瞳孔径解析部４２は、記憶部６０の眼球映像ＤＢ６３から発話者の眼球映像を読み出し、眼球映像を解析することにより、瞳孔径を算出する。具体的には、瞳孔径解析部４２は、１フレームの眼球画像全体に２値化処理を施し、画像中の眼球の周りに計測用ウィンドウを設定し、その計測用ウィンドウ内の瞳孔部分の面積を２値化処理後のデータから求め、瞳孔径を算出する。このようにして算出された瞳孔径は、発話特徴解析制御部５０に出力される。尚、眼球画像の解析手法についは既知であり、例えば、前述した特許文献２に記載されている手法が用いられる。
【００４１】
（顔面動き量推定部）
顔面動き量推定部４３は、記憶部６０の通常顔映像ＤＢ６４から発話者の通常顔映像を読み出し、通常顔映像を解析することにより、顔面動きデータ（以下、単に「顔面動き」という。）を推定する。尚、目隠し顔映像ＤＢ６５から目隠し顔映像を読み出して解析することにより、顔面動きを推定するようにしてもよい。ここで、顔面動きは、首振りまたは身体移動に伴う動作をいい、顔面の動きの大きさ及び向きのデータからなる。具体的には、顔面動き量推定部４３は、読み出した通常顔映像と、予め登録された発話者の顔映像とを比較し、類似する領域を抽出し（後述する（１）を参照）、その抽出した領域内の顔映像に基づいて、顔面の向きを通常顔映像のフレーム毎に検出する（後述する（２）を参照）。そして、顔面動き量推定部４３は、検出した２フレーム間における顔の向きの変化をその経過時間で除算することにより、単位時間あたりの顔面動きを算出する。この顔面動きは、所定の撮像面に顔面を射影した場合に、その撮像面における平行移動速度を示すパラメータｃ，ｄ（ｃは撮像面上における平行移動速度の水平成分、ｄは垂直成分にそれぞれ対応する）からなる顔面動きベクトルである。このようにして推定された顔面動きは、発話特徴解析制御部５０に出力される。尚、顔面動きを算出する手法については既知であり、例えば、以下の（１）〜（４）を参照されたい。
（１）“王様の箱庭：：ｂｌｏｇＪａｖａ（登録商標）Ｓｃｒｉｐｔから利用できる顔検出ＡＰＩ「ｆａｃｅｋｉｔ」”、［ｏｎｌｉｎｅ］、平成１９年３月２１日、インターネット＜ｈｔｔｐ：／／ｄ．ｈａｔｅｎａ．ｎｅ．ｊｐ／ｍａｓａｙｏｓｈｉ／２００７０３２１＞
（２）“Ｔｕｔｏｒｉａｌ：ＯｐｅｎＣＶｈａａｒｔｒａｉｎｉｎｇ（ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＷｉｔｈＡＣａｓｃａｄｅｏｆＢｏｏｓｔｅｄＣｌａｓｓｉｆｉｅｒｓＢａｓｅｄｏｎＨａａｒ−ｌｉｋｅＦｅａｔｕｒｅｓ）”、［ｏｎｌｉｎｅ］、インターネット＜ｈｔｔｐ：／／ｎｏｔｅ．ｓｏｎｏｔｓ．ｃｏｍ／ＳｃｉＳｏｆｔｗａｒｅ／ｈａａｒｔｒａｉｎｉｎｇ．ｈｔｍｌ＞
（３）秦泉寺久美、他２名、「スプライト生成のためのグローバルモーション算出法と符号化への適用」、電子情報通信学会論文誌Ｄ−２Ｖｏｌ．Ｊ８３−Ｄ−２Ｎｏ．２、ｐｐ．５３５−５４４、２０００年２月
（４）特許第３５５１９０８号公報
これ以外に、顔面動きを算出する手法としては、前記（１）で実現されている顔の向きを実時間で捉えて顔面動きデータを算出するものがある。また、その際のアルゴリズムとしては、前記（２）が用いられる。
【００４２】
音声認識部４１からのテキスト情報等、瞳孔径解析部４２からの瞳孔径、及び顔面動き量推定部４３からの顔面動きは、互いに同期し時間的に対応付けられた情報として発話特徴解析制御部５０に出力される。
【００４３】
（発話特徴解析制御部）
発話特徴解析制御部５０は、音声認識部４１からテキスト情報等を、瞳孔径解析部４２から瞳孔径を、顔面動き量推定部４３から顔面動きを互いに同期し時間的に対応付けられた情報として入力する。そして、発話特徴解析制御部５０は、テキスト情報等、瞳孔径及び顔面動きを記憶部６０に記憶する。これにより、記憶部６０には、テキスト情報等ＤＢ６６及び瞳孔径・顔面動きＤＢ６７が生成される。
【００４４】
また、発話特徴解析制御部５０は、入力した各種情報に基づいて、発話特徴を解析して解析結果を生成し、記憶部６０に記憶する。これにより、記憶部６０には、解析結果ＤＢ６８が生成される。
【００４５】
以下、発話特徴解析制御部５０による発話特徴の解析処理について説明する。図５は、発話特徴解析制御部５０の構成を示すブロック図である。この発話特徴解析制御部５０は、相対音量算出部５１、相対音高算出部５２、発声速度算出部５３、無意区間特定部５４、テキスト化不可部分特定部５５、発話者情動反応値算出部５６、区間重要度算出手段５７及び頻出重要単語抽出手段５８を備えている。
【００４６】
相対音量算出部５１は、入力したテキスト情報、区間種別情報、区間音量情報及び発話音声により、文節または単語毎に切り分けられたテキストを有する発言区間及びその他発声区間について、発話音声の音量ｖ（ｔ）の最大値Ｖｍａｘ及び最小値Ｖｍｉｎを求め、以下の式により相対音量Ｖ（ｔ）を算出する。
Ｖ（ｔ）＝（ｖ（ｔ）−Ｖｍｉｎ）／（Ｖｍａｘ−Ｖｍｉｎ）
【００４７】
また、相対音量算出部５１は、発言区間及びその他発声区間について、単位時間あたりの相対音量Ｖ（ｔ）の積分値を算出し、その区間の区間時間長で除算することにより区間平均音量Ｖを算出する。
【００４８】
図６（１）は、発話音声の相対音量Ｖ（ｔ）を示すグラフである。縦軸は発話音声の相対音量Ｖ（ｔ）を示し、横軸は時間ｔを示している。横軸の時間ｔに沿って区切られたａは発言区間であり、ｂはその他発声区間、ｃは沈黙区間である。図６（１）から、テキスト「ん〜」「えっと」が発話されたその他発声区間ｂの相対音量よりも、テキスト「多分、」「今と変わらない」が発話された発言区間ａの相対音量の方が大きいことがわかる。このように、相対音量算出部５１により、発言区間及びその他発声区間発話音声の相対音量Ｖ（ｔ）及び区間平均音量Ｖが算出される。尚、沈黙区間についても、相対音量Ｖ（ｔ）及び区間平均音量Ｖが算出される。
【００４９】
図５に戻って、相対音高算出部５２は、入力したテキスト情報、区間種別情報及び発話音声により、文節または単語毎に切り分けられたテキストを有する発言区間及びその他発声区間について、発話音声の音高ａ（ｔ）の最大値Ａｍａｘ及び最小値Ａｍｉｎを求め、以下の式により相対音高Ａ（ｔ）を算出する。
Ａ（ｔ）＝（ａ（ｔ）−Ａｍｉｎ）／（Ａｍａｘ−Ａｍｉｎ）
【００５０】
また、相対音高算出部５２は、発言区間及びその他発声区間について、単位時間あたりの相対音高Ａ（ｔ）の積分値を算出し、その区間の区間時間長で除算することにより区間平均音高Ａを算出する。このように、相対音高算出部５２により、発言区間及びその他発声区間における発話音声の相対音高Ａ（ｔ）及び区間平均音高Ａが算出される。尚、沈黙区間についても、相対音高Ａ（ｔ）及び区間平均音高Ａが算出される。
【００５１】
発声速度算出部５３は、入力したテキスト情報及び区間種別情報により、文節または単語毎に切り分けられたテキストを有する発言区間及びその他発声区間について、テキスト化された文節及び単語に対応する音素数（または音節数）Ｃを取得する。具体的には、発生速度算出部５３は、音声認識部４１により発話音声が文節及び単語毎のテキストに切り分けられた際に用いた辞書によって、音素数（または音節数）Ｃを取得する。
【００５２】
そして、発声速度算出部５３は、入力した区間種別情報における各区間の開始時刻ｔ１及び終了時刻ｔ２と、取得した音素数（または音節数）Ｃとを用いて、以下の式により発声速度ＶＶを算出する。
ＶＶ＝Ｃ／（ｔ２−ｔ１）
このように、発声速度算出部５３により、発言区間及びその他発声区間における発声速度が算出される。
【００５３】
無意区間特定部５４は、入力した区間種別情報により、その他発声区間及び沈黙区間を無意区間として特定する。無意区間特定部５４により無意区間に特定されたその他発声区間及び沈黙区間は、表示装置２０において、区間種別情報における区間時間長に比例した大きさの所定の形態で表示される。
【００５４】
テキスト化不可部分特定部５５は、入力したテキスト情報及び区間種別情報により、認識不可区間をテキスト化不可部分として特定する。テキスト化不可部分特定部５５により特定されたテキスト化不可部分は、表示装置２０において、テキスト化されなかったことを示す表示がなされる。
【００５５】
発話者情動反応値算出部５６は、入力した瞳孔径及び顔面動きにより、発話者の情動反応値Ｅｓ（ｔ）を算出する。具体的には、発話者情動反応値算出部５６は、入力した瞳孔径及び顔面動きを正規化し、相対的な瞳孔径ｐ（ｔ）及び顔面動きｆ（ｔ）を算出し、これらの時系列データに対する重み値をそれぞれＰ，Ｆ、定数をＳとして、以下の式により情動反応値Ｅｓ（ｔ）を算出する。
Ｅｓ（ｔ）＝Ｐ・ｐ（ｔ）＋Ｆ・ｆ（ｔ）＋Ｓ
一般に、このようにして算出される情動反応値Ｅｓ（ｔ）には、発話者による発話の内容の有意性が反映される。すなわち、有意性の高い内容を発話しているときには、情動反応値Ｅｓ（ｔ）が大きくなる傾向がある。これは、人の瞳孔径及び顔面動きが、興味関心を示しているときに大きくなるからである。一方、有意性の低い内容を発話しているときには、情動反応値Ｅｓ（ｔ）が小さくなる傾向がある。
【００５６】
尚、発話者情動反応値算出部５６は、瞳孔径及び顔面動きに加えて、脈拍値、発汗量を入力するようにしてもよい。この場合、発話者情動反応値算出部５６は、以下の式により情動反応値Ｅｓ（ｔ）を算出する。
Ｅｓ（ｔ）＝Ｐ・ｐ（ｔ）＋Ｆ・ｆ（ｔ）＋Ｂ・ｂ（ｔ）＋Ｃ・ｃ（ｔ）＋Ｓ
ｂ（ｔ）は脈拍値の時系列データ、Ｂはその重み値、ｃ（ｔ）は発汗量の時系列データ、Ｃはその重み値とする。人の脈拍値及び発汗量は、興味関心を示しているときに大きくなるから、発話者が有意性の高い内容を発話しているときには、情動反応値Ｅｓ（ｔ）が大きくなる傾向がある。この場合、音声情報処理装置１は、脈拍センサから脈拍データを入力して脈拍値を求め、発汗量計測センサから発汗量データを入力して発汗量を求める。
【００５７】
また、発話者情動反応値算出部５６は、入力した区間種別情報における発言区間、その他発声区間及び沈黙区間について、単位時間あたりの情動反応値Ｅｓ（ｔ）の積分値を算出し、入力した区間種別情報における区間時間長で除算することにより、各区間の代表的な値として区間平均情動反応値Ｅｓを算出する。
【００５８】
このように、発話者情動反応値算出部５６は、発話者の瞳孔径、顔面動き等の、生理状態によって変化する生理反応データを入力し、情動反応値Ｅｓ（ｔ）及び区間平均情動反応値Ｅｓを算出する。尚、生理反応データは、これらのデータに限定されるものではなく、発話の有意性に伴って変動するデータであればよい。例えば、発話者の瞳孔径の代わりに視点位置の変動データを用いるようにしてもよい。この場合は、眼球映像に基づいて視点位置が算出される。また、例えば、脳波の値を用いるようにしてもよい。
【００５９】
図６（２）は、発話者の情動反応値Ｅｓ（ｔ）を示すグラフである。縦軸は情動反応値Ｅｓ（ｔ）を示し、横軸は時間ｔを示している。このグラフは、図６（１）に示した発話音声の相対音量Ｖ（ｔ）と時間的に対応している。図６（１）（２）から、情動反応値Ｅｓ（ｔ）の大きい領域（括弧で示した領域）に対応する発言区間ａが、有意性の高い区間であるといえる。したがって、発話特徴解析制御部５０は、発話者の情動反応値Ｅｓ（ｔ）と予め設定された閾値とを比較し、情動反応値Ｅｓ（ｔ）が閾値よりも大きい時間領域を特定し、その時間領域に対応するテキストをテキスト情報から抽出することができる。このようにして抽出されたテキストが、有意性の高い要点部分になる。
【００６０】
図５に戻って、区間重要度算出手段５７は、入力した区間種別情報、相対音量算出部５１により算出された区間平均音量Ｖ、相対音高算出部５２により算出された区間平均音高Ａ、発声速度算出部５３により算出された発声速度ＶＶ、及び、発話者情動反応値算出部５６により算出された、発話者の区間平均情動反応値Ｅｓを用いて、発話音声区間毎のテキスト情報の重要度（有意度の高さ）Ｗを算出する。具体的には、区間重要度算出手段５７は、以下の式により重要度Ｗを算出する。
Ｗ＝ｆｖ（Ｖ）＋ｆａ（Ａ）＋ｆｖｖ（ＶＶ）＋ｆｅｓ（Ｅｓ）
ここで、ｆｖ（Ｖ），ｆａ（Ａ），ｆｖｖ（ＶＶ），ｆｅｓ（Ｅｓ）は、それぞれ区間平均音量Ｖ、区間平均音高Ａ、発声速度ＶＶ、発話者の区間平均情動反応値Ｅｓに関する関数であり、それぞれの特性に応じて重み付け及び高次関数の表現とすることが可能である。単純化した例として、区間重要度算出手段５７は、発話音声特性データの線形結合により重要度Ｗを算出する場合、Ｗｖ，Ｗａ，Ｗｖｖ，Ｗｅｓをそれぞれ重み付け係数として以下の式を用いるようにすればよい
ｆｖ（Ｖ）＝Ｗｖ・Ｖ
ｆａ（Ａ）＝Ｗａ・Ａ
ｆｖｖ（ＶＶ）＝Ｗｖｖ・ＶＶ
ｆｅｓ（Ｅｓ）＝Ｗｅｓ・Ｅｓ
ここで、Ｗｖ，Ｗａ，Ｗｖｖ，Ｗｅｓは負の値としてもよい。このようにして算出された重要度Ｗは、テキスト情報における文節及び単語の重要度を示しているから、重要度Ｗに基づいて発話シーケンス中の重要な箇所を判定するために用いることができる。したがって、重要度Ｗを用いることにより、人の発話音声の中から、有意性の高い要点部分を客観的かつ容易に抽出することができる。この重要度Ｗは、表示装置２０においてグラフに表示される。また、対応する区間のテキスト情報を所定の形態で表示する際に用いられる。
【００６１】
頻出重要単語抽出手段５８は、区間重要度算出手段５７により算出された発話音声区間毎の重要度Ｗを発話音声区間の間で大小比較し、発話音声区間を重要度Ｗの高い順に並べ、全体の発話音声区間の中で重要度Ｗの高い所定数の発話音声区間を特定する。そして、頻出重要単語抽出手段５８は、特定した発話音声区間内のテキスト情報から単語を抽出し、その単語を頻出重要単語に設定する。または、全体の発話音声区間において、抽出した単語の発声回数を算出し、その発声回数が所定数を越える場合に、その単語を頻出重要単語に設定する。尚、頻出重要単語抽出手段５８は、発話音声区間毎の重要度Ｗの値を、最大１００及び最小０に正規化し、閾値（例えば７０）を予め設定しておき、それを越える発話音声区間を特定するようにしてもよい。この場合、頻出重要単語抽出手段５８は、前述のとおり、特定した発話音声区間内のテキスト情報から単語を抽出し、頻出重要単語に設定する。または、全体の発話音声区間において、抽出した単語の発声回数を算出し、その発声回数が所定数を越える場合に、その単語を頻出重要単語に設定する。このようにして抽出された頻出重要単語は、データベースを検索するために使用され、表示装置２０に表示される。
【００６２】
尚、発話特徴解析制御部５０は、図５に示した相対音量算出部５１等に加え、発話を聴取する聴取者の情動反応値を算出する聴取者情動反応値算出部を備えるようにしてもよい。この場合、聴取者情動反応値算出部は、聴取者の瞳孔径、顔面動き等を入力し、発話者の情動反応値Ｅｓ（ｔ）と同様の式により、聴取者の情動反応値Ｅｏ（ｔ）を算出する。また、情動反応値Ｅｏ（ｔ）を積分して区間時間長で除算し、区間平均情動反応値Ｅｏを算出する。聴取者が複数存在する場合は、聴取者毎に情動反応値Ｅｏ（ｔ）を算出する。また、区間重要度算出手段５７は、重要度Ｗの算出の際に、聴取者の区間平均情動反応値Ｅｏを含めて、以下の式により重要度Ｗを算出するようにしてもよい。
Ｗ＝ｆｖ（Ｖ）＋ｆａ（Ａ）＋ｆｖｖ（ＶＶ）＋ｆｅｓ（Ｅｓ）＋ｆｅｏ（Ｅｏ）
ｆｖ（Ｖ），ｆａ（Ａ），ｆｖｖ（ＶＶ），ｆｅｓ（Ｅｓ），ｆｅｏ（Ｅｏ）は、それぞれ区間平均音量Ｖ、区間平均音高Ａ、発声速度ＶＶ、発話者の区間平均情動反応値Ｅｓ、聴取者の区間平均情動反応値Ｅｏに関する関数である。単純化した例として、区間重要度算出手段５７は、発話音声特性データの線形結合により重要度Ｗを以下の式により算出するようにしてもよい。Ｗｖ，Ｗａ，Ｗｖｖ，Ｗｅｓ，Ｗｅｏはそれぞれ重み付け係数である。
ｆｖ（Ｖ）＝Ｗｖ・Ｖ
ｆａ（Ａ）＝Ｗａ・Ａ
ｆｖｖ（ＶＶ）＝Ｗｖｖ・ＶＶ
ｆｅｓ（Ｅｓ）＝Ｗｅｓ・Ｅｓ
ｆｅｏ（Ｅｏ）＝Ｗｅｏ・Ｅｏ
ここで、Ｗｖ，Ｗａ，Ｗｖｖ，Ｗｅｓ，Ｗｅｏは負の値としてもよい。このように、区間重要度算出手段５７は、聴取者の区間平均情動反応値Ｅｏを含めることにより、信頼性の高い重要度Ｗを算出することができる。したがって、重要度Ｗを用いることにより、人の発話音声の中から、有意性の高い要点部分を一層客観的かつ容易に抽出することができる。
【００６３】
このように、発話特徴解析制御部５０により解析された発話音声の相対音量Ｖ（ｔ）等は、解析結果として記憶部６０の解析結果ＤＢ６８に記憶されると共に、提示情報変換部７０に出力される。
【００６４】
（解析結果ＤＢ）
図７は、記憶部６０における解析結果ＤＢ６８の構成例を示す図である。解析結果ＤＢ６８は、区間の番号を示すＳｒ、開始時刻ｔ１、終了時刻ｔ２、区間の種別、テキスト、音量Ｖ、音素数（または音節数）Ｃ、音高Ａ、発話者の区間平均情動反応値Ｅｓ及び聴取者の区間平均情動反応値Ｅｏにより構成される。区間の番号を示すＳｒは、音声認識部４１により区別された３つの区間を時刻順に表した番号である。開始時刻ｔ１及び終了時刻ｔ２のｍｍ：ｓｓ．ｐｐは、ｍｍが分、ｓｓが秒、ｐｐが秒の小数点以下をそれぞれ示している。区間の種別は、Ｌが発言区間、Ｖがその他発声区間、Ｓが沈黙区間である。音量Ｖ、音高Ａは、各区間における区間平均音量Ｖ、区間平均音高Ａである。Ｎ／Ａは、データがないことを示している。
【００６５】
図２に戻って、提示情報変換部７０は、発話特徴解析制御部５０から解析結果を入力するか、または記憶部６０の解析結果ＤＢ６８から解析結果を読み出すと共に、記憶部６０の各ＤＢからデータを読み出す。そして、提示情報変換部７０は、解析結果等の中から必要なデータを選択して提示情報を生成し、ネットワーク２１を介して表示装置２０へ送信する。提示情報として送信するデータは、表示装置２０が画面表示するために必要なデータであり、予め設定されている。
【００６６】
また、提示情報変換部７０は、解析結果の一つである、発話特徴解析制御部５０の頻出重要単語抽出手段５８により発話音声から抽出された頻出重要単語を検索ワードとして、ネットワーク２１を介して任意のデータベースを検索する。そして、提示情報変換部７０は、データベースの検索結果として得た情報を提示情報として表示装置２０へ送信する。データベースの検索結果は、例えば、頻出重要単語に直接関連するテキスト、ウェブページ、画像、地図、ニュース、動画、電子メール、これらの情報の所在を表すリンク情報（ＵＲＩ：ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ）等である。これにより、表示装置２０は、発話音声の中で有意性の高い要点部分の頻出重要単語について、直接関連する情報を表示することができる。
【００６７】
（表示装置）
次に、図２に示した表示装置２０について説明する。表示装置２０は、音声情報処理装置１からネットワーク２１を介して提示情報を受信し、画面表示用のデータに変換し、画面表示する。ここで、提示情報は、前述のとおり、解析結果、案内情報、発話音声、眼球映像、通常顔映像、目隠し顔映像、テキスト情報等、瞳孔径及び顔面動きのうちの、音声情報処理装置１の提示情報変換部７０において予め設定されたデータである。
【００６８】
図８は、表示装置２０に表示される画面例である。表示装置２０は、提示情報を受信し、提示情報から画面表示用のデータに変換し、図８に示す画面を表示する。具体的には、表示装置２０は、提示情報として、テキスト情報、区間種別情報、発話音声の相対音量Ｖ（ｔ）、発話者の情動反応値Ｅｓ（ｔ）及び聴取者の情動反応値Ｅｏ（ｔ）を入力し、図８左上の「音声・情動の時間変動」の箇所に示すグラフの画面表示用データに変換し、発話音声の相対音量Ｖ（ｔ）と共にテキスト情報及び区間の種別、並びに情動反応値Ｅｓ（ｔ）を表示する。表示装置２０は、所定のキー操作の入力があると、発話者の情動反応値Ｅｓ（ｔ）に加えて、聴取者の情動反応値Ｅｏ（ｔ）のグラフの色を変える等、種別が分かるようにして表示する。
【００６９】
表示装置２０は、図８右上の「閾値パラメータ設定スライダバー」の箇所に示すスライダバーを表示し、キー操作によってスライダバーの位置の変更入力があると、その位置に応じた閾値（発話者の情動反応値Ｅｓ（ｔ）に対する閾値、聴取者の情動反応値Ｅｏ（ｔ）に対する閾値）及びパラメータ（音声再生速度）を設定する。
【００７０】
表示装置２０は、提示情報として発話音声を入力し、「閾値パラメータ設定スライダバー」の下の箇所に各ボタンを表示し、キー操作によるボタン指定の入力があると、そのボタンに応じた処理を行う。例えば、表示装置２０は、再生ボタンの入力があると、「閾値パラメータ設定スライダバー」に設定された音声再生速度により、発話音声を再生してスピーカ（図２には図示せず）へ出力する。また、休止ボタンの入力があると、再生を一旦休止する。
【００７１】
表示装置２０は、提示情報として目隠し顔映像を入力し、図８左下の「映像」の箇所にその顔映像を表示する。このように、表示装置２０に画面表示される目隠し顔映像は、図３に示したカメラ１７から直接入力した映像であり、通常顔映像を加工して生成した映像ではないから、この目隠し顔映像を通常顔映像に戻すことができず、秘匿性の高い映像を提供することができる。
【００７２】
表示装置２０は、提示情報として、テキスト情報、区間種別情報、発話者の相対音量Ｖ（ｔ）及び区間平均音量Ｖ、発話者の相対音高Ａ（ｔ）及び区間平均音高Ａ、区間毎の音素数（または音節数）Ｃ及び発声速度ＶＶ、無意区間、テキスト化不可部分、発話者の情動反応値Ｅｓ（ｔ）及び区間平均情動反応値Ｅｓ、並びに聴取者の情動反応値Ｅｏ（ｔ）及び区間平均情動反応値Ｅｏを入力し、図８右下の「変換テキスト」の箇所に示す形態で画面表示する。また、「変換テキスト」の左側に設けられたカーソルをキー操作により上下に移動させることにより、テキストの位置が指定され、表示するテキストが多い場合は音声再生しているテキスト部分のみを表示する。「変換テキスト」の表示については後述する。
【００７３】
表示装置２０は、図８右下の「機能オプション（必要な機能をチェック）」の箇所に示すチェックボックスを表示し、キー操作によってチェックの指定を行う。キー操作によるチェックの指定の入力があると、そのチェックボックスに入力があったことを示す表示を行い、そのチェックボックスに対応した機能を「変換テキスト」の箇所の表示形態に反映する。すなわち、チェックボックスに対応した「発声強弱表示」「発声音高表示」「発声速度表示」「無意区間表示」「テキスト化不可部表示」「発話者情動閾値」「聴取者情動閾値」のそれぞれの機能が、「変換テキスト」の箇所の表示形態に反映される。一方、キー操作によるチェックの指定解除の入力があると、そのチェックボックスの表示を消去し、その機能を解除する。また、「発話者情動閾値」のチェックボックスにチェックがされていない場合は発話者の情動反応値の表示が行われないから、「閾値パラメータ設定スライダバー」における「発話者情動閾値」のスライダバーを左端に表示する。「聴取者情動閾値」についても同様である。詳細については後述する。
【００７４】
また、表示装置２０は、前述したように、キー操作により再生ボタンの入力があると、「閾値パラメータ設定スライダバー」に設定された音声再生速度により、発話音声を再生してスピーカから出力する。このとき、表示装置２０は、「音声・情動の時間変動」及び「変換テキスト」の箇所に、再生している発話音声のカーソルを表示する。図８は、「変わ」の発話音声が出力されているときの表示である。そして、表示装置２０は、「変換テキスト」の「変わ」の箇所に、その区間の情報を小ウィンドウに表示する。具体的には、表示装置２０は、小ウィンドウに、区間種別情報における区間時間長Δｔ：２．２ｓｅｃ、区間種別情報における種別：Ｌ（発言区間）、区間平均音量Ｖ：８６、音素数（または音節数）Ｃ：５、区間平均音高Ａ：４２０及び発話者の区間平均情動反応値Ｅｓ：９０を表示する。
【００７５】
図９は、提示情報の表示例を説明する図であり、図８に示した「変換テキスト」の箇所の表示である。図９において、「ん〜多分今と変わらないと思います。つまり・・・・」は、発話音声から得られたテキスト情報を示している。また、テキスト情報の各文字に対応した折れ線は、音高の大きさを示している。
【００７６】
図９を参照して、表示装置２０は、テキスト情報を表示する際に、区間毎に算出された区間平均音量Ｖに応じて、区間毎のテキスト文字の大きさを変更する。具体的には、テキスト文字の大きさが区間平均音量Ｖに比例するように、区間平均音量Ｖが大きい場合はテキスト文字を大きく表示し、区間平均音量Ｖが小さい場合はテキスト文字を小さく表示する。これにより、発話者による発声音の強弱がテキスト文字の大きさに反映されるから、発話者が大きな声で話した箇所または小さな声で話した箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、大きな声または小さな声で話した箇所が、有意性の高い要点部分であるといえる。
【００７７】
表示装置２０は、テキスト情報の表示と共に、区間毎に算出された区間平均音高Ａを折れ線グラフとして、テキスト情報の文字に対応して表示する。具体的には、区間平均音高Ａが大きい場合はテキスト文字の上側の位置に表示し、区間平均音高Ａが小さい場合はテキスト文字の下側の位置に表示する。これにより、発話者による発声音の高低が、テキスト文字に対応した位置に折れ線グラフとして表示されるから、発話者が高い声または低い声で話した箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、高い声または低い声で話した箇所が、有意性の高い要点部分であるといえる。
【００７８】
表示装置２０は、テキスト情報を表示する際に、区間毎に算出された発声速度ＶＶに応じて、区間毎のテキスト文字の幅を変更する。具体的には、テキスト文字の幅が発声速度ＶＶの大きさに比例するように、発声速度ＶＶが大きい場合はテキスト文字の幅を大きくして表示し、発声速度ＶＶが小さい場合はテキスト文字の幅を小さくして表示する。これにより、発話者による発声速度がテキスト文字の幅に反映されるから、発話者が速い速度で話した箇所または遅い速度で話した箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、速い速度または遅い速度で話した箇所が、有意性の高い要点部分であるといえる。
【００７９】
表示装置２０は、テキスト情報を表示する際に、特定した無意区間（その他発声区間及び沈黙区間）における区間時間長に対応した表示を、空白文字または擬音表現の形態で表示する。図９では、沈黙区間をアンダーラインで表示し、その他発声区間をテキスト情報の文字で表示している。この場合、その他発声区間のテキスト文字の表示に代えて、アンダーラインで表示するようにしてもよい。これにより、発話者が実際に意味のある発言をした区間以外の無意区間がテキスト文字とは異なる形態で表示されるから、テキスト文字の中で無意区間を容易に認識することができ、その区間は有意性の高い部分でないことを客観的に判断することができる。
【００８０】
表示装置２０は、テキスト情報を表示する際に、テキスト情報に含まれるテキスト化不可部分を、特定の文字で表示する。例えば、テキスト化不可部分を＋＋＋で表示する。これにより、発話者が発話したにもかかわらず、テキスト化できなかった箇所を容易に認識することができる。
【００８１】
表示装置２０は、テキスト情報を表示する際に、区間毎に算出された、発話者の区間平均情動反応値Ｅｓに応じて、区間毎のテキスト文字を濃淡表示する。具体的には、区間平均情動反応値Ｅｓが閾値（図８の「閾値パラメータ設定スライダバー」において設定された発話者情動閾値）よりも大きい場合は、テキスト文字が浮かび上がるように濃く表示し、区間平均情動反応値Ｅｓが閾値以下の場合は、テキスト文字が半透明になるように薄く表示する。これにより、発話者の瞳孔径及び顔面動きにより表される情動反応がテキスト文字の濃淡に反映されるから、発話者が情動を示している箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、情動を示している箇所が、有意性の高い要点部分であるといえる。
【００８２】
表示装置２０は、テキスト情報を表示する際に、区間毎に算出された、聴取者の区間平均情動反応値Ｅｏに応じて、区間毎のテキスト文字の背景を色付けする。具体的には、区間平均情動反応値Ｅｏが閾値（図８の「閾値パラメータ設定スライダバー」において設定された聴取者情動閾値）よりも大きい場合は、テキスト文字の背景を所定の色で濃く表示し、区間平均情動反応値Ｅｏが閾値以下の場合は、テキスト文字の背景を所定の色で薄く表示する。これにより、発話者の発話を聞いている聴取者の瞳孔径及び顔面動きにより表される情動反応がテキスト文字の背景に色付けして反映されるから、聴取者が情動を示している箇所を容易に認識することができ、有意性の高い要点部分を客観的に抽出することができる。一般に、情動を示している箇所が、有意性の高い要点部分であるといえる。尚、図８及び図９では、図８の「機能オプション（必要な機能をチェック）」における「聴取者情動閾値」のチェックボックスがチェックされていないから、聴取者の区間平均情動反応値Ｅｏに応じた色付けは表示されない。
【００８３】
また、表示装置２０は、図８に示した「機能オプション（必要な機能をチェック）」におけるチェックボックスがチェックされている場合、その機能による表示を行い、チェックされていない場合、その機能による表示を行わない。
【００８４】
このように、図８に示した表示画面例のように、図９に示した「変換テキスト」の表示により、発話者による発声音の強弱及び高低、発声速度、無意区間の有無、テキスト化不可部及び発話者情動反応値（または／及び聴取者情動反応値）が、テキスト文字の形態に反映されると共に、テキスト文字に対応して表現される。これにより、発話音声のテキスト情報の特性を、発声音の強弱等のデータ及び生理反応データから特徴付けることができる。したがって、発話音声のテキスト情報の特性に基づいて、発話音声の中から、有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。この場合、テキスト文字を見るオペレータは、発声音の強弱及び高低、発声速度等を、テキスト文字の形態によって直感的に認識することができる。
【００８５】
尚、表示装置２０は、音声情報処理装置１からネットワーク２１を介して提示情報を受信するようにしたが、音声情報処理装置１が表示装置２０の機能を備え、図８に示した各データを図示しない表示器に表示するようにしてもよい。
【００８６】
以上のように、本発明の実施形態による実施例１の音声情報処理装置１によれば、入力部３２が、発話音声、眼球映像、通常顔映像及び目隠し顔映像を入力して記憶部６０に記憶し、発話特徴解析制御部５０が、音声認識部４１により発話音声から生成されたテキスト情報、区間種別情報等、瞳孔径解析部４２により眼球映像を解析して得られた瞳孔径、顔面動き量推定部４３により通常顔映像から推定された顔面動きを入力し、発話音声の相対音量及び相対音高、発話速度、無意区間、テキスト化不可部分、発話者情動反応値及び聴取者情動反応値を求め、発話特徴の解析結果として記憶部６０に記憶するようにした。また、表示装置２０は、記憶部６０に記憶されたデータのうちの所定の提示情報を受信し、発話者による発声音の強弱及び高低、発声速度、無意区間の有無、テキスト化不可部分及び発話者情動反応値（または／及び聴取者情動反応値）を発話音声のテキスト情報の特性として、テキスト文字の形態に反映し、テキスト文字に対応した箇所に表示するようにした。これにより、発話音声の中から有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。また、人的作業が不要になるから、発話音声の中から有意性の高い要点部分を容易に抽出することが可能となる。
【００８７】
〔実施例２〕
次に、本発明の第２の実施形態（実施例２）について説明する。図１０は、実施例２による音声情報処理装置の機能構成を示すブロック図である。この音声情報処理装置２は、図１に示した制御部１００が音声情報処理プログラムにより処理を実行する際の機能構成を示している。この音声情報処理装置２は、案内情報提示部３１、入力部３３、音声認識部４１、瞳孔径解析部４２、顔面動き量推定部４４、発話特徴解析制御部５０、記憶部８０及び提示情報変換部７０を備えている。図２に示した実施例１の音声情報処理装置１と、この実施例２の音声情報処理装置２とを比較すると、音声情報処理装置２は、音声情報処理装置１に備えた構成とは異なる入力部３３、顔面動き量推定部４４及び記憶部８０を備えている点で相違する。これら以外の構成は同じである。また、この音声情報処理を実現するシステムは、音声情報処理装置２、スピーカ１１、表示器１２、マイク１４とカメラ１５と照射器１６と加速度センサ１８とを備えた目隠し用ゴーグル（ヘッドセット）１９、及び表示装置２０を備えて構成される。音声情報処理装置２と表示装置２０とは、インターネット等のネットワーク２１により接続される。図２に示した実施例１のシステムと、この実施例２のシステムとを比較すると、実施例２のシステムは、加速度センサ１８を備えており、通常顔映像及び目隠し顔映像を撮影するカメラ１７を備えていない点で実施例１のシステムと相違する。
【００８８】
加速度センサ１８は、目隠し用ゴーグル１９に設けられ、発話者の顔面動きを捉え、ｘ，ｙ，ｚ方向の加速度センサデータを音声情報処理装置２の入力部３３に出力する。加速度センサ１８は、縦、横及び高さの３方向の加速度を測定する３軸対応のデバイスであり、物体に加わる３次元空間のあらゆる方向の加速度を測定することができる。
【００８９】
音声情報処理装置２の入力部３３は、目隠し用ゴーグル１９に備えたマイク１４から発話者の発話音声を、カメラ１５から眼球映像を、加速度センサ１８から加速度センサデータをそれぞれ入力する。そして、これらの情報を同期した情報として、記憶部８０に記憶する。これにより、記憶部８０には、発話音声ＤＢ６２、眼球映像ＤＢ６３及び加速度センサデータＤＢが生成される。
【００９０】
顔面動き量推定部４４は、記憶部８０の加速度センサデータＤＢから加速度センサデータを読み出し、加速度センサデータを解析することにより発話者の顔面動き（顔面動きベクトル）を生成し、顔面動きを発話特徴解析制御部５０に出力する。具体的には、顔面動き量推定部４４は、ｘ，ｙ，ｚ方向の加速度センサデータを時間方向にそれぞれ積分し、ｘ，ｙ，ｚ方向の速度成分を得る。そして、これらの３つの速度成分からなるベクトルを所定の撮像面に射影することによって、その撮像面における平行移動速度を示すパラメータｃ，ｄ（ｃは撮像面上における平行移動速度の水平成分、ｄは垂直成分にそれぞれ対応する）からなる顔面動きベクトルを算出する。尚、加速度センサ１８からのｘ，ｙ，ｚ方向の加速度センサデータに基づいて、移動速度、移動距離、移動方向等の動き情報を生成する手法については既知である。詳細については、例えば特開２００６−３２０５６６号公報を参照されたい。
【００９１】
音声認識部４１からのテキスト情報等、瞳孔径解析部４２からの瞳孔径、及び顔面動き量推定部４４からの顔面動きは、互いに同期し時間的に対応付けられた情報として発話特徴解析制御部５０に出力される。
【００９２】
表示装置２０は、音声情報処理装置２からネットワーク２１を介して提示情報を受信し、画面表示用のデータに変換し、画面表示する。ここで、提示情報は、解析結果、案内情報、発話音声、眼球映像、テキスト情報等、瞳孔径及び顔面動きのうちの、音声情報処理装置２の提示情報変換部７０において予め設定されたデータである。
【００９３】
以上のように、本発明の実施形態による実施例２の音声情報処理装置２によれば、実施例１の音声情報処理装置１の効果と同様に、発話音声の中から有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。また、人的作業が不要になるから、発話音声の中から有意性の高い要点部分を容易に抽出することが可能となる。
【００９４】
〔実施例３〕
次に、本発明の第３の実施形態（実施例３）について説明する。図１１は、実施例３による音声情報処理装置の機能構成を示すブロック図である。実施例３は、２人の発話者Ａ，Ｂが発話し、それを聴取者が聞いているインタビューの状況を例にして、発話者Ａ，Ｂの発話音声及び生理反応データ、並びに聴取者の生理反応データに基づいて、発話音声区間の重要度Ｗを算出し、発話者Ａ，Ｂの対話状況を解析するものである。この音声情報処理装置３は、図１に示した制御部１００が音声情報処理プログラムにより処理を実行する際の機能構成を示している。この音声情報処理装置３は、案内情報提示部３１、入力部３２−１，３２−２，８３、音声認識部４１−１，４１−２、瞳孔径解析部４２−１，４２−２、顔面動き量推定部４３−１，４３−２、瞳孔径解析・顔面動き量推定部８５、発話特徴解析制御部８６、記憶部８４及び提示情報変換部７０を備えている。図２に示した実施例１の音声情報処理装置１と、この実施例３の音声情報処理装置３とを比較すると、音声情報処理装置３は、案内情報提示部３１及び記憶部８４に加え、発話者Ａ，Ｂ用の２系統の入力部３２−１，３２−２、音声認識部４１−１，４１−２、瞳孔径解析部４２−１，４２−２、顔面動き量推定部４３−１，４３−２を備え、さらに、聴取者用の入力部８３及び瞳孔径解析・顔面動き量推定部８５を備えている点で相違する。また、この音声情報処理を実現するシステムは、音声情報処理装置３、スピーカ１１、表示器１２、マイク１４−１とカメラ１５−１と照射器１６−１とを備えた発話者Ａ用の目隠し用ゴーグル１３−１、発話者Ａの通常顔及び目隠し顔を撮影するカメラ１７−１、マイク１４−２とカメラ１５−２と照射器１６−２とを備えた発話者Ｂ用の目隠し用ゴーグル１３−２、発話者Ｂの通常顔及び目隠し顔を撮影するカメラ１７−２、並びに、聴取者の眼球を撮影して眼球映像を出力するカメラ８１及び聴取者の通常顔を撮影して通常顔映像を出力するカメラ８２を備えて構成される。音声情報処理装置３と表示装置２０とは、インターネット等のネットワーク２１により接続される。図２に示した実施例１のシステムと、この実施例３のシステムとを比較すると、実施例３のシステムは、発話者Ａ，Ｂ用の２系統の目隠し用ゴーグル１３−１，１３−２及びカメラ１７−１，１７−２、並びに聴取者用のカメラ８１，８２を備えている点で相違する。但し、図１１において、図２と共通する部分には図２と同一の符号を付し、その詳しい説明は省略する。
【００９５】
記憶部８４には、入力部３２−１を介して、発話者Ａの発話音声、眼球映像、通常顔映像及び目隠し顔映像が記憶され、入力部３２−２を介して、発話者Ｂの発話音声、眼球映像、通常顔映像及び目隠し顔映像が記憶される。また、記憶部８４には、入力部８３を介して、聴取者の眼球映像及び通常顔映像が記憶される。
【００９６】
音声認識部４１−１，４１−２、瞳孔径解析部４２−１，４２−２及び顔面動き量推定部４３−１，４３−２は、図２に示した音声認識部４１、瞳孔径解析部４２及び顔面動き量推定部４３と同様である。発話者Ａ，Ｂのテキスト情報等、瞳孔径及び顔面動きは、記憶部８４に記憶される。
【００９７】
瞳孔径解析・顔面動き量推定部８５は、図２に示した瞳孔径解析部４２及び顔面動き量推定部４３と同様であり、記憶部８４から聴取者の眼球映像を読み出し、瞳孔径を算出する。また、記憶部８４から聴取者の通常顔映像を読み出し、顔面動きを推定する。そして、瞳孔径解析・顔面動き量推定部８５は、聴取者の瞳孔径及び顔面動きを発話特徴解析制御部８６に出力する。聴取者の瞳孔径及び顔面動きは、記憶部８４に記憶される。
【００９８】
発話特徴解析制御部８６は、図５に示したように、相対音量算出部５１、相対音高算出部５２、発声速度算出部５３、無意区間特定部５４、テキスト化不可部分特定部５５、発話者情動反応値算出部５６、区間重要度算出手段５７及び頻出重要単語抽出手段５８を備えており、これらに加え、前述した聴取者情動反応値算出部を備えている。相対音量算出部５１、相対音高算出部５２、発声速度算出部５３、無意区間特定部５４、テキスト化不可部分特定部５５及び発話者情動反応値算出部５６は、発話者Ａ，Ｂの相対音量Ｖ（ｔ）等をそれぞれ算出し、無意区間及びテキスト化不可部分をそれぞれ特定する。また、聴取者情動反応値算出部は、聴取者の情動反応値Ｅｏ（ｔ）及び区間平均情動反応値Ｅｏを算出する。
【００９９】
区間重要度算出手段５７は、発話音声区間において、区間平均音量Ｖ、区間平均音高Ａ、発声速度ＶＶ、発話者Ａ，Ｂの区間平均情動反応値Ｅｓ及び聴取者の区間平均情動反応値Ｅｏを用いて、テキスト情報の重要度Ｗを算出する。具体的には、区間重要度算出手段５７は、発話者Ａが発話し、発話者Ｂ及び聴取者がその発話を聞いている発話音声区間Ｔ１において、発話者Ａの発話音声特性データ、区間平均情動反応値Ｅｓ１（Ｔ１）、発話者Ｂの区間平均情動反応値Ｅｓ２（Ｔ１）及び聴取者の区間平均情動反応値Ｅｏ（Ｔ１）等を用いて、発話者Ａによる発話の重要度Ｗ１（Ｔ１）を算出する。また、区間重要度算出手段５７は、発話音声区間Ｔ１の直後に、発話者Ｂが発話し、発話者Ａ及び聴取者がその発話を聞いている発話音声区間Ｔ２において、発話者Ｂの発話音声特性データ、区間平均情動反応値Ｅｓ２（Ｔ２）、発話者Ａの区間平均情動反応値Ｅｓ１（Ｔ２）及び聴取者の区間平均情動反応値Ｅｏ（Ｔ２）等を用いて、発話者Ｂによる発話の重要度Ｗ２（Ｔ２）を算出する。同様に、区間重要度算出手段５７は、その直後に発話者Ａが発話する発話音声区間Ｔ３において、発話者Ａによる発話の重要度Ｗ１（Ｔ３）を算出し、その直後に発話者Ｂが発話する発話音声区間Ｔ４において、発話者Ｂによる発話の重要度Ｗ２（Ｔ４）を算出する。
【０１００】
そして、区間重要度算出手段５７は、発話者Ａによる発話の重要度Ｗ１及び発話者Ｂによる発話の重要度Ｗ２を解析結果として提示情報変換部７０に出力すると共に、記憶部８４に記憶する。
【０１０１】
提示情報変換部７０は、前述した提示情報を生成することに加え、発話者Ａによる発話の重要度Ｗ１及び発話者Ｂによる発話の重要度Ｗ２を解析結果として入力する。そして、提示情報変換部７０は、発話者Ａによる発話の重要度Ｗ１が順次大きくなっているか否かを判定し、大きくなっていると判定した場合、すなわち、以下の式を満たす場合、発話者Ａによる発話の重要度Ｗ１が増加傾向にあると判定する。
Ｗ１（Ｔ１）≦Ｗ１（Ｔ３）
また、提示情報変換部７０は、発話者Ｂによる発話の重要度Ｗ２が順次大きくなっているか否かを判定し、大きくなっていると判定した場合、すなわち、以下の式を満たす場合、発話者Ｂによる発話の重要度Ｗ２が増加傾向にあると判定する。
Ｗ２（Ｔ２）≦Ｗ２（Ｔ４）
また、提示情報変換部７０は、これらの条件を満たすと判定した場合、すなわち、発話者Ａによる発話の重要度Ｗ１及び発話者Ｂによる発話の重要度Ｗ２が順次大きくなっていると判定した場合、発話者Ａ，Ｂが同時に有用性の高い要点部分の発話をしている、つまり、その対話のシーケンスが相乗効果を生みだす重要な局面になっているものと判定する。
【０１０２】
そして、提示情報変換部７０は、これらの判定結果を、ネットワーク２１を介して表示装置２０へ送信する。これらの判定結果は、発話者Ａ，Ｂを特定するための識別子と共に、対話シーケンスのテキスト上の発話音声特性データと同様に、グラフとして表示される。また、対応するテキスト上に、重要度に応じて所定の形態にて表示される。
【０１０３】
以上のように、本発明の実施形態による実施例３の音声情報処理装置３によれば、実施例１の音声情報処理装置１の効果と同様に、発話音声の中から有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。また、人的作業が不要になるから、発話音声の中から有意性の高い要点部分を容易に抽出することが可能となる。さらに、表示装置２０において、複数の発話者による対話の重要度Ｗ１，Ｗ２を時間軸上に数値化することにより、複数の発話者による発話音声の中から、有意性の高い要点部分を客観的かつ総合的に抽出することが可能となる。
【０１０４】
尚、実施例３では、発話者が２人の例で説明したが、本発明はその人数を限定するものではない。また、実施例３は、図１０の実施例２に示したように、加速度センサデータによって顔面動きを推定するようにしてもよい。また、発話者が３人以上の場合、発話特徴解析制御部８６の区間重要度算出手段５７は、発話者Ａによる発話の重要度Ｗ１、発話者Ｂによる発話の重要度Ｗ２、発話者Ｃによる発話の重要度Ｗ３等を算出し、提示情報変換部７０は、発話音声区間毎のこれらの重要度Ｗ１，Ｗ２，Ｗ３等を用いて、前述の条件式により、重要度が増加している発話音声区間の局面を特定し、その局面において発話している発話者のグループを特定してその人数を算出する。そして、提示情報変換部７０は、その人数が所定数よりも大きい場合は、その局面の発話内容（議論）が重要な部分、すなわち、有意性の高い要点部分であると判定し、その人数が所定数以下の場合は、その局面の議論が重要でない部分、すなわち有用性の高くない部分であると判定する。これにより、発話内容が有意性の高い要点部分であるか否か、すなわち、議論が重要であるか否かの軽重を判定することができる。
【符号の説明】
【０１０５】
１，２，３音声情報処理装置
１１スピーカ
１２表示器
１３，１９目隠し用ゴーグル
１４マイク
１５，１７，８１，８２カメラ
１６照射器
１８加速度センサ
２０表示装置
２１ネットワーク
３１案内情報提示部
３２，３３，８３入力部
４１音声認識部
４２瞳孔径解析部
４３，４４顔面動き量推定部
５０，８６発話特徴解析制御部
５１相対音量算出部
５２相対音高算出部
５３発声速度算出部
５４無意区間特定部
５５テキスト化不可部分特定部
５６発話者情動反応値算出部
５７区間重要度算出手段
５８頻出重要単語抽出手段
６０，８０，８４記憶部
６１案内情報ＤＢ
６２発話音声ＤＢ
６３眼球映像ＤＢ
６４通常顔映像ＤＢ
６５目隠し顔映像ＤＢ
６６テキスト情報等ＤＢ
６７瞳孔径・顔面動きＤＢ
６８解析結果ＤＢ
７０提示情報変換部
８５瞳孔径解析・顔面動き量推定部
１００制御部
１０１ＣＰＵ
１０２記憶部
１０３記憶装置
１０４通信部
１０５入力インタフェース部
１０６操作・入力部
１０７表示出力インタフェース部
１０８音声出力インタフェース部
１０９システムバス
１７１レンズ
１７２分光用プリズム
１７３近赤外線カットフィルタ
１７４，１７６撮像素子
１７５近赤外線透過フィルタ

【特許請求の範囲】
【請求項１】
発話者の発話音声をテキスト化し、テキスト情報に変換する音声情報処理装置において、
語彙、前記語彙の発音、及び前記語彙に対しテキスト情報の区間を設定するための区間種別が規定された辞書を用いて、前記発話音声をテキスト情報に変換し、前記発話音声の信号レベルが所定の値未満となる沈黙区間を設定し、前記辞書に規定された語彙に対する区間種別及び前記テキスト情報に含まれる語彙によって、前記発話者が発声した時間区間のうちの実際に意味のある発声をした発言区間を設定し、前記発話者が発声した時間区間のうちの前記発言区間を除いた時間区間をその他発声区間に設定する音声認識部と、
前記発話音声に基づいて、前記区間毎に、発話音声特性データを算出する発話音声特性データ算出部と、
前記発話者の生理状態によって変化する生理反応データを入力し、前記生理反応データに基づいて、前記区間毎に、前記発話者の情動の程度を示す発話者情動反応値を算出する発話者情動反応値算出部と、
前記発言区間及びその他発声区間におけるテキスト情報をテキスト文字で表示する際に、前記発話音声特性データ算出部により算出された発話音声特性データの値、及び前記発話者情動反応値算出部により算出された発話者情動反応値に応じた形態で、前記音声認識部により区別された区間毎に前記テキスト文字を表示し、前記沈黙区間を、予め設定された形態で表示する表示部と、
を備えたことを特徴とする音声情報処理装置。
【請求項２】
請求項１に記載の音声情報処理装置において、
前記発話音声特性データ算出部は、前記発話音声に基づいて、前記区間毎に、発話音声の音量、音高及び速度を算出し、
前記発話者情動反応値算出部は、発話者の眼球運動に伴うデータ、顔面の動き、脈拍値、発汗量のうちの少なくとも一つまたは複数のデータに基づいて、前記区間毎に、発話者情動反応値を算出し、
前記表示部は、前記発話音声特性データ算出部により算出された発話音声の音量、音高及び速度の値、並びに、前記発話者情動反応値算出部により算出された発話者情動反応値に応じたそれぞれの形態で前記テキスト文字を表示し、前記沈黙区間を空白で表示し、前記音声認識部によりテキスト化できなかった前記発言区間またはその他発声区間を、予め設定された形態で表示することを特徴とする音声情報処理装置。
【請求項３】
請求項１または２に記載の音声情報処理装置において、
前記発話音声特性データ及び前記発話者情動反応値に基づいて、前記区間毎のテキスト情報の重要度を算出する区間重要度算出部と、
前記テキスト情報の重要度と所定の値とに基づいて、重要度の高い区間を特定し、前記特定した区間のテキスト情報から単語を抽出する頻出重要単語抽出部と、
前記抽出された単語を検索語としてデータベースを検索する検索部とを備え、
前記表示部は、さらに、前記データベースの検索結果を表示することを特徴とする音声情報処理装置。
【請求項４】
請求項１から３までのいずれか一項に記載の音声情報処理装置において、
前記発話者による発話を聴取する聴取者の眼球運動に伴うデータ、顔面の動き、脈拍値、発汗量のうちの少なくとも一つまたは複数のデータに基づいて、前記区間毎に、聴取者情動反応値を算出する聴取者情動反応値算出部を備え、
前記表示部は、さらに、前記聴取者情動反応値算出部により算出された聴取者情動反応値に応じた形態で、前記テキスト文字を表示することを特徴とする音声情報処理装置。
【請求項５】
請求項４に記載の音声情報処理装置において、
複数の発話者のそれぞれに対応して、前記処理をそれぞれ行う音声認識部、発話音声特性データ算出部、発話者情動反応値算出部及び表示部を備え、
さらに、前記複数の発話者のうちの一人の発話者による発話の前記区間について、前記一人の発話者の発話音声特性データ及び発話者情動反応値、前記他の発話者の発話者情動反応値、並びに前記聴取者情動反応値に基づいて、前記一人の発話者による発話の重要度を算出する区間重要度算出部を備え、
前記表示部は、さらに、前記重要度に応じた形態で、前記重要度が算出された前記一人の発話者における前記テキスト文字を表示することを特徴とする音声情報処理装置。
【請求項６】
請求項１から５までのいずれか一項に記載の音声情報処理装置を含むシステムにおいて、
近赤外線を前記発話者の目の周辺に照射する照射器と、
前記近赤外線を透過するフィルタ、及び前記フィルタからの出射光を受光する撮像素子を有し、前記発話者の映像を前記フィルタ及び撮像素子を介して目隠し顔映像として出力するカメラとを備え、
前記音声情報処理装置の表示部は、前記カメラにより出力された前記発話者の目隠し顔映像を表示することを特徴とするシステム。

【図１】