説明

感情情報通知装置

【課題】他の作業をしている介護者の作業を妨げることなく、被介護者の感情情報を通知することが可能な感情情報通知装置を提供する。
【解決手段】映像モジュールプログラム1200は、ハードディスク1110に格納された動画像から顔領域を抽出する顔検出部1208と、オプティカルフローに基づいて、検出され抽出された顔の内部の画像上の動きを特定するための情報の計算を行なうオプティカルフロー算出部1206とを含む。音響効果付加モジュールプログラム1400は、キャプチャされてハードディスク1110に格納された動画像から被験者の感情状態を判断し、オーディオ再生装置200から入力された音声信号に対応する音響効果を付加する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、対象者の表情画像を長期にわたって記録し、かつ事後に検索するための感情情報通知装置の構成に関する。
【背景技術】
【0002】
現代生活は、我々が、職業上や、家庭内や、地域コミュニティの中で様々な役割を果たすことを要求している。
【0003】
一方で、多くの国において、老齢人口の割合が増加しており、もはや自分のことを自分だけでできるという生活様式が困難になる人の割合も増加している。
【0004】
日本においては、そのような老人はしばしば家族とともに生活しており、毎日かなりの時間にわたって家族が注意を払うことを要している。このことは、上述のような他の様々な役割を果たすことが要求される介護者にとって、被介護者から目を離せない状態が継続することになり、介護者の大きな精神的・肉体的な負担となる。
【0005】
最終的には、このような介護者の負担を軽減し、被介護者に向ける注意の一部を肩代わりしてくれるようなシステムが開発されることが望ましい。
【0006】
一方で、近年、撮像装置で撮影された画像から、撮像装置の周囲の物体の動き等を把握する方法が提案されている。その方法は、動画像のフレーム間でオプティカルフローを測定することにより、写っている物体の動きを把握するものである。
【0007】
このような「オプティカルフロー」は、画像の各フレームに特徴照合法(パターンマッチング)や、時空間勾配法等を用いることにより求められる(たとえば、特許文献1、非特許文献1を参照)。
【0008】
また、撮影された画像内での動き検出だけでなく、オプティカルフローを用いて、人間の表情と関連づける試みも報告されている(たとえば、非特許文献2を参照)。
【特許文献1】特開2004−355082号公報
【非特許文献1】Barrron, J. L., Fleet, D. J., Beauchemin, S.S.: Performance of optical flow techniques. The International Journal of Computer Vision, 12(1994)pp.43-77
【非特許文献2】Lyons, M.J., Funk, M., Kuwabara, K. : Segment and Browse: A Strategy for Supporting Human Monitoring of Facial Expression Behaviour, INTERACT 2005 (LNCS 3585), pp. 1120-1123 (2005).
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、顔画像の変化等を検知した場合に、他の作業をしている介護者に被介護者の心理状態を効果的に通知する方法は、必ずしも明らかではなかった。
【0010】
本発明は、このような問題点を解決するためになされたものであって、その目的は、他の作業をしている介護者の作業を妨げることなく、被介護者の感情情報を通知することが可能な感情情報通知装置を提供することである。
【課題を解決するための手段】
【0011】
この発明のある局面に従うと、感情情報通知装置であって、被験者に対する観測情報を得るための検知手段と、観測情報に応じて、被験者の感情状態を判断する感情状態算出手段と、感情状態の判断結果に応じて、外部から入力される音声信号に対して所定の音響効果を付加して出力する音響効果処理手段とを備える。
【0012】
好ましくは、検知手段は、被験者の顔画像を含む対象画像領域についての動画像データを獲得する撮影手段を含み、感情状態算出手段は、動画像データを格納するための記憶装置と、記憶装置に格納された対象画像領域内において、顔を検出する顔検出手段と、検出された顔に対応する検出領域において、単位領域ごとに動きベクトルを検出する動き検出手段と、検出された動きベクトルの時間変化に基づいて、被験者の感情状態が少なくとも興奮状態であるかを判断する判断処理手段とを含む。
【0013】
好ましくは、動き検出手段は、検出領域に対応する顔画像データにおいて格子点上の各点についてのオプティカルフローを、異なる複数の速度レベルで算出するオプティカルフロー算出手段を含み、異なる複数の速度レベルに対応したオプティカルフローに基づいて、動きベクトルに関連する情報として、被験者の頭の運動の大きさに相当する第1の情報と、被験者の表情の動きの大きさに相当する第2の情報とを抽出する演算手段をさらに備え、判断処理手段は、第1および第2の情報の累積に応じて、判断処理を行う。
【発明を実施するための最良の形態】
【0014】
(本発明の概要)
表情は人間の心的な状態の重要な情報を提供するものである。以下に説明するように、本発明は、被験者(被介護者)の感情状態を画像情報から判断し、判断された感情情報を音声情報に重畳された音響効果により介護者に通知するようなシステムである。ただし、被験者(被介護者)の感情状態を判断する手がかりとなるものであれば、検知される対象は表情に限られるものではなく、たとえば、被験者(被介護者)の音声の情報や皮膚抵抗などの生体情報などでもよい。また、被験者は、上述したような年長の被介護者でもよいし、たとえば、新生児のように世話の必要な者でもよい。
【0015】
つまり、本発明の感情情報通知装置は、画像入力インタフェースを有するパーソナルコンピュータ等のコンピュータと、このコンピュータ上で実行されるソフトウェアと、カメラなどの撮像装置または音声などの情報を入力するためのマイクなどのセンサと、外部の再生装置から入力される音声信号に対して、判断された感情情報に応じた音響効果をこの入力された音声信号に付加して出力するための音響効果処理装置により実現されるものである。より典型的には、人物の顔の映像から、顔部分を抽出するとともに、この顔の内部の動きを検出して、この動き情報から被験者(被介護者)の感情状態を判断する。
【0016】
なお、コンピュータについては、上述のような汎用コンピュータのみならず、専用機器に組み込まれた組込型のコンピュータであってもかまわない。
【0017】
[ハードウェア構成]
以下、本発明の実施の形態にかかる感情情報通知装置について説明する。
【0018】
図1は、本発明の感情情報通知装置100の構成を示す概略ブロック図である。
図1を参照して、この感情情報通知装置100は、パーソナルコンピュータなどのコンピュータ110と、コンピュータ110に接続され、ユーザ(介護者)2への情報を表示するための表示装置としてのディスプレイ108と、オーディオ再生装置200から入力される音声信号に対してコンピュータ110が音響効果を付加した後の音声信号を再生するためのスピーカ120と、同じくコンピュータ110に接続され、ユーザ2からの指示や情報を入力するための入力装置としてのキーボード106と、被験者4の顔を含む画像を取込むためのカメラ102とを含む。なお、入力装置として、マウスや、タブレットとペンなどをさらに備える構成としてもよい。また、被験者4の感情状態を判断する手がかりとなる情報を取得するためのセンサーとして、マイクや、被験者4の皮膚抵抗の変化を検出し皮膚電気反射(Galvanic Skin Response(GSR))を検知するために被験者4の皮膚表面に接触された電極等が設けられていてもよい。
【0019】
また、この実施の形態のシステムでは、カメラ102としては、たとえば、CCD(固体撮像素子)を含むビデオカメラを用いて、画像データをデジタルデータとしてキャプチャする。
【0020】
なお、図示しないが、コンピュータ110には、CD−ROM(Compact Disc Read-Only Memory )ドライブなど、外部の記録媒体からのデータを取り込むための装置が設けられているものとする。
【0021】
さらに、図1を参照して、コンピュータ110は、バスBSそれぞれに接続された、CPU(Central Processing Unit )1104と、ROM(Read Only Memory) 1106と、RAM(Random Access Memory)1108と、ハードディスク1110と、カメラ102からの画像を取り込み、オーディオ再生装置200からの音声信号を受け取り、音響効果の付加された音声信号を出力し、あるいは入力装置106からの信号を受け取るなどデータを授受するためのインタフェース部1102とを含んでいる。インタフェース部1102は、上述したようなセンサが設けられている場合は、これらのセンサからの入力信号を受け取る。
【0022】
既に述べたように、感情情報通知装置100として機能する部分の主要部は、コンピュータハードウェアと、CPU1104により実行されるソフトウェアとにより実現される。一般的にこうしたソフトウェアはCD−ROM等の記憶媒体に格納されて流通し、CD−ROMドライブ等により記憶媒体から読取られてハードディスク1110に一旦格納される。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから一旦ハードディスク1110にコピーされる。そうしてさらにハードディスク1110からRAM1108に読出されてCPU1104により実行される。なお、ネットワーク接続されている場合には、たとえば、ハードディスク1110に格納することなくRAM1108に直接ロードして実行するようにしてもよい。
【0023】
図1に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、CD−ROMや、ハードディスク1110等の記憶媒体に記憶されたソフトウェアである。
【0024】
なお、最近の一般的傾向として、コンピュータのオペレーティングシステムの一部として様々なプログラムモジュールを用意しておき、アプリケーションプログラムはこれらモジュールを所定の配列で必要な時に呼び出して処理を進める方式が一般的である。そうした場合、当該感情情報通知装置を実現するためのソフトウェア自体にはそうしたモジュールは含まれず、当該コンピュータでオペレーティングシステムと協働してはじめて感情情報通知装置が実現することになる。しかし、一般的なプラットフォームを使用する限り、そうしたモジュールまで含ませたソフトウェアを流通させる必要はなく、それらモジュールを含まないソフトウェア自体およびそれらソフトウェアを記録した記録媒体(およびそれらソフトウェアがネットワーク上を流通する場合のデータ信号)が実施の形態を構成すると考えることができる。
【0025】
[ソフトウェア構成]
図2は、図1に示した感情情報通知装置100上で動作するソフトウェアの構成を説明するための機能ブロック図である。
【0026】
以下では、被験者(被介護者)の感情状態を判断する手がかりとなる情報としては、撮影された画像から検知される表情等の情報であるものとする。
【0027】
図2においては、コンピュータ110上で動作するプログラムは、映像モジュールプログラム1200と、キャプチャされてハードディスク1110に格納された動画像から被験者の感情状態を判断し、オーディオ再生装置200から入力された音声信号に音響効果を付加するための音響効果付加モジュールプログラム1400とを含む。なお、この音響効果付加モジュールプログラム1400の機能は、ハードウェアにより実現されてもよい。
【0028】
本発明では、このような構成とすることで、ユーザ2が作業をしながら聞いているユーザの好みのオーディオ再生装置200からの音楽等に、被験者の感情に関する情報を重畳して、ユーザ2に対して通知することが可能となる。このため、被験者の感情に所定の変化が検知されない場合は、ユーザ2は所望の音楽等を聞きながら作業を継続することができる。
【0029】
以下に説明するとおり、感情情報通知装置100では、動画像が実時間で処理されて、顔の領域が分離され、表情が記録される。顔の動きを解釈するために、オプティカルフロー法が使用される。
【0030】
映像モジュールプログラム1200は、対象となる人物とその周りの環境も含めた動画像をカメラ102から獲得する画像キャプチャ部1202と、キャプチャされた動画像をハードディスク1110に格納するための画像データ記録処理部1204とを含む。画像キャプチャ部1202は、必要に応じて、カメラ102から入力されるデジタル動画像データを保存に適した画像フォーマットへとフォーマット変換を行なう。
【0031】
映像モジュールプログラム1200は、さらに、ハードディスク1110に格納された動画像から顔領域を抽出する顔検出部1208と、オプティカルフローに基づいて、抽出された顔自体または顔の内部の画像上の動きを特定するための情報(たとえば、画像内の動きベクトルの分布)の計算を行なうオプティカルフロー算出部1206とを含み、オプティカルフロー算出部1206は、顔画像の動画像データを算出された動きの属性データとともにハードディスク1110に格納する。
【0032】
すなわち、顔画像の動画像データは、後により詳しく説明するようにして得られる、以下の2つの属性データと時間的に関連づけられながら、ハードディスク1110に格納される。
【0033】
1)頭の剛体的な動きの指標(動きの大きさ:指標1)
2)表情や発話に起因する顔内部の動きの指標(動きの大きさ:指標2)
一方、音響効果付加モジュールプログラム1400は、ハードディスク1110に格納された顔画像から得られた指標情報から指標の変化の特徴を抽出する特徴抽出部1402と、特徴抽出部1402で抽出された特徴に基づいて、感情の変化を算出する感情モデル算出部1404と、オーディオ再生装置200からの音声信号をインターフェース部1102中の音声バッファ130を介して受け取り、後に説明するように、算出された感情の変化に対応する情報に応じて受け取った音声信号に対応する音響効果を付加して、スピーカ120に対して出力する音響効果処理部1406とを含む。
【0034】
(映像モジュールプログラム1200)
カメラ102からの動画像データの入力は、オプティカルフロー処理の演算量の削減や、ハードディスク1110へ格納するためのデータ容量の削減のために、たとえば、640×480画素から320×240画素に間引かれる。
【0035】
周知の顔の検出アルゴリズムにより顔検出部1208が、カメラ102の視野の中に顔が存在するかどうかを決定し、それがどこに存在しているかも決定する。特に限定されないが、この顔検出のアルゴリズムは、頭の画像の中心の位置にくるように、顔に固定されたアスペクト比の矩形領域を登録する。たとえば、約30°まで平面から回転している顔も正確に検出することができ、同様に、画像平面内において約30°傾いた状態の顔も正確に検出することができる。顔画像はスケールされ、30フレーム/秒までのレートで、各フレームに対応する顔画像が、たとえば、タイムスタンプとともに保存される。
【0036】
オプティカルフロー算出部1206において、画像のオプティカルフロー領域が、さまざまなビデオフレーム間での動きを検出する。検出された動きベクトルは、顔の内部領域全体にわたる動きベクトルの平均とともに、顔画像の動画像データと関連づけてハードディスク1110に保存される。
【0037】
オプティカルフローは、視覚的なシーンにおいて、動きにより、画像領域がずれることを測定する。固定されたカメラと近似的に一定な照明に対しては、オプティカルフローのフィールドは、局所的な速度を計っていることになる。オプティカルフローを計算するために用いる方法としては、特に限定されないが、非特許文献1に記載されている、ブロックマッチングあるいはブロック相関として知られているものを使用することが可能である。
【0038】
ブロック相関技術を用いることで、ある画像フレームの領域が、それに続くフレーム中の全く同じサイズの領域にマッチングされる。このようなマッチングは、画像間の距離(たとえば、各画素の輝度の差の絶対和または自乗和など)の大きさを最小化することによって決定される。たとえば、15fpsのフレームレートのオプティカルフローフィールドにおいては、顔の内部の動作による特徴量の変位は、各時間ステップに対して数ピクセル程度になる。
【0039】
速度として動きを計測するために、たとえば、1、3、5、7および10ビデオフレームだけ離れたフレーム間でのオプティカルフローフィールドを計算する。オプティカルフローの値は、さらに、顔検知モジュールによって検出された顔の内部部分に対応している各領域について、対応するフレーム間について平均処理がされる。
【0040】
図3は、顔画像について検出されたオプティカルフローのフィールドの例を示す図である。
【0041】
顔の片側をこわばらせる動きをした場合に、顔画像上の格子点(これをフィールドと呼ぶ)の各々において、動きベクトルが白い矢印で示されている。
【0042】
顔のこわばりの途中や、表情を緩める途中のように動きのある場合には、顔の各部の動きに応じて、動きベクトルが現れているのがわかる。
【0043】
オプティカルフロー算出部1206において算出されるオプティカルフロー値の平均において、上述した1、3、5、7および10ビデオフレームの間隔において平均処理により求められた動きベクトルの大きさである5つの速度レベルについて、動作速度の分布が求められる。このため、そのような動きが大きく顔全体(頭)が剛体的に動いたことによる動作に対応しているものなのか、あるいは表情や会話に対応するもっと微妙な動作に対応しているものであるかが検知できる。つまり、顔全体が動いているときは、5つの動きベクトルのいずれにもピークが現れるのに対し、顔の内部の動きであれば、ビデオフレーム間隔に依存して、ピークの存在する速度レベルと存在しない速度レベルとが混在するというように、顔の動きの解釈を特徴抽出部1402が行なうことができる。
【0044】
特に限定されないが、特徴抽出部1402は、以下の式に従って、上記指標1および指標2に相当する特徴量を算出する。
【0045】
【数1】

【0046】
ここで、添字Xは、X={R,NR}であって、Rのときは、指標1の剛体的な動きに対応する特徴量を意味し、NRのときは、指標2の顔内部の動きに対応する特徴量であることを示す。
【0047】
また、この特徴量の更新は、時間間隔T(たとえば、0.5秒)で行われる。nは、期間[t−T、t]の間に指標1または指標2がそれぞれ所定のしきい値を超えた回数であり、δは、積算係数(たとえば、0.05)である。
【0048】
そして、もう一つの指標(指標3)として、画像内に顔が検出されるかを示す情報を用いる。特徴抽出部1402は、この指標3を、画面内から所定の期間(たとえば、15秒)顔画像が検出されないと、所定レベル以下に減衰するように変化させる。
【0049】
感情モデル算出部1404は、指標3が所定レベル以上である場合には、たとえば、以下の式に従って、感情状態を算出する。
【0050】
【数2】

【0051】
したがって、これも特に限定されないが、たとえば、感情モデル算出部1404の算出結果により、「興奮状態」と判断された場合には、音響効果処理部1406は、オーディオ再生装置200から受け取った音声信号に所定の音響効果を付加して、スピーカ120に対して出力する。
【0052】
なお、皮膚電気反射を単独で測定する場合は、たとえば、「皮膚伝導度」が所定の値よりも大きいときを、「興奮状態」と判断することができる。
【0053】
さらに、たとえば、顔画像と皮膚電気反射を併せて観測する場合は、たとえば、上記のような感情状態の算出結果が「興奮状態」を示すか、または「皮膚伝導度」が所定の値よりも大きいときには、「興奮状態」と判断することができる。
【0054】
(音響効果付加モジュールプログラム1400)
図4は、音響効果付加モジュールプログラム1400において、付加される音響効果の例を示す図である。
【0055】
以下では、音響効果を以下のようなコード名で呼ぶこととする。
すなわち、「N」は「音響効果なし」を、「LP」は「低域透過フィルター処理」を、「SB」は「2ビート分後方スキップ」を、「SF」は「2ビート分前方スキップ」を、「HP」は「高域透過フィルター処理」を、「dub」は「ダブ効果(エコー処理をしつつ、8ビート分の部分を8ビート遅らせて再生)」を、「FS」は「12ビート区間を100〜10,000Hzまでフィルタースイープ処理」を、「RW」は「1ビート分後方に再生してから、前方に再生」を、「dub HP」は「ダブ処理+高域透過フィルター処理」を、「dub LP」は「ダブ処理+低域透過フィルター処理」を、「T」は「1ビート期間、テンポを±10%変更」を、「FG」は「間欠的なフランジ効果」を、「vol」は「12ビート期間、振幅を±10%変更」を、「FG HP」は「間欠的なフランジ効果+高域透過フィルター処理」を、それぞれ示す。
【0056】
ここで、音響効果付加モジュールプログラム1400が付加する音響効果は、その音響効果がユーザ2に与える印象が、被験者4の「感情状態」を連想させるものであることが望ましい。このような連想が働く場合は、ユーザ2は、直感的に被験者4の「感情状態」を感知することができる。
【0057】
図5は、図4に示した音響効果に対する官能実験の結果を示す図である。
この官能実験では、10人の被験者が、45個の音楽のサンプル(音楽クリップ)を、それぞれの20秒間聞いた。音楽サンプルは、異なったジャンルの3つの歌、ボサノバ、クラシック(ソロのピアノ)と電子音楽である。
【0058】
被験者は、ランダムな順番で、オリジナルの音楽クリップと、それに続いて14の音響効果が施されたバージョンを聞いて、そして3つの基準に従ってこれらを評価した。まず、音楽から受ける活動レベルの印象を、リラックスしていると感じたときは「1」、通常状態と感じたときは「2」、興奮していると感じたときは「3」と評価した。さらに、そのような音響効果が施されているかどうかを認知できるかについて、「効果が認識できない」ときは「1」、単に感じられるのみのときは「2」、感知できると認識したときは「3」、明らかに感じられるときは「4」、非常に顕著なときは「5」と評価した。また、音楽の不快度を、非常に楽しいときは「1」、楽しいときは「2」、ニュートラルでは「3」、不快なときは「4」、非常に不快なときは「5」と評価した。評価は、各項目について平均された。
【0059】
図5の結果からは、たとえば、「LP」「FS」などは、「リラックス状態」を表現するのに適しており、「dub HP」「RW」などは、「興奮状態」を表現するのに適していることがわかる。
【0060】
以上のとおり、本発明によれば、他の作業をしている介護者の作業を妨げることなく、被介護者の感情情報を通知することが可能となる。
【0061】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【図面の簡単な説明】
【0062】
【図1】本発明の感情情報通知装置100の構成を示す概略ブロック図である。
【図2】感情情報通知装置100上で動作するソフトウェアの構成を説明するための機能ブロック図である。
【図3】顔画像について検出されたオプティカルフローのフィールドの例を示す図である。
【図4】音響効果付加モジュールプログラム1400において、付加される音響効果の例を示す図である。
【図5】図4に示した音響効果に対する官能実験の結果を示す図である。
【符号の説明】
【0063】
2 ユーザ、4 被験者、100 感情情報通知装置、102 カメラ、106 キーボード、108 ディスプレイ、110 コンピュータ、200 オーディオ再生装置、1102 インタフェース部、1104 CPU、1106 ROM、1108 RAM、1110 ハードディスク、1200 映像モジュールプログラム、1202 キャプチャ部、1204 画像データ記録処理部、1206 オプティカルフロー算出部、1208 顔検出部、1400 音響効果付加モジュールプログラム、1402 特徴抽出部、1404 感情モデル算出部、1406 音響効果処理部。

【特許請求の範囲】
【請求項1】
被験者に対する観測情報を得るための検知手段と、
前記観測情報に応じて、前記被験者の感情状態を判断する感情状態算出手段と、
前記感情状態の判断結果に応じて、外部から入力される音声信号に対して所定の音響効果を付加して出力する音響効果処理手段とを備える、感情情報通知装置。
【請求項2】
前記検知手段は、被験者の顔画像を含む対象画像領域についての動画像データを獲得する撮影手段を含み、
前記感情状態算出手段は、
前記動画像データを格納するための記憶装置と、
前記記憶装置に格納された前記対象画像領域内において、顔を検出する顔検出手段と、
前記検出された顔に対応する検出領域において、単位領域ごとに動きベクトルを検出する動き検出手段と、
検出された前記動きベクトルの時間変化に基づいて、前記被験者の感情状態が少なくとも興奮状態であるかを判断する判断処理手段とを含む、請求項1記載の感情情報通知装置。
【請求項3】
前記動き検出手段は、前記検出領域に対応する顔画像データにおいて格子点上の各点についてのオプティカルフローを、異なる複数の速度レベルで算出するオプティカルフロー算出手段を含み、
前記異なる複数の速度レベルに対応した前記オプティカルフローに基づいて、前記動きベクトルに関連する情報として、前記被験者の頭の運動の大きさに相当する第1の情報と、前記被験者の表情の動きの大きさに相当する第2の情報とを抽出する演算手段をさらに備え、
前記判断処理手段は、前記第1および第2の情報の累積に応じて、判断処理を行う、請求項1記載の感情情報通知装置。

【図1】
image rotate

【図2】
image rotate

【図4】
image rotate

【図3】
image rotate

【図5】
image rotate


【公開番号】特開2007−200126(P2007−200126A)
【公開日】平成19年8月9日(2007.8.9)
【国際特許分類】
【出願番号】特願2006−19407(P2006−19407)
【出願日】平成18年1月27日(2006.1.27)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成17年度独立行政法人情報通信研究機構、研究テーマ「軽度脳障害者のための情報セラピーインタフェースの研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】