説明

コミュニケーションシステム

【課題】対話者が煩わしい操作を行うことなく、対話者の反応に対して相応な会話の進行を確実に行うことができ、対話者にとって快適なコミュニケーションシステムを提供する。
【解決手段】リアルタイムに画像を撮像する撮像手段2と、撮像手段2によって得られた画像から人の顔画像を検出し、この顔画像の上下左右方向の座標位置を検出する座標位置検出手段3と、座標位置検出手段3によって得られた座標位置から、顔画像が上下方向に沿って往復移動した場合を肯定動作と判定し、顔画像が左右方向に沿って往復移動した場合を否定動作と判定する顔動作判定手段4と、顔動作判定手段4の判定結果に基づいて会話を進行する会話進行手段5とを備えた。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、例えば体が不自由で外出する機会の少ない老人などの会話相手となるコミュニケーションシステムに関するものである。
【背景技術】
【0002】
例えば、独り暮らしの老人など、体が不自由で外出する機会が少ない場合、人と会話する機会が極端に少なくなる。このように人と会話する機会が少ない人などのために、会話の相手となるべく、さまざまなコミュニケーションシステムが提案されている。
例えば、対話者の顔画像を撮像し、この顔画像の口唇の動作パターンを複数の参照用口唇パターンに照らし合わせ、それに応じた会話文をディスプレイに表示させる意思疎通支援装置が提案されている。このようにすることで、対話者が釦操作等の煩わしい作業を行わなくても意思疎通支援装置が対話者の意思を識別することができるようになっている(例えば、特許文献1参照)。
また、遠距離間で行う通信授業のコミュニケーションシステムとして、受講者の顔画像を撮像し、この顔画像のうつむき加減や、うつむいている時間を検出し、講師側で受講者がうなずいているのか、居眠りしているのかを識別できるようにしたものがある(例えば、特許文献2参照)。
【特許文献1】特開2005−148959号公報
【特許文献2】特開2007−102344号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上述の特許文献1にあっては、口唇の動作パターンが複雑であるばかりか、個人差があるため、適確に対話者の意思を識別するのは困難である。このため、対話者の意思を誤認する頻度が高くなって対話者が意図しない会話になり、対話者に不快な思いをさせてしまうという課題がある。
また、上述の特許文献2にあっては、講師側で受講者のうなずき状態や、居眠り状態を認識することができるだけのものであって、講演に対する評価を行う自動評価装置として機能しているだけである。このため、受講者の顔画像の検出結果に基づいて講師と受講者との対話をインタラクティブに行うためのコミュニケーションシステムとはなり難いという課題がある。
【0004】
そこで、この発明は、上述した事情に鑑みてなされたものであって、対話者が煩わしい操作を行うことなく、対話者の反応に対して相応な会話の進行を確実に行うことができ、対話者にとって快適なコミュニケーションシステムを提供するものである。
【課題を解決するための手段】
【0005】
上記の課題を解決するために、請求項1に記載した発明は、リアルタイムに画像を撮像する撮像手段と、前記撮像手段によって得られた画像から人の顔画像を検出し、該顔画像の上下左右方向の座標位置を検出する座標位置検出手段と、前記座標位置検出手段によって得られた前記座標位置から、前記顔画像が上下方向に沿って往復移動した場合を肯定動作と判定し、前記顔画像が左右方向に沿って往復移動した場合を否定動作と判定する顔動作判定手段と、前記顔動作判定手段の判定結果に基づいて会話を進行する会話進行手段とを備えたことを特徴とする。
このように構成することで、対話者の顔の上下左右の動作、つまり、対話者のシンプルな表出状態のみを識別できるので、対話者の意思の誤認を防止することができる。
また、撮像手段によって画像を得た後、座標位置検出手段によって顔画像を検出してから対話者との会話をスタートさせることができる。
【0006】
請求項2に記載した発明は、前記座標位置検出手段は顔選定手段を有し、該顔選定手段は複数の人の顔画像を同時に検出した場合、所定の座標位置に最も近いものを顔画像として選定することを特徴とする。
このように構成することで、コミュニケーションシステムを使用する対話者を確実に判別することが可能になる。
【0007】
請求項3に記載した発明は、前記顔動作判定手段は、前記顔画像が上下方向、または左右方向に沿って往復移動する前の座標位置と、該座標位置から最も離れた移動位置との間の距離が所定値を超えた場合に前記肯定動作、および前記否定動作と判定することを特徴とする。
このように構成することで、対話者がただ単にうつむいたり、首を傾けたりしたものであるのか、または、うなずいたり(肯定動作)、首を横に振ったり(否定動作)しているのかを確実に判別することが可能になる。
【0008】
請求項4に記載した発明は、前記会話進行手段は、予め複数の音声データが記憶された音声記憶部と、該音声記憶部の音声データを出力する音声出力部とを有し、前記顔動作判定手段の判定結果に基づいて前記音声記憶部に記憶された複数の音声データのうちの1つの音声データを選択し、これを前記音声出力部から出力することを特徴とする。
この場合、請求項5に記載した発明のように、前記会話進行手段は、予め複数の文字列が記憶された文字列記憶部と、該文字列記憶部の文字列を表示するディスプレイとを有し、前記顔動作判定手段の判定結果に基づいて前記文字列記憶部に記憶された複数の文字列のうちの1つの文字列を選択し、これを前記ディスプレイに表示してもよい。
また、請求項6に記載した発明のように、前記会話進行手段は、予め複数の音声データが記憶された音声記憶部と、該音声記憶部の音声データを出力する音声出力部とを有すると共に、予め複数の文字列が記憶された文字列記憶部と、該文字列記憶部の文字列を表示するディスプレイとを有し、前記顔動作判定手段の判定結果に基づいて前記音声記憶部に記憶された複数の音声データのうちの1つの音声データを選択し、これを前記音声出力部から出力すると共に、前記文字列記憶部に記憶された複数の文字列のうちの1つであって出力された音声データに対応する文字列を選択し、これを前記ディスプレイに表示してもよい。
【0009】
請求項7に記載した発明は、前記ディスプレイは、前記撮像手段によって得られた顔画像を表示することを特徴とする。
このように構成することで、撮像手段による顔画像の状態を対話者自身でモニタすることが可能になる。
【発明の効果】
【0010】
請求項1に記載した発明によれば、対話者の顔の上下左右の動作、つまり、対話者のシンプルな表出状態のみを識別するようにしたので、対話者の意思の誤認を防止することができる。このため、対話者が煩わしい操作を行うことなく、対話者の反応に対して相応な会話の進行を行うことができ、対話者にとって快適なコミュニケーションシステムを提供することが可能になる。
また、撮像手段によって画像を得た後、座標位置検出手段によって顔画像を検出してから対話者との会話をスタートさせることができる。このため、対話者とコミュニケーションシステムとの間で、より自然な会話を実現することができる。
【0011】
請求項2に記載した発明によれば、コミュニケーションシステムを使用する対話者を確実に判別することが可能になる。このため、コミュニケーションシステムの誤動作を防止するだけでなく、対話者に対する不快感を防止することも可能になる。
【0012】
請求項3に記載した発明によれば、対話者がただ単にうつむいたり、首を傾けたりしたものであるのか、または、うなずいたり(肯定動作)、首を横に振ったり(否定動作)しているのかを確実に判別することが可能になる。このため、コミュニケーションシステムの誤動作を防止することができる。
【0013】
請求項4に記載した発明によれば、例えば、対話者の目が不自由な場合であっても、音声データを音声出力部から出力することでスムーズに会話を進行させることができる。
また、請求項5に記載した発明によれば、例えば、対話者の耳が不自由な場合であっても、文字列をディスプレイに表示することでスムーズに会話を進行させることができる。
さらに、請求項6に記載した発明によれば、対話者の目が不自由な場合や、対話者の耳が不自由な場合の何れの場合であっても、両者共に快適に会話を進行させることができる。
【0014】
請求項7に記載した発明によれば、撮像手段による顔画像の状態を対話者自身でモニタすることが可能になるため、より確実にコミュニケーションシステムの誤動作を防止することができると共に、より快適な対話を行うことが可能になる。
【発明を実施するための最良の形態】
【0015】
次に、この発明の実施形態を図面に基づいて説明する。
図1に示すように、コミュニケーションシステム1は、リアルタイムに画像を撮像する撮像手段2と、この撮像手段2によって得られた画像から人の顔画像を検出し、顔画像の上下左右方向の座標位置を検出する座標位置検出手段3と、この座標位置検出手段3によって得られた座標位置から、対話者の顔画像が上下方向に沿って往復移動した場合をうなずき動作(肯定動作)と判定し、顔画像が左右方向に沿って往復移動した場合を首振り動作(否定動作)と判定する顔動作判定手段4と、この顔動作判定手段4の判定結果に基づいて会話を進行する会話進行手段5とを備えている。
【0016】
撮像手段2は、カメラ6と、カメラ6によって撮像された画像をデータとして取り込むための画像取り込み回路7と、この画像取り込み回路7によって取り込んだ画像のデータをリアルタイムに記録するためのフレームメモリ8とを有している。カメラ6としては、USBカメラやビデオカメラ等が用いられている。画像取り込み回路7では、撮像された画像をデータとしてフレームメモリ8に記録可能な形式に変換され、この変換された画像データがフレームメモリ8に記録されるようになっている。
【0017】
座標位置検出手段3は、フレームメモリ8に記録された画像から対話者の顔画像を検出するための顔検出プログラム9と、対話者の顔画像を選定するための顔選定プログラム10と、対話者の顔画像の上下左右方向の座標位置を記録する顔位置記録メモリ11とを有している。
顔検出プログラム9による顔画像の検出方法としては、例えば、Haar−Like特徴を用いた物体検出方法がある。すなわち、Haar−Like特徴を用いたパターンマッチングにより、予め取得した標準的な顔のパターンと照合し、撮像した画像パターンと一致度の対部分を顔の位置とする検出方法がある。
【0018】
なお、フレームメモリ8に記録される画像は、顔検出プログラム9によって顔画像の検出が行えるような形式で記録されるようになっている。また、顔検出プログラム9によって顔画像が検出された際、顔位置記録メモリ11の座標位置の記録は更新されるようになっており、且つ現在から数フレーム分過去までの顔画像の座標位置が記録されるようになっている。
【0019】
ここで、例えば人が密集したなかで対話者がコミュニケーションシステム1を使用すると、カメラ6によって撮像された画像の中に複数の顔が存在する場合がある。この場合、顔検出プログラム9によって複数の顔画像が検出されることになる。このため、顔選定プログラム10が複数の顔画像のうちフレームメモリ8に記録された画像の最も中央に位置している顔画像を対話者として認識するようにしている。
【0020】
より詳しく、図2に基づいて説明する。同図は、座標位置検出手段3における対話者の顔画像の選定手順を示すフローチャートである。
まず、顔検出プログラム9によって顔画像が検出されたか否かを判断する(ST1)。
顔画像が検出されず、ST1における判断が「No」である場合、顔検出プログラム9を終了する。
【0021】
顔検出プログラム9によって顔画像が検出され、ST1における判断が「Yes」である場合、検出された顔画像の数に応じて顔画像選定作業を繰り返し行う(ST2、顔画像選定ループ)。
すなわち、検出された顔画像のほぼ中央の座標からフレームメモリ8に記録された画像の中央の座標までの距離を顔選定プログラム10によって計算する(ST3)。
なお、複数の顔画像が検出される順番は任意で行われる。また、距離が計算された顔画像の座標位置は顔位置記録メモリ11に記録される。
【0022】
そして、ST3において、距離を計算した顔画像が、現段階で最もフレームメモリ8に記録された画像の中央の座標に近いか否かを判断する(ST4)。
その顔画像が現段階でフレームメモリ8に記録された画像の中央の座標に最も近く、ST4における判断が「Yes」である場合、対話者として認識され、対象顔である顔画像が更新される(ST5)。
【0023】
検出された顔画像が現段階でフレームメモリ8に記録された画像から最も近い場所になく、ST4における判断が「No」である場合、再びST2に戻り他の顔画像を検出し、ST3で他の顔画像のほぼ中央の座標からフレームメモリ8に記録された画像の中央の座標までの距離を計算する。
これを繰り返し行いながら、顔検出プログラム9によって全ての顔画像を検出すると、これらの顔画像のうち、最もフレームメモリ8に記録された画像の中央に近い位置にある顔画像を対話者として認識する。そして、最終的にこの対話者の顔画像の座標位置を顔位置記録メモリ11に記録して顔画像選定作業を終了する(ST6)。
【0024】
図1に示すように、顔動作判定手段4は、座標位置検出手段3によって得られた対話者のうなずき動作を判定するためのうなずき判定プログラム12と、首振り動作を判定するための首振り判定プログラム13とを有している。
うなずき判定プログラム12は、対話者の顔画像の座標位置に対して、顔画像が上下方向に沿って往復移動した場合をうなずき動作として判定する。一方、首振り判定プログラム13は、対話者の顔画像の座標位置に対して、顔画像が左右方向に沿って往復移動した場合を首振り動作として判定する。
【0025】
図3は、うなずき判定プログラム12の動作を示すフローチャートである。
同図に示すように、座標位置検出手段3によって得られた対話者の顔画像全体の上下左右方向の座標位置を現在の位置(now)として検出する(ST21)。
次に、対話者の顔画像が下方に向かって移動すると、現在の位置から最も遠い場所に移動した座標位置を顔画像全体の移動位置(long)として検出する(ST22)。
続いて、現在の位置から移動位置までの距離(now−longの絶対値)が所定値よりも大きいか否かを判断する(ST23)。
【0026】
ここで、対話者の顔が上下に動くとき、この動作がうなずき動作であるのか、ただ単に顔が動いただけなのかを判断するには、現在の位置から移動位置までの距離が微量の場合、それをうなずき動作と判定するのは好ましくない。したがって、現在の位置から移動位置までの距離の所定値はうなずき動作と判定できるだけの十分な値を設定することが望ましい。
このため、現在の位置から移動位置までの距離が小さく、ST23における判断が「No」である場合、対話者は動作していないと判定する(ST26)。
【0027】
一方、現在の位置から移動位置までの距離が十分に大きく、ST23における判断が「Yes」である場合、longの時点から現在までの間にnowの座標位置に近い顔画像の座標位置を検出したか否かを判断する(ST24)。
そして、対話者の顔が再びnowの座標位置に近い位置に移動し、ST24における判断が「Yes」である場合、うなずき動作、つまり、肯定動作を行っていると判定する(ST25)。
【0028】
すなわち、うなずき動作とは、対話者の顔が一旦下方に向かって移動した後、再び上方に向かって移動する一連の動作をいうものであるから、対話者の顔が下方に移動したままの状態であっては、うなずき動作とは言えず、居眠り状態であると判定する。
したがって、longの時点から現在までの間にnowの座標位置に近い顔画像の座標位置を検出せず、ST25における判断が「No」である場合、対話者は動作していないと判断する(ST26)。
【0029】
図4は、首振り判定プログラム13の動作を示すフローチャートである。
同図に示すように、座標位置検出手段3によって得られた対話者の顔画像全体の上下左右方向の座標位置を現在の位置(now)として検出する(ST31)。
次に、対話者の顔画像が左右方向に向かって移動すると、現在の位置から最も遠い場所に移動した座標位置を顔画像全体の移動位置(long)として検出する(ST32)。
続いて、現在の位置から移動位置までの距離(now−longの絶対値)が所定値よりも大きいか否かを判断する(ST33)。
【0030】
ここで、対話者の顔が左右に動くとき、うなずき判定プログラム12と同様に現在の位置から移動位置までの距離が所定値よりも小さく、ST33における判断が「No」である場合、対話者は動作していないと判定する(ST36)。
一方、現在の位置から移動位置までの距離が所定値よりも大きく、ST33における判断が「Yes」である場合、longの時点から現在までの間にnowの座標位置に近い顔画像の座標位置を検出したか否かを判断する(ST34)。
【0031】
そして、対話者の顔が再びnowの座標位置に近い位置に移動し、ST34における判断が「Yes」である場合、首を振って否定動作を行っていると判定する(ST35)。
すなわち、首振り動作とは、対話者の顔が一旦左方、または右方の何れか一方に向かって移動した後、他方に向かって移動する一連の動作をいうものであるから、対話者の顔が左方、または右方に移動したままの状態であっては、首振り動作とは言えず、首をかしげた状態であると判定する。
したがって、longの時点から現在までの間にnowの座標位置に近い顔画像の座標位置を検出せず、ST35における判断が「No」である場合、対話者は動作していないと判断する(ST36)。
【0032】
図1に示すように、会話進行手段5は、対話者に配信するための複数のコンテンツを有するコンテンツファイル14と、顔動作判定手段4の判定に基づいてコンテンツファイル14から相応なコンテンツを選択して読み込み、会話を進行させる制御部として機能する会話進行プログラム15と、コンテンツを表示するディスプレイ16と、コンテンツを音声出力する音声出力部17とを備えている。
【0033】
コンテンツファイル14は、コンテンツとしての複数の音声データ22が記憶された音声記憶部19と、音声データ22に対応する複数の文字列(メッセージ)21が予め記憶されている文字列記憶部18とを有している。
より詳しく、コンテンツファイル14の構成内容について説明する。図5は、コンテンツファイル14の内容の一例を示す説明図である。
同図に示すように、コンテンツファイル14は、各々スペースで区切られたデータであって、左から順に、メッセージ番号20、文字列21、この文字列21に対応する音声データ22、顔動作判定手段4によってうなずき動作(肯定動作)として判定した場合の次のメッセージ番号23、顔動作判定手段4によって首振り動作(否定動作)として判定した場合の次のメッセージ番号24、顔動作判定手段4によって何ら検出されず、タイムアウトした場合の次のメッセージ番号25、およびタイムアウトと判断する時間[ms]26で構成されている。
【0034】
文字列21や、音声データ22としては、うなずき動作による肯定時用の会話文、および音声、並びに、首振り動作による否定時用の会話文、および音声が記憶されている他、対話者の反応がない場合、つまり、うなずき動作も首振り動作も検出しなかった場合のための無反応用の会話文、および音声も記憶されている。
また、会話進行手段5は、会話中の状態である場合にあっては、顔動作判定手段4の判定に基づいて相応な文字列21、および音声データ22を出力するが、コミュニケーションシステム1のスタート時にあっては、顔動作判定手段4の判定によらず、所定の文字列21、および音声データ22が出力されるようになっている。
なお、それぞれメッセージ番号23,24,25において、「−1」と記述すると会話が終了する。
【0035】
図6に示すように、ディスプレイ16は表示領域32を備えており、この表示領域32の画面中央にはカメラ6により撮像された画像を表示するカメラ画像表示領域27が配置されている。このカメラ画像表示領域27に対話者の顔画像Kが表示されることによって、対話者はカメラ6の画像に対して自身がどの位置で撮像されているかをモニタすることができると共に、自身の行動を客観的に判断できるようになっている。
【0036】
カメラ画像表示領域27の上方には、コンテンツファイル14の文字列21を表示するメッセージ表示領域28が配置されている。また、カメラ画像表示領域27の左方には、顔動作判定手段4による判断がうなずき動作であると判定した場合に「Yes」の文字列を表示する顔動作判定表示領域30が配置されている。一方、カメラ画像表示領域27の右方には、顔動作判定手段4による判断が首振り動作であると判定した場合に「No」の文字列を表示する顔動作判定表示領域31が配置されている。
【0037】
この他に、コミュニケーションシステム1には、不図示のシステム終了釦、強制Yes検出釦、強制No検出釦、強制顔検出・メッセージ出力開始釦、およびメッセージ出力禁止釦を備えている。ここで、強制Yes検出釦は、対話者の意思に反して顔動作判定手段4が首振り動作と判定した際、強制的にうなずき動作とするための釦である。これに対し、強制No検出釦は、対話者の意思に反して顔動作判定手段4がうなずき動作と判定した際、強制的に首振り動作とするための釦である。
なお、これら強制Yes検出釦と強制No検出釦は、コミュニケーションシステム1を構成するにあたって、必須の構成要件ではないが、強制Yes検出釦と強制No検出釦を設けることによって、対話者が釦操作によって会話を進行させることも可能になる。
【0038】
次に、図7のフローチャートに基づいてコミュニケーションシステム1の動作について説明する。
同図に示すように、まず、撮像手段2のカメラ6で撮像した画像データを画像取り込み回路7によって取り込み、フレームメモリ8に記録する(ST41)。
次に、座標位置検出手段3の顔検出プログラム9、および顔選定プログラム10によって対話者を特定し、顔位置記録メモリ11に対話者の顔画像の上下左右方向の座標位置を記録する(ST42、図2参照)。
【0039】
続いて、会話中であるか否かを判断する(ST43)。
会話中ではなく、ST43における判断が「No」である場合には、再び対話者の顔画像が検出されたか否かを判断する(ST44)。
対話者の顔画像が検出されず、ST44における判断が「No」である場合には、再びST41の画像取り込みを行う。
一方、対話者の顔画像が検出され、ST44における判断が「Yes」である場合には、会話をスタートさせる(ST45)。
【0040】
そして、ST45の会話をスタートさせた後、再びST41の画像取り込みを行う。
ST43における判断が「Yes」(会話中)である場合には、対話者の顔画像が検出されたか否かを判断する(ST46)。
対話者の顔画像が検出されず、ST44における判断が「No」である場合には、再びST41の画像取り込みを行う。
【0041】
一方、対話者の顔画像が検出され、ST46における判断が「Yes」である場合には、顔動作判定手段4のうなずき判定プログラム12によって対話者のうなずき動作を確認する(ST47、図3参照)。
そして、対話者がうなずき動作を行ったか否かを判定する(ST48)。
対話者がうなずき動作を行ったと判定し、ST48における判断が「Yes」である場合には、会話進行手段5によってコンテンツファイル14に記憶されている肯定時用の文字列21がディスプレイ16に表示されると共に、肯定時用の音声データ22が音声出力部17から出力される(ST49)。その後、再びST41の画像取り込みを行う。
【0042】
一方、対話者がうなずき動作を行っていない判定し、ST48における判断が「No」である場合には、顔動作判定手段4の首振り判定プログラム13によって対話者の首振り動作を確認する(ST50、図4参照)。
そして、対話者が首振り動作を行ったか否かを判断する(ST51)。
対話者が首振り動作を行ったと判定し、ST51における判断が「Yes」である場合には、会話進行手段5によってコンテンツファイル14に記憶されている否定時用の文字列21がディスプレイ16に表示されると共に、否定時用の音声データ22が音声出力部17から出力される(ST52)。その後、再びST41の画像取り込みを行う。
【0043】
これに対し、対話者が首振り動作を行っていないと判定し、ST51における判断が「No」である場合には、タイムアウトか否かを判断する(ST53)。
なお、タイムアウトと判断する時間は、コンテンツファイル14のタイムアウトと判断する時間[ms]26に所望の時間の数字を打ち込むことで設定することが可能である(図5参照)。
【0044】
ST53における判断が「No」、つまり、タイムアウトではない場合、再びST41の画像取り込みを行う。
一方、ST53における判断が「Yes」、つまり、タイムアウトである場合、会話進行手段5によってコンテンツファイル14に記憶されている無反応用の文字列21がディスプレイ16に表示されると共に、無反応用の音声データ22が音声出力部17から出力される(ST54)。その後、再びST41の画像取り込みを行う。
【0045】
したがって、上述の実施形態によれば、顔動作判定手段4のうなずき判定プログラム12、および首振り判定プログラム13によって対話者のうなずき動作、および首振り動作のみ、つまり、対話者のシンプルな表出状態のみを識別するようにしたので、従来のように複雑な識別手段を行う必要がない。このため、対話者が煩わしい操作を行うことなく確実に対話者の意思の誤認を防止することができる。よって、対話者の反応に対して相応な会話の進行を行うことができ、対話者にとって快適なコミュニケーションシステム1を提供することが可能になる。
【0046】
また、撮像手段2のカメラ6で撮像した画像データを画像取り込み回路7によって取り込み、フレームメモリ8に記録した後、座標位置検出手段3の顔検出プログラム9、および顔選定プログラム10によって対話者を特定している。そして、この後に会話をスタートさせるようにしている(図7参照)。このため、対話者とコミュニケーションシステム1との間で、より自然な会話を実現することができる。
【0047】
さらに、座標位置検出手段3の顔選定プログラム10によって、撮像手段2で得た複数の顔画像のうち、フレームメモリ8に記録された画像の最も中央に近い位置にある顔画像を対話者として認識することができる。このため、コミュニケーションシステム1を使用する対話者を確実に判別することが可能になる。よって、コミュニケーションシステム1の誤動作を防止するだけでなく、対話者に対する不快感を防止することも可能になる。
【0048】
そして、うなずき判定プログラム12、および首振り判定プログラム13において、対話者の顔が現在の位置(now)から十分に大きな距離を移動し、その後に再び対話者の顔がnowの座標位置に近い位置に移動した場合に限り、対話者のうなずき動作、および首振り動作を検出するようにしている(図3、図4参照)。このため、対話者がただ単にうつむいたり、首を傾けたりしたものであるのか、または、肯定動作や否定動作を行っているのかを確実に判別することが可能になる。よって、コミュニケーションシステム1の誤動作をより確実に防止することができる。
【0049】
また、会話進行手段5に音声出力部17を設け、この音声出力部17からコンテンツファイル14の音声データ22を出力するようにしている。このため、例えば、対話者の目が不自由な場合であっても、音声を出力することで会話をスムーズに進行させることができる。
さらに、会話進行手段5にディスプレイ16を設け、このディスプレイ16にコンテンツファイル14の文字列21を表示するようにしている。このため、例えば、対話者の耳が不自由な場合であっても、メッセージを表示することで会話をスムーズに進行させることができる。
【0050】
そして、ディスプレイ16は表示領域32を備えており、この表示領域32の画面中央にはカメラ6により撮像された画像を表示するカメラ画像表示領域27が配置されている。このため、対話者がカメラ6の画像に対して自身がどの位置で撮像されているかをモニタすることができると共に、自身の行動を客観的に判断できるので、より快適な対話を行うことが可能になる。
【0051】
なお、本発明は上述の実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲において、上述の実施形態に種々の変更を加えたものを含む。
また、上述の実施形態では、会話進行手段5は、コンテンツとしての文字列21を表示するディスプレイ16と、コンテンツとしての音声データ22を音声出力する音声出力部17とを備えている場合について説明した。しかしながら、これに限られるものではなく、コミュニケーションシステム1は、会話進行手段5にディスプレイ16、または音声出力部17の何れか一方のみを設け、これに対応するコンテンツ(文字列21、または音声データ22の何れか一方)のみをコンテンツファイル14に備えるようにしてもよい。
【0052】
さらに、上述の実施形態では、顔検出プログラム9によって複数の顔画像を検出した場合、これらの顔画像のうち、顔選定プログラム10によってフレームメモリ8に記録された画像の中央に最も近い位置にある顔画像を対話者として認識させる場合について説明した。しかしながら、これに限られるものではなく、フレームメモリ8に記録されている前フレームで検出された顔画像の座標位置に近いものを対話者として認識させるようにしてもよい。
【0053】
そして、上述の実施形態では、顔検出プログラム9によって複数の顔画像を検出した場合、検出された顔画像のほぼ中央の座標からフレームメモリ8に記録された画像の中央の座標までの距離を顔選定プログラム10によって計算することによって対話者の顔画像を判断するように構成されている場合について説明した。しかしながら、これに限られるものではなく、検出された顔画像の目や鼻などの任意の座標点からフレームメモリ8に記録された画像の中央の座標までの距離を計算するようにしてもよい。また、顔選定プログラム10によって、顔画像全体がフレームメモリ8に記録された画像の中央に最も近いものを対話者と判断するようにしてもよい。
【0054】
また、上述の実施形態では、うなずき判定プログラム12、および首振り判定プログラム13において、対話者の顔画像全体の上下左右方向の座標位置を現在の位置(now)として検出すると共に、現在の位置から最も遠い場所に移動した座標位置を顔画像全体の移動位置(long)として検出し、これら現在の位置と移動位置に基づいて対話者のうなずき動作と首振り動作を検出する場合について説明した。しかしながら、これに限られるものではなく、対話者の顔画像のうち、目や鼻などの任意の座標点の現在の位置と移動位置を検出することで対話者のうなずき動作と首振り動作を検出してもよい。
【図面の簡単な説明】
【0055】
【図1】本発明の実施形態におけるコミュニケーションシステムのブロック図である。
【図2】本発明の実施形態の座標位置検出手段における対話者の顔画像の選定手順を示すフローチャートである。
【図3】本発明の実施形態におけるうなずき判定プログラムの動作を示すフローチャートである。
【図4】本発明の実施形態における首振り判定プログラムの動作を示すフローチャートである。
【図5】本発明の実施形態におけるコンテンツファイルの内容の一例を示す説明図である。
【図6】本発明の実施形態におけるディスプレイの平面図である。
【図7】本発明の実施形態におけるコミュニケーションシステムの動作を示すフローチャートである。
【符号の説明】
【0056】
1 コミュニケーションシステム
2 撮像手段
3 座標位置検出手段
4 顔動作判定手段
5 会話進行手段
6 カメラ
7 画像取り込み回路
9 顔検出プログラム
10 顔選定プログラム(顔選定手段)
11 顔位置記録メモリ
12 うなずき判定プログラム
13 首振り判定プログラム
14 コンテンツファイル
16 ディスプレイ
17 音声出力部
18 文字列記憶部
19 音声記憶部
21 文字列
22 音声データ
27 カメラ画像表示領域
28 メッセージ表示領域
30,31 顔動作判定表示領域
32 表示領域
K 顔画像

【特許請求の範囲】
【請求項1】
リアルタイムに画像を撮像する撮像手段と、
前記撮像手段によって得られた画像から人の顔画像を検出し、該顔画像の上下左右方向の座標位置を検出する座標位置検出手段と、
前記座標位置検出手段によって得られた前記座標位置から、前記顔画像が上下方向に沿って往復移動した場合を肯定動作と判定し、前記顔画像が左右方向に沿って往復移動した場合を否定動作と判定する顔動作判定手段と、
前記顔動作判定手段の判定結果に基づいて会話を進行する会話進行手段とを備えたことを特徴とするコミュニケーションシステム。
【請求項2】
前記座標位置検出手段は顔選定手段を有し、該顔選定手段は複数の人の顔画像を同時に検出した場合、所定の座標位置に最も近いものを顔画像として選定することを特徴とする請求項1に記載のコミュニケーションシステム。
【請求項3】
前記顔動作判定手段は、前記顔画像が上下方向、または左右方向に沿って往復移動する前の座標位置と、該座標位置から最も離れた移動位置との間の距離が所定値を超えた場合に前記肯定動作、および前記否定動作と判定することを特徴とする請求項1または請求項2に記載のコミュニケーションシステム。
【請求項4】
前記会話進行手段は、予め複数の音声データが記憶された音声記憶部と、該音声記憶部の音声データを出力する音声出力部とを有し、
前記顔動作判定手段の判定結果に基づいて前記音声記憶部に記憶された複数の音声データのうちの1つの音声データを選択し、これを前記音声出力部から出力することを特徴とする請求項1〜請求項3の何れかに記載のコミュニケーションシステム。
【請求項5】
前記会話進行手段は、予め複数の文字列が記憶された文字列記憶部と、該文字列記憶部の文字列を表示するディスプレイとを有し、
前記顔動作判定手段の判定結果に基づいて前記文字列記憶部に記憶された複数の文字列のうちの1つの文字列を選択し、これを前記ディスプレイに表示することを特徴とする請求項1〜請求項3の何れかに記載のコミュニケーションシステム。
【請求項6】
前記会話進行手段は、予め複数の音声データが記憶された音声記憶部と、該音声記憶部の音声データを出力する音声出力部とを有すると共に、予め複数の文字列が記憶された文字列記憶部と、該文字列記憶部の文字列を表示するディスプレイとを有し、
前記顔動作判定手段の判定結果に基づいて前記音声記憶部に記憶された複数の音声データのうちの1つの音声データを選択し、これを前記音声出力部から出力すると共に、
前記文字列記憶部に記憶された複数の文字列のうちの1つであって出力された音声データに対応する文字列を選択し、これを前記ディスプレイに表示することを特徴とする請求項1〜請求項3の何れかに記載のコミュニケーションシステム。
【請求項7】
前記ディスプレイは、前記撮像手段によって得られた顔画像を表示することを特徴とする請求項5または請求項6に記載のコミュニケーションシステム。




【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2009−32056(P2009−32056A)
【公開日】平成21年2月12日(2009.2.12)
【国際特許分類】
【出願番号】特願2007−195950(P2007−195950)
【出願日】平成19年7月27日(2007.7.27)
【出願人】(000144027)株式会社ミツバ (2,083)
【Fターム(参考)】