コミュニケーションシステム

【課題】対話者が煩わしい操作を行うことなく、対話者の反応に対して相応な会話の進行を確実に行うことができ、対話者にとって快適なコミュニケーションシステムを提供する。
【解決手段】リアルタイムに画像を撮像する撮像手段２と、撮像手段２によって得られた画像から人の顔画像を検出し、この顔画像の上下左右方向の座標位置を検出する座標位置検出手段３と、座標位置検出手段３によって得られた座標位置から、顔画像が上下方向に沿って往復移動した場合を肯定動作と判定し、顔画像が左右方向に沿って往復移動した場合を否定動作と判定する顔動作判定手段４と、顔動作判定手段４の判定結果に基づいて会話を進行する会話進行手段５とを備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、例えば体が不自由で外出する機会の少ない老人などの会話相手となるコミュニケーションシステムに関するものである。
【背景技術】
【０００２】
例えば、独り暮らしの老人など、体が不自由で外出する機会が少ない場合、人と会話する機会が極端に少なくなる。このように人と会話する機会が少ない人などのために、会話の相手となるべく、さまざまなコミュニケーションシステムが提案されている。
例えば、対話者の顔画像を撮像し、この顔画像の口唇の動作パターンを複数の参照用口唇パターンに照らし合わせ、それに応じた会話文をディスプレイに表示させる意思疎通支援装置が提案されている。このようにすることで、対話者が釦操作等の煩わしい作業を行わなくても意思疎通支援装置が対話者の意思を識別することができるようになっている（例えば、特許文献１参照）。
また、遠距離間で行う通信授業のコミュニケーションシステムとして、受講者の顔画像を撮像し、この顔画像のうつむき加減や、うつむいている時間を検出し、講師側で受講者がうなずいているのか、居眠りしているのかを識別できるようにしたものがある（例えば、特許文献２参照）。
【特許文献１】特開２００５−１４８９５９号公報
【特許文献２】特開２００７−１０２３４４号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、上述の特許文献１にあっては、口唇の動作パターンが複雑であるばかりか、個人差があるため、適確に対話者の意思を識別するのは困難である。このため、対話者の意思を誤認する頻度が高くなって対話者が意図しない会話になり、対話者に不快な思いをさせてしまうという課題がある。
また、上述の特許文献２にあっては、講師側で受講者のうなずき状態や、居眠り状態を認識することができるだけのものであって、講演に対する評価を行う自動評価装置として機能しているだけである。このため、受講者の顔画像の検出結果に基づいて講師と受講者との対話をインタラクティブに行うためのコミュニケーションシステムとはなり難いという課題がある。
【０００４】
そこで、この発明は、上述した事情に鑑みてなされたものであって、対話者が煩わしい操作を行うことなく、対話者の反応に対して相応な会話の進行を確実に行うことができ、対話者にとって快適なコミュニケーションシステムを提供するものである。
【課題を解決するための手段】
【０００５】
上記の課題を解決するために、請求項１に記載した発明は、リアルタイムに画像を撮像する撮像手段と、前記撮像手段によって得られた画像から人の顔画像を検出し、該顔画像の上下左右方向の座標位置を検出する座標位置検出手段と、前記座標位置検出手段によって得られた前記座標位置から、前記顔画像が上下方向に沿って往復移動した場合を肯定動作と判定し、前記顔画像が左右方向に沿って往復移動した場合を否定動作と判定する顔動作判定手段と、前記顔動作判定手段の判定結果に基づいて会話を進行する会話進行手段とを備えたことを特徴とする。
このように構成することで、対話者の顔の上下左右の動作、つまり、対話者のシンプルな表出状態のみを識別できるので、対話者の意思の誤認を防止することができる。
また、撮像手段によって画像を得た後、座標位置検出手段によって顔画像を検出してから対話者との会話をスタートさせることができる。
【０００６】
請求項２に記載した発明は、前記座標位置検出手段は顔選定手段を有し、該顔選定手段は複数の人の顔画像を同時に検出した場合、所定の座標位置に最も近いものを顔画像として選定することを特徴とする。
このように構成することで、コミュニケーションシステムを使用する対話者を確実に判別することが可能になる。
【０００７】
請求項３に記載した発明は、前記顔動作判定手段は、前記顔画像が上下方向、または左右方向に沿って往復移動する前の座標位置と、該座標位置から最も離れた移動位置との間の距離が所定値を超えた場合に前記肯定動作、および前記否定動作と判定することを特徴とする。
このように構成することで、対話者がただ単にうつむいたり、首を傾けたりしたものであるのか、または、うなずいたり（肯定動作）、首を横に振ったり（否定動作）しているのかを確実に判別することが可能になる。
【０００８】
請求項４に記載した発明は、前記会話進行手段は、予め複数の音声データが記憶された音声記憶部と、該音声記憶部の音声データを出力する音声出力部とを有し、前記顔動作判定手段の判定結果に基づいて前記音声記憶部に記憶された複数の音声データのうちの１つの音声データを選択し、これを前記音声出力部から出力することを特徴とする。
この場合、請求項５に記載した発明のように、前記会話進行手段は、予め複数の文字列が記憶された文字列記憶部と、該文字列記憶部の文字列を表示するディスプレイとを有し、前記顔動作判定手段の判定結果に基づいて前記文字列記憶部に記憶された複数の文字列のうちの１つの文字列を選択し、これを前記ディスプレイに表示してもよい。
また、請求項６に記載した発明のように、前記会話進行手段は、予め複数の音声データが記憶された音声記憶部と、該音声記憶部の音声データを出力する音声出力部とを有すると共に、予め複数の文字列が記憶された文字列記憶部と、該文字列記憶部の文字列を表示するディスプレイとを有し、前記顔動作判定手段の判定結果に基づいて前記音声記憶部に記憶された複数の音声データのうちの１つの音声データを選択し、これを前記音声出力部から出力すると共に、前記文字列記憶部に記憶された複数の文字列のうちの１つであって出力された音声データに対応する文字列を選択し、これを前記ディスプレイに表示してもよい。
【０００９】
請求項７に記載した発明は、前記ディスプレイは、前記撮像手段によって得られた顔画像を表示することを特徴とする。
このように構成することで、撮像手段による顔画像の状態を対話者自身でモニタすることが可能になる。
【発明の効果】
【００１０】
請求項１に記載した発明によれば、対話者の顔の上下左右の動作、つまり、対話者のシンプルな表出状態のみを識別するようにしたので、対話者の意思の誤認を防止することができる。このため、対話者が煩わしい操作を行うことなく、対話者の反応に対して相応な会話の進行を行うことができ、対話者にとって快適なコミュニケーションシステムを提供することが可能になる。
また、撮像手段によって画像を得た後、座標位置検出手段によって顔画像を検出してから対話者との会話をスタートさせることができる。このため、対話者とコミュニケーションシステムとの間で、より自然な会話を実現することができる。
【００１１】
請求項２に記載した発明によれば、コミュニケーションシステムを使用する対話者を確実に判別することが可能になる。このため、コミュニケーションシステムの誤動作を防止するだけでなく、対話者に対する不快感を防止することも可能になる。
【００１２】
請求項３に記載した発明によれば、対話者がただ単にうつむいたり、首を傾けたりしたものであるのか、または、うなずいたり（肯定動作）、首を横に振ったり（否定動作）しているのかを確実に判別することが可能になる。このため、コミュニケーションシステムの誤動作を防止することができる。
【００１３】
請求項４に記載した発明によれば、例えば、対話者の目が不自由な場合であっても、音声データを音声出力部から出力することでスムーズに会話を進行させることができる。
また、請求項５に記載した発明によれば、例えば、対話者の耳が不自由な場合であっても、文字列をディスプレイに表示することでスムーズに会話を進行させることができる。
さらに、請求項６に記載した発明によれば、対話者の目が不自由な場合や、対話者の耳が不自由な場合の何れの場合であっても、両者共に快適に会話を進行させることができる。
【００１４】
請求項７に記載した発明によれば、撮像手段による顔画像の状態を対話者自身でモニタすることが可能になるため、より確実にコミュニケーションシステムの誤動作を防止することができると共に、より快適な対話を行うことが可能になる。
【発明を実施するための最良の形態】
【００１５】
次に、この発明の実施形態を図面に基づいて説明する。
図１に示すように、コミュニケーションシステム１は、リアルタイムに画像を撮像する撮像手段２と、この撮像手段２によって得られた画像から人の顔画像を検出し、顔画像の上下左右方向の座標位置を検出する座標位置検出手段３と、この座標位置検出手段３によって得られた座標位置から、対話者の顔画像が上下方向に沿って往復移動した場合をうなずき動作（肯定動作）と判定し、顔画像が左右方向に沿って往復移動した場合を首振り動作（否定動作）と判定する顔動作判定手段４と、この顔動作判定手段４の判定結果に基づいて会話を進行する会話進行手段５とを備えている。
【００１６】
撮像手段２は、カメラ６と、カメラ６によって撮像された画像をデータとして取り込むための画像取り込み回路７と、この画像取り込み回路７によって取り込んだ画像のデータをリアルタイムに記録するためのフレームメモリ８とを有している。カメラ６としては、ＵＳＢカメラやビデオカメラ等が用いられている。画像取り込み回路７では、撮像された画像をデータとしてフレームメモリ８に記録可能な形式に変換され、この変換された画像データがフレームメモリ８に記録されるようになっている。
【００１７】
座標位置検出手段３は、フレームメモリ８に記録された画像から対話者の顔画像を検出するための顔検出プログラム９と、対話者の顔画像を選定するための顔選定プログラム１０と、対話者の顔画像の上下左右方向の座標位置を記録する顔位置記録メモリ１１とを有している。
顔検出プログラム９による顔画像の検出方法としては、例えば、Ｈａａｒ−Ｌｉｋｅ特徴を用いた物体検出方法がある。すなわち、Ｈａａｒ−Ｌｉｋｅ特徴を用いたパターンマッチングにより、予め取得した標準的な顔のパターンと照合し、撮像した画像パターンと一致度の対部分を顔の位置とする検出方法がある。
【００１８】
なお、フレームメモリ８に記録される画像は、顔検出プログラム９によって顔画像の検出が行えるような形式で記録されるようになっている。また、顔検出プログラム９によって顔画像が検出された際、顔位置記録メモリ１１の座標位置の記録は更新されるようになっており、且つ現在から数フレーム分過去までの顔画像の座標位置が記録されるようになっている。
【００１９】
ここで、例えば人が密集したなかで対話者がコミュニケーションシステム１を使用すると、カメラ６によって撮像された画像の中に複数の顔が存在する場合がある。この場合、顔検出プログラム９によって複数の顔画像が検出されることになる。このため、顔選定プログラム１０が複数の顔画像のうちフレームメモリ８に記録された画像の最も中央に位置している顔画像を対話者として認識するようにしている。
【００２０】
より詳しく、図２に基づいて説明する。同図は、座標位置検出手段３における対話者の顔画像の選定手順を示すフローチャートである。
まず、顔検出プログラム９によって顔画像が検出されたか否かを判断する（ＳＴ１）。
顔画像が検出されず、ＳＴ１における判断が「Ｎｏ」である場合、顔検出プログラム９を終了する。
【００２１】
顔検出プログラム９によって顔画像が検出され、ＳＴ１における判断が「Ｙｅｓ」である場合、検出された顔画像の数に応じて顔画像選定作業を繰り返し行う（ＳＴ２、顔画像選定ループ）。
すなわち、検出された顔画像のほぼ中央の座標からフレームメモリ８に記録された画像の中央の座標までの距離を顔選定プログラム１０によって計算する（ＳＴ３）。
なお、複数の顔画像が検出される順番は任意で行われる。また、距離が計算された顔画像の座標位置は顔位置記録メモリ１１に記録される。
【００２２】
そして、ＳＴ３において、距離を計算した顔画像が、現段階で最もフレームメモリ８に記録された画像の中央の座標に近いか否かを判断する（ＳＴ４）。
その顔画像が現段階でフレームメモリ８に記録された画像の中央の座標に最も近く、ＳＴ４における判断が「Ｙｅｓ」である場合、対話者として認識され、対象顔である顔画像が更新される（ＳＴ５）。
【００２３】
検出された顔画像が現段階でフレームメモリ８に記録された画像から最も近い場所になく、ＳＴ４における判断が「Ｎｏ」である場合、再びＳＴ２に戻り他の顔画像を検出し、ＳＴ３で他の顔画像のほぼ中央の座標からフレームメモリ８に記録された画像の中央の座標までの距離を計算する。
これを繰り返し行いながら、顔検出プログラム９によって全ての顔画像を検出すると、これらの顔画像のうち、最もフレームメモリ８に記録された画像の中央に近い位置にある顔画像を対話者として認識する。そして、最終的にこの対話者の顔画像の座標位置を顔位置記録メモリ１１に記録して顔画像選定作業を終了する（ＳＴ６）。
【００２４】
図１に示すように、顔動作判定手段４は、座標位置検出手段３によって得られた対話者のうなずき動作を判定するためのうなずき判定プログラム１２と、首振り動作を判定するための首振り判定プログラム１３とを有している。
うなずき判定プログラム１２は、対話者の顔画像の座標位置に対して、顔画像が上下方向に沿って往復移動した場合をうなずき動作として判定する。一方、首振り判定プログラム１３は、対話者の顔画像の座標位置に対して、顔画像が左右方向に沿って往復移動した場合を首振り動作として判定する。
【００２５】
図３は、うなずき判定プログラム１２の動作を示すフローチャートである。
同図に示すように、座標位置検出手段３によって得られた対話者の顔画像全体の上下左右方向の座標位置を現在の位置（ｎｏｗ）として検出する（ＳＴ２１）。
次に、対話者の顔画像が下方に向かって移動すると、現在の位置から最も遠い場所に移動した座標位置を顔画像全体の移動位置（ｌｏｎｇ）として検出する（ＳＴ２２）。
続いて、現在の位置から移動位置までの距離（ｎｏｗ−ｌｏｎｇの絶対値）が所定値よりも大きいか否かを判断する（ＳＴ２３）。
【００２６】
ここで、対話者の顔が上下に動くとき、この動作がうなずき動作であるのか、ただ単に顔が動いただけなのかを判断するには、現在の位置から移動位置までの距離が微量の場合、それをうなずき動作と判定するのは好ましくない。したがって、現在の位置から移動位置までの距離の所定値はうなずき動作と判定できるだけの十分な値を設定することが望ましい。
このため、現在の位置から移動位置までの距離が小さく、ＳＴ２３における判断が「Ｎｏ」である場合、対話者は動作していないと判定する（ＳＴ２６）。
【００２７】
一方、現在の位置から移動位置までの距離が十分に大きく、ＳＴ２３における判断が「Ｙｅｓ」である場合、ｌｏｎｇの時点から現在までの間にｎｏｗの座標位置に近い顔画像の座標位置を検出したか否かを判断する（ＳＴ２４）。
そして、対話者の顔が再びｎｏｗの座標位置に近い位置に移動し、ＳＴ２４における判断が「Ｙｅｓ」である場合、うなずき動作、つまり、肯定動作を行っていると判定する（ＳＴ２５）。
【００２８】
すなわち、うなずき動作とは、対話者の顔が一旦下方に向かって移動した後、再び上方に向かって移動する一連の動作をいうものであるから、対話者の顔が下方に移動したままの状態であっては、うなずき動作とは言えず、居眠り状態であると判定する。
したがって、ｌｏｎｇの時点から現在までの間にｎｏｗの座標位置に近い顔画像の座標位置を検出せず、ＳＴ２５における判断が「Ｎｏ」である場合、対話者は動作していないと判断する（ＳＴ２６）。
【００２９】
図４は、首振り判定プログラム１３の動作を示すフローチャートである。
同図に示すように、座標位置検出手段３によって得られた対話者の顔画像全体の上下左右方向の座標位置を現在の位置（ｎｏｗ）として検出する（ＳＴ３１）。
次に、対話者の顔画像が左右方向に向かって移動すると、現在の位置から最も遠い場所に移動した座標位置を顔画像全体の移動位置（ｌｏｎｇ）として検出する（ＳＴ３２）。
続いて、現在の位置から移動位置までの距離（ｎｏｗ−ｌｏｎｇの絶対値）が所定値よりも大きいか否かを判断する（ＳＴ３３）。
【００３０】
ここで、対話者の顔が左右に動くとき、うなずき判定プログラム１２と同様に現在の位置から移動位置までの距離が所定値よりも小さく、ＳＴ３３における判断が「Ｎｏ」である場合、対話者は動作していないと判定する（ＳＴ３６）。
一方、現在の位置から移動位置までの距離が所定値よりも大きく、ＳＴ３３における判断が「Ｙｅｓ」である場合、ｌｏｎｇの時点から現在までの間にｎｏｗの座標位置に近い顔画像の座標位置を検出したか否かを判断する（ＳＴ３４）。
【００３１】
そして、対話者の顔が再びｎｏｗの座標位置に近い位置に移動し、ＳＴ３４における判断が「Ｙｅｓ」である場合、首を振って否定動作を行っていると判定する（ＳＴ３５）。
すなわち、首振り動作とは、対話者の顔が一旦左方、または右方の何れか一方に向かって移動した後、他方に向かって移動する一連の動作をいうものであるから、対話者の顔が左方、または右方に移動したままの状態であっては、首振り動作とは言えず、首をかしげた状態であると判定する。
したがって、ｌｏｎｇの時点から現在までの間にｎｏｗの座標位置に近い顔画像の座標位置を検出せず、ＳＴ３５における判断が「Ｎｏ」である場合、対話者は動作していないと判断する（ＳＴ３６）。
【００３２】
図１に示すように、会話進行手段５は、対話者に配信するための複数のコンテンツを有するコンテンツファイル１４と、顔動作判定手段４の判定に基づいてコンテンツファイル１４から相応なコンテンツを選択して読み込み、会話を進行させる制御部として機能する会話進行プログラム１５と、コンテンツを表示するディスプレイ１６と、コンテンツを音声出力する音声出力部１７とを備えている。
【００３３】
コンテンツファイル１４は、コンテンツとしての複数の音声データ２２が記憶された音声記憶部１９と、音声データ２２に対応する複数の文字列（メッセージ）２１が予め記憶されている文字列記憶部１８とを有している。
より詳しく、コンテンツファイル１４の構成内容について説明する。図５は、コンテンツファイル１４の内容の一例を示す説明図である。
同図に示すように、コンテンツファイル１４は、各々スペースで区切られたデータであって、左から順に、メッセージ番号２０、文字列２１、この文字列２１に対応する音声データ２２、顔動作判定手段４によってうなずき動作（肯定動作）として判定した場合の次のメッセージ番号２３、顔動作判定手段４によって首振り動作（否定動作）として判定した場合の次のメッセージ番号２４、顔動作判定手段４によって何ら検出されず、タイムアウトした場合の次のメッセージ番号２５、およびタイムアウトと判断する時間［ｍｓ］２６で構成されている。
【００３４】
文字列２１や、音声データ２２としては、うなずき動作による肯定時用の会話文、および音声、並びに、首振り動作による否定時用の会話文、および音声が記憶されている他、対話者の反応がない場合、つまり、うなずき動作も首振り動作も検出しなかった場合のための無反応用の会話文、および音声も記憶されている。
また、会話進行手段５は、会話中の状態である場合にあっては、顔動作判定手段４の判定に基づいて相応な文字列２１、および音声データ２２を出力するが、コミュニケーションシステム１のスタート時にあっては、顔動作判定手段４の判定によらず、所定の文字列２１、および音声データ２２が出力されるようになっている。
なお、それぞれメッセージ番号２３，２４，２５において、「−１」と記述すると会話が終了する。
【００３５】
図６に示すように、ディスプレイ１６は表示領域３２を備えており、この表示領域３２の画面中央にはカメラ６により撮像された画像を表示するカメラ画像表示領域２７が配置されている。このカメラ画像表示領域２７に対話者の顔画像Ｋが表示されることによって、対話者はカメラ６の画像に対して自身がどの位置で撮像されているかをモニタすることができると共に、自身の行動を客観的に判断できるようになっている。
【００３６】
カメラ画像表示領域２７の上方には、コンテンツファイル１４の文字列２１を表示するメッセージ表示領域２８が配置されている。また、カメラ画像表示領域２７の左方には、顔動作判定手段４による判断がうなずき動作であると判定した場合に「Ｙｅｓ」の文字列を表示する顔動作判定表示領域３０が配置されている。一方、カメラ画像表示領域２７の右方には、顔動作判定手段４による判断が首振り動作であると判定した場合に「Ｎｏ」の文字列を表示する顔動作判定表示領域３１が配置されている。
【００３７】
この他に、コミュニケーションシステム１には、不図示のシステム終了釦、強制Ｙｅｓ検出釦、強制Ｎｏ検出釦、強制顔検出・メッセージ出力開始釦、およびメッセージ出力禁止釦を備えている。ここで、強制Ｙｅｓ検出釦は、対話者の意思に反して顔動作判定手段４が首振り動作と判定した際、強制的にうなずき動作とするための釦である。これに対し、強制Ｎｏ検出釦は、対話者の意思に反して顔動作判定手段４がうなずき動作と判定した際、強制的に首振り動作とするための釦である。
なお、これら強制Ｙｅｓ検出釦と強制Ｎｏ検出釦は、コミュニケーションシステム１を構成するにあたって、必須の構成要件ではないが、強制Ｙｅｓ検出釦と強制Ｎｏ検出釦を設けることによって、対話者が釦操作によって会話を進行させることも可能になる。
【００３８】
次に、図７のフローチャートに基づいてコミュニケーションシステム１の動作について説明する。
同図に示すように、まず、撮像手段２のカメラ６で撮像した画像データを画像取り込み回路７によって取り込み、フレームメモリ８に記録する（ＳＴ４１）。
次に、座標位置検出手段３の顔検出プログラム９、および顔選定プログラム１０によって対話者を特定し、顔位置記録メモリ１１に対話者の顔画像の上下左右方向の座標位置を記録する（ＳＴ４２、図２参照）。
【００３９】
続いて、会話中であるか否かを判断する（ＳＴ４３）。
会話中ではなく、ＳＴ４３における判断が「Ｎｏ」である場合には、再び対話者の顔画像が検出されたか否かを判断する（ＳＴ４４）。
対話者の顔画像が検出されず、ＳＴ４４における判断が「Ｎｏ」である場合には、再びＳＴ４１の画像取り込みを行う。
一方、対話者の顔画像が検出され、ＳＴ４４における判断が「Ｙｅｓ」である場合には、会話をスタートさせる（ＳＴ４５）。
【００４０】
そして、ＳＴ４５の会話をスタートさせた後、再びＳＴ４１の画像取り込みを行う。
ＳＴ４３における判断が「Ｙｅｓ」（会話中）である場合には、対話者の顔画像が検出されたか否かを判断する（ＳＴ４６）。
対話者の顔画像が検出されず、ＳＴ４４における判断が「Ｎｏ」である場合には、再びＳＴ４１の画像取り込みを行う。
【００４１】
一方、対話者の顔画像が検出され、ＳＴ４６における判断が「Ｙｅｓ」である場合には、顔動作判定手段４のうなずき判定プログラム１２によって対話者のうなずき動作を確認する（ＳＴ４７、図３参照）。
そして、対話者がうなずき動作を行ったか否かを判定する（ＳＴ４８）。
対話者がうなずき動作を行ったと判定し、ＳＴ４８における判断が「Ｙｅｓ」である場合には、会話進行手段５によってコンテンツファイル１４に記憶されている肯定時用の文字列２１がディスプレイ１６に表示されると共に、肯定時用の音声データ２２が音声出力部１７から出力される（ＳＴ４９）。その後、再びＳＴ４１の画像取り込みを行う。
【００４２】
一方、対話者がうなずき動作を行っていない判定し、ＳＴ４８における判断が「Ｎｏ」である場合には、顔動作判定手段４の首振り判定プログラム１３によって対話者の首振り動作を確認する（ＳＴ５０、図４参照）。
そして、対話者が首振り動作を行ったか否かを判断する（ＳＴ５１）。
対話者が首振り動作を行ったと判定し、ＳＴ５１における判断が「Ｙｅｓ」である場合には、会話進行手段５によってコンテンツファイル１４に記憶されている否定時用の文字列２１がディスプレイ１６に表示されると共に、否定時用の音声データ２２が音声出力部１７から出力される（ＳＴ５２）。その後、再びＳＴ４１の画像取り込みを行う。
【００４３】
これに対し、対話者が首振り動作を行っていないと判定し、ＳＴ５１における判断が「Ｎｏ」である場合には、タイムアウトか否かを判断する（ＳＴ５３）。
なお、タイムアウトと判断する時間は、コンテンツファイル１４のタイムアウトと判断する時間［ｍｓ］２６に所望の時間の数字を打ち込むことで設定することが可能である（図５参照）。
【００４４】
ＳＴ５３における判断が「Ｎｏ」、つまり、タイムアウトではない場合、再びＳＴ４１の画像取り込みを行う。
一方、ＳＴ５３における判断が「Ｙｅｓ」、つまり、タイムアウトである場合、会話進行手段５によってコンテンツファイル１４に記憶されている無反応用の文字列２１がディスプレイ１６に表示されると共に、無反応用の音声データ２２が音声出力部１７から出力される（ＳＴ５４）。その後、再びＳＴ４１の画像取り込みを行う。
【００４５】
したがって、上述の実施形態によれば、顔動作判定手段４のうなずき判定プログラム１２、および首振り判定プログラム１３によって対話者のうなずき動作、および首振り動作のみ、つまり、対話者のシンプルな表出状態のみを識別するようにしたので、従来のように複雑な識別手段を行う必要がない。このため、対話者が煩わしい操作を行うことなく確実に対話者の意思の誤認を防止することができる。よって、対話者の反応に対して相応な会話の進行を行うことができ、対話者にとって快適なコミュニケーションシステム１を提供することが可能になる。
【００４６】
また、撮像手段２のカメラ６で撮像した画像データを画像取り込み回路７によって取り込み、フレームメモリ８に記録した後、座標位置検出手段３の顔検出プログラム９、および顔選定プログラム１０によって対話者を特定している。そして、この後に会話をスタートさせるようにしている（図７参照）。このため、対話者とコミュニケーションシステム１との間で、より自然な会話を実現することができる。
【００４７】
さらに、座標位置検出手段３の顔選定プログラム１０によって、撮像手段２で得た複数の顔画像のうち、フレームメモリ８に記録された画像の最も中央に近い位置にある顔画像を対話者として認識することができる。このため、コミュニケーションシステム１を使用する対話者を確実に判別することが可能になる。よって、コミュニケーションシステム１の誤動作を防止するだけでなく、対話者に対する不快感を防止することも可能になる。
【００４８】
そして、うなずき判定プログラム１２、および首振り判定プログラム１３において、対話者の顔が現在の位置（ｎｏｗ）から十分に大きな距離を移動し、その後に再び対話者の顔がｎｏｗの座標位置に近い位置に移動した場合に限り、対話者のうなずき動作、および首振り動作を検出するようにしている（図３、図４参照）。このため、対話者がただ単にうつむいたり、首を傾けたりしたものであるのか、または、肯定動作や否定動作を行っているのかを確実に判別することが可能になる。よって、コミュニケーションシステム１の誤動作をより確実に防止することができる。
【００４９】
また、会話進行手段５に音声出力部１７を設け、この音声出力部１７からコンテンツファイル１４の音声データ２２を出力するようにしている。このため、例えば、対話者の目が不自由な場合であっても、音声を出力することで会話をスムーズに進行させることができる。
さらに、会話進行手段５にディスプレイ１６を設け、このディスプレイ１６にコンテンツファイル１４の文字列２１を表示するようにしている。このため、例えば、対話者の耳が不自由な場合であっても、メッセージを表示することで会話をスムーズに進行させることができる。
【００５０】
そして、ディスプレイ１６は表示領域３２を備えており、この表示領域３２の画面中央にはカメラ６により撮像された画像を表示するカメラ画像表示領域２７が配置されている。このため、対話者がカメラ６の画像に対して自身がどの位置で撮像されているかをモニタすることができると共に、自身の行動を客観的に判断できるので、より快適な対話を行うことが可能になる。
【００５１】
なお、本発明は上述の実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲において、上述の実施形態に種々の変更を加えたものを含む。
また、上述の実施形態では、会話進行手段５は、コンテンツとしての文字列２１を表示するディスプレイ１６と、コンテンツとしての音声データ２２を音声出力する音声出力部１７とを備えている場合について説明した。しかしながら、これに限られるものではなく、コミュニケーションシステム１は、会話進行手段５にディスプレイ１６、または音声出力部１７の何れか一方のみを設け、これに対応するコンテンツ（文字列２１、または音声データ２２の何れか一方）のみをコンテンツファイル１４に備えるようにしてもよい。
【００５２】
さらに、上述の実施形態では、顔検出プログラム９によって複数の顔画像を検出した場合、これらの顔画像のうち、顔選定プログラム１０によってフレームメモリ８に記録された画像の中央に最も近い位置にある顔画像を対話者として認識させる場合について説明した。しかしながら、これに限られるものではなく、フレームメモリ８に記録されている前フレームで検出された顔画像の座標位置に近いものを対話者として認識させるようにしてもよい。
【００５３】
そして、上述の実施形態では、顔検出プログラム９によって複数の顔画像を検出した場合、検出された顔画像のほぼ中央の座標からフレームメモリ８に記録された画像の中央の座標までの距離を顔選定プログラム１０によって計算することによって対話者の顔画像を判断するように構成されている場合について説明した。しかしながら、これに限られるものではなく、検出された顔画像の目や鼻などの任意の座標点からフレームメモリ８に記録された画像の中央の座標までの距離を計算するようにしてもよい。また、顔選定プログラム１０によって、顔画像全体がフレームメモリ８に記録された画像の中央に最も近いものを対話者と判断するようにしてもよい。
【００５４】
また、上述の実施形態では、うなずき判定プログラム１２、および首振り判定プログラム１３において、対話者の顔画像全体の上下左右方向の座標位置を現在の位置（ｎｏｗ）として検出すると共に、現在の位置から最も遠い場所に移動した座標位置を顔画像全体の移動位置（ｌｏｎｇ）として検出し、これら現在の位置と移動位置に基づいて対話者のうなずき動作と首振り動作を検出する場合について説明した。しかしながら、これに限られるものではなく、対話者の顔画像のうち、目や鼻などの任意の座標点の現在の位置と移動位置を検出することで対話者のうなずき動作と首振り動作を検出してもよい。
【図面の簡単な説明】
【００５５】
【図１】本発明の実施形態におけるコミュニケーションシステムのブロック図である。
【図２】本発明の実施形態の座標位置検出手段における対話者の顔画像の選定手順を示すフローチャートである。
【図３】本発明の実施形態におけるうなずき判定プログラムの動作を示すフローチャートである。
【図４】本発明の実施形態における首振り判定プログラムの動作を示すフローチャートである。
【図５】本発明の実施形態におけるコンテンツファイルの内容の一例を示す説明図である。
【図６】本発明の実施形態におけるディスプレイの平面図である。
【図７】本発明の実施形態におけるコミュニケーションシステムの動作を示すフローチャートである。
【符号の説明】
【００５６】
１コミュニケーションシステム
２撮像手段
３座標位置検出手段
４顔動作判定手段
５会話進行手段
６カメラ
７画像取り込み回路
９顔検出プログラム
１０顔選定プログラム（顔選定手段）
１１顔位置記録メモリ
１２うなずき判定プログラム
１３首振り判定プログラム
１４コンテンツファイル
１６ディスプレイ
１７音声出力部
１８文字列記憶部
１９音声記憶部
２１文字列
２２音声データ
２７カメラ画像表示領域
２８メッセージ表示領域
３０，３１顔動作判定表示領域
３２表示領域
Ｋ顔画像

【特許請求の範囲】
【請求項１】
リアルタイムに画像を撮像する撮像手段と、
前記撮像手段によって得られた画像から人の顔画像を検出し、該顔画像の上下左右方向の座標位置を検出する座標位置検出手段と、
前記座標位置検出手段によって得られた前記座標位置から、前記顔画像が上下方向に沿って往復移動した場合を肯定動作と判定し、前記顔画像が左右方向に沿って往復移動した場合を否定動作と判定する顔動作判定手段と、
前記顔動作判定手段の判定結果に基づいて会話を進行する会話進行手段とを備えたことを特徴とするコミュニケーションシステム。
【請求項２】
前記座標位置検出手段は顔選定手段を有し、該顔選定手段は複数の人の顔画像を同時に検出した場合、所定の座標位置に最も近いものを顔画像として選定することを特徴とする請求項１に記載のコミュニケーションシステム。
【請求項３】
前記顔動作判定手段は、前記顔画像が上下方向、または左右方向に沿って往復移動する前の座標位置と、該座標位置から最も離れた移動位置との間の距離が所定値を超えた場合に前記肯定動作、および前記否定動作と判定することを特徴とする請求項１または請求項２に記載のコミュニケーションシステム。
【請求項４】
前記会話進行手段は、予め複数の音声データが記憶された音声記憶部と、該音声記憶部の音声データを出力する音声出力部とを有し、
前記顔動作判定手段の判定結果に基づいて前記音声記憶部に記憶された複数の音声データのうちの１つの音声データを選択し、これを前記音声出力部から出力することを特徴とする請求項１〜請求項３の何れかに記載のコミュニケーションシステム。
【請求項５】
前記会話進行手段は、予め複数の文字列が記憶された文字列記憶部と、該文字列記憶部の文字列を表示するディスプレイとを有し、
前記顔動作判定手段の判定結果に基づいて前記文字列記憶部に記憶された複数の文字列のうちの１つの文字列を選択し、これを前記ディスプレイに表示することを特徴とする請求項１〜請求項３の何れかに記載のコミュニケーションシステム。
【請求項６】
前記会話進行手段は、予め複数の音声データが記憶された音声記憶部と、該音声記憶部の音声データを出力する音声出力部とを有すると共に、予め複数の文字列が記憶された文字列記憶部と、該文字列記憶部の文字列を表示するディスプレイとを有し、
前記顔動作判定手段の判定結果に基づいて前記音声記憶部に記憶された複数の音声データのうちの１つの音声データを選択し、これを前記音声出力部から出力すると共に、
前記文字列記憶部に記憶された複数の文字列のうちの１つであって出力された音声データに対応する文字列を選択し、これを前記ディスプレイに表示することを特徴とする請求項１〜請求項３の何れかに記載のコミュニケーションシステム。
【請求項７】
前記ディスプレイは、前記撮像手段によって得られた顔画像を表示することを特徴とする請求項５または請求項６に記載のコミュニケーションシステム。

【図１】