説明

電子的に会話を評価するための方法およびシステム

【課題】会話の解析を自動的に支援する方法および機器を提供する。
【解決手段】本発明は、少なくとも2人の人の間の会話を電子的に評価するための方法に関し、ビデオデータを受けるステップと、会話中に2人の間で視覚的な相互作用が生じたか否かを決定するためにビデオデータを解析するステップと、眼の運動方向が同じモードであるか否かを決定するために2人の眼の運動を解析するステップとを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子的に会話を解析するための方法、およびその方法を実行するための対応したシステムに関する。
【背景技術】
【0002】
このようなシステムは、人の発言の欠点を解析および評価するためのシステムおよび方法を開示する、米国特許2003/0097268において知られている。記載された方法は、医薬の分野において、特に精神病患者との面談の解析における用途を見出す。そうするために、患者から発せられる聴覚的および視覚的な出力が記録され、演算機器を用いて、診断、治療情報または前兆が、医師の作業を支援するために出力される。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、この既知の方法は、患者のような一人の人が解析されなければならない状況ではなく、一人より多くの人が介在する状態については適用できない。このような状況は、たとえば、販売上の会話や就職の面接の解析時に発生する。今までは、解析を支援するために、会話やインタビューを撮影するためにカメラが典型的に用いられてきた。そして、撮影されたフィルムは、ユーザ、たとえば販売セミナーの講師によって観察され、そして会話の参加者とともに見直しされ、議論がなされた。議論の間、ユーザは、議論またはインタビューに参加している他の人に対する振る舞いに関する、個々の参加者の長所および弱点を指摘した。
【0004】
各参加者は、およそ30分くらい撮影されるので、解析される人は各参加者の映像を見るのに多くの時間を費やさなくてはならず、参加者がどのようにしたら彼らの商業技術を改善することができるか、または採用の機会を改善できるかを説明するために取られる時間は、比較的少なかった。
【0005】
したがって、本発明のひとつの目的は、会話の解析を自動的に支援する方法および機器を提供することである。
【課題を解決するための手段】
【0006】
この目的は、請求項1による方法の特徴により達成される。1人またはより多くの人の会話は、(後述の、第1の人として認識された)1人の人の振る舞いから、「傾聴」、「再構築」、「反応」、「表現」および「沈黙」として識別され得る、異なった識別可能なコミュニケーションパターンを有する。各コミュニケーションパターンは、会話している人の発言が以下のパターンに区分される方法を用いて特徴付けられる。
【0007】
「傾聴」:他方の人は話をしているのに対し、第1の人は沈黙している。
「再構築」:第1の人が時々短時間だけ介入するのに対し、他方の人が主に話をしている。
【0008】
「反応」:第1の人が話をしているが、他方の人が介入するために割り込んでいる。
「表現」:他方の人が時々短時間だけ介入するのに対し、第1の人が主に話をしている。
【0009】
「沈黙」:誰も話をしていない。
受け取られたデータから発言の再分類が抽出されるような、受信したオーディオデータの解析によって、会話のさまざまな言語的コミュニケーションパターンが自動的に認識され、本発明に従う方法を実現するシステムのユーザへ出力され得る。この抽出された会話に関する追加情報に基づいて記録された会話の評価が確立され、特に、会話に参加している人(人達)によって、コミュニケーションパターンが使用されてないか、十分には使用されてはないか、または非常に多く用いられているかが、指し示される。
【0010】
本文脈中において、およびアプリケーションを通じて、「電子的に評価する」の語句は、会話中に発生する相互作用の特性を電子的手段を用いて自動的に抽出することに関連する。したがって、この抽出は、参加者の発言を単純に再聴することによるマニュアル解析には基づいていない。
【0011】
本発明の目的は、請求項2に従う方法によっても達成され、少なくとも2人の人の間の会話を、自動的に、特に電子的に評価するための方法に関し、a)少なくとも2人の人の間の会話を含むオーディオデータを受け取るステップと、d)会話に参加している1人の人の話す時間の移動平均値に基づいて、会話の進行における予め定められた相互作用フェーズを同定するステップとを備える。
【0012】
商業上の会話、特に販売上の会話は、主にプレゼンテーションフェーズの始めおよび結論の終わりにおいて、典型的な相互作用フェーズを含む。これらのフェーズの間においては、販売員がバイヤーの話を聞いているニーズの発見フェーズ、製品を提案するために販売員が主に話をする討議フェーズ、およびバイヤーが提案された製品に関する異議を唱えるとともに、バイヤーが議論によって対抗する反論への対応フェーズが起こり得る。状況によっては、会話はこれらすべてのフェーズ、またはそのうちのいくつかのみを備え得る。これらのフェーズは、以下でより詳細に説明される。
【0013】
この追加のステップを用いて、本方法は、補足的な情報、特に相互作用フェーズが存在するか否か、およびこれらのフェーズが、どれくらい長く全会話に関連しているかを、ユーザに自動的に提供する。これは重要な情報であって、それ/それらの販売技術や採用機会を改善するために、会話に参加している人を訓練するために用いられる。1人の話し手の話している時間の移動平均は、誰がより多く話しているかを示しているので、本発明による様々なフェーズを自動的に同定するための適当なかつ信頼できるパラメータであり、引き続いて会話が現在入っているフェーズについて指し示すものである。さらに、この解析は会話中に実行され得るので、したがって、すぐに結果を得ることができる。
【0014】
好ましい実施形態によれば、上述の2つの方法は結合され得、したがって、会話の品質およびその人のコミュニケーションスキルについての、より有益な情報が、1つのオーディオデータセットから自動的に抽出され得る。もちろん、話している時間の移動平均は、発言の分布からも得ることができる。
【0015】
有利なことに、同定は、1つの相互作用フェーズからほかのフェーズへの少なくとも1つの遷移の検出に基づき、この遷移は、移動平均値が第1の制限値を通過する第1の時間、および、移動平均値が第2の時間において遷移の存在を示す第2の制限値を通過する第2の時間を定めることによって検出される。第1の制限値の通過は、あるフェーズの存在を裏付ける。発言の分布が変化することを示し、かつ通過される必要のある第2の制限値を与えることによって、本方法は、第1の時間において同定されたフェーズが第2の時間において終了することを結論付ける。このような手順の方法は、異なった相互作用フェーズの解析および検出を安定化する。
【0016】
好ましくは、第1の制限値は、一方の人が他方の人より多く話す期間のフェーズについては、60%から80%の範囲、特に65%であり、一方の人が他方の人より少なく話す期間のフェーズについては、20%から40%の範囲、特に35%であり、第2の制限値は、45%から55%、特に50%である。これらの制限値のために、1つのフェーズから次のフェーズへの遷移の決定は安定している。
【0017】
有利なことに、平均値は、会話の総継続時間のおよそ3%から10%、特に5%の継続時間にわたって演算される。これらの値は、1つのフェーズから次のフェーズへの遷移の同定のための安定した決定を提供する。
【0018】
有利なことに、上述の方法は、さらに、相互作用フェーズの期間が予め定められた時間間隔内であるか否かを決定するステップe)を備える。したがって、本方法は、会話の品質の定性的な自動測定だけでなく、時間が長すぎたフェーズや十分に長くなかったフェーズを、会話を解析する人に対して指摘することを可能にする定量的な測定も可能にする。
【0019】
好ましい実施形態によれば、本発明の方法のステップb)は、少なくとも2人の人の発言、特に予め定められた1人の人の発言のみの中に、予め定められた言葉を同定するための、オーディオデータを解析するステップをさらに備える。この追加情報は、自動的に生成された会話の評価の品質をさらに改善する。特定の語彙の出現は、その人がその状況に最もふさわしい語彙を使用しているか否かを、直ちに示す。たとえば、販売員が新しい製品を売る場合、予め定められた言葉はその製品に典型的に関連し、たとえば、商標名(トレードネーム)、特別な特性および/または利点である。販売員の販売能力を評価する場合は、会話の中のその人のみの発言を解析するだけで十分であり得る。
【0020】
好ましくは、本方法は、同定された1つまたはより多くの相互作用フェーズのそれぞれにおいて、予め定められた言葉の発生を解析する、特にカウントするステップf)をさらに備える。上述した販売上の会話において、販売される製品に関する特定の語彙は、「討議」フェーズおよび「反論への対応」フェーズに主に現れるべきである。もし、これがそのケースでなければ、会話は販売員によってよくオーガナイズされたものではない。この重要な情報は、本発明の方法によって自動的に提供され、したがって、本方法は会話の評価において、システムのユーザをさらに支援する。
【0021】
有利なことに、オーディオデータは、異なるマイクロフォンからの複数のデータストリームを含み、特に、各マイクロフォンは、少なくとも2人の人のうちの1人のみに向けられ、かつ話しているときに1人の人からの信号強度が残りの人の信号強度よりも大きくなるように構成される。1つより多くのマイクロフォンの提供は、発言の再区分の決定を容易にし、誰が現在話しているかを同定することについては、オーディオデータストリームの信号強度を、マイクロフォンに最も近い人が話しているときにその信号強度があるしきい値を超過すること、および他の人から起こるノイズおよび信号の合計がそのしきい値を超えないことを推測することによって解析することで十分である。
【0022】
好ましくは、本発明の方法は、少なくとも2人の人を、少なくとも部分的に映し出すビデオデータを受け取るステップg)と、少なくとも2人の人の間で、視覚的な相互作用が生じたか否かを決定するために、ビデオデータを解析するステップh)とをさらに備える。「視覚的な相互作用」の語句の下では、会話に参加している人の少なくとも1人は、他の人を見ているということが理解される。したがって、会話の評価は、オーディオデータにおける人の間の相互作用だけでなく、さらに、少なくとも2人の人の間の視覚的な相互作用に基づき、これはビデオデータを用いて自動的に、特に電子的に定められる。これによって、ユーザは会話を評価するより完全なデータセットを得る。
【0023】
本発明の目的は、請求項11に従った方法を用いても達成される。オーディオデータの解析が、会話の解析の中の人を支援するだけでなく、ビデオデータそれ自体が、販売上の会話のような会話中の正しい振る舞いについての有益な情報を提供する。視覚的な相互作用が非言語的なコミュニケーション手段についての情報、特に他の人の発言によるある人の興味を示す情報、またはある人が他の人の意思を引き付けられるかどうかという情報を提供するので、視覚的な相互作用の有無の自動的かつ電子的な決定はユーザを支援する。
【0024】
好ましくは、上述の方法において、ステップh)は、少なくとも2人の人の虹彩の位置を検出することによって、前記少なくとも2人の人が、互いに顔を見合わせたか否かを決定することをさらに備え得る。人が他方の人を見る状況は、「フォーカライゼーション」として定義される以下の事項の中であり、ある人から他方の人への言語的な情報の流れが、非言語的な相互作用によって維持される状態を説明する。したがって、このタイプの相互作用が提供される場合に、ユーザは会話のより詳細な解析を得る。販売上の会話においては、フォーカライゼーションに関する重要な情報は、a)販売員が、どれくらいの時間バイヤーを見ていたか、b)バイヤーが、どれくらいの時間販売員を見ていたか、c)彼らが、どれくらいの間お互いに顔を見合わせていたか、ということである。参加者が、フォーライゼーションに関して同じように振る舞うときは、両者は同期状態にあると考えられる。
【0025】
有利なことに、上述の方法は、眼の微細運動の方向が同じモードであるか否かを決定するために、少なくとも2人の人の眼の微細運動を解析するステップi)をさらに備え得る。フォーカライゼーションの欠如が観察されるときに、この微細運動が関与する。眼の微細運動が存在すること、およびそれらが人の認知についての情報を提供することが知られている。さらに、会話中の2人の人の微細運動の同期が、会話の結論について可能であり、かつ有効であることも知られている。会話の参加者の眼の微細運動を自動的かつ電子的に検出することによるモードが同期されているか否かの決定は、本方法のユーザに追加のパラメータを提供し、それを評価において有効に使うことができる。たとえば、販売上の会話中に同期が欠如している場合は、本方法のユーザ、たとえばセミナーの講師は、その事実を指摘することができるとともに、ベンダー(売り手)が可能なコミュニケーションツールを使用していないことを示すことができる。本文脈においては、微細運動は、以下の6つの眼の方向、すなわち上方左、上方右、左、右、下方左および下方右のうちの1つへの虹彩の動きを意味する。
【0026】
好ましい実施形態によれば、上述の方法は、少なくとも1つの予め定められた相互作用フェーズにおいて、眼の微細運動の方向が同じモードであるか否かを決定することを備え得る。販売上の会話中は、異なったフェーズは、交渉の成功に関して、全てが同じ重要性を有しているわけではなく、したがって、一旦異なった相互作用のフェーズがオーディオデータストリームから同定されたとしても、(フォーカライゼーションおよび微細運動における同一モードの両方による同期に関する)同期期間および非同期期間がこれらのフェーズに関連することが可能となる。したがって、会話についてのより多くのデータをユーザに提供することが可能となる。
【0027】
好ましくは、ステップh)は、h_1)2人の人の少なくとも1人の顔の少なくとも一部、少なくとも両眼を示す画像の領域を決定するために、ビデオデータの画像中に視覚的特徴を同定するステップと、h_2)領域の中のストライプ、特に縦ストライプを分離するステップと、h_3)ストライプの中の眼の領域を探索するステップとを備え得る。解析するステップを、3つの違ったステップに分割することによって、少なくとも2人の人の間で視覚的な相互作用が発生するか否かを決定するプロセスが、信頼できかつ迅速な方法によって実現され得る。好ましくは、画像は、少なくとも1人の人の両眼を示す。
【0028】
本発明によれば、簡単でありながら信頼できる手法で、複数の異なるステップでの解析の分割に基づいた、ビデオデータ内の眼の領域の同定を可能にする方法が提供される。本方法は、2人の人の少なくとも1人の顔の少なくとも一部、少なくとも両眼を示す画像の領域を決定するために、ビデオデータの画像中に視覚的特徴を同定するステップh_1)と、領域の中のストライプ、特に縦ストライプを分離するステップh_2)と、縦ストライプの中の眼の領域を探索するステップh_3)とを備える。
【0029】
好ましくは、先述の方法のステップh_1)は、皮膚の色を有する画像の少なくとも1つの領域を決定すること、およびその決定された領域の中で最大の領域を選択することを含み得る。この場合、ビデオデータストリームは、カラービデオストリームであり、かつ異なる色の背景を提供することによって視覚的特徴を同定するステップは簡略化される。皮膚の色を有する画素を抽出するための適切なマスクが、所望のデータを得るためにイメージに適合される。
【0030】
有利なことに、先述の方法のステップh_2)は、その決定された最大の領域内の強度の谷部(intensity valley)を同定することを含み得、その谷部内の画素の強度は予め定められた制限値よりも小さく、その制限値はその領域内の最高強度値の関数であり、そして各ストライプは1つの谷部を含む。皮膚の色のマスクで処理されたイメージ内の強度の谷部は、眼の存在によるものであり、したがって、眼の位置の探索のための信頼できる指標である。ただ1つの谷部が同定される場合は、本方法は、多くとも1つの眼の位置が決定され得ることを結論付ける。
【0031】
好ましくは、本方法は、さらに、ストライプをグレースケールフォーマットに転送することによって、前記ストライプの輪郭を同定することを含み得る。一旦ストライプが同定されると、これらの領域のみが取り扱われ、各画素内のグレースケールの勾配が輪郭を同定するために決定される。したがって、利点は、人の眼がグレースケールフォーマットにおいて容易に同定され得るストライプを構築するという事実から得られる。
【0032】
好ましい実施形態によれば、ステップh_2)は、虹彩に一致しやすい円を探索することによって、特に予め定められた色、好ましくは黒を有する輪郭内のビデオデータにおいて、それらのグレースケール強度に重み付けをすることによって、決定された輪郭の中心候補の探索をさらに含み得る。この解析は、虹彩が顔の他の特徴よりもより黒いという前提に基づき、眼による強度の谷部と、たとえば髪の存在やしわのような他の特別な顔の特徴のような他のアーチファクトによる強度の谷部とを区別を可能とし、したがって、眼の領域を含むストライプを同定するための信頼できる方法である。
【0033】
好ましくは、本方法は、上述と同様に、虹彩に一致しやすい円を探索することによって、特に、予め定められた色、好ましくは黒を有する輪郭内の前記グレースケールビデオデータを重み付けすることによって、眼の領域における虹彩の位置を同定するステップh_4)をさらに含み得る。虹彩の位置は、視覚的な相互作用が会話中に存在するか否か、特に、2人の人の虹彩の位置が同定された場合に、2人の人が互いに顔を見合わせているか否かを知るための必要な情報を提供するであろう。
【0034】
有利なことに、ビデオデータにおける少なくとも続きの画像について、虹彩の位置が全く検出できなくない場合でなければに、眼の領域における虹彩の位置を同定するために、ステップh_4)のみが繰り返され得る。これは、各画像に対してステップh_1)からh_3までが繰り返される必要がないので、演算プロセスがより速くなるという利点を有する。これらのステップは、ステップh_4)の処理中に、虹彩位置が全く検出されなかった場合にのみ実行される。
【0035】
好ましい実施形態によれば、ビデオデータは、会話に参加している人に対して、異なった位置に配置された異なるカメラからの複数のデータストリームを含み得る。この配置は、二次元のビデオデータから三次元的な解析を確立するための十分なデータを提供し、そのため視覚的な相互作用の情報の決定、特に2人の人が互いに顔を見合わせているかどうかの同定をさらに改善する。
【0036】
好ましくは、各々のカメラは1人の人のみを撮影し得る。これは、各データストリームが1人の人のみを含むことが保障されるので、データ処理をさらに容易にし、かつ、したがって同定プロセスのスピードを向上し、眼の輪郭に相当し得る輪郭を含む2つのストライプを探索しさえすればよい。好ましくは、カメラは、各カメラが、他の人からまたはその近くからの視角から人を撮影するように配置される。
【0037】
有利なことに、ステップh)および/またはi)は、2つの画像の間の時間間隔よりも短い時間間隔で実行され得る。これは、会話が終了した直後に、本方法のユーザが会話に参加している人/人達の振る舞いについての必要な情報を有することを保障する。
【0038】
好ましくは、本方法は、ステップc)および/またはd)および/またはh)および/またはi)の結果を記憶するステップj)をさらに備える。そのため、ユーザは必要なときにいつでも結果にアクセスし得る。特に、データベース内に結果を記憶することは、会話が評価された同じ人/人達、および/または異なる人の異なった会話の間での比較ができるという利点がある。1人の人の販売技術の評価は、したがって、様々な訓練のセッションにわたってフォローされ得る。
【0039】
本発明は、コンピュータプログラム製品にも関連し、上述の方法のステップを実行するためのコンピュータ実行可能命令を有する、1つまたはより多くのコンピュータ読み込み可能媒体を備える。本発明は、さらに、そのコンピュータプログラム製品を含む記憶媒体製品にも関連する。
【0040】
本発明は、さらに、上述のいずれの方法を実行するためのシステムにも関連する。さらに、本発明の目的は、請求項23、24および29に従うシステムを用いて達成され、請求項1、2および11ですでに述べたのと同様の有利な効果が達成される。
【0041】
好ましくは、データ処理装置は、少なくとも2人の人の発言中に予め定められた言葉を同定するようにさらに構成される。特定の語彙の出現は、会話に参加している人の少なくとも1人が、その状況に最も適した語彙を使用しているか否かを直ちに示す。たとえば、販売員が新製品を売る場合には、予め定められた言葉は、その製品(たとえば、商標名)、特定の特性および/または利点に、典型的に関連する。
【0042】
有利なことに、1つのマイクロフォンが、会話に参加している人ごとに提供され、各々のマイクロフォンは、ある人からの信号強度が、話しているときに、残りの人の信号強度よりも大きくなるように構成され得る。これは、対応するマイクロフォンによって捕らえられた信号が、背景ノイズや他の人の発言がそれよりも低い状態となるような、あるしきい値より上であるか否かを調べることによって、人が話をしているかどうかということが容易に決定され得ることの同定について、データ解析を容易にする。
【0043】
変形例によれば、システムは、会話中の少なくとも2人の人を、少なくとも部分的に映し出すビデオデータを撮影するための少なくとも1つのビデオカメラをさらに備え、処理装置は、少なくとも2人の人の間で、会話中に視覚的な相互作用が生じたか否かを決定するようにさらに構成され得る。そのため、会話に参加している人のプロファイルのより詳細な評価を得るために、言語的および非言語的な両方の相互作用を解析することが可能となる。特に、言語的および非言語的な相互作用と、伝達経路との間の相乗効果が、たとえば、フォーカライゼーションパラメータを有する発言の再区分に関する情報と、両参加者が同期状態にあり、そのために見聞きするときに他方の人と同じような振る舞いを示すフェーズを同定するための微細運動とを組み合わせることによって抽出され得る。
【0044】
有利なことに、処理装置は、1人の顔の少なくとも一部、特に少なくとも両眼を示す画像の領域を決定するために画像中に視覚的特徴を同定すること、領域の中のストライプ、特に縦ストライプを分離すること、およびステップh_2)において1つより多くのストライプが分離された場合に縦ストライプの中の眼の領域を探索することによって、複数の続きの画像を含むビデオデータ内の人の眼、特に虹彩の位置を検出するようにさらに構成され得る。解析するステップを、複数のステップに分割することによって、眼の位置を決定するために必要な全体的な時間が短縮され得る。
【0045】
好ましい実施形態によれば、会話に参加している人の各々に対して1つのビデオカメラが提供され、ビデオカメラは、各カメラが1人の人のみを撮影するように配置される。これは、1つのデータストリーム中に1人の人のみが存在し得ることが保証され、1対の眼を探索しさえすればよいので、データ処理をさらに容易にする。
【0046】
本発明の特定の実施形態は、添付の図面とともに本明細書からより明らかになるであろう。
【図面の簡単な説明】
【0047】
【図1】本発明に従うシステムの第1の実施形態を示す図である。
【図2】本発明の第2の実施形態に従う方法のフローチャートを示す図である。
【図3a】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図3b】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図3c】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図3d】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図3e】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図4】本発明の第3の実施形態に従う方法の第2のフローチャートを示す図である。
【図5】相互作用フェーズ遷移の検出の原理を示す図である。
【図6】本発明の第4の実施形態に従う方法の第3のフローチャートを示す図である。
【図7】第5の実施形態による本発明に従うシステムを示す図である。
【図8】本発明の第6の実施形態に従う方法の第4のフローチャートを示す図である。
【図9】本発明の第7の実施形態に従う方法の第5のフローチャートを示す図である。
【図10a】第7の実施形態に従う、眼の領域の位置を同定するための異なるステップの結果を示す図である。
【図10b】第7の実施形態に従う、眼の領域の位置を同定するための異なるステップの結果を示す図である。
【図10c】第7の実施形態に従う、眼の領域の位置を同定するための異なるステップの結果を示す図である。
【図10d】第7の実施形態に従う、眼の領域の位置を同定するための異なるステップの結果を示す図である。
【図11】本発明の第8の実施形態に従う方法の第6のフローチャートを示す図である。
【図12】第9の実施形態による本発明に従うシステムを示す図である。
【発明を実施するための形態】
【0048】
以下においては、少なくとも2人の人の間の会話を、自動的に、特に電子的に評価するための本発明のシステムに関する様々な実施形態、およびそれに対応する方法に関する様々な実施形態が、販売員(第1の人)とバイヤー(第2の人)との間の販売上の会話によって例示される。もちろん、本発明は、たとえば、就職面接などのような他の種類の会話を自動的に評価することにも適用可能である。さらに、すべての実施形態は、会話をしている2人の人について説明されるが、すべての実施形態は、2人より多くの人の間での会話に拡張され得る。
【0049】
[実施形態1]
図1は、少なくとも2人の人の間の会話を、電子的に評価するためのシステムの第1の実施形態を示す図である。システム1は、第1および第2のマイクロフォン3,5を備え、これらは、処理装置7へそれぞれ結合される。マイクロフォン3,5は、販売員およびバイヤーが配置され得る位置9,11に近接して配置される。位置9,11にそれぞれ近接したマイクロフォン3,5の位置は、マイクロフォンに最も近接した位置すなわちマイクロフォン3の場合は位置9であり、マイクロフォン5の場合位置11に座っている人の発言から生じる信号強度が、他方の位置に座っている人の発言から生じる信号強度より大きいことを保障するが、背景ノイズもまたより大きい。解析期間中、処理装置7は、それを利用して、得られたオーディオ信号が、位置9に座っている人または位置11に座っている人のいずれかであるかを明確にする。2人以上が会話に参加する場合には、システム1は、追加のマイクロフォンを提供することによって適合され得る。
【0050】
データ処理装置7は、第1の処理ユニット13を備え、属性付けられた発言を受ける。第1の処理ユニット13は、発言の属性付けから始まり、会話の進行における2人の人の発言の時間領域での再区分を確立するように構成される。第1の処理ユニット13は、この解析ステップの結果を予め定められたコミュニケーションパターンと比較し、さらに以下で定義されかつ説明されるが、位置9に座っている人と位置11に座っている人との間での販売上の会話のような会話中における、1つまたはより多くのコミュニケーションパターンを同定するようにも構成される(第2の実施形態も参照)。
【0051】
データ処理装置7は、それぞれのオーディオデータを同様に受ける第2の処理ユニット15を備え、それは、会話に参加している1人の人の話している時間の移動平均値に基づいて、会話の進行において予め定められた相互作用フェーズを同定するように構成される。この移動平均値は、オーディオデータ、主にデータ処理装置7によって実行された発言の属性から直接決定される。システム1を用いて自動的に同定された相互作用フェーズおよびその手段は、以下でさらに説明される(第3の実施形態も参照)。
【0052】
追加の要素として、処理装置7は、第3の処理ユニット17を備え、位置9に座っている人および/または位置11に座っている人の発言の中において予め定められた言葉が同定され得るように構成される。
【0053】
第1の処理ユニット13、第2の処理ユニット15および第3の処理ユニット17によって得られる結果は、記憶装置19に記憶され、および/またはユーザインターフェース(図示せず)を介して、販売上の会話の参加者、および/または、たとえばセミナーの講師のような第三者へ出力される。
【0054】
本発明に従うシステム1は、会話の進行の定量的な解析を提供することによって、上述の販売上の会話のような会話の自動的な評価における用途を見出す。この定量的なデータは、2人の参加者間の会話が記録された直後に、ユーザが、販売上の会話行なった参加者の動作についての有益な情報を得られるように、たとえばセミナーの講師のようなユーザを支援する。
【0055】
変形例によれば、システム1は3との処理ユニットすべてを備えなくとも、1つだけまたは2つを備えるようにしてもよい。
【0056】
[実施形態2]
図2は、システム1が会話を評価するために用いられる方法を示す図であり、さらに、本発明に従う第2の実施形態、主に本発明に従う少なくとも2人の人の間の会話を自動的に、主に電子的に評価するための方法を示し、それは実施形態1のシステム1を用いる。
【0057】
実施形態2のステップS1は、図1で図示したシステム1の2つのマイクロフォン3および5によって得られたオーディオデータを受け取る。
【0058】
そして、ステップS2は、このオーディオデータを解析して、2つの異なったオーディオデータストリームに、第1および第2の人の発言の時間領域における特性を見出す。ここでは、処理装置7が、この解析を実行する。
【0059】
それぞれの話し手の発言の特性は、各オーディオデータストリームにおいて、得られた信号強度のフィルタリングに基づく。その信号がマイクロフォン3のデータストリームにおいて、あるしきい値より大きい場合は、第1の処理ユニット13は位置9の人が話していると判断し、信号強度がそのしきい値よりも小さい場合には、その人は話しておらず、残りの信号は背景ノイズおよび/または位置11に座っている他方の人からの発言によるものであると判断される。同様の解析が、マイクロフォン5からの第2のデータストリームについても実行され、信号がしきい値よりも大きい場合は、発言は位置11の人によるものである。この方法は、理解しやすいが、また信頼できるものであり、特に、両方の人が同時に話している状況を同定することも可能である。
【0060】
一旦、時間領域における2人の人の発言の属性が確立されると、2人の人の間の会話の品質に関するさらなる情報を抽出することが可能となる。まず第1に、販売上の会話のような会話中に生じるコミュニケーションパターンを決定することができる。図3は、販売員とバイヤーとの間の異なったコミュニケーションパターンを定義する。
【0061】
図3aは、「傾聴」のコミュニケーションパターンを示す図である。この図においては、グレイのブロックは、時間(x軸)の関数として発言を図示しており、グレイのブロックのない部分は、対応する人が話していないことを示している。「傾聴」パターンの特徴は、第1の人である販売員は沈黙しており、一方で第2の人であるバイヤーが話をしている。
【0062】
第2のコミュニケーションパターン(図3b)は、「再構築」パターンを表す。このパターンにおいては、話しているのは、基本的に、第2の人すなわちバイヤーであり、第1の人は、時々、少しだけ介入する。典型的に、第1の人が、彼の合意を表明し得るか、キーワードまたはキーワードのグループを繰り返す。
【0063】
図3cは、「反応」パターンを示す図である。このパターンにおいては、第1の人が話をしているが、第2の人が介入するために割り込んでいる。ここでは、両方の人が話をし、典型的には第2の人が話し続けている状況が発生する。この場合において、販売員の正しい反応は、バイヤーに彼の考えを述べさせるために、できるだけ早く話をやめることであろう。
【0064】
図3dは「表現」パターンを表しており、この期間においては、第1の人が主に話し、第2の人は時々介入するだけである。
【0065】
最後に、図3eは「沈黙」パターンを示す図であり、この間は誰も話をしていない。
優れた販売員は、会話の間に自分自身を見出す状況に依存して5つのパターンを積極的に使用することができなくてはならない。販売員が、このコミュニケーションツールを適用することに堪能である場合、彼は、彼の相手、すなわちバイヤーの期待および振る舞いの効果として、彼が売ろうとしている製品の価値をあげることができるだろう。
【0066】
本発明の第2の実施形態に戻って、ステップS2で発言の属性が解析されると、処理装置7(第1の処理ユニット13)は、ステップS3において、上記で定義された様々なコミュニケーションパターンを同定するように処理を行なう。これは、2人の話し手の間の発言の再区分を決定することによって達成され、これはステップS2で決定された属性に基づく。そして、発言の属性は、異なったモデルコミュニケーションパターンと比較される。
【0067】
対応する結果は、ステップS4において、各パターンが発生した回数、どれくらいの時間がかかったか、または、反応パターンにおいて2人の人が話している時間が長すぎるかどうか、などについての統計値を決定するために用いられる。
【0068】
もし、販売員が、会話の中で、1つまたはより多くのパターンを用いなかったり、ただ悪く用いたりした場合は、セミナーの講師のようなユーザは、このコミュニケーションパターンの欠如を直ちに確認できるとともに、販売員がコミュニケーションパターンに関して有している可能性のすべてを使用しているわけではないこと、あるいはその技術を適合することによって改善することができることを示すことができる。
【0069】
ステップS3およびS4の解析の結果は、ユーザインターフェースを介してユーザに出力され(ステップS5)、および/または、データベースのような記憶装置19内に記憶される(ステップS6)。
【0070】
[実施形態3]
図4は、システム1が会話を評価するために用いられるさらなる方法を示す図であり、さらに、本発明に従う第3の実施形態、主に本発明に従う少なくとも2人の人の間の会話を自動的に、主に電子的に評価するための方法を示し、それは実施形態1のシステム1を用いる。
【0071】
ここで、ステップS1およびS2は、第2の実施形態のものに対応する。それらの説明は、参照によって引用される。
【0072】
この実施形態においては、2人の人からの発言の属性の解析は、相互作用フェーズの順序を同定するために用いられ、それはステップS7に図示される。この解析は、システム1の処理ユニット15において実行される。
【0073】
販売上の会話は、典型的に、以下のような相互フェーズのうちの少なくともいくつかを備える。
【0074】
1)「プレゼンテーション」、このフェーズは、会話のはじめにおける短時間のフェーズであり、このフェーズの間に2人の人が自己紹介を行なう。典型的に、販売上の会話の主題である製品やサービスとリンクしない様々な話題が、参加者間で議論される。このモデルにおいては、多く話をするのは販売員である。
【0075】
2)次に、典型的に、「ニーズの発見」のフェーズが続き、これは前のフェーズよりも長い。このフェーズにおいては、主となる人はバイヤーであるが、販売員によって案内される。販売員は、対応する製品やサービスを次に提案可能となるニーズを、バイヤーに述べさせるように努める。このフェーズにおいては、情報のフローは、基本的にバイヤーから販売員に向かう。
【0076】
3)フェーズ3は、「議論のフェーズ」であり、このフェーズの間に、販売員は彼の製品を紹介し、したがって、多く話をするのは販売員である。
【0077】
4)次のフェーズは、「反論への対応のフェーズ」であり、このフェーズの間は、両方の人が介入する。バイヤーが製品に対する反論を述べ、一方で販売員はそれに応答するとともに、同時にバイヤーのニーズをより明確な方法で同定する。基本的に、このフェーズにおいては、情報の流れは行き来する。
【0078】
5)最後に、各々の販売上の会話が「結論」によって終結し、このフェーズの間は、典型的に、販売員が得られた決定を手短に要約する。
【0079】
これらのフェーズは、この順序で行なわれなくてはならない必要はなく、もちろん、1つのフェーズが欠落することも可能であり、たとえば、提示した製品がバイヤーの期待するものに直接相当する場合には、フェーズ4は生じない。フェーズが編成される方法は、その業界や会社がその販売上の会話を行ないたいというような、様々なパラメータに依存する。しかしながら、フェーズ1および2は、定義によって、それぞれはじめと最後に常に生じる。
【0080】
第3の実施形態のステップS3は、会話の進行において、会話に参加している1人の人の話している時間の移動平均値に基づいて、予め定められた相互作用フェーズを同定することであり、この予め定められた相互作用フェーズは、ステップS2において事前に決定されている。バイヤーと販売員との間の情報の流れは、上記で説明したように、会話の異なるフェーズを特徴付ける。「話している時間の移動平均値」のパラメータを用いて、異なるフェーズとそれらの順序が、一方の人または他方の人に対して話している時間の属性から、自動的かつ電子的に確立され得る。
【0081】
図5は、販売上の会話に参加している販売員の話している時間の移動平均値21を、時間の関数として示した図である。移動平均は、もちろん、バイヤーについても決定し得る。したがって、x軸は時間に相当し、y軸はパーセント単位の移動平均値に相当する。移動平均値21が、会話の総期間のおよそ3%から10%の期間にわたって演算されたときに、特に、10分から20分のオーダである総期間の5%にわたって演算されるときに、最もよい結果が達成された。
【0082】
はじめに、会話の異なるフェーズが同定される。この同定は、1つのフェーズから他のフェーズへの遷移の検出に基づく。
【0083】
第2の処理ユニット15は、移動平均値21が第1の制限値25、ここでは65%を通過する第1の時間23、および移動平均値21が第2の制限値29、ここでは50%を通過する第2の時間27を同定するように構成される。第1および第2の時間23,27が一旦同定されると、本発明の方法は、2つのフェーズ間の遷移が第2の時間27において存在すると結論付ける。解析は、2番目の第1の時間33を通過した次の時間31の同定を継続する。ここで、2番目の第1の時間33は35%である。このフェーズは、第2の制限値29を再び通過する次の時間35の検出によって終了する。同様にして、本発明の方法は、それに引き続くフェーズを同定するとともに、時間36,37において終了し、会話は38で終了する。
【0084】
第1のおよびより高い、より低い制限値は、解析されるべき会話の種類に適合され得る。
【0085】
次に、本方法は、様々なフェーズ、すなわちプレゼンテーション、ニーズの発見、議論、反論への対応、および結論、の同定を継続する。まず第1に、フェーズの2つのカテゴリが判断される。短いフェーズは総時間の20%未満の期間を有し、長いフェーズは総時間の20%またはより多くの期間を有する。
【0086】
短いフェーズは、以下の方法によって属性付けられる。
フェーズが第1のフェーズであり、かつ販売員がバイヤーより多く、または同じくらい話している場合は、そのフェーズは、プレゼンテーションのフェーズであるとして同定される。
【0087】
フェーズが、最後のフェーズであり、かつ話している時間がバランスしていない場合は、そのフェーズは結論のフェーズであるとして同定される。
【0088】
フェーズが、第1のフェーズでも最後のフェーズでもなく、かつ販売員がバイヤーよりも多く話している場合は、そのフェーズは、議論のフェーズであるとして同定される。多く話しているのがバイヤーの場合は、そのフェーズは、ニーズの発見のフェーズである。
【0089】
長いフェーズについては、議論のフェーズおよびニーズの発見のフェーズと、反論への対応のフェーズとを区別するために、追加のパラメータが必要となる。この追加のパラメータは、2人の話し手の間の考えられたフェーズの平均会話時間を限定する。3つの領域がこの値のために考えられる。第1の領域は、会話時間が2人の話し手の間でバランスしている領域であり、第2の領域は、販売員がバイヤーより多く話している領域であり、第3の領域は、バイヤーが販売員より多く話している領域である。バランスしている流域は、2人の話し手の平均会話時間が50%に近いこと、特に42.5%と57.5%との間であることによって限定される。
【0090】
この第3の制限値を用いて、フェーズは以下のように属性付けられる。会話時間の平均値が販売員の領域の場合は、そのフェーズは議論のフェーズであり、平均値がバイヤーの領域の場合は、そのフェーズはニーズの発見のフェーズである。そして、最後の場合、すなわちバランスした領域の場合は、そのフェーズは、両参加者が議論する、反論への対応のフェーズである。
【0091】
したがって、これらの規則を考慮して、時間27で終了するフェーズ1は、プレゼンテーションのフェーズである。時間35で終了するフェーズ2はニーズの発見のフェーズであり、このフェーズにおいては、バイヤーが反論および結論に応答して自分のニーズを述べているので、バイヤーが多く話していることを示す。時間36で終了するフェーズは、ここではバイヤーが、バイヤーのニーズにあった製品を示すことによってバイヤーのニーズに応答するので、議論のフェーズに対応する。
【0092】
時間37で終了する次のフェーズは、第4のフェーズであり、反論への応答のフェーズである。最後に、時間38で終了する最終のフェーズは、結論のフェーズである。
【0093】
同じタイプの2つの相互作用フェーズが続いて同定された場合は、処理ユニット15は、さらに、それらが自動的に1つのフェーズに結合されるように構成され得る。
【0094】
本方法のステップS8は、相互作用フェーズの決定結果を解析することである。会話中に、これらのフェーズのうちの1つまたはより多くのフェーズが欠けていたり、いくつかのフェーズの時間が長すぎたりあるいは短すぎたりした場合、システム1のユーザは、販売員が最適化された方法で進めていないという情報をシステム1から直接得て、結果として、会話に参加している人のコミュニケーションスキルにおける可能性のある改善点を指摘することができる。
【0095】
ステップS7およびS8の結果は、ちょうど第2の実施形態と同じように、ユーザインターフェースを介してユーザに対して出力され(ステップS5)、および/または、データベースのような記憶装置19に記憶される(ステップS6)。
【0096】
第2および第3の実施形態は、会話のより完全な状態およびコミュニケーションスキルが得られるように、有利にも、1つのプロセスに結合され得る。特に、異なる相互作用フェーズにおける様々なコミュニケーションパターンの使用が、自動的に決定され、そしてユーザによって利用され得る。
【0097】
[実施形態4]
図6は、本発明に従う、システム1の第3の使用、および少なくとも2人の人の間の会話を電子的に評価するための第3の方法を表わす、第4の実施形態を示す図である。図2に図示された第2の実施形態と比較して、本方法は、少なくとも販売員の発言において予め定められた言葉を同定する、追加のステップS9を備える。変形例によれば、予め定められた言葉は、バイヤーの発言においても同定され得る。他のステップである、S9の前のS1からS4,ならびに、S9の後のS5およびS6は、第2の実施形態のそれぞれに対応し、したがって、再度繰り返しはしないが、それらの説明は参照によってここに引用される。
【0098】
予め定められた言葉、典型的には20から50の特定の言葉であり、より特定的には30の特定の言葉は、販売されるべき製品またはサービスを同定しおよび/または特徴付け、さらに販売上の会話が行なわれている職業環境に関連し得る。販売員の発言における予め定められた言葉の同定は、販売員が正しい語彙を使用しているか否かを同定するための助けとなり、もしその言葉を使用していない場合には、販売員の能力向上のために、新製品教育のような、適切な方策をとることができるようにする。
【0099】
第2の実施形態に代えて、追加のステップS9は、第3の実施形態と同様の方法がさらに追加され、または第3および第4の実施形態は結合されて、会話およびコミュニケーションスキルのさら一層詳細な解析が得られるようにする。
【0100】
予め定められた言葉の発生は、それらが発生したりしなかったりする会話の相互作用フェーズの種類に依存して、より重要であったりあまり重要でなかったりするので、予め定められた言葉の同定は重要である。販売されるべき製品を規定する予め定められた言葉は、成功した会話の可能性を向上するために、特に「議論」および「反論への対応」のフェーズにおいて用いられるべきである。したがって、2人の参加者が現在いる相互作用フェーズの効果としての予め定められた言葉の同定は、重要な役割を担うとともに、本システムおよび方法のユーザ、たとえば講師に、販売員が適切な方法でオーガナイズされていない場合の、可能性のある改善点を指し示す。
【0101】
本発明によれば、実施形態1から実施形態4は、人が互いに面と向かって座っておらず、電話越しに会話している状況にも適合され得る。この場合においても、発言は属性付けられ、かつコミュニケーションパターン、コミュニケーションフェーズおよび予め定められた言葉の使用が判断される。
【0102】
[実施形態5]
図7は、本発明に従う第4の実施形態、主に少なくとも2人の人の間の会話を電子的に評価するため第2の発明のシステムを示す図である。システム41は、会話中の少なくとも2人の人を映し出すビデオデータを撮影するための、2つのビデオカメラ43および45を備える。第1の実施形態のマイクロフォン3および5と同様に、ここでは、ビデオカメラ43および45は、ビデオカメラ43が位置11(第1の実施形態と同じ位置11)にいる人を撮影する一方で、第2のカメラ45が位置9にいる人を撮影するように配置される。好ましくは、カメラ43,45は、データ処理を容易にするために、一度に1人だけを撮影する。
【0103】
カメラ43および45の各々は、少なくとも2人の人の間の視覚的相互作用が会話中に発生するか否かを判断するように構成された処理装置47に結合される。処理装置47は、位置9および11に位置している人の眼、特に虹彩の位置を検出して、一方の人が他方の人を見ているか、または2人の人が互いに顔を見合わせているかを判断するように構成された第4の処理ユニット49を備える。したがって、3つの要素が、3つのフォーカライゼーション状態、すなわち販売員がバイヤーを見ているか、バイヤーが販売員を見ているか、そして両者が互いを見ているかを同定し得る。フォーカライゼーションの有無は、販売上の会話の品質を特徴付ける重要なパラメータを表す。フォーカライゼーションが無い場合は、システム41のユーザ、ここでは、すなわち販売セミナーの講師は、会話において、特に販売員のコミュニケーションスキルにおける不備を指し示し、この人が販売技術を向上できるようにし得る。
【0104】
処理装置47は、さらに、位置9および11にいる少なくとも2人の人の眼の微細運動を解析するための第5の処理ユニット51を備え得る。第5の処理ユニット51は、会話の参加者の眼の微細運動の方向を判断し、その後、それらが同じモードであるか否かをさらに判断するように構成される。会話をしている2人の人は、それらの微細運動が同期する傾向にあることが知られている。処理装置47が、2人の人が同期していないと判断した場合、それらが欠落していることが指し示され、かつ会話中にこの種の相互作用が不足していることが示され、そして、販売員は、このコミュニケーション手段の利益を得られるように特別に訓練され得る。したがって、バイヤーと販売員との間の販売上の会話を限定するさらなるパラメータ、主に同期の有無は、自動的かつ電子的に検出され、そしてシステム41のユーザに出力され得る。
【0105】
第1の実施形態と同様に、システム41もまた、記憶装置19および第4および第5の処理ユニット49および51の解析結果について通知するユーザインターフェース(図示せず)を備え得る。
【0106】
[実施形態6]
図8は、第5の実施形態のシステム41が視覚的相互作用情報を得るために用いられる方法を示す図であり、さらに本発明に従う第6の実施形態、主に本発明による少なくとも2人の人の間の会話を電子的に評価するための方法を示し、それは第5の実施形態のシステム41を用いる。さらに、第6の実施形態は、2人の人の間の販売上の会話に関して説明される。ここで、第1の人、たとえば販売員は、位置9に座っており、第2の人、すなわちバイヤーは位置11に座っている。したがって、カメラ43はバイヤーの顔の少なくとも一部のビデオデータを撮影し、カメラ45は販売員の顔の少なくとも一部のビデオデータを撮影する。
【0107】
第6の実施形態に従う方法は、ステップS11、主にビデオカメラ43および45によって撮影されたビデオデータの処理装置47による受信で始まる。
【0108】
次に、ステップS12は、第4の処理ユニット49によるビデオデータの解析であり、視覚的相互作用、すなわち上述のようなフォーカライゼーションおよび/または同期が、販売上の会話中に生じたか否かを判断する。
【0109】
本発明によれば、ビデオデータの解析は、したがって、フォーカライゼーションが存在したか否か、すなわち2人の参加者が互いに顔を見合わせていたか否かを判断する第1のステップ(ステップS13)を備え、および/または、同期が存在したか否か、すなわち2人の参加者の眼の微細運動が同じモードであるか否かを判断する第2のステップ(ステップS14)を備える。
【0110】
自動的かつ電子的に判断された販売員とバイヤーとの間の非言語的な相互作用の評価を提供するこの解析の結果は、ユーザインターフェースを介してユーザに出力され(ステップS15)、および/または、記憶装置19へ記憶される(ステップS16)。
【0111】
実施形態1から4と同様に、第5および第6の実施形態も、説明した販売上の会話のような会話の評価を自動的かつ電子的に得るために用いられる。しかしながら、この場合、解析されたパラメータは、非言語的な相互作用に関連する。たとえば、たとえ他方の人を見る必要のない状況、特に、メモを書き留める場合や、販売員がバイヤーの話を傾聴している明らかに集中したフェーズの期間であっても、相手を見ていない販売員は最適化された販売上の会話を実現していないので、非言語的な相互作用は考慮されるべきパラメータである。これらの状況は例外を示しており、通常は短期間だけ生じる。ファーカライゼーションパラメータとは別に、視覚的相互作用解析は、2人の参加者の眼の微細運動間の同期の有無についての情報も電子的かつ自動的に提供し得る。
【0112】
[実施形態7]
図9は、本発明の第7の実施形態、主に複数の連続した画像を備えたビデオデータ内の人の眼の位置を電子的に検出するための方法を示す図である。本方法は、虹彩の位置を検出することに特に適しており、したがって、第6の実施形態のステップS12およびS13に詳細が説明される。さらに、本方法は、ちょうど実施形態6の方法と同様に、2つのビデオカメラ43および45によって撮影されたビデオデータを受け取ることで始まる(ステップS21)。図10aは、カメラ43によって撮影されたビデオデータストリームからの、人55の頭部の画像53を示す図である。データ解析を容易にするために、人の背景57は、皮膚の色と異なった色としている。第7の実施形態に従う方法は、1人の人だけの顔を撮影する1つのビデオカメラだけでも実現され得ることが言及されなくてはならない。
【0113】
次に、ステップS22は、ビデオカメラから供給されたビデオデータストリームの1つの画像内の解析される人の顔の少なくとも一部を含みそうな領域を決定することである。この実施形態においては、顔または顔の一部を表示する領域の決定は、画像データに適用される、皮膚の色を示す画像の一部を抽出するためのマスクの開発に基づいている。位置9または11の後方に、皮膚の色を示さない背景を与えることで、解析のこの部分が容易になる。本解析ステップが、皮膚の色を有する複数の領域を与える場合は、カメラ43および/または45が配置され、かつ得られた画像が基本的に人の頭部と皮膚の色でない背景のみを撮影するように構成されるので、最も大きな領域が選択される。結果を改善するために、画像は同じ方法で何回か再処理され得る。図10bは、実際の例におけるこの事実を示す図である。四角形59は、眼の領域を含みそうな、皮膚の色の結合された領域である。
【0114】
次のステップS23は、撮影された人の眼を含みそうなストライプを分離するために、撮影された人の顔が含まれる、先に決定された領域の詳細な観察が行なわれることである。ストライプを決定するためのデータ処理は、以下のように行なわれる。領域を定義する画像の強度または色の、垂直または水平方向のプロファイルが得られる。そして、プロファイルの最大値が判断され、局所最大値は、プロファイルのスムージングによって除去される。引き続いて、強度の谷部が探索され、強度の谷部は、領域あるいは、対応する垂直または水平方向のストライプ内に事前に定義された最大値の関数として定められる予め定められた制限値よりも小さい値を有する画像に対応する。プロファイル内の谷部は、実際に、カラーマスク内の穴を引き起こす眼の存在によるものであり得る。1つのプロファイルにおいて、このような谷部が見つけられると、隣接するプロファイルが、次に、結合された構造につながる対応する谷部を探索するように調査される。そして、このような結合された構造に属するプロファイルは、撮影された人の眼を含みそうな1つのストライプと定義される。図10cは、このステップの結果を示す図であり、その人の眼を含み得る3つのストライプ61a,61b,61cを示す。右側のストライプ61cは、右眼の近くにあるしわの位置において、強度の谷部を有する。
【0115】
もし、ビデオデータストリームの1つの画像について、1つのストライプだけが発見された場合は、撮影された人の2つの眼の位置を同定することが可能ではないと自動的に結論付けられる。プロセスは、ステップS23で停止し、ビデオデータストリームの次の画像が、再びステップS21で開始されることによって解析される。
【0116】
プロセスは、さらなる変形例を提供することによって改善され得る。領域内で発見されたが小さすぎる結合された構造は除去され、互いに近接している結合された構造は組み合わされ、および/または、非常に大きな結合された構造は2つに分割され、2つのストライプを導く。結合された構造が比較的小さいが、人の眼を含むには結果的にまだ十分に大きい場合は、ストライプを拡げることも1つの可能性である。
【0117】
一旦、人の眼を含みそうなストライプが分離されると、次のステップS24は、1つより多くのストライプが前のステップにおいて分離された場合は、ストライプの領域の内側の眼の領域を探索する。本実施形態においては、各ストライプ内のグレイスケールイメージの輪郭線図を演算する。各候補のストライプ内の虹彩の中心の有力な位置が、次に、輪郭のすべての点に対する接触円の半径に沿って描かれる円弧の交点を調査することによって見出される。これらの円弧がほぼ同心円になるような点が、ストライプ内の虹彩の中心であると推定される。これは、虹彩は、最も円形の輪郭を有する顔の特徴だからである。この中心についての交点の数は、検出の品質の目安である。さらに、虹彩が黒いので、その点におけるイメージのグレイレベルがより暗くなるので、この点が虹彩の中心であるという可能性が増加する。交点の数は、したがって、グレイレベル値によって重み付けされる。
【0118】
前のステップで抽出された2つより多くのストライプの場合、もっとも可能性の低い候補は、最低の重みを有するストライプであり、したがって、除去され得る。残っている2つのストライプの各々に対する眼の領域は、次に、予め定められた大きさのフレームとして定義され、それはビデオ全体の全ての眼を含むのに十分な大きさであり、維持された候補点が中心となるように配置される。図10dは、実際の例におけるこのステップの結果を示す。ストライプ61aおよび61bにおいて、眼の領域63aおよび63bが定義されており、一方ストライプ61cにおいては、前者に比べて候補中心の重みが非常に小さくなった。
【0119】
一旦、ストライプ内の眼の領域が定義されると、次のステップS25は、検出された眼の領域の内部だけに同様のアルゴリズムを用いて、眼の領域内部の虹彩の位置を決定する。
【0120】
そのようにすることで、検出プロセスからもたらされた品質値は、領域の大きさに関して本質的に正規化され、全ての領域は同じ大きさを有する。したがって、ビデオの他のフレームに対して得られた結果を、後に比較することが可能となる。
【0121】
一旦、システム41のようなシステムによって、虹彩の位置が2人の撮影された人に対して確立されると、2人の人が顔を見合わせているか否かを判定することができる。これは、ビデオカメラの位置が固定されており、そのために画像内の虹彩の位置を知ることによって、処理装置47が、2人の人の虹彩の位置が2人の人が顔を見合わせている状況に対応しているか否かを判断することができるという事実による。本実施形態の具体的な変形例においては、各イメージについて得られた虹彩の検出は、ビデオ内において、その人が彼または彼女の対談者を見ている順序を決定するために用いられる。本実施形態の簡略化された変形例においては、人の眼が同定されるという事実は、その人が他方の人を見ているということを結論付けるのに十分であり、両方の人について眼が同定された場合は、彼らが顔を見合わせているということを結論付け得る。
【0122】
さらに、虹彩および眼それ自体の位置が解析されると、眼の微細運動が各人について判断され得る。主に、虹彩の動きが、以下の6つの眼の方向、すなわち、上方左、上方右、左、右、下方左および下方右のうちの1つであるか否か、である。両方の人が同じ振る舞いを示す場合は、彼らが同期状態にあることが結論付けられる。
【0123】
[実施形態8]
図11は、少なくとも2人の人の間の会話を電子的に評価するためのさらなる方法を示す、第8の実施形態を示す図である。第7の実施形態の場合と同様に、本実施形態は、ステップS21からS25に加えて追加のステップS26およびS27を含み、これらは、ビデオデータの画像フレーム内の虹彩の位置を決定するプロセスのスピードをさらにアップさせる。第1の画像の眼の領域内の虹彩の位置を決定(ステップS25)した後、処理装置47は、ビデオデータの次の画像フレームの解析を開始するが、ステップ22における顔を表示する領域の同定は再スタートせず、眼の領域が前の画像フレーム内で同定された位置に対応する領域内の虹彩の位置の再決定を直ちに開始する。最終的に、変形例によれば、虹彩を発見する機会を改善するために、この領域は拡大され得る。
【0124】
実際、本実施形態においては、販売上の会話中に頭部およびすなわち眼の位置はそんなに速く動かず、そのために、続きの画像において、ステップS22からS24を繰り返すことなく、前の画像においてあった位置と同じ位置において虹彩が発見され得るチャンスが高くなるという事実の利点がある。
【0125】
ステップ26中に続きの画像内で虹彩が発見されたことが、ステップ27において判断された場合、ステップ22から25を通過することなく、次に続く画像に対してステップ26が再び実行される。しかしながら、もし処理装置47が、ステップ26中に眼の領域内の虹彩を同定できない場合、第8の実施形態に従う方法は、そのときは、ちょうど前の実施形態のように、ステップ22を再スタートする。
【0126】
[実施形態9]
図12は、本発明の第9の実施形態による、本発明に従う第3のシステムを示す図である。システム71は、本発明の第1および第5の実施形態によるシステム1および41の組み合わせに対応する。したがって、−第1および第5の実施形態に関する同じ参照番号を用いて−2つのマイクロフォン3,5、2つのビデオカメラ43および45を備え、それらは各々、第1から第5の処理ユニット13、15、17、49および51を備える処理装置73と結合され、マイクロフォンおよびビデオカメラから受信したオーディオデータおよびビデオデータの両方を解析するように構成される。これらの要素の詳細な説明は再び繰り返さないが、第1および第5の実施形態が参照によってここに引用される。上述のように、 2人より多くの人が会話に参加している場合、システム71は、対応する数のマイクロフォンおよび/またはビデオカメラを提供することによって、それに応じて適合され得る。
【0127】
さらに、システム71は、前述の実施形態のように、記憶装置19および/またはユーザインターフェース(図示せず)をさらに備え得る。このシステムを用いて、上述の方法は、共同して実行され得る。したがって、2人の人の会話は、彼らの言語的な相互作用および非言語的な相互作用に基づいて、自動的かつ電子的に評価され得る。
【0128】
さらに、本実施形態においては、オーディオデータおよびビデオデータから抽出された情報間の相乗効果から、利点が得られ得る。販売上の会話中に生じる相互作用フェーズの効果として、フォーカライゼーションおよび/または眼の微細運動を解析することが可能となる。
【0129】
「発言の再区分」のパラメータおよび「フォーカライゼーション」のパラメータの両方を見ることは、2人の人の間の同期の第1の評価基準を提供し、したがって、共通の振る舞いが存在する状態は、会話の成果について有益であるかもしれない。たとえば、バイヤーが、彼が話しているときは販売員を見ていない(バイヤーのフォーカライゼーションがない)が、彼が話を聞いているときにはバイヤーを見ており、かつバイヤーが同じ方法を採用する場合は、両者は同期した状態にある。両方の参加者は、したがって、共通の振る舞いを採用する。したがって、たとえ両者が顔を見合わせなくても、本発明の方法は、会話の成果についての利点のある同期状態を同定し得る。たとえば、バイヤーが内気な人の場合で、他方の人が彼を見ることをやめるときには、彼はあえて他方の人を見ないことがよりよいと気づく。
【0130】
フォーカライゼーションがない場合、両者の微細運動が同じモードである場合に、ある種の同期が得られるので、微細運動を解析することが関心事になる。さらに、各人の眼の微細運動が、会話の第1および/または第2のフェーズ、すなわち「プレゼンテーション」および/または「ニーズの発見」のフェーズ中に解析される。以降の3つのフェーズ中、システム71は、2人の人の間の微細運動の同期が生じているか否か、または、各人が、各人自身の有する微細運動モードにあるか否かを判断する。
【0131】
販売員の同期可能性について得られたデータは、適応可能性を定量化することを可能とする。典型的に、人は同じ言語的および非言語的なモードを繰り返す。しかしながら、正しいコミュニケーション訓練によって、バイヤーのモードに適応することができる。したがって、本発明の方法および装置を用いて、そのような解析が定量的基礎の上に乗せられ得る。
【0132】
システム71のユーザが、2人の人の間で販売上の会話が行なわれた方法についてのより多くの情報さえも得ることができるように、異なるフェーズの効果としてフォーカライゼーションをチェックすることも可能である。
【0133】
好ましくは、処理装置は、すべての解析がオンザフライで実行されるように構成される。たとえば、虹彩の位置は、2つの画像間で、リアルタイム解析が可能なように演算される。これは、会話の最後において、ユーザが2人の人の間の言語的および非言語的な相互作用についてのデータを直ちに得ることができ、かつ、販売員のプロファイルを判断できるという利点を有する。
【0134】
好ましくは、システム1、41および71の各々は、予め定められたプロファイルを有するデータベースをさらに備えることができ、そして、予め定められたプロファイルの言語的および非言語的な相互作用の特性を用いて販売員とバイヤーとの間の言語的および非言語的な相互作用の解析結果を比較することによって、システムは、評価される人に最適な、予め定められた販売員のプロファイルを出力することができる。そうすることによって、評価されたテスト者は、彼のコミュニケーションスキルを改善するための特別訓練基準を示され、したがって、彼の販売上の会話を成功的に成立させる可能性を向上することができる。
【0135】
上述の方法は、すべてコンピュータプログラムとして実現され得、そして説明したステップを実行するためのコンピュータ実行可能指令を有する1つまたはより多くのコンピュータ読み出し可能な媒体を含むコンピュータプログラム製品上に乗せられ得る。本発明によれば、記憶媒体が、コンピュータプログラムを記憶するために用いられ得る。

【特許請求の範囲】
【請求項1】
少なくとも2人の人の間の会話を、自動的に、特に電子的に評価するための方法であって、
g)少なくとも2人の人を、少なくとも部分的に映し出すビデオデータを受け取るステップと、
h)前記少なくとも2人の人の間で、会話中に視覚的な相互作用が生じたか否かを決定するために、前記ビデオデータを解析するステップとを備え、
ステップh)は、前記少なくとも2人の人の虹彩の位置を検出することによって、前記少なくとも2人の人が、互いに顔を見合わせたか否かを決定することを含み、
前記方法は、
i)眼の運動の方向が同じモードであるか否かを決定するために、前記少なくとも2人の人の眼の運動を解析するステップをさらに備える、方法。
【請求項2】
前記ステップi)は、
上方左、上方右、左、右、下方左および下方右眼の6つの方向のうちの1つへの虹彩の運動を含む、請求項1に記載の方法。
【請求項3】
ステップi)は、
少なくとも1つの予め定められた相互作用フェーズにおいて、眼の運動の方向が同じであるか否かを決定することを含む、請求項2に記載の方法。
【請求項4】
ステップh)は、
h_1)前記2人の人の少なくとも1人の顔の少なくとも一部、特に少なくとも両眼を示す画像の領域を決定するために、前記ビデオデータの画像中に視覚的特徴を同定するステップと、
h_2)前記領域の中のストライプ、特に縦ストライプを分離するステップと、
h_3)ステップh_2)において1つより多くのストライプが分離された場合、前記縦ストライプの中の眼の領域を探索するステップとを含む、請求項1〜3のいずれか1項に記載の方法。
【請求項5】
ステップh_2)は、
前記ストライプをグレースケールフォーマットに転送することによって、前記ストライプの輪郭を同定するステップと、
前記虹彩に一致しやすい円を探索することによって、予め定められた色を有する前記輪郭内の前記ビデオデータにおいて、それらのグレースケール強度に重み付けをすることによって、決定された輪郭の中心候補の探索とを含む、請求項4に記載の方法。
【請求項6】
前記虹彩に一致しやすい円を探索することによって、予め定められた色を有する前記輪郭内の前記グレースケールビデオデータを重み付けすることによって、眼の領域における前記虹彩の位置を同定するステップh_4)をさらに備える、請求項4または5に記載の方法。
【請求項7】
前記ビデオデータにおける少なくとも続きの画像について、虹彩の位置が全く検出できなくはない場合に、眼の領域における前記虹彩の位置を同定するために、ステップh_4)のみが繰り返される、請求項6に記載の方法。
【請求項8】
前記ビデオデータは、
会話に参加している人に対して、異なった位置に配置された異なるカメラからの複数のデータストリームを含む、請求項7に記載の方法。
【請求項9】
各々のカメラは、1人の人のみを撮影する、請求項8に記載の方法。
【請求項10】
a)少なくとも2人の人の間の会話を含むオーディオデータを受け取るステップと、
b)会話の進行における少なくとも2人の人の発言の再区分を決定するために、時間領域において、前記オーディオデータを解析するステップと、
c)前記解析するステップの結果を予め定められたコミュニケーションパターンと比較することによって、会話中の1つまたはより多くのコミュニケーションパターンを同定するステップとをさらに備える、請求項1〜9のいずれか1項に記載の方法。
【請求項11】
a)少なくとも2人の人の間の会話を含むオーディオデータを受け取るステップと、
d)会話に参加している1人の人の話す時間の移動平均値に基づいて、会話の進行における、予め定められた相互作用フェーズを同定するステップとをさらに備える、請求項1に記載の方法。
【請求項12】
少なくとも1つの相互作用フェーズの同定は、
1つの相互作用フェーズから他の相互作用フェーズへの遷移の検出を備え、
遷移は、前記移動平均値が第1の制限値を通過する第1の時間、および前記移動平均値が第2の時間において遷移の存在を示す第2の制限値を通過する第2の時間を定めることによって検出される、請求項11に記載の方法。
【請求項13】
前記第1の制限値は、一方の人が他方の人より多く話す期間のフェーズについては、60%から80%の範囲であり、前記一方の人が他方の人より少なく話す期間のフェーズについては、20%から40%の範囲であり、
前記第2の制限値は、45%から55%である、請求項12に記載の方法。
【請求項14】
前記平均値は、会話の総継続時間のおよそ3%から10%の継続時間にわたって演算される、請求項11〜13のいずれか1項に記載の方法。
【請求項15】
少なくとも2人の人の発言の中における予め定められた言葉を同定するために、前記オーディオデータを解析するステップe)をさらに備える、請求項10〜14のいずれか1項に記載の方法。
【請求項16】
同定された1つまたはより多くの相互作用フェーズのそれぞれにおいて、前記予め定められた言葉の発生をカウントするステップf)をさらに備える、請求項15に記載の方法。
【請求項17】
前記オーディオデータは、
異なるマイクロフォンからの複数のデータストリームを含み、
特に、各マイクロフォンは、少なくとも2人の人のうちの1人のみに向けられ、かつ話しているときに前記1人の人からの信号強度が残りの人の信号強度よりも大きくなるように構成される、請求項10〜16のいずれか1項に記載の方法。
【請求項18】
請求項1〜17のいずれか1項に記載の方法のステップを実行するためのコンピュータ実行可能指令が記憶された、1つまたはより多くのコンピュータ読み込み可能媒体を備える、コンピュータプログラム製品。
【請求項19】
会話中の少なくとも2人の人の間の会話を、自動的に、特に電子的に評価するためのシステムであって、
少なくとも2人の人を、少なくとも部分的に映し出すビデオデータを撮影するための少なくとも1つのビデオカメラ(43,45)と、
前記少なくとも2人の人の間で、会話中に視覚的な相互作用が生じたか否かを決定するように構成された処理装置(47)とを備え、
前記処理装置(47,73)は、領域内のストライプを分離するとともに、前記処理装置(47,73)が前記2人の人の眼の運動の方向が同じであるか否かを同定するようにさらに構成される先行するステップにおいて1つより多くのストライプが分離された場合にストライプ内の眼の領域を探索することにより、人の少なくとも顔の一部を示す画像の領域を決定するために画像内の視覚的特徴を同定することによって、複数の連続画像を含むビデオデータ内の人の眼の位置を検出するようにさらに構成される、システム。
【請求項20】
会話に参加している人の各々に対して1つのビデオカメラ(43,45)が提供され、
前記ビデオカメラ(43,45)は、各カメラ(43,45)が1人の人のみを撮影するように配置される、請求項19に記載のシステム。
【請求項21】
前記処理装置は、上方左、上方右、左、右、下方左および下方右眼の6つの方向のうちの1つへの虹彩の運動を決定するように構成される、請求項19または20に記載のシステム。
【請求項22】
少なくとも2人の人の間の会話を、自動的に評価するために、
a)会話を捕らえて、オーディオデータを提供するための少なくとも1つのマイクロフォン(3,5)と、
b)時間領域において、会話の進行における少なくとも2人の人の発言の再区分を決定するために、前記オーディオデータを解析するように構成され、かつ、会話中の1つまたはより多くのコミュニケーションパターンを同定するために、解析するステップの結果を予め定められたコミュニケーションパターンと比較するように構成されたデータ処理装置(7)とをさらに備える、請求項19〜21のいずれか1項に記載のシステム。
【請求項23】
少なくとも2人の人の間の会話を、自動的に評価するために、
a)会話を捕らえて、オーディオデータを提供するための少なくとも1つのマイクロフォン(3,5)と、
d)会話に参加している1人の人の話す時間の移動平均値に基づいて、会話の進行における、予め定められた相互作用フェーズを同定するように構成されたデータ処理装置(7)とをさらに備える、請求項19〜21のいずれか1項に記載のシステム。
【請求項24】
前記データ処理装置(7)は、さらに、会話に参加している1人の人の話す時間の移動平均値に基づいて、会話の進行における、予め定められた相互作用フェーズを同定するように構成される、請求項22に記載のシステム。
【請求項25】
前記データ処理装置(7)は、さらに、発言中の予め定められた言葉を同定するように構成される、請求項22〜24のいずれか1項に記載のシステム。
【請求項26】
1つのマイクロフォン(3,5)は、会話に参加している人ごとに提供され、
各々のマイクロフォン(3,5)は、対応する人からの信号強度が、話しているときに、残りの人の信号強度よりも大きくなるように構成される、請求項22〜25のいずれか1項に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3a】
image rotate

【図3b】
image rotate

【図3c】
image rotate

【図3d】
image rotate

【図3e】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10a】
image rotate

【図10b】
image rotate

【図10c】
image rotate

【図10d】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2013−101680(P2013−101680A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2013−16863(P2013−16863)
【出願日】平成25年1月31日(2013.1.31)
【分割の表示】特願2010−513750(P2010−513750)の分割
【原出願日】平成20年6月25日(2008.6.25)
【出願人】(510005683)ゼロ・トゥ・ワン・テクノロジー (2)
【氏名又は名称原語表記】ZERO TO ONE TECHNOLOGY
【Fターム(参考)】