電子的に会話を評価するための方法およびシステム

【課題】会話の解析を自動的に支援する方法および機器を提供する。
【解決手段】本発明は、少なくとも２人の人の間の会話を電子的に評価するための方法に関し、ビデオデータを受けるステップと、会話中に２人の間で視覚的な相互作用が生じたか否かを決定するためにビデオデータを解析するステップと、眼の運動方向が同じモードであるか否かを決定するために２人の眼の運動を解析するステップとを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、電子的に会話を解析するための方法、およびその方法を実行するための対応したシステムに関する。
【背景技術】
【０００２】
このようなシステムは、人の発言の欠点を解析および評価するためのシステムおよび方法を開示する、米国特許２００３／００９７２６８において知られている。記載された方法は、医薬の分野において、特に精神病患者との面談の解析における用途を見出す。そうするために、患者から発せられる聴覚的および視覚的な出力が記録され、演算機器を用いて、診断、治療情報または前兆が、医師の作業を支援するために出力される。
【発明の概要】
【発明が解決しようとする課題】
【０００３】
しかしながら、この既知の方法は、患者のような一人の人が解析されなければならない状況ではなく、一人より多くの人が介在する状態については適用できない。このような状況は、たとえば、販売上の会話や就職の面接の解析時に発生する。今までは、解析を支援するために、会話やインタビューを撮影するためにカメラが典型的に用いられてきた。そして、撮影されたフィルムは、ユーザ、たとえば販売セミナーの講師によって観察され、そして会話の参加者とともに見直しされ、議論がなされた。議論の間、ユーザは、議論またはインタビューに参加している他の人に対する振る舞いに関する、個々の参加者の長所および弱点を指摘した。
【０００４】
各参加者は、およそ３０分くらい撮影されるので、解析される人は各参加者の映像を見るのに多くの時間を費やさなくてはならず、参加者がどのようにしたら彼らの商業技術を改善することができるか、または採用の機会を改善できるかを説明するために取られる時間は、比較的少なかった。
【０００５】
したがって、本発明のひとつの目的は、会話の解析を自動的に支援する方法および機器を提供することである。
【課題を解決するための手段】
【０００６】
この目的は、請求項１による方法の特徴により達成される。１人またはより多くの人の会話は、（後述の、第１の人として認識された）１人の人の振る舞いから、「傾聴」、「再構築」、「反応」、「表現」および「沈黙」として識別され得る、異なった識別可能なコミュニケーションパターンを有する。各コミュニケーションパターンは、会話している人の発言が以下のパターンに区分される方法を用いて特徴付けられる。
【０００７】
「傾聴」：他方の人は話をしているのに対し、第１の人は沈黙している。
「再構築」：第１の人が時々短時間だけ介入するのに対し、他方の人が主に話をしている。
【０００８】
「反応」：第１の人が話をしているが、他方の人が介入するために割り込んでいる。
「表現」：他方の人が時々短時間だけ介入するのに対し、第１の人が主に話をしている。
【０００９】
「沈黙」：誰も話をしていない。
受け取られたデータから発言の再分類が抽出されるような、受信したオーディオデータの解析によって、会話のさまざまな言語的コミュニケーションパターンが自動的に認識され、本発明に従う方法を実現するシステムのユーザへ出力され得る。この抽出された会話に関する追加情報に基づいて記録された会話の評価が確立され、特に、会話に参加している人（人達）によって、コミュニケーションパターンが使用されてないか、十分には使用されてはないか、または非常に多く用いられているかが、指し示される。
【００１０】
本文脈中において、およびアプリケーションを通じて、「電子的に評価する」の語句は、会話中に発生する相互作用の特性を電子的手段を用いて自動的に抽出することに関連する。したがって、この抽出は、参加者の発言を単純に再聴することによるマニュアル解析には基づいていない。
【００１１】
本発明の目的は、請求項２に従う方法によっても達成され、少なくとも２人の人の間の会話を、自動的に、特に電子的に評価するための方法に関し、ａ）少なくとも２人の人の間の会話を含むオーディオデータを受け取るステップと、ｄ）会話に参加している１人の人の話す時間の移動平均値に基づいて、会話の進行における予め定められた相互作用フェーズを同定するステップとを備える。
【００１２】
商業上の会話、特に販売上の会話は、主にプレゼンテーションフェーズの始めおよび結論の終わりにおいて、典型的な相互作用フェーズを含む。これらのフェーズの間においては、販売員がバイヤーの話を聞いているニーズの発見フェーズ、製品を提案するために販売員が主に話をする討議フェーズ、およびバイヤーが提案された製品に関する異議を唱えるとともに、バイヤーが議論によって対抗する反論への対応フェーズが起こり得る。状況によっては、会話はこれらすべてのフェーズ、またはそのうちのいくつかのみを備え得る。これらのフェーズは、以下でより詳細に説明される。
【００１３】
この追加のステップを用いて、本方法は、補足的な情報、特に相互作用フェーズが存在するか否か、およびこれらのフェーズが、どれくらい長く全会話に関連しているかを、ユーザに自動的に提供する。これは重要な情報であって、それ／それらの販売技術や採用機会を改善するために、会話に参加している人を訓練するために用いられる。１人の話し手の話している時間の移動平均は、誰がより多く話しているかを示しているので、本発明による様々なフェーズを自動的に同定するための適当なかつ信頼できるパラメータであり、引き続いて会話が現在入っているフェーズについて指し示すものである。さらに、この解析は会話中に実行され得るので、したがって、すぐに結果を得ることができる。
【００１４】
好ましい実施形態によれば、上述の２つの方法は結合され得、したがって、会話の品質およびその人のコミュニケーションスキルについての、より有益な情報が、１つのオーディオデータセットから自動的に抽出され得る。もちろん、話している時間の移動平均は、発言の分布からも得ることができる。
【００１５】
有利なことに、同定は、１つの相互作用フェーズからほかのフェーズへの少なくとも１つの遷移の検出に基づき、この遷移は、移動平均値が第１の制限値を通過する第１の時間、および、移動平均値が第２の時間において遷移の存在を示す第２の制限値を通過する第２の時間を定めることによって検出される。第１の制限値の通過は、あるフェーズの存在を裏付ける。発言の分布が変化することを示し、かつ通過される必要のある第２の制限値を与えることによって、本方法は、第１の時間において同定されたフェーズが第２の時間において終了することを結論付ける。このような手順の方法は、異なった相互作用フェーズの解析および検出を安定化する。
【００１６】
好ましくは、第１の制限値は、一方の人が他方の人より多く話す期間のフェーズについては、６０％から８０％の範囲、特に６５％であり、一方の人が他方の人より少なく話す期間のフェーズについては、２０％から４０％の範囲、特に３５％であり、第２の制限値は、４５％から５５％、特に５０％である。これらの制限値のために、１つのフェーズから次のフェーズへの遷移の決定は安定している。
【００１７】
有利なことに、平均値は、会話の総継続時間のおよそ３％から１０％、特に５％の継続時間にわたって演算される。これらの値は、１つのフェーズから次のフェーズへの遷移の同定のための安定した決定を提供する。
【００１８】
有利なことに、上述の方法は、さらに、相互作用フェーズの期間が予め定められた時間間隔内であるか否かを決定するステップｅ）を備える。したがって、本方法は、会話の品質の定性的な自動測定だけでなく、時間が長すぎたフェーズや十分に長くなかったフェーズを、会話を解析する人に対して指摘することを可能にする定量的な測定も可能にする。
【００１９】
好ましい実施形態によれば、本発明の方法のステップｂ）は、少なくとも２人の人の発言、特に予め定められた１人の人の発言のみの中に、予め定められた言葉を同定するための、オーディオデータを解析するステップをさらに備える。この追加情報は、自動的に生成された会話の評価の品質をさらに改善する。特定の語彙の出現は、その人がその状況に最もふさわしい語彙を使用しているか否かを、直ちに示す。たとえば、販売員が新しい製品を売る場合、予め定められた言葉はその製品に典型的に関連し、たとえば、商標名（トレードネーム）、特別な特性および／または利点である。販売員の販売能力を評価する場合は、会話の中のその人のみの発言を解析するだけで十分であり得る。
【００２０】
好ましくは、本方法は、同定された１つまたはより多くの相互作用フェーズのそれぞれにおいて、予め定められた言葉の発生を解析する、特にカウントするステップｆ）をさらに備える。上述した販売上の会話において、販売される製品に関する特定の語彙は、「討議」フェーズおよび「反論への対応」フェーズに主に現れるべきである。もし、これがそのケースでなければ、会話は販売員によってよくオーガナイズされたものではない。この重要な情報は、本発明の方法によって自動的に提供され、したがって、本方法は会話の評価において、システムのユーザをさらに支援する。
【００２１】
有利なことに、オーディオデータは、異なるマイクロフォンからの複数のデータストリームを含み、特に、各マイクロフォンは、少なくとも２人の人のうちの１人のみに向けられ、かつ話しているときに１人の人からの信号強度が残りの人の信号強度よりも大きくなるように構成される。１つより多くのマイクロフォンの提供は、発言の再区分の決定を容易にし、誰が現在話しているかを同定することについては、オーディオデータストリームの信号強度を、マイクロフォンに最も近い人が話しているときにその信号強度があるしきい値を超過すること、および他の人から起こるノイズおよび信号の合計がそのしきい値を超えないことを推測することによって解析することで十分である。
【００２２】
好ましくは、本発明の方法は、少なくとも２人の人を、少なくとも部分的に映し出すビデオデータを受け取るステップｇ）と、少なくとも２人の人の間で、視覚的な相互作用が生じたか否かを決定するために、ビデオデータを解析するステップｈ）とをさらに備える。「視覚的な相互作用」の語句の下では、会話に参加している人の少なくとも１人は、他の人を見ているということが理解される。したがって、会話の評価は、オーディオデータにおける人の間の相互作用だけでなく、さらに、少なくとも２人の人の間の視覚的な相互作用に基づき、これはビデオデータを用いて自動的に、特に電子的に定められる。これによって、ユーザは会話を評価するより完全なデータセットを得る。
【００２３】
本発明の目的は、請求項１１に従った方法を用いても達成される。オーディオデータの解析が、会話の解析の中の人を支援するだけでなく、ビデオデータそれ自体が、販売上の会話のような会話中の正しい振る舞いについての有益な情報を提供する。視覚的な相互作用が非言語的なコミュニケーション手段についての情報、特に他の人の発言によるある人の興味を示す情報、またはある人が他の人の意思を引き付けられるかどうかという情報を提供するので、視覚的な相互作用の有無の自動的かつ電子的な決定はユーザを支援する。
【００２４】
好ましくは、上述の方法において、ステップｈ）は、少なくとも２人の人の虹彩の位置を検出することによって、前記少なくとも２人の人が、互いに顔を見合わせたか否かを決定することをさらに備え得る。人が他方の人を見る状況は、「フォーカライゼーション」として定義される以下の事項の中であり、ある人から他方の人への言語的な情報の流れが、非言語的な相互作用によって維持される状態を説明する。したがって、このタイプの相互作用が提供される場合に、ユーザは会話のより詳細な解析を得る。販売上の会話においては、フォーカライゼーションに関する重要な情報は、ａ）販売員が、どれくらいの時間バイヤーを見ていたか、ｂ）バイヤーが、どれくらいの時間販売員を見ていたか、ｃ）彼らが、どれくらいの間お互いに顔を見合わせていたか、ということである。参加者が、フォーライゼーションに関して同じように振る舞うときは、両者は同期状態にあると考えられる。
【００２５】
有利なことに、上述の方法は、眼の微細運動の方向が同じモードであるか否かを決定するために、少なくとも２人の人の眼の微細運動を解析するステップｉ）をさらに備え得る。フォーカライゼーションの欠如が観察されるときに、この微細運動が関与する。眼の微細運動が存在すること、およびそれらが人の認知についての情報を提供することが知られている。さらに、会話中の２人の人の微細運動の同期が、会話の結論について可能であり、かつ有効であることも知られている。会話の参加者の眼の微細運動を自動的かつ電子的に検出することによるモードが同期されているか否かの決定は、本方法のユーザに追加のパラメータを提供し、それを評価において有効に使うことができる。たとえば、販売上の会話中に同期が欠如している場合は、本方法のユーザ、たとえばセミナーの講師は、その事実を指摘することができるとともに、ベンダー（売り手）が可能なコミュニケーションツールを使用していないことを示すことができる。本文脈においては、微細運動は、以下の６つの眼の方向、すなわち上方左、上方右、左、右、下方左および下方右のうちの１つへの虹彩の動きを意味する。
【００２６】
好ましい実施形態によれば、上述の方法は、少なくとも１つの予め定められた相互作用フェーズにおいて、眼の微細運動の方向が同じモードであるか否かを決定することを備え得る。販売上の会話中は、異なったフェーズは、交渉の成功に関して、全てが同じ重要性を有しているわけではなく、したがって、一旦異なった相互作用のフェーズがオーディオデータストリームから同定されたとしても、（フォーカライゼーションおよび微細運動における同一モードの両方による同期に関する）同期期間および非同期期間がこれらのフェーズに関連することが可能となる。したがって、会話についてのより多くのデータをユーザに提供することが可能となる。
【００２７】
好ましくは、ステップｈ）は、ｈ＿１）２人の人の少なくとも１人の顔の少なくとも一部、少なくとも両眼を示す画像の領域を決定するために、ビデオデータの画像中に視覚的特徴を同定するステップと、ｈ＿２）領域の中のストライプ、特に縦ストライプを分離するステップと、ｈ＿３）ストライプの中の眼の領域を探索するステップとを備え得る。解析するステップを、３つの違ったステップに分割することによって、少なくとも２人の人の間で視覚的な相互作用が発生するか否かを決定するプロセスが、信頼できかつ迅速な方法によって実現され得る。好ましくは、画像は、少なくとも１人の人の両眼を示す。
【００２８】
本発明によれば、簡単でありながら信頼できる手法で、複数の異なるステップでの解析の分割に基づいた、ビデオデータ内の眼の領域の同定を可能にする方法が提供される。本方法は、２人の人の少なくとも１人の顔の少なくとも一部、少なくとも両眼を示す画像の領域を決定するために、ビデオデータの画像中に視覚的特徴を同定するステップｈ＿１）と、領域の中のストライプ、特に縦ストライプを分離するステップｈ＿２）と、縦ストライプの中の眼の領域を探索するステップｈ＿３）とを備える。
【００２９】
好ましくは、先述の方法のステップｈ＿１）は、皮膚の色を有する画像の少なくとも１つの領域を決定すること、およびその決定された領域の中で最大の領域を選択することを含み得る。この場合、ビデオデータストリームは、カラービデオストリームであり、かつ異なる色の背景を提供することによって視覚的特徴を同定するステップは簡略化される。皮膚の色を有する画素を抽出するための適切なマスクが、所望のデータを得るためにイメージに適合される。
【００３０】
有利なことに、先述の方法のステップｈ＿２）は、その決定された最大の領域内の強度の谷部（intensity valley）を同定することを含み得、その谷部内の画素の強度は予め定められた制限値よりも小さく、その制限値はその領域内の最高強度値の関数であり、そして各ストライプは１つの谷部を含む。皮膚の色のマスクで処理されたイメージ内の強度の谷部は、眼の存在によるものであり、したがって、眼の位置の探索のための信頼できる指標である。ただ１つの谷部が同定される場合は、本方法は、多くとも１つの眼の位置が決定され得ることを結論付ける。
【００３１】
好ましくは、本方法は、さらに、ストライプをグレースケールフォーマットに転送することによって、前記ストライプの輪郭を同定することを含み得る。一旦ストライプが同定されると、これらの領域のみが取り扱われ、各画素内のグレースケールの勾配が輪郭を同定するために決定される。したがって、利点は、人の眼がグレースケールフォーマットにおいて容易に同定され得るストライプを構築するという事実から得られる。
【００３２】
好ましい実施形態によれば、ステップｈ＿２）は、虹彩に一致しやすい円を探索することによって、特に予め定められた色、好ましくは黒を有する輪郭内のビデオデータにおいて、それらのグレースケール強度に重み付けをすることによって、決定された輪郭の中心候補の探索をさらに含み得る。この解析は、虹彩が顔の他の特徴よりもより黒いという前提に基づき、眼による強度の谷部と、たとえば髪の存在やしわのような他の特別な顔の特徴のような他のアーチファクトによる強度の谷部とを区別を可能とし、したがって、眼の領域を含むストライプを同定するための信頼できる方法である。
【００３３】
好ましくは、本方法は、上述と同様に、虹彩に一致しやすい円を探索することによって、特に、予め定められた色、好ましくは黒を有する輪郭内の前記グレースケールビデオデータを重み付けすることによって、眼の領域における虹彩の位置を同定するステップｈ＿４）をさらに含み得る。虹彩の位置は、視覚的な相互作用が会話中に存在するか否か、特に、２人の人の虹彩の位置が同定された場合に、２人の人が互いに顔を見合わせているか否かを知るための必要な情報を提供するであろう。
【００３４】
有利なことに、ビデオデータにおける少なくとも続きの画像について、虹彩の位置が全く検出できなくない場合でなければに、眼の領域における虹彩の位置を同定するために、ステップｈ＿４）のみが繰り返され得る。これは、各画像に対してステップｈ＿１）からｈ＿３までが繰り返される必要がないので、演算プロセスがより速くなるという利点を有する。これらのステップは、ステップｈ＿４）の処理中に、虹彩位置が全く検出されなかった場合にのみ実行される。
【００３５】
好ましい実施形態によれば、ビデオデータは、会話に参加している人に対して、異なった位置に配置された異なるカメラからの複数のデータストリームを含み得る。この配置は、二次元のビデオデータから三次元的な解析を確立するための十分なデータを提供し、そのため視覚的な相互作用の情報の決定、特に２人の人が互いに顔を見合わせているかどうかの同定をさらに改善する。
【００３６】
好ましくは、各々のカメラは１人の人のみを撮影し得る。これは、各データストリームが１人の人のみを含むことが保障されるので、データ処理をさらに容易にし、かつ、したがって同定プロセスのスピードを向上し、眼の輪郭に相当し得る輪郭を含む２つのストライプを探索しさえすればよい。好ましくは、カメラは、各カメラが、他の人からまたはその近くからの視角から人を撮影するように配置される。
【００３７】
有利なことに、ステップｈ）および／またはｉ）は、２つの画像の間の時間間隔よりも短い時間間隔で実行され得る。これは、会話が終了した直後に、本方法のユーザが会話に参加している人／人達の振る舞いについての必要な情報を有することを保障する。
【００３８】
好ましくは、本方法は、ステップｃ）および／またはｄ）および／またはｈ）および／またはｉ）の結果を記憶するステップｊ）をさらに備える。そのため、ユーザは必要なときにいつでも結果にアクセスし得る。特に、データベース内に結果を記憶することは、会話が評価された同じ人／人達、および／または異なる人の異なった会話の間での比較ができるという利点がある。１人の人の販売技術の評価は、したがって、様々な訓練のセッションにわたってフォローされ得る。
【００３９】
本発明は、コンピュータプログラム製品にも関連し、上述の方法のステップを実行するためのコンピュータ実行可能命令を有する、１つまたはより多くのコンピュータ読み込み可能媒体を備える。本発明は、さらに、そのコンピュータプログラム製品を含む記憶媒体製品にも関連する。
【００４０】
本発明は、さらに、上述のいずれの方法を実行するためのシステムにも関連する。さらに、本発明の目的は、請求項２３、２４および２９に従うシステムを用いて達成され、請求項１、２および１１ですでに述べたのと同様の有利な効果が達成される。
【００４１】
好ましくは、データ処理装置は、少なくとも２人の人の発言中に予め定められた言葉を同定するようにさらに構成される。特定の語彙の出現は、会話に参加している人の少なくとも１人が、その状況に最も適した語彙を使用しているか否かを直ちに示す。たとえば、販売員が新製品を売る場合には、予め定められた言葉は、その製品（たとえば、商標名）、特定の特性および／または利点に、典型的に関連する。
【００４２】
有利なことに、１つのマイクロフォンが、会話に参加している人ごとに提供され、各々のマイクロフォンは、ある人からの信号強度が、話しているときに、残りの人の信号強度よりも大きくなるように構成され得る。これは、対応するマイクロフォンによって捕らえられた信号が、背景ノイズや他の人の発言がそれよりも低い状態となるような、あるしきい値より上であるか否かを調べることによって、人が話をしているかどうかということが容易に決定され得ることの同定について、データ解析を容易にする。
【００４３】
変形例によれば、システムは、会話中の少なくとも２人の人を、少なくとも部分的に映し出すビデオデータを撮影するための少なくとも１つのビデオカメラをさらに備え、処理装置は、少なくとも２人の人の間で、会話中に視覚的な相互作用が生じたか否かを決定するようにさらに構成され得る。そのため、会話に参加している人のプロファイルのより詳細な評価を得るために、言語的および非言語的な両方の相互作用を解析することが可能となる。特に、言語的および非言語的な相互作用と、伝達経路との間の相乗効果が、たとえば、フォーカライゼーションパラメータを有する発言の再区分に関する情報と、両参加者が同期状態にあり、そのために見聞きするときに他方の人と同じような振る舞いを示すフェーズを同定するための微細運動とを組み合わせることによって抽出され得る。
【００４４】
有利なことに、処理装置は、１人の顔の少なくとも一部、特に少なくとも両眼を示す画像の領域を決定するために画像中に視覚的特徴を同定すること、領域の中のストライプ、特に縦ストライプを分離すること、およびステップｈ＿２）において１つより多くのストライプが分離された場合に縦ストライプの中の眼の領域を探索することによって、複数の続きの画像を含むビデオデータ内の人の眼、特に虹彩の位置を検出するようにさらに構成され得る。解析するステップを、複数のステップに分割することによって、眼の位置を決定するために必要な全体的な時間が短縮され得る。
【００４５】
好ましい実施形態によれば、会話に参加している人の各々に対して１つのビデオカメラが提供され、ビデオカメラは、各カメラが１人の人のみを撮影するように配置される。これは、１つのデータストリーム中に１人の人のみが存在し得ることが保証され、１対の眼を探索しさえすればよいので、データ処理をさらに容易にする。
【００４６】
本発明の特定の実施形態は、添付の図面とともに本明細書からより明らかになるであろう。
【図面の簡単な説明】
【００４７】
【図１】本発明に従うシステムの第１の実施形態を示す図である。
【図２】本発明の第２の実施形態に従う方法のフローチャートを示す図である。
【図３ａ】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図３ｂ】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図３ｃ】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図３ｄ】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図３ｅ】会話中に発生する様々なコミュニケーションパターンを示す図である。
【図４】本発明の第３の実施形態に従う方法の第２のフローチャートを示す図である。
【図５】相互作用フェーズ遷移の検出の原理を示す図である。
【図６】本発明の第４の実施形態に従う方法の第３のフローチャートを示す図である。
【図７】第５の実施形態による本発明に従うシステムを示す図である。
【図８】本発明の第６の実施形態に従う方法の第４のフローチャートを示す図である。
【図９】本発明の第７の実施形態に従う方法の第５のフローチャートを示す図である。
【図１０ａ】第７の実施形態に従う、眼の領域の位置を同定するための異なるステップの結果を示す図である。
【図１０ｂ】第７の実施形態に従う、眼の領域の位置を同定するための異なるステップの結果を示す図である。
【図１０ｃ】第７の実施形態に従う、眼の領域の位置を同定するための異なるステップの結果を示す図である。
【図１０ｄ】第７の実施形態に従う、眼の領域の位置を同定するための異なるステップの結果を示す図である。
【図１１】本発明の第８の実施形態に従う方法の第６のフローチャートを示す図である。
【図１２】第９の実施形態による本発明に従うシステムを示す図である。
【発明を実施するための形態】
【００４８】
以下においては、少なくとも２人の人の間の会話を、自動的に、特に電子的に評価するための本発明のシステムに関する様々な実施形態、およびそれに対応する方法に関する様々な実施形態が、販売員（第１の人）とバイヤー（第２の人）との間の販売上の会話によって例示される。もちろん、本発明は、たとえば、就職面接などのような他の種類の会話を自動的に評価することにも適用可能である。さらに、すべての実施形態は、会話をしている２人の人について説明されるが、すべての実施形態は、２人より多くの人の間での会話に拡張され得る。
【００４９】
［実施形態１］
図１は、少なくとも２人の人の間の会話を、電子的に評価するためのシステムの第１の実施形態を示す図である。システム１は、第１および第２のマイクロフォン３，５を備え、これらは、処理装置７へそれぞれ結合される。マイクロフォン３，５は、販売員およびバイヤーが配置され得る位置９，１１に近接して配置される。位置９，１１にそれぞれ近接したマイクロフォン３，５の位置は、マイクロフォンに最も近接した位置すなわちマイクロフォン３の場合は位置９であり、マイクロフォン５の場合位置１１に座っている人の発言から生じる信号強度が、他方の位置に座っている人の発言から生じる信号強度より大きいことを保障するが、背景ノイズもまたより大きい。解析期間中、処理装置７は、それを利用して、得られたオーディオ信号が、位置９に座っている人または位置１１に座っている人のいずれかであるかを明確にする。２人以上が会話に参加する場合には、システム１は、追加のマイクロフォンを提供することによって適合され得る。
【００５０】
データ処理装置７は、第１の処理ユニット１３を備え、属性付けられた発言を受ける。第１の処理ユニット１３は、発言の属性付けから始まり、会話の進行における２人の人の発言の時間領域での再区分を確立するように構成される。第１の処理ユニット１３は、この解析ステップの結果を予め定められたコミュニケーションパターンと比較し、さらに以下で定義されかつ説明されるが、位置９に座っている人と位置１１に座っている人との間での販売上の会話のような会話中における、１つまたはより多くのコミュニケーションパターンを同定するようにも構成される（第２の実施形態も参照）。
【００５１】
データ処理装置７は、それぞれのオーディオデータを同様に受ける第２の処理ユニット１５を備え、それは、会話に参加している１人の人の話している時間の移動平均値に基づいて、会話の進行において予め定められた相互作用フェーズを同定するように構成される。この移動平均値は、オーディオデータ、主にデータ処理装置７によって実行された発言の属性から直接決定される。システム１を用いて自動的に同定された相互作用フェーズおよびその手段は、以下でさらに説明される（第３の実施形態も参照）。
【００５２】
追加の要素として、処理装置７は、第３の処理ユニット１７を備え、位置９に座っている人および／または位置１１に座っている人の発言の中において予め定められた言葉が同定され得るように構成される。
【００５３】
第１の処理ユニット１３、第２の処理ユニット１５および第３の処理ユニット１７によって得られる結果は、記憶装置１９に記憶され、および／またはユーザインターフェース（図示せず）を介して、販売上の会話の参加者、および／または、たとえばセミナーの講師のような第三者へ出力される。
【００５４】
本発明に従うシステム１は、会話の進行の定量的な解析を提供することによって、上述の販売上の会話のような会話の自動的な評価における用途を見出す。この定量的なデータは、２人の参加者間の会話が記録された直後に、ユーザが、販売上の会話行なった参加者の動作についての有益な情報を得られるように、たとえばセミナーの講師のようなユーザを支援する。
【００５５】
変形例によれば、システム１は３との処理ユニットすべてを備えなくとも、１つだけまたは２つを備えるようにしてもよい。
【００５６】
［実施形態２］
図２は、システム１が会話を評価するために用いられる方法を示す図であり、さらに、本発明に従う第２の実施形態、主に本発明に従う少なくとも２人の人の間の会話を自動的に、主に電子的に評価するための方法を示し、それは実施形態１のシステム１を用いる。
【００５７】
実施形態２のステップＳ１は、図１で図示したシステム１の２つのマイクロフォン３および５によって得られたオーディオデータを受け取る。
【００５８】
そして、ステップＳ２は、このオーディオデータを解析して、２つの異なったオーディオデータストリームに、第１および第２の人の発言の時間領域における特性を見出す。ここでは、処理装置７が、この解析を実行する。
【００５９】
それぞれの話し手の発言の特性は、各オーディオデータストリームにおいて、得られた信号強度のフィルタリングに基づく。その信号がマイクロフォン３のデータストリームにおいて、あるしきい値より大きい場合は、第１の処理ユニット１３は位置９の人が話していると判断し、信号強度がそのしきい値よりも小さい場合には、その人は話しておらず、残りの信号は背景ノイズおよび／または位置１１に座っている他方の人からの発言によるものであると判断される。同様の解析が、マイクロフォン５からの第２のデータストリームについても実行され、信号がしきい値よりも大きい場合は、発言は位置１１の人によるものである。この方法は、理解しやすいが、また信頼できるものであり、特に、両方の人が同時に話している状況を同定することも可能である。
【００６０】
一旦、時間領域における２人の人の発言の属性が確立されると、２人の人の間の会話の品質に関するさらなる情報を抽出することが可能となる。まず第１に、販売上の会話のような会話中に生じるコミュニケーションパターンを決定することができる。図３は、販売員とバイヤーとの間の異なったコミュニケーションパターンを定義する。
【００６１】
図３ａは、「傾聴」のコミュニケーションパターンを示す図である。この図においては、グレイのブロックは、時間（ｘ軸）の関数として発言を図示しており、グレイのブロックのない部分は、対応する人が話していないことを示している。「傾聴」パターンの特徴は、第１の人である販売員は沈黙しており、一方で第２の人であるバイヤーが話をしている。
【００６２】
第２のコミュニケーションパターン（図３ｂ）は、「再構築」パターンを表す。このパターンにおいては、話しているのは、基本的に、第２の人すなわちバイヤーであり、第１の人は、時々、少しだけ介入する。典型的に、第１の人が、彼の合意を表明し得るか、キーワードまたはキーワードのグループを繰り返す。
【００６３】
図３ｃは、「反応」パターンを示す図である。このパターンにおいては、第１の人が話をしているが、第２の人が介入するために割り込んでいる。ここでは、両方の人が話をし、典型的には第２の人が話し続けている状況が発生する。この場合において、販売員の正しい反応は、バイヤーに彼の考えを述べさせるために、できるだけ早く話をやめることであろう。
【００６４】
図３ｄは「表現」パターンを表しており、この期間においては、第１の人が主に話し、第２の人は時々介入するだけである。
【００６５】
最後に、図３ｅは「沈黙」パターンを示す図であり、この間は誰も話をしていない。
優れた販売員は、会話の間に自分自身を見出す状況に依存して５つのパターンを積極的に使用することができなくてはならない。販売員が、このコミュニケーションツールを適用することに堪能である場合、彼は、彼の相手、すなわちバイヤーの期待および振る舞いの効果として、彼が売ろうとしている製品の価値をあげることができるだろう。
【００６６】
本発明の第２の実施形態に戻って、ステップＳ２で発言の属性が解析されると、処理装置７（第１の処理ユニット１３）は、ステップＳ３において、上記で定義された様々なコミュニケーションパターンを同定するように処理を行なう。これは、２人の話し手の間の発言の再区分を決定することによって達成され、これはステップＳ２で決定された属性に基づく。そして、発言の属性は、異なったモデルコミュニケーションパターンと比較される。
【００６７】
対応する結果は、ステップＳ４において、各パターンが発生した回数、どれくらいの時間がかかったか、または、反応パターンにおいて２人の人が話している時間が長すぎるかどうか、などについての統計値を決定するために用いられる。
【００６８】
もし、販売員が、会話の中で、１つまたはより多くのパターンを用いなかったり、ただ悪く用いたりした場合は、セミナーの講師のようなユーザは、このコミュニケーションパターンの欠如を直ちに確認できるとともに、販売員がコミュニケーションパターンに関して有している可能性のすべてを使用しているわけではないこと、あるいはその技術を適合することによって改善することができることを示すことができる。
【００６９】
ステップＳ３およびＳ４の解析の結果は、ユーザインターフェースを介してユーザに出力され（ステップＳ５）、および／または、データベースのような記憶装置１９内に記憶される（ステップＳ６）。
【００７０】
［実施形態３］
図４は、システム１が会話を評価するために用いられるさらなる方法を示す図であり、さらに、本発明に従う第３の実施形態、主に本発明に従う少なくとも２人の人の間の会話を自動的に、主に電子的に評価するための方法を示し、それは実施形態１のシステム１を用いる。
【００７１】
ここで、ステップＳ１およびＳ２は、第２の実施形態のものに対応する。それらの説明は、参照によって引用される。
【００７２】
この実施形態においては、２人の人からの発言の属性の解析は、相互作用フェーズの順序を同定するために用いられ、それはステップＳ７に図示される。この解析は、システム１の処理ユニット１５において実行される。
【００７３】
販売上の会話は、典型的に、以下のような相互フェーズのうちの少なくともいくつかを備える。
【００７４】
１）「プレゼンテーション」、このフェーズは、会話のはじめにおける短時間のフェーズであり、このフェーズの間に２人の人が自己紹介を行なう。典型的に、販売上の会話の主題である製品やサービスとリンクしない様々な話題が、参加者間で議論される。このモデルにおいては、多く話をするのは販売員である。
【００７５】
２）次に、典型的に、「ニーズの発見」のフェーズが続き、これは前のフェーズよりも長い。このフェーズにおいては、主となる人はバイヤーであるが、販売員によって案内される。販売員は、対応する製品やサービスを次に提案可能となるニーズを、バイヤーに述べさせるように努める。このフェーズにおいては、情報のフローは、基本的にバイヤーから販売員に向かう。
【００７６】
３）フェーズ３は、「議論のフェーズ」であり、このフェーズの間に、販売員は彼の製品を紹介し、したがって、多く話をするのは販売員である。
【００７７】
４）次のフェーズは、「反論への対応のフェーズ」であり、このフェーズの間は、両方の人が介入する。バイヤーが製品に対する反論を述べ、一方で販売員はそれに応答するとともに、同時にバイヤーのニーズをより明確な方法で同定する。基本的に、このフェーズにおいては、情報の流れは行き来する。
【００７８】
５）最後に、各々の販売上の会話が「結論」によって終結し、このフェーズの間は、典型的に、販売員が得られた決定を手短に要約する。
【００７９】
これらのフェーズは、この順序で行なわれなくてはならない必要はなく、もちろん、１つのフェーズが欠落することも可能であり、たとえば、提示した製品がバイヤーの期待するものに直接相当する場合には、フェーズ４は生じない。フェーズが編成される方法は、その業界や会社がその販売上の会話を行ないたいというような、様々なパラメータに依存する。しかしながら、フェーズ１および２は、定義によって、それぞれはじめと最後に常に生じる。
【００８０】
第３の実施形態のステップＳ３は、会話の進行において、会話に参加している１人の人の話している時間の移動平均値に基づいて、予め定められた相互作用フェーズを同定することであり、この予め定められた相互作用フェーズは、ステップＳ２において事前に決定されている。バイヤーと販売員との間の情報の流れは、上記で説明したように、会話の異なるフェーズを特徴付ける。「話している時間の移動平均値」のパラメータを用いて、異なるフェーズとそれらの順序が、一方の人または他方の人に対して話している時間の属性から、自動的かつ電子的に確立され得る。
【００８１】
図５は、販売上の会話に参加している販売員の話している時間の移動平均値２１を、時間の関数として示した図である。移動平均は、もちろん、バイヤーについても決定し得る。したがって、ｘ軸は時間に相当し、ｙ軸はパーセント単位の移動平均値に相当する。移動平均値２１が、会話の総期間のおよそ３％から１０％の期間にわたって演算されたときに、特に、１０分から２０分のオーダである総期間の５％にわたって演算されるときに、最もよい結果が達成された。
【００８２】
はじめに、会話の異なるフェーズが同定される。この同定は、１つのフェーズから他のフェーズへの遷移の検出に基づく。
【００８３】
第２の処理ユニット１５は、移動平均値２１が第１の制限値２５、ここでは６５％を通過する第１の時間２３、および移動平均値２１が第２の制限値２９、ここでは５０％を通過する第２の時間２７を同定するように構成される。第１および第２の時間２３，２７が一旦同定されると、本発明の方法は、２つのフェーズ間の遷移が第２の時間２７において存在すると結論付ける。解析は、２番目の第１の時間３３を通過した次の時間３１の同定を継続する。ここで、２番目の第１の時間３３は３５％である。このフェーズは、第２の制限値２９を再び通過する次の時間３５の検出によって終了する。同様にして、本発明の方法は、それに引き続くフェーズを同定するとともに、時間３６，３７において終了し、会話は３８で終了する。
【００８４】
第１のおよびより高い、より低い制限値は、解析されるべき会話の種類に適合され得る。
【００８５】
次に、本方法は、様々なフェーズ、すなわちプレゼンテーション、ニーズの発見、議論、反論への対応、および結論、の同定を継続する。まず第１に、フェーズの２つのカテゴリが判断される。短いフェーズは総時間の２０％未満の期間を有し、長いフェーズは総時間の２０％またはより多くの期間を有する。
【００８６】
短いフェーズは、以下の方法によって属性付けられる。
フェーズが第１のフェーズであり、かつ販売員がバイヤーより多く、または同じくらい話している場合は、そのフェーズは、プレゼンテーションのフェーズであるとして同定される。
【００８７】
フェーズが、最後のフェーズであり、かつ話している時間がバランスしていない場合は、そのフェーズは結論のフェーズであるとして同定される。
【００８８】
フェーズが、第１のフェーズでも最後のフェーズでもなく、かつ販売員がバイヤーよりも多く話している場合は、そのフェーズは、議論のフェーズであるとして同定される。多く話しているのがバイヤーの場合は、そのフェーズは、ニーズの発見のフェーズである。
【００８９】
長いフェーズについては、議論のフェーズおよびニーズの発見のフェーズと、反論への対応のフェーズとを区別するために、追加のパラメータが必要となる。この追加のパラメータは、２人の話し手の間の考えられたフェーズの平均会話時間を限定する。３つの領域がこの値のために考えられる。第１の領域は、会話時間が２人の話し手の間でバランスしている領域であり、第２の領域は、販売員がバイヤーより多く話している領域であり、第３の領域は、バイヤーが販売員より多く話している領域である。バランスしている流域は、２人の話し手の平均会話時間が５０％に近いこと、特に４２．５％と５７．５％との間であることによって限定される。
【００９０】
この第３の制限値を用いて、フェーズは以下のように属性付けられる。会話時間の平均値が販売員の領域の場合は、そのフェーズは議論のフェーズであり、平均値がバイヤーの領域の場合は、そのフェーズはニーズの発見のフェーズである。そして、最後の場合、すなわちバランスした領域の場合は、そのフェーズは、両参加者が議論する、反論への対応のフェーズである。
【００９１】
したがって、これらの規則を考慮して、時間２７で終了するフェーズ１は、プレゼンテーションのフェーズである。時間３５で終了するフェーズ２はニーズの発見のフェーズであり、このフェーズにおいては、バイヤーが反論および結論に応答して自分のニーズを述べているので、バイヤーが多く話していることを示す。時間３６で終了するフェーズは、ここではバイヤーが、バイヤーのニーズにあった製品を示すことによってバイヤーのニーズに応答するので、議論のフェーズに対応する。
【００９２】
時間３７で終了する次のフェーズは、第４のフェーズであり、反論への応答のフェーズである。最後に、時間３８で終了する最終のフェーズは、結論のフェーズである。
【００９３】
同じタイプの２つの相互作用フェーズが続いて同定された場合は、処理ユニット１５は、さらに、それらが自動的に１つのフェーズに結合されるように構成され得る。
【００９４】
本方法のステップＳ８は、相互作用フェーズの決定結果を解析することである。会話中に、これらのフェーズのうちの１つまたはより多くのフェーズが欠けていたり、いくつかのフェーズの時間が長すぎたりあるいは短すぎたりした場合、システム１のユーザは、販売員が最適化された方法で進めていないという情報をシステム１から直接得て、結果として、会話に参加している人のコミュニケーションスキルにおける可能性のある改善点を指摘することができる。
【００９５】
ステップＳ７およびＳ８の結果は、ちょうど第２の実施形態と同じように、ユーザインターフェースを介してユーザに対して出力され（ステップＳ５）、および／または、データベースのような記憶装置１９に記憶される（ステップＳ６）。
【００９６】
第２および第３の実施形態は、会話のより完全な状態およびコミュニケーションスキルが得られるように、有利にも、１つのプロセスに結合され得る。特に、異なる相互作用フェーズにおける様々なコミュニケーションパターンの使用が、自動的に決定され、そしてユーザによって利用され得る。
【００９７】
［実施形態４］
図６は、本発明に従う、システム１の第３の使用、および少なくとも２人の人の間の会話を電子的に評価するための第３の方法を表わす、第４の実施形態を示す図である。図２に図示された第２の実施形態と比較して、本方法は、少なくとも販売員の発言において予め定められた言葉を同定する、追加のステップＳ９を備える。変形例によれば、予め定められた言葉は、バイヤーの発言においても同定され得る。他のステップである、Ｓ９の前のＳ１からＳ４，ならびに、Ｓ９の後のＳ５およびＳ６は、第２の実施形態のそれぞれに対応し、したがって、再度繰り返しはしないが、それらの説明は参照によってここに引用される。
【００９８】
予め定められた言葉、典型的には２０から５０の特定の言葉であり、より特定的には３０の特定の言葉は、販売されるべき製品またはサービスを同定しおよび／または特徴付け、さらに販売上の会話が行なわれている職業環境に関連し得る。販売員の発言における予め定められた言葉の同定は、販売員が正しい語彙を使用しているか否かを同定するための助けとなり、もしその言葉を使用していない場合には、販売員の能力向上のために、新製品教育のような、適切な方策をとることができるようにする。
【００９９】
第２の実施形態に代えて、追加のステップＳ９は、第３の実施形態と同様の方法がさらに追加され、または第３および第４の実施形態は結合されて、会話およびコミュニケーションスキルのさら一層詳細な解析が得られるようにする。
【０１００】
予め定められた言葉の発生は、それらが発生したりしなかったりする会話の相互作用フェーズの種類に依存して、より重要であったりあまり重要でなかったりするので、予め定められた言葉の同定は重要である。販売されるべき製品を規定する予め定められた言葉は、成功した会話の可能性を向上するために、特に「議論」および「反論への対応」のフェーズにおいて用いられるべきである。したがって、２人の参加者が現在いる相互作用フェーズの効果としての予め定められた言葉の同定は、重要な役割を担うとともに、本システムおよび方法のユーザ、たとえば講師に、販売員が適切な方法でオーガナイズされていない場合の、可能性のある改善点を指し示す。
【０１０１】
本発明によれば、実施形態１から実施形態４は、人が互いに面と向かって座っておらず、電話越しに会話している状況にも適合され得る。この場合においても、発言は属性付けられ、かつコミュニケーションパターン、コミュニケーションフェーズおよび予め定められた言葉の使用が判断される。
【０１０２】
［実施形態５］
図７は、本発明に従う第４の実施形態、主に少なくとも２人の人の間の会話を電子的に評価するため第２の発明のシステムを示す図である。システム４１は、会話中の少なくとも２人の人を映し出すビデオデータを撮影するための、２つのビデオカメラ４３および４５を備える。第１の実施形態のマイクロフォン３および５と同様に、ここでは、ビデオカメラ４３および４５は、ビデオカメラ４３が位置１１（第１の実施形態と同じ位置１１）にいる人を撮影する一方で、第２のカメラ４５が位置９にいる人を撮影するように配置される。好ましくは、カメラ４３，４５は、データ処理を容易にするために、一度に１人だけを撮影する。
【０１０３】
カメラ４３および４５の各々は、少なくとも２人の人の間の視覚的相互作用が会話中に発生するか否かを判断するように構成された処理装置４７に結合される。処理装置４７は、位置９および１１に位置している人の眼、特に虹彩の位置を検出して、一方の人が他方の人を見ているか、または２人の人が互いに顔を見合わせているかを判断するように構成された第４の処理ユニット４９を備える。したがって、３つの要素が、３つのフォーカライゼーション状態、すなわち販売員がバイヤーを見ているか、バイヤーが販売員を見ているか、そして両者が互いを見ているかを同定し得る。フォーカライゼーションの有無は、販売上の会話の品質を特徴付ける重要なパラメータを表す。フォーカライゼーションが無い場合は、システム４１のユーザ、ここでは、すなわち販売セミナーの講師は、会話において、特に販売員のコミュニケーションスキルにおける不備を指し示し、この人が販売技術を向上できるようにし得る。
【０１０４】
処理装置４７は、さらに、位置９および１１にいる少なくとも２人の人の眼の微細運動を解析するための第５の処理ユニット５１を備え得る。第５の処理ユニット５１は、会話の参加者の眼の微細運動の方向を判断し、その後、それらが同じモードであるか否かをさらに判断するように構成される。会話をしている２人の人は、それらの微細運動が同期する傾向にあることが知られている。処理装置４７が、２人の人が同期していないと判断した場合、それらが欠落していることが指し示され、かつ会話中にこの種の相互作用が不足していることが示され、そして、販売員は、このコミュニケーション手段の利益を得られるように特別に訓練され得る。したがって、バイヤーと販売員との間の販売上の会話を限定するさらなるパラメータ、主に同期の有無は、自動的かつ電子的に検出され、そしてシステム４１のユーザに出力され得る。
【０１０５】
第１の実施形態と同様に、システム４１もまた、記憶装置１９および第４および第５の処理ユニット４９および５１の解析結果について通知するユーザインターフェース（図示せず）を備え得る。
【０１０６】
［実施形態６］
図８は、第５の実施形態のシステム４１が視覚的相互作用情報を得るために用いられる方法を示す図であり、さらに本発明に従う第６の実施形態、主に本発明による少なくとも２人の人の間の会話を電子的に評価するための方法を示し、それは第５の実施形態のシステム４１を用いる。さらに、第６の実施形態は、２人の人の間の販売上の会話に関して説明される。ここで、第１の人、たとえば販売員は、位置９に座っており、第２の人、すなわちバイヤーは位置１１に座っている。したがって、カメラ４３はバイヤーの顔の少なくとも一部のビデオデータを撮影し、カメラ４５は販売員の顔の少なくとも一部のビデオデータを撮影する。
【０１０７】
第６の実施形態に従う方法は、ステップＳ１１、主にビデオカメラ４３および４５によって撮影されたビデオデータの処理装置４７による受信で始まる。
【０１０８】
次に、ステップＳ１２は、第４の処理ユニット４９によるビデオデータの解析であり、視覚的相互作用、すなわち上述のようなフォーカライゼーションおよび／または同期が、販売上の会話中に生じたか否かを判断する。
【０１０９】
本発明によれば、ビデオデータの解析は、したがって、フォーカライゼーションが存在したか否か、すなわち２人の参加者が互いに顔を見合わせていたか否かを判断する第１のステップ（ステップＳ１３）を備え、および／または、同期が存在したか否か、すなわち２人の参加者の眼の微細運動が同じモードであるか否かを判断する第２のステップ（ステップＳ１４）を備える。
【０１１０】
自動的かつ電子的に判断された販売員とバイヤーとの間の非言語的な相互作用の評価を提供するこの解析の結果は、ユーザインターフェースを介してユーザに出力され（ステップＳ１５）、および／または、記憶装置１９へ記憶される（ステップＳ１６）。
【０１１１】
実施形態１から４と同様に、第５および第６の実施形態も、説明した販売上の会話のような会話の評価を自動的かつ電子的に得るために用いられる。しかしながら、この場合、解析されたパラメータは、非言語的な相互作用に関連する。たとえば、たとえ他方の人を見る必要のない状況、特に、メモを書き留める場合や、販売員がバイヤーの話を傾聴している明らかに集中したフェーズの期間であっても、相手を見ていない販売員は最適化された販売上の会話を実現していないので、非言語的な相互作用は考慮されるべきパラメータである。これらの状況は例外を示しており、通常は短期間だけ生じる。ファーカライゼーションパラメータとは別に、視覚的相互作用解析は、２人の参加者の眼の微細運動間の同期の有無についての情報も電子的かつ自動的に提供し得る。
【０１１２】
［実施形態７］
図９は、本発明の第７の実施形態、主に複数の連続した画像を備えたビデオデータ内の人の眼の位置を電子的に検出するための方法を示す図である。本方法は、虹彩の位置を検出することに特に適しており、したがって、第６の実施形態のステップＳ１２およびＳ１３に詳細が説明される。さらに、本方法は、ちょうど実施形態６の方法と同様に、２つのビデオカメラ４３および４５によって撮影されたビデオデータを受け取ることで始まる（ステップＳ２１）。図１０ａは、カメラ４３によって撮影されたビデオデータストリームからの、人５５の頭部の画像５３を示す図である。データ解析を容易にするために、人の背景５７は、皮膚の色と異なった色としている。第７の実施形態に従う方法は、１人の人だけの顔を撮影する１つのビデオカメラだけでも実現され得ることが言及されなくてはならない。
【０１１３】
次に、ステップＳ２２は、ビデオカメラから供給されたビデオデータストリームの１つの画像内の解析される人の顔の少なくとも一部を含みそうな領域を決定することである。この実施形態においては、顔または顔の一部を表示する領域の決定は、画像データに適用される、皮膚の色を示す画像の一部を抽出するためのマスクの開発に基づいている。位置９または１１の後方に、皮膚の色を示さない背景を与えることで、解析のこの部分が容易になる。本解析ステップが、皮膚の色を有する複数の領域を与える場合は、カメラ４３および／または４５が配置され、かつ得られた画像が基本的に人の頭部と皮膚の色でない背景のみを撮影するように構成されるので、最も大きな領域が選択される。結果を改善するために、画像は同じ方法で何回か再処理され得る。図１０ｂは、実際の例におけるこの事実を示す図である。四角形５９は、眼の領域を含みそうな、皮膚の色の結合された領域である。
【０１１４】
次のステップＳ２３は、撮影された人の眼を含みそうなストライプを分離するために、撮影された人の顔が含まれる、先に決定された領域の詳細な観察が行なわれることである。ストライプを決定するためのデータ処理は、以下のように行なわれる。領域を定義する画像の強度または色の、垂直または水平方向のプロファイルが得られる。そして、プロファイルの最大値が判断され、局所最大値は、プロファイルのスムージングによって除去される。引き続いて、強度の谷部が探索され、強度の谷部は、領域あるいは、対応する垂直または水平方向のストライプ内に事前に定義された最大値の関数として定められる予め定められた制限値よりも小さい値を有する画像に対応する。プロファイル内の谷部は、実際に、カラーマスク内の穴を引き起こす眼の存在によるものであり得る。１つのプロファイルにおいて、このような谷部が見つけられると、隣接するプロファイルが、次に、結合された構造につながる対応する谷部を探索するように調査される。そして、このような結合された構造に属するプロファイルは、撮影された人の眼を含みそうな１つのストライプと定義される。図１０ｃは、このステップの結果を示す図であり、その人の眼を含み得る３つのストライプ６１ａ，６１ｂ，６１ｃを示す。右側のストライプ６１ｃは、右眼の近くにあるしわの位置において、強度の谷部を有する。
【０１１５】
もし、ビデオデータストリームの１つの画像について、１つのストライプだけが発見された場合は、撮影された人の２つの眼の位置を同定することが可能ではないと自動的に結論付けられる。プロセスは、ステップＳ２３で停止し、ビデオデータストリームの次の画像が、再びステップＳ２１で開始されることによって解析される。
【０１１６】
プロセスは、さらなる変形例を提供することによって改善され得る。領域内で発見されたが小さすぎる結合された構造は除去され、互いに近接している結合された構造は組み合わされ、および／または、非常に大きな結合された構造は２つに分割され、２つのストライプを導く。結合された構造が比較的小さいが、人の眼を含むには結果的にまだ十分に大きい場合は、ストライプを拡げることも１つの可能性である。
【０１１７】
一旦、人の眼を含みそうなストライプが分離されると、次のステップＳ２４は、１つより多くのストライプが前のステップにおいて分離された場合は、ストライプの領域の内側の眼の領域を探索する。本実施形態においては、各ストライプ内のグレイスケールイメージの輪郭線図を演算する。各候補のストライプ内の虹彩の中心の有力な位置が、次に、輪郭のすべての点に対する接触円の半径に沿って描かれる円弧の交点を調査することによって見出される。これらの円弧がほぼ同心円になるような点が、ストライプ内の虹彩の中心であると推定される。これは、虹彩は、最も円形の輪郭を有する顔の特徴だからである。この中心についての交点の数は、検出の品質の目安である。さらに、虹彩が黒いので、その点におけるイメージのグレイレベルがより暗くなるので、この点が虹彩の中心であるという可能性が増加する。交点の数は、したがって、グレイレベル値によって重み付けされる。
【０１１８】
前のステップで抽出された２つより多くのストライプの場合、もっとも可能性の低い候補は、最低の重みを有するストライプであり、したがって、除去され得る。残っている２つのストライプの各々に対する眼の領域は、次に、予め定められた大きさのフレームとして定義され、それはビデオ全体の全ての眼を含むのに十分な大きさであり、維持された候補点が中心となるように配置される。図１０ｄは、実際の例におけるこのステップの結果を示す。ストライプ６１ａおよび６１ｂにおいて、眼の領域６３ａおよび６３ｂが定義されており、一方ストライプ６１ｃにおいては、前者に比べて候補中心の重みが非常に小さくなった。
【０１１９】
一旦、ストライプ内の眼の領域が定義されると、次のステップＳ２５は、検出された眼の領域の内部だけに同様のアルゴリズムを用いて、眼の領域内部の虹彩の位置を決定する。
【０１２０】
そのようにすることで、検出プロセスからもたらされた品質値は、領域の大きさに関して本質的に正規化され、全ての領域は同じ大きさを有する。したがって、ビデオの他のフレームに対して得られた結果を、後に比較することが可能となる。
【０１２１】
一旦、システム４１のようなシステムによって、虹彩の位置が２人の撮影された人に対して確立されると、２人の人が顔を見合わせているか否かを判定することができる。これは、ビデオカメラの位置が固定されており、そのために画像内の虹彩の位置を知ることによって、処理装置４７が、２人の人の虹彩の位置が２人の人が顔を見合わせている状況に対応しているか否かを判断することができるという事実による。本実施形態の具体的な変形例においては、各イメージについて得られた虹彩の検出は、ビデオ内において、その人が彼または彼女の対談者を見ている順序を決定するために用いられる。本実施形態の簡略化された変形例においては、人の眼が同定されるという事実は、その人が他方の人を見ているということを結論付けるのに十分であり、両方の人について眼が同定された場合は、彼らが顔を見合わせているということを結論付け得る。
【０１２２】
さらに、虹彩および眼それ自体の位置が解析されると、眼の微細運動が各人について判断され得る。主に、虹彩の動きが、以下の６つの眼の方向、すなわち、上方左、上方右、左、右、下方左および下方右のうちの１つであるか否か、である。両方の人が同じ振る舞いを示す場合は、彼らが同期状態にあることが結論付けられる。
【０１２３】
［実施形態８］
図１１は、少なくとも２人の人の間の会話を電子的に評価するためのさらなる方法を示す、第８の実施形態を示す図である。第７の実施形態の場合と同様に、本実施形態は、ステップＳ２１からＳ２５に加えて追加のステップＳ２６およびＳ２７を含み、これらは、ビデオデータの画像フレーム内の虹彩の位置を決定するプロセスのスピードをさらにアップさせる。第１の画像の眼の領域内の虹彩の位置を決定（ステップＳ２５）した後、処理装置４７は、ビデオデータの次の画像フレームの解析を開始するが、ステップ２２における顔を表示する領域の同定は再スタートせず、眼の領域が前の画像フレーム内で同定された位置に対応する領域内の虹彩の位置の再決定を直ちに開始する。最終的に、変形例によれば、虹彩を発見する機会を改善するために、この領域は拡大され得る。
【０１２４】
実際、本実施形態においては、販売上の会話中に頭部およびすなわち眼の位置はそんなに速く動かず、そのために、続きの画像において、ステップＳ２２からＳ２４を繰り返すことなく、前の画像においてあった位置と同じ位置において虹彩が発見され得るチャンスが高くなるという事実の利点がある。
【０１２５】
ステップ２６中に続きの画像内で虹彩が発見されたことが、ステップ２７において判断された場合、ステップ２２から２５を通過することなく、次に続く画像に対してステップ２６が再び実行される。しかしながら、もし処理装置４７が、ステップ２６中に眼の領域内の虹彩を同定できない場合、第８の実施形態に従う方法は、そのときは、ちょうど前の実施形態のように、ステップ２２を再スタートする。
【０１２６】
［実施形態９］
図１２は、本発明の第９の実施形態による、本発明に従う第３のシステムを示す図である。システム７１は、本発明の第１および第５の実施形態によるシステム１および４１の組み合わせに対応する。したがって、−第１および第５の実施形態に関する同じ参照番号を用いて−２つのマイクロフォン３，５、２つのビデオカメラ４３および４５を備え、それらは各々、第１から第５の処理ユニット１３、１５、１７、４９および５１を備える処理装置７３と結合され、マイクロフォンおよびビデオカメラから受信したオーディオデータおよびビデオデータの両方を解析するように構成される。これらの要素の詳細な説明は再び繰り返さないが、第１および第５の実施形態が参照によってここに引用される。上述のように、２人より多くの人が会話に参加している場合、システム７１は、対応する数のマイクロフォンおよび／またはビデオカメラを提供することによって、それに応じて適合され得る。
【０１２７】
さらに、システム７１は、前述の実施形態のように、記憶装置１９および／またはユーザインターフェース（図示せず）をさらに備え得る。このシステムを用いて、上述の方法は、共同して実行され得る。したがって、２人の人の会話は、彼らの言語的な相互作用および非言語的な相互作用に基づいて、自動的かつ電子的に評価され得る。
【０１２８】
さらに、本実施形態においては、オーディオデータおよびビデオデータから抽出された情報間の相乗効果から、利点が得られ得る。販売上の会話中に生じる相互作用フェーズの効果として、フォーカライゼーションおよび／または眼の微細運動を解析することが可能となる。
【０１２９】
「発言の再区分」のパラメータおよび「フォーカライゼーション」のパラメータの両方を見ることは、２人の人の間の同期の第１の評価基準を提供し、したがって、共通の振る舞いが存在する状態は、会話の成果について有益であるかもしれない。たとえば、バイヤーが、彼が話しているときは販売員を見ていない（バイヤーのフォーカライゼーションがない）が、彼が話を聞いているときにはバイヤーを見ており、かつバイヤーが同じ方法を採用する場合は、両者は同期した状態にある。両方の参加者は、したがって、共通の振る舞いを採用する。したがって、たとえ両者が顔を見合わせなくても、本発明の方法は、会話の成果についての利点のある同期状態を同定し得る。たとえば、バイヤーが内気な人の場合で、他方の人が彼を見ることをやめるときには、彼はあえて他方の人を見ないことがよりよいと気づく。
【０１３０】
フォーカライゼーションがない場合、両者の微細運動が同じモードである場合に、ある種の同期が得られるので、微細運動を解析することが関心事になる。さらに、各人の眼の微細運動が、会話の第１および／または第２のフェーズ、すなわち「プレゼンテーション」および／または「ニーズの発見」のフェーズ中に解析される。以降の３つのフェーズ中、システム７１は、２人の人の間の微細運動の同期が生じているか否か、または、各人が、各人自身の有する微細運動モードにあるか否かを判断する。
【０１３１】
販売員の同期可能性について得られたデータは、適応可能性を定量化することを可能とする。典型的に、人は同じ言語的および非言語的なモードを繰り返す。しかしながら、正しいコミュニケーション訓練によって、バイヤーのモードに適応することができる。したがって、本発明の方法および装置を用いて、そのような解析が定量的基礎の上に乗せられ得る。
【０１３２】
システム７１のユーザが、２人の人の間で販売上の会話が行なわれた方法についてのより多くの情報さえも得ることができるように、異なるフェーズの効果としてフォーカライゼーションをチェックすることも可能である。
【０１３３】
好ましくは、処理装置は、すべての解析がオンザフライで実行されるように構成される。たとえば、虹彩の位置は、２つの画像間で、リアルタイム解析が可能なように演算される。これは、会話の最後において、ユーザが２人の人の間の言語的および非言語的な相互作用についてのデータを直ちに得ることができ、かつ、販売員のプロファイルを判断できるという利点を有する。
【０１３４】
好ましくは、システム１、４１および７１の各々は、予め定められたプロファイルを有するデータベースをさらに備えることができ、そして、予め定められたプロファイルの言語的および非言語的な相互作用の特性を用いて販売員とバイヤーとの間の言語的および非言語的な相互作用の解析結果を比較することによって、システムは、評価される人に最適な、予め定められた販売員のプロファイルを出力することができる。そうすることによって、評価されたテスト者は、彼のコミュニケーションスキルを改善するための特別訓練基準を示され、したがって、彼の販売上の会話を成功的に成立させる可能性を向上することができる。
【０１３５】
上述の方法は、すべてコンピュータプログラムとして実現され得、そして説明したステップを実行するためのコンピュータ実行可能指令を有する１つまたはより多くのコンピュータ読み出し可能な媒体を含むコンピュータプログラム製品上に乗せられ得る。本発明によれば、記憶媒体が、コンピュータプログラムを記憶するために用いられ得る。

【特許請求の範囲】
【請求項１】
少なくとも２人の人の間の会話を、自動的に、特に電子的に評価するための方法であって、
ｇ）少なくとも２人の人を、少なくとも部分的に映し出すビデオデータを受け取るステップと、
ｈ）前記少なくとも２人の人の間で、会話中に視覚的な相互作用が生じたか否かを決定するために、前記ビデオデータを解析するステップとを備え、
ステップｈ）は、前記少なくとも２人の人の虹彩の位置を検出することによって、前記少なくとも２人の人が、互いに顔を見合わせたか否かを決定することを含み、
前記方法は、
ｉ）眼の運動の方向が同じモードであるか否かを決定するために、前記少なくとも２人の人の眼の運動を解析するステップをさらに備える、方法。
【請求項２】
前記ステップｉ）は、
上方左、上方右、左、右、下方左および下方右眼の６つの方向のうちの１つへの虹彩の運動を含む、請求項１に記載の方法。
【請求項３】
ステップｉ）は、
少なくとも１つの予め定められた相互作用フェーズにおいて、眼の運動の方向が同じであるか否かを決定することを含む、請求項２に記載の方法。
【請求項４】
ステップｈ）は、
ｈ＿１）前記２人の人の少なくとも１人の顔の少なくとも一部、特に少なくとも両眼を示す画像の領域を決定するために、前記ビデオデータの画像中に視覚的特徴を同定するステップと、
ｈ＿２）前記領域の中のストライプ、特に縦ストライプを分離するステップと、
ｈ＿３）ステップｈ＿２）において１つより多くのストライプが分離された場合、前記縦ストライプの中の眼の領域を探索するステップとを含む、請求項１〜３のいずれか１項に記載の方法。
【請求項５】
ステップｈ＿２）は、
前記ストライプをグレースケールフォーマットに転送することによって、前記ストライプの輪郭を同定するステップと、
前記虹彩に一致しやすい円を探索することによって、予め定められた色を有する前記輪郭内の前記ビデオデータにおいて、それらのグレースケール強度に重み付けをすることによって、決定された輪郭の中心候補の探索とを含む、請求項４に記載の方法。
【請求項６】
前記虹彩に一致しやすい円を探索することによって、予め定められた色を有する前記輪郭内の前記グレースケールビデオデータを重み付けすることによって、眼の領域における前記虹彩の位置を同定するステップｈ＿４）をさらに備える、請求項４または５に記載の方法。
【請求項７】
前記ビデオデータにおける少なくとも続きの画像について、虹彩の位置が全く検出できなくはない場合に、眼の領域における前記虹彩の位置を同定するために、ステップｈ＿４）のみが繰り返される、請求項６に記載の方法。
【請求項８】
前記ビデオデータは、
会話に参加している人に対して、異なった位置に配置された異なるカメラからの複数のデータストリームを含む、請求項７に記載の方法。
【請求項９】
各々のカメラは、１人の人のみを撮影する、請求項８に記載の方法。
【請求項１０】
ａ）少なくとも２人の人の間の会話を含むオーディオデータを受け取るステップと、
ｂ）会話の進行における少なくとも２人の人の発言の再区分を決定するために、時間領域において、前記オーディオデータを解析するステップと、
ｃ）前記解析するステップの結果を予め定められたコミュニケーションパターンと比較することによって、会話中の１つまたはより多くのコミュニケーションパターンを同定するステップとをさらに備える、請求項１〜９のいずれか１項に記載の方法。
【請求項１１】
ａ）少なくとも２人の人の間の会話を含むオーディオデータを受け取るステップと、
ｄ）会話に参加している１人の人の話す時間の移動平均値に基づいて、会話の進行における、予め定められた相互作用フェーズを同定するステップとをさらに備える、請求項１に記載の方法。
【請求項１２】
少なくとも１つの相互作用フェーズの同定は、
１つの相互作用フェーズから他の相互作用フェーズへの遷移の検出を備え、
遷移は、前記移動平均値が第１の制限値を通過する第１の時間、および前記移動平均値が第２の時間において遷移の存在を示す第２の制限値を通過する第２の時間を定めることによって検出される、請求項１１に記載の方法。
【請求項１３】
前記第１の制限値は、一方の人が他方の人より多く話す期間のフェーズについては、６０％から８０％の範囲であり、前記一方の人が他方の人より少なく話す期間のフェーズについては、２０％から４０％の範囲であり、
前記第２の制限値は、４５％から５５％である、請求項１２に記載の方法。
【請求項１４】
前記平均値は、会話の総継続時間のおよそ３％から１０％の継続時間にわたって演算される、請求項１１〜１３のいずれか１項に記載の方法。
【請求項１５】
少なくとも２人の人の発言の中における予め定められた言葉を同定するために、前記オーディオデータを解析するステップｅ）をさらに備える、請求項１０〜１４のいずれか１項に記載の方法。
【請求項１６】
同定された１つまたはより多くの相互作用フェーズのそれぞれにおいて、前記予め定められた言葉の発生をカウントするステップｆ）をさらに備える、請求項１５に記載の方法。
【請求項１７】
前記オーディオデータは、
異なるマイクロフォンからの複数のデータストリームを含み、
特に、各マイクロフォンは、少なくとも２人の人のうちの１人のみに向けられ、かつ話しているときに前記１人の人からの信号強度が残りの人の信号強度よりも大きくなるように構成される、請求項１０〜１６のいずれか１項に記載の方法。
【請求項１８】
請求項１〜１７のいずれか１項に記載の方法のステップを実行するためのコンピュータ実行可能指令が記憶された、１つまたはより多くのコンピュータ読み込み可能媒体を備える、コンピュータプログラム製品。
【請求項１９】
会話中の少なくとも２人の人の間の会話を、自動的に、特に電子的に評価するためのシステムであって、
少なくとも２人の人を、少なくとも部分的に映し出すビデオデータを撮影するための少なくとも１つのビデオカメラ（４３，４５）と、
前記少なくとも２人の人の間で、会話中に視覚的な相互作用が生じたか否かを決定するように構成された処理装置（４７）とを備え、
前記処理装置（４７，７３）は、領域内のストライプを分離するとともに、前記処理装置（４７，７３）が前記２人の人の眼の運動の方向が同じであるか否かを同定するようにさらに構成される先行するステップにおいて１つより多くのストライプが分離された場合にストライプ内の眼の領域を探索することにより、人の少なくとも顔の一部を示す画像の領域を決定するために画像内の視覚的特徴を同定することによって、複数の連続画像を含むビデオデータ内の人の眼の位置を検出するようにさらに構成される、システム。
【請求項２０】
会話に参加している人の各々に対して１つのビデオカメラ（４３，４５）が提供され、
前記ビデオカメラ（４３，４５）は、各カメラ（４３，４５）が１人の人のみを撮影するように配置される、請求項１９に記載のシステム。
【請求項２１】
前記処理装置は、上方左、上方右、左、右、下方左および下方右眼の６つの方向のうちの１つへの虹彩の運動を決定するように構成される、請求項１９または２０に記載のシステム。
【請求項２２】
少なくとも２人の人の間の会話を、自動的に評価するために、
ａ）会話を捕らえて、オーディオデータを提供するための少なくとも１つのマイクロフォン（３，５）と、
ｂ）時間領域において、会話の進行における少なくとも２人の人の発言の再区分を決定するために、前記オーディオデータを解析するように構成され、かつ、会話中の１つまたはより多くのコミュニケーションパターンを同定するために、解析するステップの結果を予め定められたコミュニケーションパターンと比較するように構成されたデータ処理装置（７）とをさらに備える、請求項１９〜２１のいずれか１項に記載のシステム。
【請求項２３】
少なくとも２人の人の間の会話を、自動的に評価するために、
ａ）会話を捕らえて、オーディオデータを提供するための少なくとも１つのマイクロフォン（３，５）と、
ｄ）会話に参加している１人の人の話す時間の移動平均値に基づいて、会話の進行における、予め定められた相互作用フェーズを同定するように構成されたデータ処理装置（７）とをさらに備える、請求項１９〜２１のいずれか１項に記載のシステム。
【請求項２４】
前記データ処理装置（７）は、さらに、会話に参加している１人の人の話す時間の移動平均値に基づいて、会話の進行における、予め定められた相互作用フェーズを同定するように構成される、請求項２２に記載のシステム。
【請求項２５】
前記データ処理装置（７）は、さらに、発言中の予め定められた言葉を同定するように構成される、請求項２２〜２４のいずれか１項に記載のシステム。
【請求項２６】
１つのマイクロフォン（３，５）は、会話に参加している人ごとに提供され、
各々のマイクロフォン（３，５）は、対応する人からの信号強度が、話しているときに、残りの人の信号強度よりも大きくなるように構成される、請求項２２〜２５のいずれか１項に記載のシステム。

【図１】

【図２】

【図３ａ】

【図３ｂ】

【図３ｃ】

【図３ｄ】

【図３ｅ】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０ａ】

【図１０ｂ】

【図１０ｃ】

【図１０ｄ】

【図１１】

【図１２】

【公開番号】特開２０１３−１０１６８０（Ｐ２０１３−１０１６８０Ａ）
【公開日】平成２５年５月２３日（２０１３．５．２３）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - イメージデータ処理または発生一般 (58,387)
    - イメージ分析，例．ビットマップから非ビットマップへ (10,245)
      - 動きの分析 (2,724)
- 教育；暗号方法；表示；広告；シール (131,780)
  - 教育用または教示用の器具；盲人，聾者または唖者の教習，または意... (19,563)
    - このサブクラスの他のメイングループに包含されない教習 (1,268)
      - 話し方 (109)

【出願番号】特願２０１３−１６８６３（Ｐ２０１３−１６８６３）
【出願日】平成２５年１月３１日（２０１３．１．３１）
【分割の表示】特願２０１０−５１３７５０（Ｐ２０１０−５１３７５０）の分割
【原出願日】平成２０年６月２５日（２００８．６．２５）
【出願人】（５１０００５６８３）ゼロ・トゥ・ワン・テクノロジー (2)
【氏名又は名称原語表記】ＺＥＲＯ　ＴＯ　ＯＮＥ　ＴＥＣＨＮＯＬＯＧＹ
【Ｆターム（参考）】

イメージ分析 (61,341)
- 入力手段 (6,013)
  - 画像の取得 (5,793)
    - カメラ (5,253)
      - 撮像法 (3,341)
        
        単数カメラ複数画像 (2,764)
        
        複数カメラ (526)
- 特徴抽出 (17,550)
  - 幾何学的特徴量 (7,404)
    - 方向、角度 (1,697)
    - 位置 (2,174)

[ Back to top ]

電子的に会話を評価するための方法およびシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

電子的に会話を評価するための方法およびシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク