会話参与手続き認識装置および会話参与手続き認識システム

【構成】会話参与手続き認識装置１０はサーバ１２を含み、サーバ１２は、各ウェアラブルユニット２０から送信される発話情報と視線情報とに基づいて、ウェアラブルユニット２０を装着する人物毎の会話への参与役割を認識する。サーバ１２は、或る人物の視線情報に基づいて、当該人物の参与役割が非参与者から傍観者、さらには傍参与者への昇格を識別する。次に、各人物の発話情報から、当該各人物の参与役割が話し手となる期間を識別する。そして、各人物が話し手となる期間における受け手を、発話情報と視線情報とから決定する。
【効果】時刻毎の参与役割を認識することができるので、或る人物の会話参与手続きについての通事態を知ることができる。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は会話参与手続き認識装置および会話参与手続き認識システムに関し、特にたとえば、２人以上の間で行われる会話に参与する目標の人物の参与手続きを認識する、会話参与手続き認識装置および会話参与手続き認識システムに関する。
【０００２】
ここで、会話参与手続きとは、人が会話に参与（参加）し、その場に居る人々と会話し、その場を去るまでの一連の人と人との関わりを意味する。
【背景技術】
【０００３】
この種の会話参与手続き認識装置の従来技術は存在しなかった。非特許文献１によれば、３者以上の人物で行われる多人数会話における「聞き手」を、発話を受け取る人物として選ばれている「受け手(addressee)」と、発話を受け取る人物として選ばれていない「傍参与者(side participant)」とに区別している。また、或る会話における参与役割としては、「話し手」、「受け手」および「傍参与者」の順で会話の中核を占めていることが述べられている。
【０００４】
非特許文献２は、非特許文献１で紹介されている考えをまとめたものであり、図１８に示すように、会話参与の枠組みをモデル化してある。図１８を参照して、会話の中核的役割から、「話し手(speaker)」、「受け手(addressee)」、「傍参与者(side participant)」、「傍観者(bystander)」、「盗み聞き者(eavesdropper)」の順に左から並んでいる。少なくとも話し手と受け手との２者が存在すれば、当該２者の間で話者を交替することにより、会話は成立する。ただし、多人数会話では、３番目以降に会話に参与する人物（以下、「第三者」という。）は、会話に参与するかどうかは任意である。つまり、第三者は、会話の成り行きを傍観していることができ、また、積極的に会話の中核に参与することもできる。
【非特許文献１】Goffman, E.「Forms of talk.」University of Pennsylvania Press.1981.
【非特許文献２】Clark, H.H.「Using language.」Cambridge University Press.1996.
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかし、非特許文献１および非特許文献２では、多人数会話において或る時刻帯を見たときの参与役割を人物毎に判断することはできるが、参与役割の時系列変化を人物毎に知ることはできない。つまり、会話の場に居た複数人の人物がどのように階層的な参与役割を担って会話に参与しているかという共時態を示しているに過ぎず、或る１人の人物が時間に従ってどのように会話に参与していくかという通事態を知ることはできなかった。
【０００６】
それゆえに、この発明の主たる目的は、新規な、会話参与手続き認識装置および会話参与手続き認識システムを提供することである。
【０００７】
この発明の他の目的は、会話に参与する人物の参与手続きを認識できる、会話参与手続き認識装置および会話参与手続き認識システムを提供することである。
【課題を解決するための手段】
【０００８】
請求項１の発明は、少なくとも２人の間で行われる会話に参与する目標の人物の参与手続きを認識する会話参与手続き認識装置であって、少なくとも各人物の発話開始時刻と発話終了時刻とを含む発話情報を取得する発話情報取得手段、発話取得手段によって取得された発話情報を各人物毎に記憶する発話情報記憶手段、少なくとも、各人物が視線を向けた会話の場に存在する対象についての識別情報と、当該対象に視線を向け始めた注視開始時刻および当該対象から視線をそらした注視終了時刻とを含む視線情報を取得する視線情報取得手段、視線情報取得手段によって取得された視線情報を各人物毎に記憶する視線情報記憶手段、および発話情報と視線情報との少なくとも一方に基づいて、目標の人物の会話における参与役割を時系列に従って識別する参与役割識別手段を備える、会話参与手続き認識装置である。
【０００９】
請求項１の発明では、会話参与手続き認識装置は、少なくとも２人の間で行われる会話に参与する目標の人物の参与手続きを認識する。発話情報取得手段は、少なくとも、会話の場に存在する各人物の発話開始時刻と発話終了時刻とを含む発話情報を取得し、この発話情報は発話情報記憶手段によって記憶される。また、視線情報取得手段は、少なくとも、各人物が視線を向けた会話の場に存在する対象（他の人物等）の識別情報と、当該対照に視線を向け始めた注視開始時刻および当該対象から視線をそらした注視終了時刻とを含む視線情報を取得し、この視線情報は視線情報記憶手段によって記憶される。参与役割識別手段は、目標の人物の会話における参与役割を時系列に従って識別する。
【００１０】
請求項１の発明によれば、発話情報と視線情報の少なくとも一方に基づいて目標の人物の会話における参与役割を時系列に従って識別するので、当該目標の人物の会話参与手続きを認識することができる。つまり、或る目標の人物についての会話役割の通事態を知ることができる。
【００１１】
請求項２の発明は請求項１に従属し、参与役割は、少なくとも非参与者および傍参与者を含み、参与役割識別手段は、目標の人物の視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別する第１識別手段を含む。
【００１２】
請求項２の発明では、たとえば、参与役割は、少なくとも非参与者および傍参与者を含む。ここで、非参与者とは、会話に参与していない（会話の外にいる）者をいい、厳密には、参与役割には該当しない。傍参与者とは、話し手（発話している者）によって存在は意識されているが、話しかけられていない者をいう。第１識別手段は、目標の人物の視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別する。
【００１３】
請求項２の発明によれば、目標の人物の視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別することができる。
【００１４】
請求項３の発明は請求項２に従属し、第１識別手段は、視線情報に含まれる注視開始時刻と注視終了時刻との間が第１所定期間未満であるとき、参与役割を非参与者として識別し、注視開始時刻と注視終了時刻との間が第１所定期間よりも長い第２所定期間以上であるとき、参与役割を傍参与者として識別する。
【００１５】
請求項３の発明では、第１識別手段は、視線情報に含まれる注視開始時刻と注視終了時刻との間すなわち注視期間が第１所定期間未満であるとき、目標の人物の参与役割を非参与者として識別する。また、注視期間が第１所定期間よりも長い第２所定期間以上であるとき、目標の人物の参与役割を傍参与者として識別する。つまり、会話の場に存在する対象の注視期間すなわち会話の場への滞在期間に応じて、目標の人物の参与役割を非参与者および傍参与者のいずれかに識別するのである。
【００１６】
請求項３の発明によれば、目標の人物が会話の場に滞在する期間に応じて、当該目標の人物の参与役割を非参与者および傍参与者のいずれかに識別することができる。
【００１７】
請求項４の発明は請求項３に従属し、参与役割は、傍観者をさらに含み、第１識別手段は、注視開始事項と注視終了時刻との間が第１所定期間以上第２所定期間未満であるとき、参与役割を傍観者として識別する。
【００１８】
請求項４の発明では、参与役割は、傍観者をさらに含む。ここで、傍観者とは、話し手によって存在を意識されていない者をいう。第１識別手段は、注視開始時刻と注視終了時刻との間が第１所定期間以上第２所定期間未満であるとき、参与役割を傍観者として識別する。参与役割は、非参与者、傍観者、傍参与者の順で遷移する。したがって、第１識別手段による識別処理を、たとえば一定時間毎に実行することにより、目標の人物の参与役割が非参与者から傍観者に遷移（昇格）し、さらに傍観者から傍参与者に昇格することが認識できる。
請求項４の発明によれば、目標の人物が会話の場に滞在する期間に応じて、当該目標の人物の参与役割を非参与者、傍観者および傍参与者のいずれかに識別することができる。
【００１９】
請求項５の発明は請求項４に従属し、参与役割は、話し手をさらに含み、参与役割識別手段は、第１識別手段の識別結果が傍観者または傍参与者を示すとき、目標の人物の発話情報に基づいて、参与役割が話し手に昇格したかどうかを判断する話し手判断手段を含む。
【００２０】
請求項５の発明では、参与役割は、話し手をさらに含む。話し手とは、上述したように、会話の場において発話している者をいう。話し手判断手段は、第１識別手段の識別結果が傍観者または傍参与者を示すとき、つまり目標の人物の参与役割が傍観者または傍参与者として識別されると、目標の人物の発話情報に基づいて、当該目標の人物の参与役割が話し手に昇格したかどうかを判断する。
【００２１】
請求項５の発明によれば、目標の人物の参与役割が傍観者または傍参与者に昇格した後では、当該目標の人物の発話情報に基づいて、当該目標の人物の参与役割が話し手に昇格したかどうかを判断することができる。
【００２２】
請求項６の発明は請求項５に従属し、話し手判断手段は、目標の人物の発話情報に基づいて、当該目標の人物の参与役割が話し手である期間を決定する話し手期間決定手段を含み、話し手期間決定手段は、目標の人物の発話情報に含まれる第１発話開始時刻と第１発話終了時刻との間に、会話の場に存在する他の人物の第２発話開始時刻が存在し、かつ当該他の人物の第２発話終了時刻が第１発話終了時刻の後に存在するとき、当該目標の人物の参与役割が話し手である期間を第１発話開始時刻と第２発話開始時刻とで規定される期間に決定する。
【００２３】
請求項６の発明では、話し手期間決定手段は、目標の人物の発話情報に基づいて、当該目標の人物が話し手である期間を決定する。具体的には、目標の人物の発話情報に含まれる第１発話開始時刻と第１発話終了時刻との間（発話期間）に、同じ会話の場に存在する他の人物の第２発話開始時刻が存在し、かつ当該他の人物の第２発話終了時刻が第１発話終了時刻の後に存在するとき、当該目標の人物の参与役割が話し手である期間を第１発話開始時刻と第２発話開始時刻とで規定される期間に決定する。
【００２４】
請求項６の発明によれば、目標の人物および同じ会話の場に存在する他の人物についての発話期間に基づいて、当該目標の人物の参与役割が話し手である期間を決定することができる。
【００２５】
請求項７の発明は請求項６に従属し、話し手期間決定手段は、第１発話開始時刻と第１発話終了時刻との間に、第２発話開始時刻および第２発話終了時刻の両方が含まれるとき、または、第１発話開始時刻と第１発話終了時刻との間に、第２発話開始時刻および第２発話終了時刻の両方が含まれないとき、目標の人物の参与役割が話し手である期間を、第１発話開始時刻と第１発話終了時刻とで規定される期間に決定する。
【００２６】
請求項７の発明では、話し手期間決定手段は、第１発話開始時刻と第１発話終了時刻との間に、第２発話開始時刻および第２発話終了時刻の両方が含まれるとき、または、第１発話開始時刻と第１発話終了時刻との間に、第２発話開始時刻および第２発話終了時刻の両方が含まれないとき、目標の人物の参与役割が話し手である期間を、第１発話開始時刻と第１発話終了時刻とで規定される期間に決定する。つまり、目標の人物の発話期間が、他の人物の発話期間を完全に含むとき、または、他の人物の発話期間と重複する部分がないとき、目標の人物の参与役割が話し手である期間を、自身の発話期間に決定するのである。
【００２７】
請求項７の発明においても、請求項６の発明と同様に、目標の人物および同じ会話の場に存在する他の人物についての発話期間に基づいて、当該目標の人物の参与役割が話し手である期間を決定することができる。
【００２８】
請求項８の発明は請求項６または７に従属し、参与役割は、受け手をさらに含み、第１識別手段は、会話の場に存在する他の人物の視線情報に基づいて、当該他の人物の参与役割が非参与者、傍観者および傍参与者のいずれであるかを識別し、話し手判断手段は、第１識別手段によって参与役割が傍観者または傍参与者と識別された他の人物の発話情報に基づいて、当該他の人物の参与役割が話し手に昇格したかどうかを判断し、話し手期間決定手段によって決定される他の人物の参与役割が話し手である期間において、当該他の人物の視線情報に含まれる識別情報が目標の人物を示すとき、当該目標の人物の参与役割が受け手に昇格したと判断する受け手判断手段をさらに備える。
【００２９】
請求項８の発明では、参与役割は、受け手をさらに含む。ここで、受け手とは、話し手に視線を向けられて、話しかけられている者をいう。たとえば、第１識別手段は、会話の場に存在する他の人物の視線情報に基づいて、当該他の人物の参与役割が非参与者、傍観者および傍参与者のいずれであるかを識別する。また、話し手判断手段は、第１識別手段によって参与役割が傍観者または傍参与者と識別された他の人物の発話情報に基づいて、当該他の人物の参与役割が話し手に昇格したかどうかを判断する。受け手判断手段は、話し手期間決定手段によって決定される他の人物の参与役割が話し手である期間において、当該他の人物の視線情報に含まれる識別情報が目標の人物を示すとき、当該目標の人物の参与役割が受け手に昇格（遷移）したと判断する。つまり、話し手と判断された他の人物の視線情報と発話情報とに基づいて、目標の人物の参与役割が受け手であるかどうかが識別される。
【００３０】
請求項８の発明によれば、話し手と判断された他の人物の視線情報と発話情報とに基づいて、目標の人物の参与役割が受け手であるかどうかを識別することができる。
【００３１】
請求項９の発明は請求項８に従属し、受け手判断手段は、他の人物の参与役割が話し手である期間において、当該他の人物の視線情報に含まれる目標の人物についての識別情報の注視開始時刻と注視終了時刻とで規定される期間を、当該目標の人物の参与役割が受け手である期間に決定する受け手期間決定手段を含む。
【００３２】
請求項９の発明では、受け手期間決定手段は、他の人物の参与役割が受け手である期間において、当該他の人物の視線情報に含まれる目標の人物についての識別情報の注視開始時刻と注視終了時刻とで規定される期間を、当該目標の人物の参与役割が受け手である期間に決定する。つまり、話し手である他の人物が、発話しているときに、その視線を目標の人物に向けている期間が、当該目標の人物の参与役割が受け手である期間として決定される。
【００３３】
請求項９の発明によれが、請求項８の発明と同様に、話し手と判断された他の人物の視線情報と発話情報とに基づいて、目標の人物の参与役割が受け手であるかどうかを識別することができる。
【００３４】
請求項１０の発明は、請求項１ないし９のいずれかに記載の会話参与手続き認識装置を備える会話参与手続き認識システムであって、発話情報を検出する発話情報検出装置、および視線情報を検出する視線情報検出装置をさらに備え、視線情報検出装置および発話情報検出装置は、各人物に装着可能に設けられ、会話参与手続き認識装置に発話情報および視線情報を送信するようにした。
【００３５】
請求項１０の発明では、会話参与手続き認識システムは、上述したような会話参与手続き認識装置を備える。また、このシステムは、発話情報検出装置および視線情報検出装置をさらに備える。発話情報検出装置および視線情報検出装置は、たとえば、人物に装着可能に設けられ、それぞれで検出される発話情報および視線情報を、会話参与手続き認識装置に送信する。したがって、たとえば、会話の場に存在する人物のそれぞれについての発話情報および視線情報が会話参与手続き認識装置に送信される。
【００３６】
請求項１０の発明によれば、発話情報検出装置および視線情報検出装置を装着した人物についての会話参与手続きを認識することができる。
【００３７】
この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【発明を実施するための最良の形態】
【００３８】
図１を参照して、この実施例の会話参与手続き認識システム（以下、単に「システム」という。）１０は、会話参与手続き認識装置として機能するサーバ１２を含む。また、システム１０は、複数のウェアラブルユニット２０，２０，２０，…を含み、各ウェアラブルユニット２０はサーバ１２に接続される。図１では省略するが、各ウェアラブルユニット２０は、人物（被験者）に装着される（図６，図７参照）。
【００３９】
なお、図１では、３つのウェアラブルユニット２０を示してあるが、ウェアラブルユニット２０は人物の数に対応して設けられる。
【００４０】
ウェアラブルユニット２０は、パーソナルコンピュータ（ＰＣ）２２を含み、このＰＣ２２がサーバ１２に通信可能に接続される。また、ウェアラブルユニット２０は、ＩＲタグ２４、ＩＲトラッカ２６およびマイク２８を含み、ＩＲトラッカ２６およびマイク２８は、ＰＣ２２に接続される。各ウェアラブルユニット２０は、同じ構成であるが、ＩＲタグ２４に割り当てられる識別情報（ＩＤ番号）が互いに異なる。
【００４１】
なお、各ＰＣ２２は、有線または無線により、直接或いはネットワーク（ＬＡＮ等）を介してサーバ１２に接続される。
【００４２】
ＰＣ２２は、汎用のコンピュータであり、ラップトップ型のＰＣのような小型のものを用いることができる。ＩＲタグ２４（後述するＩＲタグ４０も同様。）は、図２に示すように、赤外ＬＥＤ５０および駆動回路５２を備える。ＩＲタグ２４では、駆動回路５２が赤外ＬＥＤ５０を点灯制御することにより、自身に割り当てられたＩＤ番号についての情報（ＩＤ情報）を間欠的に送信（出力）する。
【００４３】
具体的には、駆動回路５２は、たとえばマイクロコンピュータであり、マンチェスタ符号化方式によりエンコードしたＩＤ番号（６ｂｉｔ）およびパリティビットと、スタートビット（１ｂｉｔ）およびエンドビット（２ｂｉｔ）とを含むＩＤ情報を、所定の周期（たとえば、２００Hz）の点滅により繰り返し送信するように、赤外ＬＥＤ５０を点滅させる。たとえば、ＩＤ番号が「６２」の場合には、ＩＤ情報は“０１１００１０１０１０１０１１０１１１１”と表され、このＩＤ情報が赤外線信号に変換される。ただし、スタートビットは“０１”であり、ＩＤ番号は“１００１０１０１０１０１”であり、バイナリデータ（偶数“０１”，奇数“１０”）は“１０”であり、エンドビットは“１１１１”である。
【００４４】
なお、駆動回路５２すなわちマイクロコンピュータ（マイコン）としては、Ａｔｍｅｌ社製の４ＭHz駆動マイコン「ＡＴ９０Ｓ２２２３（品番）」等を用いることができる。
【００４５】
また、各ＰＣ２２には、同じウェアラブルユニット２０に含まれるＩＲタグ２４のＩＤ番号が予め記憶（登録）されている。これは、ウェアラブルユニット２０またはウェアラブルユニット２０を装着している人物をサーバ１２で特定するためである。したがって、たとえば、各ＰＣ２２の識別情報（たとえば、ＭＡＣアドレスやＩＰアドレス）に対応してＩＲタグ２４のＩＤ番号を記述したテーブルをサーバ１２に記憶しておくようにして、通信の際に得られる各ＰＣ２２の識別情報からＩＲタグ２４のＩＤ番号を特定するようにしてもよい。
【００４６】
ＩＲトラッカ２６は、ＩＲタグ２４，４０などが送信（発信）する赤外線信号を検出する。図３に示すように、ＩＲトラッカ２６は、赤外線フィルタ６０を含む。この赤外線フィルタ６０は、ＩＲタグ２４，４０などから送信される赤外線のうち、主として近赤外線のみを透過させ、レンズ６２に近赤外線を導く。たとえば、赤外線フィルタ６０としては、可視光を遮断（ブロック）し、近赤外光を通過（パス）させる、エドモンド社製の「プラスチックＩＲパスフィルタ」を用いることができる。
【００４７】
レンズ６２は、赤外線フィルタ６０を透過した近赤外線をＣＭＯＳイメージセンサ６４に結像させる。この実施例では、レンズ６２の画角は９０度である。この場合には、比較的近距離で広範囲に位置する赤外線（ＩＲタグ）を容易に検出することができる。つまり、対面で人物が会話する状態であっても、ＩＲタグ２４が発信する赤外線信号（ＩＤ番号）を検出することができるのである。
【００４８】
ＣＭＯＳイメージセンサ６４は、レンズ６２によって結像された近赤外線で構成される近赤外線画像を撮影して画像処理装置６６に出力する。このＣＭＯＳイメージセンサ６４としては、三菱電機株式会社製の人工網膜ＬＳＩ「Ｍ６４２８３ＦＰ（品番）」等を用いることができ、この場合の解像度は１２８×１２８ピクセルである。
【００４９】
画像処理装置６６は、ＣＭＯＳイメージセンサ６４の読み出し制御およびデータ処理を実行し、ＣＭＯＳイメージセンサ６４によって撮影された近赤外線画像からＩＲタグを検出し、検出したＩＲタグの点滅状態からＩＤ番号を検出（特定）する。そして、画像処理装置６６は、特定したＩＤ番号をＰＣ２２に出力する。
【００５０】
具体的には、まず、画像処理装置６６は、ＣＭＯＳイメージセンサ６４等を初期化し、全画面（１２８×１２８ピクセル）の近赤外線画像を撮影する。次に画像画像処理装置６６は、近赤外線画像の中から所定サイズの光点、たとえば１ピクセルの光点をＩＲタグとして抽出し、所定サイズより大きな光点を排除する。このように、近赤外線画像の中から所定サイズの光点を検出するという簡便な処理によりＩＲタグを検出することができるので、画像処理装置６６によるＩＲタグ検出処理を高速化できる。
【００５１】
続いて、画像処理装置６６は、抽出した光点を中心とする８×８ピクセルの領域を検出領域として決定し、ＣＭＯＳイメージセンサ６４により検出領域を規定回数、たとえば（（送信ビット数＋スタートビット数＋エンドビット数）×２×２）回読込み、読み込んだ近赤外線画像から赤外線タグの点滅状態を検出してＩＤ番号を検出するとともに、パリティチェックを行い、読込みデータの識別処理を行う。
【００５２】
このように、近赤外線画像から光点を含む検出領域を決定し、この検出領域の近赤外線画像のみを用いてＩＲタグの点滅状態を検出しているので、処理対象となる近赤外線画像を必要最小限に限定することができ、画像処理装置６６によるＩＲタグ検出処理を高速化することができる。このＩＲタグ検出処理の高速化により、人物の動きに十分に追従することができ、動き予測等の演算コストの高い処理を省略することができる。ここで、パリティチェックが正しければ、画像処理装置６６は、ＩＲタグのＩＤ番号を出力し、パリティチェックが正しくなければ、検出領域の読込みを再度行い、上述したＩＲタグ検出処理を再度行い、検出されたすべての光点に対してＩＲタグ検出処理を実行する。
【００５３】
このようにして、ＩＲタグが装着された（設けられた）人物や対象物に対して一意的に割り当てられたＩＤ番号をＬＥＤの点滅により送信し、人物に装着されたＩＲトラッカにより、人物の視線方向に位置する人物や対象物のＩＤ番号を検出し、人物や対象物を識別することができる。
【００５４】
そして、ＰＣ２２は、ＩＲトラッカ２６から入力されたＩＤ番号（以下、「検出ＩＤ番号」ということがある。）と予め記憶してあるＩＲタグ２４のＩＤ番号（以下、「割当ＩＤ番号」ということがある。）とを、たとえば、一定の時刻間隔（この実施例では、１分間隔）で、サーバ１２に送信する。
【００５５】
ただし、厳密には、各ＰＣ２２は、それぞれに接続されるＩＲトラッカ２６からＩＤ番号が入力されたときの時刻（開始時刻）とＩＤトラッカ２６から当該ＩＤ番号が入力されなくなった時刻（終了時刻）とを、それぞれ、内部タイマ２２ａから取得し、それらの時刻を２つのＩＤ番号とともにサーバ１２に送信する。つまり、或る人物の視線が他の人物やオブジェクトに向けられたときの時刻（注視開始時刻）および当該他の人物やオブジェクトから視線がそらされたときの時刻（注視終了時刻）と、当該他の人物やオブジェクトのＩＤ番号すなわち検出ＩＤ番号とを含む情報（視線情報）に、割当ＩＤ番号を付加して、サーバ１２に送信する。
【００５６】
なお、上述の画像処理装置６６としては、Ｃｙｇｎａｌ社製の４９ＭHz駆動マイコン「Ｃ８０５１Ｆ１２４（品番）」を用いることができる。この場合、ＣＭＯＳイメージセンサ６４を１１５２００Hzのクロックで駆動させ、撮像（シャッタ開放）後、１クロック毎に１ピクセルの明るさがアナログ値でシリアル出力さえる。このため、全画素撮影時の最短フレームレートは、数１に示すように算出されるが、１２８×１２８ピクセルのうち、８×８ピクセルを検出領域に設定して５００Hzのシャッタスピードで撮影した場合には、４００Hzのフレームレートを実現することができる。つまり、読み出し速度を高速化することができる。このように、ＩＲタグの点滅周期（２００Hz）の２倍のフレームレート（４００Hz）で読み込むため、単一の赤外ＬＥＤを用いて非同期通信を行うことができる。また、画角９０度のレンズ６２を使用したときに、２ｍの距離で、１ピクセルは、２．２ｃｍ×２．２ｃｍの範囲に相当する。
【００５７】
このように、ＩＲトラッカ２６では、主として近赤外線のみで構成された近赤外線画像を用いてＩＲタグのＩＤ番号を検出することができるので、外乱となる可視光領域の波長を有する光による悪影響を受けることがほとんどない。
【００５８】
図１に戻って、マイク２８は、たとえば単一指向性マイクであり、当該マイク２８を装着する人物の音声を収集する。ただし、声帯マイクを用いることもできる。このようなマイク２８を用いるのは、ウェアラブルユニット２０を装着する人物の音声のみを収集し、周囲（環境）音が入力されるのを防止するためである。マイク２８を通して入力される音声は、各々が接続されるＰＣ２２に入力され、対応する音声データ（ＲＡＷデータ）がＰＣ２２の図示しないハードディスク（ＨＤ）に記憶される。ＰＣ２２は、ＨＤに記憶された音声データと予め記憶してあるＩＤ番号とを、一定時間（たとえば、１分）毎にサーバ１２に送信する。
【００５９】
ただし、厳密には、ＰＣ２２は、それぞれ、マイク２８から音声信号の入力が開始されたときの時刻（開始時刻）と、音声信号の入力が終了したときの時刻（終了時刻）とを内部タイマ２２ａから取得し、つまり、音声入力の開示時刻と終了時刻とを取得し、それらの時刻と音声データとを含む情報（発話情報）に割当ＩＤ番号を付加して、一定時間毎にサーバ１２に送信する。
【００６０】
ここで、ＰＣ２２は、マイク２８から入力される音声信号（音声データ）が所定の閾値（この実施例では、５０ｄＢ）よりも大きいレベル（パワー）の部分を発話と判断し、５０ｄＢ以下のパワーの部分を無音（発話なし）と判断するようにしてある。ただし、発話が開始されたかどうかを正確に判断するため、５０ｄＢよりも大きいパワーの部分が所定時間Ｔ１（この実施例では、５０ミリ秒）検出されると、発話が開始されたと判断するようにしてある。また、息継ぎ（ブレス）などの休止（ポーズ）によって発話が終了したと判断しないように、５０ｄＢ以下のパワーであり、その状態が所定時間Ｔ２（たとえば、３００ミリ秒）以上継続したときに、発話が終了したと判断するようにしてある。
【００６１】
また、システム１０は、複数のＩＲタグ４０，４０，４０，…を含み、これらのＩＲタグ４０，４０，４０，…は、それぞれ、対象物（この実施例では、ポスターや置物など）に対応して設けられる。なお、図１では、簡単のため、３つのＩＲタグ４０，４０，４０を示してあるが、実際には対象物の数だけＩＲタグ４０は設けられている。ただし、ＩＲタグ４０は、会話の場に存在する、或いは会話の場に参与（参加）しようとする人物が存在する場所を特定するために用いられる。つまり、同じ場所に存在する人物を特定するのである。このため、ＩＲタグ４０は、会話が起こり得る、会場、部屋（会議室）、展示（説明会）ブースなどの特定の場所であり、当該場所に存在する人物のウェアラブルユニット２０によって認識可能な位置に設けるようにしてもよい。また、ＩＲタグ４０は、対象物と特定の場所との両方に設けるようにしてもよい。さらに、特定の場所に、その場所に存在する人物を撮影可能な位置にカメラ（ＣＣＤカメラなど）を設けておき、各人物の衣服に異なる図形、記号または模様或いはそれらの組み合わせの異なるマークを付しておき、カメラの撮影画像から人物を特定するようにしてもよい。
【００６２】
上述したように、ＩＲタグ４０は、ＩＲタグ２４と同じ構成であり、赤外線信号を送信する。送信された赤外線信号は、ＩＲトラッカ２６で検出される。したがって、ＩＲタグ４０に対応する対象物またはその配置位置（以下、「位置情報」という。）をサーバ１２内の記憶装置（ＨＤ、ＲＯＭまたはＤＢ１２ａ）に記憶しておけば、この位置情報とＩＲトラッカ２６の検出ＩＤ番号とから、当該ＩＲトラッカ２６を備えるウェアラブルユニット２０を装着する人物が存在する場所を特定することができる。
【００６３】
図４は、サーバ１２のＤＢ１２ａに記憶されるＬｏｏｋファイルの一例を示す図解図である。このＬｏｏｋファイルは、上述したように、ウェアラブルユニット２０のＰＣ２２から送信される視線情報に従って生成される。この図４を参照して、Ｌｏｏｋファイルには、人物（割当ＩＤ番号）毎に、検出ＩＤ番号と、当該検出ＩＤ番号の検出を開始した開始時刻すなわち注視開始時刻および当該ＩＤ番号を検出しなくなった終了時刻すなわち注視終了時刻とが、たとえば、時系列に従って記憶される。ただし、図４の上から下に向かうに従って、時間が進行する。また、これ以降では、注視開始時刻と注視終了時刻とで規定される期間を「注視期間」と呼ぶことがある。
【００６４】
また、図５は、サーバ１２のＤＢ１２ａに記憶されるＳｐｅｅｃｈファイルの一例を示す図解図である。Ｓｐｅｅｃｈファイルは、上述したように、ウェアラブルユニット２０のＰＣ２２から送信される発話情報に従って生成される。この図５を参照して、Ｓｐｅｅｃｈファイルには、人物（割当ＩＤ番号）毎に、発話開始時刻と発話終了時刻とが、たとえば、時系列に従って記憶される。ただし、図５の上から下に向かうに従って時間が進行する。なお、図示は省略するが、音声データは、ＤＢ１２ａの別の領域に記憶される。また、これ以降では、発話開始時刻と発話終了時刻とで規定される期間を「発話期間」と呼ぶことがある。
【００６５】
なお、この実施例では、ＤＢ１２ａをサーバ１２の内部に設けるようにしてあるが、ＤＢ１２ａはサーバ１２に直接接続するようにしてもよく、ＬＡＮやインターネットのようなネットワークを介して接続するようにしてもよい。
【００６６】
このような構成のシステム１０は、たとえば、ポスターや置物（陶器など）のようなオブジェクトの展示会場ないし展示ブースに設置することができる。このような場所では、或るオブジェクトを説明する人物（説明者）と、その説明を聞いたり、説明者との間で質疑応答などの会話をしたりする人物（来訪者）とが存在し、また、そのような会話（の場）に、来訪者が参与（介入）したり、傍観したりする様子を観察することができる。
【００６７】
なお、この実施例では、オブジェクトの展示会場にシステム１０を設置する場合について説明するが、これに限定される必要はなく、いわゆる井戸端会議、または、ラウンドテーブルを囲んだ自由討論等の打ち合わせのような会話の起こり得る場所に設置することができる。ただし、会話するのは人物のみならず、コミュニケーションロボットであってもよい。
【００６８】
図６に示す例は、説明者ＡがポスターＰの内容を説明し、その説明を来訪者Ｃが聞いている様子、または、説明者Ａと来訪者Ｃとの間で会話が行われている様子を示している。また、来訪者Ｂは、説明者Ａの説明や説明者Ａと来訪者Ｃとの会話を少し離れた場所で傍観している。
【００６９】
また、図６に示すように、説明者Ａ、来訪者Ｂおよび来訪者Ｃは、それぞれ、図１に示したウェアラブルユニット２０を装着している。また、ポスターＰはホワイトボードや掲示板等に貼り付けられ、当該ポスターＰに対応してＩＲタグ４０がその近傍に設けられる。たとえば、ポスターＰに対応するＩＲタグ４０は、ウェアラブルユニット２０を装着している人物が当該ポスターＰ（または説明者Ａ）に視線を向けたときに、当該ウェアラブルユニット２０に含まれるＩＲトラッカ２６で検出可能な位置に設けられる。
【００７０】
なお、簡単のため、図６では省略するが、図１に示したサーバ１２は、上述したように、ＰＣ２２と通信可能に設置され、たとえば、当該展示物（ポスターＰ）が設けられる場所（部屋）の近傍に設置されてもよく、また、その場所とは別の場所に設置されてもよい。サーバ１２を別の場所に設置する場合には、有線や無線のＬＡＮを用いることにより、ＰＣ２２との間で通信することができる。
【００７１】
図７は人物Ａ（Ｂ，Ｃも同じ。）がウェアラブルユニット２０を装着している例を示す図解図である。この図７を参照して分かるように、人物Ａは、ヘッドセットタイプのマイク２８を装着し、マイク２８が連結される側（図７では右側頭部）とは反対側（左側頭部）であり、マイク２８を頭部に装着するためのアームにＩＲタグ２４およびＩＲトラッカ２６が設けられる。そして、人物Ａは、たとえば、ＰＣ２２を入れたリュックサックを背負い、ＰＣ２２と、ＩＲトラッカ２６およびマイク２８とは電気的に接続される。
【００７２】
なお、ＩＲタグ２４およびＩＲトラッカ２６を人物の頭部に装着するようにするのは、通常の会話においては、説明者のような話し手は、来訪者のような受け手（受け手）の顔を見ながら発話するためであり、その話し手と受け手とを互いに正確に検出するためである。たとえば、ＩＲタグ２４およびＩＲとラッカ２６を人物の胴体に装着した場合には、話し手が顔だけを受け手に向けて発話している場合には、話し手と受け手とが装着するＩＲタグのＩＤ番号を、互いに正確に検出することができなくなってしまう。
【００７３】
たとえば、図６に示したように、ポスターＰの内容を説明する会場において、説明者Ａが来訪者ＣにポスターＰの内容について説明を行っている、すなわち説明者Ａと来訪者Ｃとの間で会話が進行しているときに、その場に来訪者Ｂが現れ、その後、来訪者Ｂが説明者Ａと来訪者Ｃとの会話（の場）に参与したとする。
【００７４】
この場合における、第三者（人物Ｂ）の会話への参与手続きと人物Ａ，Ｂ，Ｃの参与役割とを、時系列に従って説明することにする。ただし、参与役割は、背景技術で示した会話参与の枠組みをモデルに従って説明することにする。つまり、会話の中核的役割から、「話し手」，「受け手」，「傍参与者」，「傍観者」，「盗み聞き者」の順に左から並んでいる（図１８参照）。
【００７５】
ここで、話し手(speaker)とは、発話している者をいう。ただし、「あー」、「へー」、「そうですか」等の短い応答或いは相槌は発話とみなさないようにしてある。受け手(addressee)とは、話し手に視線を向けられて、話しかけられている者をいう。傍参与者(side participant)とは、話し手によって存在は意識されているが、話しかけられていない者をいう。つまり、自分以外に話しかけられている者が存在する。傍観者(bystander)とは、話し手によって存在を意識されていない者をいう。つまり、話し手の視線が全く向けられていない。盗み聞き者(eavesdropper)とは、話し手、受け手、傍参与者、傍観者に存在を意識されないように、話し手と受け手との会話を勝手に（無断で）聞き取る者をいう。ただし、この実施例のシステム１０が適用されるのは、オブジェクトの内容を説明する会場などであるため、会話はオープンであり、参与役割が盗み聞き者となることはない。
【００７６】
（１）まず、人物Ａすなわち説明者ＡはポスターＰの内容を人物Ｃすなわち来訪者Ｂに説明している。ただし、この時点では、人物Ｂすなわち来訪者Ｂは、説明者Ａと来訪者Ｃとの会話の場に近づいていない。このときの説明者Ａの参与役割は「話し手」であり、来訪者Ｃの参与役割は「受け手」である。また、この時点では、来訪者Ｂは、説明者Ａと来訪者Ｃとの会話の場に近づいていないため、参与役割はない。
【００７７】
（２）次に、来訪者Ｂは、説明者Ａと来訪者Ｃとの会話の場に近づき、当該場に留まる。すると、説明者Ａおよび来訪者Ｃ（既存の参与者）は、来訪者Ｂの存在を意識する。このときの説明者Ａの参与役割は「話し手」であり、来訪者Ｂの参与役割は「傍参与者」であり、来訪者Ｃの参与役割は「受け手」である。
【００７８】
（３）続いて、来訪者Ｂは、説明者Ａに話しかけ始める。すると、説明者Ａおよび来訪者Ｃ（既存の参与者）は、来訪者Ｂに視線を向ける。このときは、説明者Ａ、来訪者Ｂおよび来訪者Ｃの参与役割は遷移（移行）している状態となる。
【００７９】
（４）そして、来訪者Ｂが説明者Ａに対して話す（発話する）。このとき、来訪者Ｂの視線は説明者Ａに向けられるため、説明者Ａの参与役割は「受け手」であり、来訪者Ｂの参与役割は「話し手」である。また、このとき、来訪者Ｂの視線は来訪者Ｃには向けられていないが、来訪者Ｃは来訪者Ｂの発話を聞いている状態であるため、来訪者Ｃの参与役割は「傍参与者」である。
【００８０】
このように、来訪者Ｂの会話への参与手続きが行われる。したがって、この実施例では、会話の外にいた人物（目標の人物）がどのように会話の中核に参与していくのかを、時系列の変化で分かり易くするために、図８に示すような参与手続きについてのモデルを提案する。
【００８１】
この図８に示すモデルでは、初め会話の外にいた人物（非参与者）が（ＳＴＡＲＴ）、意識的に会話の場（会話場）に近づき、或る一定時間留まり、既存の参与者に存在を意識され始める（１）。つまり、当該人物の参与役割が「傍観者（ＢＹＳ:bystander）」になる（昇格する）。そして、既存の参与者らに確実に存在を意識される。つまり、当該人物は会話へ参与し、その参与役割が「傍参与者(ＳＰＴ:side participant)」に昇格する（２）。当該人物の参与役割がＳＰＴの状態において、現在の話し手が、当該人物に向けて策定（デザイン）し、産出した発話を受け取ると、当該人物の参与役割は「受け手(ＡＤＲ:addressee)」に昇格する（３）。一方、当該人物の参与役割がＳＰＴの状態において、当該人物が意識的に既存の参与者に話しかけると、当該人物の参与役割は「話し手(ＳＰＫ:speaker)」に昇格する（４）。
【００８２】
ただし、図８において、実線の矢印は、当該人物が自ら参与役割を昇格させること（積極的昇格）を意味し、点線の矢印は、当該人物が他の参与者によって参与役割を昇格されること（消極的昇格）を意味する。また、図８において、ＳＰＫとＡＤＲとの間に表記した白抜き矢印は、ＳＰＫとＡＤＲとの間で、参与役割が交替すること（話者交替）を意味する。
【００８３】
また、この図８に示す例では、参与役割がＳＰＴの状態から、ＳＰＫまたはＡＤＲに昇格するようにしてあるが、参与役割がＢＹＳの状態から、ＳＰＫまたはＡＤＲに昇格する場合も有り得る。
【００８４】
ここで、参与役割の動的な変化は、上述したＬｏｏｋファイルとＳｐｅｅｃｈファイルとの少なくとも一方に基づいて認識される。ただし、ちらっと他の人物や対象物が視界に入っただけのように、単に視線が他の人物や対象物に向いているだけで、意識的に当該他の人物や対象物を見ていない場合には、見る（注視）行為（以下、「Ｌｏｏｋ」という場合がある。）から排除するようにしてある。また、同様に、「あ〜」、「うん」など、単に相槌を打つだけのように、他の人物に向けて策定した言葉を産出していない（発していない）場合には、発話行為（以下、「Ｓｐｅｅｃｈ」という場合がある。）から排除するようにしてある。
【００８５】
この実施例では、ＰＣ２２から入力された視線情報および発話情報を、それぞれ閾値処理（図９および図１１の下処理）することにより、或る持続長を持った単位としてまとめるようにしてある。つまり、一定以上の長さが検出される場合のみ、注視行為または発話行為と判断するようにしてある。
【００８６】
次に、閾値処理（下処理）を施したＬｏｏｋファイルとＳｐｅｅｃｈファイルとの少なくとも一方に対して３つのルールを適用し、参与役割のラベルを人物毎に付す。これ以降では、着目する（目標の）来訪者（ターゲット来訪者）に参与役割が付与される場合を例に挙げて、各ルールについて説明することにする。ただし、他の人物は、ターゲット来訪者Ｔｖと同じ場所に存在する人物である。また、これ以降では、或る１箇所におけるターゲット来訪者Ｔｖの参与役割を識別する方法（処理）について述べるが、他の場所においても、それぞれ同様の処理が実行されるのである。
【００８７】
＜ルール１＞
ルール１は、ターゲット来訪者（Ｔａｒｇｅｔｖｉｓｉｔｏｒ）Ｔｖが非参与者（ＮＯＮ−Ｐ）から傍観者（ＢＹＳ）、さらには傍参与者（ＳＰＴ）に、参与役割が変化（昇格）する様子を識別し、各参与役割に対応するラベルを付す処理である。これは、ターゲット来訪者ＴｖについてのＬｏｏｋファイルを参照し、Ｌｏｏｋの持続長によって識別（決定）される。具体的には、ターゲット来訪者ＴｖのＬｏｏｋの持続長が３０秒未満である場合には、参与役割がＮＯＮ−Ｐと識別される。また、Ｌｏｏｋの持続長が３０秒以上６０秒未満である場合には、参与役割がＢＹＳと識別される。さらに、Ｌｏｏｋの持続長が６０秒以上である場合には、参与役割がＳＰＴと識別される。
【００８８】
ただし、このルール１の処理は、他の人物すなわちターゲット来訪者Ｔｖ以外の人物についても、それぞれ実行される。
【００８９】
＜ルール２＞
ルール２は、ターゲット来訪者Ｔｖの受け手（ＡＤＲ）への昇格を決定する処理を実行する。これは、今、話をしている人物（説明の都合上、「人物Ｈ」とする。）がターゲット来訪者Ｔｖを見ているかどうかを、当該人物ＨのＳｐｅｅｃｈファイルとＬｏｏｋファイルとから識別する。具体的には、人物ＨのＳｐｅｅｃｈの持続期間（人物Ｈの参与役割が話し手と識別される期間）に、当該人物Ｈがターゲット来訪者ＴｖへのＬｏｏｋを開始している場合に、当該ターゲット来訪者Ｔｖの参与役割をＡＤＲと識別する。そして、ターゲット来訪者Ｔｖの参与役割がＡＤＲである期間は人物Ｈが当該ターゲット来訪者Ｔｖを視野内に捉え始めてから捉え終わるまでの間（注視期間）に決定される。
【００９０】
ただし、このルール２の処理は、参与役割がＳＰＫであると識別された人物であり、ターゲット来訪者Ｔｖ以外の人物についてそれぞれ実行される。
【００９１】
＜ルール３＞
ルール３は、ターゲット来訪者Ｔｖの話し手（ＳＰＫ）への昇格を決定する処理を実行する。これは、ターゲット来訪者Ｔｖが発話していることを示す。具体的には、ルール１の処理によって、参与役割がＢＹＳまたはＳＰＴと判断されたターゲット来訪者ＴｖのＳｐｅｅｃｈファイルを参照し、Ｓｐｅｅｃｈを開始している場合に、当該ターゲット来訪者Ｔｖの参与役割をＳＰＫと識別する。そして、ターゲット来訪者Ｔｖの参与役割がＳＰＫである期間は、Ｓｐｅｅｃｈの開始から終了までの間（発話期間）を、当該ターゲットＴｖの参与役割をＳＰＫに識別する。
【００９２】
ただし、他の人物と発話期間が重複する場合があるため、後で詳細に説明するように、ターゲット来訪者Ｔｖの参与役割がＳＰＫである期間を調整するようにしてある。
【００９３】
また、このルール３の処理は、ターゲット来訪者Ｔｖのみならず、ルール１の処理によって、参与役割がＢＹＳまたはＳＰＴと判断された他の人物についても実行される。
【００９４】
なお、上述したように、ルール２では、人物Ｈが発話しているときに、ターゲット来訪者Ｔｖを見ているかどうかを判断するようにしてあるため、サーバ１２の処理においては、ルール３の処理を実行して、ターゲット来訪者Ｔｖを含む人物のＳＰＫへの昇格の識別およびＳＰＫの期間を決定（識別）した後に、ルール２の処理を実行して、ターゲット来訪者Ｔｖの参与役割がＡＤＲとなるかどうかを識別するようにしてある。
【００９５】
上述したような動作（会話参与役割の識別）を、図１に示したサーバ１２が、図９以降に示すフロー図に従って処理する。図９はＬｏｏｋファイルの下処理を示すフロー図である。この図９を参照して、サーバ１２は、Ｌｏｏｋファイルの読み取りを開始し、Ｌｏｏｋファイルの下処理を開始すると、ステップＳ１で、着目するセグメントの直前のセグメントのｅｎｄからｔ１秒（この実施例では、１０秒）以内に、着目するセグメントのｓｔａｒｔが現れるかどうかを判断する。ここで、セグメントは、注視開始から注視終了までの期間（注視期間）を意味し、この実施例では、注視開始時刻と注視終了時刻との組に相当する。つまり、連続する２つのセグメントのうち、先（時間的に前）のセグメントのｅｎｄ（注視終了時刻）から次（時間的に後）のセグメントのｓｔａｒｔ（注視開始時刻）までの間が１０秒以内であるかどうかを判断する。
【００９６】
具体的に説明すると、図１０（Ａ）に示すように、サーバ１２がＬｏｏｋファイルの読み取りを開始した時刻が時点ｘ１である場合には、着目するのはセグメントｎ＋１であり、直前のセグメントｎのｅｎｄと着目するセグメントｎ＋１のｓｔａｒｔとに基づいて、ステップＳ１の判断処理が実行される。また、図１０（Ａ）に示すように、サーバ１２がＬｏｏｋファイルの読み取りを開始した時刻が時点ｘ２である場合には、着目するのはセグメントｎ＋２であり、直前のセグメントｎ＋１のｅｎｄと着目するセグメントｎ＋２のｓｔａｒｔとに基づいて、ステップＳ１の判断処理が実行される。
【００９７】
図９に戻って、ステップＳ１で“ＮＯ”であれば、つまり直前のセグメントのｅｎｄから１０秒以内に、着目するセグメントのｓｔａｒｔが現れない場合には、ステップＳ３で、直前のセグメントのｅｎｄにｌｏｏｋ＿ｅｎｄをラベルして、ステップＳ１５に進む。ただし、Ｌｏｏｋファイルの下処理を初めて実行する場合には、ステップＳ３の処理は実行されず、そのままステップＳ１５に進む。これは、対応するｌｏｏｋ＿ｓｔａｒｔのラベルが存在しないためである。したがって、Ｌｏｏｋファイルの下処理を初めて実行する場合には、ステップＳ１の判断処理が２回目以降で、ステップＳ３の処理は有効になる。
【００９８】
なお、ｌｏｏｋ＿ｓｔａｒｔおよびｌｏｏｋ＿ｅｎｄのラベル（以下に説明するラベルも同様。）は、図４に示したＬｏｏｋファイルのおいて、注視開始時刻および注視終了時刻が記述される右側に付すようにしてある。
【００９９】
一方、ステップＳ１で“ＹＥＳ”であれば、つまり直前のセグメントのｅｎｄから１０秒以内に、着目するセグメントのｓｔａｒｔが現れる場合には、ステップＳ５で、着目するセグメントのｓｔａｒｔからｔ２秒（この実施例では、１０秒）以内に、着目するセグメントのｅｎｄが現れないかどうかを判断する。
【０１００】
ここで、着目するセグメントのｓｔａｒｔから１０秒以内に、着目するセグメントのｅｎｄが現れない場合には、ステップＳ５で“ＹＥＳ”となり、ステップＳ７で、着目するセグメントのｓｔａｒｔにｌｏｏｋ＿ｓｔａｒｔをラベルし、ステップＳ９で、次のセグメントが有るかどうかを判断する。これは、１分毎にウェアラブルユニット２０から視線情報が送られてくるためである。ステップＳ９で“ＹＥＳ”であれば、つまり次のセグメントが有れば、当該次のセグメントを着目するセグメントとして、ステップＳ１に戻る。一方、ステップＳ９で“ＮＯ”であれば、つまり次のセグメントが無ければ、ステップＳ１１で、着目するセグメントのｅｎｄにｌｏｏｋ＿ｅｎｄをラベルして、Ｌｏｏｋファイルの下処理を終了する。
【０１０１】
また、ステップＳ５で“ＮＯ”であれば、つまり着目するセグメントのｓｔａｒｔから１０秒以内に、着目するセグメントのｅｎｄが現れる場合には、ステップＳ１３で、直前のセグメントのｅｎｄにｌｏｏｋ＿ｅｎｄをラベルして、ステップＳ１５に進む。ただし、初めてＬｏｏｋファイルの下処理を実行する場合には、ステップＳ１３の処理は実行されず、そのままステップＳ１５に進む。これは、ステップＳ３の場合と同じ理由である。
【０１０２】
具体的に説明すると、図１０（Ｂ）に示すように、着目するセグメントｎ＋２において、そのｓｔａｒｔからｅｎｄまでの期間がｔ２秒（１０秒）未満である場合には、直前のセグメントｎ＋１のｅｎｄに、ｌｏｏｋ＿ｅｎｄをラベルする。したがって、着目するセグメントｎ＋２では、そのｓｔａｒｔおよびｅｎｄに対してラベルが付されることがない。つまり、或る程度の持続長を有するセグメントのみに、ｌｏｏｋ＿ｓｔａｒｔおよびｌｏｏｋ＿ｅｎｄのラベルが付されるのである。
【０１０３】
ステップＳ１５では、次のセグメントがあるかどうかを判断する。ステップＳ１５で“ＹＥＳ”であれば、つまり次のセグメントが有る場合には、当該次のセグメントを着目するセグメントとして、ステップＳ１に戻る。一方、ステップＳ１５で“ＮＯ”であれば、つまり次のセグメントが無い場合には、そのままＬｏｏｋファイルの下処理を終了する。
【０１０４】
このようにして、Ｌｏｏｋファイルの注視開始時刻（ｓｔａｒｔ）と注視終了時刻（ｅｎｄ）との間隔が１０秒以上である場合に、注視行為（Ｌｏｏｋ）と認められ、ｌｏｏｋ＿ｓｔａｒｔおよびｌｏｏｋ＿ｅｎｄがラベルされ、その後の処理（ルール１−ルール３）に利用される。逆に、注視行為（Ｌｏｏｋ）と認められないセグメントは、排除されるのである。
【０１０５】
図１１はＳｐｅｅｃｈファイルの下処理を示すフロー図である。このＳｐｅｅｃｈファイルの下処理は、Ｌｏｏｋファイルの下処理と同様の処理であるため、重複する内容については簡単に説明する。図１１を参照して、サーバ１２がＳｐｅｅｃｈファイルの下処理を開始すると、ステップＳ２１で、着目するセグメントの直前のセグメントについてのｅｎｄ（発話終了時刻）からｔ３秒（この実施例では、１秒）以内に、着目するセグメントのｓｔａｒｔ（発話開始時刻）が現れるかどうかを判断する。
【０１０６】
なお、着目するセグメントについては、Ｌｏｏｋファイルの下処理において、図１０（Ａ）を用いて説明した場合と同様である。
【０１０７】
ステップＳ２１で“ＮＯ”であれば、つまり直前のセグメントのｅｎｄから１秒以内に、着目するセグメントのｓｔａｒｔが現れない場合には、ステップＳ２３で、直前のセグメントのｅｎｄにｓｐｅｅｃｈ＿ｅｎｄをラベルして、ステップＳ３５に進む。ただし、Ｌｏｏｋファイルの下処理（図９）と同様に、Ｓｐｅｅｃｈファイルの下処理を初めて実行する場合には、ステップＳ２３の処理は実行されず、そのままステップＳ３５に進む。つまり、ステップＳ２３の処理は、Ｌｏｏｋファイルの下処理を初めて実行する場合には、ステップＳ２１の判断処理が２回目以降で有効になる。
【０１０８】
一方、ステップＳ２１で“ＹＥＳ”であれば、つまり直前のセグメントのｅｎｄから１秒以内に、着目するセグメントのｓｔａｒｔが現れる場合には、ステップＳ２５で、着目するセグメントのｓｔａｒｔからｔ４秒（この実施例では、１秒）以内に、着目するセグメントのｅｎｄが現れないかどうかを判断する。
【０１０９】
ここで、着目するセグメントのｓｔａｒｔから１秒以内に、着目するセグメントのｅｎｄが現れない場合には、ステップＳ２５で“ＹＥＳ”となり、ステップＳ２７で、着目するセグメントのｓｔａｒｔにｓｐｅｅｃｈ＿ｓｔａｒｔをラベルし、ステップＳ２９で、次のセグメントが有るかどうかを判断する。ステップＳ２９で“ＹＥＳ”であれば、当該次のセグメントを着目するセグメントとして、ステップＳ２１に戻る。一方、ステップＳ２９で“ＮＯ”であれば、ステップＳ３１で、着目するセグメントのｅｎｄにｓｐｅｅｃｈ＿ｅｎｄをラベルして、Ｓｐｅｅｃｈファイルの下処理を終了する。
【０１１０】
また、ステップＳ２５で“ＮＯ”であれば、つまり着目するセグメントのｓｔａｒｔから１秒以内に、着目するセグメントのｅｎｄが現れる場合には、ステップＳ３３で、直前のセグメントのｅｎｄにｓｐｅｅｃｈ＿ｅｎｄをラベルし、ステップＳ３５に進む。ただし、ステップＳ３３の処理は、上述のステップＳ２３の処理と同様に、Ｓｐｅｅｃｈファイルの下処理を初めて実行する場合には、ステップＳ３３の処理は実行されない。つまり、ステップＳ３３の判断処理は、Ｓｐｅｅｃｈファイルの下処理を初めて実行する場合には、ステップＳ２５の処理が２回目以降で有効になる。
【０１１１】
ステップＳ３５では、次のセグメントが有るかどうかを判断する。ステップＳ３５で“ＹＥＳ”であれば、当該次のセグメントを着目するセグメントとして、ステップＳ２１に戻る。一方、ステップＳ３５で“ＮＯ”であれば、そのままＳｐｅｅｃｈファイルの下処理を終了する。
【０１１２】
このＳｐｅｅｃｈファイルの下処理においても、或る程度の持続長を有するセグメントにのみ、ｓｐｅｅｃｈ＿ｓｔａｒｔおよびｓｐｅｅｃｈ＿ｅｎｄのラベルが付され、以降の処理（ルール２，ルール３）において利用される。したがって、発話行為（Ｓｐｅｅｃｈ）とみなされないセグメント（不要なデータ）は排除される。
【０１１３】
なお、図９に示したＬｏｏｋファイルの下処理および図１１に示したＳｐｅｅｃｈファイルの下処理は、ウェアラブルユニット２０を装着しているすべての人物（説明者および来訪者）のＬｏｏｋファイルおよびＳｐｅｅｃｈファイルについて実行される。
【０１１４】
図１２および図１３はルール１の処理を示すフロー図である。ここで、ルール１は、上述したように、非参与者（ＮＯＮ−Ｐ）から傍観者（ＢＹＳ）、さらには、傍参与者（ＳＰＴ）までの昇格（遷移）を決定（識別）するためのルールである。これは、上述したように、来訪者が会場のポスター等のオブジェクトを見ている時間によって決定される。つまり、Ｌｏｏｋの持続長（持続時間）によって決定されるのである。
【０１１５】
ただし、ルール１の処理は、オブジェクトすなわち会場（会話の場）毎に実行される。ここでは、簡単のため、或る１の会話の場についての処理を説明することにする。なお、いずれの会場に存在するかは、Ｌｏｏｋファイルの検出ＩＤ番号で識別することが可能である。
【０１１６】
また、上述したように、ＬｏｏｋファイルおよびＳｐｅｅｃｈファイルの下処理は１分毎に実行されるため、このルール１の処理も同様に、１分毎に実行することができる。
【０１１７】
具体的には、図１２に示すように、サーバ１２はルール１の処理を開始すると、ステップＳ４１で、ｓｉｄｅ−ｐ継続フラグがオンであるかどうかを判断する。ここで、ｓｉｄｅ−ｐ継続フラグは、後述するように、ｓｉｄｅ−ｐ＿ｓｔａｒｔのラベルが付されたが、ｓｉｄｅ−ｐ＿ｅｎｄのラベルが付されていない状態、すなわち来訪者の参与役割がＳＰＴである状態が継続していることを示すフラグである。図示は省略するが、このｓｉｄｅ−ｐ継続フラグは、サーバ１２の図示しないＲＡＭの作業領域に記憶され、たとえば、１ビットのレジスタで構成される。また、ｓｉｄｅ−ｐ継続フラグがオン（成立）であれば、レジスタにデータ値「１」が設定され、逆に、ｓｉｄｅ−ｐ継続フラグがオフ（不成立）であれば、レジスタにデータ値「０」が設定される。
【０１１８】
ステップＳ４１で“ＹＥＳ”であれば、つまりｓｉｄｅ−ｐ継続フラグがオンであれば、図１３に示すステップ６３に進む。一方、ステップＳ４１で“ＮＯ”であれば、つまりｓｉｄｅ−ｐ継続フラグがオフであれば、ステップＳ４３で、ｌｏｏｋ＿ｓｔａｒｔラベルからｌｏｏｋ＿ｅｎｄが出現するまでの時間がｔ５秒（この実施例では、３０秒）を経過するかどうかを判断する。つまり、Ｌｏｏｋの持続長が３０秒以上であるかどうかを判断する。ステップＳ４３で“ＮＯ”であれば、つまり持続長が３０秒以上でなければ、ステップＳ４５で、ｌｏｏｋ＿ｓｔａｒｔに、ｎｏｎ−ｐ＿ｓｔａｒｔをラベルして、ステップＳ５３に進む。
【０１１９】
なお、このルール１の処理では、Ｌｏｏｋファイルにおいて、ｌｏｏｋ＿ｓｔａｒｔおよびｌｏｏｋ＿ｅｎｄのラベルの右側に、ｎｏｎ−ｐ＿ｓｔａｒｔ等のラベルが付される。
【０１２０】
また、ｎｏｎ−ｐ＿ｓｔａｒｔからｎｏｎ−ｐ＿ｅｎｄまでの期間が、参与役割がＮＯＮ−Ｐである期間であり、ｂｙｓ＿ｓｔａｒｔからｂｙｓ＿ｅｎｄまでの期間が、参与役割がＢＹＳである期間であり、そして、ｓｉｄｅ−ｐ＿ｓｔａｒｔからｓｉｄｅ−ｐ＿ｅｎｄまでの期間が、参与役割がＳＰＴである期間である。
【０１２１】
一方、ステップＳ４３で“ＹＥＳ”であれば、つまりＬｏｏｋの持続長が３０秒以上であれば、ステップＳ４７で、ｌｏｏｋ＿ｓｔａｒｔにｎｏｎ−ｐ＿ｅｎｄおよびｂｙｓ＿ｓｔａｒｔをラベルし、ステップＳ４９で、当該ｌｏｏｋ＿ｓｔａｒｔラベルからｌｏｏｋ＿ｅｎｄが出現するまでの時間がｔ６秒（この実施例では、６０秒）経過するかどうかを判断する。つまり、Ｌｏｏｋの持続長が６０秒以上であるかどうかを判断する。ステップＳ４９で“ＮＯ”であれば、つまりＬｏｏｋの持続長が３０秒以上６０秒未満である場合には、ステップＳ５１で、ｌｏｏｋ＿ｅｎｄに、ｂｙｓ＿ｅｎｄおよびｎｏｎ−ｐ＿ｓｔａｒｔをラベルし、ステップＳ５３に進む。
【０１２２】
ステップＳ５３では、次のｌｏｏｋ＿ｓｔａｒｔラベルがあるかどうかを判断する。ステップＳ５３で“ＹＥＳ”であれば、つまり次のｌｏｏｋ＿ｓｔａｒｔラベルが有れば、ステップＳ４３に戻って、次のｌｏｏｋ＿ｓｔａｒｔとｌｏｏｋ＿ｅｎｄとについての識別およびラベリングを行う。一方、ステップＳ５３で“ＮＯ”であれば、つまり次のｌｏｏｋ＿ｓｔａｒｔラベルが無ければ、図１３に示すように、そのままルール１の処理を終了する。
【０１２３】
また、ステップＳ４９で“ＹＥＳ”であれば、つまりＬｏｏｋの持続長が６０秒以上である場合には、ステップＳ５５で、ｔ６秒（６０秒）経過点に、ｂｙｓ＿ｅｎｄおよびｓｉｄｅ−ｐ＿ｓｔａｒｔをラベルし、ステップＳ５７に進む。このルール１の処理では、Ｌｏｏｋ＿ｓｔａｒｔラベルが検出されてから３０秒経過点を、ＮＯＮ−ＰからＢＹＳへの昇格点、６０秒経過点を、ＢＹＳからＳＰＴへの昇格点と定義しているため、ステップＳ５５では、６０秒経過点に、ｂｙｓ＿ｅｎｄおよびｓｉｄｅ−ｐ＿ｓｔａｒｔをラベルするようにしてある。ただし、上述したように、Ｌｏｏｋファイルでは、ｌｏｏｋ＿ｓｔａｒｔおよびｌｏｏｋ＿ｅｎｄのラベルが時間とともに記述されているだけであるため、実際には、ｂｙｓ＿ｅｎｄおよびｓｉｄｅ−ｐ＿ｓｔａｒｔのラベルは、着目するｌｏｏｋ＿ｓｔａｒｔとｌｏｏｋ＿ｅｎｄとの間に付されることになる。
【０１２４】
ステップＳ５７では、ｓｉｄｅ−ｐ継続フラグをオンし、図１３に示すステップＳ５９で、ｓｉｄｅ−ｐ継続フラグがオンかどうかを判断する。ここで、“ＹＥＳ”であれば、そのままルール１の処理を終了する。しかし、“ＮＯ”であれば、ステップＳ６１で、着目するＬｏｏｋ＿ｅｎｄに、ｓｉｄｅ＿ｅｎｄをラベルして、ルール１の処理を終了する。ここで、Ｌｏｏｋファイルに含まれるすべてのＬｏｏｋ期間（現会話の場についてのすべてのｌｏｏｋ＿ｓｔａｒｔとｌｏｏｋ＿ｅｎｄとの組）についてルール１の処理が終了したかどうかを判断する。つまり、参与役割がＳＰＴとなった後では、現在の会話の場から立ち去るまでは、最低でもＳＰＴが維持され、時間帯によっては、ＳＰＫに昇格（遷移）し、または、ＡＤＲに昇格（遷移）する。したがって、次回以降のルール１の処理において、ステップＳ４１，Ｓ６３およびＳ６５の処理を実行して、ＳＰＴの期間を正確に判断するようにしてある。
【０１２５】
上述したように、ステップＳ４１で“ＹＥＳ”であれば、ステップＳ６３で、ｔ７秒（この実施例では、６０秒）間に、次のｌｏｏｋ＿ｓｔａｒｔがあるかどうかを判断する。つまり、参与役割がＳＰＴである期間が継続しているかどうかを判断する。ステップＳ６３で“ＹＥＳ”であれば、つまり６０秒間に次のｌｏｏｋ＿ｓｔａｒｔのラベルが有る場合には、ＳＰＴの期間が継続していると判断して、そのままルール１の処理を終了する。しかし、ステップＳ６３で“ＮＯ”であれば、つまり６０秒間に次のＬｏｏｋ＿ｓｔａｒｔのラベルが無い場合には、ステップＳ６５で、ｓｉｄｅ−ｐ継続フラグをオフして、ステップＳ６１で、着目するＬｏｏｋ＿ｅｎｄに、ｓｉｄｅ−ｐ＿ｅｎｄをラベルして、ルール１の処理を終了する。
【０１２６】
なお、ステップＳ６１で、着目するｌｏｏｋ＿ｅｎｄは、Ｓ５９で“ＮＯ”と判断された場合には、ステップＳ４９の判断処理において着目したｌｏｏｋ＿ｅｎｄである。ただし、ステップＳ６３で“ＮＯ”と判断された場合には、前回のルール１の処理を実行したときに、ステップＳ６３の判断処理において着目したｌｏｏｋ＿ｓｔａｒｔに対応するｌｏｏｋ＿ｅｎｄが、着目するｌｏｏｋ＿ｅｎｄである。
【０１２７】
上述したように、このルール１の処理は、Ｌｏｏｋファイルの下処理およびＳｐｅｅｃｈファイルの下処理と同様に、１分毎に実行することができ、したがって、ターゲット来訪者Ｔｖが非参与者から傍観者に、さらには傍参与者に昇格する様子を時系列に従って識別することができるのである。
【０１２８】
なお、ルール１の処理を１分毎に実行するようにしてあるが、ｔ５秒やｔ６秒を正確に判断するために、ステップＳ４３やステップＳ４９において、ｌｏｏｋ＿ｓｔａｒｔに対応するｌｏｏｋ＿ｅｎｄが出現していない場合には、当該ｌｏｏｋ＿ｅｎｄが出現するのを待機するようにしてある。ただし、長時間待機すると、処理遅延が発生してしまうため、待機時間は所定時間（たとえば、３０秒）としてある。
【０１２９】
図１４はルール３の処理を示すフロー図である。このルール３の処理は、話し手（ＳＰＫ）への昇格を識別するための処理である。したがって、ルール３の処理は、ルール１の処理で、参与役割がＢＹＳまたはＳＰＴと判断された人物について、実行される。これは、非参与者（Ｎ〇Ｎ−Ｐ）がいきなり話し手（ＳＰＫ）となることが希だからである。上述したように、ターゲット来訪者ＴｖのＳｐｅｅｃｈファイルに基づいて、その参与役割がＳＰＫに昇格したかどうかを判断（識別）する。簡単に説明すると、ターゲット来訪者ＴｖのＬｏｏｋファイルにおいて、ｂｙｓ＿ｓｔａｒｔおよびｂｙｓ＿ｅｎｄのラベル、または、ｓｐｔ＿ｓｔａｒｔおよびｓｐｔ＿ｅｎｄのラベルが付された時刻以降に、当該ターゲット来訪者ＴｖのＳｐｅｅｃｈファイルにおいて、ｓｐｅｅｃｈ＿ｓｔａｒｔおよびｓｐｅｅｃｈ＿ｅｎｄのラベルが付された発話期間が存在する場合に、参与役割がＳＰＫに昇格（遷移）したと識別する。ただし、他の人物（説明者や他の来訪者）がＳＰＫとなる場合があるため、ＳＰＫとなる期間が重ならないように、調整してある。
【０１３０】
つまり、図１５（Ａ）に示すように、ターゲット来訪者Ｔｖの発話期間（Ｓ−Ｅ）が他の人物の発話期間と重ならない場合には、ターゲット来訪者Ｔｖの発話期間がそのままＳＰＫの期間と判断される。また、図１５（Ｂ）に示すように、ターゲット来訪者Ｔｖの発話期間に他の人物の発話期間が含まれる場合には、他の人物の発話期間が短いためターゲット来訪者Ｔｖの発話に対する同意や否定の言葉（相槌よりは長い言葉）を発しただけと判断し、この場合にも、ターゲット来訪者Ｔｖの発話期間がそのままＳＰＫの期間と判断される。ただし、図１５（Ｃ）に示すように、ターゲット来訪者Ｔｖの発話期間と他の人物の発話期間とが一部重複するように、全体としてずれている場合には、ターゲット来訪者ＴｖのＳＰＫの期間を当該他の人物との間で調整する必要がある。これは、或る時間帯（共事態）では、参与役割がＳＰＫとなる人物は１人だからである。したがって、この実施例では、図１５（Ｃ）に示すように、ターゲット来訪者ＴｖのＳＰＫの期間は、当該ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｓｔａｒｔから他の人物のｓｐｅｅｃｈ＿ｓｔａｒｔに対応する時刻までと判断するようにしてある。
【０１３１】
なお、上述したように、ルール３の処理は、Ｓｐｅｅｃｈファイルのうち、ルール１の処理において、参与役割がＢＹＳまたはＳＰＴと判断された後の発話期間に基づいて実行される。
【０１３２】
具体的には、図１４に示すように、サーバ１２がルール３の処理を開始すると、ステップＳ７１で、ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｓｔａｒｔが来るかどうかを判断する。ステップＳ７１で“ＮＯ”であれば、つまりターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｓｔａｒｔが来ない場合には、発話期間が存在しない、すなわち参与役割がＳＰＫに昇格していないと判断し、そのままルール３の処理を終了する。一方、ステップＳ７１で“ＹＥＳ”であれば、つまりターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｓｔａｒｔが来る場合には、ステップＳ７３で、ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｓｔａｒｔにｓｐｋ＿ｓｔａｒｔをラベルする。
【０１３３】
なお、ｓｐｋ＿ｓｔａｒｔからｓｐｋ＿ｅｎｄまでの期間が、ターゲット来訪者Ｔｖの参与役割がＳＰＫである期間である。
【０１３４】
続くステップＳ７５では、ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｓｔａｒｔの後ろであり、かつ当該ｓｐｅｅｃｈ＿ｓｔａｒｔ対応する（発話期間を規定する）ｓｐｅｅｃｈ＿ｅｎｄの前に、他の人物のｓｐｅｅｃｈ＿ｓｔａｒｔがあるかどうかを判断する。ここで、他の人物は、ターゲット来訪者Ｔｖが存在する場所に存在するターゲット来訪者Ｔｖ以外の人物である。したがって、他の人物は複数存在する場合もある。具体的には、同じ時間帯に同じオブジェクトのＩＤ番号を検出している人物が「他の人物」に該当する。ステップＳ７５で“ＮＯ”であれば、つまり、ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｓｔａｒｔの後ろであり、かつ当該ｓｐｅｅｃｈ＿ｓｔａｒｔに対応するｓｐｅｅｃｈ＿ｅｎｄの前に、他の人物のｓｐｅｅｃｈ＿ｓｔａｒｔがない場合には、ターゲット来訪者Ｔｖの発話期間と他の人物の発話期間とが重ならないと判断して、ステップＳ７７で、ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｅｎｄに、ｓｐｋ＿ｅｎｄをラベルする。そして、ステップＳ７９で、ターゲット来訪者ＴｖのＳｐｅｅｃｈファイルにおいて、次のｓｐｅｅｃｈ＿ｓｔａｒｔが来るかどうかを判断する。ステップＳ７９で“ＮＯ”であれば、つまり次のｓｐｅｅｃｈ＿ｓｔａｒｔが来ない場合には、そのままルール３の処理を終了する。一方、ステップＳ７９で“ＹＥＳ”であれば、つまり次のｓｐｅｅｃｈ＿ｓｔａｒｔが来れば、ステップＳ７３に戻って、次の発話期間に基づいてターゲット来訪者ＴｖのＳＰＫの期間を決定する。
【０１３５】
また、一方、ステップＳ７５で“ＹＥＳ”であれば、つまり、ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｓｔａｒｔの後ろであり、かつ当該ｓｐｅｅｃｈ＿ｓｔａｒｔに対応するｓｐｅｅｃｈ＿ｅｎｄの前に、他の人物のｓｐｅｅｃｈ＿ｓｔａｒｔがある場合には、ステップＳ８１で、ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｅｎｄの後ろに、当該他の人物の対応するｓｐｅｅｃｈ＿ｅｎｄがあるかどうかを判断する。
【０１３６】
ただし、ターゲット来訪者Ｔｖが存在する場所には、複数の他の人物が存在する場合があるため、ステップＳ７５で“ＹＥＳ”と判断された場合に、着目する人物は、ｓｐｅｅｃｈ＿ｓｔａｒｔのラベルが来る時刻が最も早い人物に決定される。したがって、ステップＳ８１では、その着目する人物についてのｓｐｅｅｃｈ＿ｓｔａｒｔに対応するｓｐｅｅｃｈ＿ｅｎｄについて判断しているのである。
【０１３７】
ステップＳ８１で“ＮＯ”であれば、つまり、ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｅｎｄの後ろに、当該他の人物のｓｐｅｅｃｈ＿ｅｎｄがない場合には、当該他の人物の発話期間がターゲット来訪者Ｔｖの発話期間に含まれると判断して、ステップＳ７７に進む。一方、ステップＳ８１で“ＹＥＳ”であれば、つまり、ターゲット来訪者Ｔｖのｓｐｅｅｃｈ＿ｅｎｄの後ろに、当該他の人物のｓｐｅｅｃｈ＿ｓｔａｒｔに対応するｓｐｅｅｃｈ＿ｅｎｄがある場合には、ステップＳ８３で、ターゲット来訪者ＴｖのＳｐｅｅｃｈファイルにおいて、当該他の人物のｓｐｅｅｃｈ＿ｓｔａｒｔと同時点（同時刻）に、ｓｐｋ＿ｅｎｄをラベルして、ステップＳ７９に進む。なお、この場合には、当該他の人物のｓｐｅｅｃｈ＿ｓｔａｒｔと同時点のラベルが、ターゲット来訪者ＴｖのＳｐｅｅｃｈファイルには存在しないため、ターゲット来訪者ＴｖのＳｐｅｅｃｈファイルにおいて、着目するｓｐｅｅｃｈ＿ｅｎｄのラベルの右側に、当該他の人物のｓｐｅｅｃｈ＿ｓｔａｒｔと同時点の時刻を記述するとともに、ｓｐｋ＿ｅｎｄがラベルされる。つまり、ステップＳ８３では、ターゲット来訪者ＴｖのＳＰＫとしての期間は、当該ターゲット来訪者Ｔｖの発話期間から、重複する他の人物の発話期間が排除された期間に決定されるのである。
【０１３８】
このように、ルール３の処理を実行することにより、ターゲット来訪者Ｔｖの参与役割がＳＰＫに昇格したか否かが識別されるとともに、ターゲット来訪者Ｔｖの参与役割がＳＰＫである期間が決定される。
【０１３９】
なお、上述したように、このルール３の処理は、ルール１の処理により、参与役割がＢＹＳまたはＳＰＴと判断されたすべての人物について実行される。具体的には、図１４に示すルール３の処理において、各人物をターゲット来訪者Ｔｖに当てはめればよい。
【０１４０】
図１６はルール２の処理を示すフロー図である。このルール２の処理は、上述したように、受け手（ＡＤＲ）への昇格を決定（識別）するための処理である。上述したように、話している人物（説明の便宜上、人物Ｈとする。）、すなわち参与役割がＳＰＫの人物Ｈが見ている人物（ここでは、ターゲット来訪者Ｔｖ）を、当該人物ＨのＳｐｅｅｃｈファイルとＬｏｏｋファイルとから識別する。つまり、人物ＨのＳＰＫの期間に、当該人物Ｈがターゲット来訪者ＴｖへのＬｏｏｋを開始している場合に、ターゲット来訪者Ｔｖの参与役割がＡＤＲに昇格（遷移）したと判断する。また、ターゲット来訪者Ｔｖの参与役割がＡＤＲである期間は、当該人物Ｈが発話開始後に当該ターゲット来訪者Ｔｖを視野内に捉え初めてから捉え終わるまでの期間すなわち注視期間に決定する。したがって、図１７（Ａ）に示すように、人物ＨのＳｐｅｅｃｈファイルにおいて、ｓｐｋ＿ｓｔａｒｔとｓｐｋ＿ｅｎｄとがラベリングされている期間に、図１７（Ｂ）に示すように、ターゲット来訪者Ｔｖに対する人物Ｈのｌｏｏｋ＿ｓｔａｒｔが来る場合には、当該ｌｏｏｋ＿ｓｔａｒｔにａｄｒ＿ｓｔａｒｔ＿Ｔｖがラベリングされ、当該ｌｏｏｋ＿ｓｔａｒｔに対応する（注視期間を規定する）ｌｏｏｋ＿ｅｎｄに、ａｄｒ＿ｅｎｄ＿Ｔｖがラベリングされる。
【０１４１】
なお、この実施例では、ｌｏｏｋ＿ｅｎｄの時点に、ａｄｒ＿ｅｎｄ＿Ｔｖをラベルするようにしてあるが、Ｌｏｏｋファイルにおいて、ｓｐｋ＿ｅｎｄに対応する時点（時刻）に、ａｄｒ＿ｅｎｄ＿Ｔｖをラベルするようにしてもよい。つまり、人物Ｈの参与役割がＳＰＫであると判断される期間と重複する期間のみを、ターゲット来訪者Ｔｖの参与役割がＡＤＲであると判断されるようにしてもよい。
【０１４２】
ただし、このルール２の処理は、ルール３の処理の後に実行され、ルール３の処理を行った人物（ターゲット来訪者Ｔｖを含む。）のうち、参与役割がＳＰＫに昇格したと判断された人物についてのみ実行される。したがって、ルール３の処理により、参与役割がＳＰＫに昇格した人物が複数存在する場合には、その複数の人物の各々について、ルール２の処理が実行されるのである。これにより、ターゲット来訪者Ｔｖの参与役割がＡＤＲに昇格（遷移）するか否かが判断（識別）され、また、参与役割がＡＤＲである期間が決定される。ただし、ルール２の処理は、ルール３の処理と同様に、ＳｐｅｅｃｈファイルおよびＬｏｏｋファイルのうち、ルール１の処理において、参与役割がＢＹＳまたはＳＰＴと判断された後の発話期間および注視期間に基づいて実行される。
【０１４３】
具体的には、図１６に示すように、サーバ１２がルール２の処理を開始すると、ステップＳ９１で、人物Ｈのｓｐｅｅｃｈ＿ｓｔａｒｔの後ろに、人物Ｈのターゲット来訪者Ｔｖに対するｌｏｏｋ＿ｓｔａｒｔが来るかどうかを判断する。ステップＳ９１で“ＮＯ”であれば、つまり人物Ｈのｓｐｅｅｃｈ＿ｓｔａｒｔの後ろに、人物Ｈのターゲット来訪者Ｔｖに対する、ｌｏｏｋ＿ｓｔａｒｔが来ない場合には、そのまま同じステップＳ９１に戻る。
【０１４４】
なお、人物Ｈのターゲット来訪者Ｔｖに対するｌｏｏｋ＿ｓｔａｒｔは、Ｌｏｏｋファイルに含まれる検出ＩＤ番号に基づいて判断される。つまり、ステップＳ９１では、ターゲット来訪者Ｔｖについての検出ＩＤ番号が含まれる注視期間のｌｏｏｋ＿ｓｔａｒｔを来るかどうかを判断するのである。
【０１４５】
一方、ステップＳ９１で“ＹＥＳ”であれば、つまりつまり人物Ｈのｓｐｋ＿ｓｔａｒｔの後ろに、人物Ｈのターゲット来訪者Ｔｖに対する、ｌｏｏｋ＿ｓｔａｒｔが来る場合には、ステップＳ９３で、人物ＨのＬｏｏｋファイルにおけるｌｏｏｋ＿ｓｔａｒｔにａｄｒ＿ｓｔａｒｔ＿Ｔｖをラベルする。ここでは（図１６もおいて同じ。）、説明の便宜上、ａｄｒ＿ｓｔａｒｔ＿Ｔｖをラベルするようにしてあるが、このラベルの最後の添え字（Ｔｖ）は、厳密には、ターゲット来訪者Ｔｖの検出ＩＤ番号またはその識別子である。
【０１４６】
なお、ａｄｒ＿ｓｔａｒｔ＿Ｔｖからａｄｒ＿ｅｎｄ＿Ｔｖまでの期間が、ターゲット来訪者Ｔｖの参与役割がＡＤＲである期間である。
【０１４７】
次のステップＳ９５では、人物ＨのＬｏｏｋファイルにおけるｌｏｏｋ＿ｅｎｄ、すなわちａｄｒ＿ｓｔａｒｔ＿Ｔｖがラベルされたｌｏｏｋ＿ｓｔａｒｔに対応するｌｏｏｋ＿ｅｎｄにａｄｒ＿ｅｎｄ＿Ｔｖをラベルする。ただし、上述したように、厳密に言うと、このラベルの最後の添え字（Ｔｖ）は、ターゲット来訪者Ｔｖの検出ＩＤ番号またはその識別子である。そして、ステップＳ９７では、人物ＨのＳｐｅｅｃｈファイルに、次のｓｐｋ＿ｓｔａｒｔがあるかどうかを判断する。ステップＳ９７で“ＹＥＳ”であれば、つまり人物ＨのＳｐｅｅｃｈファイルに、次のｓｐｋ＿ｓｔａｒｔが有る場合には、ステップＳ９１に戻って、次のｓｐｋ＿ｓｔａｒｔからｓｐｋ＿ｅｎｄまで（ＳＰＫの期間）において、ターゲット来訪者ＴｖがＡＤＲとなる期間があるかどうかを識別する。一方、ステップＳ９７で“ＮＯ”であれば、つまり人物ＨのＳｐｅｅｃｈファイルに、次のｓｐｋ＿ｓｔａｒｔが無い場合には、ルール２の処理を終了する。
【０１４８】
このように、ルール２の処理によって、ターゲット来訪者Ｔｖの参与役割がＡＤＲと判断され、その期間が決定される。しかし、ターゲット来訪者Ｔｖの参与役割がＡＤＲであることを示すラベルは、人物ＨのＬｏｏｋファイルに記述されている。したがって、ルール２の処理を実行した後では、人物ＨのＬｏｏｋファイルに記述されたターゲット来訪者Ｔｖの参与役割がＡＤＲであることを示すラベルを、当該ターゲット来訪者Ｔｖのファイル（たとえば、ＳｐｅｅｃｈファイルまたはＬｏｏｋファイル）に記述する必要がある。具体的には、ターゲット来訪者ＴｖのＳｐｅｅｃｈファイルまたはＬｏｏｋファイルに、人物ＨのＬｏｏｋファイルに記述された当該ターゲット来訪者ＴｖのＡＤＲについてのラベル（ａｄｒ−ｓｔａｒｔ，ａｄｒ−ｅｎｄ）を、ラベルに対応する時間とともに記述する。このようにすれば、下処理、ルール１、ルール３およびルール２の処理を終えた、ターゲット来訪者ＴｖのＳｐｅｅｃｈファイルおよびＬｏｏｋファイルを参照することにより、或る会話の場における当該ターゲット来訪者Ｔｖの参与役割の時間変化を知ることができる。つまり、ターゲット来訪者Ｔｖの会話参与手続きを認識することができるのである。
【０１４９】
この実施例によれば、ターゲット来訪者についての時系列に従う参与役割を識別するので、当該ターゲット来訪者の会話参与手続きの動的な変化を認識することができる。つまり、或る人物についての会話への参与手続きの通事態を知ることができる。
【０１５０】
また、このように、或る人物についての会話への参与手続きの通事態を知ることができるため、コミュニケーションロボットを会話の場に参与させる場合には、コミュニケーションロボット自身の現在の参与役割を識別し、参与役割がＢＹＳまたはＳＰＴと識別されるときに、発話させたり、受け手となるように振舞わせたりすることができる。つまり、場の読める振る舞い（コミュニケーション行動）を実行するコミュニケーションロボットを設計することができる。
【０１５１】
なお、この実施例では、ウェアラブルユニットから送信する発話情報に音声データを含むようにしたが、会話参与手続きを認識する場合には、発話開始時刻と発話終了時刻とが分かればよいため、発話情報に音声データを含める必要はない。つまり、発話開始時刻および発話終了時刻のみを送信するようにしてもよい。
【０１５２】
また、この実施例では、或る会話の場に存在する人物を特定するために、オブジェクトに対して設けらたＩＲタグ４０のＩＤ番号を用いるようにしたが、説明会場のような場所では、説明者を特定することは可能であるため、当該説明者のＩＤ番号を用いるようにしてもよい。
【図面の簡単な説明】
【０１５３】
【図１】図１はこの発明の会話参与手続き認識システムの一例を示すブロック図である。
【図２】図２は図１に示すＩＲタグの具体的な構成の一例を示すブロック図である。
【図３】図３は図１に示すＩＲトラッカの具体的な構成の一例を示すブロック図である。
【図４】図４は図１に示すサーバ内のＤＢに蓄積されるＬｏｏｋファイルを示す図解図である。
【図５】図５は図１に示すサーバ内のＤＢに蓄積されるＳｐｅｅｃｈファイルを示す図解図である。
【図６】図６は図１に示す会話参与続き認識システムの設置例を示す図解図である。
【図７】図７は図１に示すウェアラブルユニットの人物への装着例を示す図解図である。
【図８】図８は図１実施例で提案する会話参与モデルを示す図解図である。
【図９】図９は図１に示すサーバのＬｏｏｋファイルの下処理を示すフロー図である。
【図１０】図１０は図９に示すＬｏｏｋファイルの下処理において、着目するセグメントと、ｌｏｏｋ＿ｓｔａｒｔおよびｌｏｏｋ＿ｅｎｄのラベルが付される様子とを説明するための図解図である。
【図１１】図１１は図１に示すサーバのＳｐｅｅｃｈファイルの下処理を示すフロー図である。
【図１２】図１２は図１に示すサーバのルール１の処理の一部を示すフロー図である。
【図１３】図１３は図１２に示す後続するルール１の処理の他の一部を示すフロー図である。
【図１４】図１４は図１に示すサーバのルール３の処理を示すフロー図である。
【図１５】図１５は図１４に示すルール３の処理において目標の人物の参与役割がＳＰＫと識別される期間を説明するための図解図である。
【図１６】図１６は図１に示すサーバのルール２の処理を示すフロー図である。
【図１７】図１７は図１６に示すルール２の処理において目標の人物の参与役割がＡＤＲと識別される期間を説明するための図解図である。
【図１８】図１８は背景技術における会話参与役割のモデルを示す図解図である。
【符号の説明】
【０１５４】
１０ …会話参与手続き認識システム
１２ …サーバ
２０ …ウェアラブルユニット
２２ …ＰＣ
２４，４０ …ＩＲタグ
２６ …ＩＲトラッカ
２８ …マイク
５０ …赤外ＬＥＤ
５２ …駆動回路
６０ …赤外線フィルタ
６４ …ＣＭＯＳイメージセンサ
６６ …画像処理装置

【特許請求の範囲】
【請求項１】
少なくとも２人の人物の間で行われる会話に参与する目標の人物の参与手続きを認識する会話参与手続き認識装置であって、
少なくとも各人物の発話開始時刻と発話終了時刻とを含む発話情報を取得する発話情報取得手段、
前記発話取得手段によって取得された発話情報を前記各人物毎に記憶する発話情報記憶手段、
少なくとも、前記各人物が視線を向けた前記会話の場に存在する対象についての識別情報と、当該対象に視線を向け始めた注視開始時刻および当該対象から視線をそらした注視終了時刻とを含む視線情報を取得する視線情報取得手段、
前記視線情報取得手段によって取得された視線情報を前記各人物毎に記憶する視線情報記憶手段、および
前記発話情報と前記視線情報との少なくとも一方に基づいて、前記目標の人物の前記会話における参与役割を時系列に従って識別する参与役割識別手段を備える、会話参与手続き認識装置。
【請求項２】
前記参与役割は、少なくとも非参与者および傍参与者を含み、
前記参与役割識別手段は、前記目標の人物の前記視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別する第１識別手段を含む、請求項１記載の会話参与手続き認識装置。
【請求項３】
前記第１識別手段は、前記視線情報に含まれる注視開始時刻と注視終了時刻との間が第１所定期間未満であるとき、前記参与役割を非参与者として識別し、前記注視開始時刻と前記注視終了時刻との間が前記第１所定期間よりも長い第２所定期間以上であるとき、前記参与役割を傍参与者として識別する、請求項２記載の会話参与手続き認識装置。
【請求項４】
前記参与役割は、傍観者をさらに含み、
前記第１識別手段は、前記注視開始時刻と前記注視終了時刻との間が第１所定期間以上第２所定期間未満であるとき、前記参与役割を傍観者として識別する、３記載の会話参与手続き認識装置。
【請求項５】
前記参与役割は、話し手をさらに含み、
前記参与役割識別手段は、前記第１識別手段の識別結果が前記傍観者または前記傍参与者を示すとき、前記目標の人物の前記発話情報に基づいて、前記参与役割が話し手に昇格したかどうかを判断する話し手判断手段を含む、請求項４記載の会話参与手続き認識装置。
【請求項６】
前記話し手判断手段は、前記目標の人物の前記発話情報に基づいて、当該目標の人物の前記参与役割が話し手である期間を決定する話し手期間決定手段を含み、
前記話し手期間決定手段は、前記目標の人物の前記発話情報に含まれる第１発話開始時刻と第１発話終了時刻との間に、前記会話の場に存在する他の人物の第２発話開始時刻が存在し、かつ当該他の人物の第２発話終了時刻が前記第１発話終了時刻の後に存在するとき、当該目標の人物の前記参与役割が話し手である期間を前記第１発話開始時刻と前記第２発話開始時刻とで規定される期間に決定する、請求項５記載の会話参与手続き認識装置。
【請求項７】
前記話し手期間決定手段は、前記第１発話開始時刻と前記第１発話終了時刻との間に、前記第２発話開始時刻および前記第２発話終了時刻の両方が含まれるとき、または、前記第１発話開始時刻と前記第１発話終了時刻との間に、前記第２発話開始時刻および前記第２発話終了時刻の両方が含まれないとき、前記目標の人物の前記参与役割が話し手である期間を、前記第１発話開始時刻と前記第１発話終了時刻とで規定される期間に決定する、請求項６記載の会話参与手続き認識装置。
【請求項８】
前記参与役割は、受け手をさらに含み、
前記第１識別手段は、前記会話の場に存在する他の人物の前記視線情報に基づいて、当該他の人物の参与役割が非参与者、傍観者および傍参与者のいずれであるかを識別し、
前記話し手判断手段は、前記第１識別手段によって参与役割が傍観者または傍参与者と識別された前記他の人物の前記発話情報に基づいて、当該他の人物の前記参与役割が話し手に昇格したかどうかを判断し、
前記話し手期間決定手段によって決定される前記他の人物の前記参与役割が話し手である期間において、当該他の人物の前記視線情報に含まれる識別情報が前記目標の人物を示すとき、当該目標の人物の参与役割が受け手に昇格したと判断する受け手判断手段をさらに備える、請求項６または７記載の会話参与手続き認識装置。
【請求項９】
前記受け手判断手段は、前記他の人物の前記参与役割が話し手である期間において、当該他の人物の前記視線情報に含まれる前記識別情報についての注視開始時刻と注視終了時刻とで規定される期間を、当該目標の人物の前記参与役割が受け手である期間に決定する受け手期間決定手段を含む、請求項８記載の会話参与手続き認識装置。
【請求項１０】
請求項１ないし請求項９のいずれかに記載の会話参与手続き認識装置を備える会話参与手続き認識システムであって、
前記発話情報を検出する発話情報検出装置、および
前記視線情報を検出する視線情報検出装置をさらに備え、
前記視線情報検出装置および前記発話情報検出装置は、前記人物に装着可能に設けられ、前記会話参与手続き認識装置に前記発話情報および前記視線情報を送信するようにした、会話参与手続き認識システム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【公開番号】特開２００６−１２７３５３（Ｐ２００６−１２７３５３Ａ）
【公開日】平成１８年５月１８日（２００６．５．１８）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - デジタル計算機一般 (4,503)

【出願番号】特願２００４−３１７６８３（Ｐ２００４−３１７６８３）
【出願日】平成１６年１１月１日（２００４．１１．１）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　２００４年６月１８日　社団法人人工知能学会発行の「第４１回　言語・音声理解と対話処理研究会資料」に発表
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成１６年度独立行政法人情報通信研究機構、研究テーマ「超高速知能ネットワーク社会に向けた新しいインタラクション・メディアの研究開発」に関する委託研究、産業活力再生特別措置法第３０条の適用を受ける特許出願
【出願人】（３９３０３１５８６）株式会社国際電気通信基礎技術研究所 (905)
【Ｆターム（参考）】

[ Back to top ]

会話参与手続き認識装置および会話参与手続き認識システム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

会話参与手続き認識装置および会話参与手続き認識システム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク