会話参与手続き認識装置および会話参与手続き認識システム
【構成】 会話参与手続き認識装置10はサーバ12を含み、サーバ12は、各ウェアラブルユニット20から送信される発話情報と視線情報とに基づいて、ウェアラブルユニット20を装着する人物毎の会話への参与役割を認識する。サーバ12は、或る人物の視線情報に基づいて、当該人物の参与役割が非参与者から傍観者、さらには傍参与者への昇格を識別する。次に、各人物の発話情報から、当該各人物の参与役割が話し手となる期間を識別する。そして、各人物が話し手となる期間における受け手を、発話情報と視線情報とから決定する。
【効果】 時刻毎の参与役割を認識することができるので、或る人物の会話参与手続きについての通事態を知ることができる。
【効果】 時刻毎の参与役割を認識することができるので、或る人物の会話参与手続きについての通事態を知ることができる。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は会話参与手続き認識装置および会話参与手続き認識システムに関し、特にたとえば、2人以上の間で行われる会話に参与する目標の人物の参与手続きを認識する、会話参与手続き認識装置および会話参与手続き認識システムに関する。
【0002】
ここで、会話参与手続きとは、人が会話に参与(参加)し、その場に居る人々と会話し、その場を去るまでの一連の人と人との関わりを意味する。
【背景技術】
【0003】
この種の会話参与手続き認識装置の従来技術は存在しなかった。非特許文献1によれば、3者以上の人物で行われる多人数会話における「聞き手」を、発話を受け取る人物として選ばれている「受け手(addressee)」と、発話を受け取る人物として選ばれていない「傍参与者(side participant)」とに区別している。また、或る会話における参与役割としては、「話し手」、「受け手」および「傍参与者」の順で会話の中核を占めていることが述べられている。
【0004】
非特許文献2は、非特許文献1で紹介されている考えをまとめたものであり、図18に示すように、会話参与の枠組みをモデル化してある。図18を参照して、会話の中核的役割から、「話し手(speaker)」、「受け手(addressee)」、「傍参与者(side participant)」、「傍観者(bystander)」、「盗み聞き者(eavesdropper)」の順に左から並んでいる。少なくとも話し手と受け手との2者が存在すれば、当該2者の間で話者を交替することにより、会話は成立する。ただし、多人数会話では、3番目以降に会話に参与する人物(以下、「第三者」という。)は、会話に参与するかどうかは任意である。つまり、第三者は、会話の成り行きを傍観していることができ、また、積極的に会話の中核に参与することもできる。
【非特許文献1】Goffman, E.「Forms of talk.」University of Pennsylvania Press.1981.
【非特許文献2】Clark, H.H.「Using language.」Cambridge University Press.1996.
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1および非特許文献2では、多人数会話において或る時刻帯を見たときの参与役割を人物毎に判断することはできるが、参与役割の時系列変化を人物毎に知ることはできない。つまり、会話の場に居た複数人の人物がどのように階層的な参与役割を担って会話に参与しているかという共時態を示しているに過ぎず、或る1人の人物が時間に従ってどのように会話に参与していくかという通事態を知ることはできなかった。
【0006】
それゆえに、この発明の主たる目的は、新規な、会話参与手続き認識装置および会話参与手続き認識システムを提供することである。
【0007】
この発明の他の目的は、会話に参与する人物の参与手続きを認識できる、会話参与手続き認識装置および会話参与手続き認識システムを提供することである。
【課題を解決するための手段】
【0008】
請求項1の発明は、少なくとも2人の間で行われる会話に参与する目標の人物の参与手続きを認識する会話参与手続き認識装置であって、少なくとも各人物の発話開始時刻と発話終了時刻とを含む発話情報を取得する発話情報取得手段、発話取得手段によって取得された発話情報を各人物毎に記憶する発話情報記憶手段、少なくとも、各人物が視線を向けた会話の場に存在する対象についての識別情報と、当該対象に視線を向け始めた注視開始時刻および当該対象から視線をそらした注視終了時刻とを含む視線情報を取得する視線情報取得手段、視線情報取得手段によって取得された視線情報を各人物毎に記憶する視線情報記憶手段、および発話情報と視線情報との少なくとも一方に基づいて、目標の人物の会話における参与役割を時系列に従って識別する参与役割識別手段を備える、会話参与手続き認識装置である。
【0009】
請求項1の発明では、会話参与手続き認識装置は、少なくとも2人の間で行われる会話に参与する目標の人物の参与手続きを認識する。発話情報取得手段は、少なくとも、会話の場に存在する各人物の発話開始時刻と発話終了時刻とを含む発話情報を取得し、この発話情報は発話情報記憶手段によって記憶される。また、視線情報取得手段は、少なくとも、各人物が視線を向けた会話の場に存在する対象(他の人物等)の識別情報と、当該対照に視線を向け始めた注視開始時刻および当該対象から視線をそらした注視終了時刻とを含む視線情報を取得し、この視線情報は視線情報記憶手段によって記憶される。参与役割識別手段は、目標の人物の会話における参与役割を時系列に従って識別する。
【0010】
請求項1の発明によれば、発話情報と視線情報の少なくとも一方に基づいて目標の人物の会話における参与役割を時系列に従って識別するので、当該目標の人物の会話参与手続きを認識することができる。つまり、或る目標の人物についての会話役割の通事態を知ることができる。
【0011】
請求項2の発明は請求項1に従属し、参与役割は、少なくとも非参与者および傍参与者を含み、参与役割識別手段は、目標の人物の視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別する第1識別手段を含む。
【0012】
請求項2の発明では、たとえば、参与役割は、少なくとも非参与者および傍参与者を含む。ここで、非参与者とは、会話に参与していない(会話の外にいる)者をいい、厳密には、参与役割には該当しない。傍参与者とは、話し手(発話している者)によって存在は意識されているが、話しかけられていない者をいう。第1識別手段は、目標の人物の視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別する。
【0013】
請求項2の発明によれば、目標の人物の視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別することができる。
【0014】
請求項3の発明は請求項2に従属し、第1識別手段は、視線情報に含まれる注視開始時刻と注視終了時刻との間が第1所定期間未満であるとき、参与役割を非参与者として識別し、注視開始時刻と注視終了時刻との間が第1所定期間よりも長い第2所定期間以上であるとき、参与役割を傍参与者として識別する。
【0015】
請求項3の発明では、第1識別手段は、視線情報に含まれる注視開始時刻と注視終了時刻との間すなわち注視期間が第1所定期間未満であるとき、目標の人物の参与役割を非参与者として識別する。また、注視期間が第1所定期間よりも長い第2所定期間以上であるとき、目標の人物の参与役割を傍参与者として識別する。つまり、会話の場に存在する対象の注視期間すなわち会話の場への滞在期間に応じて、目標の人物の参与役割を非参与者および傍参与者のいずれかに識別するのである。
【0016】
請求項3の発明によれば、目標の人物が会話の場に滞在する期間に応じて、当該目標の人物の参与役割を非参与者および傍参与者のいずれかに識別することができる。
【0017】
請求項4の発明は請求項3に従属し、参与役割は、傍観者をさらに含み、第1識別手段は、注視開始事項と注視終了時刻との間が第1所定期間以上第2所定期間未満であるとき、参与役割を傍観者として識別する。
【0018】
請求項4の発明では、参与役割は、傍観者をさらに含む。ここで、傍観者とは、話し手によって存在を意識されていない者をいう。第1識別手段は、注視開始時刻と注視終了時刻との間が第1所定期間以上第2所定期間未満であるとき、参与役割を傍観者として識別する。参与役割は、非参与者、傍観者、傍参与者の順で遷移する。したがって、第1識別手段による識別処理を、たとえば一定時間毎に実行することにより、目標の人物の参与役割が非参与者から傍観者に遷移(昇格)し、さらに傍観者から傍参与者に昇格することが認識できる。
請求項4の発明によれば、目標の人物が会話の場に滞在する期間に応じて、当該目標の人物の参与役割を非参与者、傍観者および傍参与者のいずれかに識別することができる。
【0019】
請求項5の発明は請求項4に従属し、参与役割は、話し手をさらに含み、参与役割識別手段は、第1識別手段の識別結果が傍観者または傍参与者を示すとき、目標の人物の発話情報に基づいて、参与役割が話し手に昇格したかどうかを判断する話し手判断手段を含む。
【0020】
請求項5の発明では、参与役割は、話し手をさらに含む。話し手とは、上述したように、会話の場において発話している者をいう。話し手判断手段は、第1識別手段の識別結果が傍観者または傍参与者を示すとき、つまり目標の人物の参与役割が傍観者または傍参与者として識別されると、目標の人物の発話情報に基づいて、当該目標の人物の参与役割が話し手に昇格したかどうかを判断する。
【0021】
請求項5の発明によれば、目標の人物の参与役割が傍観者または傍参与者に昇格した後では、当該目標の人物の発話情報に基づいて、当該目標の人物の参与役割が話し手に昇格したかどうかを判断することができる。
【0022】
請求項6の発明は請求項5に従属し、話し手判断手段は、目標の人物の発話情報に基づいて、当該目標の人物の参与役割が話し手である期間を決定する話し手期間決定手段を含み、話し手期間決定手段は、目標の人物の発話情報に含まれる第1発話開始時刻と第1発話終了時刻との間に、会話の場に存在する他の人物の第2発話開始時刻が存在し、かつ当該他の人物の第2発話終了時刻が第1発話終了時刻の後に存在するとき、当該目標の人物の参与役割が話し手である期間を第1発話開始時刻と第2発話開始時刻とで規定される期間に決定する。
【0023】
請求項6の発明では、話し手期間決定手段は、目標の人物の発話情報に基づいて、当該目標の人物が話し手である期間を決定する。具体的には、目標の人物の発話情報に含まれる第1発話開始時刻と第1発話終了時刻との間(発話期間)に、同じ会話の場に存在する他の人物の第2発話開始時刻が存在し、かつ当該他の人物の第2発話終了時刻が第1発話終了時刻の後に存在するとき、当該目標の人物の参与役割が話し手である期間を第1発話開始時刻と第2発話開始時刻とで規定される期間に決定する。
【0024】
請求項6の発明によれば、目標の人物および同じ会話の場に存在する他の人物についての発話期間に基づいて、当該目標の人物の参与役割が話し手である期間を決定することができる。
【0025】
請求項7の発明は請求項6に従属し、話し手期間決定手段は、第1発話開始時刻と第1発話終了時刻との間に、第2発話開始時刻および第2発話終了時刻の両方が含まれるとき、または、第1発話開始時刻と第1発話終了時刻との間に、第2発話開始時刻および第2発話終了時刻の両方が含まれないとき、目標の人物の参与役割が話し手である期間を、第1発話開始時刻と第1発話終了時刻とで規定される期間に決定する。
【0026】
請求項7の発明では、話し手期間決定手段は、第1発話開始時刻と第1発話終了時刻との間に、第2発話開始時刻および第2発話終了時刻の両方が含まれるとき、または、第1発話開始時刻と第1発話終了時刻との間に、第2発話開始時刻および第2発話終了時刻の両方が含まれないとき、目標の人物の参与役割が話し手である期間を、第1発話開始時刻と第1発話終了時刻とで規定される期間に決定する。つまり、目標の人物の発話期間が、他の人物の発話期間を完全に含むとき、または、他の人物の発話期間と重複する部分がないとき、目標の人物の参与役割が話し手である期間を、自身の発話期間に決定するのである。
【0027】
請求項7の発明においても、請求項6の発明と同様に、目標の人物および同じ会話の場に存在する他の人物についての発話期間に基づいて、当該目標の人物の参与役割が話し手である期間を決定することができる。
【0028】
請求項8の発明は請求項6または7に従属し、参与役割は、受け手をさらに含み、第1識別手段は、会話の場に存在する他の人物の視線情報に基づいて、当該他の人物の参与役割が非参与者、傍観者および傍参与者のいずれであるかを識別し、話し手判断手段は、第1識別手段によって参与役割が傍観者または傍参与者と識別された他の人物の発話情報に基づいて、当該他の人物の参与役割が話し手に昇格したかどうかを判断し、話し手期間決定手段によって決定される他の人物の参与役割が話し手である期間において、当該他の人物の視線情報に含まれる識別情報が目標の人物を示すとき、当該目標の人物の参与役割が受け手に昇格したと判断する受け手判断手段をさらに備える。
【0029】
請求項8の発明では、参与役割は、受け手をさらに含む。ここで、受け手とは、話し手に視線を向けられて、話しかけられている者をいう。たとえば、第1識別手段は、会話の場に存在する他の人物の視線情報に基づいて、当該他の人物の参与役割が非参与者、傍観者および傍参与者のいずれであるかを識別する。また、話し手判断手段は、第1識別手段によって参与役割が傍観者または傍参与者と識別された他の人物の発話情報に基づいて、当該他の人物の参与役割が話し手に昇格したかどうかを判断する。受け手判断手段は、話し手期間決定手段によって決定される他の人物の参与役割が話し手である期間において、当該他の人物の視線情報に含まれる識別情報が目標の人物を示すとき、当該目標の人物の参与役割が受け手に昇格(遷移)したと判断する。つまり、話し手と判断された他の人物の視線情報と発話情報とに基づいて、目標の人物の参与役割が受け手であるかどうかが識別される。
【0030】
請求項8の発明によれば、話し手と判断された他の人物の視線情報と発話情報とに基づいて、目標の人物の参与役割が受け手であるかどうかを識別することができる。
【0031】
請求項9の発明は請求項8に従属し、受け手判断手段は、他の人物の参与役割が話し手である期間において、当該他の人物の視線情報に含まれる目標の人物についての識別情報の注視開始時刻と注視終了時刻とで規定される期間を、当該目標の人物の参与役割が受け手である期間に決定する受け手期間決定手段を含む。
【0032】
請求項9の発明では、受け手期間決定手段は、他の人物の参与役割が受け手である期間において、当該他の人物の視線情報に含まれる目標の人物についての識別情報の注視開始時刻と注視終了時刻とで規定される期間を、当該目標の人物の参与役割が受け手である期間に決定する。つまり、話し手である他の人物が、発話しているときに、その視線を目標の人物に向けている期間が、当該目標の人物の参与役割が受け手である期間として決定される。
【0033】
請求項9の発明によれが、請求項8の発明と同様に、話し手と判断された他の人物の視線情報と発話情報とに基づいて、目標の人物の参与役割が受け手であるかどうかを識別することができる。
【0034】
請求項10の発明は、請求項1ないし9のいずれかに記載の会話参与手続き認識装置を備える会話参与手続き認識システムであって、発話情報を検出する発話情報検出装置、および視線情報を検出する視線情報検出装置をさらに備え、視線情報検出装置および発話情報検出装置は、各人物に装着可能に設けられ、会話参与手続き認識装置に発話情報および視線情報を送信するようにした。
【0035】
請求項10の発明では、会話参与手続き認識システムは、上述したような会話参与手続き認識装置を備える。また、このシステムは、発話情報検出装置および視線情報検出装置をさらに備える。発話情報検出装置および視線情報検出装置は、たとえば、人物に装着可能に設けられ、それぞれで検出される発話情報および視線情報を、会話参与手続き認識装置に送信する。したがって、たとえば、会話の場に存在する人物のそれぞれについての発話情報および視線情報が会話参与手続き認識装置に送信される。
【0036】
請求項10の発明によれば、発話情報検出装置および視線情報検出装置を装着した人物についての会話参与手続きを認識することができる。
【0037】
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【発明を実施するための最良の形態】
【0038】
図1を参照して、この実施例の会話参与手続き認識システム(以下、単に「システム」という。)10は、会話参与手続き認識装置として機能するサーバ12を含む。また、システム10は、複数のウェアラブルユニット20,20,20,…を含み、各ウェアラブルユニット20はサーバ12に接続される。図1では省略するが、各ウェアラブルユニット20は、人物(被験者)に装着される(図6,図7参照)。
【0039】
なお、図1では、3つのウェアラブルユニット20を示してあるが、ウェアラブルユニット20は人物の数に対応して設けられる。
【0040】
ウェアラブルユニット20は、パーソナルコンピュータ(PC)22を含み、このPC22がサーバ12に通信可能に接続される。また、ウェアラブルユニット20は、IRタグ24、IRトラッカ26およびマイク28を含み、IRトラッカ26およびマイク28は、PC22に接続される。各ウェアラブルユニット20は、同じ構成であるが、IRタグ24に割り当てられる識別情報(ID番号)が互いに異なる。
【0041】
なお、各PC22は、有線または無線により、直接或いはネットワーク(LAN等)を介してサーバ12に接続される。
【0042】
PC22は、汎用のコンピュータであり、ラップトップ型のPCのような小型のものを用いることができる。IRタグ24(後述するIRタグ40も同様。)は、図2に示すように、赤外LED50および駆動回路52を備える。IRタグ24では、駆動回路52が赤外LED50を点灯制御することにより、自身に割り当てられたID番号についての情報(ID情報)を間欠的に送信(出力)する。
【0043】
具体的には、駆動回路52は、たとえばマイクロコンピュータであり、マンチェスタ符号化方式によりエンコードしたID番号(6bit)およびパリティビットと、スタートビット(1bit)およびエンドビット(2bit)とを含むID情報を、所定の周期(たとえば、200Hz)の点滅により繰り返し送信するように、赤外LED50を点滅させる。たとえば、ID番号が「62」の場合には、ID情報は“01100101010101101111”と表され、このID情報が赤外線信号に変換される。ただし、スタートビットは“01”であり、ID番号は“100101010101”であり、バイナリデータ(偶数“01”,奇数“10”)は“10”であり、エンドビットは“1111”である。
【0044】
なお、駆動回路52すなわちマイクロコンピュータ(マイコン)としては、Atmel社製の4MHz駆動マイコン「AT90S2223(品番)」等を用いることができる。
【0045】
また、各PC22には、同じウェアラブルユニット20に含まれるIRタグ24のID番号が予め記憶(登録)されている。これは、ウェアラブルユニット20またはウェアラブルユニット20を装着している人物をサーバ12で特定するためである。したがって、たとえば、各PC22の識別情報(たとえば、MACアドレスやIPアドレス)に対応してIRタグ24のID番号を記述したテーブルをサーバ12に記憶しておくようにして、通信の際に得られる各PC22の識別情報からIRタグ24のID番号を特定するようにしてもよい。
【0046】
IRトラッカ26は、IRタグ24,40などが送信(発信)する赤外線信号を検出する。図3に示すように、IRトラッカ26は、赤外線フィルタ60を含む。この赤外線フィルタ60は、IRタグ24,40などから送信される赤外線のうち、主として近赤外線のみを透過させ、レンズ62に近赤外線を導く。たとえば、赤外線フィルタ60としては、可視光を遮断(ブロック)し、近赤外光を通過(パス)させる、エドモンド社製の「プラスチックIRパスフィルタ」を用いることができる。
【0047】
レンズ62は、赤外線フィルタ60を透過した近赤外線をCMOSイメージセンサ64に結像させる。この実施例では、レンズ62の画角は90度である。この場合には、比較的近距離で広範囲に位置する赤外線(IRタグ)を容易に検出することができる。つまり、対面で人物が会話する状態であっても、IRタグ24が発信する赤外線信号(ID番号)を検出することができるのである。
【0048】
CMOSイメージセンサ64は、レンズ62によって結像された近赤外線で構成される近赤外線画像を撮影して画像処理装置66に出力する。このCMOSイメージセンサ64としては、三菱電機株式会社製の人工網膜LSI「M64283FP(品番)」等を用いることができ、この場合の解像度は128×128ピクセルである。
【0049】
画像処理装置66は、CMOSイメージセンサ64の読み出し制御およびデータ処理を実行し、CMOSイメージセンサ64によって撮影された近赤外線画像からIRタグを検出し、検出したIRタグの点滅状態からID番号を検出(特定)する。そして、画像処理装置66は、特定したID番号をPC22に出力する。
【0050】
具体的には、まず、画像処理装置66は、CMOSイメージセンサ64等を初期化し、全画面(128×128ピクセル)の近赤外線画像を撮影する。次に画像画像処理装置66は、近赤外線画像の中から所定サイズの光点、たとえば1ピクセルの光点をIRタグとして抽出し、所定サイズより大きな光点を排除する。このように、近赤外線画像の中から所定サイズの光点を検出するという簡便な処理によりIRタグを検出することができるので、画像処理装置66によるIRタグ検出処理を高速化できる。
【0051】
続いて、画像処理装置66は、抽出した光点を中心とする8×8ピクセルの領域を検出領域として決定し、CMOSイメージセンサ64により検出領域を規定回数、たとえば((送信ビット数+スタートビット数+エンドビット数)×2×2)回読込み、読み込んだ近赤外線画像から赤外線タグの点滅状態を検出してID番号を検出するとともに、パリティチェックを行い、読込みデータの識別処理を行う。
【0052】
このように、近赤外線画像から光点を含む検出領域を決定し、この検出領域の近赤外線画像のみを用いてIRタグの点滅状態を検出しているので、処理対象となる近赤外線画像を必要最小限に限定することができ、画像処理装置66によるIRタグ検出処理を高速化することができる。このIRタグ検出処理の高速化により、人物の動きに十分に追従することができ、動き予測等の演算コストの高い処理を省略することができる。ここで、パリティチェックが正しければ、画像処理装置66は、IRタグのID番号を出力し、パリティチェックが正しくなければ、検出領域の読込みを再度行い、上述したIRタグ検出処理を再度行い、検出されたすべての光点に対してIRタグ検出処理を実行する。
【0053】
このようにして、IRタグが装着された(設けられた)人物や対象物に対して一意的に割り当てられたID番号をLEDの点滅により送信し、人物に装着されたIRトラッカにより、人物の視線方向に位置する人物や対象物のID番号を検出し、人物や対象物を識別することができる。
【0054】
そして、PC22は、IRトラッカ26から入力されたID番号(以下、「検出ID番号」ということがある。)と予め記憶してあるIRタグ24のID番号(以下、「割当ID番号」ということがある。)とを、たとえば、一定の時刻間隔(この実施例では、1分間隔)で、サーバ12に送信する。
【0055】
ただし、厳密には、各PC22は、それぞれに接続されるIRトラッカ26からID番号が入力されたときの時刻(開始時刻)とIDトラッカ26から当該ID番号が入力されなくなった時刻(終了時刻)とを、それぞれ、内部タイマ22aから取得し、それらの時刻を2つのID番号とともにサーバ12に送信する。つまり、或る人物の視線が他の人物やオブジェクトに向けられたときの時刻(注視開始時刻)および当該他の人物やオブジェクトから視線がそらされたときの時刻(注視終了時刻)と、当該他の人物やオブジェクトのID番号すなわち検出ID番号とを含む情報(視線情報)に、割当ID番号を付加して、サーバ12に送信する。
【0056】
なお、上述の画像処理装置66としては、Cygnal社製の49MHz駆動マイコン「C8051F124(品番)」を用いることができる。この場合、CMOSイメージセンサ64を115200Hzのクロックで駆動させ、撮像(シャッタ開放)後、1クロック毎に1ピクセルの明るさがアナログ値でシリアル出力さえる。このため、全画素撮影時の最短フレームレートは、数1に示すように算出されるが、128×128ピクセルのうち、8×8ピクセルを検出領域に設定して500Hzのシャッタスピードで撮影した場合には、400Hzのフレームレートを実現することができる。つまり、読み出し速度を高速化することができる。このように、IRタグの点滅周期(200Hz)の2倍のフレームレート(400Hz)で読み込むため、単一の赤外LEDを用いて非同期通信を行うことができる。また、画角90度のレンズ62を使用したときに、2mの距離で、1ピクセルは、2.2cm×2.2cmの範囲に相当する。
【0057】
このように、IRトラッカ26では、主として近赤外線のみで構成された近赤外線画像を用いてIRタグのID番号を検出することができるので、外乱となる可視光領域の波長を有する光による悪影響を受けることがほとんどない。
【0058】
図1に戻って、マイク28は、たとえば単一指向性マイクであり、当該マイク28を装着する人物の音声を収集する。ただし、声帯マイクを用いることもできる。このようなマイク28を用いるのは、ウェアラブルユニット20を装着する人物の音声のみを収集し、周囲(環境)音が入力されるのを防止するためである。マイク28を通して入力される音声は、各々が接続されるPC22に入力され、対応する音声データ(RAWデータ)がPC22の図示しないハードディスク(HD)に記憶される。PC22は、HDに記憶された音声データと予め記憶してあるID番号とを、一定時間(たとえば、1分)毎にサーバ12に送信する。
【0059】
ただし、厳密には、PC22は、それぞれ、マイク28から音声信号の入力が開始されたときの時刻(開始時刻)と、音声信号の入力が終了したときの時刻(終了時刻)とを内部タイマ22aから取得し、つまり、音声入力の開示時刻と終了時刻とを取得し、それらの時刻と音声データとを含む情報(発話情報)に割当ID番号を付加して、一定時間毎にサーバ12に送信する。
【0060】
ここで、PC22は、マイク28から入力される音声信号(音声データ)が所定の閾値(この実施例では、50dB)よりも大きいレベル(パワー)の部分を発話と判断し、50dB以下のパワーの部分を無音(発話なし)と判断するようにしてある。ただし、発話が開始されたかどうかを正確に判断するため、50dBよりも大きいパワーの部分が所定時間T1(この実施例では、50ミリ秒)検出されると、発話が開始されたと判断するようにしてある。また、息継ぎ(ブレス)などの休止(ポーズ)によって発話が終了したと判断しないように、50dB以下のパワーであり、その状態が所定時間T2(たとえば、300ミリ秒)以上継続したときに、発話が終了したと判断するようにしてある。
【0061】
また、システム10は、複数のIRタグ40,40,40,…を含み、これらのIRタグ40,40,40,…は、それぞれ、対象物(この実施例では、ポスターや置物など)に対応して設けられる。なお、図1では、簡単のため、3つのIRタグ40,40,40を示してあるが、実際には対象物の数だけIRタグ40は設けられている。ただし、IRタグ40は、会話の場に存在する、或いは会話の場に参与(参加)しようとする人物が存在する場所を特定するために用いられる。つまり、同じ場所に存在する人物を特定するのである。このため、IRタグ40は、会話が起こり得る、会場、部屋(会議室)、展示(説明会)ブースなどの特定の場所であり、当該場所に存在する人物のウェアラブルユニット20によって認識可能な位置に設けるようにしてもよい。また、IRタグ40は、対象物と特定の場所との両方に設けるようにしてもよい。さらに、特定の場所に、その場所に存在する人物を撮影可能な位置にカメラ(CCDカメラなど)を設けておき、各人物の衣服に異なる図形、記号または模様或いはそれらの組み合わせの異なるマークを付しておき、カメラの撮影画像から人物を特定するようにしてもよい。
【0062】
上述したように、IRタグ40は、IRタグ24と同じ構成であり、赤外線信号を送信する。送信された赤外線信号は、IRトラッカ26で検出される。したがって、IRタグ40に対応する対象物またはその配置位置(以下、「位置情報」という。)をサーバ12内の記憶装置(HD、ROMまたはDB12a)に記憶しておけば、この位置情報とIRトラッカ26の検出ID番号とから、当該IRトラッカ26を備えるウェアラブルユニット20を装着する人物が存在する場所を特定することができる。
【0063】
図4は、サーバ12のDB12aに記憶されるLookファイルの一例を示す図解図である。このLookファイルは、上述したように、ウェアラブルユニット20のPC22から送信される視線情報に従って生成される。この図4を参照して、Lookファイルには、人物(割当ID番号)毎に、検出ID番号と、当該検出ID番号の検出を開始した開始時刻すなわち注視開始時刻および当該ID番号を検出しなくなった終了時刻すなわち注視終了時刻とが、たとえば、時系列に従って記憶される。ただし、図4の上から下に向かうに従って、時間が進行する。また、これ以降では、注視開始時刻と注視終了時刻とで規定される期間を「注視期間」と呼ぶことがある。
【0064】
また、図5は、サーバ12のDB12aに記憶されるSpeechファイルの一例を示す図解図である。Speechファイルは、上述したように、ウェアラブルユニット20のPC22から送信される発話情報に従って生成される。この図5を参照して、Speechファイルには、人物(割当ID番号)毎に、発話開始時刻と発話終了時刻とが、たとえば、時系列に従って記憶される。ただし、図5の上から下に向かうに従って時間が進行する。なお、図示は省略するが、音声データは、DB12aの別の領域に記憶される。また、これ以降では、発話開始時刻と発話終了時刻とで規定される期間を「発話期間」と呼ぶことがある。
【0065】
なお、この実施例では、DB12aをサーバ12の内部に設けるようにしてあるが、DB12aはサーバ12に直接接続するようにしてもよく、LANやインターネットのようなネットワークを介して接続するようにしてもよい。
【0066】
このような構成のシステム10は、たとえば、ポスターや置物(陶器など)のようなオブジェクトの展示会場ないし展示ブースに設置することができる。このような場所では、或るオブジェクトを説明する人物(説明者)と、その説明を聞いたり、説明者との間で質疑応答などの会話をしたりする人物(来訪者)とが存在し、また、そのような会話(の場)に、来訪者が参与(介入)したり、傍観したりする様子を観察することができる。
【0067】
なお、この実施例では、オブジェクトの展示会場にシステム10を設置する場合について説明するが、これに限定される必要はなく、いわゆる井戸端会議、または、ラウンドテーブルを囲んだ自由討論等の打ち合わせのような会話の起こり得る場所に設置することができる。ただし、会話するのは人物のみならず、コミュニケーションロボットであってもよい。
【0068】
図6に示す例は、説明者AがポスターPの内容を説明し、その説明を来訪者Cが聞いている様子、または、説明者Aと来訪者Cとの間で会話が行われている様子を示している。また、来訪者Bは、説明者Aの説明や説明者Aと来訪者Cとの会話を少し離れた場所で傍観している。
【0069】
また、図6に示すように、説明者A、来訪者Bおよび来訪者Cは、それぞれ、図1に示したウェアラブルユニット20を装着している。また、ポスターPはホワイトボードや掲示板等に貼り付けられ、当該ポスターPに対応してIRタグ40がその近傍に設けられる。たとえば、ポスターPに対応するIRタグ40は、ウェアラブルユニット20を装着している人物が当該ポスターP(または説明者A)に視線を向けたときに、当該ウェアラブルユニット20に含まれるIRトラッカ26で検出可能な位置に設けられる。
【0070】
なお、簡単のため、図6では省略するが、図1に示したサーバ12は、上述したように、PC22と通信可能に設置され、たとえば、当該展示物(ポスターP)が設けられる場所(部屋)の近傍に設置されてもよく、また、その場所とは別の場所に設置されてもよい。サーバ12を別の場所に設置する場合には、有線や無線のLANを用いることにより、PC22との間で通信することができる。
【0071】
図7は人物A(B,Cも同じ。)がウェアラブルユニット20を装着している例を示す図解図である。この図7を参照して分かるように、人物Aは、ヘッドセットタイプのマイク28を装着し、マイク28が連結される側(図7では右側頭部)とは反対側(左側頭部)であり、マイク28を頭部に装着するためのアームにIRタグ24およびIRトラッカ26が設けられる。そして、人物Aは、たとえば、PC22を入れたリュックサックを背負い、PC22と、IRトラッカ26およびマイク28とは電気的に接続される。
【0072】
なお、IRタグ24およびIRトラッカ26を人物の頭部に装着するようにするのは、通常の会話においては、説明者のような話し手は、来訪者のような受け手(受け手)の顔を見ながら発話するためであり、その話し手と受け手とを互いに正確に検出するためである。たとえば、IRタグ24およびIRとラッカ26を人物の胴体に装着した場合には、話し手が顔だけを受け手に向けて発話している場合には、話し手と受け手とが装着するIRタグのID番号を、互いに正確に検出することができなくなってしまう。
【0073】
たとえば、図6に示したように、ポスターPの内容を説明する会場において、説明者Aが来訪者CにポスターPの内容について説明を行っている、すなわち説明者Aと来訪者Cとの間で会話が進行しているときに、その場に来訪者Bが現れ、その後、来訪者Bが説明者Aと来訪者Cとの会話(の場)に参与したとする。
【0074】
この場合における、第三者(人物B)の会話への参与手続きと人物A,B,Cの参与役割とを、時系列に従って説明することにする。ただし、参与役割は、背景技術で示した会話参与の枠組みをモデルに従って説明することにする。つまり、会話の中核的役割から、「話し手」,「受け手」,「傍参与者」,「傍観者」,「盗み聞き者」の順に左から並んでいる(図18参照)。
【0075】
ここで、話し手(speaker)とは、発話している者をいう。ただし、「あー」、「へー」、「そうですか」等の短い応答或いは相槌は発話とみなさないようにしてある。受け手(addressee)とは、話し手に視線を向けられて、話しかけられている者をいう。傍参与者(side participant)とは、話し手によって存在は意識されているが、話しかけられていない者をいう。つまり、自分以外に話しかけられている者が存在する。傍観者(bystander)とは、話し手によって存在を意識されていない者をいう。つまり、話し手の視線が全く向けられていない。盗み聞き者(eavesdropper)とは、話し手、受け手、傍参与者、傍観者に存在を意識されないように、話し手と受け手との会話を勝手に(無断で)聞き取る者をいう。ただし、この実施例のシステム10が適用されるのは、オブジェクトの内容を説明する会場などであるため、会話はオープンであり、参与役割が盗み聞き者となることはない。
【0076】
(1)まず、人物Aすなわち説明者AはポスターPの内容を人物Cすなわち来訪者Bに説明している。ただし、この時点では、人物Bすなわち来訪者Bは、説明者Aと来訪者Cとの会話の場に近づいていない。このときの説明者Aの参与役割は「話し手」であり、来訪者Cの参与役割は「受け手」である。また、この時点では、来訪者Bは、説明者Aと来訪者Cとの会話の場に近づいていないため、参与役割はない。
【0077】
(2)次に、来訪者Bは、説明者Aと来訪者Cとの会話の場に近づき、当該場に留まる。すると、説明者Aおよび来訪者C(既存の参与者)は、来訪者Bの存在を意識する。このときの説明者Aの参与役割は「話し手」であり、来訪者Bの参与役割は「傍参与者」であり、来訪者Cの参与役割は「受け手」である。
【0078】
(3)続いて、来訪者Bは、説明者Aに話しかけ始める。すると、説明者Aおよび来訪者C(既存の参与者)は、来訪者Bに視線を向ける。このときは、説明者A、来訪者Bおよび来訪者Cの参与役割は遷移(移行)している状態となる。
【0079】
(4)そして、来訪者Bが説明者Aに対して話す(発話する)。このとき、来訪者Bの視線は説明者Aに向けられるため、説明者Aの参与役割は「受け手」であり、来訪者Bの参与役割は「話し手」である。また、このとき、来訪者Bの視線は来訪者Cには向けられていないが、来訪者Cは来訪者Bの発話を聞いている状態であるため、来訪者Cの参与役割は「傍参与者」である。
【0080】
このように、来訪者Bの会話への参与手続きが行われる。したがって、この実施例では、会話の外にいた人物(目標の人物)がどのように会話の中核に参与していくのかを、時系列の変化で分かり易くするために、図8に示すような参与手続きについてのモデルを提案する。
【0081】
この図8に示すモデルでは、初め会話の外にいた人物(非参与者)が(START)、意識的に会話の場(会話場)に近づき、或る一定時間留まり、既存の参与者に存在を意識され始める(1)。つまり、当該人物の参与役割が「傍観者(BYS:bystander)」になる(昇格する)。そして、既存の参与者らに確実に存在を意識される。つまり、当該人物は会話へ参与し、その参与役割が「傍参与者(SPT:side participant)」に昇格する(2)。当該人物の参与役割がSPTの状態において、現在の話し手が、当該人物に向けて策定(デザイン)し、産出した発話を受け取ると、当該人物の参与役割は「受け手(ADR:addressee)」に昇格する(3)。一方、当該人物の参与役割がSPTの状態において、当該人物が意識的に既存の参与者に話しかけると、当該人物の参与役割は「話し手(SPK:speaker)」に昇格する(4)。
【0082】
ただし、図8において、実線の矢印は、当該人物が自ら参与役割を昇格させること(積極的昇格)を意味し、点線の矢印は、当該人物が他の参与者によって参与役割を昇格されること(消極的昇格)を意味する。また、図8において、SPKとADRとの間に表記した白抜き矢印は、SPKとADRとの間で、参与役割が交替すること(話者交替)を意味する。
【0083】
また、この図8に示す例では、参与役割がSPTの状態から、SPKまたはADRに昇格するようにしてあるが、参与役割がBYSの状態から、SPKまたはADRに昇格する場合も有り得る。
【0084】
ここで、参与役割の動的な変化は、上述したLookファイルとSpeechファイルとの少なくとも一方に基づいて認識される。ただし、ちらっと他の人物や対象物が視界に入っただけのように、単に視線が他の人物や対象物に向いているだけで、意識的に当該他の人物や対象物を見ていない場合には、見る(注視)行為(以下、「Look」という場合がある。)から排除するようにしてある。また、同様に、「あ〜」、「うん」など、単に相槌を打つだけのように、他の人物に向けて策定した言葉を産出していない(発していない)場合には、発話行為(以下、「Speech」という場合がある。)から排除するようにしてある。
【0085】
この実施例では、PC22から入力された視線情報および発話情報を、それぞれ閾値処理(図9および図11の下処理)することにより、或る持続長を持った単位としてまとめるようにしてある。つまり、一定以上の長さが検出される場合のみ、注視行為または発話行為と判断するようにしてある。
【0086】
次に、閾値処理(下処理)を施したLookファイルとSpeechファイルとの少なくとも一方に対して3つのルールを適用し、参与役割のラベルを人物毎に付す。これ以降では、着目する(目標の)来訪者(ターゲット来訪者)に参与役割が付与される場合を例に挙げて、各ルールについて説明することにする。ただし、他の人物は、ターゲット来訪者Tvと同じ場所に存在する人物である。また、これ以降では、或る1箇所におけるターゲット来訪者Tvの参与役割を識別する方法(処理)について述べるが、他の場所においても、それぞれ同様の処理が実行されるのである。
【0087】
<ルール1>
ルール1は、ターゲット来訪者(Target visitor)Tvが非参与者(NON−P)から傍観者(BYS)、さらには傍参与者(SPT)に、参与役割が変化(昇格)する様子を識別し、各参与役割に対応するラベルを付す処理である。これは、ターゲット来訪者TvについてのLookファイルを参照し、Lookの持続長によって識別(決定)される。具体的には、ターゲット来訪者TvのLookの持続長が30秒未満である場合には、参与役割がNON−Pと識別される。また、Lookの持続長が30秒以上60秒未満である場合には、参与役割がBYSと識別される。さらに、Lookの持続長が60秒以上である場合には、参与役割がSPTと識別される。
【0088】
ただし、このルール1の処理は、他の人物すなわちターゲット来訪者Tv以外の人物についても、それぞれ実行される。
【0089】
<ルール2>
ルール2は、ターゲット来訪者Tvの受け手(ADR)への昇格を決定する処理を実行する。これは、今、話をしている人物(説明の都合上、「人物H」とする。)がターゲット来訪者Tvを見ているかどうかを、当該人物HのSpeechファイルとLookファイルとから識別する。具体的には、人物HのSpeechの持続期間(人物Hの参与役割が話し手と識別される期間)に、当該人物Hがターゲット来訪者TvへのLookを開始している場合に、当該ターゲット来訪者Tvの参与役割をADRと識別する。そして、ターゲット来訪者Tvの参与役割がADRである期間は人物Hが当該ターゲット来訪者Tvを視野内に捉え始めてから捉え終わるまでの間(注視期間)に決定される。
【0090】
ただし、このルール2の処理は、参与役割がSPKであると識別された人物であり、ターゲット来訪者Tv以外の人物についてそれぞれ実行される。
【0091】
<ルール3>
ルール3は、ターゲット来訪者Tvの話し手(SPK)への昇格を決定する処理を実行する。これは、ターゲット来訪者Tvが発話していることを示す。具体的には、ルール1の処理によって、参与役割がBYSまたはSPTと判断されたターゲット来訪者TvのSpeechファイルを参照し、Speechを開始している場合に、当該ターゲット来訪者Tvの参与役割をSPKと識別する。そして、ターゲット来訪者Tvの参与役割がSPKである期間は、Speechの開始から終了までの間(発話期間)を、当該ターゲットTvの参与役割をSPKに識別する。
【0092】
ただし、他の人物と発話期間が重複する場合があるため、後で詳細に説明するように、ターゲット来訪者Tvの参与役割がSPKである期間を調整するようにしてある。
【0093】
また、このルール3の処理は、ターゲット来訪者Tvのみならず、ルール1の処理によって、参与役割がBYSまたはSPTと判断された他の人物についても実行される。
【0094】
なお、上述したように、ルール2では、人物Hが発話しているときに、ターゲット来訪者Tvを見ているかどうかを判断するようにしてあるため、サーバ12の処理においては、ルール3の処理を実行して、ターゲット来訪者Tvを含む人物のSPKへの昇格の識別およびSPKの期間を決定(識別)した後に、ルール2の処理を実行して、ターゲット来訪者Tvの参与役割がADRとなるかどうかを識別するようにしてある。
【0095】
上述したような動作(会話参与役割の識別)を、図1に示したサーバ12が、図9以降に示すフロー図に従って処理する。図9はLookファイルの下処理を示すフロー図である。この図9を参照して、サーバ12は、Lookファイルの読み取りを開始し、Lookファイルの下処理を開始すると、ステップS1で、着目するセグメントの直前のセグメントのendからt1秒(この実施例では、10秒)以内に、着目するセグメントのstartが現れるかどうかを判断する。ここで、セグメントは、注視開始から注視終了までの期間(注視期間)を意味し、この実施例では、注視開始時刻と注視終了時刻との組に相当する。つまり、連続する2つのセグメントのうち、先(時間的に前)のセグメントのend(注視終了時刻)から次(時間的に後)のセグメントのstart(注視開始時刻)までの間が10秒以内であるかどうかを判断する。
【0096】
具体的に説明すると、図10(A)に示すように、サーバ12がLookファイルの読み取りを開始した時刻が時点x1である場合には、着目するのはセグメントn+1であり、直前のセグメントnのendと着目するセグメントn+1のstartとに基づいて、ステップS1の判断処理が実行される。また、図10(A)に示すように、サーバ12がLookファイルの読み取りを開始した時刻が時点x2である場合には、着目するのはセグメントn+2であり、直前のセグメントn+1のendと着目するセグメントn+2のstartとに基づいて、ステップS1の判断処理が実行される。
【0097】
図9に戻って、ステップS1で“NO”であれば、つまり直前のセグメントのendから10秒以内に、着目するセグメントのstartが現れない場合には、ステップS3で、直前のセグメントのendにlook_endをラベルして、ステップS15に進む。ただし、Lookファイルの下処理を初めて実行する場合には、ステップS3の処理は実行されず、そのままステップS15に進む。これは、対応するlook_startのラベルが存在しないためである。したがって、Lookファイルの下処理を初めて実行する場合には、ステップS1の判断処理が2回目以降で、ステップS3の処理は有効になる。
【0098】
なお、look_startおよびlook_endのラベル(以下に説明するラベルも同様。)は、図4に示したLookファイルのおいて、注視開始時刻および注視終了時刻が記述される右側に付すようにしてある。
【0099】
一方、ステップS1で“YES”であれば、つまり直前のセグメントのendから10秒以内に、着目するセグメントのstartが現れる場合には、ステップS5で、着目するセグメントのstartからt2秒(この実施例では、10秒)以内に、着目するセグメントのendが現れないかどうかを判断する。
【0100】
ここで、着目するセグメントのstartから10秒以内に、着目するセグメントのendが現れない場合には、ステップS5で“YES”となり、ステップS7で、着目するセグメントのstartにlook_startをラベルし、ステップS9で、次のセグメントが有るかどうかを判断する。これは、1分毎にウェアラブルユニット20から視線情報が送られてくるためである。ステップS9で“YES”であれば、つまり次のセグメントが有れば、当該次のセグメントを着目するセグメントとして、ステップS1に戻る。一方、ステップS9で“NO”であれば、つまり次のセグメントが無ければ、ステップS11で、着目するセグメントのendにlook_endをラベルして、Lookファイルの下処理を終了する。
【0101】
また、ステップS5で“NO”であれば、つまり着目するセグメントのstartから10秒以内に、着目するセグメントのendが現れる場合には、ステップS13で、直前のセグメントのendにlook_endをラベルして、ステップS15に進む。ただし、初めてLookファイルの下処理を実行する場合には、ステップS13の処理は実行されず、そのままステップS15に進む。これは、ステップS3の場合と同じ理由である。
【0102】
具体的に説明すると、図10(B)に示すように、着目するセグメントn+2において、そのstartからendまでの期間がt2秒(10秒)未満である場合には、直前のセグメントn+1のendに、look_endをラベルする。したがって、着目するセグメントn+2では、そのstartおよびendに対してラベルが付されることがない。つまり、或る程度の持続長を有するセグメントのみに、look_startおよびlook_endのラベルが付されるのである。
【0103】
ステップS15では、次のセグメントがあるかどうかを判断する。ステップS15で“YES”であれば、つまり次のセグメントが有る場合には、当該次のセグメントを着目するセグメントとして、ステップS1に戻る。一方、ステップS15で“NO”であれば、つまり次のセグメントが無い場合には、そのままLookファイルの下処理を終了する。
【0104】
このようにして、Lookファイルの注視開始時刻(start)と注視終了時刻(end)との間隔が10秒以上である場合に、注視行為(Look)と認められ、look_startおよびlook_endがラベルされ、その後の処理(ルール1−ルール3)に利用される。逆に、注視行為(Look)と認められないセグメントは、排除されるのである。
【0105】
図11はSpeechファイルの下処理を示すフロー図である。このSpeechファイルの下処理は、Lookファイルの下処理と同様の処理であるため、重複する内容については簡単に説明する。図11を参照して、サーバ12がSpeechファイルの下処理を開始すると、ステップS21で、着目するセグメントの直前のセグメントについてのend(発話終了時刻)からt3秒(この実施例では、1秒)以内に、着目するセグメントのstart(発話開始時刻)が現れるかどうかを判断する。
【0106】
なお、着目するセグメントについては、Lookファイルの下処理において、図10(A)を用いて説明した場合と同様である。
【0107】
ステップS21で“NO”であれば、つまり直前のセグメントのendから1秒以内に、着目するセグメントのstartが現れない場合には、ステップS23で、直前のセグメントのendにspeech_endをラベルして、ステップS35に進む。ただし、Lookファイルの下処理(図9)と同様に、Speechファイルの下処理を初めて実行する場合には、ステップS23の処理は実行されず、そのままステップS35に進む。つまり、ステップS23の処理は、Lookファイルの下処理を初めて実行する場合には、ステップS21の判断処理が2回目以降で有効になる。
【0108】
一方、ステップS21で“YES”であれば、つまり直前のセグメントのendから1秒以内に、着目するセグメントのstartが現れる場合には、ステップS25で、着目するセグメントのstartからt4秒(この実施例では、1秒)以内に、着目するセグメントのendが現れないかどうかを判断する。
【0109】
ここで、着目するセグメントのstartから1秒以内に、着目するセグメントのendが現れない場合には、ステップS25で“YES”となり、ステップS27で、着目するセグメントのstartにspeech_startをラベルし、ステップS29で、次のセグメントが有るかどうかを判断する。ステップS29で“YES”であれば、当該次のセグメントを着目するセグメントとして、ステップS21に戻る。一方、ステップS29で“NO”であれば、ステップS31で、着目するセグメントのendにspeech_endをラベルして、Speechファイルの下処理を終了する。
【0110】
また、ステップS25で“NO”であれば、つまり着目するセグメントのstartから1秒以内に、着目するセグメントのendが現れる場合には、ステップS33で、直前のセグメントのendにspeech_endをラベルし、ステップS35に進む。ただし、ステップS33の処理は、上述のステップS23の処理と同様に、Speechファイルの下処理を初めて実行する場合には、ステップS33の処理は実行されない。つまり、ステップS33の判断処理は、Speechファイルの下処理を初めて実行する場合には、ステップS25の処理が2回目以降で有効になる。
【0111】
ステップS35では、次のセグメントが有るかどうかを判断する。ステップS35で“YES”であれば、当該次のセグメントを着目するセグメントとして、ステップS21に戻る。一方、ステップS35で“NO”であれば、そのままSpeechファイルの下処理を終了する。
【0112】
このSpeechファイルの下処理においても、或る程度の持続長を有するセグメントにのみ、speech_startおよびspeech_endのラベルが付され、以降の処理(ルール2,ルール3)において利用される。したがって、発話行為(Speech)とみなされないセグメント(不要なデータ)は排除される。
【0113】
なお、図9に示したLookファイルの下処理および図11に示したSpeechファイルの下処理は、ウェアラブルユニット20を装着しているすべての人物(説明者および来訪者)のLookファイルおよびSpeechファイルについて実行される。
【0114】
図12および図13はルール1の処理を示すフロー図である。ここで、ルール1は、上述したように、非参与者(NON−P)から傍観者(BYS)、さらには、傍参与者(SPT)までの昇格(遷移)を決定(識別)するためのルールである。これは、上述したように、来訪者が会場のポスター等のオブジェクトを見ている時間によって決定される。つまり、Lookの持続長(持続時間)によって決定されるのである。
【0115】
ただし、ルール1の処理は、オブジェクトすなわち会場(会話の場)毎に実行される。ここでは、簡単のため、或る1の会話の場についての処理を説明することにする。なお、いずれの会場に存在するかは、Lookファイルの検出ID番号で識別することが可能である。
【0116】
また、上述したように、LookファイルおよびSpeechファイルの下処理は1分毎に実行されるため、このルール1の処理も同様に、1分毎に実行することができる。
【0117】
具体的には、図12に示すように、サーバ12はルール1の処理を開始すると、ステップS41で、side−p継続フラグがオンであるかどうかを判断する。ここで、side−p継続フラグは、後述するように、side−p_startのラベルが付されたが、side−p_endのラベルが付されていない状態、すなわち来訪者の参与役割がSPTである状態が継続していることを示すフラグである。図示は省略するが、このside−p継続フラグは、サーバ12の図示しないRAMの作業領域に記憶され、たとえば、1ビットのレジスタで構成される。また、side−p継続フラグがオン(成立)であれば、レジスタにデータ値「1」が設定され、逆に、side−p継続フラグがオフ(不成立)であれば、レジスタにデータ値「0」が設定される。
【0118】
ステップS41で“YES”であれば、つまりside−p継続フラグがオンであれば、図13に示すステップ63に進む。一方、ステップS41で“NO”であれば、つまりside−p継続フラグがオフであれば、ステップS43で、look_startラベルからlook_endが出現するまでの時間がt5秒(この実施例では、30秒)を経過するかどうかを判断する。つまり、Lookの持続長が30秒以上であるかどうかを判断する。ステップS43で“NO”であれば、つまり持続長が30秒以上でなければ、ステップS45で、look_startに、non−p_startをラベルして、ステップS53に進む。
【0119】
なお、このルール1の処理では、Lookファイルにおいて、look_startおよびlook_endのラベルの右側に、non−p_start等のラベルが付される。
【0120】
また、non−p_startからnon−p_endまでの期間が、参与役割がNON−Pである期間であり、bys_startからbys_endまでの期間が、参与役割がBYSである期間であり、そして、side−p_startからside−p_endまでの期間が、参与役割がSPTである期間である。
【0121】
一方、ステップS43で“YES”であれば、つまりLookの持続長が30秒以上であれば、ステップS47で、look_startにnon−p_endおよびbys_startをラベルし、ステップS49で、当該look_startラベルからlook_endが出現するまでの時間がt6秒(この実施例では、60秒)経過するかどうかを判断する。つまり、Lookの持続長が60秒以上であるかどうかを判断する。ステップS49で“NO”であれば、つまりLookの持続長が30秒以上60秒未満である場合には、ステップS51で、look_endに、bys_endおよびnon−p_startをラベルし、ステップS53に進む。
【0122】
ステップS53では、次のlook_startラベルがあるかどうかを判断する。ステップS53で“YES”であれば、つまり次のlook_startラベルが有れば、ステップS43に戻って、次のlook_startとlook_endとについての識別およびラベリングを行う。一方、ステップS53で“NO”であれば、つまり次のlook_startラベルが無ければ、図13に示すように、そのままルール1の処理を終了する。
【0123】
また、ステップS49で“YES”であれば、つまりLookの持続長が60秒以上である場合には、ステップS55で、t6秒(60秒)経過点に、bys_endおよびside−p_startをラベルし、ステップS57に進む。このルール1の処理では、Look_startラベルが検出されてから30秒経過点を、NON−PからBYSへの昇格点、60秒経過点を、BYSからSPTへの昇格点と定義しているため、ステップS55では、60秒経過点に、bys_endおよびside−p_startをラベルするようにしてある。ただし、上述したように、Lookファイルでは、look_startおよびlook_endのラベルが時間とともに記述されているだけであるため、実際には、bys_endおよびside−p_startのラベルは、着目するlook_startとlook_endとの間に付されることになる。
【0124】
ステップS57では、side−p継続フラグをオンし、図13に示すステップS59で、side−p継続フラグがオンかどうかを判断する。ここで、“YES”であれば、そのままルール1の処理を終了する。しかし、“NO”であれば、ステップS61で、着目するLook_endに、side_endをラベルして、ルール1の処理を終了する。ここで、Lookファイルに含まれるすべてのLook期間(現会話の場についてのすべてのlook_startとlook_endとの組)についてルール1の処理が終了したかどうかを判断する。つまり、参与役割がSPTとなった後では、現在の会話の場から立ち去るまでは、最低でもSPTが維持され、時間帯によっては、SPKに昇格(遷移)し、または、ADRに昇格(遷移)する。したがって、次回以降のルール1の処理において、ステップS41,S63およびS65の処理を実行して、SPTの期間を正確に判断するようにしてある。
【0125】
上述したように、ステップS41で“YES”であれば、ステップS63で、t7秒(この実施例では、60秒)間に、次のlook_startがあるかどうかを判断する。つまり、参与役割がSPTである期間が継続しているかどうかを判断する。ステップS63で“YES”であれば、つまり60秒間に次のlook_startのラベルが有る場合には、SPTの期間が継続していると判断して、そのままルール1の処理を終了する。しかし、ステップS63で“NO”であれば、つまり60秒間に次のLook_startのラベルが無い場合には、ステップS65で、side−p継続フラグをオフして、ステップS61で、着目するLook_endに、side−p_endをラベルして、ルール1の処理を終了する。
【0126】
なお、ステップS61で、着目するlook_endは、S59で“NO”と判断された場合には、ステップS49の判断処理において着目したlook_endである。ただし、ステップS63で“NO”と判断された場合には、前回のルール1の処理を実行したときに、ステップS63の判断処理において着目したlook_startに対応するlook_endが、着目するlook_endである。
【0127】
上述したように、このルール1の処理は、Lookファイルの下処理およびSpeechファイルの下処理と同様に、1分毎に実行することができ、したがって、ターゲット来訪者Tvが非参与者から傍観者に、さらには傍参与者に昇格する様子を時系列に従って識別することができるのである。
【0128】
なお、ルール1の処理を1分毎に実行するようにしてあるが、t5秒やt6秒を正確に判断するために、ステップS43やステップS49において、look_startに対応するlook_endが出現していない場合には、当該look_endが出現するのを待機するようにしてある。ただし、長時間待機すると、処理遅延が発生してしまうため、待機時間は所定時間(たとえば、30秒)としてある。
【0129】
図14はルール3の処理を示すフロー図である。このルール3の処理は、話し手(SPK)への昇格を識別するための処理である。したがって、ルール3の処理は、ルール1の処理で、参与役割がBYSまたはSPTと判断された人物について、実行される。これは、非参与者(N〇N−P)がいきなり話し手(SPK)となることが希だからである。上述したように、ターゲット来訪者TvのSpeechファイルに基づいて、その参与役割がSPKに昇格したかどうかを判断(識別)する。簡単に説明すると、ターゲット来訪者TvのLookファイルにおいて、bys_startおよびbys_endのラベル、または、spt_startおよびspt_endのラベルが付された時刻以降に、当該ターゲット来訪者TvのSpeechファイルにおいて、speech_startおよびspeech_endのラベルが付された発話期間が存在する場合に、参与役割がSPKに昇格(遷移)したと識別する。ただし、他の人物(説明者や他の来訪者)がSPKとなる場合があるため、SPKとなる期間が重ならないように、調整してある。
【0130】
つまり、図15(A)に示すように、ターゲット来訪者Tvの発話期間(S−E)が他の人物の発話期間と重ならない場合には、ターゲット来訪者Tvの発話期間がそのままSPKの期間と判断される。また、図15(B)に示すように、ターゲット来訪者Tvの発話期間に他の人物の発話期間が含まれる場合には、他の人物の発話期間が短いためターゲット来訪者Tvの発話に対する同意や否定の言葉(相槌よりは長い言葉)を発しただけと判断し、この場合にも、ターゲット来訪者Tvの発話期間がそのままSPKの期間と判断される。ただし、図15(C)に示すように、ターゲット来訪者Tvの発話期間と他の人物の発話期間とが一部重複するように、全体としてずれている場合には、ターゲット来訪者TvのSPKの期間を当該他の人物との間で調整する必要がある。これは、或る時間帯(共事態)では、参与役割がSPKとなる人物は1人だからである。したがって、この実施例では、図15(C)に示すように、ターゲット来訪者TvのSPKの期間は、当該ターゲット来訪者Tvのspeech_startから他の人物のspeech_startに対応する時刻までと判断するようにしてある。
【0131】
なお、上述したように、ルール3の処理は、Speechファイルのうち、ルール1の処理において、参与役割がBYSまたはSPTと判断された後の発話期間に基づいて実行される。
【0132】
具体的には、図14に示すように、サーバ12がルール3の処理を開始すると、ステップS71で、ターゲット来訪者Tvのspeech_startが来るかどうかを判断する。ステップS71で“NO”であれば、つまりターゲット来訪者Tvのspeech_startが来ない場合には、発話期間が存在しない、すなわち参与役割がSPKに昇格していないと判断し、そのままルール3の処理を終了する。一方、ステップS71で“YES”であれば、つまりターゲット来訪者Tvのspeech_startが来る場合には、ステップS73で、ターゲット来訪者Tvのspeech_startにspk_startをラベルする。
【0133】
なお、spk_startからspk_endまでの期間が、ターゲット来訪者Tvの参与役割がSPKである期間である。
【0134】
続くステップS75では、ターゲット来訪者Tvのspeech_startの後ろであり、かつ当該speech_start対応する(発話期間を規定する)speech_endの前に、他の人物のspeech_startがあるかどうかを判断する。ここで、他の人物は、ターゲット来訪者Tvが存在する場所に存在するターゲット来訪者Tv以外の人物である。したがって、他の人物は複数存在する場合もある。具体的には、同じ時間帯に同じオブジェクトのID番号を検出している人物が「他の人物」に該当する。ステップS75で“NO”であれば、つまり、ターゲット来訪者Tvのspeech_startの後ろであり、かつ当該speech_startに対応するspeech_endの前に、他の人物のspeech_startがない場合には、ターゲット来訪者Tvの発話期間と他の人物の発話期間とが重ならないと判断して、ステップS77で、ターゲット来訪者Tvのspeech_endに、spk_endをラベルする。そして、ステップS79で、ターゲット来訪者TvのSpeechファイルにおいて、次のspeech_startが来るかどうかを判断する。ステップS79で“NO”であれば、つまり次のspeech_startが来ない場合には、そのままルール3の処理を終了する。一方、ステップS79で“YES”であれば、つまり次のspeech_startが来れば、ステップS73に戻って、次の発話期間に基づいてターゲット来訪者TvのSPKの期間を決定する。
【0135】
また、一方、ステップS75で“YES”であれば、つまり、ターゲット来訪者Tvのspeech_startの後ろであり、かつ当該speech_startに対応するspeech_endの前に、他の人物のspeech_startがある場合には、ステップS81で、ターゲット来訪者Tvのspeech_endの後ろに、当該他の人物の対応するspeech_endがあるかどうかを判断する。
【0136】
ただし、ターゲット来訪者Tvが存在する場所には、複数の他の人物が存在する場合があるため、ステップS75で“YES”と判断された場合に、着目する人物は、speech_startのラベルが来る時刻が最も早い人物に決定される。したがって、ステップS81では、その着目する人物についてのspeech_startに対応するspeech_endについて判断しているのである。
【0137】
ステップS81で“NO”であれば、つまり、ターゲット来訪者Tvのspeech_endの後ろに、当該他の人物のspeech_endがない場合には、当該他の人物の発話期間がターゲット来訪者Tvの発話期間に含まれると判断して、ステップS77に進む。一方、ステップS81で“YES”であれば、つまり、ターゲット来訪者Tvのspeech_endの後ろに、当該他の人物のspeech_startに対応するspeech_endがある場合には、ステップS83で、ターゲット来訪者TvのSpeechファイルにおいて、当該他の人物のspeech_startと同時点(同時刻)に、spk_endをラベルして、ステップS79に進む。なお、この場合には、当該他の人物のspeech_startと同時点のラベルが、ターゲット来訪者TvのSpeechファイルには存在しないため、ターゲット来訪者TvのSpeechファイルにおいて、着目するspeech_endのラベルの右側に、当該他の人物のspeech_startと同時点の時刻を記述するとともに、spk_endがラベルされる。つまり、ステップS83では、ターゲット来訪者TvのSPKとしての期間は、当該ターゲット来訪者Tvの発話期間から、重複する他の人物の発話期間が排除された期間に決定されるのである。
【0138】
このように、ルール3の処理を実行することにより、ターゲット来訪者Tvの参与役割がSPKに昇格したか否かが識別されるとともに、ターゲット来訪者Tvの参与役割がSPKである期間が決定される。
【0139】
なお、上述したように、このルール3の処理は、ルール1の処理により、参与役割がBYSまたはSPTと判断されたすべての人物について実行される。具体的には、図14に示すルール3の処理において、各人物をターゲット来訪者Tvに当てはめればよい。
【0140】
図16はルール2の処理を示すフロー図である。このルール2の処理は、上述したように、受け手(ADR)への昇格を決定(識別)するための処理である。上述したように、話している人物(説明の便宜上、人物Hとする。)、すなわち参与役割がSPKの人物Hが見ている人物(ここでは、ターゲット来訪者Tv)を、当該人物HのSpeechファイルとLookファイルとから識別する。つまり、人物HのSPKの期間に、当該人物Hがターゲット来訪者TvへのLookを開始している場合に、ターゲット来訪者Tvの参与役割がADRに昇格(遷移)したと判断する。また、ターゲット来訪者Tvの参与役割がADRである期間は、当該人物Hが発話開始後に当該ターゲット来訪者Tvを視野内に捉え初めてから捉え終わるまでの期間すなわち注視期間に決定する。したがって、図17(A)に示すように、人物HのSpeechファイルにおいて、spk_startとspk_endとがラベリングされている期間に、図17(B)に示すように、ターゲット来訪者Tvに対する人物Hのlook_startが来る場合には、当該look_startにadr_start_Tvがラベリングされ、当該look_startに対応する(注視期間を規定する)look_endに、adr_end_Tvがラベリングされる。
【0141】
なお、この実施例では、look_endの時点に、adr_end_Tvをラベルするようにしてあるが、Lookファイルにおいて、spk_endに対応する時点(時刻)に、adr_end_Tvをラベルするようにしてもよい。つまり、人物Hの参与役割がSPKであると判断される期間と重複する期間のみを、ターゲット来訪者Tvの参与役割がADRであると判断されるようにしてもよい。
【0142】
ただし、このルール2の処理は、ルール3の処理の後に実行され、ルール3の処理を行った人物(ターゲット来訪者Tvを含む。)のうち、参与役割がSPKに昇格したと判断された人物についてのみ実行される。したがって、ルール3の処理により、参与役割がSPKに昇格した人物が複数存在する場合には、その複数の人物の各々について、ルール2の処理が実行されるのである。これにより、ターゲット来訪者Tvの参与役割がADRに昇格(遷移)するか否かが判断(識別)され、また、参与役割がADRである期間が決定される。ただし、ルール2の処理は、ルール3の処理と同様に、SpeechファイルおよびLookファイルのうち、ルール1の処理において、参与役割がBYSまたはSPTと判断された後の発話期間および注視期間に基づいて実行される。
【0143】
具体的には、図16に示すように、サーバ12がルール2の処理を開始すると、ステップS91で、人物Hのspeech_startの後ろに、人物Hのターゲット来訪者Tvに対するlook_startが来るかどうかを判断する。ステップS91で“NO”であれば、つまり人物Hのspeech_startの後ろに、人物Hのターゲット来訪者Tvに対する、look_startが来ない場合には、そのまま同じステップS91に戻る。
【0144】
なお、人物Hのターゲット来訪者Tvに対するlook_startは、Lookファイルに含まれる検出ID番号に基づいて判断される。つまり、ステップS91では、ターゲット来訪者Tvについての検出ID番号が含まれる注視期間のlook_startを来るかどうかを判断するのである。
【0145】
一方、ステップS91で“YES”であれば、つまりつまり人物Hのspk_startの後ろに、人物Hのターゲット来訪者Tvに対する、look_startが来る場合には、ステップS93で、人物HのLookファイルにおけるlook_startにadr_start_Tvをラベルする。ここでは(図16もおいて同じ。)、説明の便宜上、adr_start_Tvをラベルするようにしてあるが、このラベルの最後の添え字(Tv)は、厳密には、ターゲット来訪者Tvの検出ID番号またはその識別子である。
【0146】
なお、adr_start_Tvからadr_end_Tvまでの期間が、ターゲット来訪者Tvの参与役割がADRである期間である。
【0147】
次のステップS95では、人物HのLookファイルにおけるlook_end、すなわちadr_start_Tvがラベルされたlook_startに対応するlook_endにadr_end_Tvをラベルする。ただし、上述したように、厳密に言うと、このラベルの最後の添え字(Tv)は、ターゲット来訪者Tvの検出ID番号またはその識別子である。そして、ステップS97では、人物HのSpeechファイルに、次のspk_startがあるかどうかを判断する。ステップS97で“YES”であれば、つまり人物HのSpeechファイルに、次のspk_startが有る場合には、ステップS91に戻って、次のspk_startからspk_endまで(SPKの期間)において、ターゲット来訪者TvがADRとなる期間があるかどうかを識別する。一方、ステップS97で“NO”であれば、つまり人物HのSpeechファイルに、次のspk_startが無い場合には、ルール2の処理を終了する。
【0148】
このように、ルール2の処理によって、ターゲット来訪者Tvの参与役割がADRと判断され、その期間が決定される。しかし、ターゲット来訪者Tvの参与役割がADRであることを示すラベルは、人物HのLookファイルに記述されている。したがって、ルール2の処理を実行した後では、人物HのLookファイルに記述されたターゲット来訪者Tvの参与役割がADRであることを示すラベルを、当該ターゲット来訪者Tvのファイル(たとえば、SpeechファイルまたはLookファイル)に記述する必要がある。具体的には、ターゲット来訪者TvのSpeechファイルまたはLookファイルに、人物HのLookファイルに記述された当該ターゲット来訪者TvのADRについてのラベル(adr−start,adr−end)を、ラベルに対応する時間とともに記述する。このようにすれば、下処理、ルール1、ルール3およびルール2の処理を終えた、ターゲット来訪者TvのSpeechファイルおよびLookファイルを参照することにより、或る会話の場における当該ターゲット来訪者Tvの参与役割の時間変化を知ることができる。つまり、ターゲット来訪者Tvの会話参与手続きを認識することができるのである。
【0149】
この実施例によれば、ターゲット来訪者についての時系列に従う参与役割を識別するので、当該ターゲット来訪者の会話参与手続きの動的な変化を認識することができる。つまり、或る人物についての会話への参与手続きの通事態を知ることができる。
【0150】
また、このように、或る人物についての会話への参与手続きの通事態を知ることができるため、コミュニケーションロボットを会話の場に参与させる場合には、コミュニケーションロボット自身の現在の参与役割を識別し、参与役割がBYSまたはSPTと識別されるときに、発話させたり、受け手となるように振舞わせたりすることができる。つまり、場の読める振る舞い(コミュニケーション行動)を実行するコミュニケーションロボットを設計することができる。
【0151】
なお、この実施例では、ウェアラブルユニットから送信する発話情報に音声データを含むようにしたが、会話参与手続きを認識する場合には、発話開始時刻と発話終了時刻とが分かればよいため、発話情報に音声データを含める必要はない。つまり、発話開始時刻および発話終了時刻のみを送信するようにしてもよい。
【0152】
また、この実施例では、或る会話の場に存在する人物を特定するために、オブジェクトに対して設けらたIRタグ40のID番号を用いるようにしたが、説明会場のような場所では、説明者を特定することは可能であるため、当該説明者のID番号を用いるようにしてもよい。
【図面の簡単な説明】
【0153】
【図1】図1はこの発明の会話参与手続き認識システムの一例を示すブロック図である。
【図2】図2は図1に示すIRタグの具体的な構成の一例を示すブロック図である。
【図3】図3は図1に示すIRトラッカの具体的な構成の一例を示すブロック図である。
【図4】図4は図1に示すサーバ内のDBに蓄積されるLookファイルを示す図解図である。
【図5】図5は図1に示すサーバ内のDBに蓄積されるSpeechファイルを示す図解図である。
【図6】図6は図1に示す会話参与続き認識システムの設置例を示す図解図である。
【図7】図7は図1に示すウェアラブルユニットの人物への装着例を示す図解図である。
【図8】図8は図1実施例で提案する会話参与モデルを示す図解図である。
【図9】図9は図1に示すサーバのLookファイルの下処理を示すフロー図である。
【図10】図10は図9に示すLookファイルの下処理において、着目するセグメントと、look_startおよびlook_endのラベルが付される様子とを説明するための図解図である。
【図11】図11は図1に示すサーバのSpeechファイルの下処理を示すフロー図である。
【図12】図12は図1に示すサーバのルール1の処理の一部を示すフロー図である。
【図13】図13は図12に示す後続するルール1の処理の他の一部を示すフロー図である。
【図14】図14は図1に示すサーバのルール3の処理を示すフロー図である。
【図15】図15は図14に示すルール3の処理において目標の人物の参与役割がSPKと識別される期間を説明するための図解図である。
【図16】図16は図1に示すサーバのルール2の処理を示すフロー図である。
【図17】図17は図16に示すルール2の処理において目標の人物の参与役割がADRと識別される期間を説明するための図解図である。
【図18】図18は背景技術における会話参与役割のモデルを示す図解図である。
【符号の説明】
【0154】
10 …会話参与手続き認識システム
12 …サーバ
20 …ウェアラブルユニット
22 …PC
24,40 …IRタグ
26 …IRトラッカ
28 …マイク
50 …赤外LED
52 …駆動回路
60 …赤外線フィルタ
64 …CMOSイメージセンサ
66 …画像処理装置
【技術分野】
【0001】
この発明は会話参与手続き認識装置および会話参与手続き認識システムに関し、特にたとえば、2人以上の間で行われる会話に参与する目標の人物の参与手続きを認識する、会話参与手続き認識装置および会話参与手続き認識システムに関する。
【0002】
ここで、会話参与手続きとは、人が会話に参与(参加)し、その場に居る人々と会話し、その場を去るまでの一連の人と人との関わりを意味する。
【背景技術】
【0003】
この種の会話参与手続き認識装置の従来技術は存在しなかった。非特許文献1によれば、3者以上の人物で行われる多人数会話における「聞き手」を、発話を受け取る人物として選ばれている「受け手(addressee)」と、発話を受け取る人物として選ばれていない「傍参与者(side participant)」とに区別している。また、或る会話における参与役割としては、「話し手」、「受け手」および「傍参与者」の順で会話の中核を占めていることが述べられている。
【0004】
非特許文献2は、非特許文献1で紹介されている考えをまとめたものであり、図18に示すように、会話参与の枠組みをモデル化してある。図18を参照して、会話の中核的役割から、「話し手(speaker)」、「受け手(addressee)」、「傍参与者(side participant)」、「傍観者(bystander)」、「盗み聞き者(eavesdropper)」の順に左から並んでいる。少なくとも話し手と受け手との2者が存在すれば、当該2者の間で話者を交替することにより、会話は成立する。ただし、多人数会話では、3番目以降に会話に参与する人物(以下、「第三者」という。)は、会話に参与するかどうかは任意である。つまり、第三者は、会話の成り行きを傍観していることができ、また、積極的に会話の中核に参与することもできる。
【非特許文献1】Goffman, E.「Forms of talk.」University of Pennsylvania Press.1981.
【非特許文献2】Clark, H.H.「Using language.」Cambridge University Press.1996.
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1および非特許文献2では、多人数会話において或る時刻帯を見たときの参与役割を人物毎に判断することはできるが、参与役割の時系列変化を人物毎に知ることはできない。つまり、会話の場に居た複数人の人物がどのように階層的な参与役割を担って会話に参与しているかという共時態を示しているに過ぎず、或る1人の人物が時間に従ってどのように会話に参与していくかという通事態を知ることはできなかった。
【0006】
それゆえに、この発明の主たる目的は、新規な、会話参与手続き認識装置および会話参与手続き認識システムを提供することである。
【0007】
この発明の他の目的は、会話に参与する人物の参与手続きを認識できる、会話参与手続き認識装置および会話参与手続き認識システムを提供することである。
【課題を解決するための手段】
【0008】
請求項1の発明は、少なくとも2人の間で行われる会話に参与する目標の人物の参与手続きを認識する会話参与手続き認識装置であって、少なくとも各人物の発話開始時刻と発話終了時刻とを含む発話情報を取得する発話情報取得手段、発話取得手段によって取得された発話情報を各人物毎に記憶する発話情報記憶手段、少なくとも、各人物が視線を向けた会話の場に存在する対象についての識別情報と、当該対象に視線を向け始めた注視開始時刻および当該対象から視線をそらした注視終了時刻とを含む視線情報を取得する視線情報取得手段、視線情報取得手段によって取得された視線情報を各人物毎に記憶する視線情報記憶手段、および発話情報と視線情報との少なくとも一方に基づいて、目標の人物の会話における参与役割を時系列に従って識別する参与役割識別手段を備える、会話参与手続き認識装置である。
【0009】
請求項1の発明では、会話参与手続き認識装置は、少なくとも2人の間で行われる会話に参与する目標の人物の参与手続きを認識する。発話情報取得手段は、少なくとも、会話の場に存在する各人物の発話開始時刻と発話終了時刻とを含む発話情報を取得し、この発話情報は発話情報記憶手段によって記憶される。また、視線情報取得手段は、少なくとも、各人物が視線を向けた会話の場に存在する対象(他の人物等)の識別情報と、当該対照に視線を向け始めた注視開始時刻および当該対象から視線をそらした注視終了時刻とを含む視線情報を取得し、この視線情報は視線情報記憶手段によって記憶される。参与役割識別手段は、目標の人物の会話における参与役割を時系列に従って識別する。
【0010】
請求項1の発明によれば、発話情報と視線情報の少なくとも一方に基づいて目標の人物の会話における参与役割を時系列に従って識別するので、当該目標の人物の会話参与手続きを認識することができる。つまり、或る目標の人物についての会話役割の通事態を知ることができる。
【0011】
請求項2の発明は請求項1に従属し、参与役割は、少なくとも非参与者および傍参与者を含み、参与役割識別手段は、目標の人物の視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別する第1識別手段を含む。
【0012】
請求項2の発明では、たとえば、参与役割は、少なくとも非参与者および傍参与者を含む。ここで、非参与者とは、会話に参与していない(会話の外にいる)者をいい、厳密には、参与役割には該当しない。傍参与者とは、話し手(発話している者)によって存在は意識されているが、話しかけられていない者をいう。第1識別手段は、目標の人物の視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別する。
【0013】
請求項2の発明によれば、目標の人物の視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別することができる。
【0014】
請求項3の発明は請求項2に従属し、第1識別手段は、視線情報に含まれる注視開始時刻と注視終了時刻との間が第1所定期間未満であるとき、参与役割を非参与者として識別し、注視開始時刻と注視終了時刻との間が第1所定期間よりも長い第2所定期間以上であるとき、参与役割を傍参与者として識別する。
【0015】
請求項3の発明では、第1識別手段は、視線情報に含まれる注視開始時刻と注視終了時刻との間すなわち注視期間が第1所定期間未満であるとき、目標の人物の参与役割を非参与者として識別する。また、注視期間が第1所定期間よりも長い第2所定期間以上であるとき、目標の人物の参与役割を傍参与者として識別する。つまり、会話の場に存在する対象の注視期間すなわち会話の場への滞在期間に応じて、目標の人物の参与役割を非参与者および傍参与者のいずれかに識別するのである。
【0016】
請求項3の発明によれば、目標の人物が会話の場に滞在する期間に応じて、当該目標の人物の参与役割を非参与者および傍参与者のいずれかに識別することができる。
【0017】
請求項4の発明は請求項3に従属し、参与役割は、傍観者をさらに含み、第1識別手段は、注視開始事項と注視終了時刻との間が第1所定期間以上第2所定期間未満であるとき、参与役割を傍観者として識別する。
【0018】
請求項4の発明では、参与役割は、傍観者をさらに含む。ここで、傍観者とは、話し手によって存在を意識されていない者をいう。第1識別手段は、注視開始時刻と注視終了時刻との間が第1所定期間以上第2所定期間未満であるとき、参与役割を傍観者として識別する。参与役割は、非参与者、傍観者、傍参与者の順で遷移する。したがって、第1識別手段による識別処理を、たとえば一定時間毎に実行することにより、目標の人物の参与役割が非参与者から傍観者に遷移(昇格)し、さらに傍観者から傍参与者に昇格することが認識できる。
請求項4の発明によれば、目標の人物が会話の場に滞在する期間に応じて、当該目標の人物の参与役割を非参与者、傍観者および傍参与者のいずれかに識別することができる。
【0019】
請求項5の発明は請求項4に従属し、参与役割は、話し手をさらに含み、参与役割識別手段は、第1識別手段の識別結果が傍観者または傍参与者を示すとき、目標の人物の発話情報に基づいて、参与役割が話し手に昇格したかどうかを判断する話し手判断手段を含む。
【0020】
請求項5の発明では、参与役割は、話し手をさらに含む。話し手とは、上述したように、会話の場において発話している者をいう。話し手判断手段は、第1識別手段の識別結果が傍観者または傍参与者を示すとき、つまり目標の人物の参与役割が傍観者または傍参与者として識別されると、目標の人物の発話情報に基づいて、当該目標の人物の参与役割が話し手に昇格したかどうかを判断する。
【0021】
請求項5の発明によれば、目標の人物の参与役割が傍観者または傍参与者に昇格した後では、当該目標の人物の発話情報に基づいて、当該目標の人物の参与役割が話し手に昇格したかどうかを判断することができる。
【0022】
請求項6の発明は請求項5に従属し、話し手判断手段は、目標の人物の発話情報に基づいて、当該目標の人物の参与役割が話し手である期間を決定する話し手期間決定手段を含み、話し手期間決定手段は、目標の人物の発話情報に含まれる第1発話開始時刻と第1発話終了時刻との間に、会話の場に存在する他の人物の第2発話開始時刻が存在し、かつ当該他の人物の第2発話終了時刻が第1発話終了時刻の後に存在するとき、当該目標の人物の参与役割が話し手である期間を第1発話開始時刻と第2発話開始時刻とで規定される期間に決定する。
【0023】
請求項6の発明では、話し手期間決定手段は、目標の人物の発話情報に基づいて、当該目標の人物が話し手である期間を決定する。具体的には、目標の人物の発話情報に含まれる第1発話開始時刻と第1発話終了時刻との間(発話期間)に、同じ会話の場に存在する他の人物の第2発話開始時刻が存在し、かつ当該他の人物の第2発話終了時刻が第1発話終了時刻の後に存在するとき、当該目標の人物の参与役割が話し手である期間を第1発話開始時刻と第2発話開始時刻とで規定される期間に決定する。
【0024】
請求項6の発明によれば、目標の人物および同じ会話の場に存在する他の人物についての発話期間に基づいて、当該目標の人物の参与役割が話し手である期間を決定することができる。
【0025】
請求項7の発明は請求項6に従属し、話し手期間決定手段は、第1発話開始時刻と第1発話終了時刻との間に、第2発話開始時刻および第2発話終了時刻の両方が含まれるとき、または、第1発話開始時刻と第1発話終了時刻との間に、第2発話開始時刻および第2発話終了時刻の両方が含まれないとき、目標の人物の参与役割が話し手である期間を、第1発話開始時刻と第1発話終了時刻とで規定される期間に決定する。
【0026】
請求項7の発明では、話し手期間決定手段は、第1発話開始時刻と第1発話終了時刻との間に、第2発話開始時刻および第2発話終了時刻の両方が含まれるとき、または、第1発話開始時刻と第1発話終了時刻との間に、第2発話開始時刻および第2発話終了時刻の両方が含まれないとき、目標の人物の参与役割が話し手である期間を、第1発話開始時刻と第1発話終了時刻とで規定される期間に決定する。つまり、目標の人物の発話期間が、他の人物の発話期間を完全に含むとき、または、他の人物の発話期間と重複する部分がないとき、目標の人物の参与役割が話し手である期間を、自身の発話期間に決定するのである。
【0027】
請求項7の発明においても、請求項6の発明と同様に、目標の人物および同じ会話の場に存在する他の人物についての発話期間に基づいて、当該目標の人物の参与役割が話し手である期間を決定することができる。
【0028】
請求項8の発明は請求項6または7に従属し、参与役割は、受け手をさらに含み、第1識別手段は、会話の場に存在する他の人物の視線情報に基づいて、当該他の人物の参与役割が非参与者、傍観者および傍参与者のいずれであるかを識別し、話し手判断手段は、第1識別手段によって参与役割が傍観者または傍参与者と識別された他の人物の発話情報に基づいて、当該他の人物の参与役割が話し手に昇格したかどうかを判断し、話し手期間決定手段によって決定される他の人物の参与役割が話し手である期間において、当該他の人物の視線情報に含まれる識別情報が目標の人物を示すとき、当該目標の人物の参与役割が受け手に昇格したと判断する受け手判断手段をさらに備える。
【0029】
請求項8の発明では、参与役割は、受け手をさらに含む。ここで、受け手とは、話し手に視線を向けられて、話しかけられている者をいう。たとえば、第1識別手段は、会話の場に存在する他の人物の視線情報に基づいて、当該他の人物の参与役割が非参与者、傍観者および傍参与者のいずれであるかを識別する。また、話し手判断手段は、第1識別手段によって参与役割が傍観者または傍参与者と識別された他の人物の発話情報に基づいて、当該他の人物の参与役割が話し手に昇格したかどうかを判断する。受け手判断手段は、話し手期間決定手段によって決定される他の人物の参与役割が話し手である期間において、当該他の人物の視線情報に含まれる識別情報が目標の人物を示すとき、当該目標の人物の参与役割が受け手に昇格(遷移)したと判断する。つまり、話し手と判断された他の人物の視線情報と発話情報とに基づいて、目標の人物の参与役割が受け手であるかどうかが識別される。
【0030】
請求項8の発明によれば、話し手と判断された他の人物の視線情報と発話情報とに基づいて、目標の人物の参与役割が受け手であるかどうかを識別することができる。
【0031】
請求項9の発明は請求項8に従属し、受け手判断手段は、他の人物の参与役割が話し手である期間において、当該他の人物の視線情報に含まれる目標の人物についての識別情報の注視開始時刻と注視終了時刻とで規定される期間を、当該目標の人物の参与役割が受け手である期間に決定する受け手期間決定手段を含む。
【0032】
請求項9の発明では、受け手期間決定手段は、他の人物の参与役割が受け手である期間において、当該他の人物の視線情報に含まれる目標の人物についての識別情報の注視開始時刻と注視終了時刻とで規定される期間を、当該目標の人物の参与役割が受け手である期間に決定する。つまり、話し手である他の人物が、発話しているときに、その視線を目標の人物に向けている期間が、当該目標の人物の参与役割が受け手である期間として決定される。
【0033】
請求項9の発明によれが、請求項8の発明と同様に、話し手と判断された他の人物の視線情報と発話情報とに基づいて、目標の人物の参与役割が受け手であるかどうかを識別することができる。
【0034】
請求項10の発明は、請求項1ないし9のいずれかに記載の会話参与手続き認識装置を備える会話参与手続き認識システムであって、発話情報を検出する発話情報検出装置、および視線情報を検出する視線情報検出装置をさらに備え、視線情報検出装置および発話情報検出装置は、各人物に装着可能に設けられ、会話参与手続き認識装置に発話情報および視線情報を送信するようにした。
【0035】
請求項10の発明では、会話参与手続き認識システムは、上述したような会話参与手続き認識装置を備える。また、このシステムは、発話情報検出装置および視線情報検出装置をさらに備える。発話情報検出装置および視線情報検出装置は、たとえば、人物に装着可能に設けられ、それぞれで検出される発話情報および視線情報を、会話参与手続き認識装置に送信する。したがって、たとえば、会話の場に存在する人物のそれぞれについての発話情報および視線情報が会話参与手続き認識装置に送信される。
【0036】
請求項10の発明によれば、発話情報検出装置および視線情報検出装置を装着した人物についての会話参与手続きを認識することができる。
【0037】
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【発明を実施するための最良の形態】
【0038】
図1を参照して、この実施例の会話参与手続き認識システム(以下、単に「システム」という。)10は、会話参与手続き認識装置として機能するサーバ12を含む。また、システム10は、複数のウェアラブルユニット20,20,20,…を含み、各ウェアラブルユニット20はサーバ12に接続される。図1では省略するが、各ウェアラブルユニット20は、人物(被験者)に装着される(図6,図7参照)。
【0039】
なお、図1では、3つのウェアラブルユニット20を示してあるが、ウェアラブルユニット20は人物の数に対応して設けられる。
【0040】
ウェアラブルユニット20は、パーソナルコンピュータ(PC)22を含み、このPC22がサーバ12に通信可能に接続される。また、ウェアラブルユニット20は、IRタグ24、IRトラッカ26およびマイク28を含み、IRトラッカ26およびマイク28は、PC22に接続される。各ウェアラブルユニット20は、同じ構成であるが、IRタグ24に割り当てられる識別情報(ID番号)が互いに異なる。
【0041】
なお、各PC22は、有線または無線により、直接或いはネットワーク(LAN等)を介してサーバ12に接続される。
【0042】
PC22は、汎用のコンピュータであり、ラップトップ型のPCのような小型のものを用いることができる。IRタグ24(後述するIRタグ40も同様。)は、図2に示すように、赤外LED50および駆動回路52を備える。IRタグ24では、駆動回路52が赤外LED50を点灯制御することにより、自身に割り当てられたID番号についての情報(ID情報)を間欠的に送信(出力)する。
【0043】
具体的には、駆動回路52は、たとえばマイクロコンピュータであり、マンチェスタ符号化方式によりエンコードしたID番号(6bit)およびパリティビットと、スタートビット(1bit)およびエンドビット(2bit)とを含むID情報を、所定の周期(たとえば、200Hz)の点滅により繰り返し送信するように、赤外LED50を点滅させる。たとえば、ID番号が「62」の場合には、ID情報は“01100101010101101111”と表され、このID情報が赤外線信号に変換される。ただし、スタートビットは“01”であり、ID番号は“100101010101”であり、バイナリデータ(偶数“01”,奇数“10”)は“10”であり、エンドビットは“1111”である。
【0044】
なお、駆動回路52すなわちマイクロコンピュータ(マイコン)としては、Atmel社製の4MHz駆動マイコン「AT90S2223(品番)」等を用いることができる。
【0045】
また、各PC22には、同じウェアラブルユニット20に含まれるIRタグ24のID番号が予め記憶(登録)されている。これは、ウェアラブルユニット20またはウェアラブルユニット20を装着している人物をサーバ12で特定するためである。したがって、たとえば、各PC22の識別情報(たとえば、MACアドレスやIPアドレス)に対応してIRタグ24のID番号を記述したテーブルをサーバ12に記憶しておくようにして、通信の際に得られる各PC22の識別情報からIRタグ24のID番号を特定するようにしてもよい。
【0046】
IRトラッカ26は、IRタグ24,40などが送信(発信)する赤外線信号を検出する。図3に示すように、IRトラッカ26は、赤外線フィルタ60を含む。この赤外線フィルタ60は、IRタグ24,40などから送信される赤外線のうち、主として近赤外線のみを透過させ、レンズ62に近赤外線を導く。たとえば、赤外線フィルタ60としては、可視光を遮断(ブロック)し、近赤外光を通過(パス)させる、エドモンド社製の「プラスチックIRパスフィルタ」を用いることができる。
【0047】
レンズ62は、赤外線フィルタ60を透過した近赤外線をCMOSイメージセンサ64に結像させる。この実施例では、レンズ62の画角は90度である。この場合には、比較的近距離で広範囲に位置する赤外線(IRタグ)を容易に検出することができる。つまり、対面で人物が会話する状態であっても、IRタグ24が発信する赤外線信号(ID番号)を検出することができるのである。
【0048】
CMOSイメージセンサ64は、レンズ62によって結像された近赤外線で構成される近赤外線画像を撮影して画像処理装置66に出力する。このCMOSイメージセンサ64としては、三菱電機株式会社製の人工網膜LSI「M64283FP(品番)」等を用いることができ、この場合の解像度は128×128ピクセルである。
【0049】
画像処理装置66は、CMOSイメージセンサ64の読み出し制御およびデータ処理を実行し、CMOSイメージセンサ64によって撮影された近赤外線画像からIRタグを検出し、検出したIRタグの点滅状態からID番号を検出(特定)する。そして、画像処理装置66は、特定したID番号をPC22に出力する。
【0050】
具体的には、まず、画像処理装置66は、CMOSイメージセンサ64等を初期化し、全画面(128×128ピクセル)の近赤外線画像を撮影する。次に画像画像処理装置66は、近赤外線画像の中から所定サイズの光点、たとえば1ピクセルの光点をIRタグとして抽出し、所定サイズより大きな光点を排除する。このように、近赤外線画像の中から所定サイズの光点を検出するという簡便な処理によりIRタグを検出することができるので、画像処理装置66によるIRタグ検出処理を高速化できる。
【0051】
続いて、画像処理装置66は、抽出した光点を中心とする8×8ピクセルの領域を検出領域として決定し、CMOSイメージセンサ64により検出領域を規定回数、たとえば((送信ビット数+スタートビット数+エンドビット数)×2×2)回読込み、読み込んだ近赤外線画像から赤外線タグの点滅状態を検出してID番号を検出するとともに、パリティチェックを行い、読込みデータの識別処理を行う。
【0052】
このように、近赤外線画像から光点を含む検出領域を決定し、この検出領域の近赤外線画像のみを用いてIRタグの点滅状態を検出しているので、処理対象となる近赤外線画像を必要最小限に限定することができ、画像処理装置66によるIRタグ検出処理を高速化することができる。このIRタグ検出処理の高速化により、人物の動きに十分に追従することができ、動き予測等の演算コストの高い処理を省略することができる。ここで、パリティチェックが正しければ、画像処理装置66は、IRタグのID番号を出力し、パリティチェックが正しくなければ、検出領域の読込みを再度行い、上述したIRタグ検出処理を再度行い、検出されたすべての光点に対してIRタグ検出処理を実行する。
【0053】
このようにして、IRタグが装着された(設けられた)人物や対象物に対して一意的に割り当てられたID番号をLEDの点滅により送信し、人物に装着されたIRトラッカにより、人物の視線方向に位置する人物や対象物のID番号を検出し、人物や対象物を識別することができる。
【0054】
そして、PC22は、IRトラッカ26から入力されたID番号(以下、「検出ID番号」ということがある。)と予め記憶してあるIRタグ24のID番号(以下、「割当ID番号」ということがある。)とを、たとえば、一定の時刻間隔(この実施例では、1分間隔)で、サーバ12に送信する。
【0055】
ただし、厳密には、各PC22は、それぞれに接続されるIRトラッカ26からID番号が入力されたときの時刻(開始時刻)とIDトラッカ26から当該ID番号が入力されなくなった時刻(終了時刻)とを、それぞれ、内部タイマ22aから取得し、それらの時刻を2つのID番号とともにサーバ12に送信する。つまり、或る人物の視線が他の人物やオブジェクトに向けられたときの時刻(注視開始時刻)および当該他の人物やオブジェクトから視線がそらされたときの時刻(注視終了時刻)と、当該他の人物やオブジェクトのID番号すなわち検出ID番号とを含む情報(視線情報)に、割当ID番号を付加して、サーバ12に送信する。
【0056】
なお、上述の画像処理装置66としては、Cygnal社製の49MHz駆動マイコン「C8051F124(品番)」を用いることができる。この場合、CMOSイメージセンサ64を115200Hzのクロックで駆動させ、撮像(シャッタ開放)後、1クロック毎に1ピクセルの明るさがアナログ値でシリアル出力さえる。このため、全画素撮影時の最短フレームレートは、数1に示すように算出されるが、128×128ピクセルのうち、8×8ピクセルを検出領域に設定して500Hzのシャッタスピードで撮影した場合には、400Hzのフレームレートを実現することができる。つまり、読み出し速度を高速化することができる。このように、IRタグの点滅周期(200Hz)の2倍のフレームレート(400Hz)で読み込むため、単一の赤外LEDを用いて非同期通信を行うことができる。また、画角90度のレンズ62を使用したときに、2mの距離で、1ピクセルは、2.2cm×2.2cmの範囲に相当する。
【0057】
このように、IRトラッカ26では、主として近赤外線のみで構成された近赤外線画像を用いてIRタグのID番号を検出することができるので、外乱となる可視光領域の波長を有する光による悪影響を受けることがほとんどない。
【0058】
図1に戻って、マイク28は、たとえば単一指向性マイクであり、当該マイク28を装着する人物の音声を収集する。ただし、声帯マイクを用いることもできる。このようなマイク28を用いるのは、ウェアラブルユニット20を装着する人物の音声のみを収集し、周囲(環境)音が入力されるのを防止するためである。マイク28を通して入力される音声は、各々が接続されるPC22に入力され、対応する音声データ(RAWデータ)がPC22の図示しないハードディスク(HD)に記憶される。PC22は、HDに記憶された音声データと予め記憶してあるID番号とを、一定時間(たとえば、1分)毎にサーバ12に送信する。
【0059】
ただし、厳密には、PC22は、それぞれ、マイク28から音声信号の入力が開始されたときの時刻(開始時刻)と、音声信号の入力が終了したときの時刻(終了時刻)とを内部タイマ22aから取得し、つまり、音声入力の開示時刻と終了時刻とを取得し、それらの時刻と音声データとを含む情報(発話情報)に割当ID番号を付加して、一定時間毎にサーバ12に送信する。
【0060】
ここで、PC22は、マイク28から入力される音声信号(音声データ)が所定の閾値(この実施例では、50dB)よりも大きいレベル(パワー)の部分を発話と判断し、50dB以下のパワーの部分を無音(発話なし)と判断するようにしてある。ただし、発話が開始されたかどうかを正確に判断するため、50dBよりも大きいパワーの部分が所定時間T1(この実施例では、50ミリ秒)検出されると、発話が開始されたと判断するようにしてある。また、息継ぎ(ブレス)などの休止(ポーズ)によって発話が終了したと判断しないように、50dB以下のパワーであり、その状態が所定時間T2(たとえば、300ミリ秒)以上継続したときに、発話が終了したと判断するようにしてある。
【0061】
また、システム10は、複数のIRタグ40,40,40,…を含み、これらのIRタグ40,40,40,…は、それぞれ、対象物(この実施例では、ポスターや置物など)に対応して設けられる。なお、図1では、簡単のため、3つのIRタグ40,40,40を示してあるが、実際には対象物の数だけIRタグ40は設けられている。ただし、IRタグ40は、会話の場に存在する、或いは会話の場に参与(参加)しようとする人物が存在する場所を特定するために用いられる。つまり、同じ場所に存在する人物を特定するのである。このため、IRタグ40は、会話が起こり得る、会場、部屋(会議室)、展示(説明会)ブースなどの特定の場所であり、当該場所に存在する人物のウェアラブルユニット20によって認識可能な位置に設けるようにしてもよい。また、IRタグ40は、対象物と特定の場所との両方に設けるようにしてもよい。さらに、特定の場所に、その場所に存在する人物を撮影可能な位置にカメラ(CCDカメラなど)を設けておき、各人物の衣服に異なる図形、記号または模様或いはそれらの組み合わせの異なるマークを付しておき、カメラの撮影画像から人物を特定するようにしてもよい。
【0062】
上述したように、IRタグ40は、IRタグ24と同じ構成であり、赤外線信号を送信する。送信された赤外線信号は、IRトラッカ26で検出される。したがって、IRタグ40に対応する対象物またはその配置位置(以下、「位置情報」という。)をサーバ12内の記憶装置(HD、ROMまたはDB12a)に記憶しておけば、この位置情報とIRトラッカ26の検出ID番号とから、当該IRトラッカ26を備えるウェアラブルユニット20を装着する人物が存在する場所を特定することができる。
【0063】
図4は、サーバ12のDB12aに記憶されるLookファイルの一例を示す図解図である。このLookファイルは、上述したように、ウェアラブルユニット20のPC22から送信される視線情報に従って生成される。この図4を参照して、Lookファイルには、人物(割当ID番号)毎に、検出ID番号と、当該検出ID番号の検出を開始した開始時刻すなわち注視開始時刻および当該ID番号を検出しなくなった終了時刻すなわち注視終了時刻とが、たとえば、時系列に従って記憶される。ただし、図4の上から下に向かうに従って、時間が進行する。また、これ以降では、注視開始時刻と注視終了時刻とで規定される期間を「注視期間」と呼ぶことがある。
【0064】
また、図5は、サーバ12のDB12aに記憶されるSpeechファイルの一例を示す図解図である。Speechファイルは、上述したように、ウェアラブルユニット20のPC22から送信される発話情報に従って生成される。この図5を参照して、Speechファイルには、人物(割当ID番号)毎に、発話開始時刻と発話終了時刻とが、たとえば、時系列に従って記憶される。ただし、図5の上から下に向かうに従って時間が進行する。なお、図示は省略するが、音声データは、DB12aの別の領域に記憶される。また、これ以降では、発話開始時刻と発話終了時刻とで規定される期間を「発話期間」と呼ぶことがある。
【0065】
なお、この実施例では、DB12aをサーバ12の内部に設けるようにしてあるが、DB12aはサーバ12に直接接続するようにしてもよく、LANやインターネットのようなネットワークを介して接続するようにしてもよい。
【0066】
このような構成のシステム10は、たとえば、ポスターや置物(陶器など)のようなオブジェクトの展示会場ないし展示ブースに設置することができる。このような場所では、或るオブジェクトを説明する人物(説明者)と、その説明を聞いたり、説明者との間で質疑応答などの会話をしたりする人物(来訪者)とが存在し、また、そのような会話(の場)に、来訪者が参与(介入)したり、傍観したりする様子を観察することができる。
【0067】
なお、この実施例では、オブジェクトの展示会場にシステム10を設置する場合について説明するが、これに限定される必要はなく、いわゆる井戸端会議、または、ラウンドテーブルを囲んだ自由討論等の打ち合わせのような会話の起こり得る場所に設置することができる。ただし、会話するのは人物のみならず、コミュニケーションロボットであってもよい。
【0068】
図6に示す例は、説明者AがポスターPの内容を説明し、その説明を来訪者Cが聞いている様子、または、説明者Aと来訪者Cとの間で会話が行われている様子を示している。また、来訪者Bは、説明者Aの説明や説明者Aと来訪者Cとの会話を少し離れた場所で傍観している。
【0069】
また、図6に示すように、説明者A、来訪者Bおよび来訪者Cは、それぞれ、図1に示したウェアラブルユニット20を装着している。また、ポスターPはホワイトボードや掲示板等に貼り付けられ、当該ポスターPに対応してIRタグ40がその近傍に設けられる。たとえば、ポスターPに対応するIRタグ40は、ウェアラブルユニット20を装着している人物が当該ポスターP(または説明者A)に視線を向けたときに、当該ウェアラブルユニット20に含まれるIRトラッカ26で検出可能な位置に設けられる。
【0070】
なお、簡単のため、図6では省略するが、図1に示したサーバ12は、上述したように、PC22と通信可能に設置され、たとえば、当該展示物(ポスターP)が設けられる場所(部屋)の近傍に設置されてもよく、また、その場所とは別の場所に設置されてもよい。サーバ12を別の場所に設置する場合には、有線や無線のLANを用いることにより、PC22との間で通信することができる。
【0071】
図7は人物A(B,Cも同じ。)がウェアラブルユニット20を装着している例を示す図解図である。この図7を参照して分かるように、人物Aは、ヘッドセットタイプのマイク28を装着し、マイク28が連結される側(図7では右側頭部)とは反対側(左側頭部)であり、マイク28を頭部に装着するためのアームにIRタグ24およびIRトラッカ26が設けられる。そして、人物Aは、たとえば、PC22を入れたリュックサックを背負い、PC22と、IRトラッカ26およびマイク28とは電気的に接続される。
【0072】
なお、IRタグ24およびIRトラッカ26を人物の頭部に装着するようにするのは、通常の会話においては、説明者のような話し手は、来訪者のような受け手(受け手)の顔を見ながら発話するためであり、その話し手と受け手とを互いに正確に検出するためである。たとえば、IRタグ24およびIRとラッカ26を人物の胴体に装着した場合には、話し手が顔だけを受け手に向けて発話している場合には、話し手と受け手とが装着するIRタグのID番号を、互いに正確に検出することができなくなってしまう。
【0073】
たとえば、図6に示したように、ポスターPの内容を説明する会場において、説明者Aが来訪者CにポスターPの内容について説明を行っている、すなわち説明者Aと来訪者Cとの間で会話が進行しているときに、その場に来訪者Bが現れ、その後、来訪者Bが説明者Aと来訪者Cとの会話(の場)に参与したとする。
【0074】
この場合における、第三者(人物B)の会話への参与手続きと人物A,B,Cの参与役割とを、時系列に従って説明することにする。ただし、参与役割は、背景技術で示した会話参与の枠組みをモデルに従って説明することにする。つまり、会話の中核的役割から、「話し手」,「受け手」,「傍参与者」,「傍観者」,「盗み聞き者」の順に左から並んでいる(図18参照)。
【0075】
ここで、話し手(speaker)とは、発話している者をいう。ただし、「あー」、「へー」、「そうですか」等の短い応答或いは相槌は発話とみなさないようにしてある。受け手(addressee)とは、話し手に視線を向けられて、話しかけられている者をいう。傍参与者(side participant)とは、話し手によって存在は意識されているが、話しかけられていない者をいう。つまり、自分以外に話しかけられている者が存在する。傍観者(bystander)とは、話し手によって存在を意識されていない者をいう。つまり、話し手の視線が全く向けられていない。盗み聞き者(eavesdropper)とは、話し手、受け手、傍参与者、傍観者に存在を意識されないように、話し手と受け手との会話を勝手に(無断で)聞き取る者をいう。ただし、この実施例のシステム10が適用されるのは、オブジェクトの内容を説明する会場などであるため、会話はオープンであり、参与役割が盗み聞き者となることはない。
【0076】
(1)まず、人物Aすなわち説明者AはポスターPの内容を人物Cすなわち来訪者Bに説明している。ただし、この時点では、人物Bすなわち来訪者Bは、説明者Aと来訪者Cとの会話の場に近づいていない。このときの説明者Aの参与役割は「話し手」であり、来訪者Cの参与役割は「受け手」である。また、この時点では、来訪者Bは、説明者Aと来訪者Cとの会話の場に近づいていないため、参与役割はない。
【0077】
(2)次に、来訪者Bは、説明者Aと来訪者Cとの会話の場に近づき、当該場に留まる。すると、説明者Aおよび来訪者C(既存の参与者)は、来訪者Bの存在を意識する。このときの説明者Aの参与役割は「話し手」であり、来訪者Bの参与役割は「傍参与者」であり、来訪者Cの参与役割は「受け手」である。
【0078】
(3)続いて、来訪者Bは、説明者Aに話しかけ始める。すると、説明者Aおよび来訪者C(既存の参与者)は、来訪者Bに視線を向ける。このときは、説明者A、来訪者Bおよび来訪者Cの参与役割は遷移(移行)している状態となる。
【0079】
(4)そして、来訪者Bが説明者Aに対して話す(発話する)。このとき、来訪者Bの視線は説明者Aに向けられるため、説明者Aの参与役割は「受け手」であり、来訪者Bの参与役割は「話し手」である。また、このとき、来訪者Bの視線は来訪者Cには向けられていないが、来訪者Cは来訪者Bの発話を聞いている状態であるため、来訪者Cの参与役割は「傍参与者」である。
【0080】
このように、来訪者Bの会話への参与手続きが行われる。したがって、この実施例では、会話の外にいた人物(目標の人物)がどのように会話の中核に参与していくのかを、時系列の変化で分かり易くするために、図8に示すような参与手続きについてのモデルを提案する。
【0081】
この図8に示すモデルでは、初め会話の外にいた人物(非参与者)が(START)、意識的に会話の場(会話場)に近づき、或る一定時間留まり、既存の参与者に存在を意識され始める(1)。つまり、当該人物の参与役割が「傍観者(BYS:bystander)」になる(昇格する)。そして、既存の参与者らに確実に存在を意識される。つまり、当該人物は会話へ参与し、その参与役割が「傍参与者(SPT:side participant)」に昇格する(2)。当該人物の参与役割がSPTの状態において、現在の話し手が、当該人物に向けて策定(デザイン)し、産出した発話を受け取ると、当該人物の参与役割は「受け手(ADR:addressee)」に昇格する(3)。一方、当該人物の参与役割がSPTの状態において、当該人物が意識的に既存の参与者に話しかけると、当該人物の参与役割は「話し手(SPK:speaker)」に昇格する(4)。
【0082】
ただし、図8において、実線の矢印は、当該人物が自ら参与役割を昇格させること(積極的昇格)を意味し、点線の矢印は、当該人物が他の参与者によって参与役割を昇格されること(消極的昇格)を意味する。また、図8において、SPKとADRとの間に表記した白抜き矢印は、SPKとADRとの間で、参与役割が交替すること(話者交替)を意味する。
【0083】
また、この図8に示す例では、参与役割がSPTの状態から、SPKまたはADRに昇格するようにしてあるが、参与役割がBYSの状態から、SPKまたはADRに昇格する場合も有り得る。
【0084】
ここで、参与役割の動的な変化は、上述したLookファイルとSpeechファイルとの少なくとも一方に基づいて認識される。ただし、ちらっと他の人物や対象物が視界に入っただけのように、単に視線が他の人物や対象物に向いているだけで、意識的に当該他の人物や対象物を見ていない場合には、見る(注視)行為(以下、「Look」という場合がある。)から排除するようにしてある。また、同様に、「あ〜」、「うん」など、単に相槌を打つだけのように、他の人物に向けて策定した言葉を産出していない(発していない)場合には、発話行為(以下、「Speech」という場合がある。)から排除するようにしてある。
【0085】
この実施例では、PC22から入力された視線情報および発話情報を、それぞれ閾値処理(図9および図11の下処理)することにより、或る持続長を持った単位としてまとめるようにしてある。つまり、一定以上の長さが検出される場合のみ、注視行為または発話行為と判断するようにしてある。
【0086】
次に、閾値処理(下処理)を施したLookファイルとSpeechファイルとの少なくとも一方に対して3つのルールを適用し、参与役割のラベルを人物毎に付す。これ以降では、着目する(目標の)来訪者(ターゲット来訪者)に参与役割が付与される場合を例に挙げて、各ルールについて説明することにする。ただし、他の人物は、ターゲット来訪者Tvと同じ場所に存在する人物である。また、これ以降では、或る1箇所におけるターゲット来訪者Tvの参与役割を識別する方法(処理)について述べるが、他の場所においても、それぞれ同様の処理が実行されるのである。
【0087】
<ルール1>
ルール1は、ターゲット来訪者(Target visitor)Tvが非参与者(NON−P)から傍観者(BYS)、さらには傍参与者(SPT)に、参与役割が変化(昇格)する様子を識別し、各参与役割に対応するラベルを付す処理である。これは、ターゲット来訪者TvについてのLookファイルを参照し、Lookの持続長によって識別(決定)される。具体的には、ターゲット来訪者TvのLookの持続長が30秒未満である場合には、参与役割がNON−Pと識別される。また、Lookの持続長が30秒以上60秒未満である場合には、参与役割がBYSと識別される。さらに、Lookの持続長が60秒以上である場合には、参与役割がSPTと識別される。
【0088】
ただし、このルール1の処理は、他の人物すなわちターゲット来訪者Tv以外の人物についても、それぞれ実行される。
【0089】
<ルール2>
ルール2は、ターゲット来訪者Tvの受け手(ADR)への昇格を決定する処理を実行する。これは、今、話をしている人物(説明の都合上、「人物H」とする。)がターゲット来訪者Tvを見ているかどうかを、当該人物HのSpeechファイルとLookファイルとから識別する。具体的には、人物HのSpeechの持続期間(人物Hの参与役割が話し手と識別される期間)に、当該人物Hがターゲット来訪者TvへのLookを開始している場合に、当該ターゲット来訪者Tvの参与役割をADRと識別する。そして、ターゲット来訪者Tvの参与役割がADRである期間は人物Hが当該ターゲット来訪者Tvを視野内に捉え始めてから捉え終わるまでの間(注視期間)に決定される。
【0090】
ただし、このルール2の処理は、参与役割がSPKであると識別された人物であり、ターゲット来訪者Tv以外の人物についてそれぞれ実行される。
【0091】
<ルール3>
ルール3は、ターゲット来訪者Tvの話し手(SPK)への昇格を決定する処理を実行する。これは、ターゲット来訪者Tvが発話していることを示す。具体的には、ルール1の処理によって、参与役割がBYSまたはSPTと判断されたターゲット来訪者TvのSpeechファイルを参照し、Speechを開始している場合に、当該ターゲット来訪者Tvの参与役割をSPKと識別する。そして、ターゲット来訪者Tvの参与役割がSPKである期間は、Speechの開始から終了までの間(発話期間)を、当該ターゲットTvの参与役割をSPKに識別する。
【0092】
ただし、他の人物と発話期間が重複する場合があるため、後で詳細に説明するように、ターゲット来訪者Tvの参与役割がSPKである期間を調整するようにしてある。
【0093】
また、このルール3の処理は、ターゲット来訪者Tvのみならず、ルール1の処理によって、参与役割がBYSまたはSPTと判断された他の人物についても実行される。
【0094】
なお、上述したように、ルール2では、人物Hが発話しているときに、ターゲット来訪者Tvを見ているかどうかを判断するようにしてあるため、サーバ12の処理においては、ルール3の処理を実行して、ターゲット来訪者Tvを含む人物のSPKへの昇格の識別およびSPKの期間を決定(識別)した後に、ルール2の処理を実行して、ターゲット来訪者Tvの参与役割がADRとなるかどうかを識別するようにしてある。
【0095】
上述したような動作(会話参与役割の識別)を、図1に示したサーバ12が、図9以降に示すフロー図に従って処理する。図9はLookファイルの下処理を示すフロー図である。この図9を参照して、サーバ12は、Lookファイルの読み取りを開始し、Lookファイルの下処理を開始すると、ステップS1で、着目するセグメントの直前のセグメントのendからt1秒(この実施例では、10秒)以内に、着目するセグメントのstartが現れるかどうかを判断する。ここで、セグメントは、注視開始から注視終了までの期間(注視期間)を意味し、この実施例では、注視開始時刻と注視終了時刻との組に相当する。つまり、連続する2つのセグメントのうち、先(時間的に前)のセグメントのend(注視終了時刻)から次(時間的に後)のセグメントのstart(注視開始時刻)までの間が10秒以内であるかどうかを判断する。
【0096】
具体的に説明すると、図10(A)に示すように、サーバ12がLookファイルの読み取りを開始した時刻が時点x1である場合には、着目するのはセグメントn+1であり、直前のセグメントnのendと着目するセグメントn+1のstartとに基づいて、ステップS1の判断処理が実行される。また、図10(A)に示すように、サーバ12がLookファイルの読み取りを開始した時刻が時点x2である場合には、着目するのはセグメントn+2であり、直前のセグメントn+1のendと着目するセグメントn+2のstartとに基づいて、ステップS1の判断処理が実行される。
【0097】
図9に戻って、ステップS1で“NO”であれば、つまり直前のセグメントのendから10秒以内に、着目するセグメントのstartが現れない場合には、ステップS3で、直前のセグメントのendにlook_endをラベルして、ステップS15に進む。ただし、Lookファイルの下処理を初めて実行する場合には、ステップS3の処理は実行されず、そのままステップS15に進む。これは、対応するlook_startのラベルが存在しないためである。したがって、Lookファイルの下処理を初めて実行する場合には、ステップS1の判断処理が2回目以降で、ステップS3の処理は有効になる。
【0098】
なお、look_startおよびlook_endのラベル(以下に説明するラベルも同様。)は、図4に示したLookファイルのおいて、注視開始時刻および注視終了時刻が記述される右側に付すようにしてある。
【0099】
一方、ステップS1で“YES”であれば、つまり直前のセグメントのendから10秒以内に、着目するセグメントのstartが現れる場合には、ステップS5で、着目するセグメントのstartからt2秒(この実施例では、10秒)以内に、着目するセグメントのendが現れないかどうかを判断する。
【0100】
ここで、着目するセグメントのstartから10秒以内に、着目するセグメントのendが現れない場合には、ステップS5で“YES”となり、ステップS7で、着目するセグメントのstartにlook_startをラベルし、ステップS9で、次のセグメントが有るかどうかを判断する。これは、1分毎にウェアラブルユニット20から視線情報が送られてくるためである。ステップS9で“YES”であれば、つまり次のセグメントが有れば、当該次のセグメントを着目するセグメントとして、ステップS1に戻る。一方、ステップS9で“NO”であれば、つまり次のセグメントが無ければ、ステップS11で、着目するセグメントのendにlook_endをラベルして、Lookファイルの下処理を終了する。
【0101】
また、ステップS5で“NO”であれば、つまり着目するセグメントのstartから10秒以内に、着目するセグメントのendが現れる場合には、ステップS13で、直前のセグメントのendにlook_endをラベルして、ステップS15に進む。ただし、初めてLookファイルの下処理を実行する場合には、ステップS13の処理は実行されず、そのままステップS15に進む。これは、ステップS3の場合と同じ理由である。
【0102】
具体的に説明すると、図10(B)に示すように、着目するセグメントn+2において、そのstartからendまでの期間がt2秒(10秒)未満である場合には、直前のセグメントn+1のendに、look_endをラベルする。したがって、着目するセグメントn+2では、そのstartおよびendに対してラベルが付されることがない。つまり、或る程度の持続長を有するセグメントのみに、look_startおよびlook_endのラベルが付されるのである。
【0103】
ステップS15では、次のセグメントがあるかどうかを判断する。ステップS15で“YES”であれば、つまり次のセグメントが有る場合には、当該次のセグメントを着目するセグメントとして、ステップS1に戻る。一方、ステップS15で“NO”であれば、つまり次のセグメントが無い場合には、そのままLookファイルの下処理を終了する。
【0104】
このようにして、Lookファイルの注視開始時刻(start)と注視終了時刻(end)との間隔が10秒以上である場合に、注視行為(Look)と認められ、look_startおよびlook_endがラベルされ、その後の処理(ルール1−ルール3)に利用される。逆に、注視行為(Look)と認められないセグメントは、排除されるのである。
【0105】
図11はSpeechファイルの下処理を示すフロー図である。このSpeechファイルの下処理は、Lookファイルの下処理と同様の処理であるため、重複する内容については簡単に説明する。図11を参照して、サーバ12がSpeechファイルの下処理を開始すると、ステップS21で、着目するセグメントの直前のセグメントについてのend(発話終了時刻)からt3秒(この実施例では、1秒)以内に、着目するセグメントのstart(発話開始時刻)が現れるかどうかを判断する。
【0106】
なお、着目するセグメントについては、Lookファイルの下処理において、図10(A)を用いて説明した場合と同様である。
【0107】
ステップS21で“NO”であれば、つまり直前のセグメントのendから1秒以内に、着目するセグメントのstartが現れない場合には、ステップS23で、直前のセグメントのendにspeech_endをラベルして、ステップS35に進む。ただし、Lookファイルの下処理(図9)と同様に、Speechファイルの下処理を初めて実行する場合には、ステップS23の処理は実行されず、そのままステップS35に進む。つまり、ステップS23の処理は、Lookファイルの下処理を初めて実行する場合には、ステップS21の判断処理が2回目以降で有効になる。
【0108】
一方、ステップS21で“YES”であれば、つまり直前のセグメントのendから1秒以内に、着目するセグメントのstartが現れる場合には、ステップS25で、着目するセグメントのstartからt4秒(この実施例では、1秒)以内に、着目するセグメントのendが現れないかどうかを判断する。
【0109】
ここで、着目するセグメントのstartから1秒以内に、着目するセグメントのendが現れない場合には、ステップS25で“YES”となり、ステップS27で、着目するセグメントのstartにspeech_startをラベルし、ステップS29で、次のセグメントが有るかどうかを判断する。ステップS29で“YES”であれば、当該次のセグメントを着目するセグメントとして、ステップS21に戻る。一方、ステップS29で“NO”であれば、ステップS31で、着目するセグメントのendにspeech_endをラベルして、Speechファイルの下処理を終了する。
【0110】
また、ステップS25で“NO”であれば、つまり着目するセグメントのstartから1秒以内に、着目するセグメントのendが現れる場合には、ステップS33で、直前のセグメントのendにspeech_endをラベルし、ステップS35に進む。ただし、ステップS33の処理は、上述のステップS23の処理と同様に、Speechファイルの下処理を初めて実行する場合には、ステップS33の処理は実行されない。つまり、ステップS33の判断処理は、Speechファイルの下処理を初めて実行する場合には、ステップS25の処理が2回目以降で有効になる。
【0111】
ステップS35では、次のセグメントが有るかどうかを判断する。ステップS35で“YES”であれば、当該次のセグメントを着目するセグメントとして、ステップS21に戻る。一方、ステップS35で“NO”であれば、そのままSpeechファイルの下処理を終了する。
【0112】
このSpeechファイルの下処理においても、或る程度の持続長を有するセグメントにのみ、speech_startおよびspeech_endのラベルが付され、以降の処理(ルール2,ルール3)において利用される。したがって、発話行為(Speech)とみなされないセグメント(不要なデータ)は排除される。
【0113】
なお、図9に示したLookファイルの下処理および図11に示したSpeechファイルの下処理は、ウェアラブルユニット20を装着しているすべての人物(説明者および来訪者)のLookファイルおよびSpeechファイルについて実行される。
【0114】
図12および図13はルール1の処理を示すフロー図である。ここで、ルール1は、上述したように、非参与者(NON−P)から傍観者(BYS)、さらには、傍参与者(SPT)までの昇格(遷移)を決定(識別)するためのルールである。これは、上述したように、来訪者が会場のポスター等のオブジェクトを見ている時間によって決定される。つまり、Lookの持続長(持続時間)によって決定されるのである。
【0115】
ただし、ルール1の処理は、オブジェクトすなわち会場(会話の場)毎に実行される。ここでは、簡単のため、或る1の会話の場についての処理を説明することにする。なお、いずれの会場に存在するかは、Lookファイルの検出ID番号で識別することが可能である。
【0116】
また、上述したように、LookファイルおよびSpeechファイルの下処理は1分毎に実行されるため、このルール1の処理も同様に、1分毎に実行することができる。
【0117】
具体的には、図12に示すように、サーバ12はルール1の処理を開始すると、ステップS41で、side−p継続フラグがオンであるかどうかを判断する。ここで、side−p継続フラグは、後述するように、side−p_startのラベルが付されたが、side−p_endのラベルが付されていない状態、すなわち来訪者の参与役割がSPTである状態が継続していることを示すフラグである。図示は省略するが、このside−p継続フラグは、サーバ12の図示しないRAMの作業領域に記憶され、たとえば、1ビットのレジスタで構成される。また、side−p継続フラグがオン(成立)であれば、レジスタにデータ値「1」が設定され、逆に、side−p継続フラグがオフ(不成立)であれば、レジスタにデータ値「0」が設定される。
【0118】
ステップS41で“YES”であれば、つまりside−p継続フラグがオンであれば、図13に示すステップ63に進む。一方、ステップS41で“NO”であれば、つまりside−p継続フラグがオフであれば、ステップS43で、look_startラベルからlook_endが出現するまでの時間がt5秒(この実施例では、30秒)を経過するかどうかを判断する。つまり、Lookの持続長が30秒以上であるかどうかを判断する。ステップS43で“NO”であれば、つまり持続長が30秒以上でなければ、ステップS45で、look_startに、non−p_startをラベルして、ステップS53に進む。
【0119】
なお、このルール1の処理では、Lookファイルにおいて、look_startおよびlook_endのラベルの右側に、non−p_start等のラベルが付される。
【0120】
また、non−p_startからnon−p_endまでの期間が、参与役割がNON−Pである期間であり、bys_startからbys_endまでの期間が、参与役割がBYSである期間であり、そして、side−p_startからside−p_endまでの期間が、参与役割がSPTである期間である。
【0121】
一方、ステップS43で“YES”であれば、つまりLookの持続長が30秒以上であれば、ステップS47で、look_startにnon−p_endおよびbys_startをラベルし、ステップS49で、当該look_startラベルからlook_endが出現するまでの時間がt6秒(この実施例では、60秒)経過するかどうかを判断する。つまり、Lookの持続長が60秒以上であるかどうかを判断する。ステップS49で“NO”であれば、つまりLookの持続長が30秒以上60秒未満である場合には、ステップS51で、look_endに、bys_endおよびnon−p_startをラベルし、ステップS53に進む。
【0122】
ステップS53では、次のlook_startラベルがあるかどうかを判断する。ステップS53で“YES”であれば、つまり次のlook_startラベルが有れば、ステップS43に戻って、次のlook_startとlook_endとについての識別およびラベリングを行う。一方、ステップS53で“NO”であれば、つまり次のlook_startラベルが無ければ、図13に示すように、そのままルール1の処理を終了する。
【0123】
また、ステップS49で“YES”であれば、つまりLookの持続長が60秒以上である場合には、ステップS55で、t6秒(60秒)経過点に、bys_endおよびside−p_startをラベルし、ステップS57に進む。このルール1の処理では、Look_startラベルが検出されてから30秒経過点を、NON−PからBYSへの昇格点、60秒経過点を、BYSからSPTへの昇格点と定義しているため、ステップS55では、60秒経過点に、bys_endおよびside−p_startをラベルするようにしてある。ただし、上述したように、Lookファイルでは、look_startおよびlook_endのラベルが時間とともに記述されているだけであるため、実際には、bys_endおよびside−p_startのラベルは、着目するlook_startとlook_endとの間に付されることになる。
【0124】
ステップS57では、side−p継続フラグをオンし、図13に示すステップS59で、side−p継続フラグがオンかどうかを判断する。ここで、“YES”であれば、そのままルール1の処理を終了する。しかし、“NO”であれば、ステップS61で、着目するLook_endに、side_endをラベルして、ルール1の処理を終了する。ここで、Lookファイルに含まれるすべてのLook期間(現会話の場についてのすべてのlook_startとlook_endとの組)についてルール1の処理が終了したかどうかを判断する。つまり、参与役割がSPTとなった後では、現在の会話の場から立ち去るまでは、最低でもSPTが維持され、時間帯によっては、SPKに昇格(遷移)し、または、ADRに昇格(遷移)する。したがって、次回以降のルール1の処理において、ステップS41,S63およびS65の処理を実行して、SPTの期間を正確に判断するようにしてある。
【0125】
上述したように、ステップS41で“YES”であれば、ステップS63で、t7秒(この実施例では、60秒)間に、次のlook_startがあるかどうかを判断する。つまり、参与役割がSPTである期間が継続しているかどうかを判断する。ステップS63で“YES”であれば、つまり60秒間に次のlook_startのラベルが有る場合には、SPTの期間が継続していると判断して、そのままルール1の処理を終了する。しかし、ステップS63で“NO”であれば、つまり60秒間に次のLook_startのラベルが無い場合には、ステップS65で、side−p継続フラグをオフして、ステップS61で、着目するLook_endに、side−p_endをラベルして、ルール1の処理を終了する。
【0126】
なお、ステップS61で、着目するlook_endは、S59で“NO”と判断された場合には、ステップS49の判断処理において着目したlook_endである。ただし、ステップS63で“NO”と判断された場合には、前回のルール1の処理を実行したときに、ステップS63の判断処理において着目したlook_startに対応するlook_endが、着目するlook_endである。
【0127】
上述したように、このルール1の処理は、Lookファイルの下処理およびSpeechファイルの下処理と同様に、1分毎に実行することができ、したがって、ターゲット来訪者Tvが非参与者から傍観者に、さらには傍参与者に昇格する様子を時系列に従って識別することができるのである。
【0128】
なお、ルール1の処理を1分毎に実行するようにしてあるが、t5秒やt6秒を正確に判断するために、ステップS43やステップS49において、look_startに対応するlook_endが出現していない場合には、当該look_endが出現するのを待機するようにしてある。ただし、長時間待機すると、処理遅延が発生してしまうため、待機時間は所定時間(たとえば、30秒)としてある。
【0129】
図14はルール3の処理を示すフロー図である。このルール3の処理は、話し手(SPK)への昇格を識別するための処理である。したがって、ルール3の処理は、ルール1の処理で、参与役割がBYSまたはSPTと判断された人物について、実行される。これは、非参与者(N〇N−P)がいきなり話し手(SPK)となることが希だからである。上述したように、ターゲット来訪者TvのSpeechファイルに基づいて、その参与役割がSPKに昇格したかどうかを判断(識別)する。簡単に説明すると、ターゲット来訪者TvのLookファイルにおいて、bys_startおよびbys_endのラベル、または、spt_startおよびspt_endのラベルが付された時刻以降に、当該ターゲット来訪者TvのSpeechファイルにおいて、speech_startおよびspeech_endのラベルが付された発話期間が存在する場合に、参与役割がSPKに昇格(遷移)したと識別する。ただし、他の人物(説明者や他の来訪者)がSPKとなる場合があるため、SPKとなる期間が重ならないように、調整してある。
【0130】
つまり、図15(A)に示すように、ターゲット来訪者Tvの発話期間(S−E)が他の人物の発話期間と重ならない場合には、ターゲット来訪者Tvの発話期間がそのままSPKの期間と判断される。また、図15(B)に示すように、ターゲット来訪者Tvの発話期間に他の人物の発話期間が含まれる場合には、他の人物の発話期間が短いためターゲット来訪者Tvの発話に対する同意や否定の言葉(相槌よりは長い言葉)を発しただけと判断し、この場合にも、ターゲット来訪者Tvの発話期間がそのままSPKの期間と判断される。ただし、図15(C)に示すように、ターゲット来訪者Tvの発話期間と他の人物の発話期間とが一部重複するように、全体としてずれている場合には、ターゲット来訪者TvのSPKの期間を当該他の人物との間で調整する必要がある。これは、或る時間帯(共事態)では、参与役割がSPKとなる人物は1人だからである。したがって、この実施例では、図15(C)に示すように、ターゲット来訪者TvのSPKの期間は、当該ターゲット来訪者Tvのspeech_startから他の人物のspeech_startに対応する時刻までと判断するようにしてある。
【0131】
なお、上述したように、ルール3の処理は、Speechファイルのうち、ルール1の処理において、参与役割がBYSまたはSPTと判断された後の発話期間に基づいて実行される。
【0132】
具体的には、図14に示すように、サーバ12がルール3の処理を開始すると、ステップS71で、ターゲット来訪者Tvのspeech_startが来るかどうかを判断する。ステップS71で“NO”であれば、つまりターゲット来訪者Tvのspeech_startが来ない場合には、発話期間が存在しない、すなわち参与役割がSPKに昇格していないと判断し、そのままルール3の処理を終了する。一方、ステップS71で“YES”であれば、つまりターゲット来訪者Tvのspeech_startが来る場合には、ステップS73で、ターゲット来訪者Tvのspeech_startにspk_startをラベルする。
【0133】
なお、spk_startからspk_endまでの期間が、ターゲット来訪者Tvの参与役割がSPKである期間である。
【0134】
続くステップS75では、ターゲット来訪者Tvのspeech_startの後ろであり、かつ当該speech_start対応する(発話期間を規定する)speech_endの前に、他の人物のspeech_startがあるかどうかを判断する。ここで、他の人物は、ターゲット来訪者Tvが存在する場所に存在するターゲット来訪者Tv以外の人物である。したがって、他の人物は複数存在する場合もある。具体的には、同じ時間帯に同じオブジェクトのID番号を検出している人物が「他の人物」に該当する。ステップS75で“NO”であれば、つまり、ターゲット来訪者Tvのspeech_startの後ろであり、かつ当該speech_startに対応するspeech_endの前に、他の人物のspeech_startがない場合には、ターゲット来訪者Tvの発話期間と他の人物の発話期間とが重ならないと判断して、ステップS77で、ターゲット来訪者Tvのspeech_endに、spk_endをラベルする。そして、ステップS79で、ターゲット来訪者TvのSpeechファイルにおいて、次のspeech_startが来るかどうかを判断する。ステップS79で“NO”であれば、つまり次のspeech_startが来ない場合には、そのままルール3の処理を終了する。一方、ステップS79で“YES”であれば、つまり次のspeech_startが来れば、ステップS73に戻って、次の発話期間に基づいてターゲット来訪者TvのSPKの期間を決定する。
【0135】
また、一方、ステップS75で“YES”であれば、つまり、ターゲット来訪者Tvのspeech_startの後ろであり、かつ当該speech_startに対応するspeech_endの前に、他の人物のspeech_startがある場合には、ステップS81で、ターゲット来訪者Tvのspeech_endの後ろに、当該他の人物の対応するspeech_endがあるかどうかを判断する。
【0136】
ただし、ターゲット来訪者Tvが存在する場所には、複数の他の人物が存在する場合があるため、ステップS75で“YES”と判断された場合に、着目する人物は、speech_startのラベルが来る時刻が最も早い人物に決定される。したがって、ステップS81では、その着目する人物についてのspeech_startに対応するspeech_endについて判断しているのである。
【0137】
ステップS81で“NO”であれば、つまり、ターゲット来訪者Tvのspeech_endの後ろに、当該他の人物のspeech_endがない場合には、当該他の人物の発話期間がターゲット来訪者Tvの発話期間に含まれると判断して、ステップS77に進む。一方、ステップS81で“YES”であれば、つまり、ターゲット来訪者Tvのspeech_endの後ろに、当該他の人物のspeech_startに対応するspeech_endがある場合には、ステップS83で、ターゲット来訪者TvのSpeechファイルにおいて、当該他の人物のspeech_startと同時点(同時刻)に、spk_endをラベルして、ステップS79に進む。なお、この場合には、当該他の人物のspeech_startと同時点のラベルが、ターゲット来訪者TvのSpeechファイルには存在しないため、ターゲット来訪者TvのSpeechファイルにおいて、着目するspeech_endのラベルの右側に、当該他の人物のspeech_startと同時点の時刻を記述するとともに、spk_endがラベルされる。つまり、ステップS83では、ターゲット来訪者TvのSPKとしての期間は、当該ターゲット来訪者Tvの発話期間から、重複する他の人物の発話期間が排除された期間に決定されるのである。
【0138】
このように、ルール3の処理を実行することにより、ターゲット来訪者Tvの参与役割がSPKに昇格したか否かが識別されるとともに、ターゲット来訪者Tvの参与役割がSPKである期間が決定される。
【0139】
なお、上述したように、このルール3の処理は、ルール1の処理により、参与役割がBYSまたはSPTと判断されたすべての人物について実行される。具体的には、図14に示すルール3の処理において、各人物をターゲット来訪者Tvに当てはめればよい。
【0140】
図16はルール2の処理を示すフロー図である。このルール2の処理は、上述したように、受け手(ADR)への昇格を決定(識別)するための処理である。上述したように、話している人物(説明の便宜上、人物Hとする。)、すなわち参与役割がSPKの人物Hが見ている人物(ここでは、ターゲット来訪者Tv)を、当該人物HのSpeechファイルとLookファイルとから識別する。つまり、人物HのSPKの期間に、当該人物Hがターゲット来訪者TvへのLookを開始している場合に、ターゲット来訪者Tvの参与役割がADRに昇格(遷移)したと判断する。また、ターゲット来訪者Tvの参与役割がADRである期間は、当該人物Hが発話開始後に当該ターゲット来訪者Tvを視野内に捉え初めてから捉え終わるまでの期間すなわち注視期間に決定する。したがって、図17(A)に示すように、人物HのSpeechファイルにおいて、spk_startとspk_endとがラベリングされている期間に、図17(B)に示すように、ターゲット来訪者Tvに対する人物Hのlook_startが来る場合には、当該look_startにadr_start_Tvがラベリングされ、当該look_startに対応する(注視期間を規定する)look_endに、adr_end_Tvがラベリングされる。
【0141】
なお、この実施例では、look_endの時点に、adr_end_Tvをラベルするようにしてあるが、Lookファイルにおいて、spk_endに対応する時点(時刻)に、adr_end_Tvをラベルするようにしてもよい。つまり、人物Hの参与役割がSPKであると判断される期間と重複する期間のみを、ターゲット来訪者Tvの参与役割がADRであると判断されるようにしてもよい。
【0142】
ただし、このルール2の処理は、ルール3の処理の後に実行され、ルール3の処理を行った人物(ターゲット来訪者Tvを含む。)のうち、参与役割がSPKに昇格したと判断された人物についてのみ実行される。したがって、ルール3の処理により、参与役割がSPKに昇格した人物が複数存在する場合には、その複数の人物の各々について、ルール2の処理が実行されるのである。これにより、ターゲット来訪者Tvの参与役割がADRに昇格(遷移)するか否かが判断(識別)され、また、参与役割がADRである期間が決定される。ただし、ルール2の処理は、ルール3の処理と同様に、SpeechファイルおよびLookファイルのうち、ルール1の処理において、参与役割がBYSまたはSPTと判断された後の発話期間および注視期間に基づいて実行される。
【0143】
具体的には、図16に示すように、サーバ12がルール2の処理を開始すると、ステップS91で、人物Hのspeech_startの後ろに、人物Hのターゲット来訪者Tvに対するlook_startが来るかどうかを判断する。ステップS91で“NO”であれば、つまり人物Hのspeech_startの後ろに、人物Hのターゲット来訪者Tvに対する、look_startが来ない場合には、そのまま同じステップS91に戻る。
【0144】
なお、人物Hのターゲット来訪者Tvに対するlook_startは、Lookファイルに含まれる検出ID番号に基づいて判断される。つまり、ステップS91では、ターゲット来訪者Tvについての検出ID番号が含まれる注視期間のlook_startを来るかどうかを判断するのである。
【0145】
一方、ステップS91で“YES”であれば、つまりつまり人物Hのspk_startの後ろに、人物Hのターゲット来訪者Tvに対する、look_startが来る場合には、ステップS93で、人物HのLookファイルにおけるlook_startにadr_start_Tvをラベルする。ここでは(図16もおいて同じ。)、説明の便宜上、adr_start_Tvをラベルするようにしてあるが、このラベルの最後の添え字(Tv)は、厳密には、ターゲット来訪者Tvの検出ID番号またはその識別子である。
【0146】
なお、adr_start_Tvからadr_end_Tvまでの期間が、ターゲット来訪者Tvの参与役割がADRである期間である。
【0147】
次のステップS95では、人物HのLookファイルにおけるlook_end、すなわちadr_start_Tvがラベルされたlook_startに対応するlook_endにadr_end_Tvをラベルする。ただし、上述したように、厳密に言うと、このラベルの最後の添え字(Tv)は、ターゲット来訪者Tvの検出ID番号またはその識別子である。そして、ステップS97では、人物HのSpeechファイルに、次のspk_startがあるかどうかを判断する。ステップS97で“YES”であれば、つまり人物HのSpeechファイルに、次のspk_startが有る場合には、ステップS91に戻って、次のspk_startからspk_endまで(SPKの期間)において、ターゲット来訪者TvがADRとなる期間があるかどうかを識別する。一方、ステップS97で“NO”であれば、つまり人物HのSpeechファイルに、次のspk_startが無い場合には、ルール2の処理を終了する。
【0148】
このように、ルール2の処理によって、ターゲット来訪者Tvの参与役割がADRと判断され、その期間が決定される。しかし、ターゲット来訪者Tvの参与役割がADRであることを示すラベルは、人物HのLookファイルに記述されている。したがって、ルール2の処理を実行した後では、人物HのLookファイルに記述されたターゲット来訪者Tvの参与役割がADRであることを示すラベルを、当該ターゲット来訪者Tvのファイル(たとえば、SpeechファイルまたはLookファイル)に記述する必要がある。具体的には、ターゲット来訪者TvのSpeechファイルまたはLookファイルに、人物HのLookファイルに記述された当該ターゲット来訪者TvのADRについてのラベル(adr−start,adr−end)を、ラベルに対応する時間とともに記述する。このようにすれば、下処理、ルール1、ルール3およびルール2の処理を終えた、ターゲット来訪者TvのSpeechファイルおよびLookファイルを参照することにより、或る会話の場における当該ターゲット来訪者Tvの参与役割の時間変化を知ることができる。つまり、ターゲット来訪者Tvの会話参与手続きを認識することができるのである。
【0149】
この実施例によれば、ターゲット来訪者についての時系列に従う参与役割を識別するので、当該ターゲット来訪者の会話参与手続きの動的な変化を認識することができる。つまり、或る人物についての会話への参与手続きの通事態を知ることができる。
【0150】
また、このように、或る人物についての会話への参与手続きの通事態を知ることができるため、コミュニケーションロボットを会話の場に参与させる場合には、コミュニケーションロボット自身の現在の参与役割を識別し、参与役割がBYSまたはSPTと識別されるときに、発話させたり、受け手となるように振舞わせたりすることができる。つまり、場の読める振る舞い(コミュニケーション行動)を実行するコミュニケーションロボットを設計することができる。
【0151】
なお、この実施例では、ウェアラブルユニットから送信する発話情報に音声データを含むようにしたが、会話参与手続きを認識する場合には、発話開始時刻と発話終了時刻とが分かればよいため、発話情報に音声データを含める必要はない。つまり、発話開始時刻および発話終了時刻のみを送信するようにしてもよい。
【0152】
また、この実施例では、或る会話の場に存在する人物を特定するために、オブジェクトに対して設けらたIRタグ40のID番号を用いるようにしたが、説明会場のような場所では、説明者を特定することは可能であるため、当該説明者のID番号を用いるようにしてもよい。
【図面の簡単な説明】
【0153】
【図1】図1はこの発明の会話参与手続き認識システムの一例を示すブロック図である。
【図2】図2は図1に示すIRタグの具体的な構成の一例を示すブロック図である。
【図3】図3は図1に示すIRトラッカの具体的な構成の一例を示すブロック図である。
【図4】図4は図1に示すサーバ内のDBに蓄積されるLookファイルを示す図解図である。
【図5】図5は図1に示すサーバ内のDBに蓄積されるSpeechファイルを示す図解図である。
【図6】図6は図1に示す会話参与続き認識システムの設置例を示す図解図である。
【図7】図7は図1に示すウェアラブルユニットの人物への装着例を示す図解図である。
【図8】図8は図1実施例で提案する会話参与モデルを示す図解図である。
【図9】図9は図1に示すサーバのLookファイルの下処理を示すフロー図である。
【図10】図10は図9に示すLookファイルの下処理において、着目するセグメントと、look_startおよびlook_endのラベルが付される様子とを説明するための図解図である。
【図11】図11は図1に示すサーバのSpeechファイルの下処理を示すフロー図である。
【図12】図12は図1に示すサーバのルール1の処理の一部を示すフロー図である。
【図13】図13は図12に示す後続するルール1の処理の他の一部を示すフロー図である。
【図14】図14は図1に示すサーバのルール3の処理を示すフロー図である。
【図15】図15は図14に示すルール3の処理において目標の人物の参与役割がSPKと識別される期間を説明するための図解図である。
【図16】図16は図1に示すサーバのルール2の処理を示すフロー図である。
【図17】図17は図16に示すルール2の処理において目標の人物の参与役割がADRと識別される期間を説明するための図解図である。
【図18】図18は背景技術における会話参与役割のモデルを示す図解図である。
【符号の説明】
【0154】
10 …会話参与手続き認識システム
12 …サーバ
20 …ウェアラブルユニット
22 …PC
24,40 …IRタグ
26 …IRトラッカ
28 …マイク
50 …赤外LED
52 …駆動回路
60 …赤外線フィルタ
64 …CMOSイメージセンサ
66 …画像処理装置
【特許請求の範囲】
【請求項1】
少なくとも2人の人物の間で行われる会話に参与する目標の人物の参与手続きを認識する会話参与手続き認識装置であって、
少なくとも各人物の発話開始時刻と発話終了時刻とを含む発話情報を取得する発話情報取得手段、
前記発話取得手段によって取得された発話情報を前記各人物毎に記憶する発話情報記憶手段、
少なくとも、前記各人物が視線を向けた前記会話の場に存在する対象についての識別情報と、当該対象に視線を向け始めた注視開始時刻および当該対象から視線をそらした注視終了時刻とを含む視線情報を取得する視線情報取得手段、
前記視線情報取得手段によって取得された視線情報を前記各人物毎に記憶する視線情報記憶手段、および
前記発話情報と前記視線情報との少なくとも一方に基づいて、前記目標の人物の前記会話における参与役割を時系列に従って識別する参与役割識別手段を備える、会話参与手続き認識装置。
【請求項2】
前記参与役割は、少なくとも非参与者および傍参与者を含み、
前記参与役割識別手段は、前記目標の人物の前記視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別する第1識別手段を含む、請求項1記載の会話参与手続き認識装置。
【請求項3】
前記第1識別手段は、前記視線情報に含まれる注視開始時刻と注視終了時刻との間が第1所定期間未満であるとき、前記参与役割を非参与者として識別し、前記注視開始時刻と前記注視終了時刻との間が前記第1所定期間よりも長い第2所定期間以上であるとき、前記参与役割を傍参与者として識別する、請求項2記載の会話参与手続き認識装置。
【請求項4】
前記参与役割は、傍観者をさらに含み、
前記第1識別手段は、前記注視開始時刻と前記注視終了時刻との間が第1所定期間以上第2所定期間未満であるとき、前記参与役割を傍観者として識別する、3記載の会話参与手続き認識装置。
【請求項5】
前記参与役割は、話し手をさらに含み、
前記参与役割識別手段は、前記第1識別手段の識別結果が前記傍観者または前記傍参与者を示すとき、前記目標の人物の前記発話情報に基づいて、前記参与役割が話し手に昇格したかどうかを判断する話し手判断手段を含む、請求項4記載の会話参与手続き認識装置。
【請求項6】
前記話し手判断手段は、前記目標の人物の前記発話情報に基づいて、当該目標の人物の前記参与役割が話し手である期間を決定する話し手期間決定手段を含み、
前記話し手期間決定手段は、前記目標の人物の前記発話情報に含まれる第1発話開始時刻と第1発話終了時刻との間に、前記会話の場に存在する他の人物の第2発話開始時刻が存在し、かつ当該他の人物の第2発話終了時刻が前記第1発話終了時刻の後に存在するとき、当該目標の人物の前記参与役割が話し手である期間を前記第1発話開始時刻と前記第2発話開始時刻とで規定される期間に決定する、請求項5記載の会話参与手続き認識装置。
【請求項7】
前記話し手期間決定手段は、前記第1発話開始時刻と前記第1発話終了時刻との間に、前記第2発話開始時刻および前記第2発話終了時刻の両方が含まれるとき、または、前記第1発話開始時刻と前記第1発話終了時刻との間に、前記第2発話開始時刻および前記第2発話終了時刻の両方が含まれないとき、前記目標の人物の前記参与役割が話し手である期間を、前記第1発話開始時刻と前記第1発話終了時刻とで規定される期間に決定する、請求項6記載の会話参与手続き認識装置。
【請求項8】
前記参与役割は、受け手をさらに含み、
前記第1識別手段は、前記会話の場に存在する他の人物の前記視線情報に基づいて、当該他の人物の参与役割が非参与者、傍観者および傍参与者のいずれであるかを識別し、
前記話し手判断手段は、前記第1識別手段によって参与役割が傍観者または傍参与者と識別された前記他の人物の前記発話情報に基づいて、当該他の人物の前記参与役割が話し手に昇格したかどうかを判断し、
前記話し手期間決定手段によって決定される前記他の人物の前記参与役割が話し手である期間において、当該他の人物の前記視線情報に含まれる識別情報が前記目標の人物を示すとき、当該目標の人物の参与役割が受け手に昇格したと判断する受け手判断手段をさらに備える、請求項6または7記載の会話参与手続き認識装置。
【請求項9】
前記受け手判断手段は、前記他の人物の前記参与役割が話し手である期間において、当該他の人物の前記視線情報に含まれる前記識別情報についての注視開始時刻と注視終了時刻とで規定される期間を、当該目標の人物の前記参与役割が受け手である期間に決定する受け手期間決定手段を含む、請求項8記載の会話参与手続き認識装置。
【請求項10】
請求項1ないし請求項9のいずれかに記載の会話参与手続き認識装置を備える会話参与手続き認識システムであって、
前記発話情報を検出する発話情報検出装置、および
前記視線情報を検出する視線情報検出装置をさらに備え、
前記視線情報検出装置および前記発話情報検出装置は、前記人物に装着可能に設けられ、前記会話参与手続き認識装置に前記発話情報および前記視線情報を送信するようにした、会話参与手続き認識システム。
【請求項1】
少なくとも2人の人物の間で行われる会話に参与する目標の人物の参与手続きを認識する会話参与手続き認識装置であって、
少なくとも各人物の発話開始時刻と発話終了時刻とを含む発話情報を取得する発話情報取得手段、
前記発話取得手段によって取得された発話情報を前記各人物毎に記憶する発話情報記憶手段、
少なくとも、前記各人物が視線を向けた前記会話の場に存在する対象についての識別情報と、当該対象に視線を向け始めた注視開始時刻および当該対象から視線をそらした注視終了時刻とを含む視線情報を取得する視線情報取得手段、
前記視線情報取得手段によって取得された視線情報を前記各人物毎に記憶する視線情報記憶手段、および
前記発話情報と前記視線情報との少なくとも一方に基づいて、前記目標の人物の前記会話における参与役割を時系列に従って識別する参与役割識別手段を備える、会話参与手続き認識装置。
【請求項2】
前記参与役割は、少なくとも非参与者および傍参与者を含み、
前記参与役割識別手段は、前記目標の人物の前記視線情報に基づいて、当該目標の人物の参与役割が非参与者および傍参与者のいずれであるかを識別する第1識別手段を含む、請求項1記載の会話参与手続き認識装置。
【請求項3】
前記第1識別手段は、前記視線情報に含まれる注視開始時刻と注視終了時刻との間が第1所定期間未満であるとき、前記参与役割を非参与者として識別し、前記注視開始時刻と前記注視終了時刻との間が前記第1所定期間よりも長い第2所定期間以上であるとき、前記参与役割を傍参与者として識別する、請求項2記載の会話参与手続き認識装置。
【請求項4】
前記参与役割は、傍観者をさらに含み、
前記第1識別手段は、前記注視開始時刻と前記注視終了時刻との間が第1所定期間以上第2所定期間未満であるとき、前記参与役割を傍観者として識別する、3記載の会話参与手続き認識装置。
【請求項5】
前記参与役割は、話し手をさらに含み、
前記参与役割識別手段は、前記第1識別手段の識別結果が前記傍観者または前記傍参与者を示すとき、前記目標の人物の前記発話情報に基づいて、前記参与役割が話し手に昇格したかどうかを判断する話し手判断手段を含む、請求項4記載の会話参与手続き認識装置。
【請求項6】
前記話し手判断手段は、前記目標の人物の前記発話情報に基づいて、当該目標の人物の前記参与役割が話し手である期間を決定する話し手期間決定手段を含み、
前記話し手期間決定手段は、前記目標の人物の前記発話情報に含まれる第1発話開始時刻と第1発話終了時刻との間に、前記会話の場に存在する他の人物の第2発話開始時刻が存在し、かつ当該他の人物の第2発話終了時刻が前記第1発話終了時刻の後に存在するとき、当該目標の人物の前記参与役割が話し手である期間を前記第1発話開始時刻と前記第2発話開始時刻とで規定される期間に決定する、請求項5記載の会話参与手続き認識装置。
【請求項7】
前記話し手期間決定手段は、前記第1発話開始時刻と前記第1発話終了時刻との間に、前記第2発話開始時刻および前記第2発話終了時刻の両方が含まれるとき、または、前記第1発話開始時刻と前記第1発話終了時刻との間に、前記第2発話開始時刻および前記第2発話終了時刻の両方が含まれないとき、前記目標の人物の前記参与役割が話し手である期間を、前記第1発話開始時刻と前記第1発話終了時刻とで規定される期間に決定する、請求項6記載の会話参与手続き認識装置。
【請求項8】
前記参与役割は、受け手をさらに含み、
前記第1識別手段は、前記会話の場に存在する他の人物の前記視線情報に基づいて、当該他の人物の参与役割が非参与者、傍観者および傍参与者のいずれであるかを識別し、
前記話し手判断手段は、前記第1識別手段によって参与役割が傍観者または傍参与者と識別された前記他の人物の前記発話情報に基づいて、当該他の人物の前記参与役割が話し手に昇格したかどうかを判断し、
前記話し手期間決定手段によって決定される前記他の人物の前記参与役割が話し手である期間において、当該他の人物の前記視線情報に含まれる識別情報が前記目標の人物を示すとき、当該目標の人物の参与役割が受け手に昇格したと判断する受け手判断手段をさらに備える、請求項6または7記載の会話参与手続き認識装置。
【請求項9】
前記受け手判断手段は、前記他の人物の前記参与役割が話し手である期間において、当該他の人物の前記視線情報に含まれる前記識別情報についての注視開始時刻と注視終了時刻とで規定される期間を、当該目標の人物の前記参与役割が受け手である期間に決定する受け手期間決定手段を含む、請求項8記載の会話参与手続き認識装置。
【請求項10】
請求項1ないし請求項9のいずれかに記載の会話参与手続き認識装置を備える会話参与手続き認識システムであって、
前記発話情報を検出する発話情報検出装置、および
前記視線情報を検出する視線情報検出装置をさらに備え、
前記視線情報検出装置および前記発話情報検出装置は、前記人物に装着可能に設けられ、前記会話参与手続き認識装置に前記発話情報および前記視線情報を送信するようにした、会話参与手続き認識システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【公開番号】特開2006−127353(P2006−127353A)
【公開日】平成18年5月18日(2006.5.18)
【国際特許分類】
【出願番号】特願2004−317683(P2004−317683)
【出願日】平成16年11月1日(2004.11.1)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 2004年6月18日 社団法人人工知能学会発行の「第41回 言語・音声理解と対話処理研究会資料」に発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成16年度独立行政法人情報通信研究機構、研究テーマ「超高速知能ネットワーク社会に向けた新しいインタラクション・メディアの研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】
【公開日】平成18年5月18日(2006.5.18)
【国際特許分類】
【出願日】平成16年11月1日(2004.11.1)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 2004年6月18日 社団法人人工知能学会発行の「第41回 言語・音声理解と対話処理研究会資料」に発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成16年度独立行政法人情報通信研究機構、研究テーマ「超高速知能ネットワーク社会に向けた新しいインタラクション・メディアの研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】
[ Back to top ]