説明

会議システム、情報処理装置、及び情報処理方法

【課題】会議システムにて、画像認識による動作解析に基づき画像データ及び音声データの送受信を制御し、他の会議参加者への不快感、違和感を抑制することができる会議システム、情報処理装置、及び情報処理方法を提供する。
【解決手段】会議サーバ装置3は、各端末装置1,1,…のカメラ15にて撮像された画像を受信し、受信した画像に対して画像認識処理を行ない、画像認識結果から不適切な動作を検出し、不適切な動作を検出した場合、不適切な動作が映る画像が他の端末装置1,1,…にて確認できないよう、送信を停止するか、一部加工するなどの制御を行なう。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の情報処理装置間でカメラによって撮像された画像又はマイクロフォンにて集音された音声を送信しあい、遠隔にあっても会議参加者間での会議を実現できる会議システムに関する。特に、会議参加者の動作を検出し、検出した参加者の動作の状態に応じて画像又は音声の送受信を制御し、他の会議参加者への不快感、違和感を抑制することができる会議システム、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
通信技術、画像処理技術等の発展に伴い、遠隔の二拠点又は三拠点以上の複数拠点に夫々設置された複数の情報処理装置間でネットワークを介して会議ができるテレビ会議システムが実現されている。大容量データの送受信が可能であることから、端末装置にて集音される音声のデータを他の端末装置へ送信して複数の端末装置にて発言者の発言を共有するのみならず、各端末装置にて会議参加者を撮影し、撮影した映像データを他の端末装置へ送信することによって、表情、身振り等を交えた会議が実現できる会議システム(所謂Web会議システム)が実用化されている。
【0003】
従来の会議システムでは、各情報処理装置が電話番号又はIP(Internet Protocol)アドレスを指定して他の情報処理装置と直接的に接続を確立し、2つの情報処理装置が1対1で音声データ及び画像データを交換することで実現されてきた。3つ以上の情報処理装置間での会議システムを実現する場合には、1台の情報処理装置を親機とし、他の複数の情報処理装置を子機として、複数の子機が夫々親機との接続を確立し、親機が子機間のデータ交換を中継する。
【0004】
より多くの拠点間での会議システムを実現するためには、複数の情報処理装置をMCU(Multipoint Control Unit:多地点接続装置)へ、スター型に接続し、情報処理装置間のデータ交換をMCUが中継する構成がある。MCUを用いた会議システムでは、会議システムに参加することが可能な情報処理装置(拠点)の数は、MCUの性能、即ち接続できる情報処理装置の数(例えば通信ポートの数)に依存する。
【0005】
また、多くの拠点間での会議システムを実現するためには、LAN(Local Area Network)又はインターネット等の通信網を介し、会議参加者が使用する情報処理装置がクライアント装置としてサーバ装置と接続する構成にて、サーバ装置でデータ交換を中継する構成もある。このようなサーバ・クライアントシステムの構成では、サーバ装置の処理能力及びネットワークの通信速度(使用可能帯域幅)の制限があるものの、MCUを用いた構成と比較して、会議システムに参加する拠点数(情報処理装置の数)を容易に増減させることができる等の利点がある。
【0006】
このように、MCUを利用する構成でも、サーバ・クライアントシステムの構成でも、各情報処理装置を会議参加者が一人一人(又は少数人で)利用して会議を実現することができる。このとき、各情報処理装置には、共有画面を表示する液晶パネル、有機ELパネル等を利用したディスプレイ、装置を使用する会議参加者を撮影するカメラ、装置を使用する会議参加者の発言を集音するマイクロフォン及び音声を出力するスピーカ等が備えられる。そして情報処理装置は、撮影した映像(画像)のデータ及び集音した音声のデータをMCU又はサーバ装置を介して送受信する。これにより、会議参加者同士の発言、表情、身振り等を共有して会議を行なうことができる。
【0007】
特許文献1には、音声及び画像を交換する会議システムを利用し、異なる文化圏の会議参加者間で会議を実施する場合に、各会議参加者の身振りを、三次元アバター等を用いた動画像にて表現する構成とし、ある文化圏における会議参加者の身振りが、他の文化圏でも社会的に適切と捉えられるように一部変更する発明が開示されている。
【0008】
特許文献2には、会議システムにて、会議参加者による発言を音声認識によって認識し、文字情報に変換して共通画面に表示する際、文字情報から不要な語句を削除して表示する発明が開示されている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2009−77380号公報
【特許文献2】特開平10−301927号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
遠隔地にいながら、複数拠点間で相手の画像を確認しつつ会議を実現できる会議システム及びその周辺技術により、文化及び言語が異なる人々の間でのコミュニケーション向上に大きな役割を果たしている。逆に、会議参加者の画像を送受信する会議システムでは、会議参加者の動作がリアルタイムで他の会議参加者へ伝わる。これにより、他の媒体を介したコミュニケーションでは存在しなかった様々な問題及び懸念が発生する場合がある。
【0011】
例えば、複数の拠点間で会議参加者の映像を送受信する会議システムでは、会議参加者の映像信号をリアルタイムに他の拠点へ送信する。この場合、会議参加者の非言語的な動作、表情が重要となる。特に、会議参加者が多様な文化及び言語を背景にする場合には問題となるときがある。その場に適切な動作、言語であるか否かの適切性は当然、文化が異なれば大きく異なる。ある文化では適切とされ、許容される動作であっても、別の文化では不適切とされ、許容されない動作と受け取られる場合が多く、誤解を招く原因となる。
【0012】
国際的なやり取りが行なわれるビジネスの場では、会議システムを利用する場合の会議参加者の動作の適切性が重要となる。動作によっては、言語のみのコミュニケーションよりも信頼を築くことが可能である。適切なタイミングでの適度な凝視(gaze)、適切な身振り及び表情によって信頼を表すことができ、取引の成否を左右する。逆に、不適切なタイミングでの不適切な身振りは、無意識で行なっていたとしても大きく信頼を損ねる場合がある。
【0013】
会議参加者は、異文化における適切な動作を予備知識として学ぶことは可能であるが、パターン化されない動作でも適切性を維持することは非常に困難である。また、会議参加者が、参加する可能性がある全ての会議の他の会議参加者の文化における習慣及び伝統の違いを全て予備知識として持つことは非現実的である。
【0014】
更に、会議参加者が無意識に行なってしまう癖であって他の会議参加者を不快にさせる可能性のある動作を事前に矯正することも非現実的である。
【0015】
特許文献1に開示されている技術を用いることにより、会議システムにて他の会議参加者に、文化的又は社会的に不適切な動作と受け取られる身振りが一の会議参加者が行なった場合であっても、アバターを利用して他の身振りに代替されるか、又は会議参加者の画像以外の画像、例えば会議資料等の共有画面へ切り替えられる。これにより、他の会議参加者を不快にさせることを回避することができる。
【0016】
しかしながら、特許文献1に開示されている技術では、不適切な動作か否かを判断するために、会議参加者を撮影した画像データを取得し、文化モデルデータに従って動作解析を行なう必要がある。特許文献1には、動作解析にはモーションセンサ若しくは加速度センサから得られるデータ、又は音声からの情報を利用することも可能とされているが、実際の解析対象、それらの情報を利用した解析についての例は記載されていない。また、特許文献1に開示されている技術では、文化モデルデータに従った動作解析が行なわれるが、多様な文化に対応させるためには各文化の膨大な量の文化モデルデータを予めデータベース化しておく必要があり、解析処理の負荷もその分膨大となり、現実的でない。
【0017】
また、特許文献2に開示されている技術を用い、会議参加者の発言内容から、不適切と受け取られる語句を削除してから共通画面へ表示することも可能である。またこれにより、会議参加者が共通画面を見やすくなると共に、文字情報に既に変換されることから議事録の作成が容易となる。
【0018】
しかしながら、特許文献2に開示されている技術では、不適切と受け取られる情報を表示する文字情報から削除することはできるものの、音声及びその発言中の映像は既に共有されていて他の会議参加者へ伝達されている。したがって、発言者以外の他の会議参加者へ不快感、違和感を与えることを回避することはできない。
【0019】
本発明は斯かる事情に鑑みてなされたものであり、会議システムにて、画像認識による動作解析に基づき画像データ及び音声データの送受信を制御し、他の会議参加者への不快感、違和感を抑制することができる会議システム、該会議システムを制御する情報処理装置及び情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0020】
本発明に係る会議システムは、撮像装置又は集音装置と、前記撮像装置からの画像又は前記集音装置からの音声を取得する手段と、取得した画像又は音声を送受信する送受信手段を備える第1情報処理装置を複数と、複数の第1情報処理装置に通信媒体を介して接続し、各第1情報処理装置で送受信される画像又は音声を中継する第2情報処理装置とを含み、複数の第1情報処理装置間で共通の画像又は音声を表示又は出力させて情報を共有させ、会議を実現させる会議システムにおいて、第1情報処理装置にて取得された画像に映る人物の動作を認識する認識手段と、該認識手段による認識結果に基づき、不適切な動作の有無を検出する検出手段と、該検出手段の検出結果に応じて、前記第1情報処理装置からの画像若しくは音声の受信、若しくは他の第1情報処理装置への送信の可否、送信レートの増減、又は前記画像の一部への加工を制御する送信制御手段とを備えることを特徴とする。
【0021】
本発明に係る会議システムは、前記送信制御手段は、前記検出手段が不適切な動作を検出した場合、前記不適切な動作が検出された第1情報処理装置からの画像若しくは音声の受信、若しくは他の第1情報処理装置への送信を禁止するか、送信レートを低減するか、又は前記画像の一部への加工を行なうようにしてあることを特徴とする。
【0022】
本発明に係る会議システムは、前記検出手段が不適切な動作を検出した後の前記動作の継続時間を計測する手段と、前記継続時間が所定時間以上であるか否かを判断する判断手段とを備え、前記送信制御手段は、前記判断手段が所定時間以上であると判断した場合に、前記不適切な動作が検出された第1情報処理装置からの画像若しくは音声の受信、若しくは前記画像若しくは音声の他の第1情報処理装置への送信を禁止するか、送信レートを低減するか、又は前記画像の一部への加工を行なうようにしてあることを特徴とする。
【0023】
本発明に係る会議システムは、不適切な動作として予め登録してある画像認識結果の一覧であるテーブルを備え、前記検出手段は、前記認識手段による認識結果が前記テーブルに含まれる認識結果と対応するか否かによって不適切な動作の有無を検出するようにしてあることを特徴とする。
【0024】
本発明に係る会議システムは、前記検出手段が、不適切な音声又は発声を伴う動作を検出した場合、前記不適切な動作が検出された第1情報処理装置からの画像若しくは音声の受信、若しくは前記画像若しくは音声の他の第1情報処理装置への送信を禁止するようにしてあることを特徴とする。
【0025】
本発明に係る会議システムは、前記送信制御手段は、不適切な動作が検出された第1情報処理装置からの画像の内、前記不適切な動作に対応する画像の一部の上に他の画像を重畳させる加工を行なうことを特徴とする。
【0026】
本発明に係る会議システムは、前記認識手段及び検出手段は、第2情報処理装置が備えることを特徴とする。
【0027】
本発明に係る会議システムは、前記検出手段が不適切な動作を検出した場合、不適切な動作が検出された第1情報処理装置の撮像装置の撮像方向又は集音装置の集音方向の変更を指示する手段を備えることを特徴とする。
【0028】
本発明に係る情報処理装置は、他の複数の装置と通信媒体を介して接続し、各装置と画像又は音声を送受信する手段を備える情報処理装置において、受信した画像に映る人物の動作を認識する手段と、認識した結果に基づき、不適切な動作の有無を検出する手段と、検出した結果に応じて、前記他の装置からの画像若しくは音声の受信、若しくは、前記画像若しくは音声の他の装置への送信の可否、送信レートの増減、又は前記画像の一部への加工を制御する手段とを備えることを特徴とする。
【0029】
本発明に係る情報処理方法は、撮像装置又は集音装置と、前記撮像装置からの画像又は前記集音装置からの音声を取得する手段と、取得した画像又は音声を送受信する送受信手段を備える第1情報処理装置を複数と、複数の第1情報処理装置に通信媒体を介して接続し、各第1情報処理装置で送受信される画像又は音声を中継する第2情報処理装置とを含むシステムにて、第1情報処理装置との画像又は音声の送受信を制御する情報処理方法において、第1情報処理装置にて取得された画像に映る人物の動作を認識し、認識した結果に基づき、不適切な動作の有無を検出し、検出した結果に応じて、前記第1情報処理装置からの画像若しくは音声の受信、若しくは前記画像若しくは音声の他の第1情報処理装置への送信の可否、送信レートの増減、又は前記画像の一部への加工を制御することを特徴とする。
【0030】
本発明では、会議参加者が使用する第1情報処理装置にて撮像された画像、即ち会議参加者を撮像するはずの画像に、不適切な動作が映っているか否かが画像認識により検出され、検出結果に応じて、取得された画像又音声の送受信の可否、送信レートの増減、又は画像の一部に加工がされる等の制御が行なわれる。
【0031】
本発明では、具体的には、会議参加者を撮像するはずの画像から不適切な動作が検出された場合に、第1情報処理装置からの画像又は音声の他の第1情報処理装置への送信が禁止されるか、又は送信するとしても送信レートが低減されてコマ落ち状態となるか、又は、画面の一部が加工される。または、第1情報処理装置からの画像又は音声の第2情報処理装置での受信が禁止される。これにより、不適切な動作が映っている画像を他の第1情報処理装置にて観ることが不可能となるか、又は鮮明に確認することが困難となるか、又は一部が隠ぺいされて観ることが不可能となる。
【0032】
本発明では、所定時間以上継続して不適切な動作が検出された場合に、送受信が禁止されて観ることが不可能となるか、送信レートが低減されてコマ落ちとなるか、又は一部が加工されて隠ぺいされ、観ることが不可能となる。継続時間が所定時間以上か否かを監視することにより、一回のみの検出で送信が制限されるよりも、会議の進行を円滑にする。また、所定時間が経過するまでに不適切な動作を行なった人物に警告を与える猶予ができる。
【0033】
本発明では、不適切な動作として予め登録してある画像認識結果のテーブルとの比較参照に基づき、不適切な動作が検出される。予め定義をしておくことにより、画像認識に基づく不適切な動作の検出処理の負荷を軽減することが可能である。またテーブルとしておくことにより、不適切な動作の検出処理の内容を改定せずとも、テーブルを適宜更新することにより、不適切な動作として検出される内容を変更することが容易となる。
なお、不適切な動作として例えば、「電話、居眠り、雑談、喧嘩、泣く、大笑い、離席、よそ見、喫煙、食事、舌を出す」等が挙げられ、これらの動作に対応する画像認識結果との比較結果を行なう。それらの動作を行なう会議参加者の画像又は音声を会議システムから排除することが可能となる。
【0034】
本発明では、音声認識によらず、音声又は発声を伴う不適切な動作を口元の開閉動作等に基づき画像認識によって検出するので、不適切な音声又は発言が他の会議参加者へ伝達される前に検出し、会議システムから排除することが可能となる。
音声又は発声を伴う不適切な動作とは例えば、電話、雑談、喧嘩、泣く、又は大笑い等の動作であり、これらの場合、実際に不適切な発言がなされる前に口元の動き、手若しくは腕の動きを合わせた画像認識によって検出できる可能性がある。
【0035】
本発明では、不適切な動作が検出された場合に、不適切な動作が映る画像の一部への加工として他の画像が重畳され、他の会議参加者の目に触れない。重畳される他の画像とは、白若しくは黒等の一色塗りの画像、又はモザイク画像等でよい。
【0036】
本発明では、画像認識手段及び不適切な動作の検出は、第1情報処理装置からの画像を一極的に受信する第2情報処理装置にて行なわれる。これにより、各第1情報処理装置における処理の負荷を軽減でき、画像認識又は動作の検出等の特定の機能を有していない第1情報処理装置を用い、他の会議参加者を不快にさせない会議システムを実現できる。
【0037】
本発明では、不適切な動作が検出された場合に、当該不適切な動作を行なう会議参加者を撮像しないように、又は当該会議参加者からの音声を集音しないように制御することによって、他の会議参加者を不快と感じさせる画像又は音声が第2情報処理装置から他の第1情報処理装置へ送信されることを回避できる。
【発明の効果】
【0038】
本発明による場合、第1情報処理装置を操作する会議参加者による不適切な動作が、画像認識による認識結果から検出され、動作状態に応じて、会議システムを実現するための会議参加者を撮像した撮像画像又は会議参加者の発声を集音した集音音声の送受信が制御される。
【0039】
これにより、ある特定の第1情報処理装置を操作する会議参加者の動作状態が例えば、「電話、居眠り、雑談、喧嘩、泣く、大笑い、離席、よそ見、喫煙、食事、舌を出す」である場合に、画像若しくは音声、又は両方の送受信を禁止(停止)するか、他の画像を重畳する等の加工が行なわれ、他の会議参加者へ与える可能性がある不快感、違和感を抑制し、快適な会議システムを実現できる。
【0040】
また、他の会議参加者へ不快感、違和感を与える可能性がある撮像画像又は集音音声の送受信を停止する等の制御によって、画像又は音声による通信負荷の増大及び会議システムにて画像又は音声の送受信を中継するサーバ装置(第2情報処理装置)の処理負荷を抑制することが可能である。
【図面の簡単な説明】
【0041】
【図1】実施の形態1の会議システムの構成を示す構成図である。
【図2】実施の形態1の会議システムを構成する端末装置の内部構成を示すブロック図である。
【図3】実施の形態1の会議システムを構成する会議サーバ装置の内部構成を示すブロック図である。
【図4】実施の形態1の会議システムにて実現される画像及び音声の送受信を模式的に示す模式図である。
【図5】会議サーバ装置の記憶部に記憶されてある画像認識用テーブルの内容例を示す説明図である。
【図6】動作検出テーブルの内容例を示す説明図である。
【図7】実施の形態1の会議サーバ装置における画像及び音声の送受信処理及び不適切な動作の検出処理手順の一例を示すフローチャートである。
【図8】本実施の形態1における会議システムにて、不適切な動作が検出された場合になされる送信制御の例を示す説明図である。
【図9】実施の形態2の会議システムを構成する端末装置の内部構成を示すブロック図である。
【図10】実施の形態2の会議サーバ装置における画像及び音声の送受信処理及び不適切な動作の検出処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0042】
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
【0043】
(実施の形態1)
図1は、実施の形態1の会議システムの構成を示す構成図である。会議システムは、会議参加者が夫々用いる端末装置1,1,…と、端末装置1,1,…が接続されるネットワーク2と、端末装置1,1,…間での画像(映像)及び音声の送受信及び共有を実現する会議サーバ装置3とを含んで構成される。
【0044】
ネットワーク2は、会議が行なわれる組織の組織内LANでもよいし、インターネット等の公衆通信網でもよい。ネットワーク2はアクセスポイント21を複数含み、端末装置1,1,…が無線通信によってサーバ装置1と通信できるようにしてある。
【0045】
このように構成される会議システムでは、端末装置1,1,…が会議サーバ装置3との接続の認証を受け、認証された端末装置1,1,…が会議サーバ装置3から共有の画像(映像)及び音声の情報を送受信し、受信した画像(映像)及び音声を出力することにより、他の端末装置1,1,…と画像(映像)及び音声を共有し、ネットワークを介した会議を実現する。
【0046】
なお、会議サーバ装置3は、複数の異なる会議1及び会議2を並列的に実現させることができる。会議サーバ装置3は、端末装置1,1,…を夫々グループ会議1及び会議2に対応付けて認識し、各グループ内で端末装置1,1,…間の画像(映像)及び音声の中継を夫々で独立に行なうことが可能である。
【0047】
図2は、実施の形態1の会議システムを構成する端末装置1の内部構成を示すブロック図である。
【0048】
端末装置1は、制御部100と、一時記憶部101と、記憶部102と、入力処理部103と、表示処理部104と、映像処理部105と、入力音声処理部106と、出力音声処理部107と、通信処理部108と、符号化・復号処理部109とを備える。端末装置1は更に、内蔵又は外部接続により、タブレット13と、ディスプレイ14と、カメラ15と、マイクロフォン(図中及び以下、マイクという)16と、スピーカ17と、無線通信部18とを備える。
【0049】
制御部100は、CPU又はMPU等の演算処理装置を用い、記憶部102に記憶されている会議端末用のプログラムを一時記憶部101に読み出して実行することにより、会議システム専用端末を本発明に係る情報処理装置として動作させる。
【0050】
一時記憶部101にはSRAM又はDRAM等のRAMを用いる。一時記憶部101には、上述のように読み出されるプログラムが記憶されると共に、制御部100の処理によって発生する情報が記憶される。
【0051】
記憶部102には、EEPROM(Electrically Erasable Programmable ROM)又はフラッシュメモリ等の不揮発性メモリを用いる。記憶部102には、会議端末用のプログラム及び制御部100が制御時に参照する条件例えば後述の検出された値に対する閾値等の条件等、端末装置1の機能を実現するためのプログラム及びデータが予め記憶されている。他に、端末装置1における他のアプリケーションソフトウェアプログラムが記憶されていてもよい。記憶部102にはハードディスク又はSSD等の外部装置を用いてもよい。
【0052】
入力処理部103には、ディスプレイ14上に内蔵され、端末用ペン4による文字入力又は図形入力のための操作を受け付けるタブレット13が接続されている。入力処理部103は、端末装置1の会議参加者の操作により入力されるボタン(クリックボタン)の押下情報、ディスプレイに表示中の画面内における位置を示す座標情報等の情報を受け付け、入力操作の有無及び入力操作の内容を判断して制御部100へ通知する。なお、入力処理部103には図示しないマウス、又はキーボード等のポインティングデバイス(入力装置)が接続されており、それらのポインティングデバイスにて受け付けた操作に応じた信号を入力してもよい。
【0053】
表示処理部104には、液晶パネル、又は有機EL等を用いるタッチパネル型のディスプレイ14が接続されている。制御部100は、表示処理部104を介し、ディスプレイ14に会議端末用のアプリケーション画面を出力し、アプリケーション画面内に共有させる画像(映像)を表示させる。共有させる画像には、後述するように会議サーバ装置3から受信した他の端末装置1,1,…から送信された画像も含まれる。会議サーバ装置3から送信される画像が、H.261、H.263、H.264、MPEG等の規格にて符号化されている場合、制御部100は画像を復号してから表示処理部104に出力する。
【0054】
映像処理部105には、ビデオカードを用いる。映像処理部105は、端末装置1が備えるカメラ15に接続され、カメラ15の動作の制御を行なうと共に、カメラ115にて撮像された映像データを取得する。カメラ15は、端末装置1の筐体に設けられたディスプレイ14の上方に、ユーザの顔又は上半身を撮像する方向へ向けて搭載されている。カメラ15は、1秒間に数十回又は数百回等の頻度で撮像し、それらの画像信号を連続して映像データとして映像処理部105へ出力する。映像処理部105は、カメラ15から取得した映像データを、H.261、H.263、H.264、MPEG等の映像規格のデータへ変換(符号化)する処理を行なってもよい。
【0055】
入力音声処理部106は、端末装置1が備えるマイク16に接続され、マイク16によって集音された音声をサンプリングしてデジタル音声データへ変換し、制御部100へ出力するA/D変換機能を有する。入力音声処理部106は、集音された音声の信号レベルの調整及び帯域制限等の処理を行なうミキサ、及び、エコー部分を除去するエコーキャンセラを内蔵していてもよい。なお、入力音声処理部106は、集音音声をG.711、G.722、G.728、G.729又はMPEGAudio等の規格の音声データへ符号化する処理を行なってもよい。
【0056】
出力音声処理部107は、端末装置1が備えるスピーカ17に接続される。出力音声処理部107は、制御部100から音声データが与えられた場合に、音声としてスピーカ17から出力させるようにD/A変換機能を有する。なお、会議サーバ装置3から送信される音声データがG.711、G.722、G.728、G.729又はMPEGAudio等の規格により符号化されている場合は、制御部100は音声データを復号してからスピーカ17へ出力する。
【0057】
通信処理部108は、端末装置1のネットワーク2を介した通信を実現させる。通信処理部108は無線通信部18と接続されており、アクセスポイント21を介して会議サーバ装置3又は他の端末装置1との無線通信を実現する。通信処理部108は詳細には、送受信される情報のパケット化、パケットからの情報の読み取り等を行なう。制御部100は、通信処理部108により画像(映像)及び音声のデータの送受信を行なうことができる。なお、通信プロトコルは、後述する会議サーバ装置3の通信処理部37における通信プロトコルに対応する。
【0058】
符号化・復号処理部109は、エンコーダ・デコーダチップを用い、H.261、H.263、H.264又はMPEG等の規格に基づく映像(画像)の符号化・復号処理、及び、G.711、G.722、G.728、G.729又はMPEGAudio等の規格に基づく音声の符号化・復号処理を実現する。制御部100は、会議サーバ装置3から符号化された映像、音声、又は多重化された映像のデータを受信した場合、符号化・復号処理部109へ与えて復号する。なお映像(画像)及び音声の規格は上述の例以外のものであってもよい。
【0059】
なお実施の形態1では、端末装置1はタッチパネル型のディスプレイ14を搭載した専用端末を用いる構成とした。しかしながら、これに限らずデスクトップ型のディスプレイが別に接続されるパーソナルコンピュータに、カメラ及びスピーカを接続して構成されてもよい。更には、汎用的なディスプレイにカメラ、スピーカ及びネットワークカードを接続し、後述するような制御部100の機能を実現する装置を接続する構成でも実現できる。会議システムは、構成が様々に異なる端末装置1を含んでもよい。
【0060】
図3は、実施の形態1の会議システムを構成する会議サーバ装置3の内部構成を示すブロック図である。
【0061】
会議サーバ装置3は、サーバコンピュータを用い、制御部30と、一時記憶部31と、記憶部32と、符号化・復号処理部33と、画像処理部34と、音声処理部35と、画像認識部36と、通信処理部37と、ネットワークI/F部38とを備える。
【0062】
制御部30にはCPU(Central Processing Unit)又はMPU(Micro Processing Unit)等の演算処理装置を用い、記憶部32に記憶されている会議サーバ用プログラム3Pを一時記憶部31に読み出して実行することにより、サーバコンピュータを、本実施の形態1における会議サーバ装置3として動作させる。
【0063】
一時記憶部31にはSRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)等のRAMを用いて、上述のように読み出される会議サーバ用プログラム3Pが一時的に読み出されると共に、制御部30の処理によって発生する情報が一時的に記憶される。
【0064】
記憶部32には、ハードディスク又はSSD(Solid State Drive)等の外部記憶装置を用いる。記憶部32には、上述の会議サーバ用プログラム3Pが記憶されている。また記憶部32には、会議参加者が用いる端末装置1,1,…の認証を行なうための認証データが記憶されている。会議サーバ装置3の記憶部32には、端末装置1,1,…で共有するためのドキュメントデータ等を含む会議情報DB321が記憶されている。ドキュメントデータは、テキストデータ、写真データ、図データ等であり、フォーマットは問わない。更に記憶部32には、後述にて詳細を説明する画像認識用テーブル322、及び動作検出テーブル323が記憶されており、制御部30及び他の構成部から参照可能である。
【0065】
符号化・復号処理部33は、エンコーダ・デコーダチップを用い、H.261、H.263、H.264又はMPEG(Moving Picture Experts Group)等の規格に基づく画像(映像)の符号化を行なう画像符号化部、及び符号化された画像を復号する符号処理部を含む。端末装置1,1,…から送信される画像が符号化されている場合には、制御部30は符号化・復号処理部33にて復号して画像処理部34へ与え、画像処理部34にて合成される画像を符号化・復号処理部33へ与えて符号化してから通信処理部37により端末装置1,1,…へ送信する。また符号化・復号処理部33は、G.711、G.722、G.728、G.729又はMPEGAudio等の規格に基づく音声の符号化を行なう音声符号化部、及び符号化された音声を復号する音声復号処理部を含む。端末装置1,1,…から送信される音声が符号化されている場合には、制御部30は符号化・復号処理部33にて復号して音声処理部35へ与え、音声処理部35にて合成される音声を符号化・復号処理部33へ与えて符号化してから通信処理部37により端末装置1,1,…へ送信する。なお符号化・復号処理部33は、画像と音声とを夫々符号化するのみならず、画像と音声とを時間同期させ、多重化する処理を行なって出力するようにしてもよい。
【0066】
画像処理部34は、制御部30からの指示により、複数の端末装置1,1,…から夫々送信された複数の画像データに基づき画像を合成する処理を実現する。画像処理部34は他に、記憶部32の会議情報DBに含まれる共有ドキュメントの内、各端末装置1,1,…にて表示対象となるドキュメントデータを受け付け、該ドキュメントデータを画像に変換して出力する機能を有する。また、画像処理部34は、画像の拡大縮小、エッジ強調又は色調整等の各種画像処理を行なうことが可能である。
【0067】
音声処理部35は、制御部30からの指示により、複数の端末装置1,1,…から夫々送信された複数の音声データに基づき音声を合成する処理を実現する。音声処理部35は他に、ノイズ除去又は音量調整等の各種音声処理を行なうことが可能である。
【0068】
画像認識部36は、制御部30から与えられた画像から人物の顔(輪郭)、手・腕を認識する処理、更に顔の中の口、目、及び眉毛等を認識する処理を行なう。また画像認識部36は、特定の物(例えば食器、タバコ、電話機)等を認識し、認識結果を出力する。具体的には、認識した輪郭、口、目などの有無、座標等の情報を出力する。画像認識部36は、制御部30から時系列で与えられる複数の画像内で認識した顔、手・腕、口、目、眉毛、その他の特定の物の画像内での位置の変化を認識する。画像認識部36は、画像内の人物の顔の口、目、眉毛の位置によって人物の表情を分類し、笑顔、怒り顔、又は泣き顔等として分類結果を出力する機能を有してもよい。
【0069】
通信処理部37は、会議サーバ装置3のネットワーク2を介した通信を実現させる。通信処理部37は、ネットワーク2に接続されたネットワークカードを用いたネットワークI/F部38と接続されており、ネットワーク2を介して端末装置1,1,…との間の画像又は音声を送受信するときのパケット化、パケットからの情報の読み取りを行なう。制御部30は、通信処理部37により画像(映像)及び音声の送受信を行なうことができる。実施の形態1の会議システムを実現するために、通信処理部37による画像、音声を送受信するための通信プロトコルは、H.323、SIP(Session Initiation Protocol)、又はHTTP(Hypertext Transfer Protocol )等のプロトコルを用いればよい。通信プロトコルはこれらに限られない。なお、ネットワークI/F部38はアンテナを含み、通信処理部37は無線通信を行なうように構成されてもよい。
【0070】
図4は、実施の形態1の会議システムにて実現される画像及び音声の送受信を模式的に示す模式図である。上述のように構成される会議システムでは基本的に、図4に示すように、端末装置1,1,…にて夫々、制御部100の制御により、カメラ15にて撮像される会議参加者の顔又は上半身の映像(又は静止画像)データを通信処理部108及び無線通信部18を介して会議サーバ装置3へ送信し続ける。
【0071】
会議サーバ装置3では、各端末装置1,1,…にて撮像及び集音されて送信される画像データ及び音声データを受信した場合、画像データと音声データとに分離して夫々符号化・復号処理部33へ与え、夫々復号する。そして制御部30は、図4に示すように、復号後の複数の端末装置1,1,…からの画像(映像)が、並べて表示されるように画像処理部34にて合成すべく画像処理部34へ指示する。制御部30は、復号後の複数の端末装置1,1,…からの音声が重ね合わされるように音声処理部35へ指示する。制御部30は、合成後の画像及び音声を符号化・復号処理部33へ与え、符号化又は多重化し、通信処理部37を介して各端末装置1,1,…へ送信する。
【0072】
各端末装置1,1,…では、会議サーバ装置3から送信される合成された画像及び音声を符号化・復号処理部109にて復号して表示処理部104及び出力音声処理部107へ夫々与え、各端末装置1,1,…を使用する会議参加者の顔又は上半身を映した画像が並べて表示される。これにより、各端末装置1,1,…を用いる会議参加者は、他の会議参加者の表情、身振りを確認しながら自身を含む会議参加者の発言を聴くことが可能となる。
【0073】
ただし、実施の形態1における会議システムでは、いずれかの端末装置1から送信された画像に映っている会議参加者の動作が不適切である場合、当該端末装置1からの会議参加者の顔又は上半身の映像を撮像した画像及び会議参加者から発せられる音声の他の端末装置1への送信を禁止する。
【0074】
会議参加者による不適切な動作の検出は、当該会議参加者が使用する端末装置1からの画像を受信した会議サーバ装置3にて行われる。以下、会議サーバ装置3における不適切な動作の検出処理について詳細を説明する。
【0075】
会議サーバ装置3にて会議参加者の不適切な動作を検出するために、記憶部32には画像認識用テーブル322と、動作検出テーブル323とが記憶されてある。
【0076】
図5は、会議サーバ装置3の記憶部32に記憶されてある画像認識用テーブル322の内容例を示す説明図である。画像認識用テーブル322は、不適切な動作の内容別に付されている番号、各動作の内容、及び認識パターンを含む。
【0077】
図5に示す例では、不適切な動作として「電話、居眠り、雑談、喧嘩、泣く、大笑い、離席、よそ見、喫煙、食事、舌を出す」の動作が挙げられている。例えば、会議中の不適切な動作としての「電話」は、手・腕を耳付近に近づけ、口が動いている動作により判別が可能であると考えられる。したがって、「1:電話」の画像認識における認識パターンとして、体に対する腕の位置(腕の上がり・下がり)、複数の画像内に亘って口の開閉が有ること、又は電話機と認識される画像が有ること等が予め登録されてある。
「居眠り」は、両目が閉じて傾いている等の状況が考えられる。したがって、「2:居眠り」については、顔の向き(下向き、顔中心線の所定角度以上の傾き)、両目が閉じているか否か、又は頭(顔)の周期的な動きが有ること等が予め登録されてある。
「泣く」という不適切な動作は、画像から、顔を下に向けているか、手で目を押さえている状態であるか、又は泣き顔の表情から判別が可能と考えられる。したがって「3:泣く」については、顔の向きが下向きであること、体に対する手・腕の位置が顔を覆う位置にあること、又は泣き顔が認識されること等が予め登録されてある。
「大笑い」という不適切な動作は、口が大きく開いて笑っているという状況が考えられる。したがって「4:大笑い」については、認識される口の大きさが所定の大きさ以上か、又は顔に対する割合が所定値以上か、且つ笑顔が認識されたか等が予め登録されてある。
「離席」についてはそもそも人物が認識されない状況であるので、「5:離席」については顔(人物)が認識できない場合というパターンが予め登録されてある。
「よそ見」という動作は、画面を見ずに別の方向を向いている状態である。したがって、「6:よそ見」については顔の向きが所定の向き以外であること、又は所定の向きから大きく傾いていること等が予め登録されてある。
「喫煙」という動作は、手でタバコを支えているか、口でタバコを咥えているか、口元にタバコを持っている動作を繰り返しているかによって判別可能である。したがって「7:喫煙」については、タバコの画像が認識されること、手が口元に有ること、又は手の口元への動きが繰り返されていること等がパターンとして予め登録されてある。
「食事」という動作は、箸又はフォーク等の食器を手で持ち口元へ持っていく動作、又は口元が閉じられたまま動いている等の状況によって判別可能である。また、ガムを噛むことも食事という不適切な動作に含むとすると、この場合も口が閉じられたま動いている状況等によって判別可能である。したがって「8:食事」については、食器の画像が認識されること、手・腕の口元への動きがあること、又は口元が閉じた状態で繰り返し動いていること等のパターンが予め登録されてある。
「舌を出す」という動作は、口元から舌が出ている状態であるので、「9:舌を出す」については、口元付近に舌の画像が認識されるか等のパターンが予め登録されてある。
「喧嘩」は複数人がつかみあう等の状況であるので、「10:喧嘩」については、複数の人物が認識されること、且つ、複数人人物が絡み合っていると判断できること、又は人物の表情として怒った顔が認識されること等のパターンが予め登録されてある。
「雑談」は複数人が会議の議題と別の話をしている状況であり、例えば隣り合う2人が向き合っており、口が動いている状態などが考えられる。そこで「11:雑談」については、複数の人物が認識されること、且つ、複数の人物同士の顔の向きが向き合っていること等のパターンが予め登録されてある。
【0078】
会議サーバ装置3の制御部30は、1つの端末装置1から送信された画像を画像認識部36に与え、人物の顔、手・腕、及び顔等などの認識結果を得る。なお不適切な動作には、1画像のみでは認識できないものも含まれるので、制御部30は、例えば0.3秒等の所定時間分の複数の画像を与えて認識結果を得る。制御部30は、得られた認識結果と、画像認識用テーブル322に記憶されている不適切動作夫々の認識パターンとを比較し、不適切な動作夫々の有無を判定する。このように、制御部30が不適切な動作夫々の有無の判定に基づき不適切な動作を検出できる。新たに不適切な動作を加える場合、又は削除する場合には、画像認識用テーブル322の動作内容を新たに加えるか、削除するか、又は各動作についての判定の有効(許可)/無効(不許可)を設定しておけばよい。画像認識用テーブル322の内容を改変することにより、不適切な動作の検出の詳細を適宜変更することが容易となる。勿論、画像認識用テーブル322が無い構成であっても、会議サーバ用のプログラム3Pを変更することにより適宜、検出する不適切な動作の内容の詳細を変更することができる。
【0079】
図6は、動作検出テーブル323の内容例を示す説明図である。動作検出テーブル323は、制御部30が各端末1について画像認識用テーブル322に含まれる不適切な動作夫々に対して判定した結果を保有する情報である。動作検出テーブル323は、記憶部32ではなく、一時記憶部31に記憶される構成であってもよい。動作検出テーブル323は、画像の送信元の端末装置を識別する識別番号、不適切な動作の番号、判定結果、及び継続時間を含む。端末装置を識別する情報は番号に限らない。不適切な動作の番号とは、画像認識用テーブル322にて予め登録されている動作内容に割り振られた番号に対応する。図6における継続時間は判定結果「1:有」が続く回数である。実測された秒数であってもよい。
【0080】
図6には、会議サーバ装置3の制御部30が、「001」の識別番号が付された端末装置1からの画像に基づく不適切な動作が検出されたか否かの判定結果が示されている。制御部30は、「001」の識別番号が付された端末装置1から得られた画像に基づき、番号1〜11の不適切な動作夫々について検出されたか否かの判定結果を動作検出テーブル323に記憶している。図6の例では、「001」の識別番号が付された端末装置1から得られた画像に基づき、番号4の不適切な動作「大笑い」が検出され、継続時間が「0005」となっている。
【0081】
会議サーバ装置3の制御部30は、定期的に送信される端末装置1,1,…からの画像に対する動作検出を、画像を受信する都度、又は複数回受信する毎に行なう。制御部30は、不適切な動作夫々について動作検出を行ない、前回の判定結果が「0:無」であって今回の判定結果が「1:有」である場合、判定結果「1」を動作検出テーブル323に保存し、タイマー値を「0001」と保存する。制御部30は、前回の判定結果が「1:有」であって今回の判定結果も「1:有」である場合、判定結果「1」を保存し、タイマー値を1、又は秒数分加算する。制御部30は、前回の判定結果が「1:有」であって今回の判定結果が「0:無」である場合、判定結果「0」を保存し、タイマー値を「0」にクリアする。
【0082】
このようにして、動作検出テーブル323には、各端末装置1,1,…からの画像に基づく不適切な動作の検出結果が逐次更新される。なお、動作検出テーブル323は、1つの端末装置1から不適切な動作が検出された場合のみ、保存、更新される。
【0083】
上述のように構成される会議システムにて、端末装置1,1,…から画像及び音声が送信され、会議サーバ装置3にてこれを受信して各端末装置1,1,…へ共有画像及び音声として送信する過程にて行なわれる不適切な動作の検出処理過程について、以下、フローチャートを参照して説明する。
【0084】
図7は、実施の形態1の会議サーバ装置3における画像及び音声の送受信処理及び不適切な動作の検出処理手順の一例を示すフローチャートである。なお、以下に示す処理は、1つの端末装置1に対する処理である。会議を構成する複数の端末装置について、以下の処理が夫々独立して並列的に行なわれてもよいし、又は、以下に示す各ステップにて全ての端末装置に対する処理が行なわれてもよい。
【0085】
会議サーバ装置3の制御部30は、端末装置1からの会議参加申請に対して認証を行なって会議を開始すると、まず不適切な動作の継続時間を計測するためにタイマーをスタートさせる(ステップS1)。制御部30は、端末装置1から画像及び音声のデータを受信する(ステップS2)。このとき制御部30は、画像及び音声が符号化されている場合には符号化・復号処理部33へ与えて復号してから以下の処理を行なう。
【0086】
制御部30は、ステップS2にて受信した画像を画像認識部36に与え、認識処理を行なう(ステップS3)。制御部30は、画像認識部36から得られる認識結果と画像認識用テーブル322とを比較して不適切な動作の有無を判定して検出する(ステップS4)。
【0087】
制御部30は、不適切な動作有、即ち不適切な動作を検出した場合(S4:YES)、動作有と判定された不適切な動作の番号と、動作検出テーブル323にて前回、判定結果が「1:有」とされた不適切な動作の番号とが1つ以上一致するか否かを判断する(ステップS5)。
【0088】
制御部30は、1つ以上一致すると判断した場合(S5:YES)、一致する不適切な動作の継続時間を1つ、又は経過時間分だけ加算し、一致しない不適切な動作については新たに判定結果を「1:有」とするように動作検出テーブル323を更新する(ステップS6)。そして制御部30は、一致する番号の不適切な動作の継続時間が所定時間を経過しているか否かを判断する(ステップS7)。具体的には、一致する番号の不適切な動作に対するタイマー値が所定数より1以上大きいか否かを判断する。制御部30は、所定時間を経過していると判断した場合(S7:YES)、画像の送信元の端末装置1からの画像の他の端末装置1への送信を制限する制御を行なう(ステップS8)。このとき、タイマーによる時間計測は継続されている。
【0089】
ステップS8は詳細には、以下のような処理を行なう。1つの方法として制御部30は、不適切な動作が行なわれた端末装置1から受信した画像を画像処理部34へは与えず、他の端末装置1,1,…への送信を停止する。他の方法として制御部30は、不適切な動作が検出された画像内の対応位置に、白塗り若しくは黒塗りの画像を重畳するか、又はモザイク画像を重畳してから画像処理部34へ与え、他の端末装置1からの画像と合成させる。他の方法として制御部30は、不適切な動作が行なわれ端末装置1からの画像の受信を停止するようにしてもよい。更に他の方法として制御部30は、不適切な動作が行なわれた端末装置1からの音声の受信も停止するようにしてもよい。また制御部30は、不適切な動作が行なわれた端末装置1からの画像の他の端末装置1,1,…への送信をコマ落ちに、即ちレート(品質)を低減するようにしてもよい。
【0090】
またステップS8における制御部30の詳細な処理は、検出された不適切な動作の内容に応じて変更してもよい。例えば、制御部30は、「電話」「居眠り」「雑談」「喧嘩」「泣く」「大笑い」「離席」「よそ見」「喫煙」「食事」「舌を出す」の不適切な動作が検出された場合には、不適切な動作が検出された端末装置1からの「画像」の他の端末装置1,1,…への送信を停止するか、画像内の該当部分に白塗り画像を重畳するか、画像の送信レートを低減する。制御部30は、「喫煙」「食事」「舌を出す」の口元の動きに関する不適切な動作が検出された場合には、口元に白塗り画像(又は他の画像)を重畳するようにしてもよい。制御部30は、「電話」「雑談」「喧嘩」「泣く」「大笑い」などの不適切な音声又は発声を伴う動作が検出された場合には、不適切な動作が検出された端末装置1からの「音声」の他の端末装置1,1,…への送信を停止する。
【0091】
なお、画像の送信停止と音声の送信停止とを組み合わせた送信制御の具体的内容は、「不適切な動作」毎に、記憶部32に予め記憶しておくようにしてもよい。画像認識用テーブル322の不適切な動作夫々の番号に対応付けて、送信制御の内容を設定して記憶しておく。例えば「1:電話」に対応付けて「画像:停止/音声:停止」、「2:居眠り」に対応付けて「画像:停止/音声:送信継続」、又は「10:喧嘩」に対応付けて「画像:白塗り重畳/音声:停止」などと記憶しておく。また、複数人物が映る場合には不適切な動作が検出された箇所について白塗り画像を重畳すると記憶しておく。このように記憶部32にて送信制御の具体的な設定を記憶しておくことで、記憶部32内の設定内容を変更することによって適した処理を行なうように適宜変更できる。
【0092】
次に制御部30は、会議システムにおける会議が終了したか否かを判断する(ステップS9)。制御部30は、終了していないと判断した場合は(S9:NO)、処理をステップS2へ戻して継続し、終了したと判断した場合は(S9:YES)、処理を終了する。
【0093】
制御部30は、ステップS4にて不適切な動作無、即ち不適切な動作を検出していない場合(S4:NO)、動作検出テーブル323の全ての判定結果を「0:無」として初期化し(ステップS10)、処理をステップS9へ進める。
【0094】
制御部30は、動作有と判定された不適切な動作の番号と、動作検出テーブル323にて前回判定結果が「1:有」とされた不適切な動作の番号とが全く一致しない判断した場合(S5:NO)、動作検出テーブル323を更新し(ステップS11)、処理を終了する。このとき、前回判定結果が「1:有」とされた不適切な動作については、継続時間は「0」にクリアされ、判定結果は「0:無」と保存される。今回の判定結果が「1:有」とされた不適切な動作については「1:有」と保存され、継続時間が保存される。
【0095】
制御部30は、ステップS7にて所定時間を経過していないと判断した場合(S7:NO)、処理をステップS9へ進める。
【0096】
なおステップS7にて、所定時間が経過しているか否かは全ての不適切な動作に対して画一的に判断したが、検出された不適切な動作の内容毎に異なる所定時間に対して判断するようにしてもよい。このように不適切な動作の内容毎に異なる所定時間については、画像認識用テーブル322の不適切な動作夫々の番号に対応付けて夫々設定して記憶部32に記憶しておけばよい。
【0097】
図8は、本実施の形態1における会議システムにて、不適切な動作が検出された場合になされる送信制御の例を示す説明図である。図8は、不適切な動作が検出された端末装置1とは異なる端末装置1のディスプレイ14にて確認できる画像を示している。
【0098】
図8に示す例では上段に、送信制限の制御が行なわれる前の画像の内容が示されている。上段の画像からは、3人の人物が認識される。制御部30は、当該画像を画像処理部34へ与えて3つの人物についての顔(輪郭)、口、目、手・腕の位置等の情報を得、画像認識用テーブル322の認識パターンと比較する。図8の上段の画像では、3人の人物の内、最も左側に映る人物の顔の向きが、図中手前から奥への方向を撮像方向とするカメラ15の撮像方向とは異なる向きであると判断できる。制御部30は、顔の向きは「正面」及び所定の傾き以内であるべきところ、最も左側に映る人物の顔の向きが所定の傾き以上であるので「よそ見」、また認識された手・腕の位置が耳の高さに有り、且つ認識された口が開閉していることから「電話」と不適切な動作を検出する。この場合制御部30は、不適切な動作が検出された画像内の位置に基づき、これらの動作が映らないように、一部に白塗り画像を重畳する。これにより、図8の下段に示すように、よそ見をしている人物が隠ぺいされた画像が確認できる。複数の人物が映る画像が端末装置1から送信される場合は、このように、画像の一部を他の画像で重畳する等の加工を行なう。これにより同一の画像に映る他の会議参加者の参加を妨げることはない。
【0099】
会議サーバ装置3の制御部30は、ステップS8にて、不適切な動作が検出された端末装置1からの画像又は音声の送信を停止する場合、送信を停止する旨のメッセージを当該端末装置1へ送信してもよい。このとき制御部30は、所定時間が経過する前に、不適切な動作が検出された端末装置1へ警告表示又はアラーム音を出力するように指示を行ない、不適切な動作を行なっている会議参加者へ注意を促すようにしてもよい。これにより、会議の進行を円滑にすることができる。また、制御部30は、不適切な動作が検出された端末装置からの画像の送信を停止する旨のメッセージを他の端末装置1,1,…へ送信してもよい。これにより、他の端末装置1を使用する会議参加者が状況を把握して会議システムの進行を継続させることができる。
【0100】
以上のよう構成により、ある特定の端末装置1を使用する会議参加者の動作状態が例えば不適切(電話、居眠り、雑談、喧嘩、泣く、大笑い、離席、よそ見、喫煙、食事、舌を出す等)である場合に、当該動作を映す画像又は動作に伴う音声が他の会議参加者へ伝達することを回避される。不適切な動作が映る画像は、他の端末装置1,1,…への送信が禁止されるか、又は他の端末装置1,1,…へ送信されるとしても送信レートが低減されてコマ落ち状態となるか、又は、画面の一部が加工される。これにより、不適切な動作が映っている画像を他の端末装置1,1,…にて観なくとも済むか、ことが不可能となるか、又は鮮明に確認することが困難となるか、又は一部が隠ぺいされて観ることできなくなる。これにより、他の会議参加者の不快感、違和感を抑制し、快適な会議システムを実現できる。また、不適切な動作を撮像した画像、及び集音した音声のデータの送信が制限されることにより、不要なデータが送受信されることを回避することができ、ネットワーク2の通信負荷を軽減することができる。
【0101】
なお、実施の形態1では不適切な動作を「画像認識」によって検出する構成とした。つまり、音声認識によらず、音声又は発声を伴う不適切な動作を口元の開閉動作等に基づき画像認識によって検出する。音声又は発声を伴う不適切な動作とは例えば、電話、雑談、喧嘩、泣く、又は大笑い等の動作であり、これらの場合、実際に不適切な発言がなされる前に口元の動き、又はて若しくは腕の動きを合わせた画像認識によって検出できる可能性がある。したがって、画像認識により、不適切な音声又は発言が実際に発せられる前に、不適切な動作を検出することが可能である。
【0102】
実施の形態1では、制御部30は、所定時間以上継続して不適切な動作が検出された場合に、他の端末装置1,1,…へ送信をしないように制御する構成とした。これにより、一回のみ不適切な動作が検出された場合に、直ぐに送信が停止され、突然に画像がぶつ切りになるよりも、会議の進行を円滑にする。また、所定時間が経過するまでに不適切な動作を行なった人物に警告を与える猶予ができるので、不要に会議への参加を制限して円滑な会議を妨げる可能性を低減することができる。ただし、本発明はこれに限らず、継続時間が所定時間以上であるか否かの判断(S7)を省略し、直ちに送信を制限する制御を行なう構成としてもよい。いずれの構成とするかは、所定時間を0とするか否かを会議の管理者が設定できるようにしておけば適宜変更可能である。
【0103】
(実施の形態2)
実施の形態2では、不適切な動作が検出された端末装置でのカメラの撮像方向又はマイクの集音方向を変更する制御により、他の会議参加者に不快感を覚えさせる画像又は音声の送信を回避する。
【0104】
実施の形態2における会議システムは、会議参加者が夫々用いる端末装置5,5,…と、端末装置5,5,…が接続されるネットワーク2と、端末装置5,5,…間での画像(映像)及び音声の送受信及び共有を実現する会議サーバ装置3とを含んで構成される。つまり、端末装置5を含むことが実施の形態1と異なり、他の構成は実施の形態1の構成と同様である。したがって、以下の説明では実施の形態1の構成と共通する装置及び内部構成については同一の符号を付して詳細な説明を省略する。
【0105】
端末装置5は、実施の形態1における端末装置1同様、タブレット内蔵ディスプレイを搭載した会議システム専用端末を用い、外観も同様である。
【0106】
図9は、実施の形態2の会議システムを構成する端末装置5の内部構成を示すブロック図である。
【0107】
端末装置5は、制御部500と、一時記憶部501と、記憶部502と、入力処理部503と、表示処理部504と、映像処理部505と、入力音声処理部506と、出力音声処理部507と、通信処理部508と、符号化・復号処理部509とを備える。端末装置5は更に、内蔵又は外部接続により、タブレット53と、ディスプレイ54と、カメラ55と、マイク56と、スピーカ57と、無線通信部58とに加え、駆動部59を備える。
【0108】
端末装置5が備える各構成部の内、駆動部59の構成以外は、実施の形態1における各構成部と同様である。したがって、それらの詳細な説明は省略する。
【0109】
駆動部59は、会議サーバ装置3からの指示に基づく制御部500からの制御信号により、カメラ55の撮像方向を変更することが可能である。実施の形態2におけるカメラ55は、端末装置5の筐体内部にて動かされること可能に支持されている。駆動部59は、筐体内部におけるカメラ55の支持部に、接するように配置され、ステッピングモータ等の機構を含んで制御部500からの制御信号に従ってカメラ55の支持部の向きを変更して撮像方向を変更する。
【0110】
制御部500は、記憶部502に記憶してある会議端末用プログラムを読み出して実行することにより、会議開始時には端末装置5を使用する会議参加者へ向けて撮像している。そして、制御部500は、会議サーバ装置3から撮像方向を変更する指示を受信した場合、会議参加者が映らないようにカメラ55の撮像方向を変更させる。
【0111】
図10は、実施の形態2の会議サーバ装置における画像及び音声の送受信処理及び不適切な動作の検出処理手順の一例を示すフローチャートである。なお、以下に示す処理手順の内、実施の形態1の図7に示した処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。
【0112】
制御部30は、所定時間を経過していると判断した場合(S7:YES)、画像の送信元の端末装置1へ、カメラ55の撮像方向を変更する指示を送信し(ステップS20)、ステップS9へ処理を進める。即ち、実施の形態1におけるステップS8の代替として、ステップS20が行なわれる。
【0113】
これにより、端末装置5の制御部500は、カメラ55の撮像方向を、端末装置5を使用する会議参加者を撮像することで会議の場に相応しくない映像を映さないように、駆動部59へ制御信号を与えて調整し、集音方向を変更する処理も行なう。
【0114】
このような構成により、会議参加者によって不適切な動作が検出された端末装置5では、他の会議参加者を不快にさせる可能性が有る画像及び音声を会議サーバ装置3へ届かないようにすることができ、快適な会議システムを実現することができる。
【0115】
実施の形態2では、端末装置5の制御部500は、会議参加者の不適切な操作状態を検出した場合、カメラ55の撮像方向を変更させる制御を行なう構成とした。しかしながら本発明はこれに限らず、指向性の高いマイク56を用い、入力音声処理部506にてマイク56の集音方向を変えるか、又は、特定の方向(右、左など)からの音声を事後的に除去するかの処理を行なってもよい。これにより、他の会議参加者を不快にするような音声が会議サーバ装置3を介して他の端末装置1,1,…へ送信されることを回避することができる。
【0116】
また、会議サーバ装置3の制御部30は、撮像方向及び集音方向を変更させる指示を送信する構成とした。しかしながら本発明はこれに限らず、制御部30が、不適切な動作が検出された端末装置5へ、撮像及び集音の停止並びに画像及び音声のデータの送信の禁止の指示を送信する構成としてもよい。不快感、違和感を抑制するのみならず、他の端末装置5,5,…へ送信しない画像及び音声のデータがそもそもネットワーク2へ送出されないようにすることができる。これにより、画像又は音声による通信負荷の増大及び会議システムにて画像又は音声の送受信を中継する会議サーバ装置3の処理負荷を抑制することも可能である。更に、端末装置1からの送信を制御、即ち会議サーバ装置3での当該端末装置1からの受信を停止するのみならず、会議サーバ装置3は、不適切な動作が検出された端末装置5からの画像の送信データ量を低減する構成としてもよい。具体的には、制御部30は、端末装置5へ映像処理部505により取得される画像の内の一部を送信するように指示する。これにより制御部500は、送信する画像のデータをコマ落ちに、即ちレートを低減する。又は、制御部30は、端末装置1へ映像処理部505からカメラ55による撮像レートを低減させるようにしてもよいし、入力音声処理部506におけるサンプリングレートを低減させて音声のデータのデータ量を低減するようにしてもよい。これにより、不適切な動作を撮像した画像、及び集音した音声のデータの会議サーバ装置3への送信が制限されることにより、不要なデータが送受信されることを回避することができ、ネットワーク2の通信負荷増大を軽減することができる。
【0117】
実施の形態1及び実施の形態2では、会議サーバ装置3が、端末装置1(5),1(5),…から受信した画像に対して画像認識を行なう画像認識部36を備える構成とした。画像認識用テーブル322に予め登録されてある不適切な動作のパターンを一元化できる。しかしながら、画像認識処理及び不適切な動作の検出を行なう主体は、会議サーバ装置3に限らない。会議サーバ装置3の制御部30の負荷を軽減するため、他の装置で行なっても良いし、各端末装置1(5),1(5),…で行なう構成としてもよい。端末装置1(5),1(5),…にて行なう場合、各装置画像認識処理が必要となるので各端末装置1(5),1(5),…の処理負荷が重くなる。一方で、不適切な動作が検出された端末装置1(5)からは会議サーバ装置3への画像及び音声の送信の停止、即ち会議サーバ装置3にて当該端末装置1からの画像及び音声の受信を禁止する等の制御が可能となり、ネットワーク2における通信負荷を軽減できるなどの効果がある。
【0118】
なお、開示された実施の形態は、全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上述の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
【符号の説明】
【0119】
1 端末装置(第1情報処理装置)
100 制御部
105 映像処理部(取得する手段)
106 音声処理部(取得する手段)
108 通信処理部(送信手段、送受信手段)
15 カメラ(撮像装置)
16 マイク(集音装置)
2 ネットワーク
3 会議サーバ装置(第2情報処理装置、情報処理装置)
30 制御部(認識手段、検出手段、送信制御手段)
31 一時記憶部
32 記憶部
322 画像認識用テーブル
36 画像認識部(認識手段)
37 通信処理部

【特許請求の範囲】
【請求項1】
撮像装置又は集音装置と、前記撮像装置からの画像又は前記集音装置からの音声を取得する手段と、取得した画像又は音声を送受信する送受信手段を備える第1情報処理装置を複数と、複数の第1情報処理装置に通信媒体を介して接続し、各第1情報処理装置で送受信される画像又は音声を中継する第2情報処理装置とを含み、複数の第1情報処理装置間で共通の画像又は音声を表示又は出力させて情報を共有させ、会議を実現させる会議システムにおいて、
第1情報処理装置にて取得された画像に映る人物の動作を認識する認識手段と、
該認識手段による認識結果に基づき、不適切な動作の有無を検出する検出手段と、
該検出手段の検出結果に応じて、前記第1情報処理装置からの画像若しくは音声の受信、若しくは他の第1情報処理装置への送信の可否、送信レートの増減、又は前記画像の一部への加工を制御する送信制御手段と
を備えることを特徴とする会議システム。
【請求項2】
前記送信制御手段は、
前記検出手段が不適切な動作を検出した場合、前記不適切な動作が検出された第1情報処理装置からの画像若しくは音声の受信、若しくは他の第1情報処理装置への送信を禁止するか、送信レートを低減するか、又は前記画像の一部への加工を行なうようにしてあること
を特徴とする請求項1に記載の会議システム。
【請求項3】
前記検出手段が不適切な動作を検出した後の前記動作の継続時間を計測する手段と、
前記継続時間が所定時間以上であるか否かを判断する判断手段と
を備え、
前記送信制御手段は、前記判断手段が所定時間以上であると判断した場合に、前記不適切な動作が検出された第1情報処理装置からの画像若しくは音声の受信、若しくは前記画像若しくは音声の他の第1情報処理装置への送信を禁止するか、送信レートを低減するか、又は前記画像の一部への加工を行なうようにしてあること
を特徴とする請求項1に記載の会議システム。
【請求項4】
不適切な動作として予め登録してある画像認識結果の一覧であるテーブルを備え、
前記検出手段は、前記認識手段による認識結果が前記テーブルに含まれる認識結果と対応するか否かによって不適切な動作の有無を検出するようにしてあること
を特徴とする請求項1に記載の会議システム。
【請求項5】
前記検出手段が、不適切な音声又は発声を伴う動作を検出した場合、前記不適切な動作が検出された第1情報処理装置からの画像若しくは音声の受信、若しくは前記画像若しくは音声の他の第1情報処理装置への送信を禁止するようにしてあること
を特徴とする請求項1に記載の会議システム。
【請求項6】
前記送信制御手段は、不適切な動作が検出された第1情報処理装置からの画像の内、前記不適切な動作に対応する画像の一部の上に他の画像を重畳させる加工を行なうこと
を特徴とする請求項1に記載の会議システム。
【請求項7】
前記認識手段及び検出手段は、第2情報処理装置が備えること
を特徴とする請求項1に記載の会議システム。
【請求項8】
前記検出手段が不適切な動作を検出した場合、不適切な動作が検出された第1情報処理装置の撮像装置の撮像方向又は集音装置の集音方向の変更を指示する手段
を備えることを特徴とする請求項1に記載の会議システム。
【請求項9】
他の複数の装置と通信媒体を介して接続し、各装置と画像又は音声を送受信する手段を備える情報処理装置において、
受信した画像に映る人物の動作を認識する手段と、
認識した結果に基づき、不適切な動作の有無を検出する手段と、
検出した結果に応じて、前記他の装置からの画像若しくは音声の受信、若しくは、前記画像若しくは音声の他の装置への送信の可否、送信レートの増減、又は前記画像の一部への加工を制御する手段と
を備えることを特徴とする情報処理装置。
【請求項10】
撮像装置又は集音装置と、前記撮像装置からの画像又は前記集音装置からの音声を取得する手段と、取得した画像又は音声を送受信する送受信手段を備える第1情報処理装置を複数と、複数の第1情報処理装置に通信媒体を介して接続し、各第1情報処理装置で送受信される画像又は音声を中継する第2情報処理装置とを含むシステムにて、第1情報処理装置との画像又は音声の送受信を制御する情報処理方法において、
第1情報処理装置にて取得された画像に映る人物の動作を認識し、
認識した結果に基づき、不適切な動作の有無を検出し、
検出した結果に応じて、前記第1情報処理装置からの画像若しくは音声の受信、若しくは前記画像若しくは音声の他の第1情報処理装置への送信の可否、送信レートの増減、又は前記画像の一部への加工を制御する
ことを特徴とする情報処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−54897(P2012−54897A)
【公開日】平成24年3月15日(2012.3.15)
【国際特許分類】
【出願番号】特願2010−198098(P2010−198098)
【出願日】平成22年9月3日(2010.9.3)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】