説明

対話システム用中継装置、対話システム、対話方法

【課題】参加者の顔や声の大きさを揃えて再生する。
【解決手段】中継装置20は、ビデオカメラ12によって得られた入力画像に含まれる参加者の顔の輪郭を検出して、この輪郭が顔表示枠32とほぼ一致するように、入力画像の表示倍率を変倍して顔画像を生成する。また、中継装置20は、顔画像生成時の変倍率が大きくなると、ビデオカメラ12によって得られた入力音声の出力レベルを大きくする。参加者がビデオカメラ12から遠いと、ビデオカメラ12によって得られる参加者の顔や声が小さくなるが、この場合、変倍率とともに出力レベルも大きくされるため、参加者とビデオカメラ12との距離によらず、参加者の顔や声の大きさを揃えて再生できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テレビ会議システムやテレビ電話などの対話システムに用いられる対話システム用中継装置、並びに、このような対話システム用中継装置を用いた対話システム、対話方法に関するものである。
【背景技術】
【0002】
カメラ及びマイクにより取得した遠隔地にいる相手の画像及び音声を、モニタ及びスピーカにリアルタイムで再生しながら会議を進めることができるテレビ会議システムが知られている。テレビ会議システムを用いることで、遠隔地からも会議に参加できるので便利である。また、下記特許文献1には、1つ画面内に参加者それぞれの画像をマルチウィンドウ形式で表示するとともに、各ウィンドウの大きさに応じて参加者からの音声の大きさを変化させ、テレビ会議に臨場感を持たせるようにした装置が記載されている。
【特許文献1】特開平8−163527号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、テレビ会議システムでは、カメラやマイクにより得られる参加者の顔や声の大きさは、参加者とカメラやマイクとの間の距離に応じて変化する。すなわち、参加者がカメラやマイクに近い場合は、取得される参加者の顔や声の大きさが大きくなり、遠い場合は反対に小さくなる。このため、従来は、装置のオペレータが、各参加者の顔や声の大きさを揃えるようにモニタやスピーカに出力する画像や音声を調節する必要があり面倒であった。
【0004】
本発明は、参加者とカメラ及びマイクとの間の距離によらず、参加者の顔や声の大きさを簡単に揃えることができる対話システム用中継装置を提供することを目的としている。
【課題を解決するための手段】
【0005】
上記目的を達成するために本発明の対話システム用中継装置は、遠隔地の対象者と対話を行うための対話システムに用いられ、前記遠隔地に設置されたカメラ及びカメラの近傍に設置されたマイクから入力される前記対象者の画像及び音声を、モニタ及びスピーカに出力する対話システム用中継装置において、前記カメラからの入力画像を解析し、前記入力画像のうち前記対象者の顔領域の大きさを調べる画像解析部と、前記対象者の声が前記マイクと前記対象者の距離によらずほぼ等しい大きさで前記スピーカから再生されるように、前記顔領域が大きいほど、前記マイクからの入力音声を前記スピーカに出力する際の出力レベルを小さくし、前記顔領域が小さいほど、前記出力レベルを大きくする音声レベル調節部とを備えたことを特徴としている。
【0006】
前記対象者の顔を前記カメラと前記対象者の距離によらずほぼ等しい大きさで前記モニタに表示するために、前記顔領域の大きさを揃えるように前記入力画像の表示倍率を変倍して、前記対象者の顔画像を生成する顔画像生成部を備えていることが好ましい。
【0007】
また、前記音声レベル調節部は、前記顔画像生成時の変倍率に対応した可変率にて前記出力レベルを可変するものでもよい。
【0008】
さらに、1組の前記カメラと前記マイクにより、同時に複数の前記対象者の画像及び音声を取得する対話システムに用いられるとともに、前記対象者のうち会話をしている対象者を特定する特定手段を備え、前記音声レベル調節部は、会話をしている前記対象者の顔の前記顔領域の大きさに基づいて、前記出力レベルを可変させるものでもよい。
【0009】
また、前記特定手段は、前記入力画像を解析して、前記対象者各々の口元の動きを検出し、この検出結果に基づいて、会話をしている対象者を特定するものでもよい。
【0010】
さらに、前記複数の参加者の顔画像が、前記モニタにマルチウィンドウ形式で表示されるようにしてもよい
【0011】
また、本発明の対話システムは、遠隔地に設置されたカメラ及びカメラの近傍に設置されたマイクから入力される対象者の画像及び音声を、モニタ及びスピーカに出力する中継装置を用い、前記遠隔地の対象者と対話を行うための対話システムにおいて、前記中継装置は、前記カメラからの入力画像を解析し、前記入力画像のうち前記対象者の顔領域の大きさを調べる画像解析部と、前記対象者の声が前記マイクと前記対象者の距離によらずほぼ等しい大きさで前記スピーカから再生されるように、前記顔領域が大きいほど、前記マイクからの入力音声を前記スピーカに出力する際の出力レベルを小さくし、前記顔領域が小さいほど、前記出力レベルを大きくする音声レベル調節部とを備えていることを特徴としている。
【0012】
また、本発明の対話方法は、遠隔地に設置されたカメラ及びカメラの近傍に設置されたマイクから入力される対象者の画像及び音声を、モニタ及びスピーカに出力する中継装置を用い、前記遠隔地の対象者と対話を行うための対話方法において、前記中継装置が、前記カメラからの入力画像を解析し、前記入力画像のうち前記対象者の顔領域の大きさを調べる画像解析ステップと、前記対象者の声が前記マイクと前記対象者の距離によらずほぼ等しい大きさで前記スピーカから再生されるように、前記顔領域が大きいほど、前記マイクからの入力音声を前記スピーカに出力する際の出力レベルを小さくし、前記顔領域が小さいほど、前記出力レベルを大きくする音声レベル調節ステップとを備えていることを特徴としている。
【発明の効果】
【0013】
本発明によれば、カメラから入力された画像を解析して、対象者の顔領域の大きさを調べ、前記顔領域が大きい場合、すなわち、対象者がマイクに近い場合、入力音声の出力レベルを小さくし、前記顔領域が小さい場合、すなわち、対象者がマイクから遠い場合、前記出力レベルを大きくしたので、対象者とマイクとの間の距離によらず、簡単に対象者の声の大きさを揃えて再生できる。
【0014】
また、本発明によれば、前記顔領域の大きさを揃えるように前記カメラから入力された画像の表示倍率を変倍して、対象者の顔画像を生成するようにしたので、対象者とカメラとの間の距離によらず、簡単に対象者の顔の大きさを揃えて再生できる。
【0015】
また、本発明によれば、複数の対象者の画像及び音声を1組のカメラ及びマイクによって取得する場合、各対象者のうち会話をしている対象者を特定し、会話をしている対象者の顔領域の大きさに基づいて、マイクから入力された音声の出力レベルを調節するようにしたので、各対象者とカメラ及びマイクとの間の距離によらず、会話をしている対象者の声の大きさを揃えて再生できる。
【発明を実施するための最良の形態】
【0016】
図1において、本発明を適用したテレビ会議システム10は、ビデオカメラ12、14、テレビ16、18、中継装置20とから構成される。テレビ会議システム10は、A地点(例えば、本社の会議室など)にいる参加者と、B地点(例えば、出先機関の会議室など)にいる参加者との間で会議を行う際に用いられる。
【0017】
ビデオカメラ12、テレビ16はA地点に、ビデオカメラ14、テレビ18はB地点にそれぞれ設置され、中継装置20はA地点もしくはB地点のいずれか一方(本実施例ではA地点)に設置される。ビデオカメラ12、テレビ16は、接続ケーブルなどにより中継装置20に接続され、ビデオカメラ14、テレビ18は、電話回線など周知の通信ネットワーク21を介して、中継装置20に接続されている。
【0018】
ビデオカメラ12、14は、撮影レンズやCCDなどからなる撮像部22、及び、マイク23を備え、設置された地点の画像及び音声を中継装置20へ入力する。また、テレビ16、18は、モニタ24、及び、スピーカ25を備え、ビデオカメラ12、14によって得られた画像及び音声の出力に用いられる。中継装置20は、ビデオカメラ12から入力される画像及び音声を、テレビ18に出力し、反対に、ビデオカメラ14からの入力される画像及び音声を、テレビ16に出力する中継処理を行う。
【0019】
図2において、中継装置20の内部には、制御部26が設けられ、中継装置20の各部に接続されている。制御部26は、ROM27に記憶された制御プログラムをRAM28に読み出し、読み出した制御プログラムに基づいて接続された各部を駆動制御する。入力部29には、ビデオカメラ12、14からA、B各地点の画像と音声が入力される。
【0020】
画像解析部30は、入力部29に入力された画像(入力画像)を解析して、参加者の顔及び顔の輪郭を検出する。また、画像解析部30は、入力画像に複数の参加者の顔が検出された場合、入力画像及び入力画像の前後に入力された画像を比較することによって各参加者の口元の動きを検出し、この検出結果に基づいて会話をしている参加者を特定する。
【0021】
顔画像生成部31は、検出された参加者の顔を含む顔画像を生成する。顔画像は、モニタ24に表示する表示用の画像であって、検出された参加者の顔の輪郭が、図3に示す顔表示枠32にほぼ一致するように入力画像の表示倍率を変倍した後、顔画像全体枠34からはみ出す部分を切り取ることによって生成される。入力画像に複数の参加者の顔が検出された場合には、前述した処理が繰り返されて参加者各々の顔画像が生成される。顔表示枠32や顔画像全体枠34は、モニタ24のサイズや、ユーザーによる設定操作に応じ、そのサイズが決定される。これにより、参加者とビデオカメラとの間の距離によらず参加者の顔の大きさを揃えて表示できる。
【0022】
また、顔画像生成部31は、顔画像の生成後、この顔画像の生成時に行った変倍の倍率(変倍率)をメモリ36に記憶する。参加者がビデオカメラから遠いほど、この参加者の顔の輪郭は小さく検出されるので、この参加者の顔画像を精製する際の変倍率が大きくなる。また、反対に、参加者がビデオカメラに近いほど、この参加者の顔の輪郭は大きく検出されるので、この参加者の顔画像を精製する際の変倍率が小さくなる。このため、各参加者の顔画像を精製する際の変倍率は、各参加者とビデオカメラとの間の距離を表すパラメータとなる。
【0023】
図2において、音声レベル調節部38は、メモリ36に記憶された変倍率に基づいて、入力部29に入力された音声(入力音声)を出力する際の出力レベルを可変させる。図4に示すように、音声レベル調節部38は、変倍率が大きい場合、すなわち、参加者がマイクから遠く、入力音声が小さいとみなせる場合、出力レベルを大きくし、反対に、変倍率が小さい場合、すなわち、参加者がマイクに近く、入力音声が大きいとみなせる場合、出力レベルを小さくする。
【0024】
また、音声レベル調節部38は、入力画像に複数の参加者の顔が検出された場合、画像解析部30により会話をしていると特定された参加者の顔画像を生成する際の変倍率に基づいて、出力レベルを決定する。これにより、参加者とビデオカメラとの間の距離によらず参加者(会話をしている参加者)の声の再生レベルが揃えられる。
【0025】
出力部40は、顔画像生成部31により生成された顔画像、並びに、音声レベル調節部38により出力レベルが可変された音声をテレビ16、18に出力する。また、出力部40は、入力画像に複数の参加者の顔が検出された場合、生成された複数の参加者それぞれの顔画像を1つの画面内にマルチウィンドウ形式で納めた再生画面を生成し、この再生画面をモニタ24に出力する。
【0026】
以下、上記構成による本発明の作用について、図5に示すフローチャートをもとに説明する。なお、本発明のテレビ会議システム10は、A地点の画像及び音声をB地点で再生するとともに、B地点の画像及び音声をA地点で再生するものであるが、これら2つの場合では同様の処理が行われるため、以下の説明では、A地点の画像及び音声をB地点で再生する場合について説明をする。また、A地点に、3名の参加者がいる場合について以下説明する。
【0027】
A地点の画像及び音声をB地点で再生する場合、図6に示すように、A地点の参加者50a〜50cをビデオカメラ12の画角に捕らえるように、参加者50a〜50c、並びに、ビデオカメラ12を配置する。そして、ビデオカメラ12による撮影を開始する。
【0028】
撮影が開始されると、中継装置20に、図7に示すような入力画像52、及び、A地点の音声が入力され、これを契機に中継処理が開始される。中継処理では、初めに、入力画像52から各参加者50a〜50cの顔及び顔の輪郭が検出される。続いて、各参加者50a〜50cの口元の動きから会話をしている参加者が特定される(本例では、参加者50bとする)。
【0029】
次に、各参加者50a〜50cの顔の輪郭が顔表示枠32とほぼ等しくなるように、入力画像52の表示倍率が変倍され、図8に示すように、参加者50a〜50cそれぞれの顔画像54a〜54cが生成される。そして、各参加者50a〜50cの顔画像54a〜54cを生成した際の変倍率がメモリ36に記憶される。本例では、ビデオカメラ12にいちばん近い参加者50aの顔画像54aを生成する際の変倍率が1.2倍であり、次に近い参加者50bの顔画像54bを生成する際の変倍率が1.5倍であり、ビデオカメラ12から最も離れた参加者50cの顔画像54cを生成する際の変倍率が2.2倍であり、これらがメモリ36に記憶される。
【0030】
続いて、メモリ36に記憶された変倍率に基づいて、入力音声の出力レベルが調節される。本例では、入力画像52から複数の参加者50a〜50cが検出されるので、会話をしていると特定された参加者50bの顔画像54bを生成した際の変倍率に基づいて、出力レベルが入力音声の1.5倍に調節される。なお、参加者50aが会話をしていると特定された場合は、出力レベルが入力音声の1.2倍に調節され、参加者50cが会話をしていると特定された場合は、出力レベルが入力音声の2.2倍に調節される。
【0031】
そして、出力レベルが調節された音声がテレビ18に出力され、スピーカ25から再生される。また、図9に示すように、各参加者50a〜50cの顔画像54a〜54cがモニタ24にマルチウィンドウ形式で再生表示される。これにより、ビデオカメラ12と参加者50a〜50cとの距離により再生される顔や声が小さくなったり、大きくなったりしてしまうといったことがなく、各参加者50a〜50cの顔や声の大きさが揃えられた状態で再生される。
【0032】
上記実施形態では、各参加者毎に生成された顔画像をマルチウィンドウ形式でモニタ24に並べて表示する例で説明をしたが、本発明はこれに限定されるものではない。例えば、図10に示すように、ビデオカメラ12から入力された入力画像52と、会話をしていると特定された参加者50bの顔画像54bとをモニタ24に表示するといったことも考えられる。なお、図10においては、上記実施形態と同様の部材については同様の符号を付して説明を省略している。
【0033】
また、上記実施形態では、画像解析部が、参加者の口元の動きを検出し、この検出結果に基づいて会話をしている参加者を特定する例で説明をしたが、参加者や中継装置のオペレータが会話をしている参加者を指定してもよい。この場合、例えば、モニタに表示されたカーソルを会話をしている参加者の画像上に移動させ、選択ボタンを押下するなどの方法で、前記指定を行うといったことが考えられる。
【0034】
なお、上記実施形態では、1台のビデオカメラにより、複数の参加者を同時に撮影する例で説明をしたが、参加者の人数分のビデオカメラを用意し、1台のビデオカメラで参加者1人を撮影してもよい。この場合も、上記実施形態と同様に、各参加者とビデオカメラとの距離によらず、各参加者の顔と声の大きさを揃えて再生できる。
【0035】
また、上記実施形態では、参加者が2カ所に別れて存在する例で説明をしたが、参加者が3カ所以上に別れていても本発明を適用できる。この場合、参加者の存在する各地点にビデオカメラとテレビを設置し、これらを中継装置に接続する。そして、中継装置が、各地点に設置されたビデオカメラによって得られた画像及び音声に対して、上記実施形態と同様の処理を施した後、他の地点のテレビに出力すればよい。
【0036】
さらに、上記実施形態では、カメラとマイクが一体に形成されたビデオカメラを用いる例で説明をしたが、カメラとマイクを別体に設けてもよい。また、モニタとスピーカが一体に形成されたテレビを用いる例で説明をしたが、モニタとスピーカを別体に設けてもよい。
【0037】
なお、中継装置として、例えば、上述した中継処理を実行するためのソフトウェアをインストールしたパソコンを用いてもよい。また、中継装置としてパソコンを用いた場合、パソコンに内蔵されたモニタとスピーカを用いて画像と音声を出力するといったことも考えられる。さらに、このパソコンに、USBカメラやマイクを接続することによって、パソコンをビデオカメラ、テレビ、並びに中継装置として機能させるといったことも考えられる。
【図面の簡単な説明】
【0038】
【図1】テレビ会議システムの構成図である。
【図2】中継装置の構成図である。
【図3】顔表示枠と顔画像全体枠とを表す説明図である。
【図4】変倍率と音声の出力レベルの関係を表す説明図である。
【図5】中継処理の流れを表すフローチャートである。
【図6】参加者とビデオカメラの配置を表す説明図である。
【図7】ビデオカメラから入力される画像を表す説明図である。
【図8】顔画像を表す説明図である。
【図9】モニタの表示画面を表す説明図である。
【図10】モニタの表示画面を表す説明図である。
【符号の説明】
【0039】
10 テレビ会議システム
12、14 ビデオカメラ
16、18 テレビ
20 中継装置
22 制御部
30 画像解析部
32 顔表示枠
36 メモリ
38 音声レベル調節部
54a、54b、54c 顔画像

【特許請求の範囲】
【請求項1】
遠隔地の対象者と対話を行うための対話システムに用いられ、前記遠隔地に設置されたカメラ及びカメラの近傍に設置されたマイクから入力される前記対象者の画像及び音声を、モニタ及びスピーカに出力する対話システム用中継装置において、
前記カメラからの入力画像を解析し、前記入力画像のうち前記対象者の顔領域の大きさを調べる画像解析部と、
前記対象者の声が前記マイクと前記対象者の距離によらずほぼ等しい大きさで前記スピーカから再生されるように、前記顔領域が大きいほど、前記マイクからの入力音声を前記スピーカに出力する際の出力レベルを小さくし、前記顔領域が小さいほど、前記出力レベルを大きくする音声レベル調節部とを備えたことを特徴とする対話システム用中継装置。
【請求項2】
前記対象者の顔を前記カメラと前記対象者の距離によらずほぼ等しい大きさで前記モニタに表示するために、前記顔領域の大きさを揃えるように前記入力画像の表示倍率を変倍して、前記対象者の顔画像を生成する顔画像生成部を備えたことを特徴とする請求項1記載の対話システム用中継装置。
【請求項3】
前記音声レベル調節部は、前記顔画像生成時の変倍率に対応した可変率にて前記出力レベルを可変することを特徴とする請求項2記載の対話システム用中継装置。
【請求項4】
1組の前記カメラと前記マイクにより、同時に複数の前記対象者の画像及び音声を取得する対話システムに用いられるとともに、
前記対象者のうち会話をしている対象者を特定する特定手段を備え、
前記音声レベル調節部は、会話をしている前記対象者の顔の前記顔領域の大きさに基づいて、前記出力レベルを可変させることを特徴とする請求項1〜3いずれか記載の対話システム用中継装置。
【請求項5】
前記特定手段は、前記入力画像を解析して、前記対象者各々の口元の動きを検出し、この検出結果に基づいて、会話をしている対象者を特定することを特徴とする請求項4記載の対話システム用中継装置。
【請求項6】
前記複数の参加者の顔画像が、前記モニタにマルチウィンドウ形式で表示されることを特徴とする請求項4または5記載の対話システム用中継装置。
【請求項7】
遠隔地に設置されたカメラ及びカメラの近傍に設置されたマイクから入力される対象者の画像及び音声を、モニタ及びスピーカに出力する中継装置を用い、前記遠隔地の対象者と対話を行うための対話システムにおいて、
前記中継装置は、前記カメラからの入力画像を解析し、前記入力画像のうち前記対象者の顔領域の大きさを調べる画像解析部と、前記対象者の声が前記マイクと前記対象者の距離によらずほぼ等しい大きさで前記スピーカから再生されるように、前記顔領域が大きいほど、前記マイクからの入力音声を前記スピーカに出力する際の出力レベルを小さくし、前記顔領域が小さいほど、前記出力レベルを大きくする音声レベル調節部とを備えていることを特徴とする対話システム。
【請求項8】
遠隔地に設置されたカメラ及びカメラの近傍に設置されたマイクから入力される対象者の画像及び音声を、モニタ及びスピーカに出力する中継装置を用い、前記遠隔地の対象者と対話を行うための対話方法において、
前記中継装置が、前記カメラからの入力画像を解析し、前記入力画像のうち前記対象者の顔領域の大きさを調べる画像解析ステップと、前記対象者の声が前記マイクと前記対象者の距離によらずほぼ等しい大きさで前記スピーカから再生されるように、前記顔領域が大きいほど、前記マイクからの入力音声を前記スピーカに出力する際の出力レベルを小さくし、前記顔領域が小さいほど、前記出力レベルを大きくする音声レベル調節ステップとを備えていることを特徴とする対話方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2007−251355(P2007−251355A)
【公開日】平成19年9月27日(2007.9.27)
【国際特許分類】
【出願番号】特願2006−69205(P2006−69205)
【出願日】平成18年3月14日(2006.3.14)
【出願人】(306037311)富士フイルム株式会社 (25,513)
【Fターム(参考)】