説明

会議端末装置、会議端末制御方法、及び会議端末制御プログラム、

【課題】使用者との位置関係及び使用状況に適した出力音量に制御することができる会議端末装置、会議端末制御方法、会議端末制御プログラムを提供する。
【解決手段】CPUは、USB接続があったと判断し(S300:YES)、テレビ会議中であると判断した場合(S301:YES)、端末の前に人が存在するかどうかを判断する(S302)。存在する場合は、使用者までの距離を測定する(S303)。次に最低音量を決定する(S304)。音声検出処理を実行し(S305)、発言があったかどうかを判断する。発言有と判断した場合(S306:YES)、出力音量変更処理を実行する(S307)。次に前回の発言有の判定から一定時間が経過しているかどうかを判断し、経過したと判断した場合(S308:YES)、次にUSB接続終了かどうかを判断する(S309)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会議端末装置、会議端末制御方法、及び会議端末制御プログラムに関し、詳細には、使用者との位置関係及び使用状況に適した出力音量に制御することができる会議端末装置、会議端末制御方法、会議端末制御プログラムに関する。
【背景技術】
【0002】
従来、複数の拠点でネットワークを介して接続し、各拠点で取得された撮影画像と音声情報を双方向に送受信することにより、遠隔の地にある者同士の会議を実現するテレビ会議装置が知られている。
【0003】
さらに、カメラで撮像した撮像画像に基づいて会議聴衆者までの距離を算出して、その距離に応じた音量でスピーカから音声を出力するような技術も開発されている。(特許文献1)。上記技術では、スピーカから聴衆者までの距離が遠い場合は、大きな音量でスピーカから音声を出力し、または聴衆者までの距離が近い場合は、小さい音量でスピーカから音声を出力するようになるので、聴衆者はどの位置に居ても最適な音量でスピーカからの出力音声を聞くことができるようになっている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−218950号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、上記技術では、スピーカと聴衆者との距離に適した音量で音声が出力されるようになっているが、環境の騒音状況までは考慮されていない。例えば、聴衆者がいる周囲の環境の騒音が大きい場合、聴衆者とスピーカとの距離で判断された音量で音声が出力されても、聴衆者にとっては聞き取り難い状況になってしまうという課題がある。
【0006】
そこで、本発明の目的は、会議端末装置、会議端末制御方法、及び会議端末制御プログラムに関し、詳細には、使用者との位置関係及び使用状況に適した出力音量に制御することができる会議端末装置、会議端末制御方法、会議端末制御プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成する為に、請求項1に記載の会議端末装置では、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う会議端末装置において、前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力手段と、前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力手段と、前記使用者との距離情報を計測する計測手段と、前記音声情報入力手段にて入力された前記使用者の発言による前記音声情報の音量を検出する音量情報検出手段と、前記音量情報検出手段により検出された前記音量情報と、前記計測手段により計測された前記距離情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御する出力音量情報制御手段とを備えることを特徴とする。
【0008】
請求項2に記載の会議端末装置では、請求項1に記載の構成に加え、前記音量情報検出手段により検出された前記音声情報を発言した前記使用者を、発言者として特定する発言者特定手段をさらに備え、前記計測手段は、前記発言者特定手段により特定された前記発言者までの距離を発言者距離情報として計測し、前記出力音量情報制御手段は、前記発言者距離情報と、前記音量情報検出手段により検出された前記音量情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御することを特徴とする。
【0009】
請求項3に記載の会議端末装置では、請求項2に記載の構成に加え、前記音量情報検出手段で検出された前記音量情報を、前記発言者距離情報に基づいて、前記発言者が発言した位置から所定距離の位置での前記音声情報の前記音量情報を算出する発言位置音量算出手段をさらに備え、前記出力音量情報制御手段は、前記発言位置音量算出手段により算出された前記音量情報と同等になるよう、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御することを特徴とする。
【0010】
請求項4に記載の会議端末装置では、請求項3に記載の構成に加え、前記発言者特定手段により発言した前記使用者を特定してから所定時間経過したかどうかを判断する経過時間判断手段をさらに備え、前記出力音量情報制御手段は、前記経過時間判断手段により前記所定時間経過していないと判断している間は、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を、前記発言者距離情報と前記音量情報検出手段により検出された前記音量情報に基づいて制御することを特徴とする。
【0011】
請求項5に記載の会議端末装置では、請求項1乃至4のいずれかに記載の構成に加え、前記使用者の撮像画像を撮像情報として取得する撮像情報取得手段をさらに備え、前記計測手段は、前記撮像情報取得手段により取得した前記撮像情報に基づいて前記使用者との距離情報を計測することを特徴とする。
【0012】
請求項6に記載の会議端末装置では、請求項5に記載の構成に加え、前記計測手段は、前記撮像情報取得手段により取得した前記撮像情報に基づいて複数の前記使用者との距離を計測した場合、最も大きい前記距離情報を決定し、前記出力音量情報制御手段は、前記計測手段により計測された最も大きい前記距離情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の最小音量を特定し、前記最小音量以上で出力するよう制御することを特徴とする。
【0013】
請求項7に記載の会議端末制御方法では、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、音声情報の送受信を行う会議端末装置において処理する会議端末制御方法において、前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力ステップと、前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力ステップと、前記使用者との距離情報を計測する計測ステップと、前記音声情報入力ステップにて、前記使用者の発言による前記音声情報の音量を検出する音量情報検出ステップと、前記音量情報検出ステップにより検出された前記音量情報と、前記計測ステップにより計測された前記距離情報に基づいて、前記音声情報出力ステップにて出力する他拠点の前記音声情報の音量を制御する出力音量情報制御ステップとを処理することを特徴とする。
【0014】
請求項8に記載の会議端末制御プログラムでは、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、音声情報の送受信を行う会議端末装置にて実行する会議端末制御プログラムにおいて、前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力ステップと、前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力ステップと、前記使用者との距離情報を計測する計測ステップと、前記音声情報入力ステップにて、前記使用者の発言による前記音声情報の音量を検出する音量情報検出ステップと、前記音量情報検出ステップにより検出された前記音量情報と、前記計測ステップにより計測された前記距離情報に基づいて、前記音声情報出力ステップにて出力する他拠点の前記音声情報の音量を制御する出力音量情報制御ステップとを前記会議端末装置で実行させることを特徴とする。
【発明の効果】
【0015】
請求項1に記載の会議端末装置では、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う。会議端末装置は、設置された拠点での使用者の音声を音声情報として入力する。また、情報処理装置から送信された他拠点の音声情報を受信して出力する。また、使用者との距離情報を計測する。入力された前記使用者の発言による音声情報の音量を検出し、検出された音量情報と、計測された距離情報に基づいて、出力する他拠点の音声情報の音量を制御する。よって、拠点に設置された会議端末装置は、会議に参加している使用者との距離を計測し、また使用者の発言する音声の音量を検出することで、使用者との距離と使用者の発言音量に基づいて、最適な音量で他拠点の音声情報を出力することができる。したがって、使用者は、周囲の騒音を考慮した音量で発言しているので、会議端末装置から出力される他拠点での会議使用者の音声を、自然に適切な音量で出力させることができるようになる。
【0016】
請求項2に記載の会議端末装置では、請求項1に記載の構成の効果に加え、検出された音声情報を発言した使用者を、発言者として特定する。そして特定された発言者までの距離を発言者距離情報として計測し、発言者距離情報と、検出された音量情報に基づいて、出力する他拠点の音声情報の音量を制御する。よって、会議端末装置は、拠点にいる使用者の中から音声を発言した使用者を発言者として特定し、発言者との距離と音量に基づいて、他拠点からの音声情報の音量を制御して出力することができる。したがって、発言した使用者に適した音量で、会議端末装置から他拠点の会議使用者の音声を出力させることができるようになる。
【0017】
請求項3に記載の会議端末装置では、請求項2に記載の構成の効果に加え、検出された音量情報を、発言者距離情報に基づいて、発言者が発言した位置から所定距離の位置での音声情報の音量情報を算出する。そして算出された音量情報と同等になるよう、出力する他拠点の音声情報の音量を制御する。よって、使用者は、発言した位置から所定距離の位置で聞こえる音量と同等の音量になるよう、会議端末装置から他拠点の会議使用者の音声を出力させることができるので、発言者とネットワークの向こう側の発言者が近くで会話をしているように自然な音量で、会話をすることができる。
【0018】
請求項4に記載の会議端末装置では、請求項3に記載の構成の効果に加え、発言した使用者を特定してから所定時間経過したかどうかを判断する。そして所定時間経過していないと判断している間は、出力する他拠点の前記音声情報の音量を、発言者距離情報と検出された音量情報に基づいて制御する。よって、発言した使用者が特定されてから、発言が終了した後でも、所定時間内は同じ音量で会議端末装置から他拠点の会議使用者の音声を出力させることができる。
【0019】
請求項5に記載の会議端末装置では、請求項1乃至4のいずれかに記載の構成の効果に加え、使用者の撮像画像を撮像情報として取得する。そして取得した撮像情報に基づいて使用者との距離情報を計測する。よって、会議端末装置と使用者との距離を、特別な計測機器を備えることなく、撮像画像を解析することで正確に計測することができるようになる。
【0020】
請求項6に記載の会議端末装置では、請求項5に記載の構成の効果に加え、取得した撮像情報に基づいて複数の使用者との距離を計測した場合、最も大きい距離情報を決定する。そして最も大きい距離情報に基づいて、出力する他拠点の音声情報の最小音量を特定し、最小音量以上で出力するよう制御する。よって、会議に参加している使用者の中で、最も会議端末装置から遠くに位置する使用者に適した音量以上で、他拠点の会議使用者の音声を出力させることができる。したがって、使用者は、どの位置に居ても聞こえる最低限の音量以上で、確実に他拠点の音声を聞き取ることができるようになる。
【0021】
請求項7に記載の会議端末制御方法では、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う。会議端末装置が設置された拠点での使用者の音声を音声情報として入力する。また、情報処理装置から送信された他拠点の音声情報を受信して出力する。また、使用者との距離情報を計測する。入力された前記使用者の発言による音声情報の音量を検出し、検出された音量情報と、計測された距離情報に基づいて、出力する他拠点の音声情報の音量を制御する。よって、拠点に設置された会議端末装置は、会議に参加している使用者との距離を計測し、また使用者の発言する音声の音量を検出することで、使用者との距離と使用者の発言音量に基づいて、最適な音量で他拠点の音声情報を出力することができる。したがって、使用者は、周囲の騒音を考慮した音量で発言しているので、会議端末装置から出力される他拠点での会議使用者の音声を、自然に適切な音量で出力させることができるようになる。
【0022】
請求項8に記載の会議端末制御プログラムでは、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う。会議端末装置が設置された拠点での使用者の音声を音声情報として入力する。また、情報処理装置から送信された他拠点の音声情報を受信して出力する。また、使用者との距離情報を計測する。入力された前記使用者の発言による音声情報の音量を検出し、検出された音量情報と、計測された距離情報に基づいて、出力する他拠点の音声情報の音量を制御する。よって、拠点に設置された会議端末装置は、会議に参加している使用者との距離を計測し、また使用者の発言する音声の音量を検出することで、使用者との距離と使用者の発言音量に基づいて、最適な音量で他拠点の音声情報を出力することができる。したがって、周囲の騒音を考慮した音量で発言しているので、会議端末装置から出力される他拠点での会議使用者の音声を、自然に適切な音量で出力させることができるようになる。
【図面の簡単な説明】
【0023】
【図1】テレビ会議システム100の概略構成図である。
【図2】テレビ会議システム100の電気的構成図である。
【図3】会議端末装置1の構成説明図である。
【図4】距離算出データベース1152Aの説明図である。
【図5】使用者距離情報データベース1152Bの説明図である。
【図6】音量データベース1152Cの説明図である。
【図7】CPU111にて実行されるメイン処理のフローチャート図である。
【図8】CPU111にて実行される音声検出処理のフローチャート図である。
【図9】CPU111にて実行される出力音量変更処理のフローチャート図である。
【発明を実施するための形態】
【0024】
以下、本発明を具体化した会議端末装置の実施の形態について、図面を参照して説明する。なお、これらの図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。
【0025】
まず、図1〜図2を参照して、本実施形態のテレビ会議システム100の概略構成、及び構成要素である会議端末装置1、通信端末装置120の電気的構成について、順に説明する。図1に示すように、テレビ会議システム100は、各拠点(以後、10A、10B、10Cとする。)に設けられた、会議端末装置1、通信端末装置120を含み、これらはすべてネットワーク200に接続されている。ネットワーク200としては、例えば、IP(Internet Protocol)やISDN(Integrated Services Digital Network)等のネットワークを採用することができる。図1では、拠点は3拠点しか図示されていないが、実際には複数が存在してもよい。また各拠点は、例えば、ある企業の同一サイト内に複数存在してもよいし、異なる事業所内や、異なる地域や国に点在して存在していてもよい。
【0026】
通信端末装置120は、例えば、周知のパーソナルコンピュータであり、汎用型の装置である。通信端末装置120は、ネットワーク200を介して接続された複数の拠点間で、使用者の撮像画像や音声情報を送受信することでTV会議を行う為の通信機能等を備える。また、会議端末装置1は、テレビ会議使用者の撮像画像を取得するカメラ機器や、音声情報を取得するマイク機器、音声情報を出力するスピーカ機器を備える。また、会議端末装置1は、通信端末装置120と電気的な接続をすることにより、ネットワーク200を介して他拠点とテレビ会議を行うための機器として機能するようになる。会議端末装置1、通信端末装置120についての詳細な説明は、後述する。
【0027】
さらに、テレビ会議への参加を希望する使用者は、通信端末装置120のうちいずれかを操作し、使用者はID情報等を登録することによってテレビ会議にログインする。テレビ会議に参加した状態では、例えば会議端末装置1のカメラ(図3参照)によって会議に参加している使用者が撮像される。撮像された画像(以下「撮像画像」という。)は、会議端末装置1から通信端末装置120へ送信され、他拠点の通信端末装置120に対して送信される。撮像画像を受信した他拠点の通信端末装置120では、受信した撮像画像を自拠点で撮像した撮像画像と共に表示装置125に表示させる。撮像画像が複数存在する場合、個別のウィンドウ内に其々表示させる。これによってテレビ会議に参加する使用者は、各拠点で会議に参加する使用者の撮像画像を共有して視認することが可能となる。
【0028】
次に、図2を参照して、会議端末装置1、通信端末装置120の電気的構成について説明する。会議端末装置1としては、CPU111と、CPU111に各々接続されたROM112およびRAM113を備えている。CPU111には、その他、入出力(I/O)インタフェイス114が接続されている。I/Oインタフェイス114には、カメラ6、マイク4、スピーカ10、画像入力処理部106、音入力処理部104、音出力処理部110、記録装置115、外部接続装置116が接続されている。
【0029】
CPU111は、会議端末装置1の全体の制御を司る。ROM112は、BIOSを含む、会議端末装置1を動作させるための各種のプログラムや、そのための設定値を記憶している。CPU111は、ROM112や後述する記憶装置115に記憶されたプログラムに従って、会議端末装置1の動作を制御する。RAM113は、各種データを一時的に記憶するための記憶装置である。
【0030】
画像入力処理部106、音入力処理部104、音出力処理部110には、それぞれ、カメラ6、マイク4、スピーカ10が接続されている。カメラ6は、会議端末装置1が設置されている拠点を撮像する撮像機器であり、画像入力処理部106は、カメラ6からの撮像画像の入力を処理する機器である。マイク4は、会議端末装置1が設置されている拠点の音情報を取得する機器であり、音入力処理部104は、マイク4から入力された音情報を処理する機器である。スピーカ10は、他拠点の装置から送信された他拠点の音情報を出力する機器であり、音出力処理部110は、スピーカ10へ音情報の出力条件に基づいて出力処理する機器である。
【0031】
外部接続装置116は、汎用的なUSB機器等であり、通信端末装置120と接続することで撮像画像や音情報の送受信を行うための通信機器である。
【0032】
また、記憶装置115は、プログラム情報記憶エリア1151、使用者情報記憶エリア1152、を含む複数の記憶エリアを備えている。プログラム情報記憶エリア1151には、詳細は図示しないが、撮像画像、音情報を通信端末装置120との間で送受信する機能を会議端末装置1に実行させるための各種プログラムが記憶されている。使用者情報記憶エリア1152には、詳細な説明は後述するが、図4に示すような距離算出データベース1152A、図5に示す使用者距離情報データベース1152B、図6に示す音量データベース1152C等が記憶されている。
【0033】
次に、通信端末装置120の電気的構成について説明をする。通信端末装置120としては、CPU121と、CPU121に各々接続されたROM122およびRAM123を備えている。CPU121には、その他、入出力(I/O)インタフェイス124が接続されている。I/Oインタフェイス124には、表示装置125、画像出力処理部126、入力装置127、通信装置133、記憶装置135、外部接続装置150、CD−ROMドライブ140が接続されている。
【0034】
CPU121は、通信端末装置120の全体の制御を司る。ROM122は、BIOSを含む、通信端末装置120を動作させるための各種のプログラムや、そのための設定値を記憶している。CPU121は、ROM122や、後述する記憶装置135に記憶されたプログラムに従って、通信端末装置120の動作を制御する。RAM123は、各種データを一時的に記憶するための記憶装置である。
【0035】
画像出力処理部126には、表示装置125が接続されている。表示装置125は、他拠点から取得した撮像画像や、自拠点で撮像された撮像画像等を表示する機器であり、図示は省略するが汎用的な液晶モニタ、プロジェクタ等の表示機器である。画像出力処理部126は、表示装置125への撮像画像の出力を処理する機器である。また、入力装置127は、使用者が通信端末装置120へ情報を入力するための装置であり、汎用的なキーボードや、ペンタブレット等の入力装置である。
【0036】
また、記憶装置135は、プログラム情報記憶エリア1351を含む複数の記憶エリアを備えている。詳細は図示しないが、撮像画像、音情報を会議端末装置1や、他拠点の通信端末装置120との間で送受信することでテレビ会議を行うためのテレビ会議アプリを、通信端末装置120に実行させるための各種プログラムが記憶されている。
【0037】
CD−ROMドライブ140は、CD−ROM141に記録されているデータを読み込む機器である。また、CD−ROM141は、通信端末装置120でテレビ会議を行うためのテレビ会議アプリ等が記憶されている。CD−ROM141の導入時には、これら各種プログラムが、CD−ROM141から、プログラム記憶エリア1351に記憶される。外部接続装置150は、汎用的なUSB機器等であり、会議端末装置1に接続することで撮像画像や音情報の送受信を行うための通信機器である。通信装置133は、ネットワーク200に接続し、他の通信端末装置120との間で撮像画像や音情報等の各種データの送受信を行うための機器である。
【0038】
次に、図3を参照しながら、本実施形態での会議端末装置1の外観構成について説明をする。図3に示すように、会議端末装置1は、第一筐体2と、第二筐体3とを備えている。第一筐体2と第二筐体3とは、回転軸5を介して連結され、回転軸5を中心に回動することで折り畳み可能に構成されている。会議端末装置1の上部中央には、回転軸5に回動可能に軸支されたカメラ6が設けられている。カメラ6の中心にはレンズ部7が設けられている。会議端末装置1は、回転軸5を上方に向け、第一筐体2と第二筐体3とを最大角度で開いた状態で、机上等の水平面に載置して自立させることができる。会議端末装置1が自立した状態で、カメラ6を回動し、レンズ部7を撮像対象者に向けることで、会議端末装置1の設置が完了する。
【0039】
次に、第一筐体2の構造について説明する。図3に示すように、第一筐体2は、縦長の略直方体状に形成されている。第一筐体2の内側には、電子基板等の各種電子部品が格納されている。第一筐体2は、正面部21、右側面部22、左側面部23、上面部24、底面部25、背面部26を備えている。正面部21の略中央には、スピーカ10が設けられている。スピーカ10は、他拠点の通信端末装置120から送信された音情報等を出力する。正面部21の下部の左右両側には、マイク4(11,12)が各々設けられている。マイク4は、自拠点の使用者の音情報を取得し、接続している自拠点の通信端末装置120へ出力する。
【0040】
上面部24は、正面部21の上部から後方に向かって半円弧状に形成されている。その終端部は上面部24の最上部に位置し、かつ回転軸5に対して直交する方向に切断されている。この終端部には、第一筐体2と第二筐体3を開く際に、第二筐体3の上端部に設けられた後述する係止部66が係止するための被係止部56が設けられている。図3に示すように、係止部66が被係止部56に係止することによって、第一筐体2と第二筐体3の回動が制限される。
【0041】
また、上面部24の長手方向中央には、略長方形状に切り欠いた凹部14が設けられている。凹部14の内側には、回転軸5を中心に回動可能に軸支されたカメラ6が設けられている。カメラ6を使用する時は、図3に示すように、カメラ6を回動してレンズ部7を外部に露出させる。カメラ6を使用しない時は、カメラ6を回動してレンズ部7を凹部14の内側に収納する。
【0042】
右側面部22の長手方向略中央には、スピーカ10の音量を大きくするための+(プラス)ボタン51と、小さくするための−(マイナス)ボタン52とが上下に並んで設けられている。右側面部22の下側には、マイク4による音の入力を一時禁止するマイク禁止ボタン53が設けられている。
【0043】
右側面部22の背面部26側の縁部に沿った部分には、右側面部22よりも一段低くなった段差部22Aが設けられている。段差部22Aは、会議端末装置1を閉じたときに、第二筐体3の後述する側壁部32によって覆われる部分である。
【0044】
左側面部23には、カメラ6による撮影を一時中断するカメラ中断ボタン(図示外)と、通信端末装置120に対して撮像画像、音情報の入出力を行うための通信用の配線を接続するため、汎用的なUSB機器等の外部接続装置部(図示外)が設けられている。
【0045】
底面部25は、背面部26側の非接地部27と、正面部21側の接地部28とからなる。接地部28は、非接地部27よりも下方に突出しているため、机上等の水平面に接地する部分となる。図3に示すように、接地部28は、正面部21側から背面部26側に向かって所定角度で斜め上方に傾斜している。接地部28の傾斜面は、会議端末装置1を最大角度で開き、机上等の水平面に自立させたときに水平となるように形成されている。
【0046】
次に、第二筐体3の構造について説明する。図3に示すように、第二筐体3は、断面凹状の蓋状に形成されている。第二筐体3は、薄板である本体部31を備えている。本体部31は、その上端部において回転軸5に回動可能に連結されている。本体部31の左右両端部には、第一筐体2側に向かって突出するリブ状の側壁部32(左端部の側壁部は図示外)が各々設けられている。さらに、本体部31の下端部には、第一筐体2側に向かって突出すると共に、机上に接地するリブ状の接地部33が設けられている。また、これら本体部31、側壁部32、接地部33によって囲まれる内側に、第一筐体2の背面部26側に覆い被さるための空洞部37が形成されている。
【0047】
次に、図4を参照しながら、使用者情報記憶エリア1152に記憶されている距離算出データベース1152Aについて説明をする。距離算出データベース1152Aは、カメラ6により取得された撮像画像に基づいて検出された人の顔領域のサイズを画素単位(ピクセル)で測定した値の項目と、そのサイズに対応付けられている人までの距離の項目を対応付けしたデータベースである。撮像画像から人の顔を検出する技術については、既に幾つかの方法が考案されているが、例えば、人の顔の目、鼻、口の輪郭線を示すパターンデータを予め記憶しておき、撮像画像から上記パターンと類似する輪郭形状が検出できるかで、人の顔の有無を検出する方法を用いればよい。また、サイズの項目については、検出された人の顔領域のサイズを測定するが、検出された顔の領域の色分布から顔の領域のサイズを測定するようにすれば良いが、これに限るものではない。図4に示す距離算出データベース1152Aは、例えば、サイズが60と検出された場合は、人と装置との距離は2.5mとして対応付けられている。また、サイズが120と検出された場合は、距離を1.0mとして対応付けられている。また、距離算出データベース1152Aの顔のサイズと距離の関係は、カメラの撮像性能、設定条件等によって変化する値なので、予め顔のサイズと距離の関係を測定して更新できるようにすれば、より精度良く使用者との距離を計測することができるようになる。
【0048】
次に、図5を参照しながら、使用者距離情報データベース1152Bについて説明をする。使用者距離情報データベース1152Bは、後述するメイン処理(図7)のステップS302で処理された際に記憶されるデータベースである。使用者距離情報データベース1152Bは、使用者を識別する項目と、距離の項目が対応付けて記憶される。使用者の項目は、検出された人に対応付けて自動で採番される識別情報が記憶されている。また、距離の項目では、ステップS302の処理にて、距離算出データベース1152Aに基づいて算出された距離の情報が記憶されている。
【0049】
次に、図6を参照しながら、音量データベース1152Cについて説明をする。音量データベース1152Cは、後述する図8の音声検出処理でのステップS405の処理で記憶生成されるデータベースである。音量データベース1152Cは、使用者の識別情報と、それに対応付けて検出された音量の値が各々記憶されている。
【0050】
次に、図7を参照して会議端末装置1のCPU111により行われるメイン処理について説明をする。図7は会議端末装置1でのメイン処理のフローチャートであり、会議端末装置1の電源がONされると開始される。まず初めに、CPU111は、通信端末装置120とUSB接続したかどうかを判断する(S300)。具体的には、会議端末装置1の外部接続装置116と、通信端末装置120の外部接続装置150が、USB等の電気的な接続をされたかどうかを判断する。ステップS300の処理で、CPU111は、USB接続していないと判断した場合(S300:NO)、再度ステップS300の処理が繰り返し実行される。
【0051】
ステップS300の処理で、CPU111は、USB接続があったと判断した場合(S300:YES)、次にCPU111は、接続した通信端末装置120がテレビ会議中かどうかを判断する(S301)。具体的には、テレビ会議アプリが起動して、他拠点の通信端末装置120と双方向通信接続がされている状態かどうかを判断する。ステップS301の処理で、CPU111はテレビ会議中では無いと判断した場合(S301:NO)、再度S301を繰り返し実行する。また、ステップS301の処理で、CPU111はテレビ会議中であると判断した場合(S301:YES)、次に装置の前に人が存在しているかどうかを判断する(S302)。ステップS301の処理で通信端末装置120がテレビ会議中の場合は、他拠点の撮像画像を受信したり、自拠点の撮像画像を他拠点へ送信する状態になる。そして、自拠点の撮像画像から、人が存在するかどうかを上述した顔の検出方法により判定を行う。ステップS302の処理で、CPU111は、人が存在しないと判断した場合(S302:NO)、ステップS308へ移行する。また、ステップS302の処理で、CPU111は、人が存在すると判断した場合(S302:YES)、使用者までの距離を測定する(S303)。ステップS303の処理では、具体的には、カメラ6で取得した撮像画像から、人の顔を検出し、距離算出データベース1152Aを参照して使用者との距離を測定する。そして、測定結果を使用者距離情報データベース1152Bに記憶する処理が実行される。また、ステップS303の処理では、撮像画像に使用者が複数検出された場合は、それぞれの使用者について同様の処理を実施し、使用者距離情報データベース1152Bに追加記憶するようになっている。
【0052】
次に、CPU111は、最低音量を決定する処理を実行する(S304)。ステップS304の処理では、ステップS303の処理で記憶された使用者距離情報データベース1152Bの中から最も距離が大きい値を特定する。本実施形態での使用者距離情報データベース1152Bでは、使用者Cの距離3mの値が最も大きい距離と判断する。そして、その最大距離に対応した最低音量を算出する。本実施形態での最低音量の算出方法は、例えば、会議端末装置1には予め、会議端末装置1から1m離れた位置で所定音量が聞こえるように出力音量を調整した設定値が記憶されており、1m位置での所定音量に対して、使用者までの距離間を伝達する音が減衰する減衰量を求める式を用いて算出するようになっている。減衰量をPとして、求める式は、例えば、P=20Log10(距離/1)を用いるようにすれば良い。前記式は、音源から1m離れた位置での音量を基準にして、実際に使用者までの距離での減衰量へ換算する式である。また、本実施形態では、人が支障なく聞くことができる音量として聞き手の場所で50dBを所定音量として登録しているとし、最大距離の3mまでに減衰する減衰量Pは、20Log10(3/1)≒9dBとして算出されるので、最低音量として、1mの位置で59dB聞こえる出力音量が設定される。
【0053】
次に、CPU111は、音声検出処理を実行する(S305)。ステップS305の音声検出処理は、図8のフローチャート図を参照しながら説明をする。まず、CPU111は、入力音量が所定値以上かどうかを判断する(S401)。ステップS401の処理では、マイク4から取得した使用者の発言音量が所定値以上かどうかを判断する。所定値以上かどうかの判断は、取得した音量がノイズ等の騒音かどうかを区別する為の処理である。そして、ステップS401の処理で、CPU111は、所定値以下と判断した場合(S401:NO)、ステップS407の処理へ移行する。ステップS401の処理で、CPU111は、入力音量が所定値以上と判断した場合(S401:YES)、初回ならばタイマを始動する(S402)。
【0054】
そして、CPU111は、使用者の口の動きを検出する(S403)。ステップS403の処理では、具体的には、図7のステップS302の処理で検出した使用者の口の輪郭形状が、所定量変化したかどうかで判断するようになっている。次に、CPU111は、使用者の口の動きを検出できたかどうかを判断する(S404)。ステップS404の処理で、CPU111は、口の動きを検出できたと判断した場合(S404:YES)、口の動きを検出した使用者を発言者として特定し、図6に示すような音量データベース1152Cにそのときの入力音量を記憶する(S405)。ステップS404の処理で、CPU111は、使用者の口の動きを検出できなかったと判断した場合は(S404:NO)、発言者無と特定して音量データベース1152Cに音量を記憶しない(S406)。また、ステップS404処理で、CPU111は、同時に複数の使用者の口の動きを検出した場合、どの使用者の発言か特定できないので、この場合もステップS404:NOと判断するようになっているものとする。
【0055】
ステップS401、S405、S406の後、CPU111は、所定時間経過したかどうかを判断する(S407)。ステップS407の処理で、CPU111は、所定時間経過していないと判断した場合(S407:NO)、再度ステップS401の処理へ戻る。また、ステップS407の処理で、CPU111は、所定時間経過したと判断した場合(S407:YES)、本処理を終了する。
【0056】
図7のメイン処理の説明に戻り、上述した音声検出処理(S305)の後、CPU111は、発言があったかどうかを判断する(S306)。ステップS306の処理では、図8で説明したステップS405の処理で、発言者の音量データが音量データベース1152Cに記憶されているかどうかで判断する。ステップS306の処理で、CPU111は、発言有と判断した場合(306:YES)、出力音量変更処理を実行する(S307)。ステップS306の処理では、音量データベース1152Cに同一使用者に対して、所定回数以上(例えば、3回以上)の音量データが記憶されている場合のみ、発言有と判断するようになっている。これは、使用者の発話以外の突発的な発音を、発言として判定しないようにするためである。また、ステップS306の処理で、CPU111は、発言無しと判断した場合(S306:NO)、前回の発言有の判定から一定時間が経過しているかどうかを判断する(S308)。
【0057】
ここで、図9を参照しながら出力音量変更処理のフローチャートについて説明をする。まず初めに、CPU111は、音量データベース1152Cに発言者の音量データが有るかどうかを判断する(S501)。ステップS501の処理で、CPU111は、音量データが無いと判断した場合(S501:NO)、ステップS506の処理へ移行する。ステップS501の処理で、CPU111は、音量データが有ると判断した場合(S501:YES)、最も多く発言を検出した使用者を発言者として特定し、特定した使用者に対応する出力音量Xを算出する(S502)。
【0058】
ステップS502で算出される出力音量Xについて説明をする。出力音量Xは、発言者から所定距離で検出される発言者音声の音量を算出し、他拠点から送信された音声を同程度の音量で、発言者に聞こえるようにするための会議端末装置1の出力音量である。上述したように音量は、会議端末装置1と発言者との間の距離で減衰するので、発言者の音量に対して、発言者から所定距離で聞こえている音量にする為に、減衰量を加算した音量を出力音量Xとするようになっている。例えば、図6に示す音量データベース1152Cの中で会議端末装置1から2m離れている使用者Aの音量データの平均値が56dBなので、使用者Aから1mの距離では、使用者Aの音声は56−20log10(1/2)=62dBの音量で聞こえていることになる。そして、会議端末装置1から出力する音量が、62dBで使用者Aに聞こえるようにする為には、会議端末装置1から1m離れた所で聞こえる音量をXとすると、X―20log10(2/1)=62として、X=68dBと算出できる。よって、会議端末装置1から出力した音量が1mの距離で68dBの音量で聞こえる音量で出力する。
【0059】
ステップS502の処理の後、CPU111は、出力音量Xが最低音量より小さいかどうかを判断する(S503)。ステップS503での最低音量とは、ステップS304(図7)の処理で決定された音量である。ステップS503の処理で、CPU111は、出力音量Xが最低音量より大きいと判断した場合(S503:NO)、スピーカ10から出力する音量を出力音量Xに設定変更する(S505)。また、ステップS503の処理にて、CPU111は、出力音量Xが最低音量より小さいと判断した場合(S503:YES)、スピーカから出力する音量を最低音量に設定する(S504)。次に、CPU111は、音量データベース1152Cに記憶されている音量データを削除する処理を実行し(S506)、本処理を終了する。
【0060】
図7のメイン処理の説明に戻り、図9で説明した音量変更処理(S307)の後、CPU111は、前回の発言有の判定から一定時間が経過しているかどうかを判断する(S308)。ステップS308の処理で、CPU111は一定時間が経過していないと判断した場合(S308:NO)、ステップS305の処理へ戻る。また、一定時間経過したと判断した場合(S308:YES)、CPU111は、USB接続を終了したかどうかを判断する(S309)。ステップS309の処理で、CPU111は、USB接続終了でないと判断した場合(S309:NO)、テレビ会議が終了かどうかを判断する(S310)。ステップS310の処理で、テレビ会議が終了であると判断した場合(S310:YES)、ステップS301の処理へ戻る。また、ステップS310の処理で、CPU111は、テレビ会議が終了でないと判断した場合(S310:NO)、ステップS302の処理へ戻り、以降の処理が再度実行される。また、ステップS309の処理で、CPU111は、USB接続終了であると判断した場合(S309:YES)、ステップS300の処理へ戻り、以降の処理を再度実行する。また、本メイン処理は、会議端末装置1の電源がOFFされるまで継続して実行するようになっており、電源がOFFされた場合に本処理を終了する。
【0061】
上述した処理を実行することにより、拠点に設置された会議端末装置1は、会議に参加している使用者との距離を計測し、また使用者の発言する音声の音量を検出することで、使用者との距離と使用者の発言音量に基づいて、最適な音量で他拠点の音声情報を出力することができる。したがって、使用者は、周囲の騒音を考慮した音量で発言しているので、会議端末装置1から出力される他拠点での会議使用者の音声を、自然に適切な音量で出力させることができるようになる。また、会議端末装置1は、拠点にいる使用者の中から音声を発言した使用者を発言者として特定し、発言者との距離と音量に基づいて、他拠点からの音声情報の音量を制御して出力することができる。したがって、発言した使用者に適した音量で、会議端末装置1から他拠点の会議使用者の音声を出力させることができるようになる。さらに、使用者は、発言した位置から所定距離の位置で聞こえる音量と同等の音量になるよう、会議端末装置1から他拠点の会議使用者の音声を出力させることができるので、発言者とネットワークの向こう側の発言者が近くで会話をしているように自然な音量で、会話をすることができる。また、発言した使用者が特定されてから、発言が終了した後でも、所定時間内は同じ音量で会議端末装置1から他拠点の会議使用者の音声を出力させることができる。さらに、取得した撮像情報に基づいて使用者との距離情報を計測する。よって、会議端末装置1と使用者との距離を、特別な計測機器を備えることなく、撮像画像を解析することで正確に計測することができるようになる。また、会議に参加している使用者の中で、最も会議端末装置1から遠くに位置する使用者に適した音量以上で、他拠点の会議使用者の音声を出力させることができる。したがって、使用者は、どの位置に居ても聞こえる最低限の音量以上で、確実に他拠点の音声を聞き取ることができるようになる。
【0062】
本発明は上記実施形態に限定されることはなく、様々な変形が可能であることは言うまでもない。例えば、上記実施例では、図7のステップS301の処理が行われてから、使用者までの距離や、音量を計測するようにしたが、これに限るものではなく、会議端末装置1の電源がONされた後に行うようにしても良い。また、さらに、ステップS302の処理にて、使用者まので距離をカメラ6の撮像画像から算出するようにしたが、これに限るものではなく、例えば汎用的な非接触距離センサ等を用いて計測するようにしても良い。
【符号の説明】
【0063】
1 会議端末装置
10A テレビ会議拠点
10B テレビ会議拠点
10C テレビ会議拠点
100 テレビ会議システム
120 通信端末装置
1152A 距離算出データベース
1152B 使用者距離情報データベース
1152C 音量データベース

【特許請求の範囲】
【請求項1】
各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う会議端末装置において、
前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力手段と、
前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力手段と、
前記使用者との距離情報を計測する計測手段と、
前記音声情報入力手段にて入力された前記使用者の発言による前記音声情報の音量を検出する音量情報検出手段と、
前記音量情報検出手段により検出された前記音量情報と、前記計測手段により計測された前記距離情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御する出力音量情報制御手段と、
を備えることを特徴とする会議端末装置。
【請求項2】
前記音量情報検出手段により検出された前記音声情報を発言した前記使用者を、発言者として特定する発言者特定手段をさらに備え、
前記計測手段は、前記発言者特定手段により特定された前記発言者までの距離を発言者距離情報として計測し、
前記出力音量情報制御手段は、前記発言者距離情報と、前記音量情報検出手段により検出された前記音量情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御する
ことを特徴とする請求項1に記載の会議端末装置。
【請求項3】
前記音量情報検出手段で検出された前記音量情報を、前記発言者距離情報に基づいて、前記発言者が発言した位置から所定距離の位置での前記音声情報の前記音量情報を算出する発言位置音量算出手段をさらに備え、
前記出力音量情報制御手段は、前記発言位置音量算出手段により算出された前記音量情報と同等になるよう、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御する
ことを特徴とする請求項2に記載の会議端末装置。
【請求項4】
前記発言者特定手段により発言した前記使用者を特定してから所定時間経過したかどうかを判断する経過時間判断手段をさらに備え、
前記出力音量情報制御手段は、前記経過時間判断手段により前記所定時間経過していないと判断している間は、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を、前記発言者距離情報と前記音量情報検出手段により検出された前記音量情報に基づいて制御する
ことを特徴とする請求項3に記載の会議端末装置。
【請求項5】
前記使用者の撮像画像を撮像情報として取得する撮像情報取得手段をさらに備え、
前記計測手段は、前記撮像情報取得手段により取得した前記撮像情報に基づいて前記使用者との距離情報を計測する
ことを特徴とする請求項1乃至4のいずれかに記載の会議端末装置。
【請求項6】
前記計測手段は、前記撮像情報取得手段により取得した前記撮像情報に基づいて複数の前記使用者との距離を計測した場合、最も大きい前記距離情報を決定し、
前記出力音量情報制御手段は、前記計測手段により計測された最も大きい前記距離情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の最小音量を特定し、前記最小音量以上で出力するよう制御する
ことを特徴とする請求項5に記載の会議端末装置。
【請求項7】
各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、音声情報の送受信を行う会議端末装置において処理する会議端末制御方法において、
前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力ステップと、
前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力ステップと、
前記使用者との距離情報を計測する計測ステップと、
前記音声情報入力ステップにて、前記使用者の発言による前記音声情報の音量を検出する音量情報検出ステップと、
前記音量情報検出ステップにより検出された前記音量情報と、前記計測ステップにより計測された前記距離情報に基づいて、前記音声情報出力ステップにて出力する他拠点の前記音声情報の音量を制御する出力音量情報制御ステップと、
を処理することを特徴とする会議端末制御方法。
【請求項8】
各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、音声情報の送受信を行う会議端末装置にて実行する会議端末制御プログラムにおいて、
前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力ステップと、
前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力ステップと、
前記使用者との距離情報を計測する計測ステップと、
前記音声情報入力ステップにて、前記使用者の発言による前記音声情報の音量を検出する音量情報検出ステップと、
前記音量情報検出ステップにより検出された前記音量情報と、前記計測ステップにより計測された前記距離情報に基づいて、前記音声情報出力ステップにて出力する他拠点の前記音声情報の音量を制御する出力音量情報制御ステップと、
を前記会議端末装置で実行させることを特徴とする会議端末制御プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−199851(P2012−199851A)
【公開日】平成24年10月18日(2012.10.18)
【国際特許分類】
【出願番号】特願2011−63692(P2011−63692)
【出願日】平成23年3月23日(2011.3.23)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】