会議端末装置、会議端末制御方法、及び会議端末制御プログラム、

【課題】使用者との位置関係及び使用状況に適した出力音量に制御することができる会議端末装置、会議端末制御方法、会議端末制御プログラムを提供する。
【解決手段】ＣＰＵは、ＵＳＢ接続があったと判断し（Ｓ３００：ＹＥＳ）、テレビ会議中であると判断した場合（Ｓ３０１：ＹＥＳ）、端末の前に人が存在するかどうかを判断する（Ｓ３０２）。存在する場合は、使用者までの距離を測定する（Ｓ３０３）。次に最低音量を決定する（Ｓ３０４）。音声検出処理を実行し（Ｓ３０５）、発言があったかどうかを判断する。発言有と判断した場合（Ｓ３０６：ＹＥＳ）、出力音量変更処理を実行する（Ｓ３０７）。次に前回の発言有の判定から一定時間が経過しているかどうかを判断し、経過したと判断した場合（Ｓ３０８：ＹＥＳ）、次にＵＳＢ接続終了かどうかを判断する（Ｓ３０９）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、会議端末装置、会議端末制御方法、及び会議端末制御プログラムに関し、詳細には、使用者との位置関係及び使用状況に適した出力音量に制御することができる会議端末装置、会議端末制御方法、会議端末制御プログラムに関する。
【背景技術】
【０００２】
従来、複数の拠点でネットワークを介して接続し、各拠点で取得された撮影画像と音声情報を双方向に送受信することにより、遠隔の地にある者同士の会議を実現するテレビ会議装置が知られている。
【０００３】
さらに、カメラで撮像した撮像画像に基づいて会議聴衆者までの距離を算出して、その距離に応じた音量でスピーカから音声を出力するような技術も開発されている。（特許文献１）。上記技術では、スピーカから聴衆者までの距離が遠い場合は、大きな音量でスピーカから音声を出力し、または聴衆者までの距離が近い場合は、小さい音量でスピーカから音声を出力するようになるので、聴衆者はどの位置に居ても最適な音量でスピーカからの出力音声を聞くことができるようになっている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００９−２１８９５０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかし、上記技術では、スピーカと聴衆者との距離に適した音量で音声が出力されるようになっているが、環境の騒音状況までは考慮されていない。例えば、聴衆者がいる周囲の環境の騒音が大きい場合、聴衆者とスピーカとの距離で判断された音量で音声が出力されても、聴衆者にとっては聞き取り難い状況になってしまうという課題がある。
【０００６】
そこで、本発明の目的は、会議端末装置、会議端末制御方法、及び会議端末制御プログラムに関し、詳細には、使用者との位置関係及び使用状況に適した出力音量に制御することができる会議端末装置、会議端末制御方法、会議端末制御プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
上記目的を達成する為に、請求項１に記載の会議端末装置では、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う会議端末装置において、前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力手段と、前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力手段と、前記使用者との距離情報を計測する計測手段と、前記音声情報入力手段にて入力された前記使用者の発言による前記音声情報の音量を検出する音量情報検出手段と、前記音量情報検出手段により検出された前記音量情報と、前記計測手段により計測された前記距離情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御する出力音量情報制御手段とを備えることを特徴とする。
【０００８】
請求項２に記載の会議端末装置では、請求項１に記載の構成に加え、前記音量情報検出手段により検出された前記音声情報を発言した前記使用者を、発言者として特定する発言者特定手段をさらに備え、前記計測手段は、前記発言者特定手段により特定された前記発言者までの距離を発言者距離情報として計測し、前記出力音量情報制御手段は、前記発言者距離情報と、前記音量情報検出手段により検出された前記音量情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御することを特徴とする。
【０００９】
請求項３に記載の会議端末装置では、請求項２に記載の構成に加え、前記音量情報検出手段で検出された前記音量情報を、前記発言者距離情報に基づいて、前記発言者が発言した位置から所定距離の位置での前記音声情報の前記音量情報を算出する発言位置音量算出手段をさらに備え、前記出力音量情報制御手段は、前記発言位置音量算出手段により算出された前記音量情報と同等になるよう、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御することを特徴とする。
【００１０】
請求項４に記載の会議端末装置では、請求項３に記載の構成に加え、前記発言者特定手段により発言した前記使用者を特定してから所定時間経過したかどうかを判断する経過時間判断手段をさらに備え、前記出力音量情報制御手段は、前記経過時間判断手段により前記所定時間経過していないと判断している間は、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を、前記発言者距離情報と前記音量情報検出手段により検出された前記音量情報に基づいて制御することを特徴とする。
【００１１】
請求項５に記載の会議端末装置では、請求項１乃至４のいずれかに記載の構成に加え、前記使用者の撮像画像を撮像情報として取得する撮像情報取得手段をさらに備え、前記計測手段は、前記撮像情報取得手段により取得した前記撮像情報に基づいて前記使用者との距離情報を計測することを特徴とする。
【００１２】
請求項６に記載の会議端末装置では、請求項５に記載の構成に加え、前記計測手段は、前記撮像情報取得手段により取得した前記撮像情報に基づいて複数の前記使用者との距離を計測した場合、最も大きい前記距離情報を決定し、前記出力音量情報制御手段は、前記計測手段により計測された最も大きい前記距離情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の最小音量を特定し、前記最小音量以上で出力するよう制御することを特徴とする。
【００１３】
請求項７に記載の会議端末制御方法では、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、音声情報の送受信を行う会議端末装置において処理する会議端末制御方法において、前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力ステップと、前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力ステップと、前記使用者との距離情報を計測する計測ステップと、前記音声情報入力ステップにて、前記使用者の発言による前記音声情報の音量を検出する音量情報検出ステップと、前記音量情報検出ステップにより検出された前記音量情報と、前記計測ステップにより計測された前記距離情報に基づいて、前記音声情報出力ステップにて出力する他拠点の前記音声情報の音量を制御する出力音量情報制御ステップとを処理することを特徴とする。
【００１４】
請求項８に記載の会議端末制御プログラムでは、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、音声情報の送受信を行う会議端末装置にて実行する会議端末制御プログラムにおいて、前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力ステップと、前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力ステップと、前記使用者との距離情報を計測する計測ステップと、前記音声情報入力ステップにて、前記使用者の発言による前記音声情報の音量を検出する音量情報検出ステップと、前記音量情報検出ステップにより検出された前記音量情報と、前記計測ステップにより計測された前記距離情報に基づいて、前記音声情報出力ステップにて出力する他拠点の前記音声情報の音量を制御する出力音量情報制御ステップとを前記会議端末装置で実行させることを特徴とする。
【発明の効果】
【００１５】
請求項１に記載の会議端末装置では、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う。会議端末装置は、設置された拠点での使用者の音声を音声情報として入力する。また、情報処理装置から送信された他拠点の音声情報を受信して出力する。また、使用者との距離情報を計測する。入力された前記使用者の発言による音声情報の音量を検出し、検出された音量情報と、計測された距離情報に基づいて、出力する他拠点の音声情報の音量を制御する。よって、拠点に設置された会議端末装置は、会議に参加している使用者との距離を計測し、また使用者の発言する音声の音量を検出することで、使用者との距離と使用者の発言音量に基づいて、最適な音量で他拠点の音声情報を出力することができる。したがって、使用者は、周囲の騒音を考慮した音量で発言しているので、会議端末装置から出力される他拠点での会議使用者の音声を、自然に適切な音量で出力させることができるようになる。
【００１６】
請求項２に記載の会議端末装置では、請求項１に記載の構成の効果に加え、検出された音声情報を発言した使用者を、発言者として特定する。そして特定された発言者までの距離を発言者距離情報として計測し、発言者距離情報と、検出された音量情報に基づいて、出力する他拠点の音声情報の音量を制御する。よって、会議端末装置は、拠点にいる使用者の中から音声を発言した使用者を発言者として特定し、発言者との距離と音量に基づいて、他拠点からの音声情報の音量を制御して出力することができる。したがって、発言した使用者に適した音量で、会議端末装置から他拠点の会議使用者の音声を出力させることができるようになる。
【００１７】
請求項３に記載の会議端末装置では、請求項２に記載の構成の効果に加え、検出された音量情報を、発言者距離情報に基づいて、発言者が発言した位置から所定距離の位置での音声情報の音量情報を算出する。そして算出された音量情報と同等になるよう、出力する他拠点の音声情報の音量を制御する。よって、使用者は、発言した位置から所定距離の位置で聞こえる音量と同等の音量になるよう、会議端末装置から他拠点の会議使用者の音声を出力させることができるので、発言者とネットワークの向こう側の発言者が近くで会話をしているように自然な音量で、会話をすることができる。
【００１８】
請求項４に記載の会議端末装置では、請求項３に記載の構成の効果に加え、発言した使用者を特定してから所定時間経過したかどうかを判断する。そして所定時間経過していないと判断している間は、出力する他拠点の前記音声情報の音量を、発言者距離情報と検出された音量情報に基づいて制御する。よって、発言した使用者が特定されてから、発言が終了した後でも、所定時間内は同じ音量で会議端末装置から他拠点の会議使用者の音声を出力させることができる。
【００１９】
請求項５に記載の会議端末装置では、請求項１乃至４のいずれかに記載の構成の効果に加え、使用者の撮像画像を撮像情報として取得する。そして取得した撮像情報に基づいて使用者との距離情報を計測する。よって、会議端末装置と使用者との距離を、特別な計測機器を備えることなく、撮像画像を解析することで正確に計測することができるようになる。
【００２０】
請求項６に記載の会議端末装置では、請求項５に記載の構成の効果に加え、取得した撮像情報に基づいて複数の使用者との距離を計測した場合、最も大きい距離情報を決定する。そして最も大きい距離情報に基づいて、出力する他拠点の音声情報の最小音量を特定し、最小音量以上で出力するよう制御する。よって、会議に参加している使用者の中で、最も会議端末装置から遠くに位置する使用者に適した音量以上で、他拠点の会議使用者の音声を出力させることができる。したがって、使用者は、どの位置に居ても聞こえる最低限の音量以上で、確実に他拠点の音声を聞き取ることができるようになる。
【００２１】
請求項７に記載の会議端末制御方法では、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う。会議端末装置が設置された拠点での使用者の音声を音声情報として入力する。また、情報処理装置から送信された他拠点の音声情報を受信して出力する。また、使用者との距離情報を計測する。入力された前記使用者の発言による音声情報の音量を検出し、検出された音量情報と、計測された距離情報に基づいて、出力する他拠点の音声情報の音量を制御する。よって、拠点に設置された会議端末装置は、会議に参加している使用者との距離を計測し、また使用者の発言する音声の音量を検出することで、使用者との距離と使用者の発言音量に基づいて、最適な音量で他拠点の音声情報を出力することができる。したがって、使用者は、周囲の騒音を考慮した音量で発言しているので、会議端末装置から出力される他拠点での会議使用者の音声を、自然に適切な音量で出力させることができるようになる。
【００２２】
請求項８に記載の会議端末制御プログラムでは、各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う。会議端末装置が設置された拠点での使用者の音声を音声情報として入力する。また、情報処理装置から送信された他拠点の音声情報を受信して出力する。また、使用者との距離情報を計測する。入力された前記使用者の発言による音声情報の音量を検出し、検出された音量情報と、計測された距離情報に基づいて、出力する他拠点の音声情報の音量を制御する。よって、拠点に設置された会議端末装置は、会議に参加している使用者との距離を計測し、また使用者の発言する音声の音量を検出することで、使用者との距離と使用者の発言音量に基づいて、最適な音量で他拠点の音声情報を出力することができる。したがって、周囲の騒音を考慮した音量で発言しているので、会議端末装置から出力される他拠点での会議使用者の音声を、自然に適切な音量で出力させることができるようになる。
【図面の簡単な説明】
【００２３】
【図１】テレビ会議システム１００の概略構成図である。
【図２】テレビ会議システム１００の電気的構成図である。
【図３】会議端末装置１の構成説明図である。
【図４】距離算出データベース１１５２Ａの説明図である。
【図５】使用者距離情報データベース１１５２Ｂの説明図である。
【図６】音量データベース１１５２Ｃの説明図である。
【図７】ＣＰＵ１１１にて実行されるメイン処理のフローチャート図である。
【図８】ＣＰＵ１１１にて実行される音声検出処理のフローチャート図である。
【図９】ＣＰＵ１１１にて実行される出力音量変更処理のフローチャート図である。
【発明を実施するための形態】
【００２４】
以下、本発明を具体化した会議端末装置の実施の形態について、図面を参照して説明する。なお、これらの図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。
【００２５】
まず、図１〜図２を参照して、本実施形態のテレビ会議システム１００の概略構成、及び構成要素である会議端末装置１、通信端末装置１２０の電気的構成について、順に説明する。図１に示すように、テレビ会議システム１００は、各拠点（以後、１０Ａ、１０Ｂ、１０Ｃとする。）に設けられた、会議端末装置１、通信端末装置１２０を含み、これらはすべてネットワーク２００に接続されている。ネットワーク２００としては、例えば、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）やＩＳＤＮ（ＩｎｔｅｇｒａｔｅｄＳｅｒｖｉｃｅｓＤｉｇｉｔａｌＮｅｔｗｏｒｋ）等のネットワークを採用することができる。図１では、拠点は３拠点しか図示されていないが、実際には複数が存在してもよい。また各拠点は、例えば、ある企業の同一サイト内に複数存在してもよいし、異なる事業所内や、異なる地域や国に点在して存在していてもよい。
【００２６】
通信端末装置１２０は、例えば、周知のパーソナルコンピュータであり、汎用型の装置である。通信端末装置１２０は、ネットワーク２００を介して接続された複数の拠点間で、使用者の撮像画像や音声情報を送受信することでＴＶ会議を行う為の通信機能等を備える。また、会議端末装置１は、テレビ会議使用者の撮像画像を取得するカメラ機器や、音声情報を取得するマイク機器、音声情報を出力するスピーカ機器を備える。また、会議端末装置１は、通信端末装置１２０と電気的な接続をすることにより、ネットワーク２００を介して他拠点とテレビ会議を行うための機器として機能するようになる。会議端末装置１、通信端末装置１２０についての詳細な説明は、後述する。
【００２７】
さらに、テレビ会議への参加を希望する使用者は、通信端末装置１２０のうちいずれかを操作し、使用者はＩＤ情報等を登録することによってテレビ会議にログインする。テレビ会議に参加した状態では、例えば会議端末装置１のカメラ（図３参照）によって会議に参加している使用者が撮像される。撮像された画像（以下「撮像画像」という。）は、会議端末装置１から通信端末装置１２０へ送信され、他拠点の通信端末装置１２０に対して送信される。撮像画像を受信した他拠点の通信端末装置１２０では、受信した撮像画像を自拠点で撮像した撮像画像と共に表示装置１２５に表示させる。撮像画像が複数存在する場合、個別のウィンドウ内に其々表示させる。これによってテレビ会議に参加する使用者は、各拠点で会議に参加する使用者の撮像画像を共有して視認することが可能となる。
【００２８】
次に、図２を参照して、会議端末装置１、通信端末装置１２０の電気的構成について説明する。会議端末装置１としては、ＣＰＵ１１１と、ＣＰＵ１１１に各々接続されたＲＯＭ１１２およびＲＡＭ１１３を備えている。ＣＰＵ１１１には、その他、入出力（Ｉ／Ｏ）インタフェイス１１４が接続されている。Ｉ／Ｏインタフェイス１１４には、カメラ６、マイク４、スピーカ１０、画像入力処理部１０６、音入力処理部１０４、音出力処理部１１０、記録装置１１５、外部接続装置１１６が接続されている。
【００２９】
ＣＰＵ１１１は、会議端末装置１の全体の制御を司る。ＲＯＭ１１２は、ＢＩＯＳを含む、会議端末装置１を動作させるための各種のプログラムや、そのための設定値を記憶している。ＣＰＵ１１１は、ＲＯＭ１１２や後述する記憶装置１１５に記憶されたプログラムに従って、会議端末装置１の動作を制御する。ＲＡＭ１１３は、各種データを一時的に記憶するための記憶装置である。
【００３０】
画像入力処理部１０６、音入力処理部１０４、音出力処理部１１０には、それぞれ、カメラ６、マイク４、スピーカ１０が接続されている。カメラ６は、会議端末装置１が設置されている拠点を撮像する撮像機器であり、画像入力処理部１０６は、カメラ６からの撮像画像の入力を処理する機器である。マイク４は、会議端末装置１が設置されている拠点の音情報を取得する機器であり、音入力処理部１０４は、マイク４から入力された音情報を処理する機器である。スピーカ１０は、他拠点の装置から送信された他拠点の音情報を出力する機器であり、音出力処理部１１０は、スピーカ１０へ音情報の出力条件に基づいて出力処理する機器である。
【００３１】
外部接続装置１１６は、汎用的なＵＳＢ機器等であり、通信端末装置１２０と接続することで撮像画像や音情報の送受信を行うための通信機器である。
【００３２】
また、記憶装置１１５は、プログラム情報記憶エリア１１５１、使用者情報記憶エリア１１５２、を含む複数の記憶エリアを備えている。プログラム情報記憶エリア１１５１には、詳細は図示しないが、撮像画像、音情報を通信端末装置１２０との間で送受信する機能を会議端末装置１に実行させるための各種プログラムが記憶されている。使用者情報記憶エリア１１５２には、詳細な説明は後述するが、図４に示すような距離算出データベース１１５２Ａ、図５に示す使用者距離情報データベース１１５２Ｂ、図６に示す音量データベース１１５２Ｃ等が記憶されている。
【００３３】
次に、通信端末装置１２０の電気的構成について説明をする。通信端末装置１２０としては、ＣＰＵ１２１と、ＣＰＵ１２１に各々接続されたＲＯＭ１２２およびＲＡＭ１２３を備えている。ＣＰＵ１２１には、その他、入出力（Ｉ／Ｏ）インタフェイス１２４が接続されている。Ｉ／Ｏインタフェイス１２４には、表示装置１２５、画像出力処理部１２６、入力装置１２７、通信装置１３３、記憶装置１３５、外部接続装置１５０、ＣＤ−ＲＯＭドライブ１４０が接続されている。
【００３４】
ＣＰＵ１２１は、通信端末装置１２０の全体の制御を司る。ＲＯＭ１２２は、ＢＩＯＳを含む、通信端末装置１２０を動作させるための各種のプログラムや、そのための設定値を記憶している。ＣＰＵ１２１は、ＲＯＭ１２２や、後述する記憶装置１３５に記憶されたプログラムに従って、通信端末装置１２０の動作を制御する。ＲＡＭ１２３は、各種データを一時的に記憶するための記憶装置である。
【００３５】
画像出力処理部１２６には、表示装置１２５が接続されている。表示装置１２５は、他拠点から取得した撮像画像や、自拠点で撮像された撮像画像等を表示する機器であり、図示は省略するが汎用的な液晶モニタ、プロジェクタ等の表示機器である。画像出力処理部１２６は、表示装置１２５への撮像画像の出力を処理する機器である。また、入力装置１２７は、使用者が通信端末装置１２０へ情報を入力するための装置であり、汎用的なキーボードや、ペンタブレット等の入力装置である。
【００３６】
また、記憶装置１３５は、プログラム情報記憶エリア１３５１を含む複数の記憶エリアを備えている。詳細は図示しないが、撮像画像、音情報を会議端末装置１や、他拠点の通信端末装置１２０との間で送受信することでテレビ会議を行うためのテレビ会議アプリを、通信端末装置１２０に実行させるための各種プログラムが記憶されている。
【００３７】
ＣＤ−ＲＯＭドライブ１４０は、ＣＤ−ＲＯＭ１４１に記録されているデータを読み込む機器である。また、ＣＤ−ＲＯＭ１４１は、通信端末装置１２０でテレビ会議を行うためのテレビ会議アプリ等が記憶されている。ＣＤ−ＲＯＭ１４１の導入時には、これら各種プログラムが、ＣＤ−ＲＯＭ１４１から、プログラム記憶エリア１３５１に記憶される。外部接続装置１５０は、汎用的なＵＳＢ機器等であり、会議端末装置１に接続することで撮像画像や音情報の送受信を行うための通信機器である。通信装置１３３は、ネットワーク２００に接続し、他の通信端末装置１２０との間で撮像画像や音情報等の各種データの送受信を行うための機器である。
【００３８】
次に、図３を参照しながら、本実施形態での会議端末装置１の外観構成について説明をする。図３に示すように、会議端末装置１は、第一筐体２と、第二筐体３とを備えている。第一筐体２と第二筐体３とは、回転軸５を介して連結され、回転軸５を中心に回動することで折り畳み可能に構成されている。会議端末装置１の上部中央には、回転軸５に回動可能に軸支されたカメラ６が設けられている。カメラ６の中心にはレンズ部７が設けられている。会議端末装置１は、回転軸５を上方に向け、第一筐体２と第二筐体３とを最大角度で開いた状態で、机上等の水平面に載置して自立させることができる。会議端末装置１が自立した状態で、カメラ６を回動し、レンズ部７を撮像対象者に向けることで、会議端末装置１の設置が完了する。
【００３９】
次に、第一筐体２の構造について説明する。図３に示すように、第一筐体２は、縦長の略直方体状に形成されている。第一筐体２の内側には、電子基板等の各種電子部品が格納されている。第一筐体２は、正面部２１、右側面部２２、左側面部２３、上面部２４、底面部２５、背面部２６を備えている。正面部２１の略中央には、スピーカ１０が設けられている。スピーカ１０は、他拠点の通信端末装置１２０から送信された音情報等を出力する。正面部２１の下部の左右両側には、マイク４（１１，１２）が各々設けられている。マイク４は、自拠点の使用者の音情報を取得し、接続している自拠点の通信端末装置１２０へ出力する。
【００４０】
上面部２４は、正面部２１の上部から後方に向かって半円弧状に形成されている。その終端部は上面部２４の最上部に位置し、かつ回転軸５に対して直交する方向に切断されている。この終端部には、第一筐体２と第二筐体３を開く際に、第二筐体３の上端部に設けられた後述する係止部６６が係止するための被係止部５６が設けられている。図３に示すように、係止部６６が被係止部５６に係止することによって、第一筐体２と第二筐体３の回動が制限される。
【００４１】
また、上面部２４の長手方向中央には、略長方形状に切り欠いた凹部１４が設けられている。凹部１４の内側には、回転軸５を中心に回動可能に軸支されたカメラ６が設けられている。カメラ６を使用する時は、図３に示すように、カメラ６を回動してレンズ部７を外部に露出させる。カメラ６を使用しない時は、カメラ６を回動してレンズ部７を凹部１４の内側に収納する。
【００４２】
右側面部２２の長手方向略中央には、スピーカ１０の音量を大きくするための＋（プラス）ボタン５１と、小さくするための−（マイナス）ボタン５２とが上下に並んで設けられている。右側面部２２の下側には、マイク４による音の入力を一時禁止するマイク禁止ボタン５３が設けられている。
【００４３】
右側面部２２の背面部２６側の縁部に沿った部分には、右側面部２２よりも一段低くなった段差部２２Ａが設けられている。段差部２２Ａは、会議端末装置１を閉じたときに、第二筐体３の後述する側壁部３２によって覆われる部分である。
【００４４】
左側面部２３には、カメラ６による撮影を一時中断するカメラ中断ボタン（図示外）と、通信端末装置１２０に対して撮像画像、音情報の入出力を行うための通信用の配線を接続するため、汎用的なＵＳＢ機器等の外部接続装置部（図示外）が設けられている。
【００４５】
底面部２５は、背面部２６側の非接地部２７と、正面部２１側の接地部２８とからなる。接地部２８は、非接地部２７よりも下方に突出しているため、机上等の水平面に接地する部分となる。図３に示すように、接地部２８は、正面部２１側から背面部２６側に向かって所定角度で斜め上方に傾斜している。接地部２８の傾斜面は、会議端末装置１を最大角度で開き、机上等の水平面に自立させたときに水平となるように形成されている。
【００４６】
次に、第二筐体３の構造について説明する。図３に示すように、第二筐体３は、断面凹状の蓋状に形成されている。第二筐体３は、薄板である本体部３１を備えている。本体部３１は、その上端部において回転軸５に回動可能に連結されている。本体部３１の左右両端部には、第一筐体２側に向かって突出するリブ状の側壁部３２（左端部の側壁部は図示外）が各々設けられている。さらに、本体部３１の下端部には、第一筐体２側に向かって突出すると共に、机上に接地するリブ状の接地部３３が設けられている。また、これら本体部３１、側壁部３２、接地部３３によって囲まれる内側に、第一筐体２の背面部２６側に覆い被さるための空洞部３７が形成されている。
【００４７】
次に、図４を参照しながら、使用者情報記憶エリア１１５２に記憶されている距離算出データベース１１５２Ａについて説明をする。距離算出データベース１１５２Ａは、カメラ６により取得された撮像画像に基づいて検出された人の顔領域のサイズを画素単位（ピクセル）で測定した値の項目と、そのサイズに対応付けられている人までの距離の項目を対応付けしたデータベースである。撮像画像から人の顔を検出する技術については、既に幾つかの方法が考案されているが、例えば、人の顔の目、鼻、口の輪郭線を示すパターンデータを予め記憶しておき、撮像画像から上記パターンと類似する輪郭形状が検出できるかで、人の顔の有無を検出する方法を用いればよい。また、サイズの項目については、検出された人の顔領域のサイズを測定するが、検出された顔の領域の色分布から顔の領域のサイズを測定するようにすれば良いが、これに限るものではない。図４に示す距離算出データベース１１５２Ａは、例えば、サイズが６０と検出された場合は、人と装置との距離は２．５ｍとして対応付けられている。また、サイズが１２０と検出された場合は、距離を１．０ｍとして対応付けられている。また、距離算出データベース１１５２Ａの顔のサイズと距離の関係は、カメラの撮像性能、設定条件等によって変化する値なので、予め顔のサイズと距離の関係を測定して更新できるようにすれば、より精度良く使用者との距離を計測することができるようになる。
【００４８】
次に、図５を参照しながら、使用者距離情報データベース１１５２Ｂについて説明をする。使用者距離情報データベース１１５２Ｂは、後述するメイン処理（図７）のステップＳ３０２で処理された際に記憶されるデータベースである。使用者距離情報データベース１１５２Ｂは、使用者を識別する項目と、距離の項目が対応付けて記憶される。使用者の項目は、検出された人に対応付けて自動で採番される識別情報が記憶されている。また、距離の項目では、ステップＳ３０２の処理にて、距離算出データベース１１５２Ａに基づいて算出された距離の情報が記憶されている。
【００４９】
次に、図６を参照しながら、音量データベース１１５２Ｃについて説明をする。音量データベース１１５２Ｃは、後述する図８の音声検出処理でのステップＳ４０５の処理で記憶生成されるデータベースである。音量データベース１１５２Ｃは、使用者の識別情報と、それに対応付けて検出された音量の値が各々記憶されている。
【００５０】
次に、図７を参照して会議端末装置１のＣＰＵ１１１により行われるメイン処理について説明をする。図７は会議端末装置１でのメイン処理のフローチャートであり、会議端末装置１の電源がＯＮされると開始される。まず初めに、ＣＰＵ１１１は、通信端末装置１２０とＵＳＢ接続したかどうかを判断する（Ｓ３００）。具体的には、会議端末装置１の外部接続装置１１６と、通信端末装置１２０の外部接続装置１５０が、ＵＳＢ等の電気的な接続をされたかどうかを判断する。ステップＳ３００の処理で、ＣＰＵ１１１は、ＵＳＢ接続していないと判断した場合（Ｓ３００：ＮＯ）、再度ステップＳ３００の処理が繰り返し実行される。
【００５１】
ステップＳ３００の処理で、ＣＰＵ１１１は、ＵＳＢ接続があったと判断した場合（Ｓ３００：ＹＥＳ）、次にＣＰＵ１１１は、接続した通信端末装置１２０がテレビ会議中かどうかを判断する（Ｓ３０１）。具体的には、テレビ会議アプリが起動して、他拠点の通信端末装置１２０と双方向通信接続がされている状態かどうかを判断する。ステップＳ３０１の処理で、ＣＰＵ１１１はテレビ会議中では無いと判断した場合（Ｓ３０１：ＮＯ）、再度Ｓ３０１を繰り返し実行する。また、ステップＳ３０１の処理で、ＣＰＵ１１１はテレビ会議中であると判断した場合（Ｓ３０１：ＹＥＳ）、次に装置の前に人が存在しているかどうかを判断する（Ｓ３０２）。ステップＳ３０１の処理で通信端末装置１２０がテレビ会議中の場合は、他拠点の撮像画像を受信したり、自拠点の撮像画像を他拠点へ送信する状態になる。そして、自拠点の撮像画像から、人が存在するかどうかを上述した顔の検出方法により判定を行う。ステップＳ３０２の処理で、ＣＰＵ１１１は、人が存在しないと判断した場合（Ｓ３０２：ＮＯ）、ステップＳ３０８へ移行する。また、ステップＳ３０２の処理で、ＣＰＵ１１１は、人が存在すると判断した場合（Ｓ３０２：ＹＥＳ）、使用者までの距離を測定する（Ｓ３０３）。ステップＳ３０３の処理では、具体的には、カメラ６で取得した撮像画像から、人の顔を検出し、距離算出データベース１１５２Ａを参照して使用者との距離を測定する。そして、測定結果を使用者距離情報データベース１１５２Ｂに記憶する処理が実行される。また、ステップＳ３０３の処理では、撮像画像に使用者が複数検出された場合は、それぞれの使用者について同様の処理を実施し、使用者距離情報データベース１１５２Ｂに追加記憶するようになっている。
【００５２】
次に、ＣＰＵ１１１は、最低音量を決定する処理を実行する（Ｓ３０４）。ステップＳ３０４の処理では、ステップＳ３０３の処理で記憶された使用者距離情報データベース１１５２Ｂの中から最も距離が大きい値を特定する。本実施形態での使用者距離情報データベース１１５２Ｂでは、使用者Ｃの距離３ｍの値が最も大きい距離と判断する。そして、その最大距離に対応した最低音量を算出する。本実施形態での最低音量の算出方法は、例えば、会議端末装置１には予め、会議端末装置１から１ｍ離れた位置で所定音量が聞こえるように出力音量を調整した設定値が記憶されており、１ｍ位置での所定音量に対して、使用者までの距離間を伝達する音が減衰する減衰量を求める式を用いて算出するようになっている。減衰量をＰとして、求める式は、例えば、Ｐ＝２０Ｌｏｇ１０（距離／１）を用いるようにすれば良い。前記式は、音源から１ｍ離れた位置での音量を基準にして、実際に使用者までの距離での減衰量へ換算する式である。また、本実施形態では、人が支障なく聞くことができる音量として聞き手の場所で５０ｄＢを所定音量として登録しているとし、最大距離の３ｍまでに減衰する減衰量Ｐは、２０Ｌｏｇ１０（３／１）≒９ｄＢとして算出されるので、最低音量として、１ｍの位置で５９ｄＢ聞こえる出力音量が設定される。
【００５３】
次に、ＣＰＵ１１１は、音声検出処理を実行する（Ｓ３０５）。ステップＳ３０５の音声検出処理は、図８のフローチャート図を参照しながら説明をする。まず、ＣＰＵ１１１は、入力音量が所定値以上かどうかを判断する（Ｓ４０１）。ステップＳ４０１の処理では、マイク４から取得した使用者の発言音量が所定値以上かどうかを判断する。所定値以上かどうかの判断は、取得した音量がノイズ等の騒音かどうかを区別する為の処理である。そして、ステップＳ４０１の処理で、ＣＰＵ１１１は、所定値以下と判断した場合（Ｓ４０１：ＮＯ）、ステップＳ４０７の処理へ移行する。ステップＳ４０１の処理で、ＣＰＵ１１１は、入力音量が所定値以上と判断した場合（Ｓ４０１：ＹＥＳ）、初回ならばタイマを始動する（Ｓ４０２）。
【００５４】
そして、ＣＰＵ１１１は、使用者の口の動きを検出する（Ｓ４０３）。ステップＳ４０３の処理では、具体的には、図７のステップＳ３０２の処理で検出した使用者の口の輪郭形状が、所定量変化したかどうかで判断するようになっている。次に、ＣＰＵ１１１は、使用者の口の動きを検出できたかどうかを判断する（Ｓ４０４）。ステップＳ４０４の処理で、ＣＰＵ１１１は、口の動きを検出できたと判断した場合（Ｓ４０４：ＹＥＳ）、口の動きを検出した使用者を発言者として特定し、図６に示すような音量データベース１１５２Ｃにそのときの入力音量を記憶する（Ｓ４０５）。ステップＳ４０４の処理で、ＣＰＵ１１１は、使用者の口の動きを検出できなかったと判断した場合は（Ｓ４０４：ＮＯ）、発言者無と特定して音量データベース１１５２Ｃに音量を記憶しない（Ｓ４０６）。また、ステップＳ４０４処理で、ＣＰＵ１１１は、同時に複数の使用者の口の動きを検出した場合、どの使用者の発言か特定できないので、この場合もステップＳ４０４：ＮＯと判断するようになっているものとする。
【００５５】
ステップＳ４０１、Ｓ４０５、Ｓ４０６の後、ＣＰＵ１１１は、所定時間経過したかどうかを判断する（Ｓ４０７）。ステップＳ４０７の処理で、ＣＰＵ１１１は、所定時間経過していないと判断した場合（Ｓ４０７：ＮＯ）、再度ステップＳ４０１の処理へ戻る。また、ステップＳ４０７の処理で、ＣＰＵ１１１は、所定時間経過したと判断した場合（Ｓ４０７：ＹＥＳ）、本処理を終了する。
【００５６】
図７のメイン処理の説明に戻り、上述した音声検出処理（Ｓ３０５）の後、ＣＰＵ１１１は、発言があったかどうかを判断する（Ｓ３０６）。ステップＳ３０６の処理では、図８で説明したステップＳ４０５の処理で、発言者の音量データが音量データベース１１５２Ｃに記憶されているかどうかで判断する。ステップＳ３０６の処理で、ＣＰＵ１１１は、発言有と判断した場合（３０６：ＹＥＳ）、出力音量変更処理を実行する（Ｓ３０７）。ステップＳ３０６の処理では、音量データベース１１５２Ｃに同一使用者に対して、所定回数以上(例えば、３回以上)の音量データが記憶されている場合のみ、発言有と判断するようになっている。これは、使用者の発話以外の突発的な発音を、発言として判定しないようにするためである。また、ステップＳ３０６の処理で、ＣＰＵ１１１は、発言無しと判断した場合（Ｓ３０６：ＮＯ）、前回の発言有の判定から一定時間が経過しているかどうかを判断する（Ｓ３０８）。
【００５７】
ここで、図９を参照しながら出力音量変更処理のフローチャートについて説明をする。まず初めに、ＣＰＵ１１１は、音量データベース１１５２Ｃに発言者の音量データが有るかどうかを判断する（Ｓ５０１）。ステップＳ５０１の処理で、ＣＰＵ１１１は、音量データが無いと判断した場合（Ｓ５０１：ＮＯ）、ステップＳ５０６の処理へ移行する。ステップＳ５０１の処理で、ＣＰＵ１１１は、音量データが有ると判断した場合（Ｓ５０１：ＹＥＳ）、最も多く発言を検出した使用者を発言者として特定し、特定した使用者に対応する出力音量Ｘを算出する（Ｓ５０２）。
【００５８】
ステップＳ５０２で算出される出力音量Ｘについて説明をする。出力音量Ｘは、発言者から所定距離で検出される発言者音声の音量を算出し、他拠点から送信された音声を同程度の音量で、発言者に聞こえるようにするための会議端末装置１の出力音量である。上述したように音量は、会議端末装置１と発言者との間の距離で減衰するので、発言者の音量に対して、発言者から所定距離で聞こえている音量にする為に、減衰量を加算した音量を出力音量Ｘとするようになっている。例えば、図６に示す音量データベース１１５２Ｃの中で会議端末装置１から２ｍ離れている使用者Ａの音量データの平均値が５６ｄＢなので、使用者Ａから１ｍの距離では、使用者Ａの音声は５６−２０ｌｏｇ１０（１／２）＝６２ｄＢの音量で聞こえていることになる。そして、会議端末装置１から出力する音量が、６２ｄＢで使用者Ａに聞こえるようにする為には、会議端末装置１から１ｍ離れた所で聞こえる音量をＸとすると、Ｘ―２０ｌｏｇ１０（２／１）＝６２として、Ｘ＝６８ｄＢと算出できる。よって、会議端末装置１から出力した音量が１ｍの距離で６８ｄＢの音量で聞こえる音量で出力する。
【００５９】
ステップＳ５０２の処理の後、ＣＰＵ１１１は、出力音量Ｘが最低音量より小さいかどうかを判断する（Ｓ５０３）。ステップＳ５０３での最低音量とは、ステップＳ３０４（図７）の処理で決定された音量である。ステップＳ５０３の処理で、ＣＰＵ１１１は、出力音量Ｘが最低音量より大きいと判断した場合（Ｓ５０３：ＮＯ）、スピーカ１０から出力する音量を出力音量Ｘに設定変更する（Ｓ５０５）。また、ステップＳ５０３の処理にて、ＣＰＵ１１１は、出力音量Ｘが最低音量より小さいと判断した場合（Ｓ５０３：ＹＥＳ）、スピーカから出力する音量を最低音量に設定する（Ｓ５０４）。次に、ＣＰＵ１１１は、音量データベース１１５２Ｃに記憶されている音量データを削除する処理を実行し（Ｓ５０６）、本処理を終了する。
【００６０】
図７のメイン処理の説明に戻り、図９で説明した音量変更処理（Ｓ３０７）の後、ＣＰＵ１１１は、前回の発言有の判定から一定時間が経過しているかどうかを判断する（Ｓ３０８）。ステップＳ３０８の処理で、ＣＰＵ１１１は一定時間が経過していないと判断した場合（Ｓ３０８：ＮＯ）、ステップＳ３０５の処理へ戻る。また、一定時間経過したと判断した場合（Ｓ３０８：ＹＥＳ）、ＣＰＵ１１１は、ＵＳＢ接続を終了したかどうかを判断する（Ｓ３０９）。ステップＳ３０９の処理で、ＣＰＵ１１１は、ＵＳＢ接続終了でないと判断した場合（Ｓ３０９：ＮＯ）、テレビ会議が終了かどうかを判断する（Ｓ３１０）。ステップＳ３１０の処理で、テレビ会議が終了であると判断した場合（Ｓ３１０：ＹＥＳ）、ステップＳ３０１の処理へ戻る。また、ステップＳ３１０の処理で、ＣＰＵ１１１は、テレビ会議が終了でないと判断した場合（Ｓ３１０：ＮＯ）、ステップＳ３０２の処理へ戻り、以降の処理が再度実行される。また、ステップＳ３０９の処理で、ＣＰＵ１１１は、ＵＳＢ接続終了であると判断した場合（Ｓ３０９：ＹＥＳ）、ステップＳ３００の処理へ戻り、以降の処理を再度実行する。また、本メイン処理は、会議端末装置１の電源がＯＦＦされるまで継続して実行するようになっており、電源がＯＦＦされた場合に本処理を終了する。
【００６１】
上述した処理を実行することにより、拠点に設置された会議端末装置１は、会議に参加している使用者との距離を計測し、また使用者の発言する音声の音量を検出することで、使用者との距離と使用者の発言音量に基づいて、最適な音量で他拠点の音声情報を出力することができる。したがって、使用者は、周囲の騒音を考慮した音量で発言しているので、会議端末装置１から出力される他拠点での会議使用者の音声を、自然に適切な音量で出力させることができるようになる。また、会議端末装置１は、拠点にいる使用者の中から音声を発言した使用者を発言者として特定し、発言者との距離と音量に基づいて、他拠点からの音声情報の音量を制御して出力することができる。したがって、発言した使用者に適した音量で、会議端末装置１から他拠点の会議使用者の音声を出力させることができるようになる。さらに、使用者は、発言した位置から所定距離の位置で聞こえる音量と同等の音量になるよう、会議端末装置１から他拠点の会議使用者の音声を出力させることができるので、発言者とネットワークの向こう側の発言者が近くで会話をしているように自然な音量で、会話をすることができる。また、発言した使用者が特定されてから、発言が終了した後でも、所定時間内は同じ音量で会議端末装置１から他拠点の会議使用者の音声を出力させることができる。さらに、取得した撮像情報に基づいて使用者との距離情報を計測する。よって、会議端末装置１と使用者との距離を、特別な計測機器を備えることなく、撮像画像を解析することで正確に計測することができるようになる。また、会議に参加している使用者の中で、最も会議端末装置１から遠くに位置する使用者に適した音量以上で、他拠点の会議使用者の音声を出力させることができる。したがって、使用者は、どの位置に居ても聞こえる最低限の音量以上で、確実に他拠点の音声を聞き取ることができるようになる。
【００６２】
本発明は上記実施形態に限定されることはなく、様々な変形が可能であることは言うまでもない。例えば、上記実施例では、図７のステップＳ３０１の処理が行われてから、使用者までの距離や、音量を計測するようにしたが、これに限るものではなく、会議端末装置１の電源がＯＮされた後に行うようにしても良い。また、さらに、ステップＳ３０２の処理にて、使用者まので距離をカメラ６の撮像画像から算出するようにしたが、これに限るものではなく、例えば汎用的な非接触距離センサ等を用いて計測するようにしても良い。
【符号の説明】
【００６３】
１会議端末装置
１０Ａテレビ会議拠点
１０Ｂテレビ会議拠点
１０Ｃテレビ会議拠点
１００テレビ会議システム
１２０通信端末装置
１１５２Ａ距離算出データベース
１１５２Ｂ使用者距離情報データベース
１１５２Ｃ音量データベース

【特許請求の範囲】
【請求項１】
各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、または音声情報の送受信を行う会議端末装置において、
前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力手段と、
前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力手段と、
前記使用者との距離情報を計測する計測手段と、
前記音声情報入力手段にて入力された前記使用者の発言による前記音声情報の音量を検出する音量情報検出手段と、
前記音量情報検出手段により検出された前記音量情報と、前記計測手段により計測された前記距離情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御する出力音量情報制御手段と、
を備えることを特徴とする会議端末装置。
【請求項２】
前記音量情報検出手段により検出された前記音声情報を発言した前記使用者を、発言者として特定する発言者特定手段をさらに備え、
前記計測手段は、前記発言者特定手段により特定された前記発言者までの距離を発言者距離情報として計測し、
前記出力音量情報制御手段は、前記発言者距離情報と、前記音量情報検出手段により検出された前記音量情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御する
ことを特徴とする請求項１に記載の会議端末装置。
【請求項３】
前記音量情報検出手段で検出された前記音量情報を、前記発言者距離情報に基づいて、前記発言者が発言した位置から所定距離の位置での前記音声情報の前記音量情報を算出する発言位置音量算出手段をさらに備え、
前記出力音量情報制御手段は、前記発言位置音量算出手段により算出された前記音量情報と同等になるよう、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を制御する
ことを特徴とする請求項２に記載の会議端末装置。
【請求項４】
前記発言者特定手段により発言した前記使用者を特定してから所定時間経過したかどうかを判断する経過時間判断手段をさらに備え、
前記出力音量情報制御手段は、前記経過時間判断手段により前記所定時間経過していないと判断している間は、前記音声情報出力手段から出力する他拠点の前記音声情報の音量を、前記発言者距離情報と前記音量情報検出手段により検出された前記音量情報に基づいて制御する
ことを特徴とする請求項３に記載の会議端末装置。
【請求項５】
前記使用者の撮像画像を撮像情報として取得する撮像情報取得手段をさらに備え、
前記計測手段は、前記撮像情報取得手段により取得した前記撮像情報に基づいて前記使用者との距離情報を計測する
ことを特徴とする請求項１乃至４のいずれかに記載の会議端末装置。
【請求項６】
前記計測手段は、前記撮像情報取得手段により取得した前記撮像情報に基づいて複数の前記使用者との距離を計測した場合、最も大きい前記距離情報を決定し、
前記出力音量情報制御手段は、前記計測手段により計測された最も大きい前記距離情報に基づいて、前記音声情報出力手段から出力する他拠点の前記音声情報の最小音量を特定し、前記最小音量以上で出力するよう制御する
ことを特徴とする請求項５に記載の会議端末装置。
【請求項７】
各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、音声情報の送受信を行う会議端末装置において処理する会議端末制御方法において、
前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力ステップと、
前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力ステップと、
前記使用者との距離情報を計測する計測ステップと、
前記音声情報入力ステップにて、前記使用者の発言による前記音声情報の音量を検出する音量情報検出ステップと、
前記音量情報検出ステップにより検出された前記音量情報と、前記計測ステップにより計測された前記距離情報に基づいて、前記音声情報出力ステップにて出力する他拠点の前記音声情報の音量を制御する出力音量情報制御ステップと、
を処理することを特徴とする会議端末制御方法。
【請求項８】
各種情報の処理を行う情報処理装置と通信手段を介して撮像画像、音声情報の送受信を行う会議端末装置にて実行する会議端末制御プログラムにおいて、
前記会議端末装置が設置された拠点での使用者の音声を音声情報として入力する音声情報入力ステップと、
前記情報処理装置から送信された他拠点の音声情報を受信して出力する音声情報出力ステップと、
前記使用者との距離情報を計測する計測ステップと、
前記音声情報入力ステップにて、前記使用者の発言による前記音声情報の音量を検出する音量情報検出ステップと、
前記音量情報検出ステップにより検出された前記音量情報と、前記計測ステップにより計測された前記距離情報に基づいて、前記音声情報出力ステップにて出力する他拠点の前記音声情報の音量を制御する出力音量情報制御ステップと、
を前記会議端末装置で実行させることを特徴とする会議端末制御プログラム。

【図１】