説明

通信装置、通信方法、および通信プログラム

【課題】少なくとも音声を用いた遠隔会議中に、音声を含む共有資料が複数の拠点で共有される場合に、共有すべき資料音声の内容を参加者に正確に把握させることができる通信装置、通信方法、および通信プログラムを提供する。
【解決手段】PCは、拠点音声データ、拠点画像データ、および資料データを他のPCとの間で送受信することで、遠隔会議を実行することができる。PCのCPUは、資料データを送受信する場合に(S3:YES)、送受信する資料データに資料音声データが含まれているか否かを判断する(S5)。資料データに資料音声データが含まれていると判断した場合(S5:YES)、CPUは、資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する拠点音声データの出力を制御する(S8、S11)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遠隔会議を実行するために他の通信装置との間で少なくとも音声データを送受信する通信装置、通信方法、および通信プログラムに関する。
【背景技術】
【0002】
従来、複数の通信装置を備えた通信システムにおいて遠隔会議を円滑に実行するための様々な技術が提案されている。例えば、特許文献1が開示している文字化装置は、会議の参加者が行った発話に対して音声認識処理を行い、発話内容を文字情報に変換する。文字化装置は、変換した文字情報に、参加者の発言量、発言の活発さ等を示す発言履歴情報を付加して表示手段に表示させる。その結果、会話の内容および状況が参加者に伝わり、遠隔会議が円滑に進行する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−344915号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
遠隔会議中に共有資料を各拠点で共有することができれば、参加者全員が同一の共有資料の内容を同時に把握することができ、遠隔会議が円滑に進行する。しかし、音声を用いた遠隔会議で共有する共有資料に音声(資料音声)が含まれている場合、各拠点では、他の拠点の音声と資料音声とが同時に再生されることになる。従って、参加者は、再生された音声が他の拠点の音声なのか、資料音声なのかを区別し難くなり、共有すべき資料音声の内容を把握することが困難になるという問題がある。
【0005】
本発明は、少なくとも音声を用いた遠隔会議中に、音声を含む共有資料が複数の拠点で共有される場合に、共有すべき資料音声の内容を参加者に正確に把握させることができる通信装置、通信方法、および通信プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第一の態様に係る通信装置は、音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置であって、前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断手段と、前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御手段とを備えている。
【0007】
第一の態様に係る通信装置によると、共有資料の資料データに含まれる資料音声データが遠隔会議中に複数の拠点で共有されている最中に、資料音声データの再生条件に応じて拠点音声データの出力が制御される。つまり、資料音声データが共有されている最中に、他の拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。従って、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、遠隔会議を円滑に進行させることができる。
【0008】
前記出力制御手段は、前記資料音声データを出力する間、音声を出力する音声出力手段に対し、前記拠点音声データを前記資料音声データよりも小さい音量で出力してもよい。この場合、資料音声データが共有されている最中に他の拠点で発話等が行われても、参加者は、拠点音声よりも大きい音量で資料音声を聞き取ることができる。よって、参加者は、資料音声の内容をより正確に把握することができる。
【0009】
前記出力制御手段は、前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データと前記資料音声データとをそれぞれ異なる前記音声出力手段に出力してもよい。この場合、1つの音声出力手段において2種類の音声データを出力する場合よりも、参加者は拠点音声と資料音声とを容易に聞き分けることができる。さらに、拠点音声データの音量を資料音声データの音量よりも小さくする場合には、2種類の音声データを異なる音声出力手段に出力するため、容易に音量を制御することができる。
【0010】
前記出力制御手段は、前記拠点音声データと前記資料音声データとをそれぞれ異なるスピーカに出力してもよい。この場合、通信装置は、拠点音声と共有音声とを異なるスピーカから発生させることができる。従って、参加者は、拠点音声と共有音声とをより容易に聞き分けることができ、音声の内容を把握し易くなる。
【0011】
前記通信装置は、前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データに対して音声認識処理を行うことでテキストデータを生成するテキスト生成手段と、前記テキスト生成手段によって生成された前記テキストデータを、テキストを表示する表示手段に出力するテキスト出力手段とをさらに備えてもよい。この場合、参加者は、他の参加者との間で共有すべき資料音声を容易に聞き取りつつ、他の拠点で行われた発話の内容をテキストによって把握することができる。従って、参加者は、資料音声の内容と他の拠点の発話の内容とを共に把握することができ、遠隔会議を円滑に進行させることができる。
【0012】
前記通信装置は、データを記憶手段に記憶させる記憶制御手段をさらに備えてもよい。前記通信装置は、前記出力制御手段によって音量が制御された前記拠点音声データと、前記拠点画像データと、前記資料音声データを含む前記資料データと、前記テキスト生成手段によって前記拠点音声から生成された前記テキストデータとを、前記記憶制御手段によって記憶してもよい。ユーザは、記憶手段に記憶されたデータを再生させることで、拠点音声に含まれる発話をテキストで読むことができる。さらに、再生される拠点音声データの出力は、資料音声データの共有時において、出力制御手段によって適切に制御されている。従って、ユーザは、遠隔会議の後であっても正確に遠隔会議の内容を把握することができる。
【0013】
前記出力制御手段は、前記資料データの送受信中において、前記資料音声データに音声を発生させる信号が存在する時間帯にのみ、前記音声出力手段に対する前記拠点音声データの出力を前記資料音声データの再生条件に応じて制御してもよい。この場合、資料音声を含む共有資料が共有されている場合であっても、資料音声が発生していない場合には、拠点音声データの出力が制御されることはない。従って、資料音声が発生していない場合には、参加者は、出力が制御されていない拠点音声を聞き取ることができ、遠隔会議を円滑に進行させることができる。
【0014】
本発明の第二の態様に係る通信方法は、音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置によって行われる通信方法であって、前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断ステップと、前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御ステップと
を備えている。
【0015】
第二の態様に係る通信方法によると、共有資料の資料データに含まれる資料音声データが遠隔会議中に複数の拠点で共有されている最中に、資料音声データの再生条件に応じて拠点音声データの出力が制御される。つまり、資料音声データが共有されている最中に、他の拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。従って、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、遠隔会議を円滑に進行させることができる。
【0016】
本発明の第三の態様に係る通信プログラムは、音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置で用いられる通信プログラムであって、前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断ステップと、前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御ステップとを前記通信装置のコントローラに実行させるための指示を含む。
【0017】
第三の態様に係る通信プログラムによると、共有資料の資料データに含まれる資料音声データが遠隔会議中に複数の拠点で共有されている最中に、資料音声データの再生条件に応じて拠点音声データの出力が制御される。つまり、資料音声データが共有されている最中に、他の拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。従って、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、遠隔会議を円滑に進行させることができる。
【図面の簡単な説明】
【0018】
【図1】通信システム100のシステム構成を示す図である。
【図2】PC1が表示装置35に表示させる画像の一例を示す図である。
【図3】PC1の電気的構成を示すブロック図である。
【図4】第一の実施形態に係るPC1が実行するテレビ会議処理のフローチャートである。
【図5】第二の実施形態に係る通信システム200のシステム構成を示す図である。
【図6】第二の実施形態に係るPC102が実行するテレビ会議処理のフローチャートである。
【図7】第二の実施形態に係るサーバ101が実行するサーバ処理のフローチャートである。
【発明を実施するための形態】
【0019】
以下、本発明の第一の実施形態について、図面を参照して説明する。参照する図面は、本発明が採用し得る技術的特徴を説明するために用いられるものである。図面に記載されている装置の構成、各種処理のフローチャート等は、それのみに限定する趣旨ではなく、単なる説明例である。
【0020】
図1を参照して、通信システム100のシステム構成について説明する。通信システム100は、複数のPC1を備える。各PC1は、インターネット等のネットワーク8を介して、他のPC1との間でデータを送受信する。詳細には、PC1は、他のPC1のそれぞれとの間で、P2P(peer to peer)で画像、音声、テキスト等のデータを直接送受信することができる。なお、本発明における通信装置として用いることができるのはPC1に限られない。例えば、テレビ会議を実行するために各拠点に配置される専用のテレビ会議端末等を、本発明における通信装置として用いることも可能である。
【0021】
通信システム100は、画像および音声を用いた遠隔会議(テレビ会議)を実行するためのテレビ会議システムである。各PC1は、自拠点のカメラ34から入力した拠点画像のデータ、およびマイク31(図3参照)から入力した拠点音声のデータを、他のPC1に送信する。各PC1は、他のPC1から受信した拠点画像データおよび拠点音声データに基づいて、他の拠点の撮影画像を表示装置35に表示し、且つ他の拠点の音声をスピーカ32,33(図3参照)から出力させる。その結果、複数の拠点の拠点画像および拠点音声が、通信システム100内で共有される。よって、通信システム100によると、会議の参加者の全てが同一の拠点にいない場合でも、参加者は円滑に会議を実行することができる。1つの拠点にいる参加者は1人でもよいし、複数でもよい。
【0022】
さらに、通信システム100では、文書、図面、動画、静止画等の資料画像、および資料音声を、複数の参加者の間で共有しながらテレビ会議を行うこともできる。具体的には、まず、他のPC1へ共有資料を配信する指示が、複数のPC1のいずれかに入力される。配信指示が入力されたPC1(以下、「配信元装置」という。)は、自拠点の表示装置35に表示させる資料画像をキャプチャして符号化処理を行うことで、資料画像データを生成する。さらに、配信する共有資料に音声(資料音声)が含まれている場合には、配信元装置は、資料音声を符号化して資料音声データを生成する。配信元装置は、生成した資料画像データおよび資料音声データを、通信システム100内の他のPC1(以下、「配信先装置」という。)に送信する。配信先装置は、受信したデータを復号化し、共有資料を再生させる。従って、各参加者は、必要な共有資料を他の参加者との間で共有しながらテレビ会議を行うことができる。
【0023】
本実施形態の通信システム100では、画像のみからなる共有資料と、画像および音声からなる共有資料とを共有することができる。しかし、音声のみからなる共有資料を共有する通信システムにも本発明は適用できる。また、共有資料のデータは、あらかじめ配信元装置が記憶していてもよいし、テレビ会議中に配信元装置がネットワーク8等を介して取得してもよい。
【0024】
図2を参照して、通信システム100内で共有資料が共有されている場合に表示装置35に表示される画像の一例について説明する。図2は、拠点A,B,Cの3つの拠点でテレビ会議が実行されている場合に、拠点Aに設置された表示装置35に表示される画像の一例を示す。
【0025】
表示装置35の表示画面の右上側には、拠点A表示部41、拠点B表示部42、および拠点C表示部43が形成される。拠点AのPC1は、自拠点のカメラ34から入力した自拠点の拠点画像を拠点A表示部41に表示させる。拠点B表示部42には、拠点BのPC1から受信した拠点画像データに従って、拠点Bの拠点画像が表示される。拠点C表示部43には、拠点CのPC1から受信した拠点画像データに従って、拠点Cの拠点画像が表示される。さらに、前述したように、拠点AのPC1は、他の拠点(拠点Bおよび拠点C)の拠点音声を再生させることができる。よって、拠点Aの参加者は、表示装置35に表示される画像と、再生される音声とによって、円滑にテレビ会議を実行することができる。
【0026】
表示装置35の左上側には、資料画像表示部45が形成される。資料画像表示部45には、共有されている資料画像が表示される。PC1は、共有資料を他のPC1に配信する配信元装置として動作する場合、資料画像表示部45に表示させる資料画像をキャプチャして資料画像データを生成し、他のPC1に送信する。また、PC1は、共有資料が提供される配信先装置として動作する場合、配信元装置から受信した資料画像データに基づいて、資料画像表示部45に資料画像を表示させる。さらに、前述したように、PC1は、共有資料に資料音声が含まれている場合、資料音声を再生させることができる。よって、参加者は、他の拠点の参加者との間で共有資料を共有しながらテレビ会議を行うことができる。
【0027】
表示装置35の下側には、テキスト表示部46が形成される。テキスト表示部46には、資料音声が共有されている場合に、拠点A,B,Cで行われた発話内容がテキスト化されて表示される。
【0028】
本実施形態では、テレビ会議の実行中に資料音声を共有することも可能である。資料音声の共有中には、参加者は、各拠点のマイク31から入力された拠点音声の内容と、配信元装置が配信する資料音声とを同時に把握する必要がある。しかし、拠点音声と資料音声とが同一の音量で出力されると、参加者は、音声を聞き分けて内容を理解するのが難しい。PC1は、拠点音声および資料音声の音量の調整、拠点音声の内容のテキスト化等の処理を行うことで、それぞれの音声の内容を正確に参加者に把握させることができる。
【0029】
図3を参照して、PC1の電気的構成について説明する。PC1は、PC1の制御を司るCPU10を備える。CPU10には、ROM11、RAM12、ハードディスクドライブ(以下、「HDD」という。)13、および入出力インターフェース19が、バス18を介して接続されている。
【0030】
ROM11は、PC1を動作させるためのBIOS等のプログラム、および初期値等を記憶している。RAM12は、制御プログラムで使用される各種の情報を一時的に記憶する。HDD13は、不揮発性の記憶装置であり、後述するテレビ会議処理を実行させるための通信プログラム等の各種情報を記憶する。通信プログラムは、例えば、CD−ROM等の記憶媒体、ネットワーク8等を介して、HDD13に記憶される。また、HDD13は、音声認識を行うための音響モデル、言語モデル、および単語辞書を記憶している。CPU10は、資料音声の共有中には、拠点音声データを分析し、特徴量を抽出した後、音響モデルと言語モデルとのマッチングを行う。その結果、言語モデルで受理可能な文毎に尤度が求まり、尤度が最も高い文が認識結果として得られる。マッチングの際、言語モデルは単語辞書を参照する。尤度が規定の閾値以下の値になった場合には、認識失敗として認識結果は得られない。PC1は、拠点音声データに対する音声認識処理を行いテキスト化することで、拠点音声の内容(発話の内容)を正確に参加者に把握させることができる。この詳細は後述する。なお、HDD13の代わりに、EEPROMまたはメモリカード等の記憶装置を用いてもよい。
【0031】
入出力インターフェース19には、音声入力処理部21、音声出力処理部22、画像入力処理部23、画像出力処理部24、操作入力処理部25、および外部通信I/F26が接続されている。音声入力処理部21は、音声を入力するマイク31からの音声データの入力を処理する。音声出力処理部22は、音声を出力する2つのスピーカ32,33(第一スピーカ32および第二スピーカ33)に接続し、2つのスピーカ32,33の動作を処理する。画像入力処理部23は、画像を撮影するカメラ34からの画像データの入力を処理する。画像出力処理部24は、画像を表示する表示装置35の動作を処理する。操作入力処理部25は、キーボードおよびマウス等の操作部36からの操作入力を処理する。外部通信I/F26は、PC1をネットワーク8に接続する。
【0032】
図4を参照して、第一の実施形態に係るPC1が実行するテレビ会議処理について説明する。テレビ会議の実行指示をPC1が受け付けると、PC1のCPU10は、HDD13に記憶されている通信プログラムに従って、図4に示すテレビ会議処理を実行する。
【0033】
PC1は、配信元装置および配信先装置のいずれの動作も行うことができる。つまり、共有資料が参加者によって選択され、選択された共有資料の配信を開始させる指示が操作部36から入力された場合には、PC1は配信元装置として動作する(S4〜S13)。配信元装置は、他のPC1(配信先装置)に送信するデータに、共有資料のデータを含める。一方、他のPC1から共有資料のデータを受信した場合には、PC1は配信先装置として動作し、受信したデータに従って共有資料を再生させる。
【0034】
CPU10は、テレビ会議処理を開始すると、自拠点のカメラ34から入力された拠点画像データを符号化する(S1)。自拠点のマイク31から入力された拠点音声データを符号化する(S2)。次いで、CPU10は、他のPC1への共有資料の配信中であるか否か(自らが配信元装置であるか否か)を判断する(S3)。共有資料の配信の実行指示が操作部36から入力されており、共有資料の配信中であると判断した場合には(S3:YES)、CPU10は、参加者によって選択された共有資料の資料画像データを符号化する(S4)。
【0035】
次いで、CPU10は、配信する共有資料のデータ(資料データ)に資料音声データが含まれているか否かを判断する(S5)。S5では、CPU10は、HDD13に記憶されている資料データを共有する場合、資料データのデータファイルの拡張子によって、資料音声データが含まれているか否かを判断する。例えば、拡張子がwav,mp3,mp4等のデータファイルが存在すれば、資料音声データが含まれていると判断できる。また、音声を含むウェブサイトを共有する場合には、CPU10は、共有するウェブサイトのURL、共有するウェブサイトで動作するアプリケーションの種類等に基づいて、資料音声データが含まれているか否かを判断してもよい。
【0036】
資料画像データに加えて資料音声データが含まれている場合には(S5:YES)、CPU10は、資料音声データを符号化する(S6)。CPU10は、自拠点のマイク31から入力された拠点音声データに対して音声認識処理を行うことで、自拠点で行われた発話のテキストデータを生成する(S7)。さらに、CPU10は、資料音声データと拠点音声データとを送信するにあたって、資料音声よりも拠点音声の方が音量が小さくなるように、それぞれの音量を設定する(S8)。
【0037】
次いで、CPU10は、S7で生成した発話のテキストデータを、他のPC1(配信先装置)に送信する(S9)。CPU10は、S1で符号化した拠点画像データと、S4で符号化した資料画像データとを、配信先装置に送信する(S10)。さらに、CPU10は、資料音声データと拠点音声データとを配信先装置に送信する(S11)。この場合、S2で符号化した拠点音声データと、S6で符号化した資料音声データとを、配信先装置の各々の異なるチャンネルへ送信することで、配信先装置において異なるスピーカから2つの音声のそれぞれを出力させる。例えば、拠点音声を第一スピーカ32から、資料音声を第二スピーカ33から出力させるように、2種類の音声データが配信先装置の各々に送信される。
【0038】
自装置が配信元装置であり(S3:YES)、且つ資料データに資料音声データが含まれていない場合には(S5:NO)、CPU10は、S1で符号化した拠点画像データと、S4で符号化した資料画像データとを、配信先装置に送信する(S12)。さらに、CPU10は、特別な処理を行うことなく、S2で符号化した自拠点の拠点音声データを配信先装置に送信する(S13)。この場合、自拠点の音声が通常の音量で出力されることになる。本実施の形態における通常の音量とは、資料音声データが共有されていない場合の拠点音声の音量であり、資料音声データが共有されている場合の拠点音声の音量に比べて大きい。
【0039】
自装置が配信元装置でない場合には(S3:NO)、CPU10は、他のPC1から資料データを受信しているか否かを判断する(S15)。資料データを受信している場合には(S15:YES)、受信している資料データに資料音声データが含まれているか否かを判断する(S16)。資料音声データが含まれている場合には(S16:YES)、CPU10は、自拠点のマイク31から入力された拠点音声データに対して音声認識処理を行うことでテキストデータを生成する(S17)。CPU10は、配信元装置として動作する場合に符号化する資料音声データ(S5で符号化されるデータ)の音量よりも小さい音量となるように、自拠点のマイク31から入力された拠点音声データの音量を設定する(S18)。従って、資料音声データの共有中には、全ての拠点音声の音量が、資料音声の音量よりも小さくなる。次いで、CPU10は、S1で符号化した拠点画像データを他のPC1に送信する(S12)。S18で設定した音量で、拠点音声データを他のPC1に送信する(S13)。なお、S17で生成されたテキストデータは、画像データおよび音声データと共に他のPC1へ送信される。
【0040】
資料データを受信していない場合(S15:NO)、あるいは、受信した資料データに資料音声データが含まれていない場合には(S16:NO)、特別な処理は行われることなく、拠点画像データおよび拠点音声データを他のPC1に送信する処理(S12,S13)へ移行する。
【0041】
各種データを送信する処理が終了すると、CPU10は、他のPC1に送信したデータをHDD13に記憶する(S20)。CPU10は、他のPC1からデータを受信し、復号化する(S21)。受信するデータには、他拠点の拠点音声データおよび拠点画像データが含まれており、且つ、資料音声データ、資料画像データ、およびテキストデータが含まれる場合がある。CPU10は、受信したデータをHDD13に記憶する(S22)。ユーザは、S20およびS22の処理によってHDD13に記憶されたデータを再生させることで、テレビ会議の内容を会議終了後に確認することができる。次いで、CPU10は、受信したデータに基づいて、スピーカ32,33からの音声の出力、表示装置35への画像の表示、および表示装置35へのテキストの表示を行う(S23)。なお、CPU10は、拠点音声データと資料音声データとを異なるチャンネルで受信した場合には、一方の音声を第一スピーカ32から出力し、且つ他方の音声を第二スピーカ33から出力する。また、資料音声データが共有されている場合には、拠点音声データは、資料音声データよりも小さい音量となるように設定されている。参加者は、操作部36を操作することで、スピーカ32,33から発生する音声の音量を変化させることができるが、拠点音声の音量と資料音声の音量との大小関係は変化しない。従って、資料音声は、拠点音声とは異なるスピーカから、拠点音声よりも大きい音量で発生する。その後、処理はS1へ戻る。各拠点のPC1においてS1〜S23の処理が繰り返されることで、テレビ会議が実現される。なお、図示しないが、テレビ会議を終了させる指示がPC1に入力されると、CPU10はテレビ会議処理を終了する。
【0042】
以上説明したように、第一の実施形態に係るPC1は、資料音声データを共有する場合に、資料音声データの再生条件に応じて拠点音声データの出力を制御する。つまり、資料音声データが共有されている最中に、他の拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。詳細には、PC1は、他のPC1に接続されたスピーカ32,33に対し、拠点音声データが資料音声データよりも小さい音量で出力されるように音声データを送信(出力)する。従って、テレビ会議において資料音声データが複数の拠点で共有されている最中に、参加者の発話等が入力された場合でも、参加者は、発話等の拠点音声よりも大きい音量で資料音声を聞き取ることができる。よって、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、テレビ会議を円滑に進行させることができる。
【0043】
PC1は、配信元装置として動作する場合に、拠点音声データと資料音声データとを、配信先装置に接続されたスピーカ32,33の各々に別々に出力することができる。従って、PC1は、配信元装置として動作する場合に、拠点音声データと資料音声データとを他の拠点で容易に異なる音量で出力させることができる。その結果、参加者は、異なるスピーカによって発生する拠点音声と資料音声とを容易に聞き分けることができ、音声の内容を把握し易くなる。
【0044】
PC1は、資料音声を共有する場合に、自拠点のマイク31から入力した拠点音声データからテキストデータを生成し、他のPC1に接続された表示装置35に送信(出力)する。従って、参加者は、他の参加者との間で共有すべき資料音声を容易に聞き取りつつ、他の拠点で行われた発話の内容をテキストによって把握することができる。よって、参加者は、資料音声の内容と他の拠点の発話の内容とを共に把握することができ、テレビ会議を円滑に進行させることができる。
【0045】
PC1は、S8の処理で音量が制御された拠点音声データおよび資料音声データと、S7の処理で生成されたテキストデータとを、S20およびS22の処理においてHDD13に記憶させる。従って、ユーザは、HDD13に記憶されたデータを再生させることで、テレビ会議の後であっても、資料音声を拠点音声よりも大きい音量で聞くことができ、且つ拠点音声に含まれる発話をテキストで読むことができる。よって、ユーザは正確に会議内容を把握することができる。また、PC1は、資料音声データが共有されている間は、資料音声データに音声信号が含まれるか否かに関わらず、拠点音声データの音量を小さくする。その結果、拠点音声データの音量が頻繁に変化することがなく、ユーザは容易に拠点音声を聞き取ることができる。なお、資料音声データに音声を発生させる信号が存在する時間帯にのみ、拠点音声データを資料音声データよりも小さい音量で出力してもよい。この場合、共有資料が共有されている場合であっても、資料音声データが発生していない間は拠点音声の音量が小さくなることはない。よって、参加者は拠点音声データを容易に聞き取ることができる。
【0046】
第一の実施形態において、PC1が本発明の「通信装置」に相当する。マイク31が本発明の「音声入力手段」に相当する。カメラ34が「撮像手段」に相当する。図4のS5で資料データに資料音声データが含まれているか否かを判断するCPU10が「判断手段」として機能する。第一スピーカ32および第二スピーカ33が「音声出力手段」に相当する。図4のS8,S11で、拠点音声データを資料音声データよりも小さい音量に設定して配信先装置のスピーカ32,33に送信(出力)するCPU10が、本発明の「出力制御手段」として機能する。図4のS7でテキストデータを生成するCPU10が「テキスト生成手段」として機能する。図4のS9で、配信先装置の表示装置35にテキストデータを送信(出力)するCPU10が、本発明の「テキスト出力手段」として機能する。HDD13が「記憶手段」に相当する。図4のS20およびS22でデータをHDD13に記憶させるCPU10が「記憶制御手段」として機能する。
【0047】
図4のS5で資料データに資料音声データが含まれているか否かを判断する処理が「判断ステップ」に相当する。図4のS8,S11で、拠点音声データを資料音声データよりも小さい音量に設定して配信先装置のスピーカ32,33に送信(出力)する処理が、本発明の「出力制御ステップ」に相当する。
【0048】
図5から図7を参照して、本発明の第二の実施形態について説明する。第二の実施形態に係る通信システム200は、データがP2Pで送受信される通信システム100(図1参照)とは異なり、テレビ会議を制御するためのサーバ101を備える。資料音声の内容を会議の参加者に正確に把握させるための処理は、サーバ101によって実行される。
【0049】
図5を参照して、第二の実施形態に係る通信システム200のシステム構成について説明する。通信システム200は、サーバ101と、複数のPC102とを備える。各PC102は、サーバ101を介して他のPC102との間でデータを送受信する。その結果、各PC102が配置されている複数の拠点の音声および画像と、いずれかのPC102が提供する共有資料とが、通信システム200内で共有される。第二の実施形態においても、第一の実施形態と同様に、PC102の代わりにテレビ会議専用の端末等を使用することも可能である。
【0050】
図5を参照して、サーバ101の電気的構成について説明する。サーバ101は、CPU110を備える。CPU110には、ROM111、RAM112、HDD113、および入出力インターフェース119が、バス118を介して接続されている。さらに、入出力インターフェース119には、外部通信I/F126が接続されている。サーバ101は、外部通信I/F126によってネットワーク8に接続される。なお、PC102の電気的構成は、第一の実施形態に係るPC1の電気的構成(図3参照)と同一であるため、この説明は省略する。
【0051】
図6を参照して、第二の実施形態に係るPC102が実行するテレビ会議処理について説明する。テレビ会議を実行する指示をユーザがPC102に入力すると、PC102のCPUは、図6に示すテレビ会議処理を実行する。CPUは、自拠点の拠点画像データを符号化し(S51)、且つ、自拠点の拠点音声データを符号化する(S52)。CPUは、他のPC102への共有資料の配信中であるか否かを判断する(S53)。共有資料の配信中でない場合には(S53:NO)、処理はそのままS57へ移行する。共有資料の配信中であれば(S53:YES)、CPUは、共有資料の資料画像データを符号化する(S54)。CPUは、配信する資料データに資料音声データが含まれているか否かを判断する(S55)。資料音声データが含まれていなければ(S55:NO)、処理はS57へ移行する。資料音声データが含まれていれば(S55:YES)、CPUは、資料音声データを符号化する(S56)。
【0052】
次いで、CPUは、符号化した画像データおよび音声データをサーバ101へ送信する(S57)。S57では、送信するデータに拠点音声データおよび資料音声データが共に含まれる場合、拠点音声データと資料音声データとが異なるチャンネルで送信される。次いで、サーバ101からデータを受信する(S58)。CPUは、受信したデータに基づいて音声を出力し、画像を表示する(S59)。なお、受信したデータにテキストデータが含まれている場合には、音声および画像に加えてテキストの表示も実行する。また、資料音声データと拠点音声データとを異なるチャンネルで受信した場合には、CPUは、それぞれの音声データを異なるスピーカから出力する。その結果、2種類の音声を聞き取り易くすることができる。その後、処理はS51へ戻り、テレビ会議が終了するまでS51〜S59の処理が繰り返される。
【0053】
図7を参照して、第二の実施形態に係るサーバ101が実行するサーバ処理について説明する。サーバ101のCPU110は、テレビ会議を実行する指示をPC102のいずれかから受信すると、HDD113に記憶されている通信プログラムに従ってサーバ処理を実行する。CPU110は、各拠点のPC102からデータを受信する(S61)。各拠点の拠点画像データを合成して、表示装置35に表示させる拠点画像のデータを生成し、符号化する(S62)。資料が共有されている場合には、S62の処理では、配信元装置から受信した資料画像データも含めて合成することで、表示装置35に表示させる画像データを生成し、符号化してもよい。
【0054】
CPU110は、PC102から受信したデータに資料音声データが含まれるか否かを判断する(S63)。つまり、通信システム200において資料音声データが共有されているか否かを判断する。受信したデータに資料音声データが含まれている場合には(S63:YES)、CPU110は、各拠点から受信した拠点音声データに対して音声認識処理を行うことで、テキストデータを生成する(S64)。各拠点から受信した拠点音声データを合成して符号化する(S65)。さらに、CPU110は、合成して符号化した各拠点の拠点音声データが、資料音声データよりも小さい音量となるように、各音声データの音量を設定する(S66)。CPU110は、生成したテキストデータを、複数のPC102の各々に送信する(S68)。資料画像データをPC102に送信(転送)し(S69)、S62で合成した拠点画像データをPC102に送信する(S70)。さらに、CPU110は、いずれかのPC102から受信した資料音声データと、S65で合成し符号化した各拠点の拠点音声データとを、複数のPC102の各々の異なるチャンネルへ送信する(S71)。これにより、CPU110は、資料音声データと拠点音声データとを、複数のPC102の各々に接続された異なるスピーカ32,33へ別々に出力することができる。その際、資料音声データと拠点音声データとを異なるチャンネルで送信するのではなく、S66で音量を設定した上で、2つの音声データを合成して符号化し、1つのチャンネルで送信してもよい。処理はS61へ戻る。
【0055】
PC102から受信したデータに資料音声データが含まれていない場合(S63:NO)、CPU110は、特別な処理を行うことなく、各PC102にデータを送信する(S72〜S75)。詳細には、各拠点から受信した拠点音声データを合成して符号化する(S72)。次いで、いずれかのPC102から資料画像データを受信している場合に、受信した資料画像データを他のPC102に転送する(S73)。CPU110は、S62で合成した拠点画像データを各PC102に送信する(S74)。S72で合成し符号化した拠点音声データを、各PC102に送信する(S75)。処理はS61へ戻り、S61〜S75の処理が繰り返される。
【0056】
以上説明したように、第二の実施形態に係るサーバ101は、通信システム200内で資料音声データを共有させる場合に、資料音声データの再生条件に応じて拠点音声データの出力を制御する。つまり、資料音声データが共有されている最中に、少なくともいずれかの拠点で発話等が行われた場合、拠点音声データの出力が適切に制御されるため、参加者は資料音声を容易に聞き取ることができる。詳細には、サーバ101は、各拠点のPC102の各々に接続しているスピーカ32,33に対し、拠点音声データを資料音声データよりも小さい音量で出力する。従って、参加者は、他の参加者との間で共有する必要がある資料音声の内容を正確に把握し、テレビ会議を円滑に進行させることができる。
【0057】
第二の実施形態に例示したように、本発明は、P2P型の通信システム100(図1参照)のみならず、サーバ型の通信システム200にも適用できる。この場合、資料音声の内容を参加者に正確に把握させるための処理は、サーバ101で行うこともできる。
【0058】
第二の実施形態において、サーバ101が本発明の「通信装置」に相当する。PC102が「他の通信装置」に相当する。図7のS63で資料データに資料音声データが含まれているか否かを判断するCPU110が「判断手段」として機能する。図7のS66,S71で、PC102に接続されたスピーカ32,33に対し、拠点音声データを資料音声データよりも小さい音量で送信(出力)するCPU110が、本発明の「出力制御手段」として機能する。図7のS64でテキストデータを生成するCPU110が「テキスト生成手段」として機能する。図7のS68で、PC102に接続された表示装置35にテキストデータを送信(出力)するCPU10が、本発明の「テキスト出力手段」として機能する。図7のS63で資料データに資料音声データが含まれているか否かを判断する処理が「判断ステップ」に相当する。図7のS66,S71で、PC102に接続されたスピーカ32,33に対し、拠点音声データを資料音声データよりも小さい音量で送信(出力)する処理が、本発明の「出力制御ステップ」に相当する。
【0059】
本発明は上記実施形態に限定されることはなく、様々な変形が可能であることは言うまでもない。例えば、上記第一の実施形態のPC1、および第二の実施形態のサーバ101は、資料音声データが共有されている間は常に、拠点音声データを資料音声データよりも小さい音量で出力している(図4のS5、および図7のS63参照)。しかし、PC1およびサーバ101は、資料音声データに音声を発生させる信号が存在する時間帯にのみ、拠点音声データを資料音声データよりも小さい音量で出力してもよい。具体的には、図7のS63で資料音声データの共有中であると判断された場合に(S63:YES)、CPU101は、資料音声データに音声を発生させる信号が存在するか否かを判断すればよい。信号が存在すると判断した場合にS66の処理を行い、信号が存在しない場合にはS72の処理へ移行すればよい。第一の実施形態においては、図4のS5で資料音声データを含むと判断された場合に上記の処理を行えばよい。この場合、資料音声を含む共有資料が共有されていても、資料音声が発生していない間は拠点音声データの音量が小さくなることはない。よって、参加者は、拠点音声データを容易に聞き取ることができる。
【0060】
上記第一の実施形態では、資料音声の内容を参加者に正確に把握させるための特徴的な処理は、主に、共有資料のデータを配信する配信元装置としてPC1が動作する場合に実行される。つまり、PC1は、資料音声の共有中であるか否かに応じて拠点音声データの音量を設定した後に、データを他のPC1へ送信する。しかし、資料音声の内容を参加者に正確に把握させるための処理は、共有資料のデータを受信する配信先装置としてPC1が動作する場合に実行してもよい。具体的には、PC1は、図4のS23において、他のPC1から受信したデータに資料音声データが含まれるか否かを判断する。資料音声データを受信したと判断した場合に、拠点音声に含まれる発話をテキスト化して表示し、且つ、拠点音声データを資料音声データよりも小さい音量で出力する。この場合、PC1は、自らに接続している2つのスピーカ32,33の各々に、拠点音声データと資料音声データとを別々に出力することが望ましい。以上のように、PC1は、他のPC1から受信した資料音声データおよび拠点音声データを、自装置に接続しているスピーカ32,33に出力する際に、2つの音声データの音量を制御してもよい。また、PC1は、自拠点の拠点音声をテキスト化して他のPC1に送信してもよいが、他のPC1から受信した拠点音声データからテキストデータを生成してもよい。また、本発明は、画像を用いずに行われる遠隔会議にも適用できる。
【0061】
上記第二の実施形態では、資料音声の内容を参加者に正確に把握させるための特徴的な処理がサーバ101によって行われる。しかし、上記の特徴的な処理の一部をPC102が実行してもよい。例えば、各拠点の発話内容をテキスト化する処理は、PC102が実行することも可能である。また、サーバを備えた通信システムにおいても、サーバに接続したPC等の通信装置が上記の特徴的な処理を行うことも可能である。
【0062】
本発明に係る通信装置は、資料音声データの再生条件に応じて拠点音声データの出力を制御する。具体的には、上記実施形態のPC1およびサーバ101は、資料音声データの出力中であるか否か(再生条件)を判断し、出力中であれば、拠点音声データを資料音声データよりも小さい音量で出力する(出力を制御する)。しかし、拠点音声データの制御方法は変更できる。例えば、通信装置は、資料音声データを通常の速度で再生する場合には、拠点音声データの音量を資料音声データの音量よりも小さくし、早送り再生およびスロー再生の場合にはそのままの音量で出力してもよい。つまり、通常速度の再生であるか否かを「再生条件」としてもよい。また、通信装置は、資料音声が発話音声であるか、発話音声以外の音声(例えば、音楽)であるかを判断し、発話音声である場合にのみ拠点音声データの音量を小さくしてもよい。通信装置は、共有中の資料音声の再生回数が1回目であれば拠点音声データの音量を小さくし、再生回数が2回目以降であればそのままの音量で出力してもよい。また、通信装置は、拠点音声データの音量を資料音声データの音量よりも小さくする上記方法と共に、または上記方法に代えて、資料音声データの明瞭度を拠点音声データの明瞭度よりも高くすることで、資料音声データを聞き取り易くしてもよい。
【0063】
上記実施形態では、PC1,102には2つのスピーカ32,33が接続されている。資料音声が共有されている場合、2つのスピーカ32,33の一方から資料音声が出力され、且つ他方から拠点音声が出力される。しかし、音声出力手段として採用できるのはスピーカ32,33に限られない。例えば、スピーカと、ユーザが片耳に装着するイヤホンとを、PC1,102に接続する。PC1またはサーバ101は、スピーカおよびイヤホンの一方から資料音声を出力し、他方から拠点音声を出力してもよい。この場合でも、上記実施形態と同様に、会議の参加者は2つの音声を容易に聞き分けることができる。
【0064】
上記実施形態で説明した処理の一部を実行しない場合でも、本発明は実現できる。例えば、PC1およびサーバ101は、発話内容をテキスト化して表示させた方が、テレビ会議をより円滑に進行させることができる。しかし、PC1およびサーバ101は、テキスト化の処理を行わない場合でも、拠点音声データの出力を適切に制御することができるため、テレビ会議を円滑に進行させることができる。また、PC1およびサーバ101は、特に発話内容をテキスト化して表示させる場合には、拠点音声を出力させないように処理を行ってもよい。つまり、「拠点音声データを資料音声データよりも小さい音量で出力する」とは、拠点音声の音量をゼロとする場合、および拠点音声データを出力しない場合も含む。また、上記第二の実施形態では、サーバ101は音声等のデータを記憶する処理を行わない。しかし、サーバ101がデータを記憶する処理を行ってもよいことは言うまでもない。この場合、サーバ101は、テレビ会議の終了後に、記憶したデータをPC102に配信すればよい。
【符号の説明】
【0065】
1 PC
10 CPU
13 HDD
31 マイク
32 第一スピーカ
33 第二スピーカ
34 カメラ
35 表示装置
100,200 通信システム
101 サーバ
102 PC
110 CPU
113 HDD

【特許請求の範囲】
【請求項1】
音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置であって、
前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断手段と、
前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御手段と
を備えたことを特徴とする通信装置。
【請求項2】
前記出力制御手段は、前記資料音声データを出力する間、前記音声出力手段に対し、前記拠点音声データを前記資料音声データよりも小さい音量で出力することを特徴とする請求項1に記載の通信装置。
【請求項3】
前記出力制御手段は、前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データと前記資料音声データとをそれぞれ異なる前記音声出力手段に出力することを特徴とする請求項1または2に記載の通信装置。
【請求項4】
前記出力制御手段は、前記拠点音声データと前記資料音声データとをそれぞれ異なるスピーカに出力することを特徴とする請求項3に記載の通信装置。
【請求項5】
前記判断手段によって前記資料データに前記資料音声データが含まれていると判断された場合に、前記拠点音声データに対して音声認識処理を行うことでテキストデータを生成するテキスト生成手段と、
前記テキスト生成手段によって生成された前記テキストデータを、テキストを表示する表示手段に出力するテキスト出力手段と
をさらに備えたことを特徴とする請求項1から4のいずれかに記載の通信装置。
【請求項6】
データを記憶手段に記憶させる記憶制御手段をさらに備え、
前記出力制御手段によって出力が制御された前記拠点音声データと、前記拠点画像データと、前記資料音声データを含む前記資料データと、前記テキスト生成手段によって前記拠点音声から生成された前記テキストデータとを、前記記憶制御手段によって記憶することを特徴とする請求項5に記載の通信装置。
【請求項7】
前記出力制御手段は、前記資料データの送受信中において、前記資料音声データに音声を発生させる信号が存在する時間帯にのみ、前記音声出力手段に対する前記拠点音声データの出力を前記資料音声データの再生条件に応じて制御することを特徴とする請求項1から6のいずれかに記載の通信装置。
【請求項8】
音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置によって行われる通信方法であって、
前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断ステップと、
前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御ステップと
を備えたことを特徴とする通信方法。
【請求項9】
音声を入力する音声入力手段によって入力された拠点音声の音声データである拠点音声データと、画像を撮像する撮像手段によって撮像された画像の画像データである拠点画像データと、他の通信装置との間で共有する共有資料の資料データとを、前記他の通信装置との間で送受信することが可能な通信装置で用いられる通信プログラムであって、
前記資料データを送受信する場合に、送受信する前記資料データに音声データである資料音声データが含まれているか否かを判断する判断ステップと、
前記判断ステップにおいて前記資料データに前記資料音声データが含まれていると判断された場合に、前記資料音声データの再生条件に応じて、音声を出力する音声出力手段に対する前記拠点音声データの出力を制御する出力制御ステップと
を前記通信装置のコントローラに実行させるための指示を含む通信プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−74872(P2012−74872A)
【公開日】平成24年4月12日(2012.4.12)
【国際特許分類】
【出願番号】特願2010−217505(P2010−217505)
【出願日】平成22年9月28日(2010.9.28)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】