コミュニケーションシステム
【課題】会話者が表示面に正対していない場合でも会話者同士の視線を一致させることができるコミュニケーションシステムを提供する。
【解決手段】コミュニケーションシステムが、会話者である第一視聴者を略正面から見た画像を出力する画像出力部と、第一視聴者の画像を表示する表示面を含む表示部と、画像出力部が出力する画像に対して、第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置と表示面の中心とを結ぶ直線に正対する仮想表示面から表示面への、第二視聴者基準位置を中心とする透過投影変換を行った画像を算出する画像伸縮部と、を具備し、表示部は画像伸縮部が生成した画像を表示する。
【解決手段】コミュニケーションシステムが、会話者である第一視聴者を略正面から見た画像を出力する画像出力部と、第一視聴者の画像を表示する表示面を含む表示部と、画像出力部が出力する画像に対して、第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置と表示面の中心とを結ぶ直線に正対する仮想表示面から表示面への、第二視聴者基準位置を中心とする透過投影変換を行った画像を算出する画像伸縮部と、を具備し、表示部は画像伸縮部が生成した画像を表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コミュニケーションシステムに関する。
【背景技術】
【0002】
互いに異なる地点に位置する複数の会議参加者用に互いの映像を表示するテレビ会議システムなど、映像を用いたコミュニケーションツールにおいて、会話者は表示装置に表示される者、特に相手の会話者の顔を見ながら会話を行う。ここでは、会話者とは、発言を行っている者と、その者が話しかける相手とを言う。例えばテレビ会議システムでは、発言を行っている会議参加者(以下では「発話者」ともいう)、または、この発話者が1人の会議参加者に対して話しかける場合に、その話しかける対象の会議参加者のことをいう。また、以下では、コミュニケーションシステムが表示する画像を見る者、例えばテレビ会議の参加者のことを「視聴者」ともいう。このように、会話者同士が顔を見ながら会話をすることが意思疎通を図るために重要であり、更には会話者同士の視線が一致していることがより意思疎通を深める上で重要である。
特許文献1では、第一のユーザ(会話者)が見る表示装置の表示面周辺に複数の撮像装置を備え第一のユーザの正面映像を撮像し、選択された第二のユーザに第一のユーザの正面映像を送信し、それ以外のユーザには第一のユーザの横顔画像を送信することで、第一のユーザと第二のユーザとの視線を一致させる方法が提案されている。これにより、表示装置に正対しているユーザに対しては、相手のユーザと視線が一致する画像を表示ことができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−136501号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の方法では、会話者が表示装置の表示面に正対していない場合には、会話者同士の視線が一致しない。例えば、1つの会議室に複数の視聴者が居り、1つの表示装置を各々が見る場合、表示面に会話者の正面画像が表示されると、表示面に正対した席にいる視聴者は会話者と視線が一致する画像を見ることができるが、表示面に正対していない席にいる視聴者は会話者と視線が一致しない画像を見ることになる。したがって、表示装置に正対していない席に位置する視聴者が会話を行う場合は、相手の会話者が違う方向を向いている画像を見ながら会話を行うことになる。このため、非言語コミュニケーションにおいて重要である顔を向かい合わせての会話、特に視線による意思疎通を十分に図ることができない。
【0005】
本発明は、このような事情に鑑みてなされたもので、その目的は、会話者が表示面に正対していない場合でも相手の会話者と視線が一致する画像を表示することができるコミュニケーションシステムを提供することにある。
【課題を解決するための手段】
【0006】
[1]本発明は上述した課題を解決するためになされたもので、本発明の一態様によるコミュニケーションシステムは、第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力部と、前記第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置を検出する基準位置出力部と、前記第一視聴者の画像を表示する表示面を含む表示部と、前記画像出力部から出力された画像に対して、前記第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮部と、を具備し、前記表示部は前記画像伸縮部が算出した画像を表示する、ことを特徴とする。
このコミュニケーションシステムは、画像伸縮部が会話者の視点の位置である第二視聴者基準位置に基づいて画像を生成するので、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0007】
[2]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記基準位置出力部は、視聴者の視点の位置である基準位置を、前記第二視聴者を含む1人以上の視聴者について検出する基準位置検出部と、前記基準位置検出部が検出した前記基準位置の中から前記第二視聴者基準位置を選択する基準位置選択部と、を具備することを特徴とする。
このコミュニケーションシステムは、複数の視聴者の基準位置から会話者の基準位置である第二視聴者基準位置を選択し、画像伸縮部が第二視聴者基準位置に基づいて画像を生成するので、表示部を見る視聴者が2人以上いる場合でも、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0008】
[3]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステム、かつ、通信路を介して接続された第一端末装置及び第二端末装置を有するコミュニケーションシステムであって、前記第一端末装置は、前記画像出力部と、前記基準位置選択部と、を具備し、前記第二端末装置は、前記基準位置検出部と、前記表示部と、前記画像伸縮部と、を具備することを特徴とする。
このコミュニケーションシステムは、上述のコミュニケーションシステムと同様、複数の視聴者の基準位置から会話者の基準位置である第二視聴者基準位置を選択し、画像伸縮部が第二視聴者基準位置に基づいて画像を生成するので、表示部を見る視聴者が2人以上いる場合でも、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0009】
[4]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記第二視聴者を含む1人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、を具備し、前記基準位置検出部は、前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、前記第二ステレオ画像から前記1人以上の視聴者の各々の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、を具備し、前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択する、ことを特徴とする。
このコミュニケーションシステムは、第一撮像部と自由視点画像生成部とが第一視聴者を正面(視線方向)から見た画像を出力し、第二撮像部と基準位置算出部とが基準位置を検出し、基準位置選択部が基準位置の中から第二視聴者基準位置を選択して出力するので、上述のコミュニケーションシステムと同様、表示部を見る視聴者が2人以上いる場合でも、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0010】
[5]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記表示面は少なくとも2方向に異なる画像を表示し、前記基準位置選択部は、前記第二視聴者基準位置を選択するとともに、前記第二視聴者基準位置に前記表示面が前記異なる画像を表示する方向である表示方向のいずれかを対応付け、前記表示部は、前記画像伸縮部から入力される画像を、前記第二視聴者基準位置に対応付けられた方向に表示する、ことを特徴とする。
このコミュニケーションシステムは、選択された第二視聴者基準位置の方向に対して、上述のコミュニケーションシステムと同様、会話者と視線が一致する画像を表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。
【0011】
[6]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記第二視聴者を含む1人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、を具備し、前記基準位置検出部は、前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、前記第二ステレオ画像から前記1人以上の視聴者の各々の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、を具備し、前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付ける、ことを特徴とする。
このコミュニケーションシステムは、第一撮像部と自由視点画像生成部とが第一視聴者を正面(視線方向)から見た画像を出力し、第二撮像部と基準位置算出部とが基準位置を検出し、基準位置選択部が基準位置の中から第二視聴者基準位置を選択して出力するので、上述のコミュニケーションシステムと同様、選択された第二視聴者基準位置の方向に対して、会話者と視線が一致する画像を表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。
【0012】
[7]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記表示面は少なくとも2方向に異なる画像を表示し、前記基準位置選択部は、前記表示面が前記異なる画像を表示する方向である表示方向の各々に、基準位置のいずれかを対応付け、前記画像出力部は、前記第二視聴者基準位置が対応付けられていない方向に対応付けられた基準位置に基づいて定められる位置から見た前記第一視聴者の画像を生成し、当該方向と当該画像とを対応付けて前記画像伸縮部に出力し、前記画像伸縮部は、前記入力された方向の各々について、当該方向に対応付けられた画像に対して、当該方向に対応付けられた基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記当該方向に対応付けられた基準位置を中心とする透視投影変換を行った画像を算出し、算出した画像を当該方向と対応付けて出力し、前記表示部は、前記画像伸縮部から入力される画像を、該画像に対応付けられた方向に表示する、ことを特徴とする。
このコミュニケーションシステムは、基準位置選択部が選択しない基準位置に対して、この基準位置に基づいて定められる位置から見た画像を出力する。この画像として、第二視聴者基準位置の方向を向く会話者の画像を表示することで、会話者でない視聴者に対して、会話者同士が向かい合う、より自然な画像を表示することができる。
【0013】
[8]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記第二視聴者を含む一人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記基準位置選択部が前記表示方向に対応付けた前記視点の位置のうち前記第二視聴者基準位置を除く視点の位置の各々に対して、前記表示面の中心の位置を中心とする、当該視点の位置から前記第二視聴者基準位置への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、当該視点の位置が対応付けられた表示方向と前記生成した画像とを対応付けて前記画像伸縮部に出力する自由視点画像生成部と、を具備し、前記基準位置検出部は、前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、前記第二ステレオ画像から前記1人以上の視聴者の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、を具備し、前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者の基準位置を、前記基準位置算出部が算出する基準位置の中から第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付け、前記第二視聴者基準位置に対応付けられた方向以外の表示方向の各々に、第二視聴者基準位置以外の基準位置のいずれかを、前記表示面と各基準位置との位置関係に基づいて対応付ける、ことを特徴とする。
このコミュニケーションシステムは、第二視聴者基準位置を除く視点の位置の各々に対して、第二視聴者基準位置を向く会話者の画像を表示する。したがって、会話者でない視聴者に対して、会話者同士が向かい合う、より自然な画像を表示することができる。
【0014】
[9]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステム、かつ、通信路を介して互いに接続され、第一視聴者が利用する第一端末装置と第二視聴者が利用する第二端末装置と第三視聴者が利用する第三端末装置を有するコミュニケーションシステムであって、前記第一視聴者と前記第二視聴者と第三視聴者とのうち何れか2人を会話者として選択する会話者選択部をさらに具備し、前記画像出力部は、前記会話者選択部が、前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して前記画像伸縮部に出力し、前記第一視聴者と前記第三視聴者とを選択した場合は、正面以外から見た前記第一視聴者の画像を生成して前記画像伸縮部に出力する、ことを特徴とする。
このコミュニケーションシステムは、第一視聴者と第二視聴者が会話者であるときは、上述のコミュニケーションシステムと同様、第一視聴者と視線が一致する画像を第二視聴者に表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。これにより第二視聴者は、相手の会話者と視線が一致した自然な画像を見ながら会話を行うことができる。また、第一視聴者と第三視聴者とが会話者であって第二視聴者が会話者でないときは、第一視聴者を正面以外から見た画像を第二視聴者に表示する。第三視聴者が表示された表示部の方向を向いた第一視聴者の画像を表示することにより、会話者でない第二視聴者は、会話者である第一視聴者が相手の会話者の方向を向いた、より自然な画像を見ることができる。
【0015】
[10]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステム、かつ、通信路を介して前記第一端末装置と前記第二端末装置と前記第三端末装置とに接続された会話者選択装置を有するコミュニケーションシステムであって、前記第一端末装置は、前記画像出力部を具備し、前記第二端末装置は、前記基準位置出力部と、前記表示部と、前記画像伸縮部と、を具備し、前記会話者選択装置は、前記会話者選択部を具備する、ことを特徴とする。
このコミュニケーションシステムは、上述のコミュニケーションシステムと同様、第一視聴者と第二視聴者が会話者であるときは、第一視聴者と視線が一致する画像を第二視聴者に表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。これにより第二視聴者は、相手の会話者と視線が一致した自然な画像を見ながら会話を行うことができる。また、第一視聴者と第三視聴者とが会話者であって第二視聴者が会話者でないときは、第一視聴者を正面以外から見た画像を第二視聴者に表示する。第三視聴者が表示された表示部の方向を向いた第一視聴者の画像を表示することにより、会話者でない第二視聴者は、会話者である第一視聴者が相手の会話者の方向を向いた、より自然な画像を見ることができる。
【0016】
[11]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、第三視聴者を撮像する第三視聴者撮像部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一視聴者撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記会話者選択部が前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して出力し、前記会話者選択部が前記第一視聴者と前記第三視聴者とを選択した場合は、前記表示面の中心の位置を中心とする、前記第二表示面の中心の位置から前記基準位置出力部が出力する基準位置の方向への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、前記正面以外から見た前記第一視聴者の画像として出力する自由視点画像生成部と、を具備し、前記基準位置出力部は、前記第二視聴者を被写体とする第二ステレオ画像を撮像する第二視聴者撮像部と、前記第二ステレオ画像から前記第二視聴者の顔またはその一部の画像を検出し、前記第二視聴者基準位置を算出する基準位置算出部と、を具備し、前記会話者選択部は、前記第一撮像部が撮像した画像と前記第二視聴者撮像部が撮像した画像と前記第三視聴者撮像部が撮像した画像とから、それぞれ前記第一視聴者の口の動きの頻度と前記第二視聴者の口の動きの頻度と前記第三視聴者の口の動きの頻度とを検出し、検出した頻度に基づいて会話者を選択し、選択した会話者の画像から視線方向を検出し、検出した視線方向に基づいて相手の会話者を選択する、ことを特徴とする。
このコミュニケーションシステムは、上述のコミュニケーションシステムと同様、第一視聴者と第二視聴者が会話者であるときは、第一視聴者と視線が一致する画像を第二視聴者に表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。これにより、第二視聴者は、相手の会話者と視線が一致した自然な画像を見ながら会話を行うことができる。また、第一視聴者と第三視聴者とが会話者であって第二視聴者が会話者でないときは、第三視聴者が表示された表示部の方向を向いた第一視聴者の画像を表示するので、会話者でない第二視聴者は、会話者である第一視聴者が相手の会話者の方向を向いた、より自然な画像を見ることができる。
【発明の効果】
【0017】
本発明によれば、会話者が表示面に正対していない場合でも相手の会話者と視線が一致する画像を表示することができる。
【図面の簡単な説明】
【0018】
【図1】本発明の第1の実施形態におけるテレビ会議システム1の概略構成を示すシステム構成図である。
【図2】同実施形態におけるテレビ会議端末装置11が設置される会議室R1内の平面図である。
【図3】同実施形態におけるテレビ会議端末装置12が設置される会議室R2内の平面図である。
【図4】同実施形態におけるテレビ会議端末装置11及び12の概略構成を示す構成図である。
【図5】同実施形態における表示部116を表示面に対して直角方向手前から見た正面図である。
【図6】同実施形態における表示部127を表示面に対して直角方向手前から見た正面図である。
【図7】同実施形態において基準位置算出部122が算出する基準位置の相対座標を示す図である。
【図8】同実施形態において基準位置算出部122が基準位置選択部112に入力するデータのデータ構成を示すデータ構成図である。
【図9】同実施形態において視聴者P11が表示部116上の視聴者P24の画像を見る視線を示す図である。
【図10】同実施形態において基準位置選択部112が画像伸縮部126に入力する基準位置の情報のデータ構成を示すデータ構成図である。
【図11】同実施形態において自由視点画像生成部113が表示部116の表示面の中央正面から撮像した場合の画像を生成する処理手順を示すフローチャートである。
【図12】同実施形態において画像伸縮部126が行う画像の伸縮を示す図である。
【図13】同実施形態において画像伸縮部126が画像の伸縮を行う処理手順を示すフローチャートである。
【図14】同実施形態において自由視点画像生成部113が出力する画像および画像伸縮部126が画像の伸縮を行った画像の例を示す図である。
【図15】本発明の第2の実施形態におけるテレビ会議システム2の概略構成を示すシステム構成図である。
【図16】同実施形態において、各表示部が表示する画面の例を示す図である。
【図17】同実施形態において、会話者選択部241が会話者を選択する処理手順を示すフローチャートである。
【図18】同実施形態において、会話者選択部241が自由視点画像生成部213と223と233とに入力するデータのデータ構成図である。
【図19】同実施形態において視聴者P31が会話者でないと判断した場合に、自由視点画像生成部223及び自由視点画像生成部233が撮像位置を回転させる角度を示す図である。
【図20】同実施形態において自由視点画像生成部223及び233が生成する画像の撮像位置を示す図である。
【図21】同実施形態において画像伸縮部214及び215が行う画像の伸縮を示す図である。
【図22】本発明の第3の実施形態におけるテレビ会議システム3の概略構成を示すシステム構成図である。
【図23】同実施形態において表示部328が表示する画像の例を示す図である。
【図24】同実施形態において表示部316が表示する画像の例を示す図である。
【図25】同実施形態において基準位置選択部312が自由視点画像生成部313に入力するデータの構成を示すデータ構成図である。
【図26】同実施形態において、視聴者P51が会話者であると判断した場合に、自由視点画像生成部313が撮像位置を回転させる角度を示す図である。
【発明を実施するための形態】
【0019】
<第1の実施形態>
以下、図面を参照して、本発明の実施の形態について説明する。以下では、コミュニケーションシステムの一例としてテレビ会議システムに本発明を適用した場合について説明するが、本発明の適用範囲はテレビ会議システムに限らない。なお、ここでいうコミュニケーションシステムとは、コミュニケーションの当事者の画像を相手当事者に表示するシステムであり、例えば、テレビ会議システムや、インフォメーションディスプレイに案内係の画像を表示して情報提供を行うインフォメーションシステムや、ディスプレイに教師の画像を表示して授業を行う教育システム等がある。
【0020】
図1は、本発明の第1の実施形態におけるテレビ会議システム1の概略構成を示すシステム構成図である。同図において、テレビ会議システム1は、通信ネットワーク13によって互いに接続されるテレビ会議端末装置(第一端末装置)11とテレビ会議端末装置(第二端末装置)12とを含んで構成される。テレビ会議端末装置11で撮像された画像及び採音された音声は、送信装置により通信ネットワーク13を介してテレビ会議端末装置12に送られ、そこの受信装置を介して表示部により画像及び音声が再現・表示される。また、テレビ会議端末装置12で撮像された画像及び採音された音声は、送信装置により通信ネットワーク13を介してテレビ会議端末装置11に送られ、そこの受信装置を介して表示部により画像及び音声が再現・表示される。
【0021】
図2は、テレビ会議端末装置11が設置される会議室R1内の平面図である。後述するように、テレビ会議端末装置11は撮像装置111−1及び111−2と表示部(第二表示部)116とを含んで構成される。同図において、会議室R1内には撮像装置111−1及び111−2と表示部116と机T1とが配置され、視聴者(第一視聴者)P11が居る。なお、テレビ会議端末装置11を構成する他の部分の配置については図示を省略する。これらは会議室R1内に配置されていてもよいし、会議室R1外に配置されていてもよい。あるいは、表示部116の筐体内に組み込まれていてもよい。
【0022】
図3は、テレビ会議端末装置12が設置される会議室R2内の平面図である。後述するように、テレビ会議端末装置12は撮像装置121−1及び121−2と表示部127とを含んで構成される。同図において、会議室R2には撮像装置121−1及び121−2と表示部127と机T2とが配置され、視聴者P21とP22とP23とP24とP25とが居る。なお、テレビ会議端末装置12を構成する他の部分の配置については図示を省略する。これらは会議室R2内に配置されていてもよいし、会議室R2外に配置されていてもよい。あるいは、表示部127の筐体内に組み込まれていてもよい。
【0023】
図4は、テレビ会議端末装置11及び12の概略構成並びにそれらの間の通信ネットワーク(図1)を介する接続関係を示す構成図である。同図において、テレビ会議システム1は、テレビ会議端末装置11とテレビ会議端末装置12とを含んで構成される。テレビ会議端末装置11は、撮像部(第一撮像部)111と基準位置選択部112と自由視点画像生成部113と表示部116とを含んで構成される。撮像部(第一撮像部)111は撮像装置111−1及び111−2を含んで構成される。テレビ会議端末装置12は、撮像部(第二撮像部)121と基準位置算出部122と画像伸縮部126と表示部127とを含んで構成される。撮像部121は撮像装置121−1及び111−2を含んで構成される。なお、撮像部111が3個以上の撮像装置を備えるようにしてもよい。同様に、撮像部121が3個以上の撮像装置を備えるようにしてもよい。撮像部121または撮像部131が備える撮像装置の数を増やし、被写体である視聴者の広い範囲を撮像することにより、後述する視聴者の画像を生成する際に、様々な向きの画像を生成することができる。また、生成する画像の向きに近い方向から撮像した画像を用いることにより、後述する視聴者の画像を生成する際に、より精度の高い3次元座標データを算出し、より精度の高い画像を生成することができる。
【0024】
撮像部121と基準位置算出部122とが本発明の基準位置検出部123に対応し、視聴者の視点の位置(以下、基準位置ともいう)を、会話者である第二視聴者を含む1人以上の視聴者について検出する。本実施形態においては、撮像部121が撮像する画像を用いて、基準位置算出部122が基準位置を算出することにより、基準位置検出部123は、基準位置を検出する。なお、基準位置検出部が基準位置を検出する方法は、前述の方法に限らない。例えば、基準位置検出部が基準位置算出部から構成され、後述するように基準位置算出部が位置センサを用いて基準位置を求めることによって、基準位置検出部が基準位置を検出するなど、他の方法を用いてもよい。
【0025】
また、この基準位置検出部123と基準位置選択部112とが本発明の基準位置出力部に対応し、会話者である第二視聴者の基準位置(以下では、第二視聴者基準位置ともいう)を出力する。本実施形態では、基準位置検出部123が検出した基準位置の中から、基準位置選択部112が会話者である第二視聴者の基準位置を選択することにより、基準位置出力部は、第二視聴者基準位置を検出する。
また、撮像部111と自由視点画像生成部113とが本発明の画像出力部114に対応し、第一視聴者を撮像して、第一視聴者を正面から見た画像(以下では、正面画像ともいう)を出力する。本実施形態では、撮像部111が撮像する画像を用いて、自由視点画像生成部113が視聴者P11(第一視聴者)の正面画像を生成し、生成した正面画像を出力することによって、画像出力部114が正面画像を出力する。なお、画像出力部が正面画像を出力する方法は、前述の方法に限らない。例えば、画像出力部が撮像装置から構成され、後述するように、ハーフミラーを使用する既存の方法により、撮像装置が表示部116の表示面の中央正面からの画像を撮像することにより、画像出力部が正面画像を出力するなど、他の方法を用いてもよい。
なお、画像出力部114が出力する画像は、第一視聴者を真正面から見た画像でなくともよく、視聴者が見て違和感を感じない程度であれば、真正面からずれた位置から見た画像であってもよい。
【0026】
撮像装置111−1と111−2と121−1と121−2とは、CCD(Charge Coupled Device;電荷結合素子)とレンズとを含んで構成され、動画像を撮像するカメラである。なお、撮像装置111−1又は111−2又は121−1又は121−2が撮像素子として、CCDに換えてCMOS(Complementary Metal Oxide Semiconductor;相補性金属酸化膜半導体)等の固体撮像デバイスを含んで構成されるようにしてもよい。また、表示部116が撮像装置111−1又は111−2としてカメラモジュールを内蔵するようにしてもよいし、表示部127が撮像装置121−1又は121−2としてカメラモジュールを内蔵するようにしてもよい。
【0027】
表示部116及び127は、液晶パネルの表示面を含んで構成され、表示面に動画像等の画像を表示する。なお、表示部116及び127が、プラズマディスプレイパネルなど液晶パネル以外の表示面を含むようにしてもよい。
自由視点画像生成部113は、撮像部111が撮像した画像に基づいて、正面画像を生成する。
基準位置算出部122は、撮像部121が撮像した画像に基づいて、視聴者の両目の中央を結ぶ線の中心位置を基準位置として算出する。基準位置選択部112は、基準位置算出部122が算出した基準位置の中から、会話者の基準位置を選択する。以下では、選択される会話者を第二視聴者ともいい、第二視聴者の基準位置を第二視聴者基準位置ともいう。
画像伸縮部126は、会話者(第二視聴者)が表示部127に対して斜めに位置する場合に、表示部127に表示すると、画像中の視聴者がこの会話者の位置からは正面から見たように見えるよう、画像の伸縮を行う。
【0028】
図5は、表示部116を表示面に対して直角方向手前から見た正面図である。表示部116には、視聴者P21〜P25を含む画像が表示される。表示部116の上部左右の端部に撮像装置111−1及び111−2が設置されている。
【0029】
図6は、表示部127を表示面に対して直角方向手前から見た正面図である。表示部127には、視聴者P11を含む画像が表示される。表示部127の上部左右の端部に撮像装置121−1及び121−2が設置されている。
【0030】
次に、テレビ会議システム1の動作について説明する。
撮像部121は視聴者P21〜P25を含むステレオ画像(第二ステレオ画像)を撮像する。ここで、ステレオ画像とは、被写体を異なる角度から同時に撮像した複数の画像をいう。撮像部121は、被写体である視聴者P21〜P25を、撮像部121−1と撮像部121−2とで同時に撮像することにより、ステレオ画像を撮像する。撮像部121は、撮像した画像を基準位置算出部122に入力し、また、通信ネットワーク13(図1)を介して表示部116に入力する。表示部116は、撮像部121から受ける画像のうち、撮像装置121−1が撮像した画像を表示する。なお、撮像部121と表示部116との間に自由視点画像生成部を設け、表示部127の表示面中央から撮像した場合の画像をこの自由視点画像生成部が生成するようにしてもよい。この場合、表示部116は、表示部127の表示面中央から撮像した場合の画像を表示する。これにより、視聴者P21〜P25のうちの会話者が表示部127を注視する場合に、視聴者P11は、この会話者と視線が一致した画像を見ながら会話を行うことができる。この自由視点画像生成部は、後述する自由視点画像生成部113と同様に、ステレオマッチング法を用いて3次元モデルを生成することにより、表示部127の表示面中央から撮像した場合の画像を生成する。
基準位置算出部122は、撮像部121から受ける画像に基づいて、視聴者P21〜P25の基準位置を算出する。基準位置算出部122は、表示部127の表示面中央に対する各基準位置の相対座標を算出する。そして、基準位置算出部122は、算出した各基準位置を基準位置選択部112に、通信ネットワーク13(図1)を介して出力する。
【0031】
図7は基準位置算出部122が算出する基準位置の相対座標を示す図である。同図には、視聴者P24の基準位置Pが示されている。図7(a)のように、基準位置算出部122は、表示部127の表示面中央を原点O(0、0、0)とする。また、基準位置算出部122は、原点Oから表示部127の表示面に垂直に伸びる直線をz軸とし、表示部127の表示面正面の向きをz軸の正の向きとする。また、表示部127の表示面は横長の長方形であり、基準位置算出部122は、原点Oを通り表示面の長辺と平行な直線をx軸とし、正面から見て右向きをx軸の正の向きとする。また、基準位置算出部122は、原点Oを通り表示面の短辺と平行な直線をy軸とし、上向きをy軸の正の向きとする。基準位置算出部122は、視聴者P24の基準位置Pの座標(xp、yp、zp)を算出する。基準位置算出部122は、他の視聴者についても同様に基準位置を算出する。
【0032】
基準位置算出部122は、撮像装置121−1及び121−2の画角と表示部127に対する相対的な位置及び方向を内部の記憶部(不図示)に記憶している。そして、基準位置算出部122は、撮像装置121−1及び121−2が撮像した画像を用いて、ステレオマッチング法にて各視聴者の基準位置の座標を算出する。
具体的には、基準位置算出部122は、まず、肌の色および顔形状のパターンマッチングにて撮像装置121−1が撮像した画像と撮像装置121−2が撮像した画像とに対して顔検出を行う。複数の顔の画像が検出される場合は、基準位置算出部122は、両画像間でのずれ量が最も少ない顔の画像同士を同一の顔の画像と判断する。以下、複数の目の対応付け等も同様である。そして、基準位置算出部122は、黒目の色及び形状や眉毛の色及び形状に基づいて、検出した各顔の中からさらに両目を検出する。基準位置算出部122は検出した両目の各々の中心について、両画像間における注目点のずれ量と各カメラの位置関係に基づいて、三角測量にて三次元座標を算出する。さらに、基準位置算出部122は、両目の各々の三次元座標から両目を結ぶ線分の中心の三次元座標を算出し、この三次元座標を基準位置の座標とする。
【0033】
なお、基準位置算出部122が、目頭の形状に基づくパターンマッチングにて目頭を検出し、両目頭を結ぶ直線の中点を基準位置とするなど、顔またはその一部の画像を検出して、基準位置を算出するようにしてもよい。
なお、基準位置算出部122が基準位置を算出する方法は、上述のステレオマッチングによる方法に限らない。例えば、位置検出センサを用いて視聴者P21〜P25の位置を検出し、検出した位置の中心を基準位置として近似的に求めるなど、他の方法を用いて基準位置を算出するようにしてもよい。
また、基準位置算出部122が基準位置Pの座標を図7(b)に示す極座標形式で算出するなど、上記以外の座標の形式で算出するようにしてもよい。例えば、基準位置算出部122は、同図(b)のように、同図(a)の原点Oを原点とし、原点Oから基準位置Pまでの距離をrとする。また、基準位置算出部122は、原点Oを中心としてz軸から点(xp,0,zp)までの角度をφとし、y軸の正の向きから見て左回り方向をφの正の角度とする。また、基準位置算出部122は、原点Oを中心として点(xp,0,zp)から点Pまでの角度をθとし、点(xp,0,zp)からy軸の正の側へ回転する側を正の角度とする。基準位置算出部122は、基準位置Pの座標(r,φ,θ)を算出する。
【0034】
基準位置算出部122は、上記の顔検出において検出したそれぞれの顔が画像中に占める領域を算出し、各顔検出に基づいて得られる基準位置と対応付けて基準位置選択部112に出力する。
図8は基準位置算出部122が基準位置選択部112に出力するデータのデータ構成を示すデータ構成図である。
同図において、基準位置算出部122が基準位置選択部112に出力するデータは視聴者の人数分の基準位置の情報と各視聴者の顔が画像中に占める領域を表す情報とを含んで構成される。
基準位置の情報は視聴者の基準位置の座標を示す情報である。表示部上の座標の情報は、視聴者の顔が画像中に占める領域の座標を示す情報である。基準位置算出部122は、視聴者の顔が画像中に占める領域のx座標の最小値および最大値とy座標の最小値および最大値とを出力する。なお、基準位置算出部122が、視聴者の顔が画像中に占める領域を表す情報は、x座標の最小値および最大値とy座標の最小値および最大値に限らない。例えば、基準位置算出部122が視聴者の顔を楕円で近似して中心点の座標と長軸及び短軸の長さを、顔が画像中に占める領域を表す情報としてもよい。あるいは、基準位置算出部122が視聴者の顔を四角形より角数の多い多角形の位置で近似した各頂点の座標を、顔が画像中に占める領域を表す情報としてもよい。
また、同図の、基準位置のデータの単位はミリメートルであり、表示部上の座標の単位はピクセルである。なお、基準位置のデータの単位はミリメートルに限らず、例えばインチなど長さを表す他の単位を用いてもよい。また、表示部上の座標の単位はピクセルに限らず、例えば、表示面の水平方向の辺の長さを1とし、これに対する表示面左端からの相対的な長さで水平方向の座標を表すなど、他の単位を用いてもよい。
【0035】
撮像部111は、視聴者P11の画像を撮像し、基準位置選択部112と自由視点画像生成部113とに入力する。撮像部111は、撮像装置111−1と撮像装置111−2とを用いて、視聴者P11のステレオ画像(第一ステレオ画像)を撮像する。基準位置選択部112は、基準位置算出部122から通信ネットワーク13(図1)を介して受ける基準位置の中から、会話者に対応する1個の基準位置を選択して画像伸縮部126に出力する。基準位置選択部112は、撮像部111から受ける画像から、視聴者P11の視線方向を検出し、視聴者P11が注目している視聴者を会話者と判断し、この会話者に対応する基準位置を選択する。
具体的には、基準位置選択部112は、まず、撮像部111が撮像した画像から視聴者P11の顔を検出し、検出した顔の中から目を検出する。基準位置選択部112は、検出した顔の方向及び目の位置から視聴者P11の視線方向を検出する。顔の方向は、例えば左右の目の面積の大小より判別する。基準位置選択部112は、検出した視線方向と表示部116の表示面との交点を、視聴者P11が注目する表示部116上の点として検出する。そして、基準位置選択部112は、基準位置算出部122から受ける、視聴者P21〜P25のそれぞれの顔が画像中に占める領域の情報の中から、視聴者P11が注目する表示部116上の点を含む領域の情報を選択することにより、視聴者P11が注目する視聴者を会話者として選択する。基準位置選択部112は、選択した領域の情報に対応付けられた基準位置を、会話者に対応する基準位置として画像伸縮部126に、通信ネットワーク13を介して出力する。
【0036】
図9は、視聴者P11が表示部116上の視聴者P24の画像を見る視線を示す図である。同図において、表示部116には視聴者P21〜P25の画像が表示されており、視聴者P11は、視聴者P24を見ている。この視聴者P11を、表示部116に設置された撮像装置111−1及び111−2が撮像する。基準位置選択部112は撮像装置111−1及び111−2が撮像する画像を用いて上記のように視聴者P11の視線方向を検出して基準位置を選択する。
【0037】
図10は、基準位置選択部112が画像伸縮部126に出力する基準位置の情報のデータ構成を示すデータ構成図である。同図において、基準位置選択部112が画像伸縮部126に出力する基準位置の情報は、1個の基準位置の座標を含んで構成される。後述するように、画像伸縮部126は撮像部111から受ける画像をこの基準位置に基づいて伸縮する。
なお、基準位置選択部112が会話者に対応する1個の基準位置を選択する方法は、上記に示した視線を検出する方法に限らない。例えば、表示部116がタッチパネルになっており、視聴者P11が表示部116上の視聴者が表示されている位置に触れることで相手の会話者を選択するようにしてもよい。基準位置選択部112は、選択された視聴者に対応する基準位置を選択する。あるいは、基準位置選択部112が表示部116上にカーソルを表示し、視聴者P11がリモートコントローラ等によりそのカーソル位置を操作して相手の会話者を選択すると、基準位置選択部112が選択された会話者に対応する基準位置を選択するようにしてもよい。また、視聴者P21〜P25のいずれかが視聴者P11に話しかける場合に、基準位置選択部112が音声認識あるいは口の動きの検出によって発言している視聴者を特定し、特定した視聴者を会話者として選択するようにしてもよい。あるいは、視聴者P21〜P25の各々用のマイクを設け、基準位置選択部112は視聴者が発言のためにマイクのスイッチを入れたことを検出して会話者を選択するようにしてもよい。
【0038】
自由視点画像生成部113は、撮像部111が撮像した画像に基づいて、表示部116の表示面の中央正面から撮像した場合の画像を生成する。自由視点画像生成部113は、複数の画像から任意視点の画像を生成する既存の方法を用いて、画像を生成する。
具体的には、自由視点画像生成部113は、撮像装置111−1が撮像した画像および撮像装置111−2が撮像した画像を用いて、ステレオマッチング法によって視聴者P11上の各点(以下、注目点ともいう)の三次元座標を算出する。この際、自由視点画像生成部113は、撮像装置111−1が撮像した画像上に注目点を設定し、撮像装置111−2が撮像した画像上で、この注目点に相当する点(以下、対応点ともいう)を以下の方法により決定する。まず、自由視点画像生成部113は、撮像装置111−1と111−2との位置関係に基づき、撮像装置111−2が撮像した画像上に、対応点の検索範囲を設定する。自由視点画像生成部113は、検索範囲内の各画素について、その画素及びその周辺の画素と、注目点及びその周辺の画素とを対応付け、対応付けた各画素の明るさの差の合計を算出する。自由視点画像生成部113は、検索範囲内の各画素のうち、明るさの差の合計が最小となる点を、対応点とする。なお、自由視点画像生成部113が、画像から濃淡エッジ等の特徴を抽出するなど、他の方法を用いて注目点と対応点とを決定するようにしてもよい。
自由視点画像生成部113は、この注目点の三次元座標をステレオマッチング法によって算出する。
【0039】
次に、自由視点画像生成部113は算出した三次元座標に基づいて視聴者P11の三次元モデルを構築する。また、自由視点画像生成部113は、基準位置選択部112と同様に、視聴者P11の視線方向を検出する。自由視点画像生成部113は、構築した三次元モデルを元に、視聴者P11の視線方向から見た視聴者P11の画像を生成する。その際、自由視点画像生成部113は、視聴者P11の基準位置を画像の中央に合わせて画像を生成する。自由視点画像生成部113は、生成した画像を画像伸縮部126に、通信ネットワーク13(図1)を介して入力する。
【0040】
図11は自由視点画像生成部113が視聴者P11の視線方向から見た視聴者P11の画像を生成する処理手順を示すフローチャートである。自由視点画像生成部113は、テレビ会議端末装置11が起動すると、視聴者P11の視線方向から見た視聴者P11の画像を生成する処理を開始する。
ステップS1において、自由視点画像生成部113は、撮像部111から画像が入力されたか否かを判断する。例えば、撮像部111は、自由視点画像生成部113に所定のヘッダを持つフレームデータの形式で画像を入力し、自由視点画像生成部113は、このヘッダを検出すると画像が入力されたと判断する。画像が入力されたと判断した場合(ステップS1:YES)はステップS2に移り、入力されていないと判断した場合(ステップS1:NO)はステップS1を繰り返す。
ステップS2〜S4において、自由視点画像生成部113はステレオマッチング法によって視聴者P11の各部の位置を算出する。ステップS2において、自由視点画像生成部113は、撮像部111から受ける、撮像装置111−1と111−2とのそれぞれが撮像した画像に共通する注目点を抽出する。自由視点画像生成部113は視聴者P11の画像上の点を含む注目点を抽出する。ステップS3において、自由視点画像生成部113は、各注目点について、撮像装置111−1が撮像した画像と撮像装置111−2が撮像した画像との視差を算出する。ステップS4において、自由視点画像生成部113は、算出した視差に基づき三角測量を用いて各注目点の三次元座標を算出する。
【0041】
ステップS5において、自由視点画像生成部113は算出した三次元画像に基づいて視聴者P11の三次元モデルを生成する。ステップS6において、自由視点画像生成部113は、生成した三次元モデルの表面に質感を与えるための公知のテキスチャマッピングを行う。ステップS7において、自由視点画像生成部113は、視聴者P11の視線方向を検出する。ステップS8において、自由視点画像生成部113は、テキスチャマッピングを行った三次元モデルに基づいて、視聴者P11の視線方向から撮像した場合の画像を生成する。ステップS9において、自由視点画像生成部113は生成した画像を画像伸縮部126に入力する。その後ステップS1に移る。
【0042】
なお、基準位置選択部112が自由視点画像生成部113に、視聴者P11が注目する表示部116上の点の座標を入力し、自由視点画像生成部113がこの点から視聴者P11を撮像した画像を生成するようにしてもよい。これにより、自由視点画像生成部113が視聴者P11の視線方向を検出する処理を削減することができる。あるいは、自由視点画像生成部113が表示部116の表示面中央から見た画像を生成するようにしてもよい。これにより、視聴者P11が表示面中央付近を注目している場合には、自由視点画像生成部113は視聴者P11の視線方向から見た画像を生成することが出来る。
なお、ハーフミラーを使用する既存の方法により、撮像装置が表示面の中央正面からの画像を撮像するようにしてもよい。例えば、表示部116は表示面にハーフミラーを備える。このハーフミラーは表示面の下方向に設置された投影部が投影する画像を表示面の正面方向に反射する。これにより表示部116は表示面に画像を表示する。また、表示部116は表示面の中央かつハーフミラーの後ろに撮像装置を備え、この撮像装置は表示面の中央正面からの画像を撮像する。これにより、この撮像装置は、視聴者P11が表示面を見ている場合には、その正面から画像を撮像する。なお、このハーフミラーを使用する既存の方法による場合は、テレビ会議システム1は自由視点画像生成部113を具備しなくてもよい。
【0043】
画像伸縮部126は、表示部127の表示面に正対した場合の画像が会話者である視聴者の位置から見えるよう、自由視点画像生成部113から受ける画像を伸縮する。まず、画像伸縮部126は、基準位置選択部112から受ける基準位置(xp,yp,zp)に基づいて、図7(b)に示した原点Oと基準位置Pとの間の距離rと、x軸回りの角度θと、y軸回りの角度φとを算出する。画像伸縮部126は、x軸の正の側から見て右回りを正の角度として角度θを算出し、y軸の正の側から見て左回りを正の角度として角度φを算出する。
画像伸縮部126は、式(1)に基づいてrとθとφとを算出する。基準位置Pは原点Oに対し、距離rで、鉛直方向にθ、水平方向にφ回転した位置にある。
【0044】
【数1】
【0045】
次に、画像伸縮部126は、自由視点画像生成部113から受ける画像を伸縮する。
図12は、画像伸縮部126が行う画像の伸縮を示す図である。同図は、表示部127を上から見た平面図であり、原点Oとx軸とz軸と角度φと基準位置Pとは図7のものと同様である。また、仮想表示面127’は直線OPに垂直な平面である。図12は基準位置Pと原点Oとのy方向のずれがない場合を示し、仮想表示面127’は直線で示されている。点Qは仮想表示面127’上の1点であり、直線lは点Q及び点Pを通る直線である。点Rは直線lと表示部127の表示面との交点である。
画像伸縮部126は、表示部127の表示面中央と基準位置Pとの距離r及び角度φ及び表示部127の表示面の大きさに基づいて、基準位置Pから表示部127を見た場合の表示部127の視野角αを算出する。
【0046】
つぎに、画像伸縮部126は、原点Oを含み、直線OPに垂直な仮想表示面127’の形状を算出する。仮想表示面127’は、基準位置Pから見た場合に表示部127の表示面と視野角が一致する表示面である。
画像伸縮部126は、表示部127の表示面の各辺の長さと仮想表示面127’の各辺の長さとを比較して、仮想表示面127’の各辺のうち、表示部127の表示面に対して最も拡大される辺を判定する。図12の場合、画像伸縮部126は、y軸に平行な辺のうちのx座標値が正の側の辺が表示部127の表示面に対して最も拡大される辺であると判定する。
画像伸縮部126は、判定した最も拡大される辺の拡大率に従って、自由視点画像生成部113から受ける画像を縦横比を保って拡大する。画像伸縮部126は、原点Oと拡大した画像の中心とを一致させ、かつ、仮想表示面127’の最も拡大される辺と拡大した画像中の対応する辺との方向を一致させて、拡大した画像を仮想表示面127’に対応付け、この対応付けた画像に対して、仮想表示面127’から表示部127の表示面への、基準位置Pを中心とする透過投影変換を行った画像を生成する。具体的には、画像伸縮部126は、自由視点画像生成部113から受ける画像の各画素(ピクセル)について、上記の対応付けによって仮想表示面127’上で対応付けられる位置を算出する。さらに、画像伸縮部126は、自由視点画像生成部113から受ける画像の各画素について、下記の写像によって表示部127の表示面上に対応付けられる位置を算出する。画像伸縮部126は、自由視点画像生成部113から受ける画像の各画素が表示部127の表示面上に対応付けられる位置に基づいて、自由視点画像生成部113の画素と表示部127の画素との対応付けを行う。画像伸縮部126は、この画素の対応付けに基づいて表示部127が表示する画像を生成し、表示部127に入力する。
【0047】
同図の場合、仮想表示面127’は原点Oを通り、表示部127の表示面に対して角度φ傾いている。したがって、仮想表示面127’は図中のxz平面内において式(2)で表される直線となる。
【0048】
【数2】
【0049】
また、仮想表示面上の点Q(q,−q(tanφ))と点P(r(sinφ),r(cosφ))とを結ぶ直線は、式(3)で表される。
【0050】
【数3】
【0051】
この直線と表示部127の表示面との交点が、投影すべき点となる。その交点は、(2)式とz=0との交点なので、投影点Rは、R(rq/(r(cos2φ)+q(sinφ)),0)となる。
画像伸縮部126は、点Q(q,−q(tanφ))から点R(rq/(r(cos2φ)+q(sinφ)),0)への画像の投影により、自由視点画像生成部113から受ける画像を伸縮する。具体的には、自由視点画像生成部113から受ける画像中の、上記によって点Qに対応付けられる画素の画素値を、点Rに対応付けられる表示部127上の画素値として表示部127に入力する。
以上が2次元(y=0)の場合の処理である。3次元の場合も同様に、画像伸縮部126は、仮想表示面127’から表示部127の表示面に画像を投影した場合の画像を生成する。
【0052】
図13は画像伸縮部126が画像の伸縮を行う処理手順を示すフローチャートである。画像伸縮部126はテレビ会議端末装置12が起動すると、画像の伸縮を行う処理を開始する。
ステップS21において、画像伸縮部126は自由視点画像生成部113から画像が入力されたか否かを判断する。画像が入力されたと判断した場合(ステップS21:YES)はステップS22に移る。画像が入力されていないと判断した場合(ステップS21:NO)はステップS21を繰り返す。
ステップS22において、画像伸縮部126は基準位置Pから見た場合の画像表示部127の表示面の視野角を算出する。ステップS23において、画像伸縮部126は、仮想表示面127’の外形を算出する。ステップS24において、画像伸縮部126は算出した仮想表示面127’の外形に基づいて、自由視点画像生成部113から受ける画像を拡大する。
ステップS25において、画像伸縮部126は、仮想表示面127’から表示部127へ、基準位置Pを中心として投影した場合の画像を生成する。ステップS26において、画像伸縮部126は、生成した画像を表示部127に入力する。
【0053】
図14は、自由視点画像生成部113が出力する画像および画像伸縮部126が画像の伸縮を行った画像の例を示す図である。
自由視点画像生成部113は、図14(a)のように視聴者P11を正面から見た画像を画像伸縮部126に入力する。画像伸縮部126が画像の伸縮を行い表示部127が表示する画像を表示部127の正面から見ると、図14(b)のように視聴者P11を正面から見た画像が変形されて見える。これを、会話者である視聴者の位置から見ると、図14(c)のように視聴者P11を正面から見た画像が見える。同図は、図12で説明したように画像伸縮部126が会話者である視聴者の基準位置に基づいて算出した画像を、画面に向かっての右側にある基準位置から見た図である。このため、表示面の右側の辺が、左側の辺よりも長く見えている。
図14(c)のように、会話者である視聴者の位置からは、視聴者P11を正面から見た画像が見えるので、会話者である視聴者は、相手の会話者である視聴者P11と視線が一致した画像を見ながら会話を行うことができる。
【0054】
以上のように、テレビ会議システム1では、自由視点画像生成部が正面画像を生成し、画像伸縮部126が、この正面画像を、第二視聴者視点位置から見ると視聴者P11を正面から見た画像が見えるように変換する。したがって、第二視聴者基準位置から表示部127を見る会話者は、相手の会話者である視聴者P11と視線が一致した画像を見ながら会話を行うことができる。また、会話者は、表示部127を斜めから見た場合に見える視聴者P11が縦長に変形された画像ではなく、表示部127を正面から見た場合に見える自然な画像を見ながら会話を行うことができる。
なお、テレビ会議システム1における各部の配置は図4のものに限らず、基準位置選択部112と自由視点画像生成部113と基準位置算出部122と画像伸縮部126とは、テレビ会議端末装置11とテレビ会議端末装置12とのいずれに含まれていてもよいし、テレビ会議端末装置11とテレビ会議端末装置12とは別の装置に含まれていてもよい。
例えば、基準位置算出部122が、テレビ会議端末装置11に含まれ、通信ネットワークを介して撮像部121から画像を受けるようにしてもよい。
【0055】
<第2の実施形態>
図15は、本発明の第2の実施形態におけるテレビ会議システム2の概略構成を示すシステム構成図である。同図において、テレビ会議システム2は、テレビ会議端末装置(第一端末装置)21とテレビ会議端末装置(第二端末装置)22とテレビ会議端末装置(第三端末装置)23と会話者選択装置24とを含んで構成される。テレビ会議端末装置21とテレビ会議端末装置22とテレビ会議端末装置23と会話者選択装置24とは、通信ネットワークによって互いに接続されている。テレビ会議端末装置21は、撮像部(第一視聴者撮像部)211と基準位置算出部212と自由視点画像生成部213と画像伸縮部214及び215と表示部216及び217とを含んで構成される。テレビ会議端末装置22は、撮像部(第二視聴者撮像部)221と基準位置算出部222と自由視点画像生成部223と画像伸縮部224及び225と表示部226及び227とを含んで構成される。テレビ会議端末装置23は、撮像部(第三視聴者撮像部)231と基準位置算出部232と自由視点画像生成部233と画像伸縮部(第一画像伸縮部)234と画像伸縮部(第二画像伸縮部)235と表示部(第一表示部)236と表示部(第二表示部)237とを含んで構成される。会話者選択装置24は会話者選択部241を含んで構成される。撮像部211は撮像装置211−1及び211−2を含んで構成される。撮像部221は撮像装置221−1及び221−2を含んで構成される。撮像部231は撮像装置231−1及び231−2を含んで構成される。
【0056】
撮像部221と基準位置算出部222とが本発明の基準位置出力部に対応し、基準位置出力部は、会話者の基準位置である第二視聴者基準位置を出力する。本実施形態では、撮像部221が会話者である第二視聴者を撮像し、この画像を用いて基準位置算出部222が第二視聴者の基準位置を算出することにより、基準位置出力部が第二視聴者基準位置を検出して出力する。
また、撮像部211と自由視点画像生成部213とが本発明の画像出力部に対応し、後述する第一視聴者を撮像して、正面画像を出力する。本実施形態では、撮像部211が撮像する画像を用いて自由視点画像生成部213が正面画像を生成し、生成した正面画像を出力することによって、画像出力部が正面画像を出力する。なお、画像出力部が正面画像を出力する方法は、前述の方法に限らず、テレビ会議システム1の場合と同様の方法など、他の方法を用いるようにしてもよい。
【0057】
撮像装置211−1と211−2と221−1と221−2と231−1と231−2とは、図1の撮像装置111−1等と同様である。
基準位置算出部212と222と232とは、図1の基準位置算出部122と同様に、基準位置を算出する。ただし、テレビ会議システム2において、1個のテレビ会議端末装置を一人の視聴者が使用する場合は、基準位置算出部212と222と232とは、各々1個の基準位置を算出する。1個のテレビ会議端末装置を複数の視聴者が使用する場合については後述する。
自由視点画像生成部213は、撮像部211が撮像した画像に基づいて、視聴者の視線方向から見た視聴者の画像を生成する。加えて、自由視点画像生成部213は、視聴者の視線方向から移動した位置から見た視聴者の画像を生成する。詳細については後述する。自由視点画像生成部223及び233も自由視点画像生成部213と同様である。
画像伸縮部214は、図1の画像伸縮部126と同様に、表示部216に表示する画像を伸縮する。画像伸縮部215と224と225と234と235とも画像伸縮部214と同様である。
表示部216と217と226と227と236と237とは、図1の表示部127と同様である。
会話者選択部241は、撮像部211と221と231とから入力される画像に基づいて、会話者を選択する。詳細については後述する。
【0058】
図16は、各表示部が表示する画面の例を示す図である。
同図(a)において会議室R21に設置された表示部216と217とを視聴者P31(第一視聴者)が見ている。表示部216には視聴者P32(第二視聴者)が表示され、表示部217には視聴者P33(第三視聴者)が表示されている。同図(b)において会議室R22に設置された表示部226と227とを視聴者P32が見ている。表示部226には視聴者P33が表示され、表示部227には視聴者P31が表示されている。同図(c)において会議室R23に設置された表示部236と237とを視聴者P33が見ている。表示部236には視聴者P31が表示され、表示部237には視聴者P32が表示されている。
また、同図は視聴者P32とP33とが会話者である場合の例である。同図(a)において、表示部216と217とには、それぞれ視聴者P32とP33とが互いに向き合うように表示される。一方、同図(b)の表示部226には、第1の実施形態と同様、会話者P33の画像が会話者P32と視線が一致するように表示される。同様に、同図(c)の表示部237には、会話者P32の画像が会話者P33と視線が一致するように表示される。
なお、テレビ会議端末装置21、22、23のそれぞれ2つの表示部216・217、226・227、236・237は、別個の液晶表示装置を用いて形成してもよいし、あるいは1つの液晶表示装置のスクリーンを分割表示するようにして形成してもよい。
【0059】
次に、テレビ会議システム2の動作について説明する。以下では、視聴者P32とP33とが会話者である場合について説明する。他の場合についても同様である。
撮像部211は視聴者P31のステレオ画像(第一ステレオ画像)を撮像し、基準位置算出部212と自由視点画像生成部213と会話者選択部241とに入力する。撮像部221及び231も同様である。以下では、撮像部221が撮像する視聴者P32のステレオ画像を第二ステレオ画像ともいう。
撮像部211から視聴者P31の画像が入力されると、基準位置算出部212は視聴者P31の基準位置を算出し、画像伸縮部214及び215に入力する。また、基準位置算出部212は算出した基準位置を自由視点画像生成部213に入力する。基準位置算出部222及び232も同様である。
会話者選択部241は、通信ネットワークを介して撮像部211と221と231とから受ける画像から、視聴者P31とP32とP33との口の動きを検出し、例えば口の動き(口の開閉)の頻度に基づいて会話者を選択する。さらに会話者選択部241は選択した会話者の視線を検出することにより、相手の会話者を選択する。例えば、会話者選択部241は、視聴者P32が頻繁に口を開閉していることを検出して視聴者P32を会話者として選択する。さらに会話者選択部241は、視聴者P32の視線検出を行い、視線が表示部226側にあることを検出して視聴者P33を相手の会話者として選択する。会話者選択部241は選択した会話者を示す信号を自由視点画像生成部213と223と233とに、通信ネットワークを介して入力する。
なお、会話者選択装置24はテレビ会議端末装置21に付属して設けられ、他のテレビ会議端末装置22、23へは通信回線を介して接続されていてもよい。
なお、本実施形態はテレビ会議端末装置が4つまたはそれ以上の場合にも容易に拡張することができる。例えば、テレビ会議システムが4つのテレビ会議端末装置を備え、各テレビ会議端末装置は3つの表示部を備える。会話者選択部は、上記と同様にして、4つのテレビ会議端末装置のうち2つのテレビ会議端末装置の視聴者を会話者として選択する。会話者として選択されなかった視聴者のテレビ会議端末装置は、上記と同様にして、会話者同士が互いに向かい合う画像を表示する。
【0060】
図17は、会話者選択部241が会話者を選択する処理手順を示すフローチャートである。
会話者選択部241は、会話者選択装置24が起動すると、会話者を選択する処理を開始する。
ステップS41において、会話者選択部241は、撮像部211と221と231とから受ける画像に基づいて会話者を選択する。ステップS42において、会話者選択部241は、選択した会話者の視線を検出する。ステップS43において、会話者選択部241は、検出した視線に基づいて相手の会話者を選択する。ステップS44において、会話者選択部241は選択した会話を示す信号を自由視点画像生成部213と223と233とに入力する。その後ステップS41を繰り返す。
【0061】
図18は、会話者選択部241が自由視点画像生成部213と223と233とに入力するデータのデータ構成図である。
同図(a)において、会話者選択部241が選択して2人の会話者が、端末番号で示されている。端末番号は、その会話者が使用するテレビ会議端末装置の識別番号である。端末番号1はテレビ会議端末装置31を示し、端末番号2はテレビ会議端末装置32を示し、端末番号3はテレビ会議端末装置33を示す。また、端末番号0は会話者が選択されていないことを示す。
同図(b)は、会話者選択部241が会話者を選択していない場合に、会話者選択部241が自由視点画像生成部213と223と233とに入力するデータを示す。
会話者選択部241は、口を動かす頻度の閾値を内部の記憶部(不図示)に記憶しており、口を動かす頻度が閾値以上となる視聴者がいないと判断した場合は、会話者を選択しない。この場合会話者選択部241は同図(b)のデータを自由視点画像生成部213と223と233とに入力する。
【0062】
なお、会話者選択部241が、音声認識など、口の動きを検出する以外の方法で会話者を選択するようにしてもよい。なお、表示部216と217と226と227と236と237とがタッチパネルになっており、会話者選択部241は、視聴者がいずれかの表示部上の位置に触れたことを検出すると、触れられた表示部に応じて会話者を選択するなど、上記以外の方法で会話者及び相手の会話者を選択するようにしてもよい。
【0063】
自由視点画像生成部213は、会話者選択部241から選択した会話者を示す信号が入力されると、入力された信号に基づいて視聴者P31の画像を生成して画像伸縮部225及び234に入力する。
ここで、会話者選択部241から受ける信号に端末番号2が含まれる場合は、テレビ会議端末装置22の視聴者P32が会話者として選択されている。したがって、テレビ会議端末装置22との関係では、この信号は会話者であることを示す信号である。この場合、自由視点画像生成部213は、第1の実施形態の自由視点画像生成部113と同様に、視聴者P31の視線方向から撮像した画像を生成して画像伸縮部225に入力する。
一方、会話者選択部241から受ける信号に、端末番号2が含まれていない場合は、テレビ会議端末装置22の視聴者P32は会話者として選択されていない。したがって、テレビ会議端末装置22との関係では、この信号は会話者でないことを示す信号である。この場合、自由視点画像生成部213は、後述するように視聴者P31の視線方向から移動した位置から見た視聴者P31の画像を生成して画像伸縮部225に、通信ネットワークを介して入力する。
同様に、会話者選択部241から受ける信号に端末番号3が含まれる場合は、視聴者P31の視線方向から見た視聴者P31の画像を生成して画像伸縮部235に入力する。一方、会話者選択部241から受ける信号に端末番号3が含まれない場合は、自由視点画像生成部213は、視聴者P31の視線方向から移動した位置から見た視聴者P31の画像を生成して画像伸縮部235に入力する。自由視点画像生成部223及び233も同様である。
【0064】
図19は、視聴者P31が会話者でない場合、すなわち会話者選択部241から受ける信号に端末番号1が含まれない場合に、自由視点画像生成部223及び自由視点画像生成部233が生成する画像の視点位置と視聴者の視線方向とのずれの角度を示す図である。
同図において、点Pは視聴者P31の基準位置、点Qは表示部216の画像中における視聴者P32の基準位置、点Rは表示部217の画像中における視聴者P33の基準位置を示す。自由視点画像生成部223が視聴者P32の基準位置を画像の中心として画像を生成する。これにより、点Qは表示部216表示面中央である。同様に、点Rは表示部217の表示面中央である。三角形PQRの各頂点の角度は、頂点Qの角度がα、頂点Rの角度がβ、頂点Pの角度がπ−α−βである。ここに、πは円周率を示す。
自由視点画像生成部223は、点Qの位置として表示部216の表示面中央の位置を記憶しており、点Rの位置として表示部217の表示面中央の位置を記憶している。Pの位置は基準位置算出部212から受ける基準位置である。
自由視点画像生成部223は、点Qを中心とする、点Rから点Pへの向きを検出し、この向きの分だけ、視聴者P32の視線方向から移動した位置から見た視聴者P32の画像を生成する。
同様に、自由視点画像生成部233は、点Rを中心とする、点Qから点Pへの向きを検出し、この向きの分だけ、視聴者P33の視線方向から移動した位置から見た視聴者P33の画像を生成する。
【0065】
図20は自由視点画像生成部223及び233が生成する画像の撮像位置を示す図である。同図(a)に示すように、自由視点画像生成部223は、視聴者P32の視線方向から角度αだけ同図の左方向、すなわち、図19の点Rの方向から点Pの方向に移動した位置から見た視聴者P32の画像を生成する。この角度αは点Qを中心として点Rから点Pに回転する角度である。これにより、点Pのほうを向く視聴者P32の画像が点Rのほうを向くように回転される。同様に、図20(b)に示すように、自由視点画像生成部233は、視聴者P33の視線方向L33から角度βだけ撮像位置を点Qの方向から点Pの方向に移動した位置から見た視聴者P33の画像を生成する。
自由視点画像生成部223は、図1の基準位置選択部112と同様にして、それぞれ視聴者P32の視線方向L32及び視聴者P33の視線方向L33を検出する。そして、自由視点画像生成部223は、図1の自由視点画像生成部113と同様、撮像部221の撮像装置221−1及び221−2が撮像した画像を用いて、上記の画像を合成する。この際、自由視点画像生成部223は、自由視点画像生成部113と同様、視聴者P32の基準位置を画像の中央に合わせて画像を生成する。
【0066】
なお、撮像部211〜231が撮像する角度によっては、撮像位置を上記のように回転した場合の画像を生成できない場合がある。例えば、撮像部221の撮像装置221−1及び撮像装置221−2が視聴者P32の正面近くから撮像する場合、上記の角度αが大きく視聴者の横方向に近いと、三次元モデルの生成に必要な画像データが得られず、画像を生成できない。この場合は、撮像部221はさらに画像を生成する方向の近くに撮像装置を備える。自由視点画像生成部223は、撮像部221から受ける画像の中から角度αに応じて2枚の画像を選択し、選択した画像を用いて三次元モデルを生成し、撮像位置を角度α回転させた上記の画像をこの三次元モデルを用いて生成する。
なお、上記の撮像位置にカメラを設置しておき、このカメラを用いて撮像を行うようにしてもよい。例えば、視聴者P32を撮像する可動式のカメラを用意しておく。自由視点画像生成部223は撮像位置を算出すると、可動式カメラが算出した撮像位置に移動して撮像を行うように制御する。これにより、自由視点画像生成部223が画像を合成する必要が無くなり計算量を削減できる。
自由視点画像生成部213及び233についても同様である。
【0067】
画像伸縮部214は自由視点画像生成部223から画像が入力されると、図1の画像伸縮部126と同様に画像の伸縮を行う。同様に、画像伸縮部215は自由視点画像生成部233から画像が入力されると画像の伸縮を行う。
図21は画像伸縮部214及び215が行う画像の伸縮を示す図である。同図(a)に示すように、視聴者P31の基準位置Pは表示部216に正対する方向から角度θ回転した位置にある。そこで、第1の実施形態と同様に、点Qを通り直線PQに垂直な仮想表示面216’から表示部216への、基準位置Pを中心とする透過投影変換を、自由視点画像生成部223から受ける画像に対して行った画像を算出することにより、自由視点画像生成部223から受ける画像を伸縮する。画像伸縮部214は、算出した画像を表示部216に入力する。
同様に、画像伸縮部215は、同図(b)に示されるように、仮想表示面217’から表示部217への、基準位置Pを中心とする透過投影変換を、自由視点画像生成部233から受ける画像対して行った画像を算出する。画像伸縮部215は算出した画像を表示部217に入力する。
表示部216は画像伸縮部214から受ける画像を表示し、表示部217は画像伸縮部215から受ける画像を表示する。
【0068】
以上により、表示部216は、視聴者P32が表示部217に表示される視聴者P33を見ているように見える画像を表示する。同様に、表示部217は、視聴者P33が表示部216に表示される視聴者P32を見ているように見える画像を表示する。したがって、視聴者P31は、会話する二人の視聴者P32とP33の視線が一致しているように見える、より自然な画像を見ることができる。また、テレビ会議システム2は、会話者が変わった場合には会話者選択部241が新たな会話者を選択するので、会話する視聴者同士の視線が一致するような画像を表示することが出来る。
また、テレビ会議システム2は、会話者に対しては視線方向から見た場合の画像を表示するので、テレビ会議システム1の場合と同様、会話者は相手の会話者と視線が一致する画像を見ながら会話を行うことができる。
なお、テレビ会議システム2の各部の配置は図15のものに限らず、基準位置算出部212と222と232と、自由視点画像生成部213と223と233と、画像伸縮部214と215と224と225と234と235とが、テレビ会議端末装置21と22と23と会話者選択装置24とのいずれに含まれるようにしてもよいし、これらと別の装置に含まれるようにしてもよい。例えば、会話者選択部241がテレビ会議端末装置21に含まれるようにしてもよい。これにより、テレビ会議システム2が会話者選択装置24を具備する必要が無くなる。
【0069】
なお、1個のテレビ会議端末装置を複数の視聴者が使用するようにしてもよい。例えば、テレビ会議端末装置21を視聴者A及びBが使用し、テレビ会議端末装置22を視聴者C及びDが使用し、テレビ会議端末装置23を視聴者E及びFが使用する場合、視聴者Cと視聴者Eとが会話者であるときは、表示部216は視聴者Cの画像を表示し、表示部217は視聴者Eの画像を表示する。
具体的には、撮像部211は、テレビ会議端末装置21を使用する全ての視聴者を含む画像を撮像する。撮像部221と231とも同様である。基準位置算出部212は、撮像部211から入力される画像に含まれる視聴者の各々の基準位置を算出し、図8で説明したように、算出した基準位置と表示部上の座標とを対応付けて、自由視点画像生成部213と画像伸縮部214および215に加えて、会話者選択部241にも入力する。基準位置算出部222と232とも同様である。
【0070】
会話者選択部241は、撮像部211と221と231とから入力される画像に含まれる全ての視聴者の中から、上記の1個のテレビ会議端末装置を1人の視聴者が使用する場合と同様に視聴者の口の動きに基づいて、会話者を選択する。そして、会話者選択部241は、会話者の視線方向を検出し、会話者が注目する画面上の座標を算出する。会話者選択部241は、基準位置算出部212と222と232とから入力される、基準位置と表示部上の座標とを対応付けた情報に基づいて、会話者が注目する画面上の位置に表示される視聴者を相手の会話者として選択する。会話者選択部241は、選択した会話者を、基準位置算出部から入力された、基準位置と表示部上の座標とを対応付けた情報にさらに対応付ける。この対応付けは、例えば、基準位置算出部から入力された、基準位置と表示部上の座標とを対応付けた情報の視聴者毎に、図25に示されるような、会話者か否かを示すフラグを付加することによって行う。
会話者選択部241は、生成した情報の、全てのテレビ会議端末装置に関するものを、自由視点画像生成部213と223と233とに入力する。
【0071】
自由視点画像生成部213は、撮像部211から入力されるステレオ画像に含まれる全ての視聴者について、三次元モデルを生成する。
そして、会話者選択部241から入力される情報において、テレビ会議端末装置21の視聴者に会話者が含まれていない場合は、三次元モデルを生成した視聴者が全て正面を向いている画像を生成して出力する。この際、例えば基準位置に基づいて、視聴者の実際の位置に応じて視聴者を画面上に配置する。自由視点画像生成部223と233とについても同様である。
一方、自由視点画像生成部213と223と233とは、当該自由視点画像生成部が含まれるテレビ会議端末装置(例えば、自由視点画像生成部213であれば、テレビ会議端末装置21)を使用する視聴者に会話者が含まれる場合は、もう一方の会話者が含まれるテレビ会議端末装置に対しては、会話者を正面から見た画像を入力し、会話者が含まれないテレビ会議端末装置に対しては、相手の会話者を向いているように見えるように、会話者の視線方向から移動した位置から見た視聴者の画像を入力する。
【0072】
例えば、テレビ会議端末装置22を使用する視聴者Cとテレビ会議端末装置23を使用する視聴者Eとが会話者である場合は、自由視点画像生成部223は、テレビ会議端末装置23に対しては、視聴者Cを正面から見た画像を入力する。一方、テレビ会議端末装置21に対しては、上記の1個のテレビ会議端末装置を1人の視聴者が使用する場合の視聴者P32と同様に、視聴者Cの視線方向から移動した位置から見た視聴者Cの画像を生成する。
同様に、自由視点画像生成部233は、上記の1個のテレビ会議端末装置を1人の視聴者が使用する場合の視聴者P33と同様に、視聴者Eの視線方向から移動した位置から見た視聴者Eの画像を生成する。
このように、視聴者Aおよび視聴者Bから見て、視聴者Cと視聴者Eとが互いに向かい合って見えるように、自由視点画像生成部223と自由視点画像生成部233とは、それぞれ視聴者Cと視聴者Eとの撮像位置を移動させた画像を生成して出力する。ここで、基準位置算出部212が視聴者Aの視点位置と視聴者Bの視点位置との中点を基準位置としてさらに算出し、自由視点画像生成部223と自由視点画像生成部233とに入力する。自由視点画像生成部223と自由視点画像生成部233とは、基準位置算出部212から受ける基準位置に基づいて上記の視聴者Cの画像と視聴者Eの画像とを生成する。
これにより、視聴者Aの基準位置と視聴者Bの基準位置との中点から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像が表示される。視聴者Aと視聴者Bとは、この中点に比較的近い位置から表示部216と表示部217とを見ていると考えられるので、視聴者Aと視聴者Bとは、視聴者Cと視聴者Eとが互いに向かい合う自然な画像を見ることができる。他の視聴者が会話者である場合も同様である。
【0073】
あるいは、1個のテレビ会議端末装置を複数人の視聴者が使用する上記の場合において、表示部216と表示部217とが、画面を右から見たときと左から見たときで異なる画像を表示する液晶ディスプレイを含んで構成されるようにしてもよい。画面を右から見たときと左から見たときで異なる映像を表示する液晶ディスプレイは、例えばカーナビゲーションシステムにおいて、運転席から見たときと助手席から見たときとで異なる映像を表示するディスプレイとして実用化されている。
この場合、基準位置算出部212は、視聴者Aの基準位置と視聴者Bの基準位置とを算出して、自由視点画像生成部223と自由して画像生成部233とに出力する。自由視点画像生成部223と自由視点画像生成部233とは、視聴者Aの基準位置から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像と、視聴者Bの基準位置から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像とを生成し、それぞれ表示部216と表示部217とに出力する。表示部216と表示部217とは、視聴者Aの基準位置と視聴者Bの基準位置とに基づいて、視聴者Aに対しては、視聴者Aの基準位置から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像を表示し、視聴者Bに対しては、視聴者Bの基準位置から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像を表示する。これによって、視聴者Aと視聴者Bとは、視聴者Cと視聴者Eとが互いに向かい合う自然な画像を見ることができる。他の視聴者が会話者である場合も同様である。
なお、表示部216、217、226、227、236、237が3方向以上の方向に対して異なる画像を表示する液晶ディスプレイを含んで構成されるようにしてもよい。これにより、2方向に対して異なる画像を表示する上記の場合よりも多くの視聴者に対して自然な画像を表示することができる。
【0074】
<第3の実施形態>
図22は本発明の第3の実施形態におけるテレビ会議システム3の概略構成を示すシステム構成図である。同図において、テレビ会議システム3は、テレビ会議端末装置(第一端末装置)31及びテレビ会議端末装置(第二端末装置)32を含んで構成される。テレビ会議端末装置31とテレビ会議端末装置32とは、通信ネットワークによって互いに接続されている。テレビ会議端末装置31は、撮像部(第一撮像部)311と基準位置選択部312と自由視点画像生成部313と表示部(第二表示部)316とを含んで構成される。テレビ会議端末装置32は、撮像部(第二撮像部)321と基準位置算出部322と画像伸縮部326及び327と表示部328とを含んで構成される。撮像部311は、撮像装置311−1及び311−2を含んで構成される。撮像部321は、撮像装置321−1及び撮像装置321−2を含んで構成される。
【0075】
撮像部321と基準位置算出部322とが本発明の基準位置検出部に対応し、会話者である第二視聴者を含む1人以上の視聴者について基準位置を検出する。本実施形態では撮像部321が撮像する画像を用いて、基準位置算出部322が基準位置を算出することにより、基準位置検出部は、基準位置を検出する。なお、基準位置検出部が基準位置を検出する方法は、前述の方法に限らず、テレビ会議システム1の場合と同様の方法など、他の方法を用いてもよい。
また、この基準位置検出部と基準位置選択部312とが本発明の基準位置出力部に対応し、第二視聴者の基準位置である第二視聴者基準位置を出力する。本実施形態では、基準位置検出部が検出した基準位置の中から、基準位置選択部312が会話者である第二視聴者の基準位置を選択することにより、第二視聴者基準位置を検出する。
また、撮像部311と自由視点画像生成部313とが本発明の画像出力部に対応し、第一視聴者を撮像して、正面画像を出力する。本実施形態では、撮像部311が撮像する画像を用いて、自由視点画像生成部313が正面画像を生成し、生成した正面画像を出力することにより、画像出力部が正面画像を出力する。なお、画像出力部が正面画像を出力する方法は、前述の方法に限らず、テレビ会議システム1の場合と同様の方法など、他の方法を用いてもよい。
また、画像伸縮部326と327とが本発明の画像伸縮部に対応し、第二視聴者基準位置に正対する仮想表示面から表示面への、第二視聴者基準位置を中心とする透過投影変換を、正面画像または後述する撮像位置を回転させた画像に対して行った画像を算出する。本実施形態では、画像伸縮部326または画像伸縮部327に、正面画像または撮像位置を回転させた画像と、第二視聴者基準位置とが入力されると、その画像伸縮部326または画像伸縮部327は、第二視聴者基準位置に正対する仮想表示面から表示面への、第二視聴者基準位置を中心とする透過投影変換を、正面画像または撮像位置を回転させた画像に対して行った画像を算出する。
【0076】
表示部316は図1の表示部116と同様である。
表示部328は、画面を右から見たときと左から見たときで異なる映像を表示する液晶ディスプレイを含んで構成される。撮像部311は視聴者P41(第一視聴者)のステレオ画像(第一ステレオ画像)を撮像し、撮像部321は視聴者P51(第二視聴者)及び視聴者P52のステレオ画像(第二ステレオ画像)を撮像する。撮像装置311−1と311−2と321−1と321−2とは、図1の撮像装置111−1等と同様である。
自由視点画像生成部313は、撮像部311が撮像した画像に基づいて、視聴者の視線方向から見た視聴者の画像を生成する。加えて、自由視点画像生成部312は、視聴者の視線方向から移動した位置から見た視聴者の画像を生成する。詳細については後述する。
基準位置算出部322は、図1の基準位置算出部122と同様に、基準位置を算出する。
画像伸縮部326は、表示部328が画像を表示する方向のうち表示部328に向かって左方向に対応付けられ、表示部328を左から見たときの画像を図1の画像伸縮部126と同様に伸縮する。画像伸縮部327は、表示部328が画像を表示する方向のうち表示部328に向かって右方向に対応付けられ、表示部328を右から見たときの画像を図1の画像伸縮部126と同様に伸縮する。
【0077】
図23は表示部328が表示する画像の例を示す図である。同図において、会議室R32に設置された表示部328を視聴者P51及びP52が見ている。また、視聴者P41とP51とが会話者である。同図(a)の表示部328には、表示部328を左から見た場合の画像が表示されている。視聴者P51は会話者であり、表示部328には視聴者P41が視聴者P51と視線が一致するように表示される。また、同図(b)の表示部328には、表示部を右から見た場合の画像が表示されている。表示部328には視聴者P41が視聴者P51の方向を見ている画像が表示される。
図24は表示部316が表示する画像の例を示す図である。同図において、会議室R31に設置された表示部316を視聴者P41が見ている。
【0078】
次に、テレビ会議システム3の動作について説明する。以下では、視聴者P41と視聴者P51とが会話者である場合について説明する。視聴者P41と視聴者P52とが会話者である場合も同様である。
撮像部321は視聴者P51及びP52の画像を撮像し、基準位置算出部322に入力し、また、通信ネットワークを介して表示部316に入力する。表示部316は撮像部321から受ける画像を表示する。
基準位置算出部322は、図1の基準位置算出部122と同様に、撮像部321から受ける画像に基づいて、視聴者P51及びP52の基準位置を算出する。基準位置算出部322は、算出した基準位置を基準位置選択部312に入力する。
撮像部311は、視聴者P51の画像を撮像し、基準位置選択部312と自由視点画像生成部313とに入力する。
基準位置選択部312は、基準位置算出部322から通信ネットワークを介して受ける基準位置から、会話者に対応する1個の基準位置を選択する。基準位置選択部312は、図1の基準位置選択部112と同様に、視聴者P41の視線を検出して会話者に対応する基準位置を選択する。基準位置選択部312は、基準位置算出部322から受ける基準位置に、選択した基準位置を示すフラグを付す。さらに、基準位置選択部312は、表示部328が画像を表示する方向を予め記憶しており、表示部328が画像を表示する方向と基準位置とを対応付ける。基準位置選択部312は、表示部328が画像を表示する方向と対応付けた基準位置を、自由視点画像生成部313に入力する。
この際、1個の方向に複数の基準位置を対応付け得る場合は、基準位置選択部312は、そのうち1個の基準位置のみを、この方向に対応付けて自由視点画像生成部313に入力する。これらの基準位置に会話者の基準位置が含まれる場合は、会話者の基準位置のみを、この方向に対応付けて自由視点画像生成部313に入力する。会話者の基準位置が含まれない場合は、自由視点画像生成部313は、例えば、同じ方向に対応付けられた基準位置のうち、基準位置算出部322から最初に入力される基準位置のみを、この方向に対応付けて自由視点画像生成部313に入力する。
また、基準位置選択部312は、自由視点画像生成部313に入力した基準位置を画像伸縮部326及び327に入力する。基準位置選択部312は、表示部328が画像を表示する方向に応じて、表示部328に向かって左方向に対応付けられる基準位置を画像伸縮部326に入力し、表示部328に向かって右方向に対応付けられる基準位置を画像伸縮部327に入力する。
【0079】
図25は、基準位置選択部312が自由視点画像生成部313に入力するデータの構成を示すデータ構成図である。
同図において、基準位置選択部312が自由視点画像生成部313に入力するデータは、2人の視聴者の基準位置と表示部上の座標と選択した会話者を示すフラグとを含んで構成される。基準位置及び表示部上の座標は、図8の基準位置及び表示部上の座標と同様である。会話者を示すフラグは、基準位置選択部312が選択した会話者をフラグの値「1」にて示し、基準位置選択部312が選択した以外の会話者をフラグの値「0」にて示す。
また、同図において、「方向1」は、表示部328が画像を表示する方向のうち表示部328に向かって左側の方向を示し、「方向2」は、表示部328が画像を表示する方向のうち表示部328に向かって右側の方向を示す。「方向1」には「視聴者1」が対応付けられ、「方向2」には「視聴者2」が対応付けられている。
【0080】
自由視点画像生成部313は、基準位置選択部312から受けるデータに基づいて、表示部328の表示面正面方向の左側に位置する視聴者の基準位置と右側に位置する視聴者の基準位置とを区別する。
自由視点画像生成部313は、会話者の基準位置に対しては、視聴者P41の視線方向から見た視聴者P41の画像を生成する。また、会話者以外の視聴者の基準位置に対しては、自由視点画像生成部313は、視聴者P41の視線方向から移動した位置から見た視聴者P41の画像を生成する。詳細は後述する。自由視点画像生成部313は生成した画像のうち、表示部328の表示面正面方向の左側に位置する視聴者の基準位置に対応する画像を画像伸縮部326に通信ネットワークを介して入力し、右側に位置する視聴者の基準位置に対応する画像を画像伸縮部327に通信ネットワークを介して入力する。このように、自由視点画像生成部313は、画像を表示する方向に応じた画像伸縮部に画像を入力することにより、画像と表示する方向とを対応付ける。
【0081】
図26は基準位置選択部312が視聴者P51を会話者として選択した場合に、自由視点画像生成部313が撮像位置を回転させる角度を示す図である。
同図において、点Sは視聴者P52の基準位置、点Tは表示部328の画像中における視聴者P41の基準位置、点Uは視聴者P51の基準位置を示す。自由視点画像生成部313は、同図の角度γだけ撮像位置を点Sの方向から点Uの方向に回転した場合に得られる画像を生成する。
これにより、視聴者P52は視聴者P51と視線を合わせている視聴者P41の画像を見る。
【0082】
このように、テレビ会議システム3は、会話者でない視聴者P52に対して会話者P51と視線を合わせている視聴者P41の画像を表示するので、視聴者P52は、会話者同士の視線方向が一致したより自然が画像を見ながら会議に参加できる。また、会話者である視聴者P51に対しては、会話者P41と視線が一致する画像を表示するので、会話者P51は会話者P41と視線が一致した画像を見ながらより自然に会話を行うことが出来る。
なお、表示部328備える液晶ディスプレイは、2方向に対して異なる映像を表示するものに限らず、3方向以上に対して異なる映像を表示するものであってもよい。この場合、テレビ会議端末装置32は、液晶ディスプレイが異なる映像を表示する方向の数と同数の画像伸縮部を含んで構成され、自由視点画像生成部313は、各画像伸縮部に応じた視聴者P41の画像を生成して、各画像伸縮部に入力する。このように、より多くの方向に対して異なる映像を表示することにより、より多くの視聴者に対してより自然な映像を表示することができる。
なお、テレビ会議システム3における各部の配置は図22のものに限らず、基準位置選択部312と自由視点画像生成部313と基準位置算出部322と画像伸縮部326及び327とは、テレビ会議端末装置31とテレビ会議端末装置32とのいずれに含まれていてもよいし、テレビ会議端末装置31とテレビ会議端末装置32とは別の装置に含まれていてもよい。
例えば、基準位置算出部322が、テレビ会議端末装置31に含まれ、通信ネットワークを介して撮像部321から画像を受けるようにしてもよい。
【0083】
なお、本発明は、次の態様で実施することもできる。
(1) 通信ネットワークを介して互いに接続されたテレビ会議用の第一端末装置および第二端末装置を備え、第一端末装置が置かれた第一会議室の第一視聴者および第二端末装置が置かれた第二会議室の第二視聴者に互いの映像を表示するコミュニケーションシステムであって、第一端末装置は、第一視聴者を撮像する第一撮像部、第一撮像部が撮像した画像に基づいて第一視聴者の画像を生成する自由視点画像生成部および第二視聴者を表示する第一表示部を備え、第二端末装置は、第二視聴者を撮像する第二撮像部、前記自由視点画像生成部が生成し前記通信ネットワークを介して受信した画像を入力され、前記画像を伸縮して第二視聴者の視線方向を向いた第一視聴者の画像を生成する画像伸縮部、および前記画像伸縮部が生成した第二視聴者の視線方向を向いた第一視聴者の画像を表示する第二表示部を備え、第二撮像装置の撮像した画像を前記通信ネットワークを介して第一端末装置へ送信する、ことを特徴とするコミュニケーションシステム。
このコミュニケーションシステムでは、第二表示部が第二視聴者の視線方向を向いた第一視聴者の画像を表示するので、第二視聴者は、第一視聴者と視線が一致する画像を見ながら第一視聴者と会話を行うことができる。
【0084】
(2) 前記第二会議室には視聴者が複数人いて、その内の一人である第二視聴者が第二表示部に表示された前記第一視聴者を注目して発言することを特徴とする、上記(1)に記載のコミュニケーションシステム。
このコミュニケーションシステムでは、第二表示部が第二視聴者の視線方向を向いた第一視聴者の画像を表示するので、第二視聴者は、第一視聴者と視線が一致する画像を注目して第一視聴者と会話をし、第一視聴者に対して発言することができる。
【0085】
(3) 前記第一撮像部は、複数の撮像装置を備え、前記自由視点画像生成部は、前記第一撮像部が撮像した画像に基づいて第一視聴者の三次元画像を生成することを特徴とする上記(1)または(2)に記載のコミュニケーションシステム。
このコミュニケーションシステムでは、複数の撮像装置が撮像した画像に基づいて、自由視点画像生成部が第一視聴者の三次元画像を生成する。これにより、上述のように、第二視聴者は、第一視聴者と視線が一致する画像を見ながら第一視聴者と会話を行うことができる。
【0086】
(4) 通信ネットワークを介して互いに接続されたテレビ会議用の第一端末装置および第二端末装置を備え、第一端末装置が置かれた第一会議室の第一視聴者および第二端末装置が置かれた第二会議室の第二視聴者に互いの画像を表示するコミュニケーションシステムであって、第一端末装置は、第一視聴者を撮像する第一撮像部、第一撮像部が撮像した画像に基づいて第一視聴者の視線方向から見た画像を生成する自由視点画像生成部および第二視聴者を表示する第一表示部を備え、第二端末装置は、第二視聴者を撮像する第二撮像部および前記自由視点画像生成部が生成し前記通信ネットワークを介して受信した画像を表示する表示面を、右から見たときと左から見たときとで異なる画像を表示する第二表示部を備え、第二撮像装置の撮像した画像を前記通信ネットワークを介して第一端末装置へ送信するとともに、第二表示部には視聴者に対応して異なる画像が表示される、ことを特徴とするコミュニケーションシステム。
このコミュニケーションシステムは、視聴者に対応して異なる画像が第二表示部に表示されるので、会話者である視聴者に対しては、この視聴者の視線方向を向いた第一視聴者の画像を表示することにより、会話者である視聴者は、第一視聴者と視線が一致する画像を見ながら第一視聴者と会話を行うことができる。また、会話者でない視聴者に対しては、会話者同士の視線が一致する、より自然な画像を表示することができる。
【0087】
(5) 通信ネットワークを介して互いに接続されたテレビ会議用の第一端末装置、第二端末装置および第三端末装置を備え、各端末装置が置かれた各会議室の視聴者に互いの映像を表示するコミュニケーションシステムであって、通信ネットワークを介して前記各会議室へ接続され、各会議室の視聴者の中から会話者を選択する会話者選択装置を備え、前記各端末装置は、各会議室の視聴者を撮像する撮像部、前記撮像部からの画像を生成する自由視点画像生成部および他の会議室の視聴者の画像を表示する表示部を備え、各会議室の前記自由視点画像生成部は、会話者ではない視聴者の会議室の表示部へ送る画像として、回転された視聴者の画像を生成する、ことを特徴とするコミュニケーションシステム。
このコミュニケーションシステムでは、会話者ではない視聴者に対しては、回転された視聴者の画像を生成して会話者である視聴者同士が互いに向き合う、より自然な画像を表示することができる。
【0088】
(6) 画像を表示する表示面を含む表示部を具備するコミュニケーションシステムの視聴者表示方法であって、第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力ステップと、前記第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置を検出する基準位置出力ステップと、前記画像出力ステップが出力する画像に対して、前記第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮ステップと、前記表示部が、前記画像伸縮部が算出した画像を表示する画像表示ステップと、を備えることを特徴とする視聴者表示方法。
この視聴者表示方法は、画像伸縮ステップが会話者の視点の位置である第二視聴者基準位置に基づいて画像を生成するので、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0089】
(7) コンピュータに、第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力ステップと、前記第一視聴者と会話する第二視聴者を含む1人以上の視聴者の視点の位置である基準位置の中から前記第二視聴者の基準位置である第二視聴者基準位置を選択する基準位置選択ステップと、を実行させるための視聴者表示プログラム。
このプログラムは、第一視聴者を略正面から見た画像を生成し、視聴者の視点の位置である第二視聴者基準位置を選択するので、この第一視聴者を略正面から見た画像を表示面の正面から見た場合に見える画像を、第二視聴者基準位置から見えるように変換して表示することにより、会話者である第二視聴者は表示面に正対していない場合でも、この会話者に対して、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面から見た場合に見える自然な画像を表示することができる。
【0090】
(8) 画像を表示する表示面を有する表示部を具備するコンピュータに、視聴者の視点の位置である基準位置を、第一視聴者と会話する第二視聴者を含む1人以上の視聴者について検出する基準位置検出部ステップと、第一視聴者を略正面から見た画像に対して、前記第二視聴者の基準位置である第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮ステップと、前記画像伸縮ステップで算出した画像を前記表示部に表示する表示ステップと、を実行させるための視聴者表示プログラム。
このプログラムは、第二視聴者基準位置に正対する仮想表示面から表示面への、第二視聴者基準位置を視点とする投影を行う変換を、第一視聴者を略正面から見た画像に適用して表示するので、会話者である第二視聴者は表示面に正対していない場合でも、この会話者に対して、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0091】
なお、テレビ会議システム1〜3の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0092】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【産業上の利用可能性】
【0093】
本発明は、コミュニケーションシステムに用いて好適である。
【符号の説明】
【0094】
1〜3 テレビ会議システム
11、12、21〜23、31、32 テレビ会議端末装置
24 会話者選択装置
111、121、211〜231、311、321 撮像部
122、212、222、232、322 基準位置算出部
112、312 基準位置選択部
113、213、223、233、313 自由視点画像生成部
116、127、216、217、226、227、236、237、316、328 表示部
126、214、215、224、225、234、235、326、327 画像伸縮部
241 会話者選択部
【技術分野】
【0001】
本発明は、コミュニケーションシステムに関する。
【背景技術】
【0002】
互いに異なる地点に位置する複数の会議参加者用に互いの映像を表示するテレビ会議システムなど、映像を用いたコミュニケーションツールにおいて、会話者は表示装置に表示される者、特に相手の会話者の顔を見ながら会話を行う。ここでは、会話者とは、発言を行っている者と、その者が話しかける相手とを言う。例えばテレビ会議システムでは、発言を行っている会議参加者(以下では「発話者」ともいう)、または、この発話者が1人の会議参加者に対して話しかける場合に、その話しかける対象の会議参加者のことをいう。また、以下では、コミュニケーションシステムが表示する画像を見る者、例えばテレビ会議の参加者のことを「視聴者」ともいう。このように、会話者同士が顔を見ながら会話をすることが意思疎通を図るために重要であり、更には会話者同士の視線が一致していることがより意思疎通を深める上で重要である。
特許文献1では、第一のユーザ(会話者)が見る表示装置の表示面周辺に複数の撮像装置を備え第一のユーザの正面映像を撮像し、選択された第二のユーザに第一のユーザの正面映像を送信し、それ以外のユーザには第一のユーザの横顔画像を送信することで、第一のユーザと第二のユーザとの視線を一致させる方法が提案されている。これにより、表示装置に正対しているユーザに対しては、相手のユーザと視線が一致する画像を表示ことができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−136501号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の方法では、会話者が表示装置の表示面に正対していない場合には、会話者同士の視線が一致しない。例えば、1つの会議室に複数の視聴者が居り、1つの表示装置を各々が見る場合、表示面に会話者の正面画像が表示されると、表示面に正対した席にいる視聴者は会話者と視線が一致する画像を見ることができるが、表示面に正対していない席にいる視聴者は会話者と視線が一致しない画像を見ることになる。したがって、表示装置に正対していない席に位置する視聴者が会話を行う場合は、相手の会話者が違う方向を向いている画像を見ながら会話を行うことになる。このため、非言語コミュニケーションにおいて重要である顔を向かい合わせての会話、特に視線による意思疎通を十分に図ることができない。
【0005】
本発明は、このような事情に鑑みてなされたもので、その目的は、会話者が表示面に正対していない場合でも相手の会話者と視線が一致する画像を表示することができるコミュニケーションシステムを提供することにある。
【課題を解決するための手段】
【0006】
[1]本発明は上述した課題を解決するためになされたもので、本発明の一態様によるコミュニケーションシステムは、第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力部と、前記第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置を検出する基準位置出力部と、前記第一視聴者の画像を表示する表示面を含む表示部と、前記画像出力部から出力された画像に対して、前記第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮部と、を具備し、前記表示部は前記画像伸縮部が算出した画像を表示する、ことを特徴とする。
このコミュニケーションシステムは、画像伸縮部が会話者の視点の位置である第二視聴者基準位置に基づいて画像を生成するので、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0007】
[2]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記基準位置出力部は、視聴者の視点の位置である基準位置を、前記第二視聴者を含む1人以上の視聴者について検出する基準位置検出部と、前記基準位置検出部が検出した前記基準位置の中から前記第二視聴者基準位置を選択する基準位置選択部と、を具備することを特徴とする。
このコミュニケーションシステムは、複数の視聴者の基準位置から会話者の基準位置である第二視聴者基準位置を選択し、画像伸縮部が第二視聴者基準位置に基づいて画像を生成するので、表示部を見る視聴者が2人以上いる場合でも、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0008】
[3]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステム、かつ、通信路を介して接続された第一端末装置及び第二端末装置を有するコミュニケーションシステムであって、前記第一端末装置は、前記画像出力部と、前記基準位置選択部と、を具備し、前記第二端末装置は、前記基準位置検出部と、前記表示部と、前記画像伸縮部と、を具備することを特徴とする。
このコミュニケーションシステムは、上述のコミュニケーションシステムと同様、複数の視聴者の基準位置から会話者の基準位置である第二視聴者基準位置を選択し、画像伸縮部が第二視聴者基準位置に基づいて画像を生成するので、表示部を見る視聴者が2人以上いる場合でも、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0009】
[4]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記第二視聴者を含む1人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、を具備し、前記基準位置検出部は、前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、前記第二ステレオ画像から前記1人以上の視聴者の各々の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、を具備し、前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択する、ことを特徴とする。
このコミュニケーションシステムは、第一撮像部と自由視点画像生成部とが第一視聴者を正面(視線方向)から見た画像を出力し、第二撮像部と基準位置算出部とが基準位置を検出し、基準位置選択部が基準位置の中から第二視聴者基準位置を選択して出力するので、上述のコミュニケーションシステムと同様、表示部を見る視聴者が2人以上いる場合でも、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0010】
[5]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記表示面は少なくとも2方向に異なる画像を表示し、前記基準位置選択部は、前記第二視聴者基準位置を選択するとともに、前記第二視聴者基準位置に前記表示面が前記異なる画像を表示する方向である表示方向のいずれかを対応付け、前記表示部は、前記画像伸縮部から入力される画像を、前記第二視聴者基準位置に対応付けられた方向に表示する、ことを特徴とする。
このコミュニケーションシステムは、選択された第二視聴者基準位置の方向に対して、上述のコミュニケーションシステムと同様、会話者と視線が一致する画像を表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。
【0011】
[6]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記第二視聴者を含む1人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、を具備し、前記基準位置検出部は、前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、前記第二ステレオ画像から前記1人以上の視聴者の各々の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、を具備し、前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付ける、ことを特徴とする。
このコミュニケーションシステムは、第一撮像部と自由視点画像生成部とが第一視聴者を正面(視線方向)から見た画像を出力し、第二撮像部と基準位置算出部とが基準位置を検出し、基準位置選択部が基準位置の中から第二視聴者基準位置を選択して出力するので、上述のコミュニケーションシステムと同様、選択された第二視聴者基準位置の方向に対して、会話者と視線が一致する画像を表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。
【0012】
[7]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記表示面は少なくとも2方向に異なる画像を表示し、前記基準位置選択部は、前記表示面が前記異なる画像を表示する方向である表示方向の各々に、基準位置のいずれかを対応付け、前記画像出力部は、前記第二視聴者基準位置が対応付けられていない方向に対応付けられた基準位置に基づいて定められる位置から見た前記第一視聴者の画像を生成し、当該方向と当該画像とを対応付けて前記画像伸縮部に出力し、前記画像伸縮部は、前記入力された方向の各々について、当該方向に対応付けられた画像に対して、当該方向に対応付けられた基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記当該方向に対応付けられた基準位置を中心とする透視投影変換を行った画像を算出し、算出した画像を当該方向と対応付けて出力し、前記表示部は、前記画像伸縮部から入力される画像を、該画像に対応付けられた方向に表示する、ことを特徴とする。
このコミュニケーションシステムは、基準位置選択部が選択しない基準位置に対して、この基準位置に基づいて定められる位置から見た画像を出力する。この画像として、第二視聴者基準位置の方向を向く会話者の画像を表示することで、会話者でない視聴者に対して、会話者同士が向かい合う、より自然な画像を表示することができる。
【0013】
[8]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記第二視聴者を含む一人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記基準位置選択部が前記表示方向に対応付けた前記視点の位置のうち前記第二視聴者基準位置を除く視点の位置の各々に対して、前記表示面の中心の位置を中心とする、当該視点の位置から前記第二視聴者基準位置への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、当該視点の位置が対応付けられた表示方向と前記生成した画像とを対応付けて前記画像伸縮部に出力する自由視点画像生成部と、を具備し、前記基準位置検出部は、前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、前記第二ステレオ画像から前記1人以上の視聴者の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、を具備し、前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者の基準位置を、前記基準位置算出部が算出する基準位置の中から第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付け、前記第二視聴者基準位置に対応付けられた方向以外の表示方向の各々に、第二視聴者基準位置以外の基準位置のいずれかを、前記表示面と各基準位置との位置関係に基づいて対応付ける、ことを特徴とする。
このコミュニケーションシステムは、第二視聴者基準位置を除く視点の位置の各々に対して、第二視聴者基準位置を向く会話者の画像を表示する。したがって、会話者でない視聴者に対して、会話者同士が向かい合う、より自然な画像を表示することができる。
【0014】
[9]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステム、かつ、通信路を介して互いに接続され、第一視聴者が利用する第一端末装置と第二視聴者が利用する第二端末装置と第三視聴者が利用する第三端末装置を有するコミュニケーションシステムであって、前記第一視聴者と前記第二視聴者と第三視聴者とのうち何れか2人を会話者として選択する会話者選択部をさらに具備し、前記画像出力部は、前記会話者選択部が、前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して前記画像伸縮部に出力し、前記第一視聴者と前記第三視聴者とを選択した場合は、正面以外から見た前記第一視聴者の画像を生成して前記画像伸縮部に出力する、ことを特徴とする。
このコミュニケーションシステムは、第一視聴者と第二視聴者が会話者であるときは、上述のコミュニケーションシステムと同様、第一視聴者と視線が一致する画像を第二視聴者に表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。これにより第二視聴者は、相手の会話者と視線が一致した自然な画像を見ながら会話を行うことができる。また、第一視聴者と第三視聴者とが会話者であって第二視聴者が会話者でないときは、第一視聴者を正面以外から見た画像を第二視聴者に表示する。第三視聴者が表示された表示部の方向を向いた第一視聴者の画像を表示することにより、会話者でない第二視聴者は、会話者である第一視聴者が相手の会話者の方向を向いた、より自然な画像を見ることができる。
【0015】
[10]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステム、かつ、通信路を介して前記第一端末装置と前記第二端末装置と前記第三端末装置とに接続された会話者選択装置を有するコミュニケーションシステムであって、前記第一端末装置は、前記画像出力部を具備し、前記第二端末装置は、前記基準位置出力部と、前記表示部と、前記画像伸縮部と、を具備し、前記会話者選択装置は、前記会話者選択部を具備する、ことを特徴とする。
このコミュニケーションシステムは、上述のコミュニケーションシステムと同様、第一視聴者と第二視聴者が会話者であるときは、第一視聴者と視線が一致する画像を第二視聴者に表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。これにより第二視聴者は、相手の会話者と視線が一致した自然な画像を見ながら会話を行うことができる。また、第一視聴者と第三視聴者とが会話者であって第二視聴者が会話者でないときは、第一視聴者を正面以外から見た画像を第二視聴者に表示する。第三視聴者が表示された表示部の方向を向いた第一視聴者の画像を表示することにより、会話者でない第二視聴者は、会話者である第一視聴者が相手の会話者の方向を向いた、より自然な画像を見ることができる。
【0016】
[11]また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、第三視聴者を撮像する第三視聴者撮像部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一視聴者撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記会話者選択部が前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して出力し、前記会話者選択部が前記第一視聴者と前記第三視聴者とを選択した場合は、前記表示面の中心の位置を中心とする、前記第二表示面の中心の位置から前記基準位置出力部が出力する基準位置の方向への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、前記正面以外から見た前記第一視聴者の画像として出力する自由視点画像生成部と、を具備し、前記基準位置出力部は、前記第二視聴者を被写体とする第二ステレオ画像を撮像する第二視聴者撮像部と、前記第二ステレオ画像から前記第二視聴者の顔またはその一部の画像を検出し、前記第二視聴者基準位置を算出する基準位置算出部と、を具備し、前記会話者選択部は、前記第一撮像部が撮像した画像と前記第二視聴者撮像部が撮像した画像と前記第三視聴者撮像部が撮像した画像とから、それぞれ前記第一視聴者の口の動きの頻度と前記第二視聴者の口の動きの頻度と前記第三視聴者の口の動きの頻度とを検出し、検出した頻度に基づいて会話者を選択し、選択した会話者の画像から視線方向を検出し、検出した視線方向に基づいて相手の会話者を選択する、ことを特徴とする。
このコミュニケーションシステムは、上述のコミュニケーションシステムと同様、第一視聴者と第二視聴者が会話者であるときは、第一視聴者と視線が一致する画像を第二視聴者に表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。これにより、第二視聴者は、相手の会話者と視線が一致した自然な画像を見ながら会話を行うことができる。また、第一視聴者と第三視聴者とが会話者であって第二視聴者が会話者でないときは、第三視聴者が表示された表示部の方向を向いた第一視聴者の画像を表示するので、会話者でない第二視聴者は、会話者である第一視聴者が相手の会話者の方向を向いた、より自然な画像を見ることができる。
【発明の効果】
【0017】
本発明によれば、会話者が表示面に正対していない場合でも相手の会話者と視線が一致する画像を表示することができる。
【図面の簡単な説明】
【0018】
【図1】本発明の第1の実施形態におけるテレビ会議システム1の概略構成を示すシステム構成図である。
【図2】同実施形態におけるテレビ会議端末装置11が設置される会議室R1内の平面図である。
【図3】同実施形態におけるテレビ会議端末装置12が設置される会議室R2内の平面図である。
【図4】同実施形態におけるテレビ会議端末装置11及び12の概略構成を示す構成図である。
【図5】同実施形態における表示部116を表示面に対して直角方向手前から見た正面図である。
【図6】同実施形態における表示部127を表示面に対して直角方向手前から見た正面図である。
【図7】同実施形態において基準位置算出部122が算出する基準位置の相対座標を示す図である。
【図8】同実施形態において基準位置算出部122が基準位置選択部112に入力するデータのデータ構成を示すデータ構成図である。
【図9】同実施形態において視聴者P11が表示部116上の視聴者P24の画像を見る視線を示す図である。
【図10】同実施形態において基準位置選択部112が画像伸縮部126に入力する基準位置の情報のデータ構成を示すデータ構成図である。
【図11】同実施形態において自由視点画像生成部113が表示部116の表示面の中央正面から撮像した場合の画像を生成する処理手順を示すフローチャートである。
【図12】同実施形態において画像伸縮部126が行う画像の伸縮を示す図である。
【図13】同実施形態において画像伸縮部126が画像の伸縮を行う処理手順を示すフローチャートである。
【図14】同実施形態において自由視点画像生成部113が出力する画像および画像伸縮部126が画像の伸縮を行った画像の例を示す図である。
【図15】本発明の第2の実施形態におけるテレビ会議システム2の概略構成を示すシステム構成図である。
【図16】同実施形態において、各表示部が表示する画面の例を示す図である。
【図17】同実施形態において、会話者選択部241が会話者を選択する処理手順を示すフローチャートである。
【図18】同実施形態において、会話者選択部241が自由視点画像生成部213と223と233とに入力するデータのデータ構成図である。
【図19】同実施形態において視聴者P31が会話者でないと判断した場合に、自由視点画像生成部223及び自由視点画像生成部233が撮像位置を回転させる角度を示す図である。
【図20】同実施形態において自由視点画像生成部223及び233が生成する画像の撮像位置を示す図である。
【図21】同実施形態において画像伸縮部214及び215が行う画像の伸縮を示す図である。
【図22】本発明の第3の実施形態におけるテレビ会議システム3の概略構成を示すシステム構成図である。
【図23】同実施形態において表示部328が表示する画像の例を示す図である。
【図24】同実施形態において表示部316が表示する画像の例を示す図である。
【図25】同実施形態において基準位置選択部312が自由視点画像生成部313に入力するデータの構成を示すデータ構成図である。
【図26】同実施形態において、視聴者P51が会話者であると判断した場合に、自由視点画像生成部313が撮像位置を回転させる角度を示す図である。
【発明を実施するための形態】
【0019】
<第1の実施形態>
以下、図面を参照して、本発明の実施の形態について説明する。以下では、コミュニケーションシステムの一例としてテレビ会議システムに本発明を適用した場合について説明するが、本発明の適用範囲はテレビ会議システムに限らない。なお、ここでいうコミュニケーションシステムとは、コミュニケーションの当事者の画像を相手当事者に表示するシステムであり、例えば、テレビ会議システムや、インフォメーションディスプレイに案内係の画像を表示して情報提供を行うインフォメーションシステムや、ディスプレイに教師の画像を表示して授業を行う教育システム等がある。
【0020】
図1は、本発明の第1の実施形態におけるテレビ会議システム1の概略構成を示すシステム構成図である。同図において、テレビ会議システム1は、通信ネットワーク13によって互いに接続されるテレビ会議端末装置(第一端末装置)11とテレビ会議端末装置(第二端末装置)12とを含んで構成される。テレビ会議端末装置11で撮像された画像及び採音された音声は、送信装置により通信ネットワーク13を介してテレビ会議端末装置12に送られ、そこの受信装置を介して表示部により画像及び音声が再現・表示される。また、テレビ会議端末装置12で撮像された画像及び採音された音声は、送信装置により通信ネットワーク13を介してテレビ会議端末装置11に送られ、そこの受信装置を介して表示部により画像及び音声が再現・表示される。
【0021】
図2は、テレビ会議端末装置11が設置される会議室R1内の平面図である。後述するように、テレビ会議端末装置11は撮像装置111−1及び111−2と表示部(第二表示部)116とを含んで構成される。同図において、会議室R1内には撮像装置111−1及び111−2と表示部116と机T1とが配置され、視聴者(第一視聴者)P11が居る。なお、テレビ会議端末装置11を構成する他の部分の配置については図示を省略する。これらは会議室R1内に配置されていてもよいし、会議室R1外に配置されていてもよい。あるいは、表示部116の筐体内に組み込まれていてもよい。
【0022】
図3は、テレビ会議端末装置12が設置される会議室R2内の平面図である。後述するように、テレビ会議端末装置12は撮像装置121−1及び121−2と表示部127とを含んで構成される。同図において、会議室R2には撮像装置121−1及び121−2と表示部127と机T2とが配置され、視聴者P21とP22とP23とP24とP25とが居る。なお、テレビ会議端末装置12を構成する他の部分の配置については図示を省略する。これらは会議室R2内に配置されていてもよいし、会議室R2外に配置されていてもよい。あるいは、表示部127の筐体内に組み込まれていてもよい。
【0023】
図4は、テレビ会議端末装置11及び12の概略構成並びにそれらの間の通信ネットワーク(図1)を介する接続関係を示す構成図である。同図において、テレビ会議システム1は、テレビ会議端末装置11とテレビ会議端末装置12とを含んで構成される。テレビ会議端末装置11は、撮像部(第一撮像部)111と基準位置選択部112と自由視点画像生成部113と表示部116とを含んで構成される。撮像部(第一撮像部)111は撮像装置111−1及び111−2を含んで構成される。テレビ会議端末装置12は、撮像部(第二撮像部)121と基準位置算出部122と画像伸縮部126と表示部127とを含んで構成される。撮像部121は撮像装置121−1及び111−2を含んで構成される。なお、撮像部111が3個以上の撮像装置を備えるようにしてもよい。同様に、撮像部121が3個以上の撮像装置を備えるようにしてもよい。撮像部121または撮像部131が備える撮像装置の数を増やし、被写体である視聴者の広い範囲を撮像することにより、後述する視聴者の画像を生成する際に、様々な向きの画像を生成することができる。また、生成する画像の向きに近い方向から撮像した画像を用いることにより、後述する視聴者の画像を生成する際に、より精度の高い3次元座標データを算出し、より精度の高い画像を生成することができる。
【0024】
撮像部121と基準位置算出部122とが本発明の基準位置検出部123に対応し、視聴者の視点の位置(以下、基準位置ともいう)を、会話者である第二視聴者を含む1人以上の視聴者について検出する。本実施形態においては、撮像部121が撮像する画像を用いて、基準位置算出部122が基準位置を算出することにより、基準位置検出部123は、基準位置を検出する。なお、基準位置検出部が基準位置を検出する方法は、前述の方法に限らない。例えば、基準位置検出部が基準位置算出部から構成され、後述するように基準位置算出部が位置センサを用いて基準位置を求めることによって、基準位置検出部が基準位置を検出するなど、他の方法を用いてもよい。
【0025】
また、この基準位置検出部123と基準位置選択部112とが本発明の基準位置出力部に対応し、会話者である第二視聴者の基準位置(以下では、第二視聴者基準位置ともいう)を出力する。本実施形態では、基準位置検出部123が検出した基準位置の中から、基準位置選択部112が会話者である第二視聴者の基準位置を選択することにより、基準位置出力部は、第二視聴者基準位置を検出する。
また、撮像部111と自由視点画像生成部113とが本発明の画像出力部114に対応し、第一視聴者を撮像して、第一視聴者を正面から見た画像(以下では、正面画像ともいう)を出力する。本実施形態では、撮像部111が撮像する画像を用いて、自由視点画像生成部113が視聴者P11(第一視聴者)の正面画像を生成し、生成した正面画像を出力することによって、画像出力部114が正面画像を出力する。なお、画像出力部が正面画像を出力する方法は、前述の方法に限らない。例えば、画像出力部が撮像装置から構成され、後述するように、ハーフミラーを使用する既存の方法により、撮像装置が表示部116の表示面の中央正面からの画像を撮像することにより、画像出力部が正面画像を出力するなど、他の方法を用いてもよい。
なお、画像出力部114が出力する画像は、第一視聴者を真正面から見た画像でなくともよく、視聴者が見て違和感を感じない程度であれば、真正面からずれた位置から見た画像であってもよい。
【0026】
撮像装置111−1と111−2と121−1と121−2とは、CCD(Charge Coupled Device;電荷結合素子)とレンズとを含んで構成され、動画像を撮像するカメラである。なお、撮像装置111−1又は111−2又は121−1又は121−2が撮像素子として、CCDに換えてCMOS(Complementary Metal Oxide Semiconductor;相補性金属酸化膜半導体)等の固体撮像デバイスを含んで構成されるようにしてもよい。また、表示部116が撮像装置111−1又は111−2としてカメラモジュールを内蔵するようにしてもよいし、表示部127が撮像装置121−1又は121−2としてカメラモジュールを内蔵するようにしてもよい。
【0027】
表示部116及び127は、液晶パネルの表示面を含んで構成され、表示面に動画像等の画像を表示する。なお、表示部116及び127が、プラズマディスプレイパネルなど液晶パネル以外の表示面を含むようにしてもよい。
自由視点画像生成部113は、撮像部111が撮像した画像に基づいて、正面画像を生成する。
基準位置算出部122は、撮像部121が撮像した画像に基づいて、視聴者の両目の中央を結ぶ線の中心位置を基準位置として算出する。基準位置選択部112は、基準位置算出部122が算出した基準位置の中から、会話者の基準位置を選択する。以下では、選択される会話者を第二視聴者ともいい、第二視聴者の基準位置を第二視聴者基準位置ともいう。
画像伸縮部126は、会話者(第二視聴者)が表示部127に対して斜めに位置する場合に、表示部127に表示すると、画像中の視聴者がこの会話者の位置からは正面から見たように見えるよう、画像の伸縮を行う。
【0028】
図5は、表示部116を表示面に対して直角方向手前から見た正面図である。表示部116には、視聴者P21〜P25を含む画像が表示される。表示部116の上部左右の端部に撮像装置111−1及び111−2が設置されている。
【0029】
図6は、表示部127を表示面に対して直角方向手前から見た正面図である。表示部127には、視聴者P11を含む画像が表示される。表示部127の上部左右の端部に撮像装置121−1及び121−2が設置されている。
【0030】
次に、テレビ会議システム1の動作について説明する。
撮像部121は視聴者P21〜P25を含むステレオ画像(第二ステレオ画像)を撮像する。ここで、ステレオ画像とは、被写体を異なる角度から同時に撮像した複数の画像をいう。撮像部121は、被写体である視聴者P21〜P25を、撮像部121−1と撮像部121−2とで同時に撮像することにより、ステレオ画像を撮像する。撮像部121は、撮像した画像を基準位置算出部122に入力し、また、通信ネットワーク13(図1)を介して表示部116に入力する。表示部116は、撮像部121から受ける画像のうち、撮像装置121−1が撮像した画像を表示する。なお、撮像部121と表示部116との間に自由視点画像生成部を設け、表示部127の表示面中央から撮像した場合の画像をこの自由視点画像生成部が生成するようにしてもよい。この場合、表示部116は、表示部127の表示面中央から撮像した場合の画像を表示する。これにより、視聴者P21〜P25のうちの会話者が表示部127を注視する場合に、視聴者P11は、この会話者と視線が一致した画像を見ながら会話を行うことができる。この自由視点画像生成部は、後述する自由視点画像生成部113と同様に、ステレオマッチング法を用いて3次元モデルを生成することにより、表示部127の表示面中央から撮像した場合の画像を生成する。
基準位置算出部122は、撮像部121から受ける画像に基づいて、視聴者P21〜P25の基準位置を算出する。基準位置算出部122は、表示部127の表示面中央に対する各基準位置の相対座標を算出する。そして、基準位置算出部122は、算出した各基準位置を基準位置選択部112に、通信ネットワーク13(図1)を介して出力する。
【0031】
図7は基準位置算出部122が算出する基準位置の相対座標を示す図である。同図には、視聴者P24の基準位置Pが示されている。図7(a)のように、基準位置算出部122は、表示部127の表示面中央を原点O(0、0、0)とする。また、基準位置算出部122は、原点Oから表示部127の表示面に垂直に伸びる直線をz軸とし、表示部127の表示面正面の向きをz軸の正の向きとする。また、表示部127の表示面は横長の長方形であり、基準位置算出部122は、原点Oを通り表示面の長辺と平行な直線をx軸とし、正面から見て右向きをx軸の正の向きとする。また、基準位置算出部122は、原点Oを通り表示面の短辺と平行な直線をy軸とし、上向きをy軸の正の向きとする。基準位置算出部122は、視聴者P24の基準位置Pの座標(xp、yp、zp)を算出する。基準位置算出部122は、他の視聴者についても同様に基準位置を算出する。
【0032】
基準位置算出部122は、撮像装置121−1及び121−2の画角と表示部127に対する相対的な位置及び方向を内部の記憶部(不図示)に記憶している。そして、基準位置算出部122は、撮像装置121−1及び121−2が撮像した画像を用いて、ステレオマッチング法にて各視聴者の基準位置の座標を算出する。
具体的には、基準位置算出部122は、まず、肌の色および顔形状のパターンマッチングにて撮像装置121−1が撮像した画像と撮像装置121−2が撮像した画像とに対して顔検出を行う。複数の顔の画像が検出される場合は、基準位置算出部122は、両画像間でのずれ量が最も少ない顔の画像同士を同一の顔の画像と判断する。以下、複数の目の対応付け等も同様である。そして、基準位置算出部122は、黒目の色及び形状や眉毛の色及び形状に基づいて、検出した各顔の中からさらに両目を検出する。基準位置算出部122は検出した両目の各々の中心について、両画像間における注目点のずれ量と各カメラの位置関係に基づいて、三角測量にて三次元座標を算出する。さらに、基準位置算出部122は、両目の各々の三次元座標から両目を結ぶ線分の中心の三次元座標を算出し、この三次元座標を基準位置の座標とする。
【0033】
なお、基準位置算出部122が、目頭の形状に基づくパターンマッチングにて目頭を検出し、両目頭を結ぶ直線の中点を基準位置とするなど、顔またはその一部の画像を検出して、基準位置を算出するようにしてもよい。
なお、基準位置算出部122が基準位置を算出する方法は、上述のステレオマッチングによる方法に限らない。例えば、位置検出センサを用いて視聴者P21〜P25の位置を検出し、検出した位置の中心を基準位置として近似的に求めるなど、他の方法を用いて基準位置を算出するようにしてもよい。
また、基準位置算出部122が基準位置Pの座標を図7(b)に示す極座標形式で算出するなど、上記以外の座標の形式で算出するようにしてもよい。例えば、基準位置算出部122は、同図(b)のように、同図(a)の原点Oを原点とし、原点Oから基準位置Pまでの距離をrとする。また、基準位置算出部122は、原点Oを中心としてz軸から点(xp,0,zp)までの角度をφとし、y軸の正の向きから見て左回り方向をφの正の角度とする。また、基準位置算出部122は、原点Oを中心として点(xp,0,zp)から点Pまでの角度をθとし、点(xp,0,zp)からy軸の正の側へ回転する側を正の角度とする。基準位置算出部122は、基準位置Pの座標(r,φ,θ)を算出する。
【0034】
基準位置算出部122は、上記の顔検出において検出したそれぞれの顔が画像中に占める領域を算出し、各顔検出に基づいて得られる基準位置と対応付けて基準位置選択部112に出力する。
図8は基準位置算出部122が基準位置選択部112に出力するデータのデータ構成を示すデータ構成図である。
同図において、基準位置算出部122が基準位置選択部112に出力するデータは視聴者の人数分の基準位置の情報と各視聴者の顔が画像中に占める領域を表す情報とを含んで構成される。
基準位置の情報は視聴者の基準位置の座標を示す情報である。表示部上の座標の情報は、視聴者の顔が画像中に占める領域の座標を示す情報である。基準位置算出部122は、視聴者の顔が画像中に占める領域のx座標の最小値および最大値とy座標の最小値および最大値とを出力する。なお、基準位置算出部122が、視聴者の顔が画像中に占める領域を表す情報は、x座標の最小値および最大値とy座標の最小値および最大値に限らない。例えば、基準位置算出部122が視聴者の顔を楕円で近似して中心点の座標と長軸及び短軸の長さを、顔が画像中に占める領域を表す情報としてもよい。あるいは、基準位置算出部122が視聴者の顔を四角形より角数の多い多角形の位置で近似した各頂点の座標を、顔が画像中に占める領域を表す情報としてもよい。
また、同図の、基準位置のデータの単位はミリメートルであり、表示部上の座標の単位はピクセルである。なお、基準位置のデータの単位はミリメートルに限らず、例えばインチなど長さを表す他の単位を用いてもよい。また、表示部上の座標の単位はピクセルに限らず、例えば、表示面の水平方向の辺の長さを1とし、これに対する表示面左端からの相対的な長さで水平方向の座標を表すなど、他の単位を用いてもよい。
【0035】
撮像部111は、視聴者P11の画像を撮像し、基準位置選択部112と自由視点画像生成部113とに入力する。撮像部111は、撮像装置111−1と撮像装置111−2とを用いて、視聴者P11のステレオ画像(第一ステレオ画像)を撮像する。基準位置選択部112は、基準位置算出部122から通信ネットワーク13(図1)を介して受ける基準位置の中から、会話者に対応する1個の基準位置を選択して画像伸縮部126に出力する。基準位置選択部112は、撮像部111から受ける画像から、視聴者P11の視線方向を検出し、視聴者P11が注目している視聴者を会話者と判断し、この会話者に対応する基準位置を選択する。
具体的には、基準位置選択部112は、まず、撮像部111が撮像した画像から視聴者P11の顔を検出し、検出した顔の中から目を検出する。基準位置選択部112は、検出した顔の方向及び目の位置から視聴者P11の視線方向を検出する。顔の方向は、例えば左右の目の面積の大小より判別する。基準位置選択部112は、検出した視線方向と表示部116の表示面との交点を、視聴者P11が注目する表示部116上の点として検出する。そして、基準位置選択部112は、基準位置算出部122から受ける、視聴者P21〜P25のそれぞれの顔が画像中に占める領域の情報の中から、視聴者P11が注目する表示部116上の点を含む領域の情報を選択することにより、視聴者P11が注目する視聴者を会話者として選択する。基準位置選択部112は、選択した領域の情報に対応付けられた基準位置を、会話者に対応する基準位置として画像伸縮部126に、通信ネットワーク13を介して出力する。
【0036】
図9は、視聴者P11が表示部116上の視聴者P24の画像を見る視線を示す図である。同図において、表示部116には視聴者P21〜P25の画像が表示されており、視聴者P11は、視聴者P24を見ている。この視聴者P11を、表示部116に設置された撮像装置111−1及び111−2が撮像する。基準位置選択部112は撮像装置111−1及び111−2が撮像する画像を用いて上記のように視聴者P11の視線方向を検出して基準位置を選択する。
【0037】
図10は、基準位置選択部112が画像伸縮部126に出力する基準位置の情報のデータ構成を示すデータ構成図である。同図において、基準位置選択部112が画像伸縮部126に出力する基準位置の情報は、1個の基準位置の座標を含んで構成される。後述するように、画像伸縮部126は撮像部111から受ける画像をこの基準位置に基づいて伸縮する。
なお、基準位置選択部112が会話者に対応する1個の基準位置を選択する方法は、上記に示した視線を検出する方法に限らない。例えば、表示部116がタッチパネルになっており、視聴者P11が表示部116上の視聴者が表示されている位置に触れることで相手の会話者を選択するようにしてもよい。基準位置選択部112は、選択された視聴者に対応する基準位置を選択する。あるいは、基準位置選択部112が表示部116上にカーソルを表示し、視聴者P11がリモートコントローラ等によりそのカーソル位置を操作して相手の会話者を選択すると、基準位置選択部112が選択された会話者に対応する基準位置を選択するようにしてもよい。また、視聴者P21〜P25のいずれかが視聴者P11に話しかける場合に、基準位置選択部112が音声認識あるいは口の動きの検出によって発言している視聴者を特定し、特定した視聴者を会話者として選択するようにしてもよい。あるいは、視聴者P21〜P25の各々用のマイクを設け、基準位置選択部112は視聴者が発言のためにマイクのスイッチを入れたことを検出して会話者を選択するようにしてもよい。
【0038】
自由視点画像生成部113は、撮像部111が撮像した画像に基づいて、表示部116の表示面の中央正面から撮像した場合の画像を生成する。自由視点画像生成部113は、複数の画像から任意視点の画像を生成する既存の方法を用いて、画像を生成する。
具体的には、自由視点画像生成部113は、撮像装置111−1が撮像した画像および撮像装置111−2が撮像した画像を用いて、ステレオマッチング法によって視聴者P11上の各点(以下、注目点ともいう)の三次元座標を算出する。この際、自由視点画像生成部113は、撮像装置111−1が撮像した画像上に注目点を設定し、撮像装置111−2が撮像した画像上で、この注目点に相当する点(以下、対応点ともいう)を以下の方法により決定する。まず、自由視点画像生成部113は、撮像装置111−1と111−2との位置関係に基づき、撮像装置111−2が撮像した画像上に、対応点の検索範囲を設定する。自由視点画像生成部113は、検索範囲内の各画素について、その画素及びその周辺の画素と、注目点及びその周辺の画素とを対応付け、対応付けた各画素の明るさの差の合計を算出する。自由視点画像生成部113は、検索範囲内の各画素のうち、明るさの差の合計が最小となる点を、対応点とする。なお、自由視点画像生成部113が、画像から濃淡エッジ等の特徴を抽出するなど、他の方法を用いて注目点と対応点とを決定するようにしてもよい。
自由視点画像生成部113は、この注目点の三次元座標をステレオマッチング法によって算出する。
【0039】
次に、自由視点画像生成部113は算出した三次元座標に基づいて視聴者P11の三次元モデルを構築する。また、自由視点画像生成部113は、基準位置選択部112と同様に、視聴者P11の視線方向を検出する。自由視点画像生成部113は、構築した三次元モデルを元に、視聴者P11の視線方向から見た視聴者P11の画像を生成する。その際、自由視点画像生成部113は、視聴者P11の基準位置を画像の中央に合わせて画像を生成する。自由視点画像生成部113は、生成した画像を画像伸縮部126に、通信ネットワーク13(図1)を介して入力する。
【0040】
図11は自由視点画像生成部113が視聴者P11の視線方向から見た視聴者P11の画像を生成する処理手順を示すフローチャートである。自由視点画像生成部113は、テレビ会議端末装置11が起動すると、視聴者P11の視線方向から見た視聴者P11の画像を生成する処理を開始する。
ステップS1において、自由視点画像生成部113は、撮像部111から画像が入力されたか否かを判断する。例えば、撮像部111は、自由視点画像生成部113に所定のヘッダを持つフレームデータの形式で画像を入力し、自由視点画像生成部113は、このヘッダを検出すると画像が入力されたと判断する。画像が入力されたと判断した場合(ステップS1:YES)はステップS2に移り、入力されていないと判断した場合(ステップS1:NO)はステップS1を繰り返す。
ステップS2〜S4において、自由視点画像生成部113はステレオマッチング法によって視聴者P11の各部の位置を算出する。ステップS2において、自由視点画像生成部113は、撮像部111から受ける、撮像装置111−1と111−2とのそれぞれが撮像した画像に共通する注目点を抽出する。自由視点画像生成部113は視聴者P11の画像上の点を含む注目点を抽出する。ステップS3において、自由視点画像生成部113は、各注目点について、撮像装置111−1が撮像した画像と撮像装置111−2が撮像した画像との視差を算出する。ステップS4において、自由視点画像生成部113は、算出した視差に基づき三角測量を用いて各注目点の三次元座標を算出する。
【0041】
ステップS5において、自由視点画像生成部113は算出した三次元画像に基づいて視聴者P11の三次元モデルを生成する。ステップS6において、自由視点画像生成部113は、生成した三次元モデルの表面に質感を与えるための公知のテキスチャマッピングを行う。ステップS7において、自由視点画像生成部113は、視聴者P11の視線方向を検出する。ステップS8において、自由視点画像生成部113は、テキスチャマッピングを行った三次元モデルに基づいて、視聴者P11の視線方向から撮像した場合の画像を生成する。ステップS9において、自由視点画像生成部113は生成した画像を画像伸縮部126に入力する。その後ステップS1に移る。
【0042】
なお、基準位置選択部112が自由視点画像生成部113に、視聴者P11が注目する表示部116上の点の座標を入力し、自由視点画像生成部113がこの点から視聴者P11を撮像した画像を生成するようにしてもよい。これにより、自由視点画像生成部113が視聴者P11の視線方向を検出する処理を削減することができる。あるいは、自由視点画像生成部113が表示部116の表示面中央から見た画像を生成するようにしてもよい。これにより、視聴者P11が表示面中央付近を注目している場合には、自由視点画像生成部113は視聴者P11の視線方向から見た画像を生成することが出来る。
なお、ハーフミラーを使用する既存の方法により、撮像装置が表示面の中央正面からの画像を撮像するようにしてもよい。例えば、表示部116は表示面にハーフミラーを備える。このハーフミラーは表示面の下方向に設置された投影部が投影する画像を表示面の正面方向に反射する。これにより表示部116は表示面に画像を表示する。また、表示部116は表示面の中央かつハーフミラーの後ろに撮像装置を備え、この撮像装置は表示面の中央正面からの画像を撮像する。これにより、この撮像装置は、視聴者P11が表示面を見ている場合には、その正面から画像を撮像する。なお、このハーフミラーを使用する既存の方法による場合は、テレビ会議システム1は自由視点画像生成部113を具備しなくてもよい。
【0043】
画像伸縮部126は、表示部127の表示面に正対した場合の画像が会話者である視聴者の位置から見えるよう、自由視点画像生成部113から受ける画像を伸縮する。まず、画像伸縮部126は、基準位置選択部112から受ける基準位置(xp,yp,zp)に基づいて、図7(b)に示した原点Oと基準位置Pとの間の距離rと、x軸回りの角度θと、y軸回りの角度φとを算出する。画像伸縮部126は、x軸の正の側から見て右回りを正の角度として角度θを算出し、y軸の正の側から見て左回りを正の角度として角度φを算出する。
画像伸縮部126は、式(1)に基づいてrとθとφとを算出する。基準位置Pは原点Oに対し、距離rで、鉛直方向にθ、水平方向にφ回転した位置にある。
【0044】
【数1】
【0045】
次に、画像伸縮部126は、自由視点画像生成部113から受ける画像を伸縮する。
図12は、画像伸縮部126が行う画像の伸縮を示す図である。同図は、表示部127を上から見た平面図であり、原点Oとx軸とz軸と角度φと基準位置Pとは図7のものと同様である。また、仮想表示面127’は直線OPに垂直な平面である。図12は基準位置Pと原点Oとのy方向のずれがない場合を示し、仮想表示面127’は直線で示されている。点Qは仮想表示面127’上の1点であり、直線lは点Q及び点Pを通る直線である。点Rは直線lと表示部127の表示面との交点である。
画像伸縮部126は、表示部127の表示面中央と基準位置Pとの距離r及び角度φ及び表示部127の表示面の大きさに基づいて、基準位置Pから表示部127を見た場合の表示部127の視野角αを算出する。
【0046】
つぎに、画像伸縮部126は、原点Oを含み、直線OPに垂直な仮想表示面127’の形状を算出する。仮想表示面127’は、基準位置Pから見た場合に表示部127の表示面と視野角が一致する表示面である。
画像伸縮部126は、表示部127の表示面の各辺の長さと仮想表示面127’の各辺の長さとを比較して、仮想表示面127’の各辺のうち、表示部127の表示面に対して最も拡大される辺を判定する。図12の場合、画像伸縮部126は、y軸に平行な辺のうちのx座標値が正の側の辺が表示部127の表示面に対して最も拡大される辺であると判定する。
画像伸縮部126は、判定した最も拡大される辺の拡大率に従って、自由視点画像生成部113から受ける画像を縦横比を保って拡大する。画像伸縮部126は、原点Oと拡大した画像の中心とを一致させ、かつ、仮想表示面127’の最も拡大される辺と拡大した画像中の対応する辺との方向を一致させて、拡大した画像を仮想表示面127’に対応付け、この対応付けた画像に対して、仮想表示面127’から表示部127の表示面への、基準位置Pを中心とする透過投影変換を行った画像を生成する。具体的には、画像伸縮部126は、自由視点画像生成部113から受ける画像の各画素(ピクセル)について、上記の対応付けによって仮想表示面127’上で対応付けられる位置を算出する。さらに、画像伸縮部126は、自由視点画像生成部113から受ける画像の各画素について、下記の写像によって表示部127の表示面上に対応付けられる位置を算出する。画像伸縮部126は、自由視点画像生成部113から受ける画像の各画素が表示部127の表示面上に対応付けられる位置に基づいて、自由視点画像生成部113の画素と表示部127の画素との対応付けを行う。画像伸縮部126は、この画素の対応付けに基づいて表示部127が表示する画像を生成し、表示部127に入力する。
【0047】
同図の場合、仮想表示面127’は原点Oを通り、表示部127の表示面に対して角度φ傾いている。したがって、仮想表示面127’は図中のxz平面内において式(2)で表される直線となる。
【0048】
【数2】
【0049】
また、仮想表示面上の点Q(q,−q(tanφ))と点P(r(sinφ),r(cosφ))とを結ぶ直線は、式(3)で表される。
【0050】
【数3】
【0051】
この直線と表示部127の表示面との交点が、投影すべき点となる。その交点は、(2)式とz=0との交点なので、投影点Rは、R(rq/(r(cos2φ)+q(sinφ)),0)となる。
画像伸縮部126は、点Q(q,−q(tanφ))から点R(rq/(r(cos2φ)+q(sinφ)),0)への画像の投影により、自由視点画像生成部113から受ける画像を伸縮する。具体的には、自由視点画像生成部113から受ける画像中の、上記によって点Qに対応付けられる画素の画素値を、点Rに対応付けられる表示部127上の画素値として表示部127に入力する。
以上が2次元(y=0)の場合の処理である。3次元の場合も同様に、画像伸縮部126は、仮想表示面127’から表示部127の表示面に画像を投影した場合の画像を生成する。
【0052】
図13は画像伸縮部126が画像の伸縮を行う処理手順を示すフローチャートである。画像伸縮部126はテレビ会議端末装置12が起動すると、画像の伸縮を行う処理を開始する。
ステップS21において、画像伸縮部126は自由視点画像生成部113から画像が入力されたか否かを判断する。画像が入力されたと判断した場合(ステップS21:YES)はステップS22に移る。画像が入力されていないと判断した場合(ステップS21:NO)はステップS21を繰り返す。
ステップS22において、画像伸縮部126は基準位置Pから見た場合の画像表示部127の表示面の視野角を算出する。ステップS23において、画像伸縮部126は、仮想表示面127’の外形を算出する。ステップS24において、画像伸縮部126は算出した仮想表示面127’の外形に基づいて、自由視点画像生成部113から受ける画像を拡大する。
ステップS25において、画像伸縮部126は、仮想表示面127’から表示部127へ、基準位置Pを中心として投影した場合の画像を生成する。ステップS26において、画像伸縮部126は、生成した画像を表示部127に入力する。
【0053】
図14は、自由視点画像生成部113が出力する画像および画像伸縮部126が画像の伸縮を行った画像の例を示す図である。
自由視点画像生成部113は、図14(a)のように視聴者P11を正面から見た画像を画像伸縮部126に入力する。画像伸縮部126が画像の伸縮を行い表示部127が表示する画像を表示部127の正面から見ると、図14(b)のように視聴者P11を正面から見た画像が変形されて見える。これを、会話者である視聴者の位置から見ると、図14(c)のように視聴者P11を正面から見た画像が見える。同図は、図12で説明したように画像伸縮部126が会話者である視聴者の基準位置に基づいて算出した画像を、画面に向かっての右側にある基準位置から見た図である。このため、表示面の右側の辺が、左側の辺よりも長く見えている。
図14(c)のように、会話者である視聴者の位置からは、視聴者P11を正面から見た画像が見えるので、会話者である視聴者は、相手の会話者である視聴者P11と視線が一致した画像を見ながら会話を行うことができる。
【0054】
以上のように、テレビ会議システム1では、自由視点画像生成部が正面画像を生成し、画像伸縮部126が、この正面画像を、第二視聴者視点位置から見ると視聴者P11を正面から見た画像が見えるように変換する。したがって、第二視聴者基準位置から表示部127を見る会話者は、相手の会話者である視聴者P11と視線が一致した画像を見ながら会話を行うことができる。また、会話者は、表示部127を斜めから見た場合に見える視聴者P11が縦長に変形された画像ではなく、表示部127を正面から見た場合に見える自然な画像を見ながら会話を行うことができる。
なお、テレビ会議システム1における各部の配置は図4のものに限らず、基準位置選択部112と自由視点画像生成部113と基準位置算出部122と画像伸縮部126とは、テレビ会議端末装置11とテレビ会議端末装置12とのいずれに含まれていてもよいし、テレビ会議端末装置11とテレビ会議端末装置12とは別の装置に含まれていてもよい。
例えば、基準位置算出部122が、テレビ会議端末装置11に含まれ、通信ネットワークを介して撮像部121から画像を受けるようにしてもよい。
【0055】
<第2の実施形態>
図15は、本発明の第2の実施形態におけるテレビ会議システム2の概略構成を示すシステム構成図である。同図において、テレビ会議システム2は、テレビ会議端末装置(第一端末装置)21とテレビ会議端末装置(第二端末装置)22とテレビ会議端末装置(第三端末装置)23と会話者選択装置24とを含んで構成される。テレビ会議端末装置21とテレビ会議端末装置22とテレビ会議端末装置23と会話者選択装置24とは、通信ネットワークによって互いに接続されている。テレビ会議端末装置21は、撮像部(第一視聴者撮像部)211と基準位置算出部212と自由視点画像生成部213と画像伸縮部214及び215と表示部216及び217とを含んで構成される。テレビ会議端末装置22は、撮像部(第二視聴者撮像部)221と基準位置算出部222と自由視点画像生成部223と画像伸縮部224及び225と表示部226及び227とを含んで構成される。テレビ会議端末装置23は、撮像部(第三視聴者撮像部)231と基準位置算出部232と自由視点画像生成部233と画像伸縮部(第一画像伸縮部)234と画像伸縮部(第二画像伸縮部)235と表示部(第一表示部)236と表示部(第二表示部)237とを含んで構成される。会話者選択装置24は会話者選択部241を含んで構成される。撮像部211は撮像装置211−1及び211−2を含んで構成される。撮像部221は撮像装置221−1及び221−2を含んで構成される。撮像部231は撮像装置231−1及び231−2を含んで構成される。
【0056】
撮像部221と基準位置算出部222とが本発明の基準位置出力部に対応し、基準位置出力部は、会話者の基準位置である第二視聴者基準位置を出力する。本実施形態では、撮像部221が会話者である第二視聴者を撮像し、この画像を用いて基準位置算出部222が第二視聴者の基準位置を算出することにより、基準位置出力部が第二視聴者基準位置を検出して出力する。
また、撮像部211と自由視点画像生成部213とが本発明の画像出力部に対応し、後述する第一視聴者を撮像して、正面画像を出力する。本実施形態では、撮像部211が撮像する画像を用いて自由視点画像生成部213が正面画像を生成し、生成した正面画像を出力することによって、画像出力部が正面画像を出力する。なお、画像出力部が正面画像を出力する方法は、前述の方法に限らず、テレビ会議システム1の場合と同様の方法など、他の方法を用いるようにしてもよい。
【0057】
撮像装置211−1と211−2と221−1と221−2と231−1と231−2とは、図1の撮像装置111−1等と同様である。
基準位置算出部212と222と232とは、図1の基準位置算出部122と同様に、基準位置を算出する。ただし、テレビ会議システム2において、1個のテレビ会議端末装置を一人の視聴者が使用する場合は、基準位置算出部212と222と232とは、各々1個の基準位置を算出する。1個のテレビ会議端末装置を複数の視聴者が使用する場合については後述する。
自由視点画像生成部213は、撮像部211が撮像した画像に基づいて、視聴者の視線方向から見た視聴者の画像を生成する。加えて、自由視点画像生成部213は、視聴者の視線方向から移動した位置から見た視聴者の画像を生成する。詳細については後述する。自由視点画像生成部223及び233も自由視点画像生成部213と同様である。
画像伸縮部214は、図1の画像伸縮部126と同様に、表示部216に表示する画像を伸縮する。画像伸縮部215と224と225と234と235とも画像伸縮部214と同様である。
表示部216と217と226と227と236と237とは、図1の表示部127と同様である。
会話者選択部241は、撮像部211と221と231とから入力される画像に基づいて、会話者を選択する。詳細については後述する。
【0058】
図16は、各表示部が表示する画面の例を示す図である。
同図(a)において会議室R21に設置された表示部216と217とを視聴者P31(第一視聴者)が見ている。表示部216には視聴者P32(第二視聴者)が表示され、表示部217には視聴者P33(第三視聴者)が表示されている。同図(b)において会議室R22に設置された表示部226と227とを視聴者P32が見ている。表示部226には視聴者P33が表示され、表示部227には視聴者P31が表示されている。同図(c)において会議室R23に設置された表示部236と237とを視聴者P33が見ている。表示部236には視聴者P31が表示され、表示部237には視聴者P32が表示されている。
また、同図は視聴者P32とP33とが会話者である場合の例である。同図(a)において、表示部216と217とには、それぞれ視聴者P32とP33とが互いに向き合うように表示される。一方、同図(b)の表示部226には、第1の実施形態と同様、会話者P33の画像が会話者P32と視線が一致するように表示される。同様に、同図(c)の表示部237には、会話者P32の画像が会話者P33と視線が一致するように表示される。
なお、テレビ会議端末装置21、22、23のそれぞれ2つの表示部216・217、226・227、236・237は、別個の液晶表示装置を用いて形成してもよいし、あるいは1つの液晶表示装置のスクリーンを分割表示するようにして形成してもよい。
【0059】
次に、テレビ会議システム2の動作について説明する。以下では、視聴者P32とP33とが会話者である場合について説明する。他の場合についても同様である。
撮像部211は視聴者P31のステレオ画像(第一ステレオ画像)を撮像し、基準位置算出部212と自由視点画像生成部213と会話者選択部241とに入力する。撮像部221及び231も同様である。以下では、撮像部221が撮像する視聴者P32のステレオ画像を第二ステレオ画像ともいう。
撮像部211から視聴者P31の画像が入力されると、基準位置算出部212は視聴者P31の基準位置を算出し、画像伸縮部214及び215に入力する。また、基準位置算出部212は算出した基準位置を自由視点画像生成部213に入力する。基準位置算出部222及び232も同様である。
会話者選択部241は、通信ネットワークを介して撮像部211と221と231とから受ける画像から、視聴者P31とP32とP33との口の動きを検出し、例えば口の動き(口の開閉)の頻度に基づいて会話者を選択する。さらに会話者選択部241は選択した会話者の視線を検出することにより、相手の会話者を選択する。例えば、会話者選択部241は、視聴者P32が頻繁に口を開閉していることを検出して視聴者P32を会話者として選択する。さらに会話者選択部241は、視聴者P32の視線検出を行い、視線が表示部226側にあることを検出して視聴者P33を相手の会話者として選択する。会話者選択部241は選択した会話者を示す信号を自由視点画像生成部213と223と233とに、通信ネットワークを介して入力する。
なお、会話者選択装置24はテレビ会議端末装置21に付属して設けられ、他のテレビ会議端末装置22、23へは通信回線を介して接続されていてもよい。
なお、本実施形態はテレビ会議端末装置が4つまたはそれ以上の場合にも容易に拡張することができる。例えば、テレビ会議システムが4つのテレビ会議端末装置を備え、各テレビ会議端末装置は3つの表示部を備える。会話者選択部は、上記と同様にして、4つのテレビ会議端末装置のうち2つのテレビ会議端末装置の視聴者を会話者として選択する。会話者として選択されなかった視聴者のテレビ会議端末装置は、上記と同様にして、会話者同士が互いに向かい合う画像を表示する。
【0060】
図17は、会話者選択部241が会話者を選択する処理手順を示すフローチャートである。
会話者選択部241は、会話者選択装置24が起動すると、会話者を選択する処理を開始する。
ステップS41において、会話者選択部241は、撮像部211と221と231とから受ける画像に基づいて会話者を選択する。ステップS42において、会話者選択部241は、選択した会話者の視線を検出する。ステップS43において、会話者選択部241は、検出した視線に基づいて相手の会話者を選択する。ステップS44において、会話者選択部241は選択した会話を示す信号を自由視点画像生成部213と223と233とに入力する。その後ステップS41を繰り返す。
【0061】
図18は、会話者選択部241が自由視点画像生成部213と223と233とに入力するデータのデータ構成図である。
同図(a)において、会話者選択部241が選択して2人の会話者が、端末番号で示されている。端末番号は、その会話者が使用するテレビ会議端末装置の識別番号である。端末番号1はテレビ会議端末装置31を示し、端末番号2はテレビ会議端末装置32を示し、端末番号3はテレビ会議端末装置33を示す。また、端末番号0は会話者が選択されていないことを示す。
同図(b)は、会話者選択部241が会話者を選択していない場合に、会話者選択部241が自由視点画像生成部213と223と233とに入力するデータを示す。
会話者選択部241は、口を動かす頻度の閾値を内部の記憶部(不図示)に記憶しており、口を動かす頻度が閾値以上となる視聴者がいないと判断した場合は、会話者を選択しない。この場合会話者選択部241は同図(b)のデータを自由視点画像生成部213と223と233とに入力する。
【0062】
なお、会話者選択部241が、音声認識など、口の動きを検出する以外の方法で会話者を選択するようにしてもよい。なお、表示部216と217と226と227と236と237とがタッチパネルになっており、会話者選択部241は、視聴者がいずれかの表示部上の位置に触れたことを検出すると、触れられた表示部に応じて会話者を選択するなど、上記以外の方法で会話者及び相手の会話者を選択するようにしてもよい。
【0063】
自由視点画像生成部213は、会話者選択部241から選択した会話者を示す信号が入力されると、入力された信号に基づいて視聴者P31の画像を生成して画像伸縮部225及び234に入力する。
ここで、会話者選択部241から受ける信号に端末番号2が含まれる場合は、テレビ会議端末装置22の視聴者P32が会話者として選択されている。したがって、テレビ会議端末装置22との関係では、この信号は会話者であることを示す信号である。この場合、自由視点画像生成部213は、第1の実施形態の自由視点画像生成部113と同様に、視聴者P31の視線方向から撮像した画像を生成して画像伸縮部225に入力する。
一方、会話者選択部241から受ける信号に、端末番号2が含まれていない場合は、テレビ会議端末装置22の視聴者P32は会話者として選択されていない。したがって、テレビ会議端末装置22との関係では、この信号は会話者でないことを示す信号である。この場合、自由視点画像生成部213は、後述するように視聴者P31の視線方向から移動した位置から見た視聴者P31の画像を生成して画像伸縮部225に、通信ネットワークを介して入力する。
同様に、会話者選択部241から受ける信号に端末番号3が含まれる場合は、視聴者P31の視線方向から見た視聴者P31の画像を生成して画像伸縮部235に入力する。一方、会話者選択部241から受ける信号に端末番号3が含まれない場合は、自由視点画像生成部213は、視聴者P31の視線方向から移動した位置から見た視聴者P31の画像を生成して画像伸縮部235に入力する。自由視点画像生成部223及び233も同様である。
【0064】
図19は、視聴者P31が会話者でない場合、すなわち会話者選択部241から受ける信号に端末番号1が含まれない場合に、自由視点画像生成部223及び自由視点画像生成部233が生成する画像の視点位置と視聴者の視線方向とのずれの角度を示す図である。
同図において、点Pは視聴者P31の基準位置、点Qは表示部216の画像中における視聴者P32の基準位置、点Rは表示部217の画像中における視聴者P33の基準位置を示す。自由視点画像生成部223が視聴者P32の基準位置を画像の中心として画像を生成する。これにより、点Qは表示部216表示面中央である。同様に、点Rは表示部217の表示面中央である。三角形PQRの各頂点の角度は、頂点Qの角度がα、頂点Rの角度がβ、頂点Pの角度がπ−α−βである。ここに、πは円周率を示す。
自由視点画像生成部223は、点Qの位置として表示部216の表示面中央の位置を記憶しており、点Rの位置として表示部217の表示面中央の位置を記憶している。Pの位置は基準位置算出部212から受ける基準位置である。
自由視点画像生成部223は、点Qを中心とする、点Rから点Pへの向きを検出し、この向きの分だけ、視聴者P32の視線方向から移動した位置から見た視聴者P32の画像を生成する。
同様に、自由視点画像生成部233は、点Rを中心とする、点Qから点Pへの向きを検出し、この向きの分だけ、視聴者P33の視線方向から移動した位置から見た視聴者P33の画像を生成する。
【0065】
図20は自由視点画像生成部223及び233が生成する画像の撮像位置を示す図である。同図(a)に示すように、自由視点画像生成部223は、視聴者P32の視線方向から角度αだけ同図の左方向、すなわち、図19の点Rの方向から点Pの方向に移動した位置から見た視聴者P32の画像を生成する。この角度αは点Qを中心として点Rから点Pに回転する角度である。これにより、点Pのほうを向く視聴者P32の画像が点Rのほうを向くように回転される。同様に、図20(b)に示すように、自由視点画像生成部233は、視聴者P33の視線方向L33から角度βだけ撮像位置を点Qの方向から点Pの方向に移動した位置から見た視聴者P33の画像を生成する。
自由視点画像生成部223は、図1の基準位置選択部112と同様にして、それぞれ視聴者P32の視線方向L32及び視聴者P33の視線方向L33を検出する。そして、自由視点画像生成部223は、図1の自由視点画像生成部113と同様、撮像部221の撮像装置221−1及び221−2が撮像した画像を用いて、上記の画像を合成する。この際、自由視点画像生成部223は、自由視点画像生成部113と同様、視聴者P32の基準位置を画像の中央に合わせて画像を生成する。
【0066】
なお、撮像部211〜231が撮像する角度によっては、撮像位置を上記のように回転した場合の画像を生成できない場合がある。例えば、撮像部221の撮像装置221−1及び撮像装置221−2が視聴者P32の正面近くから撮像する場合、上記の角度αが大きく視聴者の横方向に近いと、三次元モデルの生成に必要な画像データが得られず、画像を生成できない。この場合は、撮像部221はさらに画像を生成する方向の近くに撮像装置を備える。自由視点画像生成部223は、撮像部221から受ける画像の中から角度αに応じて2枚の画像を選択し、選択した画像を用いて三次元モデルを生成し、撮像位置を角度α回転させた上記の画像をこの三次元モデルを用いて生成する。
なお、上記の撮像位置にカメラを設置しておき、このカメラを用いて撮像を行うようにしてもよい。例えば、視聴者P32を撮像する可動式のカメラを用意しておく。自由視点画像生成部223は撮像位置を算出すると、可動式カメラが算出した撮像位置に移動して撮像を行うように制御する。これにより、自由視点画像生成部223が画像を合成する必要が無くなり計算量を削減できる。
自由視点画像生成部213及び233についても同様である。
【0067】
画像伸縮部214は自由視点画像生成部223から画像が入力されると、図1の画像伸縮部126と同様に画像の伸縮を行う。同様に、画像伸縮部215は自由視点画像生成部233から画像が入力されると画像の伸縮を行う。
図21は画像伸縮部214及び215が行う画像の伸縮を示す図である。同図(a)に示すように、視聴者P31の基準位置Pは表示部216に正対する方向から角度θ回転した位置にある。そこで、第1の実施形態と同様に、点Qを通り直線PQに垂直な仮想表示面216’から表示部216への、基準位置Pを中心とする透過投影変換を、自由視点画像生成部223から受ける画像に対して行った画像を算出することにより、自由視点画像生成部223から受ける画像を伸縮する。画像伸縮部214は、算出した画像を表示部216に入力する。
同様に、画像伸縮部215は、同図(b)に示されるように、仮想表示面217’から表示部217への、基準位置Pを中心とする透過投影変換を、自由視点画像生成部233から受ける画像対して行った画像を算出する。画像伸縮部215は算出した画像を表示部217に入力する。
表示部216は画像伸縮部214から受ける画像を表示し、表示部217は画像伸縮部215から受ける画像を表示する。
【0068】
以上により、表示部216は、視聴者P32が表示部217に表示される視聴者P33を見ているように見える画像を表示する。同様に、表示部217は、視聴者P33が表示部216に表示される視聴者P32を見ているように見える画像を表示する。したがって、視聴者P31は、会話する二人の視聴者P32とP33の視線が一致しているように見える、より自然な画像を見ることができる。また、テレビ会議システム2は、会話者が変わった場合には会話者選択部241が新たな会話者を選択するので、会話する視聴者同士の視線が一致するような画像を表示することが出来る。
また、テレビ会議システム2は、会話者に対しては視線方向から見た場合の画像を表示するので、テレビ会議システム1の場合と同様、会話者は相手の会話者と視線が一致する画像を見ながら会話を行うことができる。
なお、テレビ会議システム2の各部の配置は図15のものに限らず、基準位置算出部212と222と232と、自由視点画像生成部213と223と233と、画像伸縮部214と215と224と225と234と235とが、テレビ会議端末装置21と22と23と会話者選択装置24とのいずれに含まれるようにしてもよいし、これらと別の装置に含まれるようにしてもよい。例えば、会話者選択部241がテレビ会議端末装置21に含まれるようにしてもよい。これにより、テレビ会議システム2が会話者選択装置24を具備する必要が無くなる。
【0069】
なお、1個のテレビ会議端末装置を複数の視聴者が使用するようにしてもよい。例えば、テレビ会議端末装置21を視聴者A及びBが使用し、テレビ会議端末装置22を視聴者C及びDが使用し、テレビ会議端末装置23を視聴者E及びFが使用する場合、視聴者Cと視聴者Eとが会話者であるときは、表示部216は視聴者Cの画像を表示し、表示部217は視聴者Eの画像を表示する。
具体的には、撮像部211は、テレビ会議端末装置21を使用する全ての視聴者を含む画像を撮像する。撮像部221と231とも同様である。基準位置算出部212は、撮像部211から入力される画像に含まれる視聴者の各々の基準位置を算出し、図8で説明したように、算出した基準位置と表示部上の座標とを対応付けて、自由視点画像生成部213と画像伸縮部214および215に加えて、会話者選択部241にも入力する。基準位置算出部222と232とも同様である。
【0070】
会話者選択部241は、撮像部211と221と231とから入力される画像に含まれる全ての視聴者の中から、上記の1個のテレビ会議端末装置を1人の視聴者が使用する場合と同様に視聴者の口の動きに基づいて、会話者を選択する。そして、会話者選択部241は、会話者の視線方向を検出し、会話者が注目する画面上の座標を算出する。会話者選択部241は、基準位置算出部212と222と232とから入力される、基準位置と表示部上の座標とを対応付けた情報に基づいて、会話者が注目する画面上の位置に表示される視聴者を相手の会話者として選択する。会話者選択部241は、選択した会話者を、基準位置算出部から入力された、基準位置と表示部上の座標とを対応付けた情報にさらに対応付ける。この対応付けは、例えば、基準位置算出部から入力された、基準位置と表示部上の座標とを対応付けた情報の視聴者毎に、図25に示されるような、会話者か否かを示すフラグを付加することによって行う。
会話者選択部241は、生成した情報の、全てのテレビ会議端末装置に関するものを、自由視点画像生成部213と223と233とに入力する。
【0071】
自由視点画像生成部213は、撮像部211から入力されるステレオ画像に含まれる全ての視聴者について、三次元モデルを生成する。
そして、会話者選択部241から入力される情報において、テレビ会議端末装置21の視聴者に会話者が含まれていない場合は、三次元モデルを生成した視聴者が全て正面を向いている画像を生成して出力する。この際、例えば基準位置に基づいて、視聴者の実際の位置に応じて視聴者を画面上に配置する。自由視点画像生成部223と233とについても同様である。
一方、自由視点画像生成部213と223と233とは、当該自由視点画像生成部が含まれるテレビ会議端末装置(例えば、自由視点画像生成部213であれば、テレビ会議端末装置21)を使用する視聴者に会話者が含まれる場合は、もう一方の会話者が含まれるテレビ会議端末装置に対しては、会話者を正面から見た画像を入力し、会話者が含まれないテレビ会議端末装置に対しては、相手の会話者を向いているように見えるように、会話者の視線方向から移動した位置から見た視聴者の画像を入力する。
【0072】
例えば、テレビ会議端末装置22を使用する視聴者Cとテレビ会議端末装置23を使用する視聴者Eとが会話者である場合は、自由視点画像生成部223は、テレビ会議端末装置23に対しては、視聴者Cを正面から見た画像を入力する。一方、テレビ会議端末装置21に対しては、上記の1個のテレビ会議端末装置を1人の視聴者が使用する場合の視聴者P32と同様に、視聴者Cの視線方向から移動した位置から見た視聴者Cの画像を生成する。
同様に、自由視点画像生成部233は、上記の1個のテレビ会議端末装置を1人の視聴者が使用する場合の視聴者P33と同様に、視聴者Eの視線方向から移動した位置から見た視聴者Eの画像を生成する。
このように、視聴者Aおよび視聴者Bから見て、視聴者Cと視聴者Eとが互いに向かい合って見えるように、自由視点画像生成部223と自由視点画像生成部233とは、それぞれ視聴者Cと視聴者Eとの撮像位置を移動させた画像を生成して出力する。ここで、基準位置算出部212が視聴者Aの視点位置と視聴者Bの視点位置との中点を基準位置としてさらに算出し、自由視点画像生成部223と自由視点画像生成部233とに入力する。自由視点画像生成部223と自由視点画像生成部233とは、基準位置算出部212から受ける基準位置に基づいて上記の視聴者Cの画像と視聴者Eの画像とを生成する。
これにより、視聴者Aの基準位置と視聴者Bの基準位置との中点から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像が表示される。視聴者Aと視聴者Bとは、この中点に比較的近い位置から表示部216と表示部217とを見ていると考えられるので、視聴者Aと視聴者Bとは、視聴者Cと視聴者Eとが互いに向かい合う自然な画像を見ることができる。他の視聴者が会話者である場合も同様である。
【0073】
あるいは、1個のテレビ会議端末装置を複数人の視聴者が使用する上記の場合において、表示部216と表示部217とが、画面を右から見たときと左から見たときで異なる画像を表示する液晶ディスプレイを含んで構成されるようにしてもよい。画面を右から見たときと左から見たときで異なる映像を表示する液晶ディスプレイは、例えばカーナビゲーションシステムにおいて、運転席から見たときと助手席から見たときとで異なる映像を表示するディスプレイとして実用化されている。
この場合、基準位置算出部212は、視聴者Aの基準位置と視聴者Bの基準位置とを算出して、自由視点画像生成部223と自由して画像生成部233とに出力する。自由視点画像生成部223と自由視点画像生成部233とは、視聴者Aの基準位置から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像と、視聴者Bの基準位置から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像とを生成し、それぞれ表示部216と表示部217とに出力する。表示部216と表示部217とは、視聴者Aの基準位置と視聴者Bの基準位置とに基づいて、視聴者Aに対しては、視聴者Aの基準位置から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像を表示し、視聴者Bに対しては、視聴者Bの基準位置から見た場合に視聴者Cと視聴者Eとが向かい合って見える画像を表示する。これによって、視聴者Aと視聴者Bとは、視聴者Cと視聴者Eとが互いに向かい合う自然な画像を見ることができる。他の視聴者が会話者である場合も同様である。
なお、表示部216、217、226、227、236、237が3方向以上の方向に対して異なる画像を表示する液晶ディスプレイを含んで構成されるようにしてもよい。これにより、2方向に対して異なる画像を表示する上記の場合よりも多くの視聴者に対して自然な画像を表示することができる。
【0074】
<第3の実施形態>
図22は本発明の第3の実施形態におけるテレビ会議システム3の概略構成を示すシステム構成図である。同図において、テレビ会議システム3は、テレビ会議端末装置(第一端末装置)31及びテレビ会議端末装置(第二端末装置)32を含んで構成される。テレビ会議端末装置31とテレビ会議端末装置32とは、通信ネットワークによって互いに接続されている。テレビ会議端末装置31は、撮像部(第一撮像部)311と基準位置選択部312と自由視点画像生成部313と表示部(第二表示部)316とを含んで構成される。テレビ会議端末装置32は、撮像部(第二撮像部)321と基準位置算出部322と画像伸縮部326及び327と表示部328とを含んで構成される。撮像部311は、撮像装置311−1及び311−2を含んで構成される。撮像部321は、撮像装置321−1及び撮像装置321−2を含んで構成される。
【0075】
撮像部321と基準位置算出部322とが本発明の基準位置検出部に対応し、会話者である第二視聴者を含む1人以上の視聴者について基準位置を検出する。本実施形態では撮像部321が撮像する画像を用いて、基準位置算出部322が基準位置を算出することにより、基準位置検出部は、基準位置を検出する。なお、基準位置検出部が基準位置を検出する方法は、前述の方法に限らず、テレビ会議システム1の場合と同様の方法など、他の方法を用いてもよい。
また、この基準位置検出部と基準位置選択部312とが本発明の基準位置出力部に対応し、第二視聴者の基準位置である第二視聴者基準位置を出力する。本実施形態では、基準位置検出部が検出した基準位置の中から、基準位置選択部312が会話者である第二視聴者の基準位置を選択することにより、第二視聴者基準位置を検出する。
また、撮像部311と自由視点画像生成部313とが本発明の画像出力部に対応し、第一視聴者を撮像して、正面画像を出力する。本実施形態では、撮像部311が撮像する画像を用いて、自由視点画像生成部313が正面画像を生成し、生成した正面画像を出力することにより、画像出力部が正面画像を出力する。なお、画像出力部が正面画像を出力する方法は、前述の方法に限らず、テレビ会議システム1の場合と同様の方法など、他の方法を用いてもよい。
また、画像伸縮部326と327とが本発明の画像伸縮部に対応し、第二視聴者基準位置に正対する仮想表示面から表示面への、第二視聴者基準位置を中心とする透過投影変換を、正面画像または後述する撮像位置を回転させた画像に対して行った画像を算出する。本実施形態では、画像伸縮部326または画像伸縮部327に、正面画像または撮像位置を回転させた画像と、第二視聴者基準位置とが入力されると、その画像伸縮部326または画像伸縮部327は、第二視聴者基準位置に正対する仮想表示面から表示面への、第二視聴者基準位置を中心とする透過投影変換を、正面画像または撮像位置を回転させた画像に対して行った画像を算出する。
【0076】
表示部316は図1の表示部116と同様である。
表示部328は、画面を右から見たときと左から見たときで異なる映像を表示する液晶ディスプレイを含んで構成される。撮像部311は視聴者P41(第一視聴者)のステレオ画像(第一ステレオ画像)を撮像し、撮像部321は視聴者P51(第二視聴者)及び視聴者P52のステレオ画像(第二ステレオ画像)を撮像する。撮像装置311−1と311−2と321−1と321−2とは、図1の撮像装置111−1等と同様である。
自由視点画像生成部313は、撮像部311が撮像した画像に基づいて、視聴者の視線方向から見た視聴者の画像を生成する。加えて、自由視点画像生成部312は、視聴者の視線方向から移動した位置から見た視聴者の画像を生成する。詳細については後述する。
基準位置算出部322は、図1の基準位置算出部122と同様に、基準位置を算出する。
画像伸縮部326は、表示部328が画像を表示する方向のうち表示部328に向かって左方向に対応付けられ、表示部328を左から見たときの画像を図1の画像伸縮部126と同様に伸縮する。画像伸縮部327は、表示部328が画像を表示する方向のうち表示部328に向かって右方向に対応付けられ、表示部328を右から見たときの画像を図1の画像伸縮部126と同様に伸縮する。
【0077】
図23は表示部328が表示する画像の例を示す図である。同図において、会議室R32に設置された表示部328を視聴者P51及びP52が見ている。また、視聴者P41とP51とが会話者である。同図(a)の表示部328には、表示部328を左から見た場合の画像が表示されている。視聴者P51は会話者であり、表示部328には視聴者P41が視聴者P51と視線が一致するように表示される。また、同図(b)の表示部328には、表示部を右から見た場合の画像が表示されている。表示部328には視聴者P41が視聴者P51の方向を見ている画像が表示される。
図24は表示部316が表示する画像の例を示す図である。同図において、会議室R31に設置された表示部316を視聴者P41が見ている。
【0078】
次に、テレビ会議システム3の動作について説明する。以下では、視聴者P41と視聴者P51とが会話者である場合について説明する。視聴者P41と視聴者P52とが会話者である場合も同様である。
撮像部321は視聴者P51及びP52の画像を撮像し、基準位置算出部322に入力し、また、通信ネットワークを介して表示部316に入力する。表示部316は撮像部321から受ける画像を表示する。
基準位置算出部322は、図1の基準位置算出部122と同様に、撮像部321から受ける画像に基づいて、視聴者P51及びP52の基準位置を算出する。基準位置算出部322は、算出した基準位置を基準位置選択部312に入力する。
撮像部311は、視聴者P51の画像を撮像し、基準位置選択部312と自由視点画像生成部313とに入力する。
基準位置選択部312は、基準位置算出部322から通信ネットワークを介して受ける基準位置から、会話者に対応する1個の基準位置を選択する。基準位置選択部312は、図1の基準位置選択部112と同様に、視聴者P41の視線を検出して会話者に対応する基準位置を選択する。基準位置選択部312は、基準位置算出部322から受ける基準位置に、選択した基準位置を示すフラグを付す。さらに、基準位置選択部312は、表示部328が画像を表示する方向を予め記憶しており、表示部328が画像を表示する方向と基準位置とを対応付ける。基準位置選択部312は、表示部328が画像を表示する方向と対応付けた基準位置を、自由視点画像生成部313に入力する。
この際、1個の方向に複数の基準位置を対応付け得る場合は、基準位置選択部312は、そのうち1個の基準位置のみを、この方向に対応付けて自由視点画像生成部313に入力する。これらの基準位置に会話者の基準位置が含まれる場合は、会話者の基準位置のみを、この方向に対応付けて自由視点画像生成部313に入力する。会話者の基準位置が含まれない場合は、自由視点画像生成部313は、例えば、同じ方向に対応付けられた基準位置のうち、基準位置算出部322から最初に入力される基準位置のみを、この方向に対応付けて自由視点画像生成部313に入力する。
また、基準位置選択部312は、自由視点画像生成部313に入力した基準位置を画像伸縮部326及び327に入力する。基準位置選択部312は、表示部328が画像を表示する方向に応じて、表示部328に向かって左方向に対応付けられる基準位置を画像伸縮部326に入力し、表示部328に向かって右方向に対応付けられる基準位置を画像伸縮部327に入力する。
【0079】
図25は、基準位置選択部312が自由視点画像生成部313に入力するデータの構成を示すデータ構成図である。
同図において、基準位置選択部312が自由視点画像生成部313に入力するデータは、2人の視聴者の基準位置と表示部上の座標と選択した会話者を示すフラグとを含んで構成される。基準位置及び表示部上の座標は、図8の基準位置及び表示部上の座標と同様である。会話者を示すフラグは、基準位置選択部312が選択した会話者をフラグの値「1」にて示し、基準位置選択部312が選択した以外の会話者をフラグの値「0」にて示す。
また、同図において、「方向1」は、表示部328が画像を表示する方向のうち表示部328に向かって左側の方向を示し、「方向2」は、表示部328が画像を表示する方向のうち表示部328に向かって右側の方向を示す。「方向1」には「視聴者1」が対応付けられ、「方向2」には「視聴者2」が対応付けられている。
【0080】
自由視点画像生成部313は、基準位置選択部312から受けるデータに基づいて、表示部328の表示面正面方向の左側に位置する視聴者の基準位置と右側に位置する視聴者の基準位置とを区別する。
自由視点画像生成部313は、会話者の基準位置に対しては、視聴者P41の視線方向から見た視聴者P41の画像を生成する。また、会話者以外の視聴者の基準位置に対しては、自由視点画像生成部313は、視聴者P41の視線方向から移動した位置から見た視聴者P41の画像を生成する。詳細は後述する。自由視点画像生成部313は生成した画像のうち、表示部328の表示面正面方向の左側に位置する視聴者の基準位置に対応する画像を画像伸縮部326に通信ネットワークを介して入力し、右側に位置する視聴者の基準位置に対応する画像を画像伸縮部327に通信ネットワークを介して入力する。このように、自由視点画像生成部313は、画像を表示する方向に応じた画像伸縮部に画像を入力することにより、画像と表示する方向とを対応付ける。
【0081】
図26は基準位置選択部312が視聴者P51を会話者として選択した場合に、自由視点画像生成部313が撮像位置を回転させる角度を示す図である。
同図において、点Sは視聴者P52の基準位置、点Tは表示部328の画像中における視聴者P41の基準位置、点Uは視聴者P51の基準位置を示す。自由視点画像生成部313は、同図の角度γだけ撮像位置を点Sの方向から点Uの方向に回転した場合に得られる画像を生成する。
これにより、視聴者P52は視聴者P51と視線を合わせている視聴者P41の画像を見る。
【0082】
このように、テレビ会議システム3は、会話者でない視聴者P52に対して会話者P51と視線を合わせている視聴者P41の画像を表示するので、視聴者P52は、会話者同士の視線方向が一致したより自然が画像を見ながら会議に参加できる。また、会話者である視聴者P51に対しては、会話者P41と視線が一致する画像を表示するので、会話者P51は会話者P41と視線が一致した画像を見ながらより自然に会話を行うことが出来る。
なお、表示部328備える液晶ディスプレイは、2方向に対して異なる映像を表示するものに限らず、3方向以上に対して異なる映像を表示するものであってもよい。この場合、テレビ会議端末装置32は、液晶ディスプレイが異なる映像を表示する方向の数と同数の画像伸縮部を含んで構成され、自由視点画像生成部313は、各画像伸縮部に応じた視聴者P41の画像を生成して、各画像伸縮部に入力する。このように、より多くの方向に対して異なる映像を表示することにより、より多くの視聴者に対してより自然な映像を表示することができる。
なお、テレビ会議システム3における各部の配置は図22のものに限らず、基準位置選択部312と自由視点画像生成部313と基準位置算出部322と画像伸縮部326及び327とは、テレビ会議端末装置31とテレビ会議端末装置32とのいずれに含まれていてもよいし、テレビ会議端末装置31とテレビ会議端末装置32とは別の装置に含まれていてもよい。
例えば、基準位置算出部322が、テレビ会議端末装置31に含まれ、通信ネットワークを介して撮像部321から画像を受けるようにしてもよい。
【0083】
なお、本発明は、次の態様で実施することもできる。
(1) 通信ネットワークを介して互いに接続されたテレビ会議用の第一端末装置および第二端末装置を備え、第一端末装置が置かれた第一会議室の第一視聴者および第二端末装置が置かれた第二会議室の第二視聴者に互いの映像を表示するコミュニケーションシステムであって、第一端末装置は、第一視聴者を撮像する第一撮像部、第一撮像部が撮像した画像に基づいて第一視聴者の画像を生成する自由視点画像生成部および第二視聴者を表示する第一表示部を備え、第二端末装置は、第二視聴者を撮像する第二撮像部、前記自由視点画像生成部が生成し前記通信ネットワークを介して受信した画像を入力され、前記画像を伸縮して第二視聴者の視線方向を向いた第一視聴者の画像を生成する画像伸縮部、および前記画像伸縮部が生成した第二視聴者の視線方向を向いた第一視聴者の画像を表示する第二表示部を備え、第二撮像装置の撮像した画像を前記通信ネットワークを介して第一端末装置へ送信する、ことを特徴とするコミュニケーションシステム。
このコミュニケーションシステムでは、第二表示部が第二視聴者の視線方向を向いた第一視聴者の画像を表示するので、第二視聴者は、第一視聴者と視線が一致する画像を見ながら第一視聴者と会話を行うことができる。
【0084】
(2) 前記第二会議室には視聴者が複数人いて、その内の一人である第二視聴者が第二表示部に表示された前記第一視聴者を注目して発言することを特徴とする、上記(1)に記載のコミュニケーションシステム。
このコミュニケーションシステムでは、第二表示部が第二視聴者の視線方向を向いた第一視聴者の画像を表示するので、第二視聴者は、第一視聴者と視線が一致する画像を注目して第一視聴者と会話をし、第一視聴者に対して発言することができる。
【0085】
(3) 前記第一撮像部は、複数の撮像装置を備え、前記自由視点画像生成部は、前記第一撮像部が撮像した画像に基づいて第一視聴者の三次元画像を生成することを特徴とする上記(1)または(2)に記載のコミュニケーションシステム。
このコミュニケーションシステムでは、複数の撮像装置が撮像した画像に基づいて、自由視点画像生成部が第一視聴者の三次元画像を生成する。これにより、上述のように、第二視聴者は、第一視聴者と視線が一致する画像を見ながら第一視聴者と会話を行うことができる。
【0086】
(4) 通信ネットワークを介して互いに接続されたテレビ会議用の第一端末装置および第二端末装置を備え、第一端末装置が置かれた第一会議室の第一視聴者および第二端末装置が置かれた第二会議室の第二視聴者に互いの画像を表示するコミュニケーションシステムであって、第一端末装置は、第一視聴者を撮像する第一撮像部、第一撮像部が撮像した画像に基づいて第一視聴者の視線方向から見た画像を生成する自由視点画像生成部および第二視聴者を表示する第一表示部を備え、第二端末装置は、第二視聴者を撮像する第二撮像部および前記自由視点画像生成部が生成し前記通信ネットワークを介して受信した画像を表示する表示面を、右から見たときと左から見たときとで異なる画像を表示する第二表示部を備え、第二撮像装置の撮像した画像を前記通信ネットワークを介して第一端末装置へ送信するとともに、第二表示部には視聴者に対応して異なる画像が表示される、ことを特徴とするコミュニケーションシステム。
このコミュニケーションシステムは、視聴者に対応して異なる画像が第二表示部に表示されるので、会話者である視聴者に対しては、この視聴者の視線方向を向いた第一視聴者の画像を表示することにより、会話者である視聴者は、第一視聴者と視線が一致する画像を見ながら第一視聴者と会話を行うことができる。また、会話者でない視聴者に対しては、会話者同士の視線が一致する、より自然な画像を表示することができる。
【0087】
(5) 通信ネットワークを介して互いに接続されたテレビ会議用の第一端末装置、第二端末装置および第三端末装置を備え、各端末装置が置かれた各会議室の視聴者に互いの映像を表示するコミュニケーションシステムであって、通信ネットワークを介して前記各会議室へ接続され、各会議室の視聴者の中から会話者を選択する会話者選択装置を備え、前記各端末装置は、各会議室の視聴者を撮像する撮像部、前記撮像部からの画像を生成する自由視点画像生成部および他の会議室の視聴者の画像を表示する表示部を備え、各会議室の前記自由視点画像生成部は、会話者ではない視聴者の会議室の表示部へ送る画像として、回転された視聴者の画像を生成する、ことを特徴とするコミュニケーションシステム。
このコミュニケーションシステムでは、会話者ではない視聴者に対しては、回転された視聴者の画像を生成して会話者である視聴者同士が互いに向き合う、より自然な画像を表示することができる。
【0088】
(6) 画像を表示する表示面を含む表示部を具備するコミュニケーションシステムの視聴者表示方法であって、第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力ステップと、前記第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置を検出する基準位置出力ステップと、前記画像出力ステップが出力する画像に対して、前記第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮ステップと、前記表示部が、前記画像伸縮部が算出した画像を表示する画像表示ステップと、を備えることを特徴とする視聴者表示方法。
この視聴者表示方法は、画像伸縮ステップが会話者の視点の位置である第二視聴者基準位置に基づいて画像を生成するので、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0089】
(7) コンピュータに、第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力ステップと、前記第一視聴者と会話する第二視聴者を含む1人以上の視聴者の視点の位置である基準位置の中から前記第二視聴者の基準位置である第二視聴者基準位置を選択する基準位置選択ステップと、を実行させるための視聴者表示プログラム。
このプログラムは、第一視聴者を略正面から見た画像を生成し、視聴者の視点の位置である第二視聴者基準位置を選択するので、この第一視聴者を略正面から見た画像を表示面の正面から見た場合に見える画像を、第二視聴者基準位置から見えるように変換して表示することにより、会話者である第二視聴者は表示面に正対していない場合でも、この会話者に対して、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面から見た場合に見える自然な画像を表示することができる。
【0090】
(8) 画像を表示する表示面を有する表示部を具備するコンピュータに、視聴者の視点の位置である基準位置を、第一視聴者と会話する第二視聴者を含む1人以上の視聴者について検出する基準位置検出部ステップと、第一視聴者を略正面から見た画像に対して、前記第二視聴者の基準位置である第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮ステップと、前記画像伸縮ステップで算出した画像を前記表示部に表示する表示ステップと、を実行させるための視聴者表示プログラム。
このプログラムは、第二視聴者基準位置に正対する仮想表示面から表示面への、第二視聴者基準位置を視点とする投影を行う変換を、第一視聴者を略正面から見た画像に適用して表示するので、会話者である第二視聴者は表示面に正対していない場合でも、この会話者に対して、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【0091】
なお、テレビ会議システム1〜3の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0092】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【産業上の利用可能性】
【0093】
本発明は、コミュニケーションシステムに用いて好適である。
【符号の説明】
【0094】
1〜3 テレビ会議システム
11、12、21〜23、31、32 テレビ会議端末装置
24 会話者選択装置
111、121、211〜231、311、321 撮像部
122、212、222、232、322 基準位置算出部
112、312 基準位置選択部
113、213、223、233、313 自由視点画像生成部
116、127、216、217、226、227、236、237、316、328 表示部
126、214、215、224、225、234、235、326、327 画像伸縮部
241 会話者選択部
【特許請求の範囲】
【請求項1】
第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力部と、
前記第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置を検出する基準位置出力部と、
前記第一視聴者の画像を表示する表示面を含む表示部と、
前記画像出力部から出力された画像に対して、前記第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮部と、
を具備し、
前記表示部は前記画像伸縮部が算出した画像を表示する、
ことを特徴とするコミュニケーションシステム。
【請求項2】
前記基準位置出力部は、
視聴者の視点の位置である基準位置を、前記第二視聴者を含む1人以上の視聴者について検出する基準位置検出部と、
前記基準位置検出部が検出した前記基準位置の中から前記第二視聴者基準位置を選択する基準位置選択部と、
を具備することを特徴とする請求項1に記載のコミュニケーションシステム。
【請求項3】
通信路を介して接続された第一端末装置及び第二端末装置を有するコミュニケーションシステムであって、
前記第一端末装置は、前記画像出力部と、前記基準位置選択部と、を具備し、
前記第二端末装置は、前記基準位置検出部と、前記表示部と、前記画像伸縮部と、を具備する
ことを特徴とする請求項2に記載のコミュニケーションシステム。
【請求項4】
前記第二視聴者を含む1人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、
を具備し、
前記基準位置検出部は、
前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、
前記第二ステレオ画像から前記1人以上の視聴者の各々の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、
を具備し、
前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択する、
ことを特徴とする請求項2または請求項3に記載のコミュニケーションシステム。
【請求項5】
前記表示面は少なくとも2方向に異なる画像を表示し、
前記基準位置選択部は、前記第二視聴者基準位置を選択するとともに、前記第二視聴者基準位置に前記表示面が前記異なる画像を表示する方向である表示方向のいずれかを対応付け、
前記表示部は、前記画像伸縮部から入力される画像を、前記第二視聴者基準位置に対応付けられた方向に表示する、
ことを特徴とする請求項2または請求項3に記載のコミュニケーションシステム。
【請求項6】
前記第二視聴者を含む1人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、
を具備し、
前記基準位置検出部は、
前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、
前記第二ステレオ画像から前記1人以上の視聴者の各々の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、
を具備し、
前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付ける、
ことを特徴とする請求項5に記載のコミュニケーションシステム。
【請求項7】
前記表示面は少なくとも2方向に異なる画像を表示し、
前記基準位置選択部は、前記表示面が前記異なる画像を表示する方向である表示方向の各々に、基準位置のいずれかを対応付け、
前記画像出力部は、前記第二視聴者基準位置が対応付けられていない方向に対応付けられた基準位置に基づいて定められる位置から見た前記第一視聴者の画像を生成し、当該方向と当該画像とを対応付けて前記画像伸縮部に出力し、
前記画像伸縮部は、前記入力された方向の各々について、当該方向に対応付けられた画像に対して、当該方向に対応付けられた基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記当該方向に対応付けられた基準位置を中心とする透視投影変換を行った画像を算出し、算出した画像を当該方向と対応付けて出力し、
前記表示部は、前記画像伸縮部から入力される画像を、該画像に対応付けられた方向に表示する、
ことを特徴とする請求項2または請求項3に記載のコミュニケーションシステム。
【請求項8】
前記第二視聴者を含む一人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記基準位置選択部が前記表示方向に対応付けた前記視点の位置のうち前記第二視聴者基準位置を除く視点の位置の各々に対して、前記表示面の中心の位置を中心とする、当該視点の位置から前記第二視聴者基準位置への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、当該視点の位置が対応付けられた表示方向と前記生成した画像とを対応付けて前記画像伸縮部に出力する自由視点画像生成部と、
を具備し、
前記基準位置検出部は、
前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、
前記第二ステレオ画像から前記1人以上の視聴者の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、
を具備し、
前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者の基準位置を、前記基準位置算出部が算出する基準位置の中から第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付け、前記第二視聴者基準位置に対応付けられた方向以外の表示方向の各々に、第二視聴者基準位置以外の基準位置のいずれかを、前記表示面と各基準位置との位置関係に基づいて対応付ける、
ことを特徴とする請求項7に記載のコミュニケーションシステム。
【請求項9】
通信路を介して互いに接続され、第一視聴者が利用する第一端末装置と第二視聴者が利用する第二端末装置と第三視聴者が利用する第三端末装置を有するコミュニケーションシステムであって、
前記第一視聴者と前記第二視聴者と第三視聴者とのうち何れか2人を会話者として選択する会話者選択部をさらに具備し、
前記画像出力部は、前記会話者選択部が、前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して前記画像伸縮部に出力し、前記第一視聴者と前記第三視聴者とを選択した場合は、正面以外から見た前記第一視聴者の画像を生成して前記画像伸縮部に出力する、
ことを特徴とする請求項1に記載のコミュニケーションシステム。
【請求項10】
通信路を介して前記第一端末装置と前記第二端末装置と前記第三端末装置とに接続された会話者選択装置を有するコミュニケーションシステムであって、
前記第一端末装置は、前記画像出力部を具備し、
前記第二端末装置は、前記基準位置出力部と、前記表示部と、前記画像伸縮部と、を具備し、
前記会話者選択装置は、前記会話者選択部を具備する、
ことを特徴とする請求項9に記載のコミュニケーションシステム。
【請求項11】
第三視聴者を撮像する第三視聴者撮像部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一視聴者撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記会話者選択部が前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して出力し、前記会話者選択部が前記第一視聴者と前記第三視聴者とを選択した場合は、前記表示面の中心の位置を中心とする、前記第二表示面の中心の位置から前記基準位置出力部が出力する基準位置の方向への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、前記正面以外から見た前記第一視聴者の画像として出力する自由視点画像生成部と、
を具備し、
前記基準位置出力部は、
前記第二視聴者を被写体とする第二ステレオ画像を撮像する第二視聴者撮像部と、
前記第二ステレオ画像から前記第二視聴者の顔またはその一部の画像を検出し、前記第二視聴者基準位置を算出する基準位置算出部と、
を具備し、
前記会話者選択部は、前記第一撮像部が撮像した画像と前記第二視聴者撮像部が撮像した画像と前記第三視聴者撮像部が撮像した画像とから、それぞれ前記第一視聴者の口の動きの頻度と前記第二視聴者の口の動きの頻度と前記第三視聴者の口の動きの頻度とを検出し、検出した頻度に基づいて会話者を選択し、選択した会話者の画像から視線方向を検出し、検出した視線方向に基づいて相手の会話者を選択する、
ことを特徴とする請求項10に記載のコミュニケーションシステム。
【請求項1】
第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力部と、
前記第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置を検出する基準位置出力部と、
前記第一視聴者の画像を表示する表示面を含む表示部と、
前記画像出力部から出力された画像に対して、前記第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮部と、
を具備し、
前記表示部は前記画像伸縮部が算出した画像を表示する、
ことを特徴とするコミュニケーションシステム。
【請求項2】
前記基準位置出力部は、
視聴者の視点の位置である基準位置を、前記第二視聴者を含む1人以上の視聴者について検出する基準位置検出部と、
前記基準位置検出部が検出した前記基準位置の中から前記第二視聴者基準位置を選択する基準位置選択部と、
を具備することを特徴とする請求項1に記載のコミュニケーションシステム。
【請求項3】
通信路を介して接続された第一端末装置及び第二端末装置を有するコミュニケーションシステムであって、
前記第一端末装置は、前記画像出力部と、前記基準位置選択部と、を具備し、
前記第二端末装置は、前記基準位置検出部と、前記表示部と、前記画像伸縮部と、を具備する
ことを特徴とする請求項2に記載のコミュニケーションシステム。
【請求項4】
前記第二視聴者を含む1人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、
を具備し、
前記基準位置検出部は、
前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、
前記第二ステレオ画像から前記1人以上の視聴者の各々の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、
を具備し、
前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択する、
ことを特徴とする請求項2または請求項3に記載のコミュニケーションシステム。
【請求項5】
前記表示面は少なくとも2方向に異なる画像を表示し、
前記基準位置選択部は、前記第二視聴者基準位置を選択するとともに、前記第二視聴者基準位置に前記表示面が前記異なる画像を表示する方向である表示方向のいずれかを対応付け、
前記表示部は、前記画像伸縮部から入力される画像を、前記第二視聴者基準位置に対応付けられた方向に表示する、
ことを特徴とする請求項2または請求項3に記載のコミュニケーションシステム。
【請求項6】
前記第二視聴者を含む1人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、
を具備し、
前記基準位置検出部は、
前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、
前記第二ステレオ画像から前記1人以上の視聴者の各々の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、
を具備し、
前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付ける、
ことを特徴とする請求項5に記載のコミュニケーションシステム。
【請求項7】
前記表示面は少なくとも2方向に異なる画像を表示し、
前記基準位置選択部は、前記表示面が前記異なる画像を表示する方向である表示方向の各々に、基準位置のいずれかを対応付け、
前記画像出力部は、前記第二視聴者基準位置が対応付けられていない方向に対応付けられた基準位置に基づいて定められる位置から見た前記第一視聴者の画像を生成し、当該方向と当該画像とを対応付けて前記画像伸縮部に出力し、
前記画像伸縮部は、前記入力された方向の各々について、当該方向に対応付けられた画像に対して、当該方向に対応付けられた基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記当該方向に対応付けられた基準位置を中心とする透視投影変換を行った画像を算出し、算出した画像を当該方向と対応付けて出力し、
前記表示部は、前記画像伸縮部から入力される画像を、該画像に対応付けられた方向に表示する、
ことを特徴とする請求項2または請求項3に記載のコミュニケーションシステム。
【請求項8】
前記第二視聴者を含む一人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記基準位置選択部が前記表示方向に対応付けた前記視点の位置のうち前記第二視聴者基準位置を除く視点の位置の各々に対して、前記表示面の中心の位置を中心とする、当該視点の位置から前記第二視聴者基準位置への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、当該視点の位置が対応付けられた表示方向と前記生成した画像とを対応付けて前記画像伸縮部に出力する自由視点画像生成部と、
を具備し、
前記基準位置検出部は、
前記1人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、
前記第二ステレオ画像から前記1人以上の視聴者の顔またはその一部の画像を検出し、前記1人以上の視聴者の各々の基準位置を算出する基準位置算出部と、
を具備し、
前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者の基準位置を、前記基準位置算出部が算出する基準位置の中から第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付け、前記第二視聴者基準位置に対応付けられた方向以外の表示方向の各々に、第二視聴者基準位置以外の基準位置のいずれかを、前記表示面と各基準位置との位置関係に基づいて対応付ける、
ことを特徴とする請求項7に記載のコミュニケーションシステム。
【請求項9】
通信路を介して互いに接続され、第一視聴者が利用する第一端末装置と第二視聴者が利用する第二端末装置と第三視聴者が利用する第三端末装置を有するコミュニケーションシステムであって、
前記第一視聴者と前記第二視聴者と第三視聴者とのうち何れか2人を会話者として選択する会話者選択部をさらに具備し、
前記画像出力部は、前記会話者選択部が、前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して前記画像伸縮部に出力し、前記第一視聴者と前記第三視聴者とを選択した場合は、正面以外から見た前記第一視聴者の画像を生成して前記画像伸縮部に出力する、
ことを特徴とする請求項1に記載のコミュニケーションシステム。
【請求項10】
通信路を介して前記第一端末装置と前記第二端末装置と前記第三端末装置とに接続された会話者選択装置を有するコミュニケーションシステムであって、
前記第一端末装置は、前記画像出力部を具備し、
前記第二端末装置は、前記基準位置出力部と、前記表示部と、前記画像伸縮部と、を具備し、
前記会話者選択装置は、前記会話者選択部を具備する、
ことを特徴とする請求項9に記載のコミュニケーションシステム。
【請求項11】
第三視聴者を撮像する第三視聴者撮像部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一視聴者撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記会話者選択部が前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して出力し、前記会話者選択部が前記第一視聴者と前記第三視聴者とを選択した場合は、前記表示面の中心の位置を中心とする、前記第二表示面の中心の位置から前記基準位置出力部が出力する基準位置の方向への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、前記正面以外から見た前記第一視聴者の画像として出力する自由視点画像生成部と、
を具備し、
前記基準位置出力部は、
前記第二視聴者を被写体とする第二ステレオ画像を撮像する第二視聴者撮像部と、
前記第二ステレオ画像から前記第二視聴者の顔またはその一部の画像を検出し、前記第二視聴者基準位置を算出する基準位置算出部と、
を具備し、
前記会話者選択部は、前記第一撮像部が撮像した画像と前記第二視聴者撮像部が撮像した画像と前記第三視聴者撮像部が撮像した画像とから、それぞれ前記第一視聴者の口の動きの頻度と前記第二視聴者の口の動きの頻度と前記第三視聴者の口の動きの頻度とを検出し、検出した頻度に基づいて会話者を選択し、選択した会話者の画像から視線方向を検出し、検出した視線方向に基づいて相手の会話者を選択する、
ことを特徴とする請求項10に記載のコミュニケーションシステム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【公開番号】特開2011−97447(P2011−97447A)
【公開日】平成23年5月12日(2011.5.12)
【国際特許分類】
【出願番号】特願2009−250862(P2009−250862)
【出願日】平成21年10月30日(2009.10.30)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】
【公開日】平成23年5月12日(2011.5.12)
【国際特許分類】
【出願日】平成21年10月30日(2009.10.30)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】
[ Back to top ]