コミュニケーションシステム

【課題】会話者が表示面に正対していない場合でも会話者同士の視線を一致させることができるコミュニケーションシステムを提供する。
【解決手段】コミュニケーションシステムが、会話者である第一視聴者を略正面から見た画像を出力する画像出力部と、第一視聴者の画像を表示する表示面を含む表示部と、画像出力部が出力する画像に対して、第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置と表示面の中心とを結ぶ直線に正対する仮想表示面から表示面への、第二視聴者基準位置を中心とする透過投影変換を行った画像を算出する画像伸縮部と、を具備し、表示部は画像伸縮部が生成した画像を表示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、コミュニケーションシステムに関する。
【背景技術】
【０００２】
互いに異なる地点に位置する複数の会議参加者用に互いの映像を表示するテレビ会議システムなど、映像を用いたコミュニケーションツールにおいて、会話者は表示装置に表示される者、特に相手の会話者の顔を見ながら会話を行う。ここでは、会話者とは、発言を行っている者と、その者が話しかける相手とを言う。例えばテレビ会議システムでは、発言を行っている会議参加者（以下では「発話者」ともいう）、または、この発話者が１人の会議参加者に対して話しかける場合に、その話しかける対象の会議参加者のことをいう。また、以下では、コミュニケーションシステムが表示する画像を見る者、例えばテレビ会議の参加者のことを「視聴者」ともいう。このように、会話者同士が顔を見ながら会話をすることが意思疎通を図るために重要であり、更には会話者同士の視線が一致していることがより意思疎通を深める上で重要である。
特許文献１では、第一のユーザ（会話者）が見る表示装置の表示面周辺に複数の撮像装置を備え第一のユーザの正面映像を撮像し、選択された第二のユーザに第一のユーザの正面映像を送信し、それ以外のユーザには第一のユーザの横顔画像を送信することで、第一のユーザと第二のユーザとの視線を一致させる方法が提案されている。これにより、表示装置に正対しているユーザに対しては、相手のユーザと視線が一致する画像を表示ことができる。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００１−１３６５０１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、上記の方法では、会話者が表示装置の表示面に正対していない場合には、会話者同士の視線が一致しない。例えば、１つの会議室に複数の視聴者が居り、１つの表示装置を各々が見る場合、表示面に会話者の正面画像が表示されると、表示面に正対した席にいる視聴者は会話者と視線が一致する画像を見ることができるが、表示面に正対していない席にいる視聴者は会話者と視線が一致しない画像を見ることになる。したがって、表示装置に正対していない席に位置する視聴者が会話を行う場合は、相手の会話者が違う方向を向いている画像を見ながら会話を行うことになる。このため、非言語コミュニケーションにおいて重要である顔を向かい合わせての会話、特に視線による意思疎通を十分に図ることができない。
【０００５】
本発明は、このような事情に鑑みてなされたもので、その目的は、会話者が表示面に正対していない場合でも相手の会話者と視線が一致する画像を表示することができるコミュニケーションシステムを提供することにある。
【課題を解決するための手段】
【０００６】
［１］本発明は上述した課題を解決するためになされたもので、本発明の一態様によるコミュニケーションシステムは、第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力部と、前記第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置を検出する基準位置出力部と、前記第一視聴者の画像を表示する表示面を含む表示部と、前記画像出力部から出力された画像に対して、前記第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮部と、を具備し、前記表示部は前記画像伸縮部が算出した画像を表示する、ことを特徴とする。
このコミュニケーションシステムは、画像伸縮部が会話者の視点の位置である第二視聴者基準位置に基づいて画像を生成するので、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【０００７】
［２］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記基準位置出力部は、視聴者の視点の位置である基準位置を、前記第二視聴者を含む１人以上の視聴者について検出する基準位置検出部と、前記基準位置検出部が検出した前記基準位置の中から前記第二視聴者基準位置を選択する基準位置選択部と、を具備することを特徴とする。
このコミュニケーションシステムは、複数の視聴者の基準位置から会話者の基準位置である第二視聴者基準位置を選択し、画像伸縮部が第二視聴者基準位置に基づいて画像を生成するので、表示部を見る視聴者が２人以上いる場合でも、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【０００８】
［３］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステム、かつ、通信路を介して接続された第一端末装置及び第二端末装置を有するコミュニケーションシステムであって、前記第一端末装置は、前記画像出力部と、前記基準位置選択部と、を具備し、前記第二端末装置は、前記基準位置検出部と、前記表示部と、前記画像伸縮部と、を具備することを特徴とする。
このコミュニケーションシステムは、上述のコミュニケーションシステムと同様、複数の視聴者の基準位置から会話者の基準位置である第二視聴者基準位置を選択し、画像伸縮部が第二視聴者基準位置に基づいて画像を生成するので、表示部を見る視聴者が２人以上いる場合でも、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【０００９】
［４］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記第二視聴者を含む１人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、を具備し、前記基準位置検出部は、前記１人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、前記第二ステレオ画像から前記１人以上の視聴者の各々の顔またはその一部の画像を検出し、前記１人以上の視聴者の各々の基準位置を算出する基準位置算出部と、を具備し、前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択する、ことを特徴とする。
このコミュニケーションシステムは、第一撮像部と自由視点画像生成部とが第一視聴者を正面（視線方向）から見た画像を出力し、第二撮像部と基準位置算出部とが基準位置を検出し、基準位置選択部が基準位置の中から第二視聴者基準位置を選択して出力するので、上述のコミュニケーションシステムと同様、表示部を見る視聴者が２人以上いる場合でも、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【００１０】
［５］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記表示面は少なくとも２方向に異なる画像を表示し、前記基準位置選択部は、前記第二視聴者基準位置を選択するとともに、前記第二視聴者基準位置に前記表示面が前記異なる画像を表示する方向である表示方向のいずれかを対応付け、前記表示部は、前記画像伸縮部から入力される画像を、前記第二視聴者基準位置に対応付けられた方向に表示する、ことを特徴とする。
このコミュニケーションシステムは、選択された第二視聴者基準位置の方向に対して、上述のコミュニケーションシステムと同様、会話者と視線が一致する画像を表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。
【００１１】
［６］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記第二視聴者を含む１人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、を具備し、前記基準位置検出部は、前記１人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、前記第二ステレオ画像から前記１人以上の視聴者の各々の顔またはその一部の画像を検出し、前記１人以上の視聴者の各々の基準位置を算出する基準位置算出部と、を具備し、前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付ける、ことを特徴とする。
このコミュニケーションシステムは、第一撮像部と自由視点画像生成部とが第一視聴者を正面（視線方向）から見た画像を出力し、第二撮像部と基準位置算出部とが基準位置を検出し、基準位置選択部が基準位置の中から第二視聴者基準位置を選択して出力するので、上述のコミュニケーションシステムと同様、選択された第二視聴者基準位置の方向に対して、会話者と視線が一致する画像を表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。
【００１２】
［７］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記表示面は少なくとも２方向に異なる画像を表示し、前記基準位置選択部は、前記表示面が前記異なる画像を表示する方向である表示方向の各々に、基準位置のいずれかを対応付け、前記画像出力部は、前記第二視聴者基準位置が対応付けられていない方向に対応付けられた基準位置に基づいて定められる位置から見た前記第一視聴者の画像を生成し、当該方向と当該画像とを対応付けて前記画像伸縮部に出力し、前記画像伸縮部は、前記入力された方向の各々について、当該方向に対応付けられた画像に対して、当該方向に対応付けられた基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記当該方向に対応付けられた基準位置を中心とする透視投影変換を行った画像を算出し、算出した画像を当該方向と対応付けて出力し、前記表示部は、前記画像伸縮部から入力される画像を、該画像に対応付けられた方向に表示する、ことを特徴とする。
このコミュニケーションシステムは、基準位置選択部が選択しない基準位置に対して、この基準位置に基づいて定められる位置から見た画像を出力する。この画像として、第二視聴者基準位置の方向を向く会話者の画像を表示することで、会話者でない視聴者に対して、会話者同士が向かい合う、より自然な画像を表示することができる。
【００１３】
［８］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、前記第二視聴者を含む一人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記基準位置選択部が前記表示方向に対応付けた前記視点の位置のうち前記第二視聴者基準位置を除く視点の位置の各々に対して、前記表示面の中心の位置を中心とする、当該視点の位置から前記第二視聴者基準位置への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、当該視点の位置が対応付けられた表示方向と前記生成した画像とを対応付けて前記画像伸縮部に出力する自由視点画像生成部と、を具備し、前記基準位置検出部は、前記１人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、前記第二ステレオ画像から前記１人以上の視聴者の顔またはその一部の画像を検出し、前記１人以上の視聴者の各々の基準位置を算出する基準位置算出部と、を具備し、前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者の基準位置を、前記基準位置算出部が算出する基準位置の中から第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付け、前記第二視聴者基準位置に対応付けられた方向以外の表示方向の各々に、第二視聴者基準位置以外の基準位置のいずれかを、前記表示面と各基準位置との位置関係に基づいて対応付ける、ことを特徴とする。
このコミュニケーションシステムは、第二視聴者基準位置を除く視点の位置の各々に対して、第二視聴者基準位置を向く会話者の画像を表示する。したがって、会話者でない視聴者に対して、会話者同士が向かい合う、より自然な画像を表示することができる。
【００１４】
［９］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステム、かつ、通信路を介して互いに接続され、第一視聴者が利用する第一端末装置と第二視聴者が利用する第二端末装置と第三視聴者が利用する第三端末装置を有するコミュニケーションシステムであって、前記第一視聴者と前記第二視聴者と第三視聴者とのうち何れか２人を会話者として選択する会話者選択部をさらに具備し、前記画像出力部は、前記会話者選択部が、前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して前記画像伸縮部に出力し、前記第一視聴者と前記第三視聴者とを選択した場合は、正面以外から見た前記第一視聴者の画像を生成して前記画像伸縮部に出力する、ことを特徴とする。
このコミュニケーションシステムは、第一視聴者と第二視聴者が会話者であるときは、上述のコミュニケーションシステムと同様、第一視聴者と視線が一致する画像を第二視聴者に表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。これにより第二視聴者は、相手の会話者と視線が一致した自然な画像を見ながら会話を行うことができる。また、第一視聴者と第三視聴者とが会話者であって第二視聴者が会話者でないときは、第一視聴者を正面以外から見た画像を第二視聴者に表示する。第三視聴者が表示された表示部の方向を向いた第一視聴者の画像を表示することにより、会話者でない第二視聴者は、会話者である第一視聴者が相手の会話者の方向を向いた、より自然な画像を見ることができる。
【００１５】
［１０］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステム、かつ、通信路を介して前記第一端末装置と前記第二端末装置と前記第三端末装置とに接続された会話者選択装置を有するコミュニケーションシステムであって、前記第一端末装置は、前記画像出力部を具備し、前記第二端末装置は、前記基準位置出力部と、前記表示部と、前記画像伸縮部と、を具備し、前記会話者選択装置は、前記会話者選択部を具備する、ことを特徴とする。
このコミュニケーションシステムは、上述のコミュニケーションシステムと同様、第一視聴者と第二視聴者が会話者であるときは、第一視聴者と視線が一致する画像を第二視聴者に表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。これにより第二視聴者は、相手の会話者と視線が一致した自然な画像を見ながら会話を行うことができる。また、第一視聴者と第三視聴者とが会話者であって第二視聴者が会話者でないときは、第一視聴者を正面以外から見た画像を第二視聴者に表示する。第三視聴者が表示された表示部の方向を向いた第一視聴者の画像を表示することにより、会話者でない第二視聴者は、会話者である第一視聴者が相手の会話者の方向を向いた、より自然な画像を見ることができる。
【００１６】
［１１］また、本発明の一態様によるコミュニケーションシステムは上述のコミュニケーションシステムであって、第三視聴者を撮像する第三視聴者撮像部をさらに具備し、前記画像出力部は、前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一視聴者撮像部と、前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記会話者選択部が前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して出力し、前記会話者選択部が前記第一視聴者と前記第三視聴者とを選択した場合は、前記表示面の中心の位置を中心とする、前記第二表示面の中心の位置から前記基準位置出力部が出力する基準位置の方向への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、前記正面以外から見た前記第一視聴者の画像として出力する自由視点画像生成部と、を具備し、前記基準位置出力部は、前記第二視聴者を被写体とする第二ステレオ画像を撮像する第二視聴者撮像部と、前記第二ステレオ画像から前記第二視聴者の顔またはその一部の画像を検出し、前記第二視聴者基準位置を算出する基準位置算出部と、を具備し、前記会話者選択部は、前記第一撮像部が撮像した画像と前記第二視聴者撮像部が撮像した画像と前記第三視聴者撮像部が撮像した画像とから、それぞれ前記第一視聴者の口の動きの頻度と前記第二視聴者の口の動きの頻度と前記第三視聴者の口の動きの頻度とを検出し、検出した頻度に基づいて会話者を選択し、選択した会話者の画像から視線方向を検出し、検出した視線方向に基づいて相手の会話者を選択する、ことを特徴とする。
このコミュニケーションシステムは、上述のコミュニケーションシステムと同様、第一視聴者と第二視聴者が会話者であるときは、第一視聴者と視線が一致する画像を第二視聴者に表示することができ、また、上述のコミュニケーションシステムと同様、自然な画像を表示することができる。これにより、第二視聴者は、相手の会話者と視線が一致した自然な画像を見ながら会話を行うことができる。また、第一視聴者と第三視聴者とが会話者であって第二視聴者が会話者でないときは、第三視聴者が表示された表示部の方向を向いた第一視聴者の画像を表示するので、会話者でない第二視聴者は、会話者である第一視聴者が相手の会話者の方向を向いた、より自然な画像を見ることができる。
【発明の効果】
【００１７】
本発明によれば、会話者が表示面に正対していない場合でも相手の会話者と視線が一致する画像を表示することができる。
【図面の簡単な説明】
【００１８】
【図１】本発明の第１の実施形態におけるテレビ会議システム１の概略構成を示すシステム構成図である。
【図２】同実施形態におけるテレビ会議端末装置１１が設置される会議室Ｒ１内の平面図である。
【図３】同実施形態におけるテレビ会議端末装置１２が設置される会議室Ｒ２内の平面図である。
【図４】同実施形態におけるテレビ会議端末装置１１及び１２の概略構成を示す構成図である。
【図５】同実施形態における表示部１１６を表示面に対して直角方向手前から見た正面図である。
【図６】同実施形態における表示部１２７を表示面に対して直角方向手前から見た正面図である。
【図７】同実施形態において基準位置算出部１２２が算出する基準位置の相対座標を示す図である。
【図８】同実施形態において基準位置算出部１２２が基準位置選択部１１２に入力するデータのデータ構成を示すデータ構成図である。
【図９】同実施形態において視聴者Ｐ１１が表示部１１６上の視聴者Ｐ２４の画像を見る視線を示す図である。
【図１０】同実施形態において基準位置選択部１１２が画像伸縮部１２６に入力する基準位置の情報のデータ構成を示すデータ構成図である。
【図１１】同実施形態において自由視点画像生成部１１３が表示部１１６の表示面の中央正面から撮像した場合の画像を生成する処理手順を示すフローチャートである。
【図１２】同実施形態において画像伸縮部１２６が行う画像の伸縮を示す図である。
【図１３】同実施形態において画像伸縮部１２６が画像の伸縮を行う処理手順を示すフローチャートである。
【図１４】同実施形態において自由視点画像生成部１１３が出力する画像および画像伸縮部１２６が画像の伸縮を行った画像の例を示す図である。
【図１５】本発明の第２の実施形態におけるテレビ会議システム２の概略構成を示すシステム構成図である。
【図１６】同実施形態において、各表示部が表示する画面の例を示す図である。
【図１７】同実施形態において、会話者選択部２４１が会話者を選択する処理手順を示すフローチャートである。
【図１８】同実施形態において、会話者選択部２４１が自由視点画像生成部２１３と２２３と２３３とに入力するデータのデータ構成図である。
【図１９】同実施形態において視聴者Ｐ３１が会話者でないと判断した場合に、自由視点画像生成部２２３及び自由視点画像生成部２３３が撮像位置を回転させる角度を示す図である。
【図２０】同実施形態において自由視点画像生成部２２３及び２３３が生成する画像の撮像位置を示す図である。
【図２１】同実施形態において画像伸縮部２１４及び２１５が行う画像の伸縮を示す図である。
【図２２】本発明の第３の実施形態におけるテレビ会議システム３の概略構成を示すシステム構成図である。
【図２３】同実施形態において表示部３２８が表示する画像の例を示す図である。
【図２４】同実施形態において表示部３１６が表示する画像の例を示す図である。
【図２５】同実施形態において基準位置選択部３１２が自由視点画像生成部３１３に入力するデータの構成を示すデータ構成図である。
【図２６】同実施形態において、視聴者Ｐ５１が会話者であると判断した場合に、自由視点画像生成部３１３が撮像位置を回転させる角度を示す図である。
【発明を実施するための形態】
【００１９】
＜第１の実施形態＞
以下、図面を参照して、本発明の実施の形態について説明する。以下では、コミュニケーションシステムの一例としてテレビ会議システムに本発明を適用した場合について説明するが、本発明の適用範囲はテレビ会議システムに限らない。なお、ここでいうコミュニケーションシステムとは、コミュニケーションの当事者の画像を相手当事者に表示するシステムであり、例えば、テレビ会議システムや、インフォメーションディスプレイに案内係の画像を表示して情報提供を行うインフォメーションシステムや、ディスプレイに教師の画像を表示して授業を行う教育システム等がある。
【００２０】
図１は、本発明の第１の実施形態におけるテレビ会議システム１の概略構成を示すシステム構成図である。同図において、テレビ会議システム１は、通信ネットワーク１３によって互いに接続されるテレビ会議端末装置（第一端末装置）１１とテレビ会議端末装置（第二端末装置）１２とを含んで構成される。テレビ会議端末装置１１で撮像された画像及び採音された音声は、送信装置により通信ネットワーク１３を介してテレビ会議端末装置１２に送られ、そこの受信装置を介して表示部により画像及び音声が再現・表示される。また、テレビ会議端末装置１２で撮像された画像及び採音された音声は、送信装置により通信ネットワーク１３を介してテレビ会議端末装置１１に送られ、そこの受信装置を介して表示部により画像及び音声が再現・表示される。
【００２１】
図２は、テレビ会議端末装置１１が設置される会議室Ｒ１内の平面図である。後述するように、テレビ会議端末装置１１は撮像装置１１１−１及び１１１−２と表示部（第二表示部）１１６とを含んで構成される。同図において、会議室Ｒ１内には撮像装置１１１−１及び１１１−２と表示部１１６と机Ｔ１とが配置され、視聴者（第一視聴者）Ｐ１１が居る。なお、テレビ会議端末装置１１を構成する他の部分の配置については図示を省略する。これらは会議室Ｒ１内に配置されていてもよいし、会議室Ｒ１外に配置されていてもよい。あるいは、表示部１１６の筐体内に組み込まれていてもよい。
【００２２】
図３は、テレビ会議端末装置１２が設置される会議室Ｒ２内の平面図である。後述するように、テレビ会議端末装置１２は撮像装置１２１−１及び１２１−２と表示部１２７とを含んで構成される。同図において、会議室Ｒ２には撮像装置１２１−１及び１２１−２と表示部１２７と机Ｔ２とが配置され、視聴者Ｐ２１とＰ２２とＰ２３とＰ２４とＰ２５とが居る。なお、テレビ会議端末装置１２を構成する他の部分の配置については図示を省略する。これらは会議室Ｒ２内に配置されていてもよいし、会議室Ｒ２外に配置されていてもよい。あるいは、表示部１２７の筐体内に組み込まれていてもよい。
【００２３】
図４は、テレビ会議端末装置１１及び１２の概略構成並びにそれらの間の通信ネットワーク（図１）を介する接続関係を示す構成図である。同図において、テレビ会議システム１は、テレビ会議端末装置１１とテレビ会議端末装置１２とを含んで構成される。テレビ会議端末装置１１は、撮像部（第一撮像部）１１１と基準位置選択部１１２と自由視点画像生成部１１３と表示部１１６とを含んで構成される。撮像部（第一撮像部）１１１は撮像装置１１１−１及び１１１−２を含んで構成される。テレビ会議端末装置１２は、撮像部（第二撮像部）１２１と基準位置算出部１２２と画像伸縮部１２６と表示部１２７とを含んで構成される。撮像部１２１は撮像装置１２１−１及び１１１−２を含んで構成される。なお、撮像部１１１が３個以上の撮像装置を備えるようにしてもよい。同様に、撮像部１２１が３個以上の撮像装置を備えるようにしてもよい。撮像部１２１または撮像部１３１が備える撮像装置の数を増やし、被写体である視聴者の広い範囲を撮像することにより、後述する視聴者の画像を生成する際に、様々な向きの画像を生成することができる。また、生成する画像の向きに近い方向から撮像した画像を用いることにより、後述する視聴者の画像を生成する際に、より精度の高い３次元座標データを算出し、より精度の高い画像を生成することができる。
【００２４】
撮像部１２１と基準位置算出部１２２とが本発明の基準位置検出部１２３に対応し、視聴者の視点の位置（以下、基準位置ともいう）を、会話者である第二視聴者を含む１人以上の視聴者について検出する。本実施形態においては、撮像部１２１が撮像する画像を用いて、基準位置算出部１２２が基準位置を算出することにより、基準位置検出部１２３は、基準位置を検出する。なお、基準位置検出部が基準位置を検出する方法は、前述の方法に限らない。例えば、基準位置検出部が基準位置算出部から構成され、後述するように基準位置算出部が位置センサを用いて基準位置を求めることによって、基準位置検出部が基準位置を検出するなど、他の方法を用いてもよい。
【００２５】
また、この基準位置検出部１２３と基準位置選択部１１２とが本発明の基準位置出力部に対応し、会話者である第二視聴者の基準位置（以下では、第二視聴者基準位置ともいう）を出力する。本実施形態では、基準位置検出部１２３が検出した基準位置の中から、基準位置選択部１１２が会話者である第二視聴者の基準位置を選択することにより、基準位置出力部は、第二視聴者基準位置を検出する。
また、撮像部１１１と自由視点画像生成部１１３とが本発明の画像出力部１１４に対応し、第一視聴者を撮像して、第一視聴者を正面から見た画像（以下では、正面画像ともいう）を出力する。本実施形態では、撮像部１１１が撮像する画像を用いて、自由視点画像生成部１１３が視聴者Ｐ１１（第一視聴者）の正面画像を生成し、生成した正面画像を出力することによって、画像出力部１１４が正面画像を出力する。なお、画像出力部が正面画像を出力する方法は、前述の方法に限らない。例えば、画像出力部が撮像装置から構成され、後述するように、ハーフミラーを使用する既存の方法により、撮像装置が表示部１１６の表示面の中央正面からの画像を撮像することにより、画像出力部が正面画像を出力するなど、他の方法を用いてもよい。
なお、画像出力部１１４が出力する画像は、第一視聴者を真正面から見た画像でなくともよく、視聴者が見て違和感を感じない程度であれば、真正面からずれた位置から見た画像であってもよい。
【００２６】
撮像装置１１１−１と１１１−２と１２１−１と１２１−２とは、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ；電荷結合素子）とレンズとを含んで構成され、動画像を撮像するカメラである。なお、撮像装置１１１−１又は１１１−２又は１２１−１又は１２１−２が撮像素子として、ＣＣＤに換えてＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ；相補性金属酸化膜半導体）等の固体撮像デバイスを含んで構成されるようにしてもよい。また、表示部１１６が撮像装置１１１−１又は１１１−２としてカメラモジュールを内蔵するようにしてもよいし、表示部１２７が撮像装置１２１−１又は１２１−２としてカメラモジュールを内蔵するようにしてもよい。
【００２７】
表示部１１６及び１２７は、液晶パネルの表示面を含んで構成され、表示面に動画像等の画像を表示する。なお、表示部１１６及び１２７が、プラズマディスプレイパネルなど液晶パネル以外の表示面を含むようにしてもよい。
自由視点画像生成部１１３は、撮像部１１１が撮像した画像に基づいて、正面画像を生成する。
基準位置算出部１２２は、撮像部１２１が撮像した画像に基づいて、視聴者の両目の中央を結ぶ線の中心位置を基準位置として算出する。基準位置選択部１１２は、基準位置算出部１２２が算出した基準位置の中から、会話者の基準位置を選択する。以下では、選択される会話者を第二視聴者ともいい、第二視聴者の基準位置を第二視聴者基準位置ともいう。
画像伸縮部１２６は、会話者（第二視聴者）が表示部１２７に対して斜めに位置する場合に、表示部１２７に表示すると、画像中の視聴者がこの会話者の位置からは正面から見たように見えるよう、画像の伸縮を行う。
【００２８】
図５は、表示部１１６を表示面に対して直角方向手前から見た正面図である。表示部１１６には、視聴者Ｐ２１〜Ｐ２５を含む画像が表示される。表示部１１６の上部左右の端部に撮像装置１１１−１及び１１１−２が設置されている。
【００２９】
図６は、表示部１２７を表示面に対して直角方向手前から見た正面図である。表示部１２７には、視聴者Ｐ１１を含む画像が表示される。表示部１２７の上部左右の端部に撮像装置１２１−１及び１２１−２が設置されている。
【００３０】
次に、テレビ会議システム１の動作について説明する。
撮像部１２１は視聴者Ｐ２１〜Ｐ２５を含むステレオ画像（第二ステレオ画像）を撮像する。ここで、ステレオ画像とは、被写体を異なる角度から同時に撮像した複数の画像をいう。撮像部１２１は、被写体である視聴者Ｐ２１〜Ｐ２５を、撮像部１２１−１と撮像部１２１−２とで同時に撮像することにより、ステレオ画像を撮像する。撮像部１２１は、撮像した画像を基準位置算出部１２２に入力し、また、通信ネットワーク１３（図１）を介して表示部１１６に入力する。表示部１１６は、撮像部１２１から受ける画像のうち、撮像装置１２１−１が撮像した画像を表示する。なお、撮像部１２１と表示部１１６との間に自由視点画像生成部を設け、表示部１２７の表示面中央から撮像した場合の画像をこの自由視点画像生成部が生成するようにしてもよい。この場合、表示部１１６は、表示部１２７の表示面中央から撮像した場合の画像を表示する。これにより、視聴者Ｐ２１〜Ｐ２５のうちの会話者が表示部１２７を注視する場合に、視聴者Ｐ１１は、この会話者と視線が一致した画像を見ながら会話を行うことができる。この自由視点画像生成部は、後述する自由視点画像生成部１１３と同様に、ステレオマッチング法を用いて３次元モデルを生成することにより、表示部１２７の表示面中央から撮像した場合の画像を生成する。
基準位置算出部１２２は、撮像部１２１から受ける画像に基づいて、視聴者Ｐ２１〜Ｐ２５の基準位置を算出する。基準位置算出部１２２は、表示部１２７の表示面中央に対する各基準位置の相対座標を算出する。そして、基準位置算出部１２２は、算出した各基準位置を基準位置選択部１１２に、通信ネットワーク１３（図１）を介して出力する。
【００３１】
図７は基準位置算出部１２２が算出する基準位置の相対座標を示す図である。同図には、視聴者Ｐ２４の基準位置Ｐが示されている。図７（ａ）のように、基準位置算出部１２２は、表示部１２７の表示面中央を原点Ｏ(０、０、０)とする。また、基準位置算出部１２２は、原点Ｏから表示部１２７の表示面に垂直に伸びる直線をｚ軸とし、表示部１２７の表示面正面の向きをｚ軸の正の向きとする。また、表示部１２７の表示面は横長の長方形であり、基準位置算出部１２２は、原点Ｏを通り表示面の長辺と平行な直線をｘ軸とし、正面から見て右向きをｘ軸の正の向きとする。また、基準位置算出部１２２は、原点Ｏを通り表示面の短辺と平行な直線をｙ軸とし、上向きをｙ軸の正の向きとする。基準位置算出部１２２は、視聴者Ｐ２４の基準位置Ｐの座標（ｘｐ、ｙｐ、ｚｐ）を算出する。基準位置算出部１２２は、他の視聴者についても同様に基準位置を算出する。
【００３２】
基準位置算出部１２２は、撮像装置１２１−１及び１２１−２の画角と表示部１２７に対する相対的な位置及び方向を内部の記憶部（不図示）に記憶している。そして、基準位置算出部１２２は、撮像装置１２１−１及び１２１−２が撮像した画像を用いて、ステレオマッチング法にて各視聴者の基準位置の座標を算出する。
具体的には、基準位置算出部１２２は、まず、肌の色および顔形状のパターンマッチングにて撮像装置１２１−１が撮像した画像と撮像装置１２１−２が撮像した画像とに対して顔検出を行う。複数の顔の画像が検出される場合は、基準位置算出部１２２は、両画像間でのずれ量が最も少ない顔の画像同士を同一の顔の画像と判断する。以下、複数の目の対応付け等も同様である。そして、基準位置算出部１２２は、黒目の色及び形状や眉毛の色及び形状に基づいて、検出した各顔の中からさらに両目を検出する。基準位置算出部１２２は検出した両目の各々の中心について、両画像間における注目点のずれ量と各カメラの位置関係に基づいて、三角測量にて三次元座標を算出する。さらに、基準位置算出部１２２は、両目の各々の三次元座標から両目を結ぶ線分の中心の三次元座標を算出し、この三次元座標を基準位置の座標とする。
【００３３】
なお、基準位置算出部１２２が、目頭の形状に基づくパターンマッチングにて目頭を検出し、両目頭を結ぶ直線の中点を基準位置とするなど、顔またはその一部の画像を検出して、基準位置を算出するようにしてもよい。
なお、基準位置算出部１２２が基準位置を算出する方法は、上述のステレオマッチングによる方法に限らない。例えば、位置検出センサを用いて視聴者Ｐ２１〜Ｐ２５の位置を検出し、検出した位置の中心を基準位置として近似的に求めるなど、他の方法を用いて基準位置を算出するようにしてもよい。
また、基準位置算出部１２２が基準位置Ｐの座標を図７（ｂ）に示す極座標形式で算出するなど、上記以外の座標の形式で算出するようにしてもよい。例えば、基準位置算出部１２２は、同図（ｂ）のように、同図（ａ）の原点Ｏを原点とし、原点Ｏから基準位置Ｐまでの距離をｒとする。また、基準位置算出部１２２は、原点Ｏを中心としてｚ軸から点（ｘｐ，０，ｚｐ）までの角度をφとし、ｙ軸の正の向きから見て左回り方向をφの正の角度とする。また、基準位置算出部１２２は、原点Ｏを中心として点（ｘｐ，０，ｚｐ）から点Ｐまでの角度をθとし、点（ｘｐ，０，ｚｐ）からｙ軸の正の側へ回転する側を正の角度とする。基準位置算出部１２２は、基準位置Ｐの座標（ｒ，φ，θ）を算出する。
【００３４】
基準位置算出部１２２は、上記の顔検出において検出したそれぞれの顔が画像中に占める領域を算出し、各顔検出に基づいて得られる基準位置と対応付けて基準位置選択部１１２に出力する。
図８は基準位置算出部１２２が基準位置選択部１１２に出力するデータのデータ構成を示すデータ構成図である。
同図において、基準位置算出部１２２が基準位置選択部１１２に出力するデータは視聴者の人数分の基準位置の情報と各視聴者の顔が画像中に占める領域を表す情報とを含んで構成される。
基準位置の情報は視聴者の基準位置の座標を示す情報である。表示部上の座標の情報は、視聴者の顔が画像中に占める領域の座標を示す情報である。基準位置算出部１２２は、視聴者の顔が画像中に占める領域のｘ座標の最小値および最大値とｙ座標の最小値および最大値とを出力する。なお、基準位置算出部１２２が、視聴者の顔が画像中に占める領域を表す情報は、ｘ座標の最小値および最大値とｙ座標の最小値および最大値に限らない。例えば、基準位置算出部１２２が視聴者の顔を楕円で近似して中心点の座標と長軸及び短軸の長さを、顔が画像中に占める領域を表す情報としてもよい。あるいは、基準位置算出部１２２が視聴者の顔を四角形より角数の多い多角形の位置で近似した各頂点の座標を、顔が画像中に占める領域を表す情報としてもよい。
また、同図の、基準位置のデータの単位はミリメートルであり、表示部上の座標の単位はピクセルである。なお、基準位置のデータの単位はミリメートルに限らず、例えばインチなど長さを表す他の単位を用いてもよい。また、表示部上の座標の単位はピクセルに限らず、例えば、表示面の水平方向の辺の長さを１とし、これに対する表示面左端からの相対的な長さで水平方向の座標を表すなど、他の単位を用いてもよい。
【００３５】
撮像部１１１は、視聴者Ｐ１１の画像を撮像し、基準位置選択部１１２と自由視点画像生成部１１３とに入力する。撮像部１１１は、撮像装置１１１−１と撮像装置１１１−２とを用いて、視聴者Ｐ１１のステレオ画像（第一ステレオ画像）を撮像する。基準位置選択部１１２は、基準位置算出部１２２から通信ネットワーク１３（図１）を介して受ける基準位置の中から、会話者に対応する１個の基準位置を選択して画像伸縮部１２６に出力する。基準位置選択部１１２は、撮像部１１１から受ける画像から、視聴者Ｐ１１の視線方向を検出し、視聴者Ｐ１１が注目している視聴者を会話者と判断し、この会話者に対応する基準位置を選択する。
具体的には、基準位置選択部１１２は、まず、撮像部１１１が撮像した画像から視聴者Ｐ１１の顔を検出し、検出した顔の中から目を検出する。基準位置選択部１１２は、検出した顔の方向及び目の位置から視聴者Ｐ１１の視線方向を検出する。顔の方向は、例えば左右の目の面積の大小より判別する。基準位置選択部１１２は、検出した視線方向と表示部１１６の表示面との交点を、視聴者Ｐ１１が注目する表示部１１６上の点として検出する。そして、基準位置選択部１１２は、基準位置算出部１２２から受ける、視聴者Ｐ２１〜Ｐ２５のそれぞれの顔が画像中に占める領域の情報の中から、視聴者Ｐ１１が注目する表示部１１６上の点を含む領域の情報を選択することにより、視聴者Ｐ１１が注目する視聴者を会話者として選択する。基準位置選択部１１２は、選択した領域の情報に対応付けられた基準位置を、会話者に対応する基準位置として画像伸縮部１２６に、通信ネットワーク１３を介して出力する。
【００３６】
図９は、視聴者Ｐ１１が表示部１１６上の視聴者Ｐ２４の画像を見る視線を示す図である。同図において、表示部１１６には視聴者Ｐ２１〜Ｐ２５の画像が表示されており、視聴者Ｐ１１は、視聴者Ｐ２４を見ている。この視聴者Ｐ１１を、表示部１１６に設置された撮像装置１１１−１及び１１１−２が撮像する。基準位置選択部１１２は撮像装置１１１−１及び１１１−２が撮像する画像を用いて上記のように視聴者Ｐ１１の視線方向を検出して基準位置を選択する。
【００３７】
図１０は、基準位置選択部１１２が画像伸縮部１２６に出力する基準位置の情報のデータ構成を示すデータ構成図である。同図において、基準位置選択部１１２が画像伸縮部１２６に出力する基準位置の情報は、１個の基準位置の座標を含んで構成される。後述するように、画像伸縮部１２６は撮像部１１１から受ける画像をこの基準位置に基づいて伸縮する。
なお、基準位置選択部１１２が会話者に対応する１個の基準位置を選択する方法は、上記に示した視線を検出する方法に限らない。例えば、表示部１１６がタッチパネルになっており、視聴者Ｐ１１が表示部１１６上の視聴者が表示されている位置に触れることで相手の会話者を選択するようにしてもよい。基準位置選択部１１２は、選択された視聴者に対応する基準位置を選択する。あるいは、基準位置選択部１１２が表示部１１６上にカーソルを表示し、視聴者Ｐ１１がリモートコントローラ等によりそのカーソル位置を操作して相手の会話者を選択すると、基準位置選択部１１２が選択された会話者に対応する基準位置を選択するようにしてもよい。また、視聴者Ｐ２１〜Ｐ２５のいずれかが視聴者Ｐ１１に話しかける場合に、基準位置選択部１１２が音声認識あるいは口の動きの検出によって発言している視聴者を特定し、特定した視聴者を会話者として選択するようにしてもよい。あるいは、視聴者Ｐ２１〜Ｐ２５の各々用のマイクを設け、基準位置選択部１１２は視聴者が発言のためにマイクのスイッチを入れたことを検出して会話者を選択するようにしてもよい。
【００３８】
自由視点画像生成部１１３は、撮像部１１１が撮像した画像に基づいて、表示部１１６の表示面の中央正面から撮像した場合の画像を生成する。自由視点画像生成部１１３は、複数の画像から任意視点の画像を生成する既存の方法を用いて、画像を生成する。
具体的には、自由視点画像生成部１１３は、撮像装置１１１−１が撮像した画像および撮像装置１１１−２が撮像した画像を用いて、ステレオマッチング法によって視聴者Ｐ１１上の各点（以下、注目点ともいう）の三次元座標を算出する。この際、自由視点画像生成部１１３は、撮像装置１１１−１が撮像した画像上に注目点を設定し、撮像装置１１１−２が撮像した画像上で、この注目点に相当する点（以下、対応点ともいう）を以下の方法により決定する。まず、自由視点画像生成部１１３は、撮像装置１１１−１と１１１−２との位置関係に基づき、撮像装置１１１−２が撮像した画像上に、対応点の検索範囲を設定する。自由視点画像生成部１１３は、検索範囲内の各画素について、その画素及びその周辺の画素と、注目点及びその周辺の画素とを対応付け、対応付けた各画素の明るさの差の合計を算出する。自由視点画像生成部１１３は、検索範囲内の各画素のうち、明るさの差の合計が最小となる点を、対応点とする。なお、自由視点画像生成部１１３が、画像から濃淡エッジ等の特徴を抽出するなど、他の方法を用いて注目点と対応点とを決定するようにしてもよい。
自由視点画像生成部１１３は、この注目点の三次元座標をステレオマッチング法によって算出する。
【００３９】
次に、自由視点画像生成部１１３は算出した三次元座標に基づいて視聴者Ｐ１１の三次元モデルを構築する。また、自由視点画像生成部１１３は、基準位置選択部１１２と同様に、視聴者Ｐ１１の視線方向を検出する。自由視点画像生成部１１３は、構築した三次元モデルを元に、視聴者Ｐ１１の視線方向から見た視聴者Ｐ１１の画像を生成する。その際、自由視点画像生成部１１３は、視聴者Ｐ１１の基準位置を画像の中央に合わせて画像を生成する。自由視点画像生成部１１３は、生成した画像を画像伸縮部１２６に、通信ネットワーク１３（図１）を介して入力する。
【００４０】
図１１は自由視点画像生成部１１３が視聴者Ｐ１１の視線方向から見た視聴者Ｐ１１の画像を生成する処理手順を示すフローチャートである。自由視点画像生成部１１３は、テレビ会議端末装置１１が起動すると、視聴者Ｐ１１の視線方向から見た視聴者Ｐ１１の画像を生成する処理を開始する。
ステップＳ１において、自由視点画像生成部１１３は、撮像部１１１から画像が入力されたか否かを判断する。例えば、撮像部１１１は、自由視点画像生成部１１３に所定のヘッダを持つフレームデータの形式で画像を入力し、自由視点画像生成部１１３は、このヘッダを検出すると画像が入力されたと判断する。画像が入力されたと判断した場合（ステップＳ１：ＹＥＳ）はステップＳ２に移り、入力されていないと判断した場合（ステップＳ１：ＮＯ）はステップＳ１を繰り返す。
ステップＳ２〜Ｓ４において、自由視点画像生成部１１３はステレオマッチング法によって視聴者Ｐ１１の各部の位置を算出する。ステップＳ２において、自由視点画像生成部１１３は、撮像部１１１から受ける、撮像装置１１１−１と１１１−２とのそれぞれが撮像した画像に共通する注目点を抽出する。自由視点画像生成部１１３は視聴者Ｐ１１の画像上の点を含む注目点を抽出する。ステップＳ３において、自由視点画像生成部１１３は、各注目点について、撮像装置１１１−１が撮像した画像と撮像装置１１１−２が撮像した画像との視差を算出する。ステップＳ４において、自由視点画像生成部１１３は、算出した視差に基づき三角測量を用いて各注目点の三次元座標を算出する。
【００４１】
ステップＳ５において、自由視点画像生成部１１３は算出した三次元画像に基づいて視聴者Ｐ１１の三次元モデルを生成する。ステップＳ６において、自由視点画像生成部１１３は、生成した三次元モデルの表面に質感を与えるための公知のテキスチャマッピングを行う。ステップＳ７において、自由視点画像生成部１１３は、視聴者Ｐ１１の視線方向を検出する。ステップＳ８において、自由視点画像生成部１１３は、テキスチャマッピングを行った三次元モデルに基づいて、視聴者Ｐ１１の視線方向から撮像した場合の画像を生成する。ステップＳ９において、自由視点画像生成部１１３は生成した画像を画像伸縮部１２６に入力する。その後ステップＳ１に移る。
【００４２】
なお、基準位置選択部１１２が自由視点画像生成部１１３に、視聴者Ｐ１１が注目する表示部１１６上の点の座標を入力し、自由視点画像生成部１１３がこの点から視聴者Ｐ１１を撮像した画像を生成するようにしてもよい。これにより、自由視点画像生成部１１３が視聴者Ｐ１１の視線方向を検出する処理を削減することができる。あるいは、自由視点画像生成部１１３が表示部１１６の表示面中央から見た画像を生成するようにしてもよい。これにより、視聴者Ｐ１１が表示面中央付近を注目している場合には、自由視点画像生成部１１３は視聴者Ｐ１１の視線方向から見た画像を生成することが出来る。
なお、ハーフミラーを使用する既存の方法により、撮像装置が表示面の中央正面からの画像を撮像するようにしてもよい。例えば、表示部１１６は表示面にハーフミラーを備える。このハーフミラーは表示面の下方向に設置された投影部が投影する画像を表示面の正面方向に反射する。これにより表示部１１６は表示面に画像を表示する。また、表示部１１６は表示面の中央かつハーフミラーの後ろに撮像装置を備え、この撮像装置は表示面の中央正面からの画像を撮像する。これにより、この撮像装置は、視聴者Ｐ１１が表示面を見ている場合には、その正面から画像を撮像する。なお、このハーフミラーを使用する既存の方法による場合は、テレビ会議システム１は自由視点画像生成部１１３を具備しなくてもよい。
【００４３】
画像伸縮部１２６は、表示部１２７の表示面に正対した場合の画像が会話者である視聴者の位置から見えるよう、自由視点画像生成部１１３から受ける画像を伸縮する。まず、画像伸縮部１２６は、基準位置選択部１１２から受ける基準位置（ｘｐ，ｙｐ，ｚｐ）に基づいて、図７（ｂ）に示した原点Ｏと基準位置Ｐとの間の距離ｒと、ｘ軸回りの角度θと、ｙ軸回りの角度φとを算出する。画像伸縮部１２６は、ｘ軸の正の側から見て右回りを正の角度として角度θを算出し、ｙ軸の正の側から見て左回りを正の角度として角度φを算出する。
画像伸縮部１２６は、式（１）に基づいてｒとθとφとを算出する。基準位置Ｐは原点Ｏに対し、距離ｒで、鉛直方向にθ、水平方向にφ回転した位置にある。
【００４４】
【数１】

【００４５】
次に、画像伸縮部１２６は、自由視点画像生成部１１３から受ける画像を伸縮する。
図１２は、画像伸縮部１２６が行う画像の伸縮を示す図である。同図は、表示部１２７を上から見た平面図であり、原点Ｏとｘ軸とｚ軸と角度φと基準位置Ｐとは図７のものと同様である。また、仮想表示面１２７’は直線ＯＰに垂直な平面である。図１２は基準位置Ｐと原点Ｏとのｙ方向のずれがない場合を示し、仮想表示面１２７’は直線で示されている。点Ｑは仮想表示面１２７’上の１点であり、直線ｌは点Ｑ及び点Ｐを通る直線である。点Ｒは直線ｌと表示部１２７の表示面との交点である。
画像伸縮部１２６は、表示部１２７の表示面中央と基準位置Ｐとの距離ｒ及び角度φ及び表示部１２７の表示面の大きさに基づいて、基準位置Ｐから表示部１２７を見た場合の表示部１２７の視野角αを算出する。
【００４６】
つぎに、画像伸縮部１２６は、原点Ｏを含み、直線ＯＰに垂直な仮想表示面１２７’の形状を算出する。仮想表示面１２７’は、基準位置Ｐから見た場合に表示部１２７の表示面と視野角が一致する表示面である。
画像伸縮部１２６は、表示部１２７の表示面の各辺の長さと仮想表示面１２７’の各辺の長さとを比較して、仮想表示面１２７’の各辺のうち、表示部１２７の表示面に対して最も拡大される辺を判定する。図１２の場合、画像伸縮部１２６は、ｙ軸に平行な辺のうちのｘ座標値が正の側の辺が表示部１２７の表示面に対して最も拡大される辺であると判定する。
画像伸縮部１２６は、判定した最も拡大される辺の拡大率に従って、自由視点画像生成部１１３から受ける画像を縦横比を保って拡大する。画像伸縮部１２６は、原点Ｏと拡大した画像の中心とを一致させ、かつ、仮想表示面１２７’の最も拡大される辺と拡大した画像中の対応する辺との方向を一致させて、拡大した画像を仮想表示面１２７’に対応付け、この対応付けた画像に対して、仮想表示面１２７’から表示部１２７の表示面への、基準位置Ｐを中心とする透過投影変換を行った画像を生成する。具体的には、画像伸縮部１２６は、自由視点画像生成部１１３から受ける画像の各画素（ピクセル）について、上記の対応付けによって仮想表示面１２７’上で対応付けられる位置を算出する。さらに、画像伸縮部１２６は、自由視点画像生成部１１３から受ける画像の各画素について、下記の写像によって表示部１２７の表示面上に対応付けられる位置を算出する。画像伸縮部１２６は、自由視点画像生成部１１３から受ける画像の各画素が表示部１２７の表示面上に対応付けられる位置に基づいて、自由視点画像生成部１１３の画素と表示部１２７の画素との対応付けを行う。画像伸縮部１２６は、この画素の対応付けに基づいて表示部１２７が表示する画像を生成し、表示部１２７に入力する。
【００４７】
同図の場合、仮想表示面１２７’は原点Ｏを通り、表示部１２７の表示面に対して角度φ傾いている。したがって、仮想表示面１２７’は図中のｘｚ平面内において式（２）で表される直線となる。
【００４８】
【数２】

【００４９】
また、仮想表示面上の点Ｑ（ｑ，−ｑ（ｔａｎφ））と点Ｐ（ｒ（ｓｉｎφ），ｒ（ｃｏｓφ））とを結ぶ直線は、式（３）で表される。
【００５０】
【数３】

【００５１】
この直線と表示部１２７の表示面との交点が、投影すべき点となる。その交点は、（２）式とｚ＝０との交点なので、投影点Ｒは、Ｒ（ｒｑ／（ｒ（ｃｏｓ^２φ）＋ｑ（ｓｉｎφ）），０）となる。
画像伸縮部１２６は、点Ｑ（ｑ，−ｑ（ｔａｎφ））から点Ｒ（ｒｑ／（ｒ（ｃｏｓ^２φ）＋ｑ（ｓｉｎφ）），０）への画像の投影により、自由視点画像生成部１１３から受ける画像を伸縮する。具体的には、自由視点画像生成部１１３から受ける画像中の、上記によって点Ｑに対応付けられる画素の画素値を、点Ｒに対応付けられる表示部１２７上の画素値として表示部１２７に入力する。
以上が２次元（ｙ＝０）の場合の処理である。３次元の場合も同様に、画像伸縮部１２６は、仮想表示面１２７’から表示部１２７の表示面に画像を投影した場合の画像を生成する。
【００５２】
図１３は画像伸縮部１２６が画像の伸縮を行う処理手順を示すフローチャートである。画像伸縮部１２６はテレビ会議端末装置１２が起動すると、画像の伸縮を行う処理を開始する。
ステップＳ２１において、画像伸縮部１２６は自由視点画像生成部１１３から画像が入力されたか否かを判断する。画像が入力されたと判断した場合（ステップＳ２１：ＹＥＳ）はステップＳ２２に移る。画像が入力されていないと判断した場合（ステップＳ２１：ＮＯ）はステップＳ２１を繰り返す。
ステップＳ２２において、画像伸縮部１２６は基準位置Ｐから見た場合の画像表示部１２７の表示面の視野角を算出する。ステップＳ２３において、画像伸縮部１２６は、仮想表示面１２７’の外形を算出する。ステップＳ２４において、画像伸縮部１２６は算出した仮想表示面１２７’の外形に基づいて、自由視点画像生成部１１３から受ける画像を拡大する。
ステップＳ２５において、画像伸縮部１２６は、仮想表示面１２７’から表示部１２７へ、基準位置Ｐを中心として投影した場合の画像を生成する。ステップＳ２６において、画像伸縮部１２６は、生成した画像を表示部１２７に入力する。
【００５３】
図１４は、自由視点画像生成部１１３が出力する画像および画像伸縮部１２６が画像の伸縮を行った画像の例を示す図である。
自由視点画像生成部１１３は、図１４（ａ）のように視聴者Ｐ１１を正面から見た画像を画像伸縮部１２６に入力する。画像伸縮部１２６が画像の伸縮を行い表示部１２７が表示する画像を表示部１２７の正面から見ると、図１４（ｂ）のように視聴者Ｐ１１を正面から見た画像が変形されて見える。これを、会話者である視聴者の位置から見ると、図１４（ｃ）のように視聴者Ｐ１１を正面から見た画像が見える。同図は、図１２で説明したように画像伸縮部１２６が会話者である視聴者の基準位置に基づいて算出した画像を、画面に向かっての右側にある基準位置から見た図である。このため、表示面の右側の辺が、左側の辺よりも長く見えている。
図１４（ｃ）のように、会話者である視聴者の位置からは、視聴者Ｐ１１を正面から見た画像が見えるので、会話者である視聴者は、相手の会話者である視聴者Ｐ１１と視線が一致した画像を見ながら会話を行うことができる。
【００５４】
以上のように、テレビ会議システム１では、自由視点画像生成部が正面画像を生成し、画像伸縮部１２６が、この正面画像を、第二視聴者視点位置から見ると視聴者Ｐ１１を正面から見た画像が見えるように変換する。したがって、第二視聴者基準位置から表示部１２７を見る会話者は、相手の会話者である視聴者Ｐ１１と視線が一致した画像を見ながら会話を行うことができる。また、会話者は、表示部１２７を斜めから見た場合に見える視聴者Ｐ１１が縦長に変形された画像ではなく、表示部１２７を正面から見た場合に見える自然な画像を見ながら会話を行うことができる。
なお、テレビ会議システム１における各部の配置は図４のものに限らず、基準位置選択部１１２と自由視点画像生成部１１３と基準位置算出部１２２と画像伸縮部１２６とは、テレビ会議端末装置１１とテレビ会議端末装置１２とのいずれに含まれていてもよいし、テレビ会議端末装置１１とテレビ会議端末装置１２とは別の装置に含まれていてもよい。
例えば、基準位置算出部１２２が、テレビ会議端末装置１１に含まれ、通信ネットワークを介して撮像部１２１から画像を受けるようにしてもよい。
【００５５】
＜第２の実施形態＞
図１５は、本発明の第２の実施形態におけるテレビ会議システム２の概略構成を示すシステム構成図である。同図において、テレビ会議システム２は、テレビ会議端末装置（第一端末装置）２１とテレビ会議端末装置（第二端末装置）２２とテレビ会議端末装置（第三端末装置）２３と会話者選択装置２４とを含んで構成される。テレビ会議端末装置２１とテレビ会議端末装置２２とテレビ会議端末装置２３と会話者選択装置２４とは、通信ネットワークによって互いに接続されている。テレビ会議端末装置２１は、撮像部（第一視聴者撮像部）２１１と基準位置算出部２１２と自由視点画像生成部２１３と画像伸縮部２１４及び２１５と表示部２１６及び２１７とを含んで構成される。テレビ会議端末装置２２は、撮像部（第二視聴者撮像部）２２１と基準位置算出部２２２と自由視点画像生成部２２３と画像伸縮部２２４及び２２５と表示部２２６及び２２７とを含んで構成される。テレビ会議端末装置２３は、撮像部（第三視聴者撮像部）２３１と基準位置算出部２３２と自由視点画像生成部２３３と画像伸縮部（第一画像伸縮部）２３４と画像伸縮部（第二画像伸縮部）２３５と表示部（第一表示部）２３６と表示部（第二表示部）２３７とを含んで構成される。会話者選択装置２４は会話者選択部２４１を含んで構成される。撮像部２１１は撮像装置２１１−１及び２１１−２を含んで構成される。撮像部２２１は撮像装置２２１−１及び２２１−２を含んで構成される。撮像部２３１は撮像装置２３１−１及び２３１−２を含んで構成される。
【００５６】
撮像部２２１と基準位置算出部２２２とが本発明の基準位置出力部に対応し、基準位置出力部は、会話者の基準位置である第二視聴者基準位置を出力する。本実施形態では、撮像部２２１が会話者である第二視聴者を撮像し、この画像を用いて基準位置算出部２２２が第二視聴者の基準位置を算出することにより、基準位置出力部が第二視聴者基準位置を検出して出力する。
また、撮像部２１１と自由視点画像生成部２１３とが本発明の画像出力部に対応し、後述する第一視聴者を撮像して、正面画像を出力する。本実施形態では、撮像部２１１が撮像する画像を用いて自由視点画像生成部２１３が正面画像を生成し、生成した正面画像を出力することによって、画像出力部が正面画像を出力する。なお、画像出力部が正面画像を出力する方法は、前述の方法に限らず、テレビ会議システム１の場合と同様の方法など、他の方法を用いるようにしてもよい。
【００５７】
撮像装置２１１−１と２１１−２と２２１−１と２２１−２と２３１−１と２３１−２とは、図１の撮像装置１１１−１等と同様である。
基準位置算出部２１２と２２２と２３２とは、図１の基準位置算出部１２２と同様に、基準位置を算出する。ただし、テレビ会議システム２において、１個のテレビ会議端末装置を一人の視聴者が使用する場合は、基準位置算出部２１２と２２２と２３２とは、各々１個の基準位置を算出する。１個のテレビ会議端末装置を複数の視聴者が使用する場合については後述する。
自由視点画像生成部２１３は、撮像部２１１が撮像した画像に基づいて、視聴者の視線方向から見た視聴者の画像を生成する。加えて、自由視点画像生成部２１３は、視聴者の視線方向から移動した位置から見た視聴者の画像を生成する。詳細については後述する。自由視点画像生成部２２３及び２３３も自由視点画像生成部２１３と同様である。
画像伸縮部２１４は、図１の画像伸縮部１２６と同様に、表示部２１６に表示する画像を伸縮する。画像伸縮部２１５と２２４と２２５と２３４と２３５とも画像伸縮部２１４と同様である。
表示部２１６と２１７と２２６と２２７と２３６と２３７とは、図１の表示部１２７と同様である。
会話者選択部２４１は、撮像部２１１と２２１と２３１とから入力される画像に基づいて、会話者を選択する。詳細については後述する。
【００５８】
図１６は、各表示部が表示する画面の例を示す図である。
同図（ａ）において会議室Ｒ２１に設置された表示部２１６と２１７とを視聴者Ｐ３１（第一視聴者）が見ている。表示部２１６には視聴者P３２（第二視聴者）が表示され、表示部２１７には視聴者Ｐ３３（第三視聴者）が表示されている。同図（ｂ）において会議室Ｒ２２に設置された表示部２２６と２２７とを視聴者Ｐ３２が見ている。表示部２２６には視聴者Ｐ３３が表示され、表示部２２７には視聴者Ｐ３１が表示されている。同図（ｃ）において会議室Ｒ２３に設置された表示部２３６と２３７とを視聴者Ｐ３３が見ている。表示部２３６には視聴者Ｐ３１が表示され、表示部２３７には視聴者Ｐ３２が表示されている。
また、同図は視聴者Ｐ３２とＰ３３とが会話者である場合の例である。同図（ａ）において、表示部２１６と２１７とには、それぞれ視聴者Ｐ３２とＰ３３とが互いに向き合うように表示される。一方、同図（ｂ）の表示部２２６には、第１の実施形態と同様、会話者Ｐ３３の画像が会話者Ｐ３２と視線が一致するように表示される。同様に、同図（ｃ）の表示部２３７には、会話者Ｐ３２の画像が会話者Ｐ３３と視線が一致するように表示される。
なお、テレビ会議端末装置２１、２２、２３のそれぞれ２つの表示部２１６・２１７、２２６・２２７、２３６・２３７は、別個の液晶表示装置を用いて形成してもよいし、あるいは１つの液晶表示装置のスクリーンを分割表示するようにして形成してもよい。
【００５９】
次に、テレビ会議システム２の動作について説明する。以下では、視聴者Ｐ３２とＰ３３とが会話者である場合について説明する。他の場合についても同様である。
撮像部２１１は視聴者Ｐ３１のステレオ画像（第一ステレオ画像）を撮像し、基準位置算出部２１２と自由視点画像生成部２１３と会話者選択部２４１とに入力する。撮像部２２１及び２３１も同様である。以下では、撮像部２２１が撮像する視聴者Ｐ３２のステレオ画像を第二ステレオ画像ともいう。
撮像部２１１から視聴者Ｐ３１の画像が入力されると、基準位置算出部２１２は視聴者Ｐ３１の基準位置を算出し、画像伸縮部２１４及び２１５に入力する。また、基準位置算出部２１２は算出した基準位置を自由視点画像生成部２１３に入力する。基準位置算出部２２２及び２３２も同様である。
会話者選択部２４１は、通信ネットワークを介して撮像部２１１と２２１と２３１とから受ける画像から、視聴者Ｐ３１とＰ３２とＰ３３との口の動きを検出し、例えば口の動き（口の開閉）の頻度に基づいて会話者を選択する。さらに会話者選択部２４１は選択した会話者の視線を検出することにより、相手の会話者を選択する。例えば、会話者選択部２４１は、視聴者Ｐ３２が頻繁に口を開閉していることを検出して視聴者Ｐ３２を会話者として選択する。さらに会話者選択部２４１は、視聴者Ｐ３２の視線検出を行い、視線が表示部２２６側にあることを検出して視聴者Ｐ３３を相手の会話者として選択する。会話者選択部２４１は選択した会話者を示す信号を自由視点画像生成部２１３と２２３と２３３とに、通信ネットワークを介して入力する。
なお、会話者選択装置２４はテレビ会議端末装置２１に付属して設けられ、他のテレビ会議端末装置２２、２３へは通信回線を介して接続されていてもよい。
なお、本実施形態はテレビ会議端末装置が４つまたはそれ以上の場合にも容易に拡張することができる。例えば、テレビ会議システムが４つのテレビ会議端末装置を備え、各テレビ会議端末装置は３つの表示部を備える。会話者選択部は、上記と同様にして、４つのテレビ会議端末装置のうち２つのテレビ会議端末装置の視聴者を会話者として選択する。会話者として選択されなかった視聴者のテレビ会議端末装置は、上記と同様にして、会話者同士が互いに向かい合う画像を表示する。
【００６０】
図１７は、会話者選択部２４１が会話者を選択する処理手順を示すフローチャートである。
会話者選択部２４１は、会話者選択装置２４が起動すると、会話者を選択する処理を開始する。
ステップＳ４１において、会話者選択部２４１は、撮像部２１１と２２１と２３１とから受ける画像に基づいて会話者を選択する。ステップＳ４２において、会話者選択部２４１は、選択した会話者の視線を検出する。ステップＳ４３において、会話者選択部２４１は、検出した視線に基づいて相手の会話者を選択する。ステップＳ４４において、会話者選択部２４１は選択した会話を示す信号を自由視点画像生成部２１３と２２３と２３３とに入力する。その後ステップＳ４１を繰り返す。
【００６１】
図１８は、会話者選択部２４１が自由視点画像生成部２１３と２２３と２３３とに入力するデータのデータ構成図である。
同図（ａ）において、会話者選択部２４１が選択して２人の会話者が、端末番号で示されている。端末番号は、その会話者が使用するテレビ会議端末装置の識別番号である。端末番号１はテレビ会議端末装置３１を示し、端末番号２はテレビ会議端末装置３２を示し、端末番号３はテレビ会議端末装置３３を示す。また、端末番号０は会話者が選択されていないことを示す。
同図（ｂ）は、会話者選択部２４１が会話者を選択していない場合に、会話者選択部２４１が自由視点画像生成部２１３と２２３と２３３とに入力するデータを示す。
会話者選択部２４１は、口を動かす頻度の閾値を内部の記憶部（不図示）に記憶しており、口を動かす頻度が閾値以上となる視聴者がいないと判断した場合は、会話者を選択しない。この場合会話者選択部２４１は同図（ｂ）のデータを自由視点画像生成部２１３と２２３と２３３とに入力する。
【００６２】
なお、会話者選択部２４１が、音声認識など、口の動きを検出する以外の方法で会話者を選択するようにしてもよい。なお、表示部２１６と２１７と２２６と２２７と２３６と２３７とがタッチパネルになっており、会話者選択部２４１は、視聴者がいずれかの表示部上の位置に触れたことを検出すると、触れられた表示部に応じて会話者を選択するなど、上記以外の方法で会話者及び相手の会話者を選択するようにしてもよい。
【００６３】
自由視点画像生成部２１３は、会話者選択部２４１から選択した会話者を示す信号が入力されると、入力された信号に基づいて視聴者Ｐ３１の画像を生成して画像伸縮部２２５及び２３４に入力する。
ここで、会話者選択部２４１から受ける信号に端末番号２が含まれる場合は、テレビ会議端末装置２２の視聴者Ｐ３２が会話者として選択されている。したがって、テレビ会議端末装置２２との関係では、この信号は会話者であることを示す信号である。この場合、自由視点画像生成部２１３は、第１の実施形態の自由視点画像生成部１１３と同様に、視聴者Ｐ３１の視線方向から撮像した画像を生成して画像伸縮部２２５に入力する。
一方、会話者選択部２４１から受ける信号に、端末番号２が含まれていない場合は、テレビ会議端末装置２２の視聴者Ｐ３２は会話者として選択されていない。したがって、テレビ会議端末装置２２との関係では、この信号は会話者でないことを示す信号である。この場合、自由視点画像生成部２１３は、後述するように視聴者Ｐ３１の視線方向から移動した位置から見た視聴者Ｐ３１の画像を生成して画像伸縮部２２５に、通信ネットワークを介して入力する。
同様に、会話者選択部２４１から受ける信号に端末番号３が含まれる場合は、視聴者Ｐ３１の視線方向から見た視聴者Ｐ３１の画像を生成して画像伸縮部２３５に入力する。一方、会話者選択部２４１から受ける信号に端末番号３が含まれない場合は、自由視点画像生成部２１３は、視聴者Ｐ３１の視線方向から移動した位置から見た視聴者Ｐ３１の画像を生成して画像伸縮部２３５に入力する。自由視点画像生成部２２３及び２３３も同様である。
【００６４】
図１９は、視聴者Ｐ３１が会話者でない場合、すなわち会話者選択部２４１から受ける信号に端末番号１が含まれない場合に、自由視点画像生成部２２３及び自由視点画像生成部２３３が生成する画像の視点位置と視聴者の視線方向とのずれの角度を示す図である。
同図において、点Ｐは視聴者Ｐ３１の基準位置、点Ｑは表示部２１６の画像中における視聴者Ｐ３２の基準位置、点Ｒは表示部２１７の画像中における視聴者Ｐ３３の基準位置を示す。自由視点画像生成部２２３が視聴者Ｐ３２の基準位置を画像の中心として画像を生成する。これにより、点Ｑは表示部２１６表示面中央である。同様に、点Ｒは表示部２１７の表示面中央である。三角形ＰＱＲの各頂点の角度は、頂点Ｑの角度がα、頂点Ｒの角度がβ、頂点Ｐの角度がπ−α−βである。ここに、πは円周率を示す。
自由視点画像生成部２２３は、点Ｑの位置として表示部２１６の表示面中央の位置を記憶しており、点Ｒの位置として表示部２１７の表示面中央の位置を記憶している。Ｐの位置は基準位置算出部２１２から受ける基準位置である。
自由視点画像生成部２２３は、点Ｑを中心とする、点Ｒから点Ｐへの向きを検出し、この向きの分だけ、視聴者Ｐ３２の視線方向から移動した位置から見た視聴者Ｐ３２の画像を生成する。
同様に、自由視点画像生成部２３３は、点Ｒを中心とする、点Ｑから点Ｐへの向きを検出し、この向きの分だけ、視聴者Ｐ３３の視線方向から移動した位置から見た視聴者Ｐ３３の画像を生成する。
【００６５】
図２０は自由視点画像生成部２２３及び２３３が生成する画像の撮像位置を示す図である。同図（ａ）に示すように、自由視点画像生成部２２３は、視聴者Ｐ３２の視線方向から角度αだけ同図の左方向、すなわち、図１９の点Ｒの方向から点Ｐの方向に移動した位置から見た視聴者Ｐ３２の画像を生成する。この角度αは点Ｑを中心として点Ｒから点Ｐに回転する角度である。これにより、点Ｐのほうを向く視聴者Ｐ３２の画像が点Ｒのほうを向くように回転される。同様に、図２０（ｂ）に示すように、自由視点画像生成部２３３は、視聴者Ｐ３３の視線方向Ｌ３３から角度βだけ撮像位置を点Ｑの方向から点Ｐの方向に移動した位置から見た視聴者Ｐ３３の画像を生成する。
自由視点画像生成部２２３は、図１の基準位置選択部１１２と同様にして、それぞれ視聴者Ｐ３２の視線方向Ｌ３２及び視聴者Ｐ３３の視線方向Ｌ３３を検出する。そして、自由視点画像生成部２２３は、図１の自由視点画像生成部１１３と同様、撮像部２２１の撮像装置２２１−１及び２２１−２が撮像した画像を用いて、上記の画像を合成する。この際、自由視点画像生成部２２３は、自由視点画像生成部１１３と同様、視聴者Ｐ３２の基準位置を画像の中央に合わせて画像を生成する。
【００６６】
なお、撮像部２１１〜２３１が撮像する角度によっては、撮像位置を上記のように回転した場合の画像を生成できない場合がある。例えば、撮像部２２１の撮像装置２２１−１及び撮像装置２２１−２が視聴者Ｐ３２の正面近くから撮像する場合、上記の角度αが大きく視聴者の横方向に近いと、三次元モデルの生成に必要な画像データが得られず、画像を生成できない。この場合は、撮像部２２１はさらに画像を生成する方向の近くに撮像装置を備える。自由視点画像生成部２２３は、撮像部２２１から受ける画像の中から角度αに応じて２枚の画像を選択し、選択した画像を用いて三次元モデルを生成し、撮像位置を角度α回転させた上記の画像をこの三次元モデルを用いて生成する。
なお、上記の撮像位置にカメラを設置しておき、このカメラを用いて撮像を行うようにしてもよい。例えば、視聴者Ｐ３２を撮像する可動式のカメラを用意しておく。自由視点画像生成部２２３は撮像位置を算出すると、可動式カメラが算出した撮像位置に移動して撮像を行うように制御する。これにより、自由視点画像生成部２２３が画像を合成する必要が無くなり計算量を削減できる。
自由視点画像生成部２１３及び２３３についても同様である。
【００６７】
画像伸縮部２１４は自由視点画像生成部２２３から画像が入力されると、図１の画像伸縮部１２６と同様に画像の伸縮を行う。同様に、画像伸縮部２１５は自由視点画像生成部２３３から画像が入力されると画像の伸縮を行う。
図２１は画像伸縮部２１４及び２１５が行う画像の伸縮を示す図である。同図（ａ）に示すように、視聴者Ｐ３１の基準位置Ｐは表示部２１６に正対する方向から角度θ回転した位置にある。そこで、第１の実施形態と同様に、点Ｑを通り直線ＰＱに垂直な仮想表示面２１６’から表示部２１６への、基準位置Ｐを中心とする透過投影変換を、自由視点画像生成部２２３から受ける画像に対して行った画像を算出することにより、自由視点画像生成部２２３から受ける画像を伸縮する。画像伸縮部２１４は、算出した画像を表示部２１６に入力する。
同様に、画像伸縮部２１５は、同図（ｂ）に示されるように、仮想表示面２１７’から表示部２１７への、基準位置Ｐを中心とする透過投影変換を、自由視点画像生成部２３３から受ける画像対して行った画像を算出する。画像伸縮部２１５は算出した画像を表示部２１７に入力する。
表示部２１６は画像伸縮部２１４から受ける画像を表示し、表示部２１７は画像伸縮部２１５から受ける画像を表示する。
【００６８】
以上により、表示部２１６は、視聴者Ｐ３２が表示部２１７に表示される視聴者Ｐ３３を見ているように見える画像を表示する。同様に、表示部２１７は、視聴者Ｐ３３が表示部２１６に表示される視聴者Ｐ３２を見ているように見える画像を表示する。したがって、視聴者Ｐ３１は、会話する二人の視聴者Ｐ３２とＰ３３の視線が一致しているように見える、より自然な画像を見ることができる。また、テレビ会議システム２は、会話者が変わった場合には会話者選択部２４１が新たな会話者を選択するので、会話する視聴者同士の視線が一致するような画像を表示することが出来る。
また、テレビ会議システム２は、会話者に対しては視線方向から見た場合の画像を表示するので、テレビ会議システム１の場合と同様、会話者は相手の会話者と視線が一致する画像を見ながら会話を行うことができる。
なお、テレビ会議システム２の各部の配置は図１５のものに限らず、基準位置算出部２１２と２２２と２３２と、自由視点画像生成部２１３と２２３と２３３と、画像伸縮部２１４と２１５と２２４と２２５と２３４と２３５とが、テレビ会議端末装置２１と２２と２３と会話者選択装置２４とのいずれに含まれるようにしてもよいし、これらと別の装置に含まれるようにしてもよい。例えば、会話者選択部２４１がテレビ会議端末装置２１に含まれるようにしてもよい。これにより、テレビ会議システム２が会話者選択装置２４を具備する必要が無くなる。
【００６９】
なお、１個のテレビ会議端末装置を複数の視聴者が使用するようにしてもよい。例えば、テレビ会議端末装置２１を視聴者Ａ及びＢが使用し、テレビ会議端末装置２２を視聴者Ｃ及びＤが使用し、テレビ会議端末装置２３を視聴者Ｅ及びＦが使用する場合、視聴者Ｃと視聴者Ｅとが会話者であるときは、表示部２１６は視聴者Ｃの画像を表示し、表示部２１７は視聴者Ｅの画像を表示する。
具体的には、撮像部２１１は、テレビ会議端末装置２１を使用する全ての視聴者を含む画像を撮像する。撮像部２２１と２３１とも同様である。基準位置算出部２１２は、撮像部２１１から入力される画像に含まれる視聴者の各々の基準位置を算出し、図８で説明したように、算出した基準位置と表示部上の座標とを対応付けて、自由視点画像生成部２１３と画像伸縮部２１４および２１５に加えて、会話者選択部２４１にも入力する。基準位置算出部２２２と２３２とも同様である。
【００７０】
会話者選択部２４１は、撮像部２１１と２２１と２３１とから入力される画像に含まれる全ての視聴者の中から、上記の１個のテレビ会議端末装置を１人の視聴者が使用する場合と同様に視聴者の口の動きに基づいて、会話者を選択する。そして、会話者選択部２４１は、会話者の視線方向を検出し、会話者が注目する画面上の座標を算出する。会話者選択部２４１は、基準位置算出部２１２と２２２と２３２とから入力される、基準位置と表示部上の座標とを対応付けた情報に基づいて、会話者が注目する画面上の位置に表示される視聴者を相手の会話者として選択する。会話者選択部２４１は、選択した会話者を、基準位置算出部から入力された、基準位置と表示部上の座標とを対応付けた情報にさらに対応付ける。この対応付けは、例えば、基準位置算出部から入力された、基準位置と表示部上の座標とを対応付けた情報の視聴者毎に、図２５に示されるような、会話者か否かを示すフラグを付加することによって行う。
会話者選択部２４１は、生成した情報の、全てのテレビ会議端末装置に関するものを、自由視点画像生成部２１３と２２３と２３３とに入力する。
【００７１】
自由視点画像生成部２１３は、撮像部２１１から入力されるステレオ画像に含まれる全ての視聴者について、三次元モデルを生成する。
そして、会話者選択部２４１から入力される情報において、テレビ会議端末装置２１の視聴者に会話者が含まれていない場合は、三次元モデルを生成した視聴者が全て正面を向いている画像を生成して出力する。この際、例えば基準位置に基づいて、視聴者の実際の位置に応じて視聴者を画面上に配置する。自由視点画像生成部２２３と２３３とについても同様である。
一方、自由視点画像生成部２１３と２２３と２３３とは、当該自由視点画像生成部が含まれるテレビ会議端末装置（例えば、自由視点画像生成部２１３であれば、テレビ会議端末装置２１）を使用する視聴者に会話者が含まれる場合は、もう一方の会話者が含まれるテレビ会議端末装置に対しては、会話者を正面から見た画像を入力し、会話者が含まれないテレビ会議端末装置に対しては、相手の会話者を向いているように見えるように、会話者の視線方向から移動した位置から見た視聴者の画像を入力する。
【００７２】
例えば、テレビ会議端末装置２２を使用する視聴者Ｃとテレビ会議端末装置２３を使用する視聴者Ｅとが会話者である場合は、自由視点画像生成部２２３は、テレビ会議端末装置２３に対しては、視聴者Ｃを正面から見た画像を入力する。一方、テレビ会議端末装置２１に対しては、上記の１個のテレビ会議端末装置を１人の視聴者が使用する場合の視聴者Ｐ３２と同様に、視聴者Ｃの視線方向から移動した位置から見た視聴者Ｃの画像を生成する。
同様に、自由視点画像生成部２３３は、上記の１個のテレビ会議端末装置を１人の視聴者が使用する場合の視聴者Ｐ３３と同様に、視聴者Ｅの視線方向から移動した位置から見た視聴者Ｅの画像を生成する。
このように、視聴者Ａおよび視聴者Ｂから見て、視聴者Ｃと視聴者Ｅとが互いに向かい合って見えるように、自由視点画像生成部２２３と自由視点画像生成部２３３とは、それぞれ視聴者Ｃと視聴者Ｅとの撮像位置を移動させた画像を生成して出力する。ここで、基準位置算出部２１２が視聴者Ａの視点位置と視聴者Ｂの視点位置との中点を基準位置としてさらに算出し、自由視点画像生成部２２３と自由視点画像生成部２３３とに入力する。自由視点画像生成部２２３と自由視点画像生成部２３３とは、基準位置算出部２１２から受ける基準位置に基づいて上記の視聴者Ｃの画像と視聴者Ｅの画像とを生成する。
これにより、視聴者Ａの基準位置と視聴者Ｂの基準位置との中点から見た場合に視聴者Ｃと視聴者Ｅとが向かい合って見える画像が表示される。視聴者Ａと視聴者Ｂとは、この中点に比較的近い位置から表示部２１６と表示部２１７とを見ていると考えられるので、視聴者Ａと視聴者Ｂとは、視聴者Ｃと視聴者Ｅとが互いに向かい合う自然な画像を見ることができる。他の視聴者が会話者である場合も同様である。
【００７３】
あるいは、１個のテレビ会議端末装置を複数人の視聴者が使用する上記の場合において、表示部２１６と表示部２１７とが、画面を右から見たときと左から見たときで異なる画像を表示する液晶ディスプレイを含んで構成されるようにしてもよい。画面を右から見たときと左から見たときで異なる映像を表示する液晶ディスプレイは、例えばカーナビゲーションシステムにおいて、運転席から見たときと助手席から見たときとで異なる映像を表示するディスプレイとして実用化されている。
この場合、基準位置算出部２１２は、視聴者Ａの基準位置と視聴者Ｂの基準位置とを算出して、自由視点画像生成部２２３と自由して画像生成部２３３とに出力する。自由視点画像生成部２２３と自由視点画像生成部２３３とは、視聴者Ａの基準位置から見た場合に視聴者Ｃと視聴者Ｅとが向かい合って見える画像と、視聴者Ｂの基準位置から見た場合に視聴者Ｃと視聴者Ｅとが向かい合って見える画像とを生成し、それぞれ表示部２１６と表示部２１７とに出力する。表示部２１６と表示部２１７とは、視聴者Ａの基準位置と視聴者Ｂの基準位置とに基づいて、視聴者Ａに対しては、視聴者Ａの基準位置から見た場合に視聴者Ｃと視聴者Ｅとが向かい合って見える画像を表示し、視聴者Ｂに対しては、視聴者Ｂの基準位置から見た場合に視聴者Ｃと視聴者Ｅとが向かい合って見える画像を表示する。これによって、視聴者Ａと視聴者Ｂとは、視聴者Ｃと視聴者Ｅとが互いに向かい合う自然な画像を見ることができる。他の視聴者が会話者である場合も同様である。
なお、表示部２１６、２１７、２２６、２２７、２３６、２３７が３方向以上の方向に対して異なる画像を表示する液晶ディスプレイを含んで構成されるようにしてもよい。これにより、２方向に対して異なる画像を表示する上記の場合よりも多くの視聴者に対して自然な画像を表示することができる。
【００７４】
＜第３の実施形態＞
図２２は本発明の第３の実施形態におけるテレビ会議システム３の概略構成を示すシステム構成図である。同図において、テレビ会議システム３は、テレビ会議端末装置（第一端末装置）３１及びテレビ会議端末装置（第二端末装置）３２を含んで構成される。テレビ会議端末装置３１とテレビ会議端末装置３２とは、通信ネットワークによって互いに接続されている。テレビ会議端末装置３１は、撮像部（第一撮像部）３１１と基準位置選択部３１２と自由視点画像生成部３１３と表示部（第二表示部）３１６とを含んで構成される。テレビ会議端末装置３２は、撮像部（第二撮像部）３２１と基準位置算出部３２２と画像伸縮部３２６及び３２７と表示部３２８とを含んで構成される。撮像部３１１は、撮像装置３１１−１及び３１１−２を含んで構成される。撮像部３２１は、撮像装置３２１−１及び撮像装置３２１−２を含んで構成される。
【００７５】
撮像部３２１と基準位置算出部３２２とが本発明の基準位置検出部に対応し、会話者である第二視聴者を含む１人以上の視聴者について基準位置を検出する。本実施形態では撮像部３２１が撮像する画像を用いて、基準位置算出部３２２が基準位置を算出することにより、基準位置検出部は、基準位置を検出する。なお、基準位置検出部が基準位置を検出する方法は、前述の方法に限らず、テレビ会議システム１の場合と同様の方法など、他の方法を用いてもよい。
また、この基準位置検出部と基準位置選択部３１２とが本発明の基準位置出力部に対応し、第二視聴者の基準位置である第二視聴者基準位置を出力する。本実施形態では、基準位置検出部が検出した基準位置の中から、基準位置選択部３１２が会話者である第二視聴者の基準位置を選択することにより、第二視聴者基準位置を検出する。
また、撮像部３１１と自由視点画像生成部３１３とが本発明の画像出力部に対応し、第一視聴者を撮像して、正面画像を出力する。本実施形態では、撮像部３１１が撮像する画像を用いて、自由視点画像生成部３１３が正面画像を生成し、生成した正面画像を出力することにより、画像出力部が正面画像を出力する。なお、画像出力部が正面画像を出力する方法は、前述の方法に限らず、テレビ会議システム１の場合と同様の方法など、他の方法を用いてもよい。
また、画像伸縮部３２６と３２７とが本発明の画像伸縮部に対応し、第二視聴者基準位置に正対する仮想表示面から表示面への、第二視聴者基準位置を中心とする透過投影変換を、正面画像または後述する撮像位置を回転させた画像に対して行った画像を算出する。本実施形態では、画像伸縮部３２６または画像伸縮部３２７に、正面画像または撮像位置を回転させた画像と、第二視聴者基準位置とが入力されると、その画像伸縮部３２６または画像伸縮部３２７は、第二視聴者基準位置に正対する仮想表示面から表示面への、第二視聴者基準位置を中心とする透過投影変換を、正面画像または撮像位置を回転させた画像に対して行った画像を算出する。
【００７６】
表示部３１６は図１の表示部１１６と同様である。
表示部３２８は、画面を右から見たときと左から見たときで異なる映像を表示する液晶ディスプレイを含んで構成される。撮像部３１１は視聴者Ｐ４１（第一視聴者）のステレオ画像（第一ステレオ画像）を撮像し、撮像部３２１は視聴者Ｐ５１（第二視聴者）及び視聴者Ｐ５２のステレオ画像（第二ステレオ画像）を撮像する。撮像装置３１１−１と３１１−２と３２１−１と３２１−２とは、図１の撮像装置１１１−１等と同様である。
自由視点画像生成部３１３は、撮像部３１１が撮像した画像に基づいて、視聴者の視線方向から見た視聴者の画像を生成する。加えて、自由視点画像生成部３１２は、視聴者の視線方向から移動した位置から見た視聴者の画像を生成する。詳細については後述する。
基準位置算出部３２２は、図１の基準位置算出部１２２と同様に、基準位置を算出する。
画像伸縮部３２６は、表示部３２８が画像を表示する方向のうち表示部３２８に向かって左方向に対応付けられ、表示部３２８を左から見たときの画像を図１の画像伸縮部１２６と同様に伸縮する。画像伸縮部３２７は、表示部３２８が画像を表示する方向のうち表示部３２８に向かって右方向に対応付けられ、表示部３２８を右から見たときの画像を図１の画像伸縮部１２６と同様に伸縮する。
【００７７】
図２３は表示部３２８が表示する画像の例を示す図である。同図において、会議室Ｒ３２に設置された表示部３２８を視聴者Ｐ５１及びＰ５２が見ている。また、視聴者Ｐ４１とＰ５１とが会話者である。同図（ａ）の表示部３２８には、表示部３２８を左から見た場合の画像が表示されている。視聴者Ｐ５１は会話者であり、表示部３２８には視聴者Ｐ４１が視聴者Ｐ５１と視線が一致するように表示される。また、同図（ｂ）の表示部３２８には、表示部を右から見た場合の画像が表示されている。表示部３２８には視聴者Ｐ４１が視聴者Ｐ５１の方向を見ている画像が表示される。
図２４は表示部３１６が表示する画像の例を示す図である。同図において、会議室Ｒ３１に設置された表示部３１６を視聴者Ｐ４１が見ている。
【００７８】
次に、テレビ会議システム３の動作について説明する。以下では、視聴者Ｐ４１と視聴者Ｐ５１とが会話者である場合について説明する。視聴者Ｐ４１と視聴者Ｐ５２とが会話者である場合も同様である。
撮像部３２１は視聴者Ｐ５１及びＰ５２の画像を撮像し、基準位置算出部３２２に入力し、また、通信ネットワークを介して表示部３１６に入力する。表示部３１６は撮像部３２１から受ける画像を表示する。
基準位置算出部３２２は、図１の基準位置算出部１２２と同様に、撮像部３２１から受ける画像に基づいて、視聴者Ｐ５１及びＰ５２の基準位置を算出する。基準位置算出部３２２は、算出した基準位置を基準位置選択部３１２に入力する。
撮像部３１１は、視聴者Ｐ５１の画像を撮像し、基準位置選択部３１２と自由視点画像生成部３１３とに入力する。
基準位置選択部３１２は、基準位置算出部３２２から通信ネットワークを介して受ける基準位置から、会話者に対応する１個の基準位置を選択する。基準位置選択部３１２は、図１の基準位置選択部１１２と同様に、視聴者Ｐ４１の視線を検出して会話者に対応する基準位置を選択する。基準位置選択部３１２は、基準位置算出部３２２から受ける基準位置に、選択した基準位置を示すフラグを付す。さらに、基準位置選択部３１２は、表示部３２８が画像を表示する方向を予め記憶しており、表示部３２８が画像を表示する方向と基準位置とを対応付ける。基準位置選択部３１２は、表示部３２８が画像を表示する方向と対応付けた基準位置を、自由視点画像生成部３１３に入力する。
この際、１個の方向に複数の基準位置を対応付け得る場合は、基準位置選択部３１２は、そのうち１個の基準位置のみを、この方向に対応付けて自由視点画像生成部３１３に入力する。これらの基準位置に会話者の基準位置が含まれる場合は、会話者の基準位置のみを、この方向に対応付けて自由視点画像生成部３１３に入力する。会話者の基準位置が含まれない場合は、自由視点画像生成部３１３は、例えば、同じ方向に対応付けられた基準位置のうち、基準位置算出部３２２から最初に入力される基準位置のみを、この方向に対応付けて自由視点画像生成部３１３に入力する。
また、基準位置選択部３１２は、自由視点画像生成部３１３に入力した基準位置を画像伸縮部３２６及び３２７に入力する。基準位置選択部３１２は、表示部３２８が画像を表示する方向に応じて、表示部３２８に向かって左方向に対応付けられる基準位置を画像伸縮部３２６に入力し、表示部３２８に向かって右方向に対応付けられる基準位置を画像伸縮部３２７に入力する。
【００７９】
図２５は、基準位置選択部３１２が自由視点画像生成部３１３に入力するデータの構成を示すデータ構成図である。
同図において、基準位置選択部３１２が自由視点画像生成部３１３に入力するデータは、２人の視聴者の基準位置と表示部上の座標と選択した会話者を示すフラグとを含んで構成される。基準位置及び表示部上の座標は、図８の基準位置及び表示部上の座標と同様である。会話者を示すフラグは、基準位置選択部３１２が選択した会話者をフラグの値「１」にて示し、基準位置選択部３１２が選択した以外の会話者をフラグの値「０」にて示す。
また、同図において、「方向１」は、表示部３２８が画像を表示する方向のうち表示部３２８に向かって左側の方向を示し、「方向２」は、表示部３２８が画像を表示する方向のうち表示部３２８に向かって右側の方向を示す。「方向１」には「視聴者１」が対応付けられ、「方向２」には「視聴者２」が対応付けられている。
【００８０】
自由視点画像生成部３１３は、基準位置選択部３１２から受けるデータに基づいて、表示部３２８の表示面正面方向の左側に位置する視聴者の基準位置と右側に位置する視聴者の基準位置とを区別する。
自由視点画像生成部３１３は、会話者の基準位置に対しては、視聴者Ｐ４１の視線方向から見た視聴者Ｐ４１の画像を生成する。また、会話者以外の視聴者の基準位置に対しては、自由視点画像生成部３１３は、視聴者Ｐ４１の視線方向から移動した位置から見た視聴者Ｐ４１の画像を生成する。詳細は後述する。自由視点画像生成部３１３は生成した画像のうち、表示部３２８の表示面正面方向の左側に位置する視聴者の基準位置に対応する画像を画像伸縮部３２６に通信ネットワークを介して入力し、右側に位置する視聴者の基準位置に対応する画像を画像伸縮部３２７に通信ネットワークを介して入力する。このように、自由視点画像生成部３１３は、画像を表示する方向に応じた画像伸縮部に画像を入力することにより、画像と表示する方向とを対応付ける。
【００８１】
図２６は基準位置選択部３１２が視聴者Ｐ５１を会話者として選択した場合に、自由視点画像生成部３１３が撮像位置を回転させる角度を示す図である。
同図において、点Ｓは視聴者Ｐ５２の基準位置、点Ｔは表示部３２８の画像中における視聴者Ｐ４１の基準位置、点Ｕは視聴者Ｐ５１の基準位置を示す。自由視点画像生成部３１３は、同図の角度γだけ撮像位置を点Ｓの方向から点Ｕの方向に回転した場合に得られる画像を生成する。
これにより、視聴者Ｐ５２は視聴者Ｐ５１と視線を合わせている視聴者Ｐ４１の画像を見る。
【００８２】
このように、テレビ会議システム３は、会話者でない視聴者Ｐ５２に対して会話者Ｐ５１と視線を合わせている視聴者Ｐ４１の画像を表示するので、視聴者Ｐ５２は、会話者同士の視線方向が一致したより自然が画像を見ながら会議に参加できる。また、会話者である視聴者Ｐ５１に対しては、会話者Ｐ４１と視線が一致する画像を表示するので、会話者Ｐ５１は会話者Ｐ４１と視線が一致した画像を見ながらより自然に会話を行うことが出来る。
なお、表示部３２８備える液晶ディスプレイは、２方向に対して異なる映像を表示するものに限らず、３方向以上に対して異なる映像を表示するものであってもよい。この場合、テレビ会議端末装置３２は、液晶ディスプレイが異なる映像を表示する方向の数と同数の画像伸縮部を含んで構成され、自由視点画像生成部３１３は、各画像伸縮部に応じた視聴者Ｐ４１の画像を生成して、各画像伸縮部に入力する。このように、より多くの方向に対して異なる映像を表示することにより、より多くの視聴者に対してより自然な映像を表示することができる。
なお、テレビ会議システム３における各部の配置は図２２のものに限らず、基準位置選択部３１２と自由視点画像生成部３１３と基準位置算出部３２２と画像伸縮部３２６及び３２７とは、テレビ会議端末装置３１とテレビ会議端末装置３２とのいずれに含まれていてもよいし、テレビ会議端末装置３１とテレビ会議端末装置３２とは別の装置に含まれていてもよい。
例えば、基準位置算出部３２２が、テレビ会議端末装置３１に含まれ、通信ネットワークを介して撮像部３２１から画像を受けるようにしてもよい。
【００８３】
なお、本発明は、次の態様で実施することもできる。
（１）通信ネットワークを介して互いに接続されたテレビ会議用の第一端末装置および第二端末装置を備え、第一端末装置が置かれた第一会議室の第一視聴者および第二端末装置が置かれた第二会議室の第二視聴者に互いの映像を表示するコミュニケーションシステムであって、第一端末装置は、第一視聴者を撮像する第一撮像部、第一撮像部が撮像した画像に基づいて第一視聴者の画像を生成する自由視点画像生成部および第二視聴者を表示する第一表示部を備え、第二端末装置は、第二視聴者を撮像する第二撮像部、前記自由視点画像生成部が生成し前記通信ネットワークを介して受信した画像を入力され、前記画像を伸縮して第二視聴者の視線方向を向いた第一視聴者の画像を生成する画像伸縮部、および前記画像伸縮部が生成した第二視聴者の視線方向を向いた第一視聴者の画像を表示する第二表示部を備え、第二撮像装置の撮像した画像を前記通信ネットワークを介して第一端末装置へ送信する、ことを特徴とするコミュニケーションシステム。
このコミュニケーションシステムでは、第二表示部が第二視聴者の視線方向を向いた第一視聴者の画像を表示するので、第二視聴者は、第一視聴者と視線が一致する画像を見ながら第一視聴者と会話を行うことができる。
【００８４】
（２）前記第二会議室には視聴者が複数人いて、その内の一人である第二視聴者が第二表示部に表示された前記第一視聴者を注目して発言することを特徴とする、上記（１）に記載のコミュニケーションシステム。
このコミュニケーションシステムでは、第二表示部が第二視聴者の視線方向を向いた第一視聴者の画像を表示するので、第二視聴者は、第一視聴者と視線が一致する画像を注目して第一視聴者と会話をし、第一視聴者に対して発言することができる。
【００８５】
（３）前記第一撮像部は、複数の撮像装置を備え、前記自由視点画像生成部は、前記第一撮像部が撮像した画像に基づいて第一視聴者の三次元画像を生成することを特徴とする上記（１）または（２）に記載のコミュニケーションシステム。
このコミュニケーションシステムでは、複数の撮像装置が撮像した画像に基づいて、自由視点画像生成部が第一視聴者の三次元画像を生成する。これにより、上述のように、第二視聴者は、第一視聴者と視線が一致する画像を見ながら第一視聴者と会話を行うことができる。
【００８６】
（４）通信ネットワークを介して互いに接続されたテレビ会議用の第一端末装置および第二端末装置を備え、第一端末装置が置かれた第一会議室の第一視聴者および第二端末装置が置かれた第二会議室の第二視聴者に互いの画像を表示するコミュニケーションシステムであって、第一端末装置は、第一視聴者を撮像する第一撮像部、第一撮像部が撮像した画像に基づいて第一視聴者の視線方向から見た画像を生成する自由視点画像生成部および第二視聴者を表示する第一表示部を備え、第二端末装置は、第二視聴者を撮像する第二撮像部および前記自由視点画像生成部が生成し前記通信ネットワークを介して受信した画像を表示する表示面を、右から見たときと左から見たときとで異なる画像を表示する第二表示部を備え、第二撮像装置の撮像した画像を前記通信ネットワークを介して第一端末装置へ送信するとともに、第二表示部には視聴者に対応して異なる画像が表示される、ことを特徴とするコミュニケーションシステム。
このコミュニケーションシステムは、視聴者に対応して異なる画像が第二表示部に表示されるので、会話者である視聴者に対しては、この視聴者の視線方向を向いた第一視聴者の画像を表示することにより、会話者である視聴者は、第一視聴者と視線が一致する画像を見ながら第一視聴者と会話を行うことができる。また、会話者でない視聴者に対しては、会話者同士の視線が一致する、より自然な画像を表示することができる。
【００８７】
（５）通信ネットワークを介して互いに接続されたテレビ会議用の第一端末装置、第二端末装置および第三端末装置を備え、各端末装置が置かれた各会議室の視聴者に互いの映像を表示するコミュニケーションシステムであって、通信ネットワークを介して前記各会議室へ接続され、各会議室の視聴者の中から会話者を選択する会話者選択装置を備え、前記各端末装置は、各会議室の視聴者を撮像する撮像部、前記撮像部からの画像を生成する自由視点画像生成部および他の会議室の視聴者の画像を表示する表示部を備え、各会議室の前記自由視点画像生成部は、会話者ではない視聴者の会議室の表示部へ送る画像として、回転された視聴者の画像を生成する、ことを特徴とするコミュニケーションシステム。
このコミュニケーションシステムでは、会話者ではない視聴者に対しては、回転された視聴者の画像を生成して会話者である視聴者同士が互いに向き合う、より自然な画像を表示することができる。
【００８８】
（６）画像を表示する表示面を含む表示部を具備するコミュニケーションシステムの視聴者表示方法であって、第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力ステップと、前記第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置を検出する基準位置出力ステップと、前記画像出力ステップが出力する画像に対して、前記第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮ステップと、前記表示部が、前記画像伸縮部が算出した画像を表示する画像表示ステップと、を備えることを特徴とする視聴者表示方法。
この視聴者表示方法は、画像伸縮ステップが会話者の視点の位置である第二視聴者基準位置に基づいて画像を生成するので、第二視聴者基準位置から表示部を見る会話者に対して、この会話者が表示面に正対していない場合でも、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【００８９】
（７）コンピュータに、第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力ステップと、前記第一視聴者と会話する第二視聴者を含む１人以上の視聴者の視点の位置である基準位置の中から前記第二視聴者の基準位置である第二視聴者基準位置を選択する基準位置選択ステップと、を実行させるための視聴者表示プログラム。
このプログラムは、第一視聴者を略正面から見た画像を生成し、視聴者の視点の位置である第二視聴者基準位置を選択するので、この第一視聴者を略正面から見た画像を表示面の正面から見た場合に見える画像を、第二視聴者基準位置から見えるように変換して表示することにより、会話者である第二視聴者は表示面に正対していない場合でも、この会話者に対して、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面から見た場合に見える自然な画像を表示することができる。
【００９０】
（８）画像を表示する表示面を有する表示部を具備するコンピュータに、視聴者の視点の位置である基準位置を、第一視聴者と会話する第二視聴者を含む1人以上の視聴者について検出する基準位置検出部ステップと、第一視聴者を略正面から見た画像に対して、前記第二視聴者の基準位置である第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮ステップと、前記画像伸縮ステップで算出した画像を前記表示部に表示する表示ステップと、を実行させるための視聴者表示プログラム。
このプログラムは、第二視聴者基準位置に正対する仮想表示面から表示面への、第二視聴者基準位置を視点とする投影を行う変換を、第一視聴者を略正面から見た画像に適用して表示するので、会話者である第二視聴者は表示面に正対していない場合でも、この会話者に対して、相手の会話者と視線が一致した画像を表示することができ、また、表示面を斜めから見た場合に見える相手の会話者が縦長に変形された画像ではなく、相手の会話者を正面からみた場合に見える自然な画像を表示することができる。
【００９１】
なお、テレビ会議システム１〜３の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【００９２】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【産業上の利用可能性】
【００９３】
本発明は、コミュニケーションシステムに用いて好適である。
【符号の説明】
【００９４】
１〜３テレビ会議システム
１１、１２、２１〜２３、３１、３２テレビ会議端末装置
２４会話者選択装置
１１１、１２１、２１１〜２３１、３１１、３２１撮像部
１２２、２１２、２２２、２３２、３２２基準位置算出部
１１２、３１２基準位置選択部
１１３、２１３、２２３、２３３、３１３自由視点画像生成部
１１６、１２７、２１６、２１７、２２６、２２７、２３６、２３７、３１６、３２８表示部
１２６、２１４、２１５、２２４、２２５、２３４、２３５、３２６、３２７画像伸縮部
２４１会話者選択部

【特許請求の範囲】
【請求項１】
第一視聴者を撮像し、前記第一視聴者を略正面から見た画像を出力する画像出力部と、
前記第一視聴者と会話する第二視聴者の視点の位置である第二視聴者基準位置を検出する基準位置出力部と、
前記第一視聴者の画像を表示する表示面を含む表示部と、
前記画像出力部から出力された画像に対して、前記第二視聴者基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記第二視聴者基準位置を中心とする透視投影変換を行った画像を算出する画像伸縮部と、
を具備し、
前記表示部は前記画像伸縮部が算出した画像を表示する、
ことを特徴とするコミュニケーションシステム。
【請求項２】
前記基準位置出力部は、
視聴者の視点の位置である基準位置を、前記第二視聴者を含む１人以上の視聴者について検出する基準位置検出部と、
前記基準位置検出部が検出した前記基準位置の中から前記第二視聴者基準位置を選択する基準位置選択部と、
を具備することを特徴とする請求項１に記載のコミュニケーションシステム。
【請求項３】
通信路を介して接続された第一端末装置及び第二端末装置を有するコミュニケーションシステムであって、
前記第一端末装置は、前記画像出力部と、前記基準位置選択部と、を具備し、
前記第二端末装置は、前記基準位置検出部と、前記表示部と、前記画像伸縮部と、を具備する
ことを特徴とする請求項２に記載のコミュニケーションシステム。
【請求項４】
前記第二視聴者を含む１人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、
を具備し、
前記基準位置検出部は、
前記１人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、
前記第二ステレオ画像から前記１人以上の視聴者の各々の顔またはその一部の画像を検出し、前記１人以上の視聴者の各々の基準位置を算出する基準位置算出部と、
を具備し、
前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択する、
ことを特徴とする請求項２または請求項３に記載のコミュニケーションシステム。
【請求項５】
前記表示面は少なくとも２方向に異なる画像を表示し、
前記基準位置選択部は、前記第二視聴者基準位置を選択するとともに、前記第二視聴者基準位置に前記表示面が前記異なる画像を表示する方向である表示方向のいずれかを対応付け、
前記表示部は、前記画像伸縮部から入力される画像を、前記第二視聴者基準位置に対応付けられた方向に表示する、
ことを特徴とする請求項２または請求項３に記載のコミュニケーションシステム。
【請求項６】
前記第二視聴者を含む１人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記視線方向から見た前記第一視聴者の顔を含む画像を生成して出力する自由視点画像生成部と、
を具備し、
前記基準位置検出部は、
前記１人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、
前記第二ステレオ画像から前記１人以上の視聴者の各々の顔またはその一部の画像を検出し、前記１人以上の視聴者の各々の基準位置を算出する基準位置算出部と、
を具備し、
前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者を前記第二視聴者として選択し、前記基準位置算出部が算出する基準位置の中から当該視聴者の基準位置を前記第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付ける、
ことを特徴とする請求項５に記載のコミュニケーションシステム。
【請求項７】
前記表示面は少なくとも２方向に異なる画像を表示し、
前記基準位置選択部は、前記表示面が前記異なる画像を表示する方向である表示方向の各々に、基準位置のいずれかを対応付け、
前記画像出力部は、前記第二視聴者基準位置が対応付けられていない方向に対応付けられた基準位置に基づいて定められる位置から見た前記第一視聴者の画像を生成し、当該方向と当該画像とを対応付けて前記画像伸縮部に出力し、
前記画像伸縮部は、前記入力された方向の各々について、当該方向に対応付けられた画像に対して、当該方向に対応付けられた基準位置と前記表示面の中心とを結ぶ直線に正対する仮想表示面から前記表示面への、前記当該方向に対応付けられた基準位置を中心とする透視投影変換を行った画像を算出し、算出した画像を当該方向と対応付けて出力し、
前記表示部は、前記画像伸縮部から入力される画像を、該画像に対応付けられた方向に表示する、
ことを特徴とする請求項２または請求項３に記載のコミュニケーションシステム。
【請求項８】
前記第二視聴者を含む一人以上の視聴者の画像を表示する第二表示面を有する第二表示部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記基準位置選択部が前記表示方向に対応付けた前記視点の位置のうち前記第二視聴者基準位置を除く視点の位置の各々に対して、前記表示面の中心の位置を中心とする、当該視点の位置から前記第二視聴者基準位置への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、当該視点の位置が対応付けられた表示方向と前記生成した画像とを対応付けて前記画像伸縮部に出力する自由視点画像生成部と、
を具備し、
前記基準位置検出部は、
前記１人以上の視聴者を被写体とする第二ステレオ画像を撮像する第二撮像部と、
前記第二ステレオ画像から前記１人以上の視聴者の顔またはその一部の画像を検出し、前記１人以上の視聴者の各々の基準位置を算出する基準位置算出部と、
を具備し、
前記基準位置選択部は、前記第一ステレオ画像から前記第一視聴者の視線方向を検出し、前記視線方向と前記第二表示面との交点に表示される視聴者の基準位置を、前記基準位置算出部が算出する基準位置の中から第二視聴者基準位置として選択し、前記表示面の中心と前記第二視聴者基準位置との位置関係に基づいて、前記第二視聴者基準位置に前記表示方向のいずれかを対応付け、前記第二視聴者基準位置に対応付けられた方向以外の表示方向の各々に、第二視聴者基準位置以外の基準位置のいずれかを、前記表示面と各基準位置との位置関係に基づいて対応付ける、
ことを特徴とする請求項７に記載のコミュニケーションシステム。
【請求項９】
通信路を介して互いに接続され、第一視聴者が利用する第一端末装置と第二視聴者が利用する第二端末装置と第三視聴者が利用する第三端末装置を有するコミュニケーションシステムであって、
前記第一視聴者と前記第二視聴者と第三視聴者とのうち何れか２人を会話者として選択する会話者選択部をさらに具備し、
前記画像出力部は、前記会話者選択部が、前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して前記画像伸縮部に出力し、前記第一視聴者と前記第三視聴者とを選択した場合は、正面以外から見た前記第一視聴者の画像を生成して前記画像伸縮部に出力する、
ことを特徴とする請求項１に記載のコミュニケーションシステム。
【請求項１０】
通信路を介して前記第一端末装置と前記第二端末装置と前記第三端末装置とに接続された会話者選択装置を有するコミュニケーションシステムであって、
前記第一端末装置は、前記画像出力部を具備し、
前記第二端末装置は、前記基準位置出力部と、前記表示部と、前記画像伸縮部と、を具備し、
前記会話者選択装置は、前記会話者選択部を具備する、
ことを特徴とする請求項９に記載のコミュニケーションシステム。
【請求項１１】
第三視聴者を撮像する第三視聴者撮像部をさらに具備し、
前記画像出力部は、
前記第一視聴者を被写体とする第一ステレオ画像を撮像する第一視聴者撮像部と、
前記第一ステレオ画像から前記第一視聴者の顔を含む画像を検出し、前記第一視聴者の視線方向を検出し、また、前記第一ステレオ画像に基づいて前記第一視聴者の顔を含む三次元モデルを生成し、前記会話者選択部が前記第一視聴者と前記第二視聴者とを選択した場合は、前記第一視聴者を略正面から見た画像を生成して出力し、前記会話者選択部が前記第一視聴者と前記第三視聴者とを選択した場合は、前記表示面の中心の位置を中心とする、前記第二表示面の中心の位置から前記基準位置出力部が出力する基準位置の方向への向きを検出し、前記第一視聴者の視線方向から前記検出した向きに移動した位置から見た画像を生成して、前記正面以外から見た前記第一視聴者の画像として出力する自由視点画像生成部と、
を具備し、
前記基準位置出力部は、
前記第二視聴者を被写体とする第二ステレオ画像を撮像する第二視聴者撮像部と、
前記第二ステレオ画像から前記第二視聴者の顔またはその一部の画像を検出し、前記第二視聴者基準位置を算出する基準位置算出部と、
を具備し、
前記会話者選択部は、前記第一撮像部が撮像した画像と前記第二視聴者撮像部が撮像した画像と前記第三視聴者撮像部が撮像した画像とから、それぞれ前記第一視聴者の口の動きの頻度と前記第二視聴者の口の動きの頻度と前記第三視聴者の口の動きの頻度とを検出し、検出した頻度に基づいて会話者を選択し、選択した会話者の画像から視線方向を検出し、検出した視線方向に基づいて相手の会話者を選択する、
ことを特徴とする請求項１０に記載のコミュニケーションシステム。

【図１】