説明

アノテーション方法、アノテーション装置、および携帯電話機

【課題】拡張現実に関連して、実際の画像にアノテーションがオーバーレイされる場合の速度および正確性を向上させること。
【解決手段】ディスプレイ上で、カメラがキャプチャしたシーンの画像内の複数のオブジェクトにアノテーションを付与する方法が提供される。上記方法は、i)上記複数のオブジェクトのそれぞれに適用されうる複数の異なる注釈を表すメタデータと、ii)上記画像内で上記アノテーションが適用される、上記シーンにおける上記複数のオブジェクトのそれぞれの現実の位置を特定する位置情報とを受信し、上記カメラの焦点距離および上記カメラに適用されたチルトを判定し、上記キャプチャされたシーンに関する上記カメラの位置を決定し、上記位置情報に応じて、上記カメラがキャプチャした上記画像にアノテーションを適用する方法を提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はアノテーション方法、アノテーション装置、および携帯電話機に関する。
【背景技術】
【0002】
あるシーンにおけるイベントを閲覧する際に、上記シーンにおけるイベントの詳細情報を取得できると便利である。これは拡張現実(AR;Augmented Reality)と呼ばれることもある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】英国特許出願公開第2452508号明細書
【特許文献2】英国特許出願公開第2452510号明細書
【特許文献3】米国特許出願公開第6538676号明細書
【特許文献4】米国特許出願公開第2010−0050082号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
拡張現実に関連する問題として、実際の画像にアノテーション(注釈)がオーバーレイされる場合の速度および正確性が挙げられる。本発明の実施形態の目的は、これら問題を解決することである。
【課題を解決するための手段】
【0005】
本発明の第1の側面によれば、ディスプレイ上で、カメラがキャプチャしたシーンの画像内の複数のオブジェクトにアノテーションを付与する方法が提供される。上記方法は、i)複数のオブジェクトのそれぞれに適用されうる複数の異なる上記アノテーションを表すメタデータと、ii)上記画像内で上記アノテーションが適用される、上記シーンにおける上記複数のオブジェクトのそれぞれの現実の位置を特定する位置情報とを受信し、上記カメラの焦点距離および上記カメラに適用されたチルトを判定し、上記キャプチャされたシーンに関する上記カメラの位置を決定し、上記位置情報に応じて、上記カメラがキャプチャした画像に上記アノテーションを適用する。
【0006】
上記方法はさらに、上記シーンにおける、上記カメラと異なる視野を有する画像キャプチャ装置から位置情報を取得し、上記位置情報は、画像キャプチャ装置がキャプチャしたシーンの画像から決定されてもよい。
【0007】
上記方法はさらに、上記オブジェクトの現実の位置情報、カメラの位置情報、並びに、カメラの焦点距離およびカメラに適用されたチルトに応じて、カメラがキャプチャした画像内の複数のオブジェクトのうち少なくとも1つのオブジェクトを特定し、上記特定されたオブジェクトに応じて画像に上記アノテーションを適用してもよい。
【0008】
上記オブジェクトを特定するステップは、画像内のオブジェクトを検出してもよい。
【0009】
上記方法はさらに、予め記憶されたカメラのレンズ歪み特性に応じて、オブジェクトを特定してもよい。
【0010】
上記位置情報は、GPS(グローバル・ポジショニング・システム)による位置情報であってもよい。
【0011】
上記オブジェクトは、シーン内に位置する静的なオブジェクト、またはシーンにおける固有のオブジェクトでもよい。
【0012】
上記方法はさらに、上記メタデータを記憶し、上記記憶されたメタデータから上記アノテーションを表示してもよい。
【0013】
本発明のもう1つの側面によれば、複数のオブジェクトを有するシーンの画像を表示するように動作可能なディスプレイと、画像をキャプチャするカメラと、i)上記複数のオブジェクトのそれぞれに適用されうる複数の異なるアノテーションを表すメタデータと、ii)上記画像内で上記アノテーションが適用される、上記シーンにおける各オブジェクトの現実の位置を特定する位置情報とを受信するように動作可能な受信装置と、上記カメラの焦点距離および上記カメラに適用されたチルトを判定し、上記キャプチャされたシーンに関する上記カメラの位置を決定する決定装置と、上記位置情報に応じて、上記カメラによってキャプチャされた画像にアノテーションを適用するように動作可能であるコントローラとを具備するアノテーション装置が提供される。
【0014】
上記方法はさらに、上記シーンにおける、上記カメラと異なる視野を有する画像キャプチャ装置から位置情報を取得するように動作可能な取得装置を具備してもよく、上記位置情報は、上記画像キャプチャ装置がキャプチャしたシーンの画像から決定されてもよい。
【0015】
上記コントローラは、上記オブジェクトの現実の位置情報、上記カメラの位置情報、並びに、上記カメラの焦点距離および上記カメラに適用されたチルトに応じて、上記カメラがキャプチャした画像内の複数のオブジェクトのうち少なくとも1つのオブジェクトを特定し、上記特定されたオブジェクトに応じて、上記画像にアノテーションを適用するように動作可能であってもよい。
【0016】
上記コントローラは、上記画像内のオブジェクトを検出するように動作可能であってもよい。
【0017】
上記コントローラは、予め記憶された、上記カメラのレンズ歪み特性に応じて、上記オブジェクトを特定するように動作可能であってもよい。
【0018】
上記位置情報はGPSによる位置情報であってもよい。
【0019】
上記オブジェクトは、上記シーンに位置する静的なオブジェクト、または上記シーンにおける固有のオブジェクトであってもよい。
【0020】
上記アノテーション装置は、上記メタデータを記憶するように動作可能な記憶装置をさらに具備してもよく、上記コントローラは、上記記憶されたメタデータからアノテーションを表示するように動作可能であってもよい。
【0021】
本発明のもう1つの側面によれば、ネットワークに接続するための送受信機および上記実施形態のいずれか1つに記載のアノテーション装置を具備する携帯電話機が提供される。
【0022】
本発明の上述した目的および他の目的、特徴、利点は、添付の図面と関連して記載された例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0023】
【図1】本発明の第1の実施形態に係るシステムを示す図である。
【図2】本発明の第1の実施形態に係るシステムにおけるクライアント装置を示す図である。
【図3】本発明の第2の実施形態に係るシステムを示す図である。
【図4A】本発明の第1の実施形態に係るサーバを示す図である。
【図4B】本発明の第2の実施形態に係るサーバを示す図である。
【図5】本発明の第1の実施形態または第2の実施形態のいずれかに係るクライアント装置のサーバへの登録プロセスを説明するフローチャートである。
【図6】本発明の第1の実施形態および第2の実施形態の両方に係るオブジェクト追跡を行う方法のフローチャートである。
【図7A】本発明の第1の実施形態および第2の実施形態に係るオブジェクト・キーの生成を示す模式図である。
【図7B】本発明の第1の実施形態および第2の実施形態の両方に係るピッチの3Dモデルへの方向インジケータの追加を示す模式図である。
【図8】本発明の第1の実施形態および第2の実施形態の両方に係る複数の選手およびその境界ボックスを示す図である。
【図9】本発明の第1の実施形態および第2の実施形態に係るオブジェクト追跡および遮蔽検出を行う方法のフローチャートである。
【図10A】本発明の第1の実施形態および第2の実施形態に係るオブジェクト追跡および遮蔽検出の例を示す図である。
【図10B】本発明の第1の実施形態および第2の実施形態に係るオブジェクト追跡および遮蔽検出の例を示す図である。
【図11】本発明の第1の実施形態に係るサーバ内に位置する再フォーマット装置を示す図である。
【図12】本発明の第2の実施形態に係るサーバ内に位置する再フォーマット装置を示す図である。
【図13】本発明の第1の実施形態および第2の実施形態に係るカメラの位置とカメラの視野内にあるオブジェクトとの間の距離を求めるシステムを示す模式図である。
【図14】本発明の第1の実施形態および第2の実施形態に係るカメラとカメラの視野内にあるオブジェクトとの間の距離を求めるシステムを示す模式図である。
【図15A】本発明の第1の実施形態に係るクライアント装置を示す図である。
【図15B】本発明の第1の実施形態に係るクライアント装置を示す図である。
【図16A】図15Aのクライアント装置に位置するクライアント処理装置を示す図である。
【図16B】図15Bのクライアント装置に位置するクライアント処理装置を示す図である。
【図17】本発明のさらなる実施形態に係るネットワーク・システムを示す図である。
【図18】本発明の第1の実施形態または第2の実施形態のいずれかに係る図17に記載のネットワーク・システムに設けられた、ハイライト映像を生成するために利用されるクライアント装置を示す図である。
【図19A】本発明の第1の実施形態または第2の実施形態のいずれかに係る図17に記載のネットワーク・システムに設けられた、ハイライト映像を見るために利用されるクライアント装置を示す図である。
【図19B】本発明の第1の実施形態または第2の実施形態のいずれかに係る図17に記載のネットワーク・システムに設けられた、ハイライト映像を見るために利用されるクライアント装置を示す図である。
【図20】本発明のさらなる実施形態に係る携帯機器上で拡張現実を実現できるスタジアムの平面図である。
【図21】図20に記載の携帯機器のブロック図である
【図22】拡張現実が実現された時の図20および図21に記載の携帯機器のディスプレイを示す図である。
【図23】本発明の拡張現実の実施形態を説明するフローチャートである。
【発明を実施するための形態】
【0024】
図1にシステム100を示す。システム100では、シーンにおける複数の画像がカメラ装置130によってキャプチャされる。本実施形態におけるシーンは、サッカーの試合などのスポーツ・イベントのシーンであるが、本発明はこれに限定されない。本カメラ装置130においては、3台の高解像度カメラがリグ(図示せず)に搭載されている。本カメラ装置130によって、スティッチ画像を生成することが可能になる。したがって、本カメラ装置130においては、各カメラの視野をわずかに重ね合わせることで、各カメラが同じシーンで異なる部分をキャプチャする。3枚の画像はそれぞれ高解像度の画像であり、スティッチさせると超高解像度の画像となる。カメラ装置130における3台のカメラによってキャプチャされた3枚の高解像度の画像は、色強調などの画像の編集を行う画像プロセッサ135に取り込まれる。また、画像プロセッサ135は、カメラ装置130のカメラから焦点距離、ズーム比などのカメラのパラメータに関するメタデータを受信する。強化された複数の画像およびメタデータは、図4Aを参照して後述する第1の実施形態のサーバ110、または図4Bを参照して後述する第2の実施形態のサーバ110‘に取り込まれる。
【0025】
本実施形態では、実際の画像スティッチは、ユーザ装置200A−Nで行われる。しかし、ユーザ装置200A−Nの計算コストを減らすために、画像処理装置135が接続されるサーバ110内で、スティッチを行うために必要なパラメータを計算する。サーバ110は、有線あるいは無線により、直接あるいはローカル・エリア・ネットワーク、広域ネットワーク、またはインターネットなどのネットワークを介して画像プロセッサ135に接続される。パラメータを計算する方法、および実際にスティッチを行う方法は、英国特許出願公開第2444566A号明細書に記載されている。さらに、適切なカメラ装置130が英国特許出願公開第2444566A号明細書に開示されている。パラメータの計算、スティッチの方法、およびカメラ装置に関する英国特許出願公開第2444566A号明細書の内容が本明細書に組み込まれる。
【0026】
英国特許出願公開第2444566A号明細書に記載されているように、カメラのパラメータはカメラ装置130のカメラ毎に決定される。これらパラメータには、カメラ毎の焦点距離、相対的なヨー、ピッチ、およびロールが含まれる。また、レンズ歪み、樽型歪曲などを補正するパラメータがサーバ110で決定される。また、画像をスティッチするために必要な色収差補正パラメータ、測色パラメータ、および露出補正パラメータなどの他のパラメータも、サーバ110で計算してもよい。また、当業者に理解されるように、画像スティッチのプロセスで必要な他の値をサーバ110で計算してもよい。これら値については英国特許出願公開第2444566A号明細書で説明されているので、簡潔にするために後述しない。サーバ110で計算されるこれら値は、後述するように各ユーザ装置200A−Nに送信される。
【0027】
サーバ110で計算される画像スティッチのパラメータに加えて、他の計算も行われる。例えば、3次元効果が適用される複数の画像においてオブジェクトを特定し抽出するオブジェクト検出および分割が行われる。画像内で検出された各オブジェクトの位置を特定する位置情報も、サーバ110で決定される。
【0028】
また、サーバ110内で奥行きマップが生成される。奥行きマップは、カメラによってキャプチャされたシーン内の上記カメラから一致する距離を有する画像に各画素を割り当てる。すなわち、キャプチャされた画像に対する奥行きマップの生成が完了すれば、シーン内の画素に対応する点と、画像をキャプチャするカメラとの間の距離を求めることができる。また、定期的に更新される背景モデルもサーバ110内で保持されている。背景モデルは、背景の画像の異なる部分が異なる割合で更新されるように更新される。特に、前のフレームにおいて上記画像の部分が選手として検出されたか否かに基づいて、背景モデルは更新される。
【0029】
あるいは、サーバ110は2つの背景モデルを有することもできる。この場合、サーバ110内に、長期背景モデルと短期背景モデルが維持される。長期背景モデルは5分間などの長時間に亘って画像の背景を定義し、短期背景モデルは1秒などの短時間に画像の背景を定義する。短期および長期背景モデルを利用することで、照明の変更などの短期間のイベントを考慮することができる。
【0030】
サーバ110内で計算される奥行きマップは、各ユーザ装置200A−Nに送信される。本実施形態では、カメラ装置130内の各カメラは固定されている。これは、奥行きマップが経時的に変化しないことを意味する。しかし、各カメラに対する奥行きマップが各ユーザ装置200A−Nに送信されることで、新しいユーザ装置がサーバ110に接続できるようになる。例えば、新しいユーザ装置がサーバ110に登録する時、または時間周期的に奥行きマップを送信してもよい。当業者には理解されるように、カメラの視野が移動した場合、奥行きマップを再計算し、より頻繁にユーザ装置200A−Nに送信する必要がある。しかし、奥行きマップを継続的に各ユーザ装置200A−Nに送信されることも想定される。
【0031】
奥行きマップおよび背景モデルを生成する方法は後述する。また、オブジェクト検出およびオブジェクト分割を行う方法も後述する。
【0032】
また、複数のユーザ装置200A−Nがサーバ110に接続されている。本実施形態において、これらユーザ装置200A−Nは、インターネット120を介してサーバ110に接続されている。しかし、本発明はこれに限定されず、ユーザ装置200A−NはLANなどのあらゆる種類のネットワークを介して、すなわち有線でサーバ110に接続することができ、また無線によりサーバ110に接続できることが理解される。また、対応するディスプレイ205A−Nが各ユーザ装置に取り付けられている。ディスプレイ205A−Nは、テレビ、モニター、またはユーザが3次元画像であると認識できる画像を表示することができるあらゆる種類のディスプレイでもよい。
【0033】
本実施形態において、ユーザ装置200A−NはPlayStation(登録商標)ゲーム・コンソールである。しかし、本発明はこれに限定されない。実際には、ユーザ装置はセット・トップ・ボックス、コンピュータ、または画像を処理できるあらゆる種類の装置でもよい。
【0034】
また、コミュニティ・ハブ(ネットワーク・サーバと呼ぶ場合もある)1700が、インターネット120を介してサーバ110およびユーザ装置200A−Nのそれぞれに接続されている。コミュニティ・ハブ1700の構造および機能は後述する。
【0035】
ユーザ装置200Aの模式図を図2に示す。ユーザ装置200Aは記憶媒体220を含む。本実施形態において、記憶媒体220はハード・ディスク・ドライブであるが、本発明はこれに限定されない。記憶媒体は、光媒体または半導体メモリなどでもよい。
【0036】
中央処理装置250が記憶媒体220に接続されている。本実施形態において、中央処理装置250はセル(Cell)・プロセッサである。セル・プロセッサは特に画像処理などの複雑な計算に適しているので、本実施形態において有利である。
【0037】
さらに、無線アクセサリ210Aとの接続および通信に適した無線アクセサリ・インタフェース210が中央処理装置250に接続されている。本実施形態において、無線アクセサリ210Aはユーザ操作装置であるが、6軸コントローラでもよく、本発明はこれに限定されない。6軸コントローラにより、ユーザはユーザ装置200Aと情報をやり取りすることができ、またユーザ装置200の制御を行うことができる。
【0038】
さらに、グラフィックス・プロセッサ230が中央処理装置250に接続されている。グラフィックス・プロセッサ230は、ディスプレイ205Aに接続することができ、またディスプレイ205Aを制御して立体画像を表示させるように動作可能である。
【0039】
当業者には理解されるように、オーディオ・プロセッサ240などの他のプロセッサが中央処理装置250に接続される。
【0040】
図3には、システム100の異なる実施形態が示されている。上記異なるシステムは、100’と称し、同等の符号は同等の特徴を示し、3GPPロング・ターム・エボリューション(LTE)ネットワークを介してコンテンツを供給する。上記異なる実施形態において、サーバ110’は、サービング・ゲートウェイ305に接続され、特に携帯電話ネットワークを介した流通に適しているコンテンツを供給する。当業者に理解されるように、サービング・ゲートウェイ305は、多くの拡張ノードBへのユーザ・データのルーティング、またはノードBからのルーティングを行う。簡潔にするために、単一の拡張ノードB310を図3に示す。拡張ノードB310は、複数のユーザ機器315A−Cと通信を行う。
【0041】
図4Aにサーバ110の実施形態を示す。図4Aに示す実施形態において、画像プロセッサ135によって処理された画像は、画像スティッチ装置1101に取り込まれる。上記のように、画像スティッチ1101は、別々にキャプチャされてスティッチされた3枚の画像からなる超高解像度の画像を生成する。これは英国特許出願公開第2444566A号明細書に記載されているので、後述しない。
【0042】
スティッチ画像は、スティッチ画像から前景オブジェクトを取り除く背景ジェネレータ1102に取り込まれる。すなわち、背景ジェネレータ1102は、スティッチ画像の背景のみを含む画像を生成する。背景ジェネレータ1102の構造および機能は後述する。スティッチ画像はさらに、オブジェクト・キー生成装置1103に取り込まれる。オブジェクト・キー生成装置1103は、後述するように、スティッチ画像内の前景オブジェクトを特定し、特定された各前景オブジェクトの位置を決定する。
【0043】
生成された背景は、再フォーマット装置1104に取り込まれ、またオブジェクト・キー生成装置1103に取り込まれる。再フォーマット装置1104は、後述するように、生成された背景をネットワーク120を介した伝送により適したフォーマットにフォーマットする。
【0044】
オブジェクト・キー生成装置1103からの出力は、加算器1105およびアドバンスドビデオコーディング(AVC)エンコーダ1106に取り込まれる。特に、オブジェクト・キー生成装置1103の1つの出力は、AVCエンコーダ1106に関連付けられた量子化器を制御するように動作可能である。AVCエンコーダ1106の出力は、後述するように、カメラ装置130からのスティッチ画像と抽出されたオブジェクトの両方を含む複合ストリームを生成する。オブジェクト・キー生成装置1103からの出力にも、オブジェクトに関連するメタデータが含まれる。例えば、メタデータは、選手の名前、選手の番号、選手の生体情報を含んでもよい。このメタデータは、ネットワーク120に接続されたデータ・ストリーム生成装置1108に取り込まれる。
【0045】
再フォーマット装置1104の出力は、加算器1105に取り込まれる。加算器1105からの出力は、AVCエンコーダ1106に取り込まれる。AVCエンコーダ1106からの出力は、データ・ストリーム生成装置1108に取り込まれる。データ・ストリーム生成装置1108は、入力信号を多重化する。多重化されたストリームは、データパケットに変換され、インターネット120を介して適切なユーザ装置に転送される。
【0046】
図4Bは、上記代替的なサーバ110’を示す。サーバ110’においては、多くの構成要素が図4Aに関して説明したサーバ110の構成要素と同一である。これら同一の構成要素は、同じ参照符号を有する。しかし、本実施形態の背景ジェネレータ1102’は、再フォーマット装置1104’への出力を有しない。その代わりに、画像スティッチ装置1101からの出力が、背景ジェネレータ1102’と再フォーマット装置1104’の両方に取り込まれる。
【0047】
さらに、サーバ110’においては、加算器が存在しない。その代わりに、再フォーマット装置1104’からの出力が、直接AVCエンコーダ1106’に取り込まれる。また、本実施形態のオブジェクト・キー生成装置1103’は、図4Aの実施形態で生成されるような合成画像を生成しない。
【0048】
[ユーザ登録]
サーバ110からユーザ装置200A−Nに、または代替的なサーバ110’からユーザ機器315A−Cにコンテンツが送信される前に、それぞれの装置または機器を適切なサーバに登録する必要がある。以下では、ユーザ装置200Aのサーバ110への登録に関し、図5を参照して説明を行う。なお、ユーザ機器は、同様にサーバ110’に登録される。
【0049】
ユーザがユーザ装置200Aのスイッチを入れると、ユーザは無線アクセサリ210Aを使用して、ディスプレイ205A上で見たい特定のイベントを選択する。このイベントは、ポップ・コンサート、スポーツ・イベント、またはあらゆる種類のイベントでもよい。以下の例では、上記イベントはサッカーの試合である。この選択が図5の開始ステップS50に示されている。
【0050】
イベントを見るために、ユーザが一括で料金を支払う必要があるようにしてもよく、または上記イベントが定期購入されたパッケージの一部であってもよい。イベントを見る前に、上記料金の支払いまたはパッケージの購入を、ユーザ装置200Aにクレジット・カードの詳細を入力することで行うことができる。あるいは、上記イベントを他のあらゆる手段で購入することができる。さらには、上記イベントは無料とすることもできる。イベントを見るために、ユーザはサーバ110に登録する必要がある。したがって、ユーザ装置200Aは、サーバ100に対するクライアント装置として動作する。上記登録はステップS55で行われ、これにより、サーバ110は、サーバ110とユーザ装置200Aとの間の通信を可能にするIPアドレスなどの必要な情報をユーザ装置200Aから取得することができる。サーバ110はさらに、ユーザが見るイベントに関する情報などの他の情報をこの段階で収集することができる。この情報により、ユーザ向けにターゲット広告を行うことができる。
【0051】
登録後、ユーザは、ステップS510で見たいイベントを確認し、決済の詳細を確認する。
【0052】
ステップS515において、ユーザ装置200Aは、サーバ110およびディスプレイ205Aから初期化情報を受信する。ディスプレイ205Aからの初期化情報は、画面のサイズに関する情報を含んでもよい。この情報は、ディスプレイ205Aから直接取得してもよいし、またはユーザが入力してもよい。サーバ110からの初期化情報は、奥行きマップを含んでもよい。上記初期化情報は、ユーザ装置200Aからの要求に応答して供給されてもよいし、または登録に応答してサーバ100から転送されてもよい。あるいは、上記初期化情報は、サーバ110に接続された各ユーザ装置200Aに定期的に転送されてもよい。なお、カメラ装置130が固定されているので、奥行きマップはユーザ装置200Aに一度供給されるだけでよい。カメラ装置130が移動可能なイベントにおいては、上記初期化情報はより定期的に供給される。上記初期化情報は、ユーザ装置200A内の記憶媒体220に記憶される。
【0053】
ステップS520において、サーバ110は画像スティッチ装置1101でスティッチされた画像から生成された、フォーマット済みの高解像度の背景画像を供給する。ユーザ装置200Aの中央処理装置250は、フォーマット済みの背景画像を利用して、表示用の超高解像度の画像を生成する。さらに、中央処理装置250は、左右の超高解像度の画像および/または変化する視野の超高解像度の画像を生成して、超高解像度の画像または変化する視野の画像の3D(または立体)表示を行う。
【0054】
ここで記載するように、ユーザはイベントの所望の視野を決定することができる。上記視野は、インタフェース210Aを利用して選択されることとなる。ユーザ装置200Aが利用する、適切な視野の選択を可能にする方法も、英国特許出願公開第2444566A号明細書に記載されている。
【0055】
さらに、キャプチャされた画像のそれぞれに対して、サーバ110は画像を分析してその画像内のオブジェクトを検出する。この検出はオブジェクト・キー生成装置1103内で行われる。その機能を以下に説明する。画像内のオブジェクトを検出した後、オブジェクト・ブロックが生成される。上記オブジェクト・ブロックには、前景オブジェクトが含まれる。これについては後述する。また、抽出されたオブジェクトの画像内の位置を特定する位置データも生成される。これについても後述する。
【0056】
高解像度の背景画像、画像内の分割されたオブジェクト、および位置データはユーザ装置200Aに送信される。
【0057】
サーバ110から前述の情報を受信した後、ユーザ装置200Aは高解像度の画像を生成する。これはステップS525である。さらに、奥行きマップ、分離されたオブジェクト・ブロック、および画像内で検出されたオブジェクトの位置データを利用して、ユーザ装置200Aは超高解像度の画像に3次元効果を適用する。また、他のメタデータがユーザ装置200Aに供給される。ユーザ体験を向上させるために、選手情報などのオブジェクトのメタデータが供給される。さらに、各オブジェクト・ブロックと共に、マクロブロック番号を供給してもよい。これにより、各オブジェクト・ブロックと関連するマクロブロック番号が特定される。これにより、オブジェクト・ブロックを背景画像に設置するユーザ装置200A内の計算コストが低下する。
【0058】
代替的なサーバ110’に関しても、同様の情報がユーザ機器320Aに供給される。しかし、この実施形態においては、(サーバ110の実施形態における再フォーマットされた背景画像ではなく)再フォーマットされ、キャプチャされ、スティッチされた画像が供給される。さらに、この実施形態においては、検出されたオブジェクトにさらなる3次元効果は適用されないので、オブジェクト・ブロックは供給されない。
【0059】
[オブジェクト検出およびオブジェクト追跡]
本発明の実施例に係るオブジェクト追跡を、図6〜8を参照しながら説明する。特に、以下のオブジェクト検出およびオブジェクト追跡は、サーバ110を参照する。しかし、同じオブジェクト検出およびオブジェクト追跡技術が、代替的なサーバ110’にも利用される。
【0060】
図6は本発明の実施例に係るオブジェクト追跡の方法を示すフローチャートである。オブジェクトを追跡するために、受信したビデオの中で所定数のフレームにわたって実質的に動きがないことが検出された部分から背景モデルが構築される。第1のステップS60においては、カメラ装置130における1台のカメラから受信した、ピッチを表すビデオ画像が処理されて画像の背景モデルを構築する。上記背景モデルは、個々の選手の特定および追跡に役立つ前景マスクを生成するために構築される。前景マスクを使用して、後述するオブジェクト・キーが生成される。背景モデルは、ステップS60において、一連のフレーム間の画素値の分散と平均を画素毎に求めることにより構築される。このようにして、前景マスクを特定するために、画素値の平均が大きく変化しない一連のフレームにおいて、これら画素を背景画素として特定することができる。
【0061】
このような背景/前景分割は、画像処理の分野では周知のプロセスであり、本技術は、2004年コンピュータ・ビジョン・グラフィックスおよび画像処理に関するインド会議(Indian Conference on Computer Vision Graphics and Image Processing; ICVGIP)の会報において発表された、Manzanera及びRichefeu著の「Σ−Δ背景推定に基づく強固で計算効率的な動き検出アルゴリズム(A Robust and Computationally Efficient Motion Detection Algorithm Based on Σ-Δ Background Estimation)」と題する文献に記載のアルゴリズムを利用する。しかし、本技術は上記周知の技術に限定されると解釈されるべきではなく、背景モデルに対して追跡に用いる前景マスクを生成するための他の技術も周知である。
【0062】
ビデオ・カメラの視野に群衆が含まれる場合、おそらく人々が動き回るため、上記群衆は背景モデルに含まれる可能性が低いことが理解されよう。オブジェクト追跡を行う際のセル・プロセッサにおける処理の負荷を増加させる可能性が高いので、ビデオ・カメラの視野に群衆を含めるのは望ましくない。また、ほとんどのスポーツ放送局は群衆の中の人々を追跡することに興味を持たないと考えられるので、カメラの視野に群衆を含める必要はない。
【0063】
本発明の実施例において、単一の背景モデルを構築してもよく、実際には2つの背景モデルを構築してもよい。単一の背景モデルが構築された場合、前のフレームにおけるそのような位置で選手が検出されたか否かに基づいて背景の異なる部分が異なる割合で更新される。例えば、前のフレームに選手が存在する場合、上記選手が背景画像の一部とならないように、背景の更新頻度が低くなる。
【0064】
あるいは、2つの背景モデルを生成する場合、1つのモデルをゲームの最初に構築することができ、選手がピッチに登場する前に構築することもできる。これは長期背景モデルと呼ばれる。さらに、ゲーム中に変化する影などの照明条件の変化を考慮して、他の背景モデルはゲーム中に定期的に再計算される。これが短期背景モデルである。ゲームの最初に生成された背景モデルおよび定期的に再計算される背景モデルは、両方ともサーバ110の記憶媒体(図示せず)に記憶される。以下の説明では、単一の背景モデルを使用する。
【0065】
ステップS605において、カメラから受信した画像から背景モデルを減算して、相違する領域を特定する。このようにして、背景モデルは画像から減算され、その結果として得られる画像を利用して各選手のためのマスクが生成される。ステップS610において、背景モデルが減算されたときに得られる画像の画素値に関する閾値が生成される。背景モデルは、まず、ビデオ画像の一連のフレームにおける画素の平均値を求めることによって生成される。各画素の平均値により、ビデオ画像のフレームにおける各画素の分散を算出することができる。画素の分散を利用して、閾値を求める。この閾値は、ビデオ画像のすべての画素において、画素毎に異なる。群衆を含む部分などの、画像内の分散が高い部分に対応する画素に対しては、閾値を高い値に設定することができる。一方、画像内のピッチに対応する部分では、選手がいること以外はピッチの色および内容が常に同じなので、低い閾値とすることができる。このようにして、閾値は前景要素が存在するか否かを決定する。したがって、それに応じて前景マスクを識別することができる。ステップS615において、平均的なヒト形状モデルとの相関関係に基づく形状確率を利用して、前景マスク内の形状を抽出する。さらに、例えば選手のユニフォームの色により選手を特定して色確率マスクを生成するために、画像から色特徴を抽出する。このようにして、各チームのユニフォームの色を利用して、選手を互いに区別することができる。この目的のために、サーバ110は、各サッカー・ボールチームのユニフォームの周知の色に基づいて、カラー・テンプレートを生成する。したがって、各チームのユニフォームの色、ゴール・キーパーのユニフォームの色、および主審のユニフォームの色が必要とされる。しかし、他の適切なカラー・テンプレートおよび/またはテンプレート・マッチング・プロセスを利用できることが理解されよう。上記で説明した背景生成は、背景ジェネレータ1102で行われる。
【0066】
図6に戻ると、ステップS615において、サーバ110は各カラー・テンプレートの各画素と、選手の画像におけるユニフォーム領域に対応する画素とを比較する。サーバ110はさらに、カラー・テンプレートの画素と選択された画素との間の類似性を示す確率値を生成し、チームの色モデルおよびピッチの色モデルから、HSV(Hue Saturation Value:色相、彩度、明度)色空間における距離に基づいて色確率を形成する。さらに、平均的なヒト形状モデルとの相関関係に基づく形状確率を利用して、選手の位置を特定する。さらに、動き確率は、開始位置、速度パラメータ、および加速度パラメータを利用した再帰的最小二乗法(RLS)推定器によって予測される位置からの距離に基づく。
【0067】
オブジェクト・キー生成装置1106によるオブジェクト・キーの生成を図7Aに示す。図7Aは、カメラ装置130内の1台のカメラによって生成された、ピッチにおけるカメラ・ビュー710を示す。すでに説明したように、ピッチは背景モデルの一部を構成し、一方、上述のように、選手730、732、734、736、738、740は、それぞれ前景マスクの一部を構成する。選手の境界ボックスは、各選手の周囲の破線として示されている。また、選手の境界ボックスは、矩形アウトラインとも称される。
【0068】
これまでのステップS60、S605、S610、およびS615は、カメラ画像処理に関して行われる。前景マスクを生成すると、ステップS620において、まず、カメラとの距離によって選手の軌道をソートした後に、選手の追跡が行われる。したがって、カメラに最も近いと識別された選手は、最初に処理が行われ、追跡処理から除外される。ステップS630において、形状確率、色確率、および動き確率を最大にするように選手の位置を更新する。ステップS640において、他のより近い選手の軌道によって隠されていることがすでに分かっている画像領域を除去する遮蔽マスクを構築する。これにより、他の選手によって部分的にあるいは全体的に遮蔽された選手を、可視の画像領域にのみ確実に適合させることができる。遮蔽マスクにより、軌道の結合(これにより、遮蔽イベントが発生すると、2つの軌道が同じ選手を追跡してしまう)の発生率が減少するため、追跡の信頼性が向上する。軌道の結合は、多くのターゲットが色によって(容易に)区別できず、同じように見える場合に特に問題である。遮蔽マスクにより、画素をより近くの選手に割り当て、より遠くの選手からは除外することができる。これにより、両方の軌道を同じ画素のセットに適合することを避け、個々の識別性を維持することができる。
【0069】
その後、図7Aおよび図7Bに示すように、カメラ画像内に供給された特徴を抽出し、これら特徴を3Dモデルにマッピングすることにより各選手を追跡する処理が続く。したがって、カメラによって生成された2D画像内の対応する位置に対して、形状確率、色確率、および動き確率を最大にする3D位置を選手に割り当てる。以下で簡単に説明するように、遮蔽イベントが検出された場合、選手の選択および2D画像から3Dモデルへの選手のマッピングを修正する。ステップS625において、2D画像から3Dモデルへのマッピングに役立てるために、追跡対象の選手が初期化され、形状確率および色確率のピークが、最も適切に選択された選手にマッピングされるようにする。なお、ステップS625において行われる追跡の初期化は、典型的には追跡処理の開始時点で、一度だけ行われるということを強調しておく。システムの追跡を良好に初期化するためには、選手たちは十分に離れていなければならない。追跡の初期化後、選手の追跡における誤差は、本技術によれば、自動的に補正される。この補正には、手動による介入は必要ない。
【0070】
3Dモデルにおいて、2D画像の位置からの追跡を行うために、投影マトリクスPを利用した変換が行われる。追跡のためには、2D画像の位置を3Dモデル内の位置に関連付けることができなければならない。この変換は、下記数式1に示すように、射影行列Pを用いることによって達成される。2D空間における点は、3D空間における線と一致する。
【0071】
【数1】

【0072】
3次元、すなわちカメラからの距離は未知であり、したがって、3Dモデルにおける線のように見えるため、2D空間における点は、3D空間における線と一致する。オブジェクト(選手)の高さを利用して、カメラからの距離を求めることができる。3D空間における点は、周知の基準レベル(ヒトの平均身長)を上回る、固定された高さにある線に沿った点を選択することによって得られる。射影行列Pは、ピッチ70のコーナー71a、71b、71c、および71dなどのピッチの物理的な特徴を用いてカメラ・パラメータを求めるカメラ校正処理により、カメラにつき一回、試合前に事前に取得される。したがって、射影行列Pは、識別された選手の2D位置を3Dモデルにマッピングする際に役立つ。これは周知の技術であり、確立された複数の方法を利用する。物理的パラメータに関して、射影行列Pは、カメラのズーム・レベル、焦点中心、3D位置、および3D回転ベクトル(3D位置が向いている方向)を含む。
【0073】
ステップS630において実行された追跡アルゴリズムは拡張可能であり、ピッチにおけるすべての点が少なくとも1台のカメラから(十分な解像度で)可視であれば、1台または複数台のカメラにおいて動作可能である。
【0074】
色および形状の適合に加えて、ステップS630には、各選手をより高い確率で正確に識別するために、追跡中の選手の動きも含む処理が含まれる。したがって、フレーム間における選手の関連性がある動きを、関連性がある動きと方向の両方の観点から求めることができる。この関連性がある動きを後続のフレームに利用して、特定の選手を識別するための検索領域を生成することができる。さらに、図7Bに示すように、ピッチ上にいる選手の相対的な動きの方向を示すために選手の位置のグラフィック表示に関連して配置された線730.1、732.1、734.1、736.1、738.1、740.1により、ピッチの3Dモデルを拡張することができる。
【0075】
ステップS640において、3Dモデルにおける選手の相対位置が特定されると、それに応じて、この位置がピッチの2D画像ビューに逆投影され、3Dモデルにおける位置によって識別された選手の周囲に相対的な境界が投影される。また、ステップS640において、選手の周囲の相対的な境界が、その選手に対する遮蔽マスクに追加される。
【0076】
図7Bは、ピッチの仮想モデル720の平面図を示す。図7Bに示す実施例において、選手730、732、および734(ピッチの左サイド)は、選手736、738、740(ピッチの右サイド)のユニフォームとは異なる色のユニフォームを着ており、したがって異なるチームであることを示すため、サーバ110によって識別されている。このように選手を区別することにより、選手の服の色によって容易に互いを区別することができるので、遮蔽イベントが発生したときの各選手の検出が容易になる。
【0077】
図6を再び参照すると、ステップS630において、カルマン・フィルタリングなどの周知の技術を利用して、各選手の位置が追跡されるが、他の適切な技術を利用してもよいことが理解されよう。この追跡は、カメラ・ビュー710および仮想モデル720の両方において行われる。本発明の一実施形態では、サーバ110が仮想モデル720における選手の位置を利用して行う速度予測を利用して、カメラ・ビュー710における各選手の追跡に役立てる。
【0078】
ステップS630およびS640は、決定ボックスS635が示すように、すべての選手が処理されるまで繰り返される。したがって、すべての選手の処理が完了していない場合、プロセスはステップS630に進み、一方、すべての選手の処理が完了した場合、プロセスはS645において終了する。
【0079】
図6に示すように、上記で説明した方法はさらなるステップS650を含む。このステップは、2台以上のカメラによって画像を生成する場合に必要となり得る。そして、プロセス・ステップS60〜S645を、各カメラからのビデオ画像に対して実行することができる。各選手に、各カメラからの検出確率が供給される。したがって、ステップS650によれば、各選手に対する各カメラからの検出確率に応じて各選手の位置が推定され、各カメラにより供給された確率のうち最も高い確率から推定された選手の位置、すなわち、各選手について最も高い確率を有する位置が、その選手の位置として識別される。この位置が上述の位置データである。
【0080】
ピッチ上の選手の追跡においてエラーが発生したと判断された場合、ステップS655において、その選手に対する追跡を再初期化することができる。追跡におけるエラーの検出は、特定の選手の検出確率が比較的低い場合に特定の追跡について生成され、それにより追跡が再初期化される。
【0081】
図6に示す方法を実行すると、各選手に対する経路データが生成される。この経路データは、ビデオ画像の各フレームにおける選手の位置を供給し、これは試合全体を通じてその選手が取った経路を表す。上記算出された位置は、ユーザ装置200Aに送信される位置データである。したがって、この経路データは時間に対する位置を供給する。
【0082】
単一のカメラ・ビューから各選手の位置の追跡を行う際、図8に示すように、1人の選手が他の選手の全部又は一部を隠している場合に、問題が生じる可能性がある。
【0083】
図8は、複数の選手810、820、830、840と、各選手の周囲に破線で示された、各選手に関連付けられた境界ボックスとを示す。選手810と選手840とは、互いに明確に区別できるが、選手820は選手830の一部を隠している。これがいわゆる遮蔽イベントである。遮蔽イベントは、1人の選手の全部または一部が、少なくとも1人の他の選手の全部または一部を隠しているときに発生する可能性があり、これにより、選手の相対的な動きおよび方向などの他の要因を考慮したとしても、選手の追跡が曖昧になる。しかし、2人以上の選手に関与する遮蔽イベントも発生する可能性があることが理解されよう。
【0084】
遮蔽イベントを検出するために、サーバ110は、図8に示すように、ある選手に関連するマスクの全部または一部が、別の選手に関連するマスクの全部又は一部と同じ画像領域内に存在するか否かを検出する。遮蔽イベントに関与する選手たちが敵対するチームであり、したがって、異なる色のユニフォームを着ている場合、選手たちを容易に区別することができ、これにより選手たちの追跡を行うことができる。しかし、遮蔽イベントが発生し、選手たちが両方とも同じチームであった場合、サーバ110は、誰がどの選手であるかを区別することができない可能性がある。これは特に、遮蔽イベントが発生したときの選手たちの動き、例えば衝突によって生じた選手たちの動きが予期できず、したがって、選手を正確に追跡できない可能性があるからである。その結果、各選手に割り当てられる追跡経路が取り違えられてしまう可能性がある。
【0085】
追跡される選手における曖昧さを解決するために、サーバ110は、遮蔽イベントに関与するすべての選手に、それら選手の識別性を示すラベルを付す。その後、1人または複数の選手が容易に区別できるようになると、サーバ110は、この情報を利用して、選手の識別性を正しい選手に再割り当てして、誰がどの選手であるかの記録を維持する。このプロセスを、図9を参照してより詳細に説明する。
【0086】
図9は、本発明の実施例に係るオブジェクト追跡および遮蔽検出の方法のフローチャートを示す。
【0087】
ステップS900において、サーバ110は、図6を参照して上述したように、1つまたは複数の画像特徴を抽出するために、キャプチャされたビデオ画像に対して画像処理を行う。その後、抽出された画像特徴は、予め想定されるオブジェクト例から抽出された、対応する画像特徴と比較され、各オブジェクトが識別される。本発明の実施例では、選手はユニフォームの背番号により識別される。その後、サーバ110は、各オブジェクトを識別するオブジェクト識別子を、オブジェクト毎に生成する。この識別子は、画像および位置情報と共にメタデータとして記憶される。あるいは、本発明の実施例では、各オブジェクト(例えば選手)は、操作者インタフェースを介して操作者により識別される。その後、サーバ110は、操作者インタフェースから入力されたデータを利用して、オブジェクト識別データを生成する。しかし、画像認識技術を操作者による識別と組み合わせて、オブジェクト識別データを生成してもよく、あるいは、ユニフォームの背番号によって選手を識別する番号認識などの他の適切なオブジェクト識別方法も利用できることが当業者によって理解されよう。
【0088】
ステップS905において、サーバ110は、図6を参照して上述したように、ステップS900において抽出した1つまたは複数の画像特徴に基づいて、選手などの検出対象のあらゆるオブジェクトを検出する。上述のように、各選手はまた、仮想モデル720およびカメラ・ビュー710の両方を利用して追跡される。サーバ110は、追跡プロセス中に生成されたデータを利用して、受信したビデオ画像内で各オブジェクトが辿る経路を記述するオブジェクト経路データを生成し、記憶する。このオブジェクト経路データは、時間に関する選手のx?y座標のサンプルという形を取る。本発明の実施例では、経路データは(t、x、y)の形式を有する。ここでtはサンプル時間であり、xおよびyは、サンプル時間tにおけるオブジェクトのx座標およびy座標である。しかし、他の適切な経路データの形式を利用できることが理解されよう。
【0089】
ステップS915において、サーバ110は、オブジェクト毎のオブジェクト識別データを、各オブジェクトがビデオ画像内で取った経路に関するオブジェクト経路データと共に記録する。記録されたデータは、サーバ110のHDD(Hard Disk Drive)またはDRAM(Dynamic Random Access Memory)に記憶される。これにより、どの選手が、検出および追跡された各経路と関連付けられたかについての記録を保持することが可能になる。その後、記録されたデータを利用して、各選手についてのデータおよび各選手が試合中にどこにいたかについてのデータを生成することができる。例えば、ある選手がピッチの特定の領域において費やした時間を、関連ログに記憶されたデータから生成することができる。この情報は、試合中または試合の最後に、ユーザ装置200Aに送信することができ、またユーザが望む場合、ユーザに向けて表示することができる。本発明の実施形態では、記録された表示データには選手によって隠される距離などを含んでもよい。これはユーザ装置200Aのユーザによって選択される。さらに、例えば、遮蔽イベント後のように、何らかの理由で選手と経路との関連性が曖昧になる場合、以下に説明するように、曖昧さが解決されるまでこの記録を保持することができる。記録されたオブジェクト識別データの例をオブジェクト経路データと共に以下の表1に示す。
【0090】
【表1】

【0091】
オブジェクト毎のオブジェクト識別データと、そのオブジェクトに対するオブジェクト経路データとの関連性により、各オブジェクトを追跡することができ、したがってそれを識別可能になる。上述の実施例において、各選手は追跡可能である。したがって、放送局は、選手があまりに遠くにいて、操作者またはサーバ110が実行する画像認識によって視覚的に識別できない場合でさえも、誰がどの選手なのかを知ることができる。これにより、放送局が、この関連性に基づいて、放送コンテンツの視聴者が望ましいと思う可能性があるさらなる特徴および情報を組み込むことができる。ステップS920において、サーバ110は、図6を参照して上述したように、遮蔽イベントが発生したか否かを検出する。遮蔽イベントが検出されなかった場合、プロセスはステップS905に戻り、そこでオブジェクトが検出される。このように、各オブジェクトを個別に追跡することができ、各オブジェクトの経路を、そのオブジェクトの識別子と一意に関連付与することができる。
【0092】
しかし、遮蔽イベントが検出された場合、ステップS925において、サーバ110は、その遮蔽イベントに関与するオブジェクト毎のオブジェクト識別データを、その遮蔽イベントに関与するオブジェクト毎のオブジェクト経路データと関連付ける。例えば、A、Bと標識された2つのオブジェクトが、経路PおよびQとそれぞれ関連付けられた場合、オブジェクトAおよびBに関与する遮蔽イベントが検出されると、経路PはオブジェクトAおよびBの両方と関連付けられ、経路Qも、オブジェクトAおよびBの両方と関連付けられる。遮蔽イベントが発生した後、上述のように、サーバ110によって生成された関連性が記録される。これにより、誰がどの選手であるかに関して不確実性がある場合でも、各オブジェクトを再識別することなく、遮蔽イベントに関与するオブジェクト(例えば選手)を追跡することができる。したがって、遮蔽イベントに関与するオブジェクトだけが曖昧に識別され、一方、遮蔽イベントに関与しないオブジェクトは依然として識別できるため、サーバ110の処理負荷が減少する。
【0093】
ステップS930において、サーバ110は、生成された経路と関連付けられたオブジェクトの識別子を分割できるように、遮蔽イベントに関与するオブジェクトのうち1つまたは複数の識別子が生成されたか否かを確認する。サーバ110により、オブジェクトに関連する1つまたは複数の画像特徴を、考えられるオブジェクト例から抽出された画像特徴と比較することによって、少なくとも1つのオブジェクトの識別が行われる。識別子が生成されていない場合、プロセスはステップS905に戻り、オブジェクト毎に生成された経路データは、遮蔽イベントに関与するすべてのオブジェクトと関連付けられる。
【0094】
しかし、遮蔽イベントに関与するオブジェクトのうちの1つまたは複数の識別子が生成されたことが検出された場合、ステップS935において、明確に識別されたオブジェクトの識別子を反映させるために、記録された経路データが更新される。上記の例において、関連ログは、Aが経路Pと関連付けられ、Bが経路Qと関連付けられるように更新される。
【0095】
あるいは、オブジェクトの識別は、操作者インタフェースを介して操作者が行ってもよく、本発明の実施例に係る(以下に説明する)画像認識技術を利用してサーバ110が行ってもよい。または、その2つの技術を組み合わせて行ってもよい。しかし、各オブジェクトを区別または識別するのに適した、他のあらゆる識別技術を利用できることが理解されよう。画像認識の場合、サーバ110は、画像認識プロセスによって生成された識別子が正しい可能性がどのくらいあるかを示す信頼度を生成してもよい。本発明の一実施例では、識別子は、信頼度が所定の閾値よりも高くなるように決定される。さらに、操作者がそれら識別子に信頼度を割り当ててもよく、その信頼度が所定の閾値を超えた場合、識別子が検出される。
【0096】
本発明の実施例では、記録された経路データがいつ更新されたかを示すイベント履歴が生成される。このイベント履歴は、明確な識別子に誤りがあることが分かった場合のバックアップとして機能するように記憶されてもよい。例えば、操作者は、カメラ装置130から遠く離れた選手が特定の識別子を有すると確信していたが、その選手がビデオ・カメラに近付いて来た(これによりユーザはその選手の高解像度の画像を見ることができる)ため、それが間違いであると操作者が気付いた場合に、識別子に誤りがあると分かる。この場合、操作者は、操作者インタフェースを用いて、以前の選手の識別子を無効にすることができる。これにより、サーバ110は、記録された経路データを更新することができる。上記の例において、識別イベント履歴は、経路Pが明確な識別の前にAおよびBの両方と関連付けられており、経路Qも明確な識別の前にAおよびBの両方と関連付けられていたことを示すデータと共に、サーバ110のHDDまたはDRAMに記憶することができる。
【0097】
識別イベント履歴は、識別プロセス中に生成された信頼度を含むことができる。次に生成された識別子が、それ以前に生成された明確な識別子よりも高い信頼度を有するオブジェクトからなる場合、次に生成された識別子の信頼度を利用して、以前の識別子を検証し、または以前の識別子を無効にすることができる。
【0098】
遮蔽イベントが検出されると、その遮蔽イベントに関与するオブジェクトの曖昧性を解消するために、遮蔽イベント後の任意の時間にオブジェクトを識別してもよいことが理解されよう。したがって、サーバ110は、遮蔽イベントが検出された後、ステップS905〜S925と並行して実行されるバックグラウンド処理として、オブジェクトの明確な識別が発生したか否かをモニタリングすることができる。
【0099】
本発明の実施例に係るオブジェクト追跡および遮蔽検出のいくつかの例を、図10a及び図10bを参照してこれから説明する。
【0100】
図10aに示す例では、AおよびBとして識別された2つのオブジェクトが遮蔽イベント1010に関与している。遮蔽イベントが発生すると、矢印によって示される検出されたオブジェクト経路の両方が、AおよびBの両方と関連付けられる(AB)。しばらくして、オブジェクトBは、下方の経路のAによって示されるものとして明確に識別される。その後、この識別子を利用して、オブジェクトAが遮蔽イベント1010の発生後に上方の経路と関連付けられ、オブジェクトBが遮蔽イベント1010の発生後に下方の経路と関連付けられるように、オブジェクトと経路との関連性を更新する。
【0101】
図10bに示す例において、オブジェクトAおよびBは、まず、遮蔽イベント1020に関与する。しかし、遮蔽イベント1020の発生後にAおよびBの両方と関連付けられた下方の経路上のオブジェクトは、オブジェクトAおよびBが明確に識別可能となる前に、オブジェクトCと共に別の遮蔽イベント1030にも関与する。したがって、遮蔽イベント1030が発生する前の時点では、遮蔽イベント1020の発生後に下方の経路上にあったオブジェクトがオブジェクトAなのかオブジェクトBなのかは不明である。したがって、遮蔽イベント1030の発生後、2つのオブジェクトが辿る上方の経路および下方の経路は、オブジェクトA、B、およびCと関連付けられる(ABC)。
【0102】
その後、遮蔽イベント1030の発生後に下方の経路にあるオブジェクトは、オブジェクトBとして明確に識別される(AC)。したがって、遮蔽イベント1030の発生後の上方の経路がオブジェクトCと関連付けられるように、関連ログを更新することができる。さらに、この情報を利用して、オブジェクトBは、遮蔽イベント1030の発生後に、下方の経路と関連するものとして明確に識別されたので、遮蔽イベント1030に関与したのはオブジェクトBに違いないとして、遮蔽イベント1020に関与する2つのオブジェクトの曖昧性を解消できるように、関連ログを更新することができる。したがって、上方の経路が遮蔽イベント1020の発生後にオブジェクトAと関連付けられ、下方の経路が遮蔽イベント1020の発生後にオブジェクトBと関連付けられるように、関連ログを更新することができる。
【0103】
したがって、本発明の実施例により、オブジェクトが明確に識別される前に遮蔽イベントが数回発生した場合であっても、オブジェクトを、オブジェクトの追跡経路と関連付けることが可能になる。さらに、本発明の実施例により、各経路が正しいオブジェクトと関連付けられるように、異なるオブジェクトの識別子を相互参照することが可能になる。
【0104】
いくつかの実施例においては、オブジェクトの開始位置を表すデータを利用して、オブジェクト追跡の初期化および検証を行ってもよい。サッカーを例にすると、選手はピッチ上のほぼ静止した位置で試合を開始する可能性が高い。各選手は、ピッチ上の特定の座標から閾値距離内に位置する可能性が高い。開始位置は、4−4−2(ディフェンダー4人、ミッドフィールダー4人、フォワード5人)や5−3−2などのチームのフォーメーション、および、どちらのチームがキックオフを行い、どちらのチームが守備を行うのかによって決めてもよい。ゴールキックを行う場合にも、ピッチ上の同様の位置に選手がいる可能性が高い。このような位置情報を利用して、例えば、位置データとチーム・シートおよびフォーメーション情報とを比較することにより、選手の追跡を開始することができる。このような位置情報を利用して、遮蔽イベントが発生した際に、経路情報を修正することもできる。チームのフォーメーション情報を利用することは、例えば、交代や退場の後で、チームのフォーメーションに明らかな変化があった場合でも、試合中に操作者がその情報をリセットできるので、有利である。これにより、オブジェクト追跡の正確性と信頼性が向上する。
【0105】
超高解像度の画像内の各オブジェクト(または本実施例における選手)の位置が確立される。さらに、図7Aにおいてそれぞれボックス730〜740として示されている各選手の周囲のブロックが確立される。各ブロックには選手の画像が含まれるので、「選手ブロック」と呼ばれる。エンコーダ1106’を利用して画像を符号化すると、選手ブロックは画像内に1つまたは複数のマクロブロックを形成する。選手ブロックがユーザおよびユーザ装置における立体画像の生成にとって重要となるので、画像内にある選手ブロックのマクロブロックのアドレスをオブジェクト・キー・ジェネレータ1103’によって生成する。オブジェクト・キー・ジェネレータ1103’は、オブジェクト・キー・ジェネレータ1103’内の量子化制御に上記マクロブロックのアドレスを供給して、確実に選手ブロックを画像の他の部分と比較して高解像度に符号化する。これにより、符号化された画像が転送されるネットワークの帯域幅を、最も効率的に確実に利用することができる。
【0106】
なお、サーバ110のオブジェクト・キー・ジェネレータ1103において、オブジェクト位置およびマクロブロック番号が生成されるだけでなく、選手ブロックのコンテンツが超高解像度の画像から抽出される。すなわち、オブジェクト・キー・ジェネレータ1103において、個々の選手は、超高解像度の画像から抽出される。しかし、代替サーバ110’のオブジェクト・キー・ジェネレータ1103’においては、オブジェクト位置とマクロブロック番号のみが生成され、選手ブロックのコンテンツは抽出されない。
【0107】
[再フォーマット装置]
図11を参照して、サーバ110のフォーマット装置1104について説明する。背景ジェネレータによって生成された超高解像度の画像の背景がスケーリング装置1150に取り込まれる。超高解像度の画像の背景のサイズは、6kx1kピクセルである。スケーリング装置1150により、このサイズは3840x720ピクセルまで縮小される。なお、水平方向のスケーリングの量は、垂直方向のスケーリングの量よりも少ない。すなわち、水平方向のデータの低減量は、垂直方向のデータの低減量よりも少ない。これは特に、サッカーの試合などのイベントをキャプチャする際に有効である。なぜなら、ボールは水平方向に移動し、選手の動きのほとんどは水平方向だからである。したがって、水平方向の解像度を確実に高くしておくことが重要である。しかし、本発明はこれに限定されず、垂直方向が最も重要であるイベントの画像がキャプチャされた場合、垂直方向のスケーリングの量が、水平方向のスケーリングの量よりも少なくなる。
【0108】
縮小された画像は、フレーム・スプリッタ1160に取り込まれる。フレーム・スプリッタ1160は、縮小された背景画像を、水平方向に均等に分割する。また、1920x1080ピクセルの2つのフレームを生成する。これは、フレームサイズが1080 30P (1920)のAVCHDフォーマットに準拠する。この2つのフレームは、加算器1105に取り込まれる。
【0109】
なお、フレーム・スプリッタ1160は、垂直方向に360ピクセルの空白を追加する。しかし、帯域幅を効率的に利用するために、この余白にはオブジェクト・キー・ジェネレータ1103によって抽出された個々の選手ブロックが挿入される。これは、個々の選手ブロックを、インターネット120を介して効率的に転送できることを意味する。個々の選手ブロックは加算器1105内の2つの画像に挿入される。これは、AVCエンコーダ1106に取り込まれる加算器1105からの出力が、縮小され分割された画像および360ピクセルの空白に挿入された個々の選手ブロックを含む合成画像を有することを意味する。
【0110】
図12を参照して、代替的なサーバ110’の再フォーマット装置1104’について説明する。この場合、超高解像度の画像が、超高解像度の画像を2880x540ピクセルの画像にスケーリングするスケーリング装置1150’に取り込まれる。縮小された画像はフレーム・スプリッタ1160’に取り込まれる。フレーム・スプリッタ1160’は、縮小された画像を水平方向に均等に分割し、1440x1080ピクセルの画像を生成する。これは、フレームサイズが1080 30P (1440)のAVCHDフォーマットに準拠する。すなわち、縮小された画像の左側は生成された画像の上半分を形成し、縮小された画像の右側は生成された画像の下半分を形成する。この単一の画像は、AVCエンコーダ1106’に取り込まれる。
【0111】
[AVC符号化]
サーバ110内のAVCエンコーダ1106が行うAVC符号化について説明する。前述のように、オブジェクト・キー・ジェネレータ1104は、選手ブロックを生成し、超高解像度の画像から選手ブロックのコンテンツを抽出する。選手ブロックのコンテンツは、縮小され分割された合成画像内の360ピクセルの空白に供給される。選手ブロックの位置(すなわち、空白ピクセル内の各選手ブロックの位置)と関連付けられたマクロブロックは、AVCエンコーダ1106内の量子化器に取り込まれる。特に、合成画像内の選手ブロックの量子化は、AVCエンコーダ1106が画像内の他の場所よりも多くのビットを利用して選手ブロックを符号化するように制御される。これにより、ユーザが集中して選手ブロックを見るので、選手ブロックの品質が向上する。
【0112】
背景および選手ブロックからなる2つの合成画像は、H.264符号化を利用してAVC符号化され、ネットワークの性能によって変化するものの、約7Mbpsのビット・レートで送信される。
【0113】
代替的なサーバ110’において、AVC符号化はAVCエンコーダ1106’によって行われる。上述のように、AVCエンコーダ1106’に取り込まれ再フォーマットされた画像は、フレームサイズが1080 30P (1440)のAVCHDフォーマットの超高解像度の画像である。サーバ110と違い、代替的なサーバ110’内のオブジェクト・キー・ジェネレータ1103’は、選手ブロックのコンテンツを抽出しない。その代わりに、各選手ブロックの位置および各選手ブロックに関連付けられたマクロブロック番号を利用して、AVCエンコーダ1106’の量子化を制御する。量子化を制御することで、画像内の他の場所よりも多くのビットを利用して確実に選手ブロックを符号化し、さらに選手たちを明確に再生する。AVCエンコーダ1106‘は、H.264符号化を利用して、ネットワークの性能によって変化するものの、約3Mbpsのビット・レートで画像を符号化する。
【0114】
いずれかのサーバにおいて、エンコーダによって生成され符号化された画像は、データ・ストリーム生成装置1108に取り込まれる。さらに、それぞれの選手ブロックに関連付けられたマクロブロック番号および符号化された画像内の各選手ブロックの位置が、データ・ストリーム生成装置1108に取り込まれる。これはクライアント装置200Aまたはユーザ機器に、メタデータとして転送される。
【0115】
[奥行きマップおよび位置データ生成]
図13〜15を参照して、カメラと上記カメラによってキャプチャされた画像内のオブジェクトとの距離を利用してオフセット量を求める本発明の実施形態について説明する。これは、サーバ110および代替的なサーバ110’の両方に位置する奥行きマップ・ジェネレータ1107内で行われる。
【0116】
図13は、本発明の実施形態に係る、カメラの位置と上記カメラの視野内にあるオブジェクトとの距離を求めるシステムの模式図である。
【0117】
図13は、カメラ装置130内のカメラと通信するように配置されたサーバ110を示す。上記カメラは、ピッチ70の画像をキャプチャする。上述のように、サーバ110は、ピッチ70上の選手を追跡し、ピッチ70における選手の位置を決定するために、カメラがキャプチャした画像を分析することができる。実施形態によっては、上記システムは、カメラと上記カメラの視野内にあるオブジェクトとの距離を検出するように動作可能な距離検出器1210を具備する。距離検出器1210およびその動作について、以下により詳細に説明する。
【0118】
実施形態によっては、サーバ110は、追跡データおよび位置データ利用して、カメラの位置とピッチ上の選手との距離を求めることができる。例えば、カメラの位置と選手1201との距離1201a、カメラの位置と選手1203との距離1203a、およびカメラの位置と選手1205との距離1205aを求めるために、サーバ110はキャプチャされた画像を分析することができる。
【0119】
すなわち、本発明の実施形態は、シーン内のオブジェクトとカメラに関して定義された基準位置との距離を求める。図13を参照して上述した実施形態において、基準位置はカメラの位置に設定されている。
【0120】
さらに、実施形態によっては、サーバ110は、シーン内の周知の特徴点に対応する、キャプチャされた画像内の所定の画像特徴を検出するように動作可能である。例えば、サーバ110は、コーナー、センター・スポット、ペナルティー・エリアなどのピッチの特徴に対応する画像特徴を検出するために、周知の技術を利用して、キャプチャされた画像を分析することができる。それから、検出された周知の特徴点(画像特徴)の検出位置に基づいて、周知の技術を利用して、ピッチ70の3次元モデルをキャプチャされた画像にマッピングすることができる。したがって、サーバ110は、キャプチャされた画像を分析して、キャプチャされた画像にマッピングされた3Dモデルに関して検出された選手の位置に基づいて、カメラと選手との距離を検出することができる。
【0121】
本発明のいくつかの実施形態では、選手の足がピッチと接触する位置を決定するために、サーバ110はキャプチャされた画像を分析できる。すなわち、サーバ110は、選手などのオブジェクトがピッチ70などの平面と重なる交点を決定することができる。
【0122】
2つ以上の交点で平面と重なるものとしてオブジェクトが検出された場合(例えば、選手の両足がピッチ70に接触している場合)、サーバ110はどの交点がカメラに最も近いか検出し、その距離をオフセット量を生成するために使用するように動作可能である。あるいは、オフセット量を生成する際に、オブジェクトに対して検出されたすべての交点の平均距離を算出して利用することができる。しかし、カメラから最も遠い他の適切な交点を選択できることが理解されよう。
【0123】
しかし、状況によっては、上述のように、カメラの位置とシーン内のオブジェクトとの距離を求める方法は、3次元画像の外観において歪みを引き起こす可能性がある。このような歪みは、画像が広角レンズ・カメラによってキャプチャされた場合、あるいは本発明の実施形態などのように高解像度のカメラによってキャプチャされた画像をスティッチして画像が生成された場合に特に顕著である。
【0124】
例えば、3次元画像における画像の歪みは、選手とボールが重ね合わせられる3次元画像としてピッチ70が表示される場合に発生する可能性がある。この場合、コーナー71bおよび71cは、カメラ30に最も近いサイドラインの中心点1214よりもさらに遠くに見える。したがって、キャプチャされた画像においてサイドラインが直線であったとしても、サイドラインが曲がって見える可能性がある。
【0125】
この効果は、コンピュータのモニタなどの比較的小さなディスプレイで3次元画像を見る場合に特に顕著である可能性がある。映画館のスクリーンなどの比較的大きな画面で3次元画像を見た場合、コーナー71bおよび71cが視聴者の周辺視野にある可能性が高いため、この効果はあまり顕著ではない。ピッチを3次元画像として表示できる方法について、以下でより詳細に説明する。
【0126】
この問題に対処するために、画像の部分毎に適切なオフセット量を生成して歪みを補正する方法が考えられる。しかし、この方法は、広角画像の歪みの程度、ディスプレイのサイズなどのいくつかの物理的パラメータに依存するだけでなく、非常に多くの演算量を必要とする可能性がある。
【0127】
したがって、特にコンピュータのモニタやテレビ画面などの比較的小さなディスプレイで3次元画像を見る場合、3次元画像の歪みを減少させ、ピッチの前部(すなわちカメラに最も近いサイドライン)がディスプレイから一定の奥行きで見えるように、本発明の実施形態では、オブジェクトと基準線にある基準位置との距離を求める。基準線はカメラの光軸に直交し、カメラの位置を通過する。また、基準線上のオブジェクト位置線と基準線が交差する点に基準位置がある。オブジェクト位置線は、基準線に直交し、オブジェクトを通過する。図14を参照して、これについて以下に説明する。
【0128】
図14は、本発明の実施形態に係る、カメラと上記カメラの視野内にあるオブジェクトとの距離を求めるシステムの模式図である。図14に示す実施形態は、図9を参照して上述した実施形態と実質的に同じである。しかし、図14に示す実施形態では、サーバ110は、オブジェクトと破線1207で示す基準線との距離を求めるように動作可能である。
【0129】
図14に示すように、基準線1207は、カメラの光軸に直交し(すなわち、光軸に対して直角である)、カメラの位置を通過する。さらに、図14は、基準線1207上にある基準位置1401a、1403a、および1405aを示す。
【0130】
例えば、サーバ110は、基準位置1401aと選手1201との距離1401を求めるように動作可能である。基準位置1401aは、基準線1207上の、選手1201に対する(破線1401bで示す)オブジェクト位置線と基準線1207が交差する位置にある。同様に、基準位置1403aは、基準線1207上の、選手1203に対する(破線1403bで示す)オブジェクト位置線と基準線1207が交差する位置にあり、基準位置1405aは、基準線1207上の、選手1205に対する(破線1405bで示す)オブジェクト位置線が基準線1207と交差する位置にある。オブジェクト位置線1401b、1403b、および1405bは、基準線1207に直交し、それぞれ選手1201、1203、および1205を通過する。
【0131】
実施形態によっては、基準線1207は、コーナー71bと71cを結ぶサイドラインに対して平行であるため、ピッチのキャプチャされた画像とピッチの修正画像を適切な方法によりディスプレイ上で合わせて見た場合、コーナー71bと71cを結ぶサイドライン上にあるすべての点が、ディスプレイから一定の距離(奥行き)にあるように見える。これにより、広角レンズ・カメラを利用して画像をキャプチャした場合に生じる歪み、または2台以上のカメラによりキャプチャされた画像を合成して形成された合成画像から生じる歪みを補正するオフセット量を生成する必要なしに、3次元画像の外観を向上させることができる。しかし、基準線1207はサイドラインに対して平行である必要はなく、シーン内の他の適切な特徴に対して平行にすることができ、あるいはシーン内の他の適切な特徴に対して配置できることが理解されよう。
【0132】
画像を見たときに3次元として見えるように画像を生成するために、サーバ110は、キャプチャされた画像内の選手などのオブジェクトの位置を検出するように動作可能である。サーバ110が画像内のオブジェクトを検出する方法は、図6を参照して上述した方法である。この情報はユーザ装置200Aに取り込まれる。その後、ユーザ装置200Aは、キャプチャされた画像内のオブジェクトの位置をオフセット量だけ変位させることにより、キャプチャされた画像から修正画像を生成する。これにより、修正画像とキャプチャされた画像をディスプレイ205上で画像のペアとして一緒に見ると、オブジェクトはディスプレイ205から所定の距離だけ離れて位置するように見える。これについて以下に説明する。
【0133】
正確な変位を生成して3次元効果のシミュレーションを行うために、ユーザ装置200Aは、オブジェクトのカメラからの距離を知る必要がある。これは奥行きマップまたは他の手段を利用することにより実現することができる。本発明の実施形態によっては、上記システムは、ネットワークを介してサーバ110またはユーザ装置200Aと通信できる距離検出器1210を具備する。距離検出器1210は、カメラ装置130内の1台のカメラに連結してもよく、あるいはカメラ装置と切り離してもよい。距離検出器1210は、カメラとピッチ70上の選手などのオブジェクトとの距離を示す距離データを生成するように動作可能である。距離検出器1210は、図13の破線1212で示すように、適切な通信回線を介してサーバ110に距離データを送信するように動作可能である。サーバ110は、距離検出器1210から受信した距離データに基づいてカメラとオブジェクトとの距離を求めるように動作可能である。すなわち、距離検出器1210は、距離センサとして動作する。このようなセンサは、上記技術分野において周知であり、赤外線、超音波、レーザ光線などを利用してオブジェクトまでの距離を検出することができる。その後、オブジェクト毎の距離データは、ユーザ装置200Aに取り込まれる。
【0134】
実施形態によっては、上記距離検出器は、キャプチャされた画像の画素毎の、カメラとシーン内の上記画素と重なるシーン特徴とのそれぞれの距離を示す奥行きマップのデータを生成するように動作可能である。サーバ110からユーザ装置200Aに送信された距離データは、距離マップのデータを含むことができる。
【0135】
この機能を実現するために、上記距離検出器は、赤外線パルスを放出する赤外光源を具備してもよい。上記カメラは視野内にあるオブジェクトから反射した赤外線の強度を、所定の時間間隔(典型的にはナノ秒単位)で検出することができる。したがって、上記カメラは、オブジェクトのカメラからの距離を示すグレー・スケール画像を生成することができる。すなわち、グレー・スケール画像は、赤外光源からカメラまでの赤外線の飛行時間を検出することで生成される距離マップとして考えることができる。
【0136】
構造を簡略化するために、上記カメラは赤外光源という形で距離検出器を具備することができる。このようなカメラは3DV Systems社が製造した「Z−Cam」など、上記技術分野において周知である。しかし、赤外線パターンによる歪み検出など、3D奥行きマップを生成する他の周知の方法も利用できることが理解されよう。
【0137】
他の適切な距離検出器も利用できることが理解されよう。例えば、上記カメラの光軸と垂直な光軸を有するカメラを利用して、ピッチの画像をキャプチャすることができる。こうしてキャプチャされた画像をサーバ110が分析して、選手の位置をより正確に三角測量するために、選手の位置およびカメラからの画像データと相関性がある結果として得られるデータを検出、並びに、追跡することができる。
【0138】
実施形態によっては、サーバ110は、距離検出器1210を利用して、カメラの視野内にあるサッカー・ボールなどの他のオブジェクトを検出および追跡するように動作可能である。しかし、他の適切なオブジェクトも検出できることが理解されよう。例えば、サーバ110は、サッカー・ボールを追跡するために、1台または複数台の追加カメラによってキャプチャされた画像を分析して、追跡システムから受信したデータと組み合わせることができる。このデータは、位置情報および奥行き情報としてユーザ装置200Aに取り込まれる。これにより、ユーザ装置200Aは適切な左側の画像および右側の画像を生成することができる。
【0139】
サーバ110は、シーン内のオブジェクトに対応する、キャプチャされた画像内のオブジェクト画素を検出するように動作可能である。上述の実施形態において、オブジェクト画素は、以下に説明するように、修正画像を生成するために利用される選手マスクの画素に対応する。選手マスクはユーザ装置200Aに取り込まれる。これにより、ユーザ装置200Aは修正画像を生成できる。
【0140】
ユーザ装置200Aは、距離マップのデータにおける選手マスクの画素と関連付けられた距離データを利用して、カメラと選手との距離を求める。3次元表示を簡略化するために、上述のように、選手マスクの画素に対応する距離マップのデータにおける距離の平均値を利用して、オフセット量を生成することができる。しかし、オブジェクトに対応する距離マップのデータから距離の値を選択する他の適切な方法も利用できることが理解されよう。
【0141】
ユーザ装置200Aは、オフセット量を生成して奥行きマップにおける画素毎の左側の画像と右側の画像の間に適用するように動作可能である。そのため、視差が適用された後、上述のように、左側の画像と右側の画像を画像のペアとしてディスプレイ上で一緒に見ると、オブジェクトの3次元の外観を向上させることができる。なぜなら、オブジェクトをディスプレイからある程度離れた位置にある2次元画像のように表示するよりも、オブジェクトの表面次元を正確に再生できるからである。
【0142】
[ユーザ装置200Aおよびユーザ機器320A]
図15Aを参照して、ユーザ装置200Aの一実施形態について説明する。ユーザ装置200Aは、インターネットを介して多重化されたデータ・ストリームを受信するデマルチプレクサ1505を含む。デマルチプレクサ1505は、AVCデコーダ1510、オーディオ・デコーダ1515、およびクライアント処理装置1510に接続されている。デマルチプレクサ1505は、多重化されたデータ・ストリームを(AVCデコーダ1510に取り込まれる)AVCストリーム、(オーディオ・デコーダ1515に取り込まれる)オーディオ・ストリーム、並びに、(クライアント処理装置1500に取り込まれる)奥行きマップのデータ、選手の名前などの選手メタデータ、および他のあらゆるメタデータに逆多重化する。ユーザは、クライアント処理装置1500にデータを送信するコントローラ1520を利用して、ユーザ装置と情報をやり取りすることもできる。図16Aを参照して、クライアント処理装置1500について詳細に説明する。
【0143】
図15Bを参照して、ユーザ機器315Aの一実施形態について説明する。明らかなように、ユーザ機器315Aにおける多くの構成要素はユーザ装置200Aの構成要素と同じか、またはユーザ装置200Aに関して説明した機能と同様の機能を提供する。これら構成要素は同じ参照番号を有するので、これ以上は説明しない。ただし、図15Bから明らかなように、図15Aにおけるクライアント処理装置1500の代わりにユーザ機器処理装置1500’が提供される。しかし、ユーザ機器処理装置1500’はクライアント処理装置1500と同様のデータを受信することに注意しなければならない。図15Bのユーザ機器処理装置1500’の機能について説明する。図15Bのユーザ・コントロール1520は、タッチ・パネルやキーボードなどとして、ユーザ機器315Aに一体化してもよい。
【0144】
[クライアント処理装置1500]
クライアント処理装置1500は、表示対象の左右の画像を生成する画像処理部1600を含む。画像処理部1600は、2つの合成背景画像をサーバ110から受信する。サーバ110から受信した2つの合成背景画像は、選手ブロック抽出装置1615にも取り込まれる。選手ブロック抽出装置1615は、合成画像から選手ブロックを抽出する。抽出された選手ブロックは、画像処理部1600に取り込まれる。各背景合成画像における各選手ブロックの位置および選手ブロックと関連付けられたマクロブロック番号も、選手ブロック抽出装置1615から画像処理部1600に取り込まれる。これにより、画像処理部1600は、背景合成画像の正確な位置に選手ブロックを置いて、超高解像度の画像の2つの合成画像を効率的に再生成することができる。2つの合成画像は、画像処理部1600によってスティッチされ、超高解像度の画像が生成される。
【0145】
選手ブロック内の各選手の名前を含む選手メタデータは、データ・コントローラ1610に取り込まれる。ユーザ・コントローラ1520から受信した情報およびカメラ装置のパラメータを供給する追加メタデータなどもデータ・コントローラ1610に取り込まれる。これにより、英国特許出願公開第2444566A号明細書に記載されているように、ユーザは適切な視野を選択することができる。データ・コントローラ1610の出力は、この情報を含む多重化されたデータ・ストリームである。データ・コントローラ1610の多重化された出力は、仮想カメラ・ジェネレータ1605に取り込まれる。さらに、仮想カメラ・ジェネレータ1605は、奥行きマップを受信する。仮想カメラ・ジェネレータ1605はユーザ・コントロール1520からの情報を供給されると、仮想カメラの境界を特定する。すなわち、ユーザはユーザ・コントロール1520を操作して、超高解像度の画像のどの領域またはどの部分が重要であるかを決定する。仮想カメラ・ジェネレータ1605は、超高解像度の画像の重要な部分を選択して、その領域を表示する。領域を生成して表示する方法は、英国特許出願公開第2444566A号明細書に記載されている。
【0146】
英国特許出願公開第2444566A号明細書に記載されている方法は、単一の画像の生成に関する。しかし、本発明の実施形態においては、選択された領域を立体的に表示することができる。すなわち、選択された領域は、3Dとして見えるように表示されるべきである。そうするために、各画素が奥行きマップによって決まる量だけ変位され、水平に変位された前景オブジェクトを有する背景を有する、変位された選択部分が生成される。当業者には理解されるように、ユーザが選択した領域の画面上の位置は分かっており、また、画像が表示される画面のサイズも分かっているため、選択された領域のカメラからの対応する距離(すなわち奥行きマップ)を利用して、前景オブジェクト(すなわちユーザが定義した部分の前景オブジェクトと第2の選択部分との水平変位)間の視差を決定する。この視差により、画面上の前景オブジェクトに関連付けられた顕著な奥行きが決定される。ユーザが選択した部分はディスプレイ上に表示され、ユーザはそれを左眼で見る。変位された選択部分はディスプレイ上に表示され、ユーザはそれを右眼で見る。ユーザが選択した部分および変位された選択部分は、立体的に表示される。さらに、ユーザは、変位の量を制御することができる。これにより、ユーザは、選択された部分の左右の眼で見られる画像間の変位の量を調整し、3D画像内のシーンにおける顕著な奥行きを調整することができる。
【0147】
[ユーザ機器処理装置1500’]
図16Bを参照して、ユーザ機器処理装置1500’について説明する。LTEネットワークを介して送信された合成画像は、ユーザ機器画像プロセッサ1600’に取り込まれる。さらに、カメラのパラメータなどを供給する追加メタデータがユーザ機器画像プロセッサ1600’に供給されることで、ユーザは表示用の超高解像度の画像の領域を選択することができる。必要なメタデータは英国特許出願公開第2444566A号明細書に記載されている。このメタデータにより、ユーザは閲覧用の超高解像度の画像の領域を選択することができる。領域を選択して表示する方法も英国特許出願公開第2444566A号明細書に記載されている。
【0148】
ユーザ機器処理装置1500’は、合成画像内の選手の位置を示す入力された選手メタデータも有する。諸実施形態において、この選手メタデータは、合成画像内で選手を取り囲むボックスを定義する一連の座標である。追加選手メタデータは、各選手の名前や例えば以前に所属していたクラブ、チーム内のポジションなどの統計データを含んでもよい。選手メタデータおよび追加選手メタデータは、ユーザ機器データ・コントローラ1610’に取り込まれる。ユーザ・コントローラ1520が生成したユーザ生成制御情報もユーザ機器データ・コントローラ1610’に取り込まれる。これにより、ユーザはユーザ機器と情報をやり取りして、超高解像度の画像内の選択した領域の位置だけでなく他の双方向の制御を修正することができる。
【0149】
ユーザ機器データ・コントローラ1610’の出力は、多重化されたデータ・ストリームとして仮想カメラ処理装置1605’に取り込まれる。奥行きマップも仮想カメラ処理装置1605’に取り込まれる。仮想カメラ処理装置1605’は、上述の仮想カメラ・ジェネレータ1605に関して説明した方法と同じ方法で、ユーザが選択した左右の画像部分を生成する。これにより、3D表示用の立体画像が供給される。なお、仮想カメラ処理装置1605’は、画像が背景の一部を構成しているか、または前景オブジェクトの一部を構成しているかに関わらず、画像全体が背景として扱われるので、選択された領域の各画像の画素が奥行きマップによって決まる量だけ変位されるという点で仮想カメラ・ジェネレータ1605とわずかに異なる。各画素は、算出された視差(当業者には理解されるように、これは奥行きマップおよびディスプレイのサイズから算出される)によって供給される量だけ水平に変位される。これにより、ディスプレイ上でシーンの3D表示が可能になる。
【0150】
なお、図16Aおよび16Bを参照して説明した各実施形態において、仮想カメラのズーム、パン、チルト、およびコンバージェンスを決定する情報は、画面上の選択された領域の位置を決定する詳細、および水平変位における変化などの他のあらゆるユーザ定義情報と共に、それぞれユーザ装置200Aおよびユーザ機器315Aに記憶される。さらに、上記ビューが体験される特定の映像に関連付けられたUMIDなどの固有の識別子も記憶される。この情報は、表示される画像データよりも少ないデータを含むメタデータとして記憶され、ユーザ装置200Aまたはユーザ機器315Aのいずれか、あるいはネットワーク・サーバ1700に記憶することができる。記憶されたメタデータが合成画像、(必要に応じて)選手キー、および選手情報と共に供給されると、ユーザはユーザ装置200Aまたはユーザ機器315Aのいずれかで同じ体験を再現することができる。さらに、異なるユーザに供給された場合、記憶されたメタデータによって、上記異なるユーザは第1のユーザの体験を再現することができる。図17〜図19Bを参照して、記憶されたメタデータの利用について説明する実施形態について説明する。
【0151】
[コミュニティ・ビューイング]
ネットワーク・サーバ1700は、インターネットに接続され、図17に示されている。ネットワーク・サーバ1700はユーザ機器315Aおよびユーザ装置200Aのどちらにも接続することができる。実際、諸実施形態において、1人のユーザは、ユーザ・アカウントを利用して、ユーザ機器315Aおよびユーザ装置200Aの両方をネットワーク・サーバ1700に接続することができる。しかし、簡潔にするために、ユーザ装置200Aの接続および利用について説明する。
【0152】
図17に関して、ネットワーク・サーバ1700は、光学記録媒体または磁気記録媒体である記憶媒体1705を含む。記憶媒体1705は、記憶媒体1705に関する情報を記憶するデータベース・マネージャ1710に接続される。データベース・マネージャ1710は、記憶媒体1705に記憶されたデータの検索にも利用される。データベース・マネージャ1710は、データベース・マネージャ1710へのアクセスを制御するネットワーク・プロセッサ1715に接続される。ネットワーク・プロセッサ1715は、インターネット120を介してデータの転送を可能にするネットワーク・インタフェース1720に接続される。
【0153】
ユーザ装置200Aがインターネット120に接続されると、ユーザ装置200Aはネットワーク・サーバ1700に接続できる。ユーザ装置200Aが初めてネットワーク・サーバ1700に接続された場合、ユーザはネットワーク・サーバ1700上の自分のアカウントにログインするか、新しいアカウントを作成するかを求められる。ユーザがアカウントへのログインを選択した場合、ユーザはユーザ名およびパスワードを入力するよう求められる。これにより、ネットワーク・サーバ1700へのユーザ認証を行う。正しく認証を行った後(認証はネットワーク・プロセッサ1715によって行われる)、ユーザは記憶媒体1705に記憶された自分のアカウント情報にアクセスすることができる。上記アカウント情報は、ユーザの好みのサッカー・チームまたはユーザの好みの選手に関する情報を供給することができる。この情報を供給することで、後述するように、ユーザに最も関連性がある映像をハイライトで提供することができる。
【0154】
典型的には、ユーザは、ユーザ装置およびユーザ機器の両方を所有することができる。この場合、ネットワーク・サーバ1700は、ユーザが所有する機器の詳細を記憶する。ネットワーク・サーバ1700は、ユーザ装置の問合せにより、ユーザ装置またはユーザ機器がネットワーク・サーバ1700に接続されているか否かの確認も行う。ユーザは一度ログインすれば、自分のアカウントへの装置の追加や、自分のアカウントからの装置の削除を行うことができる。
【0155】
ユーザ・アカウントに関連したオプションの1つとして、ユーザ装置200Aに記憶されたメタデータのアップロードがあり、これによりユーザまたは異なるユーザがユーザの鑑賞体験を再現することができる。ユーザ装置200Aはこのメタデータを受信できるが、試合を見ている間、または試合を見る前にユーザがネットワーク・サーバ1700にログインしている場合、ネットワーク・サーバ1700にメタデータを記憶することができる。ユーザ装置200Aがメタデータを受信した場合、ネットワーク・サーバ1700に接続することで、ユーザはネットワーク・サーバ1700にメタデータをアップロードすることができる。これは自動的に、あるいはユーザ命令の下で行うことができる。
【0156】
視聴者の体験を再現できるメタデータに加えて、追加メタデータをネットワーク・サーバ1700に転送することができる。図18を参照して、追加メタデータの生成や構成について説明する。図18は、ユーザがメタデータおよび追加メタデータを生成するために利用するグラフィカル・ユーザ・インタフェースを示す。図18に示すグラフィカル・ユーザ・インタフェースにより、ユーザは、試合に対するアノテーションを生成することができる。これらアノテーションは、試合に対する視聴者の体験を向上させる。さらに、ビデオ・クリップそのものではなく、試合を再現するメタデータのみが記憶されるので、試合を再現するために記憶されるデータ量が減少する。
【0157】
グラフィカル・ユーザ・インタフェースは、ユーザ装置200Aのディスプレイ205A上に表示して示されている。ユーザはコントローラ210Aを利用して、グラフィカル・ユーザ・インタフェースと情報をやり取りする。ディスプレイには、スティッチされた超高解像度の画像を表示するスティッチ画像表示領域1835が含まれる。超高解像度の画像内には、ユーザがスティッチ画像の視野を選択することが可能になる仮想視野がある。これは仮想視野領域1800に表示されている。ユーザが超高解像度の画像のどの部分が仮想視野を形成するのか特定するために、超高解像度の画像における仮想視野の外形1840を示す。
【0158】
仮想視野領域1800の下方には、一時停止、早送り、巻き戻し、停止、録画など標準的なビデオ制御ボタン1805がある。このビデオ制御ボタンの配列は限定されず、画面上のビデオの動作を制御するあらゆる種類のボタンを含んでもよい。仮想視野領域1800の右には、編集ボタン1810がある。これら編集ボタン1810により、テキストの追加、線の描画、図形の追加などのアノテーションをビデオに追加することができる。これらビデオに追加されたアノテーションは、追加メタデータの一部を構成する。
【0159】
メタデータ・タグを特定のフレーム、すなわちビデオのフレームに入力することができるメタデータ・タグ入力領域1815がある。これには、例えば、ペナルティー、タックル、フリーキックなどのフレームの内容のテキスト記述が含まれる。さらに、アノテーションをより簡単にするために、イエロー・カード、ゴール、事件などの共通タグがホットキー1720として供給される。さらに、フリー・テキスト入力領域1825が提供される。これにより、ユーザが望むあらゆるテキストを追加することができる。このテキストは、入力されたメタデータ・タグと共に、追加メタデータの一部を構成する。
【0160】
最後に、イベント・リスト領域1830が提供される。イベント・リスト領域1830は、メタデータ・タグによって自動的に更新することができる。または、ユーザが生成することもできる。あるいは、イベント・リストをメタデータ・タグを利用して自動的に生成することもでき、ユーザがその修正や検証を行うこともできる。試合が進むにつれて、ユーザがゴールや警告などを更新するので、イベント・リストを生成することが可能である。実際、ユーザが画像内でどの選手がゴールを決めたか特定した場合、選手の位置情報がメタデータに供給されると、ユーザ装置200Aは、どの選手がゴールを決めたか知ることができる。さらに、ボールの位置を自動的に追跡した場合、ユーザ装置200Aは、「ゴール」メタデータが生成される前に、得点した選手を最後にボールに触れた選手として自動的に決定することができる。メタデータ・タグを利用してイベント・リストを自動的に更新することで、イベント・リストを容易に生成することができる。さらに、メタデータおよび追加メタデータを利用することで、イベント・リストが「オンザフライで」生成され、したがって記憶する必要がないので、ユーザ装置200Aおよびネットワーク・サーバ1700に記憶されるデータ量が減少する。
【0161】
ネットワーク・サーバ1700にメタデータをアップロードするだけでなく、ユーザは、ネットワーク・サーバ1700の他のユーザが生成したハイライト番組にアクセスして、その番組を見ることができる。すなわち、ユーザは、自分で生成したハイライト映像にアクセスするだけでなく、異なるユーザが生成したハイライト映像にアクセスすることもできる。
【0162】
こうするために、ユーザ装置200Aは、異なるユーザがアップロードした元の試合映像、並びに、メタデータおよび追加メタデータが必要である。元の試合映像は、ネットワーク・サーバ1700から提供することができ、また試合映像を提供する速度を増加させるP2Pシステム利用して提供することもできる。メタデータおよび追加メタデータは、ネットワーク・サーバ1700によって供給される。
【0163】
図19Aおよび19Bを参照して、他のユーザの鑑賞体験を検出して表示する方法について説明する。
【0164】
図19Aに関して、ディスプレイ1900にはテキスト検索ボックス1905がある。これにより、ネットワーク・サーバ1700に記憶されたフリー・テキストのメタデータおよびメタデータ・タグの検索が可能になる。図19Aに示す例では、「NUFC対MUFCの」ハイライト映像の検索が行われている。図19Aから理解されるように、試合データ1910は、時系列で返信される。すなわち、最も新しい試合がリストの上端に掲載され、残りの試合は画面の下部に向かって掲載されている。
【0165】
ネットワーク・サーバ1700は、検索結果だけでなく、ユーザのアカウントに供給された好みのサッカー・チームや好みの選手に関する情報を利用して、ユーザが検索を行う必要なしに、最も関連性がある結果を返信することができる。例えば、ユーザがニューカッスル・ユナイテッド・フットボール・クラブ(NUFC)のファンである場合、最新のNUFCの試合がホーム画面に掲載される。同様に、ユーザがセスク・ファブレガスのファンであることを示した場合、メタデータ・タグ「セスク・ファブレガス」を含む最新のクリップがホーム画面に掲載される。
【0166】
試合データ1910の隣には、ユーザ・データ1915がある。これは試合のハイライト映像をアップロードした各ユーザのユーザ名を示す。ユーザ・データ1915の隣には、ユーザ評価データ1920がある。これはユーザ・データ1915によって識別されるユーザが作成した試合のハイライト映像を見た他のユーザによる平均スコアである。ユーザが「レビュー」のハイパーリンクをクリックすれば、ユーザのレビューにもアクセス可能である。他のユーザのハイライト映像のうち、ユーザがどの映像を選択するべきか手助けするために、最も人気のあるユーザがリストの上端に掲載され、最も人気の低いユーザはリストの下端に掲載されている。
【0167】
ユーザ評価データ1920の隣には、試合評価データ1925がある。これは、試合の特定のハイライト映像におけるユーザ・フィードバックを供給する。この種の情報は、通常は高品質のハイライト映像を作成するユーザでも、ある試合に関しては特に質が低いハイライト映像を作成する可能性があるので有効である。あるいは、通常はあまり良くないハイライト映像を作成するユーザでも、ある試合に関しては特に高品質のハイライト映像を作成する可能性があるので、この種の情報は有効である。
【0168】
ユーザ・フレキシビリティを提供するために、各データ列の順番は、ユーザの好みによって変更可能である。
【0169】
ユーザが特定のハイライト映像を選択した後、元の試合がダウンロードされ、ユーザ装置200Aにローカルに記憶される。さらに、上記ハイライト映像を作成した他のユーザが体験した視野を表示するためのメタデータおよび上記他のユーザが生成したあらゆる追加メタデータが(ネットワーク・サーバ1700から)ダウンロードされる。それが表すデータよりもメタデータが小さいので、ハイライト・クリップをダウンロードした場合に比べ、ダウンロード速度が速く、メタデータに関連する必要メモリが小さい。
【0170】
図19Bに関して、ディスプレイ1900上には、上記ハイライト映像を作成した他のユーザが体験した視野を示す視野領域1930がある。これは、メタデータおよび元の映像から生成される。ディスプレイ1900上には、イベント・リスト領域1935もある。イベント・リスト領域1935は図18のイベント・リスト領域1830と一致する。アノテーションビュー領域1940は、追加メタデータから生成される。この領域は、他のユーザが追加したアノテーションを有する最後のフレームをユーザに表示する。例えば、他のユーザが特定の事件をマークアップで強調した場合、この事件がアノテーションビュー領域1940に掲載される。視野1930に表示されたビデオの高速再生またはスロー再生などを行うビデオの標準的な一連のビデオ制御ボタン1945が提供される。ビデオ制御ボタン1945の隣に設置されているネクスト・イベント・ボタン1950により、ユーザは次のイベントに移ることができる。次のイベントは、ユーザが特に興味のある映像である。ユーザはネクスト・イベント選択ボタン1955から、特に興味のある次のイベントを選択することができる。本実施形態において、次のイベントには、次のゴール、次のフリー・キック、次のイエロー・カード、次のレッド・カード、または次のコーナー・キックが含まれる。適切なネクスト・イベント・シンボルを取り囲むボックスによって、ユーザは容易にどのイベントが選択されたか分かる。本実施形態において、ネクスト・イベント・ハイライト・ボックス1960は、次のゴールを取り囲んでいる。
【0171】
ユーザは、他のユーザの特定のハイライト映像を改良して、例えば、仮想カメラのポジショニングの改善やハイライト映像の時間の編集、アノテーションの追加を行うことができる。これは、ユーザが編集できるハイライト映像を作成する際に可能になる。さらに、特定のハイライト映像に関する追加アノテーションを、他のユーザが追加することもできる。これにより、異なるユーザが特定のハイライト映像にコメントすることができる。例えば、ユーザはハイライト映像の作成者が見逃したと思われる内容の特定の特徴を識別するコメントを追加することができる。したがって、サッカーの試合に関連して、異なるユーザは、他のユーザが気付いていない可能性があるピッチ上の選手のポジショニングを識別することができる。これにより、同じハイライト映像を見ているユーザ・グループ内のユーザ同士で、リアルタイムでメッセージをやり取りすることができる。
【0172】
ハイライト映像の作成者が適用したアノテーションは、1920x1080ピクセルの解像度のディスプレイ上に表示されるビデオに入力することもできる。しかし、他のユーザははるかに小さいディスプレイを有する携帯用ハンドヘルド装置でアノテーションの付いたビデオを見ることができる。例えば、携帯用ハンドヘルド装置は、320x240ピクセルの解像度のディスプレイを有する装置でもよい。さらに、携帯用ハンドヘルド装置の他のユーザは、より大きなディスプレイで作成されたハイライト映像にさらなるアノテーションを適用することができる。諸実施形態において、これに対処するために、ハイライト映像と共に、アノテーションが適用されるディスプレイのサイズを示すメタデータを記憶することができる。これにより、ディスプレイ上のアノテーションの画素位置を拡大縮小または調整して、異なるサイズのディスプレイ上でアノテーションが再生成された際に、ディスプレイ上の正確な領域に確実にアノテーションを適用することができる。
【0173】
1つの例として、1920x1080ピクセルの解像度のディスプレイ上でハイライト映像が作成され、240x90ピクセルのサイズのアノテーションがハイライト映像のフレームの左上の画素位置(430、210)に入力されると、アノテーション、アノテーションのサイズおよび画素位置、並びに、アノテーションが生成されるディスプレイのサイズを決定するメタデータが生成される。このメタデータは、ハイライト映像と共に記憶される。
【0174】
他のユーザが携帯用ハンドヘルド装置でハイライト映像を見ることを望む場合、アノテーションを示すメタデータが読み出される。携帯用ハンドヘルド装置は、アノテーションのサイズおよび画素位置、並びに、アノテーションが生成されるディスプレイのサイズを知ることができる。したがって、携帯用ハンドヘルド装置は、アノテーションのサイズをディスプレイに合わせて補正できるように、アノテーションを拡大縮小する。特に携帯用ハンドヘルド装置におけるアノテーションのサイズは、40x20ピクセルである。携帯用ハンドヘルド装置のディスプレイ用に拡大縮小されたアノテーションの位置は、(71.6,46.6)となる。正確な画素位置を選択するために、アノテーションは画素位置(72,47)に置かれる。これは最も近い画素への単純な切り上げである。しかし、拡大縮小の結果少数の画素位置となった際の、画素選択の他の方法も想定される。
【0175】
携帯用ハンドヘルド装置のユーザが38x28ピクセルのサイズのアノテーションを画素位置(140,103)に生成した場合、アノテーションおよびアノテーションが生成されるディスプレイのサイズを示すメタデータが生成される。
【0176】
したがって、元の作成者がもう一度映像を見た場合、携帯用ハンドヘルド装置のユーザが生成したアノテーションは、228x126ピクセルのサイズのアノテーションに拡大され、画素位置(840,463.5)に置かれる。また、元の作成者のディスプレイ上にアノテーションを正確に表示するために、アノテーションは画素位置(840,463.5)に置かれる。
【0177】
最後に、ユーザはボックス1970を利用して、特定のハイライト映像の品質を評価することができる。ユーザは(この例では5段階で)適切な評価を選択し、ボックス1970をクリックする。この評価値はネットワーク・サーバ1700に転送され、そこで上記他のユーザおよび特定のハイライト映像と関連付けられて記憶される。
【0178】
ビデオ・クリップの代わりに、メタデータおよび追加メタデータをネットワーク・サーバ1700に送信することにより、ネットワークを介して送信されるデータ量が減少する。実際、ネットワーク・サーバ1700が処理するデータ量は、様々な方法を介してユーザに元のビデオ映像を提供することで、さらに減少させることができる。例えば、ユーザはP2Pシステムを利用して、あるいはメールなどを通して記録媒体上で元のビデオ映像を受信することができる。
【0179】
ハイライト映像を作成しているユーザ、またはハイライト映像を見ているユーザは、このために料金を支払う可能性がある。料金はペイ・パー・ビュー方式または、月間購読サービス、年間購読サービスとすることができる。
【0180】
上記はユーザ装置200Aを参照して説明したが、ユーザ機器315Aも同様に利用することができる。
【0181】
[クライアント装置における拡張現実]
図20は、サッカーの試合が行われているスタジアム2000の平面図を示す。ピッチ2020は、スタジアム2000内に位置し、試合はカメラ・システム2010によって撮影される。カメラ・システム2010には、カメラ装置130、画像処理装置135、およびサーバ110が含まれる。カメラ・システム2010には、グローバル・ポジショニング・システム(GPS)センサ(図示せず)、高度センサ、およびチルト・センサが含まれる。GPSセンサにより、カメラ・システム2010の座標位置が供給され、高度センサによりカメラ・システム2010の高度が特定され、チルト・センサによりカメラ・システム2010に適用されるチルトが通知される。GPSセンサ、高度センサ、およびチルト・センサについては周知なので、ここでは説明しない。
【0182】
ピッチ2020上には、第1の選手2040、第2の選手2050、第3の選手2055、第4の選手2060、第5の選手2065、第6の選手2070、および第7の選手2075がいる。ボール2045も上記ピッチ上にあり、選手2040が支配している。カメラ・システム2010は、前述の実施形態で説明したように、サッカーの試合をキャプチャしている。
【0183】
群衆内には観客2030がいて、携帯電話機2100を通して試合を見ている。携帯電話機2100は、諸実施形態では(公序良俗違反につき、不掲載)である。図21を参照して、携帯電話機2100について説明する。携帯電話機2100には、3Gセルラー・ネットワーク規格またはLTEネットワーク規格を介して通信できる通信インタフェース2160が含まれる。実際、通信インタフェース2160は、WiFiやBluetoothなどのあらゆるネットワーク規格を利用して通信を行うことができる。メモリ2140も提供される。メモリ2140には、データが保存される。メモリ2140は、例えばソリッド・ステート・メモリであってもよい。メモリ2140は、コンピュータ可読の命令も記憶するので、コンピュータ・プログラムを記憶する記憶媒体である。さらに、メモリ2140は、メタデータ、すなわちユーザ固有のデータ、および携帯電話機2100におけるカメラ2120のレンズ歪みに関するデータなどの他の種類のデータを記憶する。携帯電話機2100は、ユーザに情報を表示するディスプレイ2110を備える。
【0184】
カメラ2120は、メモリ2140に記憶できる画像、またはメモリ2140への記憶の有無に関わらずディスプレイ2110に直接表示できる画像をキャプチャするように構成される。携帯電話機2100に固有の位置を提供するGPSセンサ2130も提供される。さらに、携帯電話機2100に適用されるチルトおよび携帯電話機2100の高度を通知するチルト・高度センサ2135も提供される。さらに、シーンを見るために利用されるカメラ2120の焦点距離が、携帯電話機2100によって求められる。
【0185】
また、前述の各構成要素を制御し、コンピュータ・ソフトウェアを起動させるように構成されたプロセッサ2150も提供される。本実施形態におけるプロセッサ2150の1つの例として、Qualcomm社のSnapDragon Processor(登録商標)が挙げられる。プロセッサ2150は、データ・バス2155により各構成要素に接続されている。
【0186】
図22は、ユーザ2030が見ている携帯電話機2100を示す。ユーザ2030は、ディスプレイ2110を容易に見ることができるように携帯電話機2100を保持している。ユーザ2030は、携帯電話機2100のカメラ2120を、試合が行われている方向に向けている。ディスプレイ2110は、携帯電話機2100のカメラ2120がキャプチャした試合のライブ映像を示している。この様子を図22に示す。図22では、第1〜第7の各選手がピッチ2020上に示されている。さらに、各選手2040〜2075の上部に各選手の名前を示す。各選手の名前は、プロセッサ2150によってディスプレイ2110上に示されている。各選手の名前は、カメラ・システム2010で生成される選手メタデータから供給される。図23を参照して、これについて後述する。各選手の上部にある名前に加えて、試合の経過時間を示す時計2220がディスプレイ2110上に提供される。また、現在の試合のスコア2225もディスプレイ2110上に表示される。
【0187】
諸実施形態では、ディスプレイ2110は、ユーザ2030がディスプレイ2110を押圧することで携帯電話機2100にコマンドを発行できるタッチ・パネルである。ユーザ性能を向上させるために、ユーザ2030は各選手の上部に位置する名前をタッチして、選手の経歴を表示することができる。選手の経歴は、試合前にメモリ2140に記憶することができる。その代わりに、またはそれに加えて、選手の上部にある名前を押圧することで、その選手に関連する試合の統計データをリアルタイムで提供することができる。すなわち、その選手が決めたゴール数の詳細、その選手が行ったパスの数の詳細、および、カメラ・システム2010が選手追跡を行っていた場合、その選手が走った距離の詳細を含む試合の統計データがリアルタイムで提供される。ユーザが名前をタッチするのに応答して、この情報を携帯電話機2100に供給することができる。あるいは、このデータをネットワークを介して継続的に更新して、メモリ2140に記憶することもできる。これにより、ユーザが名前をタッチした際に、上記情報をメモリ2140から読み出すことができる。これは、ネットワークを介して情報を要求するよりも早い。図9を参照して上述したように、この情報はカメラ・システム2010によって生成される。
【0188】
図23を参照して、ディスプレイ上に選手名を掲載する方法を説明する。携帯電話機2100は、カメラ・システム2010に登録を行う。登録処理の間に、認証処理が完了する。これにより、携帯電話機2100のユーザが上記情報にアクセスできるか否かが確認される。例えば、決済情報がやり取りされる。これをステップS2310に示す。
【0189】
上述のように、カメラ・システム2010は、試合の画像をキャプチャする。そして、上記キャプチャされた画像から、画像内の各選手の位置を検出し、各選手の現実の位置を特定する。これを実現するために、カメラ・システム2010は、図14で説明した技術を利用して、検出されたオブジェクトのピッチ上における場所を特定する。なお、各選手のピッチ上における位置は、この技術を利用して、カメラ・システム2010と相対的な選手の位置を決定する。したがって、カメラ・システム2010がそのGPS位置を供給されると、カメラ・システム2010は各選手のGPS位置(すなわち現実の位置)を決定する。さらに、各選手の識別子が周知になると、各選手に関連する選手名などのメタデータも生成される。これがステップS2320である。
【0190】
現実の位置情報およびメタデータは、携帯電話機2100に送信される。これはステップS2330である。なお、サッカー・ボールや主審、副審などの検出された画像を、携帯電話機2100に転送することもできる。
【0191】
携帯電話機2100は、検出された各選手およびボールに関する現実の位置情報を受信する。携帯電話機2100は、携帯電話機2100の位置を特定するGPSセンサからGPS値を読み出す。これはステップS2340である。
【0192】
さらに、携帯電話機2100に搭載されているチルト・高度センサ2135から高度値およびチルト値を読み出す。さらに、携帯電話機2100内にあるカメラ2120の焦点距離を決定する。これはステップS2350である。
【0193】
携帯電話機2100のGPS位置、チルト角、および焦点距離を利用して、携帯電話機2100はカメラ2120を利用してキャプチャされるピッチの領域を決定する。すなわち、携帯電話機2100は、カメラに映る現実の位置の境界を決定する。これは、ピッチ上の基準点の現実の位置を供給するカメラ・システム2010により、さらに容易になる。これを実現するために、これら基準点を利用して、現実の位置およびピッチの平面角を算出する。携帯電話機2100のGPS位置およびそのチルト角を利用して、携帯電話機2100のレンズが向いている現実の方向を表す3次元ベクトルを算出する。したがって、周知の技術を利用して、この3次元ベクトルがピッチの平面を二等分する現実の位置を算出することができる。この現実の位置は、カメラの視野の中心である。視野の範囲を決定するために、水平視野および垂直視野の角度を最初に算出しなければならない。これら角度は、周知の技術を利用して、センサのサイズおよびレンズの焦点距離から算出される。
【0194】
1つの例として、以下のような公式が利用される。
視野角(水平)=2*arctan(センサ幅/(焦点距離*2))
視野角(垂直)=2*arctan(センサ高さ/(焦点距離*2))
【0195】
これら角度を利用して、携帯電話機2100のレンズが向いている方向を表すベクトルを回転させる。これにより、ベクトルはカメラの画像の四隅のうちの1つを通過することができる。また、周知の技術を利用して、このベクトルがピッチの平面を二等分する現実の位置を算出する。この現実の位置は、カメラの視野の隅である。カメラの視野の四隅すべてに対してこの技術を繰り返し、カメラに映る現実の位置の境界を決定する。携帯電話機2100にピッチ上の選手の現実の位置およびピッチ上の現実のキー・ポイントが供給されると、携帯電話機2100は、カメラ2120に映る画像内で選手およびキー・ポイントが見られる可能性が高い場所を決定する。携帯電話機2100は、画像内のこれら位置にアノテーションを配置する。
【0196】
代替実施形態では、アノテーションをより正確に配置するために、携帯電話機2100がキャプチャされた画像に対して画像検出を行い、画像内のあらゆるオブジェクトを検出する。これはステップS2360である。携帯電話機2100は、カメラに映る現実の位置の境界を知ると、検出された各オブジェクトの現実の位置を特定する。これにより、携帯電話機2100がキャプチャした各オブジェクトの現実の位置とカメラ・システム2010がキャプチャした各オブジェクトの現実の位置とを比較することで、携帯電話機2100がキャプチャした画像内のどのオブジェクトが検出されたどの選手に対応するのかを決定することができる。カメラ・システム2010が供給するアノテーション(これはメタデータとして供給される)は、画像内の正確なオブジェクトに適用される。これは、ステップS2370である。なお、アノテーション処理をより正確に行うために、携帯電話機2100内にあるカメラのレンズ歪みを考慮する。例えば、レンズを通過する光がカメラのレンズ歪みにより5ピクセル左に曲がった場合、検出されたオブジェクトの現実の位置はカメラがキャプチャした位置と異なる。したがって、キャプチャされた画像内の検出された位置に補正を適用して、このような誤差を補正することができる。レンズ歪みはメモリ2140に記憶され、携帯電話機2100が製造される際に生成される。上記プロセスはこれで終了する(ステップS2380)。
【0197】
この情報を利用して、携帯電話機2100のカメラの現在の焦点距離と組み合わせることで、携帯電話機2100はスタジアムのどの部分が視野に入るか決定することができ、したがって、カメラ・システムによって検出された選手が画面上のどこに登場するのかを算出することができる。
【0198】
諸実施形態では、携帯電話機2100がキャプチャした画像内のオブジェクト検出を、ブロック・マッチング技術などを利用して行うことができる。これにより、携帯電話機2100のディスプレイ上にアノテーションをより正確に配置することができる。
【0199】
上記カメラ・システムは、オブジェクトの表現(例えば、各選手のカットアウト)を携帯電話機2100に送信することができる。携帯電話機2100が検出したオブジェクトは、カメラ・システム2010から受信したオブジェクトと比較できる。これにより、検出技術の品質が向上する。
【0200】
そのようなオブジェクトの比較を行うのに必要なプロセッサの電力を減少させるために、諸実施形態の携帯電話機2100は、カメラ・システムから周知の基準位置とその視野内にある対応する基準位置とを比較する。例えば、カメラ・システム2010から受信したピッチの模様を、携帯電話機2100がキャプチャした画像内の検出されたピッチの模様と比較することができる。シーン内においてピッチの模様は静的であり、したがって模様の位置が一定のままなので、ピッチの模様を比較することは有用である。適合しなかった場合、または適合確率が、例えば98%などの閾値を下回った場合、カメラ・システム2010から受信した検出されたボールと携帯電話機2100が検出した他のオブジェクトと比較する。ユーザはボールに集中している可能性が高いので、携帯電話機2100がキャプチャした画像にボールが含まれている可能性は最も高い。さらに、ボールは画像内の固有のオブジェクトであるので、このオブジェクトを検出するのははるかに容易である。したがって、携帯電話機2100の処理電力が減少する。
【0201】
ボールの適合がなかった場合、または適合確率が閾値を下回った場合、携帯電話機2100が検出したオブジェクトをカメラ・システム2010から送信された他のオブジェクトと比較する。明確に適合した場合、携帯電話機2100が検出したオブジェクトの位置を変換によって算出された位置と比較する。これにより、補正値が定められる。上記補正値は、変換された各位置の値に適用される。この補正された、変換された各位置の値により、選手名などのメタデータが供給される選手の位置が特定される。携帯電話機2100は、補正された、変換された各位置の値の最も近くで検出されたオブジェクトに上記選手名を適用する。特に、携帯電話機2100は、検出されたオブジェクトの上部に上記選手名を挿入する。これにより、アノテーションをより正確に配置することができる。ユーザ体験を向上させるために、例えばディスプレイの隅など、ディスプレイの特定領域に、試合時間および試合のスコアを表示する。これら領域は、通常はユーザの焦点ではないので、動作を遮ることはない。
【0202】
拡張現実の実施形態は、携帯電話機2100上で起動するコンピュータ・プログラムであることが想定される。例えば、上記実施形態は、いわゆる「アプリケーション」であってもよい。ユーザを支援するために、アプリケーションを初期化する際、携帯電話機2100は自動的にGPSセンサおよびチルト・高度センサを起動させる。さらに、試合中にユーザが携帯電話機2100と情報をやり取りすることを望まないことが予想される。バッテリの電力を節約するために、一定時間何もしないと、通常はディスプレイの電源は切られる。しかし、これでは不便である。したがって、上記アプリケーションはディスプレイの自動スイッチ・オフを無効にする。
【0203】
上記はキャプチャされた画像から決定される、ピッチ上の異なるオブジェクトの位置について説明したが、本発明はこれに限定されない。例えば、GPSを利用して、各選手がピッチ上の選手の位置を供給する装置を携帯することができる。さらに、同様の装置をボールに取り付けることもできる。これにより、位置を計算する必要なしに、自動的に上記情報が供給されるので、システムの計算コストが減少する。
【0204】
本発明の例示的な実施形態を添付の図面を参照しながら詳述してきたが、本発明は、これらの実施形態に厳格に限定されないこと、および添付の特許請求の範囲によって規定される本発明の範囲および精神から逸脱しない範囲で当業者によって種々の変更および修正が行われることを理解されたい。

【特許請求の範囲】
【請求項1】
ディスプレイ上で、カメラがキャプチャしたシーンの画像内の複数のオブジェクトにアノテーションを付与するアノテーション方法であって、
i)前記複数のオブジェクトのそれぞれに適用される複数の異なる上記アノテーションを表すメタデータと、ii)上記画像内で上記アノテーションが適用される、前記シーンにおける前記複数のオブジェクトのそれぞれの現実の位置を特定する位置情報とを受信し、
前記カメラの焦点距離および前記カメラに適用されたチルトを判定し、
前記キャプチャされたシーンに関する前記カメラの位置を決定し、
前記位置情報に応じて、前記カメラがキャプチャした前記画像にアノテーションを適用し、
前記シーンにおける、前記カメラと異なる視野を有する画像キャプチャ装置から前記位置情報を取得し、
前記位置情報は、前記画像キャプチャ装置がキャプチャしたシーンの画像から決定される
アノテーション方法。
【請求項2】
請求項1に記載のアノテーション方法であって、
前記複数のオブジェクトの現実の位置情報、前記カメラの前記位置情報、並びに、前記カメラの前記焦点距離および前記カメラに適用された前記チルトに応じて、前記カメラがキャプチャした前記画像内の前記複数のオブジェクトのうち少なくとも1つのオブジェクトを特定し、
前記特定されたオブジェクトに応じて前記画像に前記アノテーションを適用する
アノテーション方法。
【請求項3】
請求項2に記載のアノテーション方法であって、
前記オブジェクトを特定するステップは、前記画像内の前記オブジェクトを検出するステップを含む
アノテーション方法。
【請求項4】
請求項2または3に記載のアノテーション方法であって、
予め記憶された、前記カメラのレンズ歪み特性に応じて、前記オブジェクトを特定する
アノテーション方法。
【請求項5】
請求項1に記載のアノテーション方法であって、
前記位置情報は、GPS(グローバル・ポジショニング・システム)による位置情報である
アノテーション方法。
【請求項6】
請求項1に記載のアノテーション方法であって
前記オブジェクトは、前記シーン内に位置する静的なオブジェクト、または前記シーンにおける固有のオブジェクトである
アノテーション方法。
【請求項7】
請求項1に記載のアノテーション方法であって、
前記メタデータを記憶し、
前記記憶されたメタデータから前記アノテーションを表示する
アノテーション方法。
【請求項8】
複数のオブジェクトを有するシーンの画像を表示するように動作可能なディスプレイと、
画像をキャプチャするカメラと、
i)前記複数のオブジェクトのそれぞれに適用されうる複数の異なるアノテーションを表すメタデータと、ii)前記画像内で前記アノテーションが適用される、前記シーンにおける各オブジェクトの現実の位置を特定する位置情報を受信するように動作可能な受信装置と、
前記カメラの焦点距離および前記カメラに適用されたチルトを判定し、キャプチャされた前記シーンに関する前記カメラの前記位置を決定する決定装置と、
前記位置情報に応じて、前記カメラによってキャプチャされた前記画像に前記アノテーションを適用するように動作可能なコントローラと、
前記シーンにおける、前記カメラと異なる視野を有する画像キャプチャ装置から前記位置情報を取得するように動作可能である取得装置と
を具備するアノテーション装置であって、
前記位置情報は、前記画像キャプチャ装置がキャプチャした前記シーンの画像から決定される
アノテーション装置。
【請求項9】
請求項8に記載のアノテーション装置であって、
前記コントローラは、前記オブジェクトの現実の位置情報、前記カメラの前記位置情報、並びに、前記カメラの前記焦点距離および前記カメラに適用された前記チルトに応じて、前記カメラがキャプチャした前記画像内の前記複数のオブジェクトのうち少なくとも1つのオブジェクトを特定し、前記特定されたオブジェクトに応じて、前記画像に前記アノテーションを適用するように動作可能である
アノテーション装置。
【請求項10】
請求項9に記載のアノテーション装置であって、
前記コントローラは、前記画像内の前記オブジェクトを検出するように動作可能である
アノテーション装置。
【請求項11】
請求項9または10に記載のアノテーション装置であって、
前記コントローラは、予め記憶された、前記カメラのレンズ歪み特性に応じて、前記オブジェクトを特定するように動作可能である
アノテーション装置。
【請求項12】
請求項8に記載のアノテーション装置であって、
前記位置情報はGPS(グローバル・ポジショニング・システム)による位置情報である
アノテーション装置。
【請求項13】
請求項8に記載のアノテーション装置であって、
前記オブジェクトは、前記シーンに位置する静的なオブジェクト、または前記シーンにおける固有のオブジェクトである
アノテーション装置。
【請求項14】
請求項8に記載のアノテーション装置であって、
前記メタデータを記憶するように動作可能な記憶装置をさらに具備し、
前記コントローラは、前記記憶されたメタデータから前記アノテーションを表示するように動作可能である
アノテーション装置。
【請求項15】
ネットワークに接続するための送受信機と、
請求項8に記載のアノテーション装置と
を具備する携帯電話機。
【請求項16】
コンピュータに、請求項1に記載のアノテーション方法における各ステップを実行させるコンピュータプログラム。
【請求項17】
前記請求項16に記載のコンピュータプログラムを記憶した記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7A】
image rotate

【図7B】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10A】
image rotate

【図10B】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15A】
image rotate

【図15B】
image rotate

【図16A】
image rotate

【図16B】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19A】
image rotate

【図19B】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate


【公開番号】特開2012−209943(P2012−209943A)
【公開日】平成24年10月25日(2012.10.25)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−58439(P2012−58439)
【出願日】平成24年3月15日(2012.3.15)
【公序良俗違反の表示】
特許法第64条第2項第4号の規定により明細書の一部または全部を不掲載とする。
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
【出願人】(000002185)ソニー株式会社 (34,172)
【出願人】(593081408)ソニー ヨーロッパ リミテッド (93)
【Fターム(参考)】