情報処理装置、情報処理システム、及びプログラム
【課題】撮影された映像の視界空間上の座標に対して関連づけられたタグを用いることのできる情報処理システムを提供する。
【解決手段】情報処理装置100は、コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部121と、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部122と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部124とを有する。
【解決手段】情報処理装置100は、コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部121と、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部122と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部124とを有する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、及びプログラム
【背景技術】
【0002】
カメラで撮影している映像に、その撮影位置に関する情報を文字等にて映像に重畳して表示することで、現実社会の活動を補強する技術は、AR(Augmented Reality:拡張現実)として1990年代初頭から急速に研究が進み、ヘッドマウントディスプレイを利用した拡張現実は、既に一部軍事用に実用が始まっていた。
【0003】
また、昨今、小型電子機器の高性能化などに伴い、カメラ及びGPS(Global Positioning System)機能を有する端末装置により拡張現実が実現されている。このような拡張現実の例においては、利用者は、実映像に文字を付加し、付加した文字情報をネットワーク経由で他の利用者に拡張現実技術を用いて提示することができる。このように、拡張現実は、情報提供という実用的な目的のみならず、コミュニケーションのツールの一種として楽しむといった使い方がされている。拡張現実に関する技術としては、例えば特許文献1の景観ラベリングシステムが挙げられる。
【0004】
特許文献1に記載の景観ラベリングシステムは、地上の3次元空間座標上で示された構造物等の位置に関連付けされたタグを映像に重畳する。このため、タグに示される情報が、タグが関連付けられる構造物の名称等である場合には好適である。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第3225882号
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところが、利用者がタグとして共有したい情報の中には、所定の撮影条件により、映像を撮影した位置、及び映像を撮影した方位から見た映像中においてしか意味を成さない情報がある。このような情報を共有する方法は、従来考えられておらず、潜在的に求められていた。
【0007】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、撮影された映像の視界空間上の座標に対して関連づけられたタグを用いることが可能な、新規かつ改良された情報処理装置、情報処理システム、及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明のある観点によれば、コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部とを有する、情報処理装置が提供される。
【0009】
また、上記視界情報は、上記視点位置からの撮影方向を示す方位と、視野角の情報を含んでもよい。
【0010】
また、上記奥行き情報は、上記コンテンツにおいて撮影される被写体までの距離であり、上記タグ情報生成部は、上記コンテンツの撮影情報に基づいた被写体距離又は過焦点距離を上記奥行き情報として用いてもよい。
【0011】
また、上記タグ情報生成部は、上記視点情報及び上記視界情報を含むキーと、上記タグの文字列の値の情報及び上記視界空間上における上記タグの座標位置情報を含むバリューと、により示されるタグ情報を生成してもよい。
【0012】
また、上記タグ情報生成部は、上記コンテンツの撮影画角に応じたビット数で示される上記視界情報を含む上記タグ情報を生成してもよい。
【0013】
また、上記タグ情報生成部は、上記タグを付与する対象物との距離に応じたビット数により示される上記視点情報を含む上記タグ情報を生成してもよい。
【0014】
また、上記タグ情報生成部は、上記コンテンツの撮影画角に応じたビット数で示される上記視点情報を含む上記タグ情報を生成してもよい。
【0015】
また、上記タグ情報生成部は、少なくとも上記視点情報及び上記視界情報を各情報の境界の情報を保持する形式により文字列に変換し、変換して得られた文字列の値を上記キーの値として用いてもよい。
【0016】
また、上記タグ情報生成部は、上記各情報を所定の区切りビット列長で区切り、区切られることにより生成される各ビット列を、上記ビット列長内のビット列が取り得る全ての値を一意に特定することのできる変換ルールに基づいて変換してもよい。
【0017】
また、上記視点情報は、上記視点の位置情報の誤差精度の情報を含んでもよい。
【0018】
また、上記課題を解決するために、本発明の別の観点によれば、コンテンツデータに付帯する撮影情報から、上記コンテンツを撮影する撮像装置の位置である視点位置の情報を含む視点情報、及び、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する解析部と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグ情報から、コンテンツに重畳させるタグの情報を検索する検索部とを有する情報処理装置が提供される。
【0019】
また、上記課題を解決するために、本発明の別の観点によれば、コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部とを有するタグ情報生成装置と、コンテンツデータに付帯する撮影情報から、上記視点情報及び上記視界情報を取得する解析部と、上記視点情報および上記視界情報により特定される視界空間上の座標位置と関連づけられたタグ情報から、コンテンツに重畳させるタグの情報を検索する検索部と、上記検索部により検索されたタグが重畳された映像を表示させる表示制御部と、を有する再生装置とを有する、情報処理システムが提供される。
【0020】
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部とを有する情報処理装置として機能させるための、プログラムが提供される。
【発明の効果】
【0021】
以上説明したように本発明によれば、撮影された映像の視界空間上の座標に対して関連づけられたタグを用いることが可能な、新規かつ改良された情報処理装置、情報処理システム、及びプログラムを提供することができる。
【図面の簡単な説明】
【0022】
【図1】本発明の一実施形態に係る情報処理システムの概略構成を示す構成図である。
【図2】撮影情報の一例を示す表である。
【図3】情報処理システムの効果の一例を示すための説明図である。
【図4】タグ情報生成装置の機能構成を示すブロック図である。
【図5】リレーショナルデータベースを用いる場合のタグ情報の空間モデルを示す説明図である。
【図6】リレーショナルデータベースによるタグ情報のテーブル定義例である。
【図7】データセンターの構成図である。
【図8】キーバリュー型データストアの概要の説明図である。
【図9】キーバリュー型データストアを用いる場合のタグ情報の空間モデルを示す説明図である。
【図10】タグ情報のキーの構成の一例を示す説明図である。
【図11】撮影位置のグリッドの一例を示す説明図である。
【図12】視界情報ビットについての説明図である。
【図13】視界情報のビット割当ての一例を示す表である。
【図14】視点情報のビット割当ての一例を示す表である。
【図15】可変ビット列文字符号変換表の一例である。
【図16】可変ビット列の文字列変換の一例を示す説明図である。
【図17】タグ情報のJava(登録商標)を用いたクラス定義の一例を示す説明図である。
【図18】タグ情報の検索方法の一例を示す説明図である。(北緯35度)
【図19】タグ情報の検索方法の一例を示す説明図である。(北緯60度)
【図20】再生装置の機能構成を示すブロック図である。
【図21A】タグ情報検索動作を示すフローチャートである。
【図21B】タグ情報検索動作を示すフローチャートである。
【図22】映像へのタグ情報の投影についての説明図である。
【図23】情報処理システムを適用したサービスの一例である。
【図24】情報処理システムを適用したサービスの他の一例である。
【発明を実施するための形態】
【0023】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0024】
なお、説明は以下の順序で行うものとする。
1.概要
2.構成
3.リレーショナルデータベースによるタグ情報管理方法
4.キーバリュー型データストアによるタグ情報管理方法
5.効果の例
6.適用例
【0025】
<1.概要>
まず、本発明の一実施形態形態に係る情報処理システム10の概要について図1〜図3を用いて説明する。図1は、本発明の一実施形態に係る情報処理システム10の概要構成を示す構成図である。また、図2は、撮像装置において記録される撮影付帯情報の一例を示す表である。図3は、情報処理システム10の効果の一例を示すための説明図である。
【0026】
本実施形態に係る情報処理システム10は、映像コンテンツを撮影する撮像装置200と、ユーザの操作に応じて、撮像装置200から取り込んだコンテンツ3000に対してタグを付与する操作等を受付ける情報処理装置である端末装置300と、付与されたタグの情報に、コンテンツが撮影されたときの視界空間を特定するための視界情報を付加したタグ情報を生成する情報処理装置であるタグ情報生成サーバ100を有するデータセンタ1000と、データセンタ1000により管理されるタグ情報を利用して映像にタグを重畳して再生する再生装置400と、を有する。データセンタ1000内の各装置と、端末装置300、及び再生装置400とは、それぞれネットワーク500を介して接続される。
【0027】
データセンタ1000には、動画共有サービスを提供するためのサーバ群が設置されている。端末装置300は、データセンタ1000内の図示しない映像配信サーバに対して映像コンテンツをアップロードすることができる。また、再生装置400は、データセンタ1000内の映像配信サーバから配信される映像コンテンツをダウンロードして再生することができる。
【0028】
ユーザは、撮像装置200を端末装置300にUSB(Universal Serial Bus)等を用いて接続し、端末装置300のアプリケーションソフトウェアにより映像3000のコンテンツデータを撮像装置200から取込む。このとき、端末装置300は、映像3000のコンテンツデータと共に、映像3000に付帯する撮影情報を取込む。そして、ユーザは、端末装置300により映像3000及び映像3000に付帯する撮影情報をデータセンタ1000内の映像配信サーバにアップロードする。また、ユーザは、端末300により、映像3000に対してタグ600を付与することもできる。そして、ユーザは、端末装置300により映像3000に付与したタグ600の情報、例えば、映像上のタグ600の位置及びタグ600の文字列情報などを、データセンタ1000内のタグ情報生成サーバ100にアップロードする。
【0029】
ここで、撮像装置200は、例えばGPS及び電子コンパスの機能を有し、撮影した映像に付帯する撮影情報として、撮影日時及び焦点距離などの撮影条件のみならず、位置情報及び方位情報を記録することができる。AVCHD規格に基づくビデオカメラにおいては、MPEG2−TSのエレメンタリストリーム(ES)の中のユーザデータとして記録されたモディファイドデジタルビデオパックに、例えば図2に示す撮影情報が記録されている。この撮影情報は、所定時間間隔で定期的に記録される。
【0030】
端末装置300は、ここでは1台のみ示されているが、データセンタ1000は、多数の端末装置300からのアクセスを受付けることができる。また、再生装置400に関しても同様に、多数の再生装置400がデータセンタ1000にアクセスすることが想定される。
【0031】
そして、再生装置400は、映像3000と同じ視点及び同じ視界で撮影された他の映像4000にタグ600が重畳された映像を再生する。図1の例においては、「Mt.Fuji over Lake.Motosu」という文字列情報を有するタグ600が、映像4000に重畳されて再生される。
【0032】
このようなタグ600が示す情報は、映像3000が撮影された視点から同じ視界空間を撮影した映像上で意味をなす情報である。つまり、本栖湖越しに富士山が見える映像上でなければ、たとえ富士山が被写体として写っている映像であっても、かかるタグ600を表示することは望ましくない。例えば、図3に示す映像4005は、御殿場から撮影された富士山の映像である。この場合、映像4005には、本栖湖は映っていない。このため、タグ600を表示させることは望ましくない。また、映像4010は、映像3000の撮影位置よりも富士山頂に近い位置から撮影された映像である。この場合には、映像4010と映像3000とが同じ方角から撮影した映像であっても、映像4010にタグ600を表示させることは望ましくない。また、映像4015は、映像3000と同じ撮影位置から撮影された映像である。ところが、映像4015は、映像3000とは撮影条件が異なり、映像3000よりも近景を撮影した映像である。この場合にも、本栖湖は映像4015中に映っていないため、タグ600を表示させることは望ましくない。
【0033】
従来のシステムは、タグを被写体の地上の3次元空間座標にラベリングしていた。この場合、富士山の地上の3次元空間座標位置は同一であるため、図3に示される映像4005、映像4010、映像4015のような映像に対しても、タグ600が重畳されていた。しかし、上述の通り、タグ600は、同じ視点からの同じ視界空間を撮影した映像上で意味をなす情報である。本実施形態に係る情報処理システム10は、このタグを撮影映像の視界空間上の座標位置に関連付けて管理する。このため、視点及び方位の異なる映像4005、視点の異なる映像4010、並びに、視点及び方位は同じであるが撮影条件が異なるため視界空間の異なる映像4015に対してはタグ600が重畳されることはない。
【0034】
このため、単純に対象物の名称だけでなく、その視点からのある視界空間から見える複数の対象物の位置関係において意味をなす情報をタグとして共有することができる。
【0035】
なお、ここでは、撮像装置200としてビデオカメラを示したが、本発明はこれに限られない。撮像装置200は、例えば携帯電話、携帯用音楽再生装置、携帯用映像処理装置、携帯用ゲーム機器など、撮像機能を有する装置であればあらゆる機器であってよい。また、端末装置300は、PC(Personal Computer)である場合が例示されているが、本発明はかかる例に限られない。例えば、端末装置300は、家庭用映像処理装置(DVDレコーダ、ビデオデッキなど)、PDA(Personal Digital Assistants)、家庭用ゲーム機器、家電機器、携帯電話、携帯用音楽再生装置、携帯用映像処理装置、携帯用ゲーム機器など、通信機能及びユーザが操作入力する入力部を有する情報処理装置であってもよい。或いは、撮像装置200が通信機能を有し、データセンタ1000内の各装置と通信することができる場合には、撮像装置200自体が端末装置300の機能を併せ持っていてもよい。
【0036】
ここでいうコンテンツは、映像コンテンツであり、静止画像コンテンツであってもよく、動画像コンテンツであってもよい。なお、再生装置400は、データセンタ1000により提供される映像共有サービスにより配信される映像にタグを重畳して再生させることとしたが、本発明はかかる例に限られない。例えば、再生装置400は、ローカルな記憶部に保有する映像コンテンツに対してタグを重畳して再生させてもよい。或いは、再生装置400は、撮像機能も併せ持つ装置であって、リアルタイムに撮影中の映像に対してタグを重畳させてもよい。
【0037】
以上説明したように、本実施形態に係る情報処理システム10は、タグをコンテンツが撮影された視点からの視界空間上の座標位置と関連付けて管理する。このため、再生装置400においては、同じ視点からの同じ視界空間上に関連付けられたタグしか重畳されない。このため、このタグ情報を用いる再生装置400は、所定の撮影条件により、映像を撮影した撮影位置、及び映像を撮影した方位から見た映像中においてしか意味を成さない情報を適切に表示することができる。かかる効果を奏するための、タグ情報生成装置100の機能構成について、次に説明する。
【0038】
<2.構成>
図4は、タグ情報生成装置100の機能構成を示すブロック図である。タグ情報生成装置100は、通信部110と制御部120とを主に有する情報処理装置である。タグ情報生成装置100は、映像の解析結果よりタグ情報を生成する。
【0039】
ここで、タグ情報生成装置100において生成されるタグ情報は、撮影位置の情報を含む撮影情報、撮影位置からの視界に関する視界情報、撮影位置の情報と視界情報とに基づいて特定される視界空間における座標位置、及び、タグの情報の内容を示す文字列情報、を含む情報である。
【0040】
このようなタグ情報を生成するために、タグ情報生成装置100の制御部120は、視点情報取得部121、視界情報取得部122、及びタグ情報生成部124の機能を主に有する。
【0041】
視点情報取得部121は、コンテンツを撮影する撮像装置の位置(以下、視点位置という。)を示す視点情報を取得する。視点情報取得部121は、例えば、映像のコンテンツデータに付帯した撮影条件を示す情報である撮影情報から視点情報を取得する。撮影情報は、上述の通り、撮像装置200の機能により記録される情報である。視点情報取得部121は、例えば、端末装置300からアップロードされた映像を記憶する映像配信サーバに保存された映像のコンテンツデータに付帯する撮影情報から視点情報を抽出して取得する。或いは、視点情報取得部121は、映像をアップロードする端末装置300から直接、映像のコンテンツデータを取得して視点情報を取得してもよい。
【0042】
ここで視点情報は、例えば、世界測地系で表され、GPSなどの位置取得装置から取得した経度、緯度、高度の情報である。また、視点情報は、位置情報の誤差精度の情報を含んでいてもよい。
【0043】
視界情報取得部122は、視点位置からコンテンツを撮影したときの視界空間を示す視界情報を取得する。視界情報取得部122は、例えば、映像のコンテンツデータに付帯した撮影情報から視界情報を取得する。
【0044】
ここで視界情報は、例えば、視点位置からの方位、視野角の情報などを含む。例えば視点位置からの方位は、撮像装置の有する電子コンパスにより取得した方位情報が用いられる。視野角の情報は、撮像装置の設定に応じた値となる。方位及び視野角の情報は、映像のコンテンツデータに付帯した撮影情報から取得される。
【0045】
タグ情報生成部124は、視点情報、視界情報、及び視界空間の奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成する。タグ情報生成部124は、例えば、通信部110を介して端末装置300から取得したタグの文字列情報、及び、映像中のタグ位置の情報と、視点情報及び視界情報と、視点からタグを付与する対象物までの距離の情報とを含むタグ情報を生成する。
【0046】
ここで、視界空間の奥行き情報は、コンテンツにおいて撮影された被写体までの距離である。被写体距離は、例えばコンテンツに付帯する撮影情報から被写体距離の値が取得できる場合には、取得される被写体距離の値が用いられる。また、コンテンツの撮影情報に基づいて算出される過焦点距離が用いられてもよい。
【0047】
以上説明したタグ情報生成装置100の各部の詳細な動作については、タグ情報の管理方法によって異なる。ここで、本実施形態においては、タグ情報の管理方法において、現在、最も一般的に用いられているリレーショナルデータベースによる管理方法と、より大規模なデータの管理や分散処理に適したキーバリュー型のデータストアによる管理方法の2つの管理方法について、それぞれ次に説明する。
【0048】
<3.リレーショナルデータベースによるタグ情報管理方法>
まずは、リレーショナルデータベースによるタグ情報管理方法について、図5及び図6を用いて説明する。図5は、タグ情報をリレーショナルデータベースにより管理する場合におけるタグの空間モデルの一例を示す説明図である。図6は、図5の空間モデルにより定義されたタグ情報を管理するリレーショナルデータベースのテーブル定義の一例を示す説明図である。
【0049】
上述の通り、本実施形態においてタグは、タグを付加する映像を撮影した撮像装置の位置である視点を基準として映像の視界の3次元空間上にラベリングされる。視点は、世界測地系で表された経度、緯度、高度の情報であり、この場合緯度N1,経度E1,高度A1である。視界の3次元空間上の位置は、撮影方向ベクターを軸に、撮影映像の中点を合わせて直交配置した2次元の視野平面を水平画角、及び視点からの距離により規定し、この視野平面上の位置で表される。
【0050】
この視野平面の座標は、水平X軸、垂直Y軸で規定され、中点を(0,0)とし、画像の水平方向の解像度Wは、画像の横解像度となる。タグの視野平面上の位置は、(X,Y)にて表される。
【0051】
タグを他の映像と共有し、重畳して用いるためには、映像の視点位置、視野角、方位、視点からタグを付加する対象物までの距離が近いことを条件として、データベースから検索することにより実現することができる。位置情報、及び方位情報に加えて、視野角及び視点からの距離によりタグ情報を検索できるようにすることは、視聴者の注目している被写体に対するタグ情報であるか否かを判断する上で重要である。
【0052】
次に、このような空間モデルにより定義されたタグ情報を管理するリレーショナルデータベースのテーブル定義の一例を図6を参照しながら説明する。図6の表の各行は、情報タグの1レコードを示す。そして、表の列は、視点情報、視界情報、情報タグの3つに分類される。
【0053】
視点情報は、経度、緯度、高度、及び誤差の列を有する。緯度は、浮動小数点の−90度から90度の範囲の値をとり、北緯は正の値で表され、南緯は負の値で表される。また、経度は、浮動小数点の−180度から180度の値をとり、東経は正の値で表され、西経は負の値で表される。高度は、整数で表されるメータ値である。そして誤差は、位置情報の精度をメータ値で表した値である。誤差は、GPSの場合には、DOP(Dilution of Precision)の値から算出する。誤差が不明な場合には、−1の値を入れる。
【0054】
視界情報は、方位、視野角、高さ、及び幅の列を有する。方位は、撮影方向の方角を示す。この方位の値は、浮動小数点により0−360度の値をとり、北は0度(360度)として、東は90度、南は180度、西は270度で表される。また、視野角は、浮動点小数の度数で表される。高さ及び幅は、撮影映像の縦横の解像度であり、ピクセル値で表される。例えば、フルハイビジョンの映像であれば、解像度は縦1920、横1080である。映像の解像度は、コンテンツデータに付帯する撮影情報から取得することができる。視野角を2θとした場合、以下の関係から求まる。
【0055】
tanθ=(撮影素子体格サイズ)/(焦点距離)
【0056】
情報タグは、距離、X座標値、Y座標値、タグ名の列を有する。距離は、視野空間上の視点からの距離であり、整数によりメータ単位で表される。X座標値およびY座標値は、図5において説明した視野平面状の位置であり、ピクセル値で表される。タグ名は、タグの名前が文字列により表される。タグの名前は、タグによって共有したい情報である。
【0057】
なお、タグの距離は、タグ毎に計測することはできない。このため、簡易的に、撮影画像の被写体距離がタグの距離として用いられる。被写体距離は、動画の場合には図2に示す撮影付帯情報、また、静止画の場合には、EXIFファイルに記録された画像情報の被写体距離タグの値が用いられてもよい。被写体距離がこれらの情報から取得できない場合には、以下の式を用いて算出した過焦点距離をタグの距離として用いることができる。
【0058】
許容錯乱円径=画像素子対角サイズ÷許容錯乱円定数(=1300)
過焦点距離=(焦点距離×焦点距離)÷(許容錯乱円径×F値) [単位:mm]
【0059】
EXIF情報に35mm換算の焦点距離 FocalLengthIn35mmタグが記録された場合は、35mmFilmにおいて撮像素子の対角サイズは43.266615mmであることは既知である。このため、ApertureValueタグに記録された絞りF値を用いて過焦点距離が算出される。
【0060】
或いは、タグの距離は、撮影映像を解析して各被写体のフォーカス距離を測定技術を用いて測定された距離が用いられてもよい。また、タグの距離は、例えば3Dカメラのように視差情報を記録できる装置が用いられた場合には、この情報を用いて解析により求められた値が用いられてもよい。
【0061】
以上のように、図5の空間モデルに従って、図6のテーブル定義のリレーショナルデータベースを利用することで画像に付加したタグを管理することができる。ところが、このようなリレーショナルデータベースは、大規模なデータの管理、および分散処理が行いづらいという特徴がある。そこで、管理する対象となる情報量が多くなった場合に好適なクラウドコンピューティングの技術を適用してタグ情報を管理する方法について、次に提案する。
【0062】
<4.キーバリュー型データストアによるタグ情報管理方法>
図7は、本実施形態に係るコンテンツ共有サービスを提供するためのデータセンタ内の構成図である。映像コンテンツの共有サービスを提供するためには、アップロードされた多量の映像コンテンツデータの画像変換処理、記録管理、及び大勢の利用者からの映像コンテンツデータへのアクセスを処理する必要がある。このため、大規模な分散処理型のクラウドコンピューティング技術を利用したタグ情報管理方法を提案する。
【0063】
データセンタ1000は、複数のWebサーバ170、複数の映像配信サーバ180、複数のタグ情報管理サーバ190、及び複数のタグ情報生成サーバ100を有する。
【0064】
Webサーバ170は、端末装置300のブラウザに表示されるHTMLドキュメント及びVR情報を提供する。映像配信サーバ180は、映像を再生装置に配信する。また、タグ情報管理サーバ190は、タグ情報生成サーバ100が生成したタグ情報をKey−value型データストアに管理する。タグ情報生成サーバ100は、Key−value型データストアにて管理するのに適したタグ情報を生成する。大量のコンテンツデータ及び端末装置からのアクセスを拘束に処理するためにはクラウドコンピューティングの技術を利用することは有益であり、本実施形態においては、分散型のクラウドコンピューティングに適するといわれているKey−value型のデータストアを利用してタグ情報を管理する方法を用いる。
【0065】
Key−value型のデータストアは、図8に示されるように、キーと値の組を行としたシンプルなテーブルによりデータを管理する。Key−value型のデータストアは、リレーショナルデータベースと比較して、複雑なデータ構造定義やリレーショナル機能を利用した検索をサポートしない代わりに、キーの値に基づいて、複数のサーバで大量なデータを分散処理することができる特長を有する。このようなKey−value型のデータストアは、近年、大規模な数のクライアントを対象としたインターネットサービスにおいて利用され始めている。
【0066】
Key−value型のデータストアにおいては、テーブルは、キーの値によりソートされて管理される。このため、高速に、且つ、低負荷にて処理を行うためには、関連するデータは、テーブルの一部に局所化されるようにキーの値の形式を工夫することが非常に有効である。
【0067】
(空間モデル)
図9は、本実施形態において、Key−value型のデータストアによりタグ情報を管理する場合に用いるタグの空間座標について示す空間モデルである。本空間モデルにおいて、タグの位置情報は、視点位置情報(緯度LANT、経度LNGT、高度ATTT)、及び視点位置からの方位情報(水平方位角θTH、垂直方位角θTV)により示される。
【0068】
図5に示した空間モデル上の座標から、図9に示される空間座標への変換は、以下の式により行われる。なお、方位が真北を跨る場合には補正が必要である。
【0069】
タグの水平方位角:θTH=θFH+θFW×(XT/WF−1/2)
タグの垂直方位角:θTV=θFV+(θFW×HF/WF)×(1/2−YF/HF)
【0070】
このとき、各記号は以下の意味を有する。
タグの画像面上の座標: (XT,YT)
画像の撮影水平画角: θFW
画像の水平画素数: WF
画像の垂直画素数: HF
画素アスペクトレシオ: 1:1
画像の撮影水平方位角: θFH
画像の撮影垂直方位角: θFV
【0071】
なお、垂直方向の方位角情報は、真下を基点として0から180度までの値をとる。ここでは、説明の便宜上、水平を0度上空方面を正とし、地面方面を負として表記している。方位角情報が、コンテンツデータに付帯する撮影情報に含まれておらず不明な場合には、画角及び被写体距離から、垂直方位角を簡易的に割り当ててもよい。
【0072】
(ViewHash)
タグ情報をKey−value型データストアにより管理する場合には、視点情報及び視界情報をキーの一部に用い、これらの情報によりデータを検索することができるようにする必要がある。このため、今回提案するViewhashを用いることにより、経度、緯度、位置精度、視野角、視野方向、及びタグの距離を効率よく文字列に符号化することができる。
【0073】
Viewhashの構成が図10に示される。Viewhashのビット列は、位置情報、位置精度、視界情報、及びタグまでの距離としての被写体距離を示すビット列が順に並ぶ。位置情報のビット列は、経度(−90度から90度)、緯度(−180度から180度)、の座標を、分解精度にて表した値から生成する。分解精度のビット数R、ビットの経度n、緯度eとすると、分解精度にて表した経度Nおよび緯度Eの値は以下の式から求める。
【0074】
N=180×(n+90)/2R−1
E=360×(e+180)/2R
【0075】
NおよびEの値は、浮動点小数であり、小数点以下は切り捨てて、n、およびeは整数値とする。なお、分解された地図上の区画を正方に近づけるために、経度の分解精度は、緯度の分解制度の1/2となるようにしてある。
【0076】
位置情報のビット列は、図10に示したように、先の式で求められた経度のビット列(E−bn,E−bn−1,・・・E−b1,E−b0)および経度のビット列(N−bn−1,・・・N−b1,N−b0)を交互に配置した形式である。ここで、最上位ビットはそれぞれE−bn及びN−bn−1である。
【0077】
位置情報のビット列をこのような形式にすることによって、地球上の地理区画を特定することができ、少ないビット列により区画の位置を示すとともに、区画の長さも表すことができる。本実施形態においては、GPSの位置精度が1meterから100meterであることを考慮して、Rは22から25の値を用いる。このとき位置情報は、最小で43ビット、最大で49ビットとなる。
【0078】
図11は、位置情報のビット数が45ビットである場合の、分割される地理区画の例を示す説明図である。この地理区画の南北方向の長さは、経度にかかわらず一定であり、約4.75メータとなる。一方、地理区画の東西方向の長さは、緯度に依存して、例えば、東京などの緯度が35度の付近においては3.86メータとなる。これに対してストックホルムなどの緯度が60度の付近においては、地理区画の東西方向の長さは、約2.35メータとなる。
【0079】
位置精度は、位置情報のビット列により特定された地理区画の南北方向の距離の何倍であるかをビット列により表し、D−b7が最上位ビット、D−b0が最下位ビットである。位置情報のビット列により特定された地理区画の南北方向の距離の1倍であった場合には、ビット列の値は0、位置情報のビット列により特定された地理区画の南北方向の距離の1倍超2倍以下の場合には、ビット列の値は1、位置情報のビット列により特定された地理区画の南北方向の距離の2倍超4倍以下であった場合には、ビット列の値は3、位置情報のビット列により特定された地理区画の南北方向の距離の4倍超であった場合には、ビット列の値は4となる。位置誤差のビット数を0とする。
【0080】
視界情報は、タグの方位がどの視界に属するかを示す情報である。図12及び図13に示すように、視界情報は4−6ビット列であり、真東を起点として時計回りとした方位を360度の座標を分解精度で除した値をビット列で表す。真東を起点として時計回り表した方位の度数をd、分解精度のビットの精度をAとしたとき、視界情報Dは以下の式にて算出される。なお、以下の説明では便宜のため、方位は真北を起点として表記しているが、実際にはすべて、真東を起点として変換した値を用いる。
【0081】
D=360×d/2A
【0082】
本実施形態においては、分解精度のビット数は4、5、6の3通りとし、視野角に応じて異なるビット数が用いられる。ビット数により360度の空間が、それぞ22.5度、11.25度、8.125度に分割される。本実施形態においては、タグが付加された画像の撮影画角に応じてビット数を変え、画角が46度以上の場合は4ビット、46度未満18度以上の場合は5ビット、18度未満は6ビットの精度が割り当てられ、360度の空間がそれぞ22.5度、11.25度、8.125度に分割された方位のどれに属するかを示す。図12は、4ビットの場合の各方位のビット数が示されている。たとえば情報タグの水平方位が北北西は315度であった場合は、視野情報は、1101のビット値となる。なお、方位情報が不明の場合、ビット数は0とする。
【0083】
このように、視野角に応じて視界情報のビット数を異ならせ、このビットにより示される視界情報をKey−value型データのキーの一部として用いることによって、キーに含まれる視界情報のビット数から視野角の情報を把握することができるようになる。視野角の情報を把握することができることにより、より正確に各映像コンテンツ内に撮影されている範囲を知ることができるようになる。
【0084】
被写体距離は、メータ値の8ビットにて表され、上述のようにコンテンツデータに付帯する撮影情報に基づいて、被写体までの距離を求めた値として用いる。厳密には撮影画の過焦点距離とタグ情報の距離は一致しないが、もともと距離情報には誤差が含まれているものとして扱う。距離が255メーター以上のものは255とし、距離情報が不明の場合はビット数は0とする。
【0085】
図14は、位置情報のビット数の割り当て方式を示した説明図である。Key−value型データストアのKeyによる検索を効率良くするために、タグ情報の検索方式に適するようにKey値を決めることは有効である。本実施形態においては、タグの視野のビット数および距離情報によってタグのKey値を構成するViewHashの位置ビット数を変える。例えば、視界情報のビット数が3の場合は、タグが付加された映像は広角でとられたものであり、かつ、被写体距離が遠方(100m超)であった場合は、位置情報の精度が悪い場合でもタグ情報を利用することができるので、位置情報のビット数は43ビットを用いる。一方、視野情報のビット数が5、つまり、超望遠で撮影した映像に付加したタグ情報であれば、位置情報の精度も要求されるため、すべての距離において位置情報のビット数は49ビットを用いる。このように位置情報のビット数の割り当てを変えることで、有益なタグ情報の検索を効率よくおこなうことが可能である。前述のように、タグの位置誤差は位置情報のビット数に依存するので、比較対照の視点の位置精度によって、タグ情報の検索で用いるViewhashの位置情報のビット数を決定できる。なお、タグの検索については詳しくは後述する。
【0086】
上記のように、ViewHashを構成する各ビット列は求めることができる。ところが、Key−value型のデータストアのKeyの値として用いる場合、又は、URLなどとして用いるためには文字列で表記した方が扱い易い。このため、ビット列を文字列に符号化する。ビット列を文字列に符号化するためには、例えばBASE64を利用する方法がある。しかし、本実施形態においては、各ビット列に依存させてKey値でデータがソートできるようにするために、可変ビット列文字符号変換方式を提案する。
【0087】
ここで提案する可変ビット列文字符号変換方式は、可変長のビット列をつなげてキーを生成する場合に、各ビット列の区切りを判別することができるという特長を有する。このため、本方式を用いて符号文字に変換したビット列は、そのまま連結させた場合であっても、各情報の区切りを判別することができる。このため、Key−value型データストアのキーとして用いる場合に、各情報の値に基づいて検索することが可能となる。
【0088】
図15に可変ビット列符号化変換表の一例を示す。本変換方式は、情報が複数の可変長ビット列(0ビット以上)から構成されており、それらビット列の境界を識別する場合に有効である。この変換方法について説明する。各可変長ビット列は最上位ビットから4ビット単位にてフラグメントを順次切り出し、その4ビット値に対応した文字コード(Uからz)にて置き換える。もし、切り出すフラグメントのビット数が4に満たない場合は、3ビット、2ビット、1ビット、それぞれに文字コード(EからT)、(6からD),(2から5)、(0,1)にて置き換える。また、最後の切り出したフラグメント4ビット、もしくは該当のビット列のビット数が0であった場合は、文字コード−(ダッシュ)を追加する。なお、ここで示す変換表は一例であることは言うまでもない。ビット列と符号文字とが1対1に対応するように規定されるものであれば、各種の変形例が考えられる。
【0089】
図16に変換の例を示す。変換前の情報が2つのビット列から構成され、それぞれ「01111010010010」と「10010」であった場合、変換後の文字列は”im8W−“となる。この変換方式により図10で示されるViewHashの値としては文字列に変換したものを用いる。
このViewhashによって、任意の精度で分割された地球座標上の区画の中心を視点として、任意の精度にて分割された視野の3次元空間を一意に特定することが可能になるが、このViewHashを利用してタグ情報をKey−value型データストアで管理する方法について説明する。
【0090】
次に、本実施形態におけるKey−value型データストアのテーブルについて説明する。本実施形態において使用するKey−value型データストアのテーブルは、図8に示したようにKey値とValueの値の対をなす。図17には、タグ情報をKey−Value型のデータとして管理するために用いるJava(登録商標)クラスの定義が示される。Tagクラスはタグ情報を表し、インナークラスであるKeyクラスとValueクラスから構成される。KeyクラスとValueクラスとの対がKey−valueとしてデータストアで管理される。
【0091】
Keyクラスの実データは、変数Keyであり、Keyはタグ情報から生成したViewHashと文字列Typeと文字列TimeStampを連結した文字列である。Typeは、同じViewHashの値のTag情報が適切にソートされるために用いられ、本実施例ではタグ表示する優先度をType値とし0ビットの優先値を図15の変換表にて生成した文字列である。同じViewHash値のタグ情報にユニークなkeyを割り当てるのを主目的としており、タグが生成された日時をJava(登録商標)のDateクラスと同じ8バイトの値で求め、それを図15の変換表を用いて文字列に生成したものである。
【0092】
Valueクラスの実データは以下の変数である。
【0093】
name: タグの名前を文字列
type: タグ表示の優先度 (Key生成に使用しものと同じ値)
timeStamp: タグの生成日時 (Key生成に使用しものと同じ値)
tagPosition: タグの視点の位置 (例: 図10の LANT, LNGT,ATTTなど)
tagDirection: 視点からのタグの方位(例: 図10のθTH、θTV)
tagSource: タグ情報を生成した基となる画像情報とタグの画面情報座標
【0094】
また、TagSourceクラスの実データは以下の変数である。
【0095】
imageSource 画像情報
tagX: 画像面でのタグのX座標値 (例:図10のXT)
tagY: 画像面でのタグのY座標値 (例:図10のYT)
【0096】
また、ImageSourceクラスの実データは以下の変数である。
【0097】
url:画像ファイル(動画、静止画)のURL(Unique Resource Locator)
imagePosition:画像撮影した視点の座標(例: 図9ではLANT, LNGT,ATTTなどに同じ)
imageDirection:視点から画像の中点への方位(例:図9ではθFH 、θFV)
scene:画像ファイル(動画、静止画)の画像情報
【0098】
そして、Sceneクラスの実データは以下の変数である。
【0099】
frame; 静止画の場合は0、動画の場合は画像フレームを先頭からの時間(ミリ秒)で表記
angleHorizontal: 画像の撮影水平画角 (例:図9の θFW )
width: 画像の水平画素数 (例:図9のWF)
height: 画像の垂直画素数(例:図9のHF )
【0100】
ViewPositionの実データは以下の変数である。
【0101】
latitude; 視点の緯度
longitude; 視点の緯度
altitude; 視点の高度(ミリメータ単位)
range: 視点の誤差(ミリメータ単位)
【0102】
ViewDirectionの実データは以下の変数である。
【0103】
directionHorizaontal: 視点から対象点への水平方位
directionVertical; 視点から対象点への垂直方位
distance; 視点から対象点への距離(ミリメータ単位)
【0104】
次に、図18及び図19は、タグ情報の検索の例について示した説明図である。図18は、視点の位置(東京と同じ北緯35度)から画角50度にて真北を撮影した場合を示しているが、この視界に含まれるタグ情報を検索するには、視野の方位、画角を図13に示す視界情報ビットによって特定される視野毎にタグを探す。この例では視野は25度に分割された4つの視野分割に対する検索を行う必要がある。また、視野位置の測定誤差は位置情報ビットにて特定される区画の南北方向の長さ以下であったとしても、区画の縁に視点位置がある場合には誤差によって、実際はその周辺の区画に位置している場合もある。このため、特定された区画の周辺の区画も検索する必要があり、誤差が3mの場合であれば、合計9個の区画を検索する必要がある。この場合、検索としては4*8=32の操作を行ことになる。
【0105】
図19の例では、視点の位置がストックホルム近郊の北緯60度の例を示してある。この場合は、区画の東西方向が先の場合より短くなるので、同じ位置誤差精度であったとしてもより、広い範囲の区画の検索が必要である。
【0106】
このような検索処理を行う再生装置の機能構成について、次に説明する。図20は、再生装置400の構成を示すブロック図である。再生装置400は、通信部410と、制御部420と、表示部430とを主に有する。制御部420は、解析部421の機能と、検索部422の機能と、重畳部423の機能と、表示制御部424の機能とを主に有する。
【0107】
通信部410は、インターネットなどのネットワーク500を介して他の装置と通信するためのネットワークインタフェースである。また、制御部420は、再生装置400全体の動作を制御する。表示部430は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置により構成される。
【0108】
解析部421は、再生装置400が再生するコンテンツを解析する機能を有する。解析部421は、例えば、検索部422がタグ情報を検索するために必要な情報を、コンテンツデータに付帯する撮影情報を解析することにより取得する機能を有する。また、必要に応じて、解析部421は、コンテンツの映像そのものを解析する機能を有していてもよい。
【0109】
検索部422は、再生するコンテンツデータに重畳するタグの情報を、データセンタ1000内のデータベースから検索する機能を有する。ここでは、検索部422は、Key−value型のデータストアに記憶されたタグ情報を検索するために適した検索条件を生成して、データセンタ1000内のタグ情報管理サーバ190に送信し、検索結果を取得する。タグ情報検索処理の詳細については、次に図21を用いて説明する。
【0110】
重畳部423は、検索部422が取得したタグ情報から、再生する映像コンテンツにタグを重畳させる処理を行う。この重畳処理の詳細については、後述される。また、表示制御部424は、コンテンツデータを再生する機能を有し、重畳部423によりタグが重畳されたコンテンツデータを再生する。
【0111】
図21は、タグ検索の動作を示すフローチャートである。Key−value型のデータストアでは、Keyの値の先頭と終わりを指定して、その範囲のKey値の配列を得ることができる。このため、撮影された画像の位置情報、方位、および、撮影された画像の被写体距離の範囲から、ViewHashBeginとViewHashEndによるKey−value型データストアの検索を、視界と区画の分だけ検索を繰り返す。ただし、先に述べたようにKey−value型データストアでは分散処理が容易に行えるようになっている。このため、検索要求は並列に行えば、分散して処理することも可能である。
【0112】
タグ情報検索処理は、まず、再生装置400が、対象とする映像の撮影情報を取得することにより始まる(S103)。そして、検索部422は、取得された撮影情報の画角の情報から視野ビット数を決定する(S106)。次に、検索部422は決定した視野ビット数と、撮影情報より得られた距離の情報から、検索するグリッドの位置ビット数を決定する(S109)。
【0113】
そして次に、検索部422は、測定誤差の値が、グリッドの南北の幅以下であるか否かを判断する(S112)。ステップS112における判断により、測定誤差がグリッドの南北幅より大きいと判断された場合には、検索対象のグリッドを特定することができないため、Bに進んで処理を終える。
【0114】
一方、ステップS112の判断により、測定誤差がグリッドの南北幅以下であると判断された場合には、次に、検索部422は、検索するグリッドの位置情報を算出して配列にセットする(S115)。そして、検索部422は、画角及び視野ビット数から対応する視界を算出して配列に入れる(S118)。
【0115】
そして、検索部422は、結果を保存するTags[]配列を初期化し(S121)、距離精度の値を0にする(S124)。そして、次に図21Bに進み、検索部422は、最初のViewPositionを選択し(S127)、検索する距離範囲を決定する(S130)。
【0116】
そして、検索部422は、ViewHashBeginを算出し(S133)、ViewHashEndを算出する(S136)。そして、検索部422は、ステップS133及びステップS136において算出されたViewHashBeginとViewHashEndの間の範囲のタグを検索する。
【0117】
具体的には、検索部422は、検索条件を生成して、タグ情報管理サーバ190に送信する。そして、検索部422は、送信した検索条件に合致する検索結果を取得する。検索部422は、取得した検索結果をTags[]に追加保存する。
【0118】
そして、全てのViewDirectionを検索したか(S142)及び全てのViewPositionを検索したか(S144)が判断され、全てについて検索が完了するまでステップS130からの処理が繰り返される。
【0119】
次に、再生装置400の重畳部423により行われる重畳処理について図22を参照しながら説明する。図22は、検索により得られたタグ情報を、他の映像に重畳する方法について示した説明図である。
【0120】
3辺の距離が既知である場合は、余弦定理より夾角は求めることができ、タグの視点座標および方位から、撮影視点からみた視野に投影したタグの方位は以下の式より求めることができる。
【0121】
投影されたタグの 水平方位角
θUH=θTH−cos−1(DU2+DS2−DDH2)/(2*DU*DS) where θSH>=θTH
θUH=θTH+cos−1(DU2+DS2−DDH2)/(2*DU*DS) where θSH<θTH
投影されたタグの垂直方位角θUv=θTv+cos−1(DU2+DS2−DDV2)/(2*DU*DS) where θSV>=θTV
θUv=θTv+cos−1(DU2+DS2−DDV2)/(2*DU*DS) where θSV<θTV
【0122】
ここで、情報は次の符号により示される。
タグの位置情報(LANT,LNGT,ATTT)
撮影地点の位置情報(LANS,LNGS,ATTS)
視点間の水平方向距離DDH
視点間の垂直方向距離DDV
タグの水平方位角θTH:
タグの垂直方位角θTV
タグの距離距離DT
被写体距離の距離DS
【0123】
DDHは2つの視点の水平距離であり、視点間の標高差がなく垂直距離DDVを0とすれば、DDHhは2点の経度、緯度からHubenyの公式によって距離を求めDDHhとする。DShは撮影された画像の被写体距離であり、ここでは過焦点距離が用いられ、DThはタグ情報の距離である。垂直距離DDV0としているので、投影された垂直方位角はタグの垂直方位角と等しくなる。
【0124】
検索されたタグを撮影された映像に投影する場合は、検索されたすべてのタグについて上記の座標変換を行い、タグの方位角が撮影の画角に収まるものだけを選択し投影する。また、タグ情報を元に、たとえば、前述のTypeに指定されている優先度が高いもののみ表示するなどフィルタリングして表示をおこなう。
【0125】
投影されたタグの水平方位角、垂直方位角が求まれば、撮影された映像の画像面での座標は以下の式で求めることができる。
【0126】
投影されたタグ位置Xs=((θUH−θSH)/θSW+1/2)*WS
投影されたタグ位置Ys=(1/2−(θUV−θSV)/(θSW*HS/WS))*HS;
【0127】
撮影映像の水平画角:θSW
撮影映像の水平画素数WS
撮影映像の垂直画素数HS
画素アスペクトレシオ1:1
撮影方向水平方位角θSH
撮影方向垂直方位角θSV:
【0128】
<5.効果の例>
以上のように、画像に付加されたタグ情報をKey−value型データストアで管理し、他の画像の撮影情報を投影可能なタグ情報を検索し、それらを重畳して表示する方法について示した。
【0129】
かかる構成によれば、ある視点位置からみた視界空間上の座標に関連づけられたタグ情報を生成し、共有して用いることができる。これにより、所定の撮影条件により、映像を撮影した位置、及び映像を撮影した方位から見た映像中においてしか意味を成さない情報を共有することができるようになる。
【0130】
また、このタグ情報を、視点の位置情報、視界情報、被写体距離、位置情報の誤差精度を簡潔に表現することのできるViewHashが新たに提案された。ViewHashを用いることにより、Key−value型のデータストアによりタグ情報を管理する場合において、タグ情報が大量となった場合であっても、高速に、軽い処理負荷で検索することができるようになる。
【0131】
<6.適用例>
次に、本発明の一実施形態形態に係るタグ情報の管理方法を適用することにより実現することのできるサービスの一例について説明する。
【0132】
例えば、図23は、ビデオカメラを用いて撮影された風景の映像に、リアルタイムにタグを重畳させて表示する例である。図1においては、重畳される映像は、予め撮影されて記憶された映像コンテンツであることとしたが、本発明はかかる例に限定されない。図23に示すように、撮影中の映像に対してリアルタイムにタグが表示されるようにしてもよい。
【0133】
また、上記実施形態においては、タグ情報は、インターネットなどのネットワークを介して取得することとしたが、本発明はかかる例に限定されない。例えば、撮像装置内の記憶部に予め訪問先の地域のタグ情報を記憶して出かければ、ネットワークに接続しなくてもタグを表示させることができる。
【0134】
或いは、図24は、地図情報と共に、予め撮影された映像にタグを表示させた映像4025を表示させる例である。タグ情報は、必ずしもリアルタイムの映像に重畳させることに意味があるわけではなく、見ている風景上の対象物が何であるかを知りたい場合には、過去の映像に重畳させて示してもよい。かかる構成によれば、撮像装置のレンズを被写体に向ける動作をしなくても、例えば携帯電話であればメールを打つ操作を行うときと同じ体勢で自然に所望の情報を得ることができる。リアルタイムの映像にタグを重畳させる場合には、必ず撮像装置のレンズを対象物に向けなくてはならないが、時と場所によっては、そのような動作をすることが困難な場合があるため、本構成は有効である。
【0135】
また、図24の装置は、写真を撮るのに適したスポットの情報をユーザに通知することも可能である。例えば、コンテンツデータを有する映像配信サーバ180において、記憶されたコンテンツデータの撮影位置を示す視点情報を解析することにより、このようなサービスを実現することができる。例えば、視点情報が多く集まるスポットは、写真を撮るのに適したスポットである可能性が高い。このため、撮影位置をお勧めする機能を提供するためにかかる情報が用いられてもよい。
【0136】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0137】
例えば、本実施形態においては、デジタルスチルカメラ、デジタルビデオカメラにGSP機能および方位機能を有して、その機能よってファイルに記録された撮影情報とその画像にユーザがPCにて付加したタグから、Key−value型データストアのデータを生成したが、対象物の座標位置およびそれに関わる情報、たとえば、山の名前などが分かっている場合には、コンピュータの処理によってある視点からのタグ情報を自動生成することも可能である。
【0138】
また、従来は、GPSの測定誤差によってタグ情報の座標に誤差が大きいタグ情報を利用できなかったが、本実施例によれば、タグ情報の付近の区画にある他のタグも容易に検索でき、また、タグ情報にはタグ生成の基となった画像の情報も得ることができる。このため、タグ生成の基となった画像を解析し、被写体が近似し、かつ、位置精度が正確な画像を近傍の区画から検索することで、タグの位置情報を補正することが容易に実現可能である。
【0139】
また、本実施形態においては、GPSの測定誤差によってタグ情報の座標に誤差が大きいタグ情報を利用できない場合が起こるが、本実施例によれば、タグ情報の付近の区画にある他のタグも容易に検索でき、また、タグ情報にはタグ生成の基となった画像の情報も得ることができるため、その画像を解析し、被写体が近似し、かつ、位置精度が正確な画像を近傍の区画から検索することで、タグの位置情報を補正することが容易に実現可能である。
【0140】
また、タグ情報の検索を行う映像の撮影した座標情報もGSPの測定誤差が大きい場合はタグ情報を利用できない場合が起こるが、撮影した座標情報から、その周辺の区画のタグ情報は容易に検索できる。このため、撮影した画像の情報とその撮影座標周辺のタグ情報の基となった画像の特徴量を比較することで、特徴量が近似した画像の座標を元に、撮影した画像の座標情報を補正することが容易に実現可能である。この方式は、実時間で撮影しているビデオカメラの位置情報の補正にも適応できる。
【0141】
また、上記実施形態においては、視界空間の奥行き情報は、コンテンツに付帯する撮影情報から取得する、又は過焦点距離が用いられることとしたが、本発明はかかる例に限定されない。例えば、タグの距離と同様に、あらゆる解析技術を用いて取得することのできる被写体までの距離を示すことのできる値が用いられてよい。
【0142】
尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
【符号の説明】
【0143】
100 タグ情報生成装置
110 通信部
120 制御部
121 視点情報取得部
122 視界情報取得部
124 タグ情報生成部
200 撮像装置
300 端末装置
400 再生装置
410 通信部
420 制御部
421 解析部
422 検索部
423 重畳部
424 表示制御部
430 表示部
500 ネットワーク
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、及びプログラム
【背景技術】
【0002】
カメラで撮影している映像に、その撮影位置に関する情報を文字等にて映像に重畳して表示することで、現実社会の活動を補強する技術は、AR(Augmented Reality:拡張現実)として1990年代初頭から急速に研究が進み、ヘッドマウントディスプレイを利用した拡張現実は、既に一部軍事用に実用が始まっていた。
【0003】
また、昨今、小型電子機器の高性能化などに伴い、カメラ及びGPS(Global Positioning System)機能を有する端末装置により拡張現実が実現されている。このような拡張現実の例においては、利用者は、実映像に文字を付加し、付加した文字情報をネットワーク経由で他の利用者に拡張現実技術を用いて提示することができる。このように、拡張現実は、情報提供という実用的な目的のみならず、コミュニケーションのツールの一種として楽しむといった使い方がされている。拡張現実に関する技術としては、例えば特許文献1の景観ラベリングシステムが挙げられる。
【0004】
特許文献1に記載の景観ラベリングシステムは、地上の3次元空間座標上で示された構造物等の位置に関連付けされたタグを映像に重畳する。このため、タグに示される情報が、タグが関連付けられる構造物の名称等である場合には好適である。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第3225882号
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところが、利用者がタグとして共有したい情報の中には、所定の撮影条件により、映像を撮影した位置、及び映像を撮影した方位から見た映像中においてしか意味を成さない情報がある。このような情報を共有する方法は、従来考えられておらず、潜在的に求められていた。
【0007】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、撮影された映像の視界空間上の座標に対して関連づけられたタグを用いることが可能な、新規かつ改良された情報処理装置、情報処理システム、及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明のある観点によれば、コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部とを有する、情報処理装置が提供される。
【0009】
また、上記視界情報は、上記視点位置からの撮影方向を示す方位と、視野角の情報を含んでもよい。
【0010】
また、上記奥行き情報は、上記コンテンツにおいて撮影される被写体までの距離であり、上記タグ情報生成部は、上記コンテンツの撮影情報に基づいた被写体距離又は過焦点距離を上記奥行き情報として用いてもよい。
【0011】
また、上記タグ情報生成部は、上記視点情報及び上記視界情報を含むキーと、上記タグの文字列の値の情報及び上記視界空間上における上記タグの座標位置情報を含むバリューと、により示されるタグ情報を生成してもよい。
【0012】
また、上記タグ情報生成部は、上記コンテンツの撮影画角に応じたビット数で示される上記視界情報を含む上記タグ情報を生成してもよい。
【0013】
また、上記タグ情報生成部は、上記タグを付与する対象物との距離に応じたビット数により示される上記視点情報を含む上記タグ情報を生成してもよい。
【0014】
また、上記タグ情報生成部は、上記コンテンツの撮影画角に応じたビット数で示される上記視点情報を含む上記タグ情報を生成してもよい。
【0015】
また、上記タグ情報生成部は、少なくとも上記視点情報及び上記視界情報を各情報の境界の情報を保持する形式により文字列に変換し、変換して得られた文字列の値を上記キーの値として用いてもよい。
【0016】
また、上記タグ情報生成部は、上記各情報を所定の区切りビット列長で区切り、区切られることにより生成される各ビット列を、上記ビット列長内のビット列が取り得る全ての値を一意に特定することのできる変換ルールに基づいて変換してもよい。
【0017】
また、上記視点情報は、上記視点の位置情報の誤差精度の情報を含んでもよい。
【0018】
また、上記課題を解決するために、本発明の別の観点によれば、コンテンツデータに付帯する撮影情報から、上記コンテンツを撮影する撮像装置の位置である視点位置の情報を含む視点情報、及び、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する解析部と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグ情報から、コンテンツに重畳させるタグの情報を検索する検索部とを有する情報処理装置が提供される。
【0019】
また、上記課題を解決するために、本発明の別の観点によれば、コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部とを有するタグ情報生成装置と、コンテンツデータに付帯する撮影情報から、上記視点情報及び上記視界情報を取得する解析部と、上記視点情報および上記視界情報により特定される視界空間上の座標位置と関連づけられたタグ情報から、コンテンツに重畳させるタグの情報を検索する検索部と、上記検索部により検索されたタグが重畳された映像を表示させる表示制御部と、を有する再生装置とを有する、情報処理システムが提供される。
【0020】
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、上記視点位置から上記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、上記視点情報、上記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部とを有する情報処理装置として機能させるための、プログラムが提供される。
【発明の効果】
【0021】
以上説明したように本発明によれば、撮影された映像の視界空間上の座標に対して関連づけられたタグを用いることが可能な、新規かつ改良された情報処理装置、情報処理システム、及びプログラムを提供することができる。
【図面の簡単な説明】
【0022】
【図1】本発明の一実施形態に係る情報処理システムの概略構成を示す構成図である。
【図2】撮影情報の一例を示す表である。
【図3】情報処理システムの効果の一例を示すための説明図である。
【図4】タグ情報生成装置の機能構成を示すブロック図である。
【図5】リレーショナルデータベースを用いる場合のタグ情報の空間モデルを示す説明図である。
【図6】リレーショナルデータベースによるタグ情報のテーブル定義例である。
【図7】データセンターの構成図である。
【図8】キーバリュー型データストアの概要の説明図である。
【図9】キーバリュー型データストアを用いる場合のタグ情報の空間モデルを示す説明図である。
【図10】タグ情報のキーの構成の一例を示す説明図である。
【図11】撮影位置のグリッドの一例を示す説明図である。
【図12】視界情報ビットについての説明図である。
【図13】視界情報のビット割当ての一例を示す表である。
【図14】視点情報のビット割当ての一例を示す表である。
【図15】可変ビット列文字符号変換表の一例である。
【図16】可変ビット列の文字列変換の一例を示す説明図である。
【図17】タグ情報のJava(登録商標)を用いたクラス定義の一例を示す説明図である。
【図18】タグ情報の検索方法の一例を示す説明図である。(北緯35度)
【図19】タグ情報の検索方法の一例を示す説明図である。(北緯60度)
【図20】再生装置の機能構成を示すブロック図である。
【図21A】タグ情報検索動作を示すフローチャートである。
【図21B】タグ情報検索動作を示すフローチャートである。
【図22】映像へのタグ情報の投影についての説明図である。
【図23】情報処理システムを適用したサービスの一例である。
【図24】情報処理システムを適用したサービスの他の一例である。
【発明を実施するための形態】
【0023】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0024】
なお、説明は以下の順序で行うものとする。
1.概要
2.構成
3.リレーショナルデータベースによるタグ情報管理方法
4.キーバリュー型データストアによるタグ情報管理方法
5.効果の例
6.適用例
【0025】
<1.概要>
まず、本発明の一実施形態形態に係る情報処理システム10の概要について図1〜図3を用いて説明する。図1は、本発明の一実施形態に係る情報処理システム10の概要構成を示す構成図である。また、図2は、撮像装置において記録される撮影付帯情報の一例を示す表である。図3は、情報処理システム10の効果の一例を示すための説明図である。
【0026】
本実施形態に係る情報処理システム10は、映像コンテンツを撮影する撮像装置200と、ユーザの操作に応じて、撮像装置200から取り込んだコンテンツ3000に対してタグを付与する操作等を受付ける情報処理装置である端末装置300と、付与されたタグの情報に、コンテンツが撮影されたときの視界空間を特定するための視界情報を付加したタグ情報を生成する情報処理装置であるタグ情報生成サーバ100を有するデータセンタ1000と、データセンタ1000により管理されるタグ情報を利用して映像にタグを重畳して再生する再生装置400と、を有する。データセンタ1000内の各装置と、端末装置300、及び再生装置400とは、それぞれネットワーク500を介して接続される。
【0027】
データセンタ1000には、動画共有サービスを提供するためのサーバ群が設置されている。端末装置300は、データセンタ1000内の図示しない映像配信サーバに対して映像コンテンツをアップロードすることができる。また、再生装置400は、データセンタ1000内の映像配信サーバから配信される映像コンテンツをダウンロードして再生することができる。
【0028】
ユーザは、撮像装置200を端末装置300にUSB(Universal Serial Bus)等を用いて接続し、端末装置300のアプリケーションソフトウェアにより映像3000のコンテンツデータを撮像装置200から取込む。このとき、端末装置300は、映像3000のコンテンツデータと共に、映像3000に付帯する撮影情報を取込む。そして、ユーザは、端末装置300により映像3000及び映像3000に付帯する撮影情報をデータセンタ1000内の映像配信サーバにアップロードする。また、ユーザは、端末300により、映像3000に対してタグ600を付与することもできる。そして、ユーザは、端末装置300により映像3000に付与したタグ600の情報、例えば、映像上のタグ600の位置及びタグ600の文字列情報などを、データセンタ1000内のタグ情報生成サーバ100にアップロードする。
【0029】
ここで、撮像装置200は、例えばGPS及び電子コンパスの機能を有し、撮影した映像に付帯する撮影情報として、撮影日時及び焦点距離などの撮影条件のみならず、位置情報及び方位情報を記録することができる。AVCHD規格に基づくビデオカメラにおいては、MPEG2−TSのエレメンタリストリーム(ES)の中のユーザデータとして記録されたモディファイドデジタルビデオパックに、例えば図2に示す撮影情報が記録されている。この撮影情報は、所定時間間隔で定期的に記録される。
【0030】
端末装置300は、ここでは1台のみ示されているが、データセンタ1000は、多数の端末装置300からのアクセスを受付けることができる。また、再生装置400に関しても同様に、多数の再生装置400がデータセンタ1000にアクセスすることが想定される。
【0031】
そして、再生装置400は、映像3000と同じ視点及び同じ視界で撮影された他の映像4000にタグ600が重畳された映像を再生する。図1の例においては、「Mt.Fuji over Lake.Motosu」という文字列情報を有するタグ600が、映像4000に重畳されて再生される。
【0032】
このようなタグ600が示す情報は、映像3000が撮影された視点から同じ視界空間を撮影した映像上で意味をなす情報である。つまり、本栖湖越しに富士山が見える映像上でなければ、たとえ富士山が被写体として写っている映像であっても、かかるタグ600を表示することは望ましくない。例えば、図3に示す映像4005は、御殿場から撮影された富士山の映像である。この場合、映像4005には、本栖湖は映っていない。このため、タグ600を表示させることは望ましくない。また、映像4010は、映像3000の撮影位置よりも富士山頂に近い位置から撮影された映像である。この場合には、映像4010と映像3000とが同じ方角から撮影した映像であっても、映像4010にタグ600を表示させることは望ましくない。また、映像4015は、映像3000と同じ撮影位置から撮影された映像である。ところが、映像4015は、映像3000とは撮影条件が異なり、映像3000よりも近景を撮影した映像である。この場合にも、本栖湖は映像4015中に映っていないため、タグ600を表示させることは望ましくない。
【0033】
従来のシステムは、タグを被写体の地上の3次元空間座標にラベリングしていた。この場合、富士山の地上の3次元空間座標位置は同一であるため、図3に示される映像4005、映像4010、映像4015のような映像に対しても、タグ600が重畳されていた。しかし、上述の通り、タグ600は、同じ視点からの同じ視界空間を撮影した映像上で意味をなす情報である。本実施形態に係る情報処理システム10は、このタグを撮影映像の視界空間上の座標位置に関連付けて管理する。このため、視点及び方位の異なる映像4005、視点の異なる映像4010、並びに、視点及び方位は同じであるが撮影条件が異なるため視界空間の異なる映像4015に対してはタグ600が重畳されることはない。
【0034】
このため、単純に対象物の名称だけでなく、その視点からのある視界空間から見える複数の対象物の位置関係において意味をなす情報をタグとして共有することができる。
【0035】
なお、ここでは、撮像装置200としてビデオカメラを示したが、本発明はこれに限られない。撮像装置200は、例えば携帯電話、携帯用音楽再生装置、携帯用映像処理装置、携帯用ゲーム機器など、撮像機能を有する装置であればあらゆる機器であってよい。また、端末装置300は、PC(Personal Computer)である場合が例示されているが、本発明はかかる例に限られない。例えば、端末装置300は、家庭用映像処理装置(DVDレコーダ、ビデオデッキなど)、PDA(Personal Digital Assistants)、家庭用ゲーム機器、家電機器、携帯電話、携帯用音楽再生装置、携帯用映像処理装置、携帯用ゲーム機器など、通信機能及びユーザが操作入力する入力部を有する情報処理装置であってもよい。或いは、撮像装置200が通信機能を有し、データセンタ1000内の各装置と通信することができる場合には、撮像装置200自体が端末装置300の機能を併せ持っていてもよい。
【0036】
ここでいうコンテンツは、映像コンテンツであり、静止画像コンテンツであってもよく、動画像コンテンツであってもよい。なお、再生装置400は、データセンタ1000により提供される映像共有サービスにより配信される映像にタグを重畳して再生させることとしたが、本発明はかかる例に限られない。例えば、再生装置400は、ローカルな記憶部に保有する映像コンテンツに対してタグを重畳して再生させてもよい。或いは、再生装置400は、撮像機能も併せ持つ装置であって、リアルタイムに撮影中の映像に対してタグを重畳させてもよい。
【0037】
以上説明したように、本実施形態に係る情報処理システム10は、タグをコンテンツが撮影された視点からの視界空間上の座標位置と関連付けて管理する。このため、再生装置400においては、同じ視点からの同じ視界空間上に関連付けられたタグしか重畳されない。このため、このタグ情報を用いる再生装置400は、所定の撮影条件により、映像を撮影した撮影位置、及び映像を撮影した方位から見た映像中においてしか意味を成さない情報を適切に表示することができる。かかる効果を奏するための、タグ情報生成装置100の機能構成について、次に説明する。
【0038】
<2.構成>
図4は、タグ情報生成装置100の機能構成を示すブロック図である。タグ情報生成装置100は、通信部110と制御部120とを主に有する情報処理装置である。タグ情報生成装置100は、映像の解析結果よりタグ情報を生成する。
【0039】
ここで、タグ情報生成装置100において生成されるタグ情報は、撮影位置の情報を含む撮影情報、撮影位置からの視界に関する視界情報、撮影位置の情報と視界情報とに基づいて特定される視界空間における座標位置、及び、タグの情報の内容を示す文字列情報、を含む情報である。
【0040】
このようなタグ情報を生成するために、タグ情報生成装置100の制御部120は、視点情報取得部121、視界情報取得部122、及びタグ情報生成部124の機能を主に有する。
【0041】
視点情報取得部121は、コンテンツを撮影する撮像装置の位置(以下、視点位置という。)を示す視点情報を取得する。視点情報取得部121は、例えば、映像のコンテンツデータに付帯した撮影条件を示す情報である撮影情報から視点情報を取得する。撮影情報は、上述の通り、撮像装置200の機能により記録される情報である。視点情報取得部121は、例えば、端末装置300からアップロードされた映像を記憶する映像配信サーバに保存された映像のコンテンツデータに付帯する撮影情報から視点情報を抽出して取得する。或いは、視点情報取得部121は、映像をアップロードする端末装置300から直接、映像のコンテンツデータを取得して視点情報を取得してもよい。
【0042】
ここで視点情報は、例えば、世界測地系で表され、GPSなどの位置取得装置から取得した経度、緯度、高度の情報である。また、視点情報は、位置情報の誤差精度の情報を含んでいてもよい。
【0043】
視界情報取得部122は、視点位置からコンテンツを撮影したときの視界空間を示す視界情報を取得する。視界情報取得部122は、例えば、映像のコンテンツデータに付帯した撮影情報から視界情報を取得する。
【0044】
ここで視界情報は、例えば、視点位置からの方位、視野角の情報などを含む。例えば視点位置からの方位は、撮像装置の有する電子コンパスにより取得した方位情報が用いられる。視野角の情報は、撮像装置の設定に応じた値となる。方位及び視野角の情報は、映像のコンテンツデータに付帯した撮影情報から取得される。
【0045】
タグ情報生成部124は、視点情報、視界情報、及び視界空間の奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成する。タグ情報生成部124は、例えば、通信部110を介して端末装置300から取得したタグの文字列情報、及び、映像中のタグ位置の情報と、視点情報及び視界情報と、視点からタグを付与する対象物までの距離の情報とを含むタグ情報を生成する。
【0046】
ここで、視界空間の奥行き情報は、コンテンツにおいて撮影された被写体までの距離である。被写体距離は、例えばコンテンツに付帯する撮影情報から被写体距離の値が取得できる場合には、取得される被写体距離の値が用いられる。また、コンテンツの撮影情報に基づいて算出される過焦点距離が用いられてもよい。
【0047】
以上説明したタグ情報生成装置100の各部の詳細な動作については、タグ情報の管理方法によって異なる。ここで、本実施形態においては、タグ情報の管理方法において、現在、最も一般的に用いられているリレーショナルデータベースによる管理方法と、より大規模なデータの管理や分散処理に適したキーバリュー型のデータストアによる管理方法の2つの管理方法について、それぞれ次に説明する。
【0048】
<3.リレーショナルデータベースによるタグ情報管理方法>
まずは、リレーショナルデータベースによるタグ情報管理方法について、図5及び図6を用いて説明する。図5は、タグ情報をリレーショナルデータベースにより管理する場合におけるタグの空間モデルの一例を示す説明図である。図6は、図5の空間モデルにより定義されたタグ情報を管理するリレーショナルデータベースのテーブル定義の一例を示す説明図である。
【0049】
上述の通り、本実施形態においてタグは、タグを付加する映像を撮影した撮像装置の位置である視点を基準として映像の視界の3次元空間上にラベリングされる。視点は、世界測地系で表された経度、緯度、高度の情報であり、この場合緯度N1,経度E1,高度A1である。視界の3次元空間上の位置は、撮影方向ベクターを軸に、撮影映像の中点を合わせて直交配置した2次元の視野平面を水平画角、及び視点からの距離により規定し、この視野平面上の位置で表される。
【0050】
この視野平面の座標は、水平X軸、垂直Y軸で規定され、中点を(0,0)とし、画像の水平方向の解像度Wは、画像の横解像度となる。タグの視野平面上の位置は、(X,Y)にて表される。
【0051】
タグを他の映像と共有し、重畳して用いるためには、映像の視点位置、視野角、方位、視点からタグを付加する対象物までの距離が近いことを条件として、データベースから検索することにより実現することができる。位置情報、及び方位情報に加えて、視野角及び視点からの距離によりタグ情報を検索できるようにすることは、視聴者の注目している被写体に対するタグ情報であるか否かを判断する上で重要である。
【0052】
次に、このような空間モデルにより定義されたタグ情報を管理するリレーショナルデータベースのテーブル定義の一例を図6を参照しながら説明する。図6の表の各行は、情報タグの1レコードを示す。そして、表の列は、視点情報、視界情報、情報タグの3つに分類される。
【0053】
視点情報は、経度、緯度、高度、及び誤差の列を有する。緯度は、浮動小数点の−90度から90度の範囲の値をとり、北緯は正の値で表され、南緯は負の値で表される。また、経度は、浮動小数点の−180度から180度の値をとり、東経は正の値で表され、西経は負の値で表される。高度は、整数で表されるメータ値である。そして誤差は、位置情報の精度をメータ値で表した値である。誤差は、GPSの場合には、DOP(Dilution of Precision)の値から算出する。誤差が不明な場合には、−1の値を入れる。
【0054】
視界情報は、方位、視野角、高さ、及び幅の列を有する。方位は、撮影方向の方角を示す。この方位の値は、浮動小数点により0−360度の値をとり、北は0度(360度)として、東は90度、南は180度、西は270度で表される。また、視野角は、浮動点小数の度数で表される。高さ及び幅は、撮影映像の縦横の解像度であり、ピクセル値で表される。例えば、フルハイビジョンの映像であれば、解像度は縦1920、横1080である。映像の解像度は、コンテンツデータに付帯する撮影情報から取得することができる。視野角を2θとした場合、以下の関係から求まる。
【0055】
tanθ=(撮影素子体格サイズ)/(焦点距離)
【0056】
情報タグは、距離、X座標値、Y座標値、タグ名の列を有する。距離は、視野空間上の視点からの距離であり、整数によりメータ単位で表される。X座標値およびY座標値は、図5において説明した視野平面状の位置であり、ピクセル値で表される。タグ名は、タグの名前が文字列により表される。タグの名前は、タグによって共有したい情報である。
【0057】
なお、タグの距離は、タグ毎に計測することはできない。このため、簡易的に、撮影画像の被写体距離がタグの距離として用いられる。被写体距離は、動画の場合には図2に示す撮影付帯情報、また、静止画の場合には、EXIFファイルに記録された画像情報の被写体距離タグの値が用いられてもよい。被写体距離がこれらの情報から取得できない場合には、以下の式を用いて算出した過焦点距離をタグの距離として用いることができる。
【0058】
許容錯乱円径=画像素子対角サイズ÷許容錯乱円定数(=1300)
過焦点距離=(焦点距離×焦点距離)÷(許容錯乱円径×F値) [単位:mm]
【0059】
EXIF情報に35mm換算の焦点距離 FocalLengthIn35mmタグが記録された場合は、35mmFilmにおいて撮像素子の対角サイズは43.266615mmであることは既知である。このため、ApertureValueタグに記録された絞りF値を用いて過焦点距離が算出される。
【0060】
或いは、タグの距離は、撮影映像を解析して各被写体のフォーカス距離を測定技術を用いて測定された距離が用いられてもよい。また、タグの距離は、例えば3Dカメラのように視差情報を記録できる装置が用いられた場合には、この情報を用いて解析により求められた値が用いられてもよい。
【0061】
以上のように、図5の空間モデルに従って、図6のテーブル定義のリレーショナルデータベースを利用することで画像に付加したタグを管理することができる。ところが、このようなリレーショナルデータベースは、大規模なデータの管理、および分散処理が行いづらいという特徴がある。そこで、管理する対象となる情報量が多くなった場合に好適なクラウドコンピューティングの技術を適用してタグ情報を管理する方法について、次に提案する。
【0062】
<4.キーバリュー型データストアによるタグ情報管理方法>
図7は、本実施形態に係るコンテンツ共有サービスを提供するためのデータセンタ内の構成図である。映像コンテンツの共有サービスを提供するためには、アップロードされた多量の映像コンテンツデータの画像変換処理、記録管理、及び大勢の利用者からの映像コンテンツデータへのアクセスを処理する必要がある。このため、大規模な分散処理型のクラウドコンピューティング技術を利用したタグ情報管理方法を提案する。
【0063】
データセンタ1000は、複数のWebサーバ170、複数の映像配信サーバ180、複数のタグ情報管理サーバ190、及び複数のタグ情報生成サーバ100を有する。
【0064】
Webサーバ170は、端末装置300のブラウザに表示されるHTMLドキュメント及びVR情報を提供する。映像配信サーバ180は、映像を再生装置に配信する。また、タグ情報管理サーバ190は、タグ情報生成サーバ100が生成したタグ情報をKey−value型データストアに管理する。タグ情報生成サーバ100は、Key−value型データストアにて管理するのに適したタグ情報を生成する。大量のコンテンツデータ及び端末装置からのアクセスを拘束に処理するためにはクラウドコンピューティングの技術を利用することは有益であり、本実施形態においては、分散型のクラウドコンピューティングに適するといわれているKey−value型のデータストアを利用してタグ情報を管理する方法を用いる。
【0065】
Key−value型のデータストアは、図8に示されるように、キーと値の組を行としたシンプルなテーブルによりデータを管理する。Key−value型のデータストアは、リレーショナルデータベースと比較して、複雑なデータ構造定義やリレーショナル機能を利用した検索をサポートしない代わりに、キーの値に基づいて、複数のサーバで大量なデータを分散処理することができる特長を有する。このようなKey−value型のデータストアは、近年、大規模な数のクライアントを対象としたインターネットサービスにおいて利用され始めている。
【0066】
Key−value型のデータストアにおいては、テーブルは、キーの値によりソートされて管理される。このため、高速に、且つ、低負荷にて処理を行うためには、関連するデータは、テーブルの一部に局所化されるようにキーの値の形式を工夫することが非常に有効である。
【0067】
(空間モデル)
図9は、本実施形態において、Key−value型のデータストアによりタグ情報を管理する場合に用いるタグの空間座標について示す空間モデルである。本空間モデルにおいて、タグの位置情報は、視点位置情報(緯度LANT、経度LNGT、高度ATTT)、及び視点位置からの方位情報(水平方位角θTH、垂直方位角θTV)により示される。
【0068】
図5に示した空間モデル上の座標から、図9に示される空間座標への変換は、以下の式により行われる。なお、方位が真北を跨る場合には補正が必要である。
【0069】
タグの水平方位角:θTH=θFH+θFW×(XT/WF−1/2)
タグの垂直方位角:θTV=θFV+(θFW×HF/WF)×(1/2−YF/HF)
【0070】
このとき、各記号は以下の意味を有する。
タグの画像面上の座標: (XT,YT)
画像の撮影水平画角: θFW
画像の水平画素数: WF
画像の垂直画素数: HF
画素アスペクトレシオ: 1:1
画像の撮影水平方位角: θFH
画像の撮影垂直方位角: θFV
【0071】
なお、垂直方向の方位角情報は、真下を基点として0から180度までの値をとる。ここでは、説明の便宜上、水平を0度上空方面を正とし、地面方面を負として表記している。方位角情報が、コンテンツデータに付帯する撮影情報に含まれておらず不明な場合には、画角及び被写体距離から、垂直方位角を簡易的に割り当ててもよい。
【0072】
(ViewHash)
タグ情報をKey−value型データストアにより管理する場合には、視点情報及び視界情報をキーの一部に用い、これらの情報によりデータを検索することができるようにする必要がある。このため、今回提案するViewhashを用いることにより、経度、緯度、位置精度、視野角、視野方向、及びタグの距離を効率よく文字列に符号化することができる。
【0073】
Viewhashの構成が図10に示される。Viewhashのビット列は、位置情報、位置精度、視界情報、及びタグまでの距離としての被写体距離を示すビット列が順に並ぶ。位置情報のビット列は、経度(−90度から90度)、緯度(−180度から180度)、の座標を、分解精度にて表した値から生成する。分解精度のビット数R、ビットの経度n、緯度eとすると、分解精度にて表した経度Nおよび緯度Eの値は以下の式から求める。
【0074】
N=180×(n+90)/2R−1
E=360×(e+180)/2R
【0075】
NおよびEの値は、浮動点小数であり、小数点以下は切り捨てて、n、およびeは整数値とする。なお、分解された地図上の区画を正方に近づけるために、経度の分解精度は、緯度の分解制度の1/2となるようにしてある。
【0076】
位置情報のビット列は、図10に示したように、先の式で求められた経度のビット列(E−bn,E−bn−1,・・・E−b1,E−b0)および経度のビット列(N−bn−1,・・・N−b1,N−b0)を交互に配置した形式である。ここで、最上位ビットはそれぞれE−bn及びN−bn−1である。
【0077】
位置情報のビット列をこのような形式にすることによって、地球上の地理区画を特定することができ、少ないビット列により区画の位置を示すとともに、区画の長さも表すことができる。本実施形態においては、GPSの位置精度が1meterから100meterであることを考慮して、Rは22から25の値を用いる。このとき位置情報は、最小で43ビット、最大で49ビットとなる。
【0078】
図11は、位置情報のビット数が45ビットである場合の、分割される地理区画の例を示す説明図である。この地理区画の南北方向の長さは、経度にかかわらず一定であり、約4.75メータとなる。一方、地理区画の東西方向の長さは、緯度に依存して、例えば、東京などの緯度が35度の付近においては3.86メータとなる。これに対してストックホルムなどの緯度が60度の付近においては、地理区画の東西方向の長さは、約2.35メータとなる。
【0079】
位置精度は、位置情報のビット列により特定された地理区画の南北方向の距離の何倍であるかをビット列により表し、D−b7が最上位ビット、D−b0が最下位ビットである。位置情報のビット列により特定された地理区画の南北方向の距離の1倍であった場合には、ビット列の値は0、位置情報のビット列により特定された地理区画の南北方向の距離の1倍超2倍以下の場合には、ビット列の値は1、位置情報のビット列により特定された地理区画の南北方向の距離の2倍超4倍以下であった場合には、ビット列の値は3、位置情報のビット列により特定された地理区画の南北方向の距離の4倍超であった場合には、ビット列の値は4となる。位置誤差のビット数を0とする。
【0080】
視界情報は、タグの方位がどの視界に属するかを示す情報である。図12及び図13に示すように、視界情報は4−6ビット列であり、真東を起点として時計回りとした方位を360度の座標を分解精度で除した値をビット列で表す。真東を起点として時計回り表した方位の度数をd、分解精度のビットの精度をAとしたとき、視界情報Dは以下の式にて算出される。なお、以下の説明では便宜のため、方位は真北を起点として表記しているが、実際にはすべて、真東を起点として変換した値を用いる。
【0081】
D=360×d/2A
【0082】
本実施形態においては、分解精度のビット数は4、5、6の3通りとし、視野角に応じて異なるビット数が用いられる。ビット数により360度の空間が、それぞ22.5度、11.25度、8.125度に分割される。本実施形態においては、タグが付加された画像の撮影画角に応じてビット数を変え、画角が46度以上の場合は4ビット、46度未満18度以上の場合は5ビット、18度未満は6ビットの精度が割り当てられ、360度の空間がそれぞ22.5度、11.25度、8.125度に分割された方位のどれに属するかを示す。図12は、4ビットの場合の各方位のビット数が示されている。たとえば情報タグの水平方位が北北西は315度であった場合は、視野情報は、1101のビット値となる。なお、方位情報が不明の場合、ビット数は0とする。
【0083】
このように、視野角に応じて視界情報のビット数を異ならせ、このビットにより示される視界情報をKey−value型データのキーの一部として用いることによって、キーに含まれる視界情報のビット数から視野角の情報を把握することができるようになる。視野角の情報を把握することができることにより、より正確に各映像コンテンツ内に撮影されている範囲を知ることができるようになる。
【0084】
被写体距離は、メータ値の8ビットにて表され、上述のようにコンテンツデータに付帯する撮影情報に基づいて、被写体までの距離を求めた値として用いる。厳密には撮影画の過焦点距離とタグ情報の距離は一致しないが、もともと距離情報には誤差が含まれているものとして扱う。距離が255メーター以上のものは255とし、距離情報が不明の場合はビット数は0とする。
【0085】
図14は、位置情報のビット数の割り当て方式を示した説明図である。Key−value型データストアのKeyによる検索を効率良くするために、タグ情報の検索方式に適するようにKey値を決めることは有効である。本実施形態においては、タグの視野のビット数および距離情報によってタグのKey値を構成するViewHashの位置ビット数を変える。例えば、視界情報のビット数が3の場合は、タグが付加された映像は広角でとられたものであり、かつ、被写体距離が遠方(100m超)であった場合は、位置情報の精度が悪い場合でもタグ情報を利用することができるので、位置情報のビット数は43ビットを用いる。一方、視野情報のビット数が5、つまり、超望遠で撮影した映像に付加したタグ情報であれば、位置情報の精度も要求されるため、すべての距離において位置情報のビット数は49ビットを用いる。このように位置情報のビット数の割り当てを変えることで、有益なタグ情報の検索を効率よくおこなうことが可能である。前述のように、タグの位置誤差は位置情報のビット数に依存するので、比較対照の視点の位置精度によって、タグ情報の検索で用いるViewhashの位置情報のビット数を決定できる。なお、タグの検索については詳しくは後述する。
【0086】
上記のように、ViewHashを構成する各ビット列は求めることができる。ところが、Key−value型のデータストアのKeyの値として用いる場合、又は、URLなどとして用いるためには文字列で表記した方が扱い易い。このため、ビット列を文字列に符号化する。ビット列を文字列に符号化するためには、例えばBASE64を利用する方法がある。しかし、本実施形態においては、各ビット列に依存させてKey値でデータがソートできるようにするために、可変ビット列文字符号変換方式を提案する。
【0087】
ここで提案する可変ビット列文字符号変換方式は、可変長のビット列をつなげてキーを生成する場合に、各ビット列の区切りを判別することができるという特長を有する。このため、本方式を用いて符号文字に変換したビット列は、そのまま連結させた場合であっても、各情報の区切りを判別することができる。このため、Key−value型データストアのキーとして用いる場合に、各情報の値に基づいて検索することが可能となる。
【0088】
図15に可変ビット列符号化変換表の一例を示す。本変換方式は、情報が複数の可変長ビット列(0ビット以上)から構成されており、それらビット列の境界を識別する場合に有効である。この変換方法について説明する。各可変長ビット列は最上位ビットから4ビット単位にてフラグメントを順次切り出し、その4ビット値に対応した文字コード(Uからz)にて置き換える。もし、切り出すフラグメントのビット数が4に満たない場合は、3ビット、2ビット、1ビット、それぞれに文字コード(EからT)、(6からD),(2から5)、(0,1)にて置き換える。また、最後の切り出したフラグメント4ビット、もしくは該当のビット列のビット数が0であった場合は、文字コード−(ダッシュ)を追加する。なお、ここで示す変換表は一例であることは言うまでもない。ビット列と符号文字とが1対1に対応するように規定されるものであれば、各種の変形例が考えられる。
【0089】
図16に変換の例を示す。変換前の情報が2つのビット列から構成され、それぞれ「01111010010010」と「10010」であった場合、変換後の文字列は”im8W−“となる。この変換方式により図10で示されるViewHashの値としては文字列に変換したものを用いる。
このViewhashによって、任意の精度で分割された地球座標上の区画の中心を視点として、任意の精度にて分割された視野の3次元空間を一意に特定することが可能になるが、このViewHashを利用してタグ情報をKey−value型データストアで管理する方法について説明する。
【0090】
次に、本実施形態におけるKey−value型データストアのテーブルについて説明する。本実施形態において使用するKey−value型データストアのテーブルは、図8に示したようにKey値とValueの値の対をなす。図17には、タグ情報をKey−Value型のデータとして管理するために用いるJava(登録商標)クラスの定義が示される。Tagクラスはタグ情報を表し、インナークラスであるKeyクラスとValueクラスから構成される。KeyクラスとValueクラスとの対がKey−valueとしてデータストアで管理される。
【0091】
Keyクラスの実データは、変数Keyであり、Keyはタグ情報から生成したViewHashと文字列Typeと文字列TimeStampを連結した文字列である。Typeは、同じViewHashの値のTag情報が適切にソートされるために用いられ、本実施例ではタグ表示する優先度をType値とし0ビットの優先値を図15の変換表にて生成した文字列である。同じViewHash値のタグ情報にユニークなkeyを割り当てるのを主目的としており、タグが生成された日時をJava(登録商標)のDateクラスと同じ8バイトの値で求め、それを図15の変換表を用いて文字列に生成したものである。
【0092】
Valueクラスの実データは以下の変数である。
【0093】
name: タグの名前を文字列
type: タグ表示の優先度 (Key生成に使用しものと同じ値)
timeStamp: タグの生成日時 (Key生成に使用しものと同じ値)
tagPosition: タグの視点の位置 (例: 図10の LANT, LNGT,ATTTなど)
tagDirection: 視点からのタグの方位(例: 図10のθTH、θTV)
tagSource: タグ情報を生成した基となる画像情報とタグの画面情報座標
【0094】
また、TagSourceクラスの実データは以下の変数である。
【0095】
imageSource 画像情報
tagX: 画像面でのタグのX座標値 (例:図10のXT)
tagY: 画像面でのタグのY座標値 (例:図10のYT)
【0096】
また、ImageSourceクラスの実データは以下の変数である。
【0097】
url:画像ファイル(動画、静止画)のURL(Unique Resource Locator)
imagePosition:画像撮影した視点の座標(例: 図9ではLANT, LNGT,ATTTなどに同じ)
imageDirection:視点から画像の中点への方位(例:図9ではθFH 、θFV)
scene:画像ファイル(動画、静止画)の画像情報
【0098】
そして、Sceneクラスの実データは以下の変数である。
【0099】
frame; 静止画の場合は0、動画の場合は画像フレームを先頭からの時間(ミリ秒)で表記
angleHorizontal: 画像の撮影水平画角 (例:図9の θFW )
width: 画像の水平画素数 (例:図9のWF)
height: 画像の垂直画素数(例:図9のHF )
【0100】
ViewPositionの実データは以下の変数である。
【0101】
latitude; 視点の緯度
longitude; 視点の緯度
altitude; 視点の高度(ミリメータ単位)
range: 視点の誤差(ミリメータ単位)
【0102】
ViewDirectionの実データは以下の変数である。
【0103】
directionHorizaontal: 視点から対象点への水平方位
directionVertical; 視点から対象点への垂直方位
distance; 視点から対象点への距離(ミリメータ単位)
【0104】
次に、図18及び図19は、タグ情報の検索の例について示した説明図である。図18は、視点の位置(東京と同じ北緯35度)から画角50度にて真北を撮影した場合を示しているが、この視界に含まれるタグ情報を検索するには、視野の方位、画角を図13に示す視界情報ビットによって特定される視野毎にタグを探す。この例では視野は25度に分割された4つの視野分割に対する検索を行う必要がある。また、視野位置の測定誤差は位置情報ビットにて特定される区画の南北方向の長さ以下であったとしても、区画の縁に視点位置がある場合には誤差によって、実際はその周辺の区画に位置している場合もある。このため、特定された区画の周辺の区画も検索する必要があり、誤差が3mの場合であれば、合計9個の区画を検索する必要がある。この場合、検索としては4*8=32の操作を行ことになる。
【0105】
図19の例では、視点の位置がストックホルム近郊の北緯60度の例を示してある。この場合は、区画の東西方向が先の場合より短くなるので、同じ位置誤差精度であったとしてもより、広い範囲の区画の検索が必要である。
【0106】
このような検索処理を行う再生装置の機能構成について、次に説明する。図20は、再生装置400の構成を示すブロック図である。再生装置400は、通信部410と、制御部420と、表示部430とを主に有する。制御部420は、解析部421の機能と、検索部422の機能と、重畳部423の機能と、表示制御部424の機能とを主に有する。
【0107】
通信部410は、インターネットなどのネットワーク500を介して他の装置と通信するためのネットワークインタフェースである。また、制御部420は、再生装置400全体の動作を制御する。表示部430は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置により構成される。
【0108】
解析部421は、再生装置400が再生するコンテンツを解析する機能を有する。解析部421は、例えば、検索部422がタグ情報を検索するために必要な情報を、コンテンツデータに付帯する撮影情報を解析することにより取得する機能を有する。また、必要に応じて、解析部421は、コンテンツの映像そのものを解析する機能を有していてもよい。
【0109】
検索部422は、再生するコンテンツデータに重畳するタグの情報を、データセンタ1000内のデータベースから検索する機能を有する。ここでは、検索部422は、Key−value型のデータストアに記憶されたタグ情報を検索するために適した検索条件を生成して、データセンタ1000内のタグ情報管理サーバ190に送信し、検索結果を取得する。タグ情報検索処理の詳細については、次に図21を用いて説明する。
【0110】
重畳部423は、検索部422が取得したタグ情報から、再生する映像コンテンツにタグを重畳させる処理を行う。この重畳処理の詳細については、後述される。また、表示制御部424は、コンテンツデータを再生する機能を有し、重畳部423によりタグが重畳されたコンテンツデータを再生する。
【0111】
図21は、タグ検索の動作を示すフローチャートである。Key−value型のデータストアでは、Keyの値の先頭と終わりを指定して、その範囲のKey値の配列を得ることができる。このため、撮影された画像の位置情報、方位、および、撮影された画像の被写体距離の範囲から、ViewHashBeginとViewHashEndによるKey−value型データストアの検索を、視界と区画の分だけ検索を繰り返す。ただし、先に述べたようにKey−value型データストアでは分散処理が容易に行えるようになっている。このため、検索要求は並列に行えば、分散して処理することも可能である。
【0112】
タグ情報検索処理は、まず、再生装置400が、対象とする映像の撮影情報を取得することにより始まる(S103)。そして、検索部422は、取得された撮影情報の画角の情報から視野ビット数を決定する(S106)。次に、検索部422は決定した視野ビット数と、撮影情報より得られた距離の情報から、検索するグリッドの位置ビット数を決定する(S109)。
【0113】
そして次に、検索部422は、測定誤差の値が、グリッドの南北の幅以下であるか否かを判断する(S112)。ステップS112における判断により、測定誤差がグリッドの南北幅より大きいと判断された場合には、検索対象のグリッドを特定することができないため、Bに進んで処理を終える。
【0114】
一方、ステップS112の判断により、測定誤差がグリッドの南北幅以下であると判断された場合には、次に、検索部422は、検索するグリッドの位置情報を算出して配列にセットする(S115)。そして、検索部422は、画角及び視野ビット数から対応する視界を算出して配列に入れる(S118)。
【0115】
そして、検索部422は、結果を保存するTags[]配列を初期化し(S121)、距離精度の値を0にする(S124)。そして、次に図21Bに進み、検索部422は、最初のViewPositionを選択し(S127)、検索する距離範囲を決定する(S130)。
【0116】
そして、検索部422は、ViewHashBeginを算出し(S133)、ViewHashEndを算出する(S136)。そして、検索部422は、ステップS133及びステップS136において算出されたViewHashBeginとViewHashEndの間の範囲のタグを検索する。
【0117】
具体的には、検索部422は、検索条件を生成して、タグ情報管理サーバ190に送信する。そして、検索部422は、送信した検索条件に合致する検索結果を取得する。検索部422は、取得した検索結果をTags[]に追加保存する。
【0118】
そして、全てのViewDirectionを検索したか(S142)及び全てのViewPositionを検索したか(S144)が判断され、全てについて検索が完了するまでステップS130からの処理が繰り返される。
【0119】
次に、再生装置400の重畳部423により行われる重畳処理について図22を参照しながら説明する。図22は、検索により得られたタグ情報を、他の映像に重畳する方法について示した説明図である。
【0120】
3辺の距離が既知である場合は、余弦定理より夾角は求めることができ、タグの視点座標および方位から、撮影視点からみた視野に投影したタグの方位は以下の式より求めることができる。
【0121】
投影されたタグの 水平方位角
θUH=θTH−cos−1(DU2+DS2−DDH2)/(2*DU*DS) where θSH>=θTH
θUH=θTH+cos−1(DU2+DS2−DDH2)/(2*DU*DS) where θSH<θTH
投影されたタグの垂直方位角θUv=θTv+cos−1(DU2+DS2−DDV2)/(2*DU*DS) where θSV>=θTV
θUv=θTv+cos−1(DU2+DS2−DDV2)/(2*DU*DS) where θSV<θTV
【0122】
ここで、情報は次の符号により示される。
タグの位置情報(LANT,LNGT,ATTT)
撮影地点の位置情報(LANS,LNGS,ATTS)
視点間の水平方向距離DDH
視点間の垂直方向距離DDV
タグの水平方位角θTH:
タグの垂直方位角θTV
タグの距離距離DT
被写体距離の距離DS
【0123】
DDHは2つの視点の水平距離であり、視点間の標高差がなく垂直距離DDVを0とすれば、DDHhは2点の経度、緯度からHubenyの公式によって距離を求めDDHhとする。DShは撮影された画像の被写体距離であり、ここでは過焦点距離が用いられ、DThはタグ情報の距離である。垂直距離DDV0としているので、投影された垂直方位角はタグの垂直方位角と等しくなる。
【0124】
検索されたタグを撮影された映像に投影する場合は、検索されたすべてのタグについて上記の座標変換を行い、タグの方位角が撮影の画角に収まるものだけを選択し投影する。また、タグ情報を元に、たとえば、前述のTypeに指定されている優先度が高いもののみ表示するなどフィルタリングして表示をおこなう。
【0125】
投影されたタグの水平方位角、垂直方位角が求まれば、撮影された映像の画像面での座標は以下の式で求めることができる。
【0126】
投影されたタグ位置Xs=((θUH−θSH)/θSW+1/2)*WS
投影されたタグ位置Ys=(1/2−(θUV−θSV)/(θSW*HS/WS))*HS;
【0127】
撮影映像の水平画角:θSW
撮影映像の水平画素数WS
撮影映像の垂直画素数HS
画素アスペクトレシオ1:1
撮影方向水平方位角θSH
撮影方向垂直方位角θSV:
【0128】
<5.効果の例>
以上のように、画像に付加されたタグ情報をKey−value型データストアで管理し、他の画像の撮影情報を投影可能なタグ情報を検索し、それらを重畳して表示する方法について示した。
【0129】
かかる構成によれば、ある視点位置からみた視界空間上の座標に関連づけられたタグ情報を生成し、共有して用いることができる。これにより、所定の撮影条件により、映像を撮影した位置、及び映像を撮影した方位から見た映像中においてしか意味を成さない情報を共有することができるようになる。
【0130】
また、このタグ情報を、視点の位置情報、視界情報、被写体距離、位置情報の誤差精度を簡潔に表現することのできるViewHashが新たに提案された。ViewHashを用いることにより、Key−value型のデータストアによりタグ情報を管理する場合において、タグ情報が大量となった場合であっても、高速に、軽い処理負荷で検索することができるようになる。
【0131】
<6.適用例>
次に、本発明の一実施形態形態に係るタグ情報の管理方法を適用することにより実現することのできるサービスの一例について説明する。
【0132】
例えば、図23は、ビデオカメラを用いて撮影された風景の映像に、リアルタイムにタグを重畳させて表示する例である。図1においては、重畳される映像は、予め撮影されて記憶された映像コンテンツであることとしたが、本発明はかかる例に限定されない。図23に示すように、撮影中の映像に対してリアルタイムにタグが表示されるようにしてもよい。
【0133】
また、上記実施形態においては、タグ情報は、インターネットなどのネットワークを介して取得することとしたが、本発明はかかる例に限定されない。例えば、撮像装置内の記憶部に予め訪問先の地域のタグ情報を記憶して出かければ、ネットワークに接続しなくてもタグを表示させることができる。
【0134】
或いは、図24は、地図情報と共に、予め撮影された映像にタグを表示させた映像4025を表示させる例である。タグ情報は、必ずしもリアルタイムの映像に重畳させることに意味があるわけではなく、見ている風景上の対象物が何であるかを知りたい場合には、過去の映像に重畳させて示してもよい。かかる構成によれば、撮像装置のレンズを被写体に向ける動作をしなくても、例えば携帯電話であればメールを打つ操作を行うときと同じ体勢で自然に所望の情報を得ることができる。リアルタイムの映像にタグを重畳させる場合には、必ず撮像装置のレンズを対象物に向けなくてはならないが、時と場所によっては、そのような動作をすることが困難な場合があるため、本構成は有効である。
【0135】
また、図24の装置は、写真を撮るのに適したスポットの情報をユーザに通知することも可能である。例えば、コンテンツデータを有する映像配信サーバ180において、記憶されたコンテンツデータの撮影位置を示す視点情報を解析することにより、このようなサービスを実現することができる。例えば、視点情報が多く集まるスポットは、写真を撮るのに適したスポットである可能性が高い。このため、撮影位置をお勧めする機能を提供するためにかかる情報が用いられてもよい。
【0136】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0137】
例えば、本実施形態においては、デジタルスチルカメラ、デジタルビデオカメラにGSP機能および方位機能を有して、その機能よってファイルに記録された撮影情報とその画像にユーザがPCにて付加したタグから、Key−value型データストアのデータを生成したが、対象物の座標位置およびそれに関わる情報、たとえば、山の名前などが分かっている場合には、コンピュータの処理によってある視点からのタグ情報を自動生成することも可能である。
【0138】
また、従来は、GPSの測定誤差によってタグ情報の座標に誤差が大きいタグ情報を利用できなかったが、本実施例によれば、タグ情報の付近の区画にある他のタグも容易に検索でき、また、タグ情報にはタグ生成の基となった画像の情報も得ることができる。このため、タグ生成の基となった画像を解析し、被写体が近似し、かつ、位置精度が正確な画像を近傍の区画から検索することで、タグの位置情報を補正することが容易に実現可能である。
【0139】
また、本実施形態においては、GPSの測定誤差によってタグ情報の座標に誤差が大きいタグ情報を利用できない場合が起こるが、本実施例によれば、タグ情報の付近の区画にある他のタグも容易に検索でき、また、タグ情報にはタグ生成の基となった画像の情報も得ることができるため、その画像を解析し、被写体が近似し、かつ、位置精度が正確な画像を近傍の区画から検索することで、タグの位置情報を補正することが容易に実現可能である。
【0140】
また、タグ情報の検索を行う映像の撮影した座標情報もGSPの測定誤差が大きい場合はタグ情報を利用できない場合が起こるが、撮影した座標情報から、その周辺の区画のタグ情報は容易に検索できる。このため、撮影した画像の情報とその撮影座標周辺のタグ情報の基となった画像の特徴量を比較することで、特徴量が近似した画像の座標を元に、撮影した画像の座標情報を補正することが容易に実現可能である。この方式は、実時間で撮影しているビデオカメラの位置情報の補正にも適応できる。
【0141】
また、上記実施形態においては、視界空間の奥行き情報は、コンテンツに付帯する撮影情報から取得する、又は過焦点距離が用いられることとしたが、本発明はかかる例に限定されない。例えば、タグの距離と同様に、あらゆる解析技術を用いて取得することのできる被写体までの距離を示すことのできる値が用いられてよい。
【0142】
尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
【符号の説明】
【0143】
100 タグ情報生成装置
110 通信部
120 制御部
121 視点情報取得部
122 視界情報取得部
124 タグ情報生成部
200 撮像装置
300 端末装置
400 再生装置
410 通信部
420 制御部
421 解析部
422 検索部
423 重畳部
424 表示制御部
430 表示部
500 ネットワーク
【特許請求の範囲】
【請求項1】
コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、
前記視点位置から前記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、
前記視点情報、前記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部と、
を備える、情報処理装置。
【請求項2】
前記視界情報は、前記視点位置からの撮影方向を示す方位と、視野角の情報とを含む、請求項1に記載の情報処理装置。
【請求項3】
前記奥行き情報は、前記コンテンツにおいて撮影された被写体までの距離であり、
前記タグ情報生成部は、前記コンテンツの撮影情報に基づいた被写体距離又は過焦点距離を前記奥行き情報として用いる、請求項2に記載の情報処理装置。
【請求項4】
前記タグ情報生成部は、前記視点情報及び前記視界情報を含むキーと、前記タグの文字列の値の情報及び前記視界空間上における前記タグの座標位置情報を含むバリューと、により示されるタグ情報を生成する、請求項1〜3のいずれか1項に記載の情報処理装置。
【請求項5】
前記タグ情報生成部は、前記コンテンツの撮影画角に応じたビット数で示される前記視界情報を含む前記タグ情報を生成する、請求項4に記載の情報処理装置。
【請求項6】
前記タグ情報生成部は、前記タグを付与する対象物との距離に応じたビット数により示される前記視点情報を含む前記タグ情報を生成する、請求項4に記載の情報処理装置。
【請求項7】
前記タグ情報生成部は、前記コンテンツの撮影画角に応じたビット数で示される前記視点情報を含む前記タグ情報を生成する、請求項6に記載の情報処理装置。
【請求項8】
前記タグ情報生成部は、少なくとも前記視点情報及び前記視界情報を各情報の境界の情報を保持する形式により文字列に変換し、変換して得られた文字列の値を前記キーの値として用いる、請求項7に記載の情報処理装置。
【請求項9】
前記タグ情報生成部は、前記各情報を所定の区切りビット列長で区切り、区切られることにより生成される各ビット列を、前記ビット列長内のビット列が取り得る全ての値を一意に特定する変換ルールに基づいて変換する、請求項8に記載の情報処理装置。
【請求項10】
前記視点情報は、前記視点の位置情報の誤差精度の情報を含む、請求項1に記載の情報処理装置。
【請求項11】
コンテンツデータに付帯する撮影情報から、前記コンテンツを撮影する撮像装置の位置である視点位置の情報を含む視点情報、及び、前記視点位置から前記コンテンツを撮影したときの視界空間を示す視界情報を取得する解析部と、
前記視点情報、前記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグ情報から、コンテンツに重畳させるタグの情報を検索する検索部と、
を備える、情報処理装置。
【請求項12】
コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、
前記視点位置から前記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、
前記視点情報、前記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部と、
を有するタグ情報生成装置と、
コンテンツデータに付帯する撮影情報から、前記視点情報及び前記視界情報を取得する解析部と、
前記視点情報および前記視界情報により特定される視界空間上の座標位置と関連づけられたタグ情報から、コンテンツに重畳させるタグの情報を検索する検索部と、
前記検索部により検索されたタグが重畳された映像を表示させる表示制御部と、
を有する再生装置と、
を備える、情報処理システム。
【請求項13】
コンピュータを、
コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、
前記視点位置から前記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、
前記視点情報、前記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部と、
を備える、情報処理装置として機能させるための、プログラム。
【請求項1】
コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、
前記視点位置から前記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、
前記視点情報、前記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部と、
を備える、情報処理装置。
【請求項2】
前記視界情報は、前記視点位置からの撮影方向を示す方位と、視野角の情報とを含む、請求項1に記載の情報処理装置。
【請求項3】
前記奥行き情報は、前記コンテンツにおいて撮影された被写体までの距離であり、
前記タグ情報生成部は、前記コンテンツの撮影情報に基づいた被写体距離又は過焦点距離を前記奥行き情報として用いる、請求項2に記載の情報処理装置。
【請求項4】
前記タグ情報生成部は、前記視点情報及び前記視界情報を含むキーと、前記タグの文字列の値の情報及び前記視界空間上における前記タグの座標位置情報を含むバリューと、により示されるタグ情報を生成する、請求項1〜3のいずれか1項に記載の情報処理装置。
【請求項5】
前記タグ情報生成部は、前記コンテンツの撮影画角に応じたビット数で示される前記視界情報を含む前記タグ情報を生成する、請求項4に記載の情報処理装置。
【請求項6】
前記タグ情報生成部は、前記タグを付与する対象物との距離に応じたビット数により示される前記視点情報を含む前記タグ情報を生成する、請求項4に記載の情報処理装置。
【請求項7】
前記タグ情報生成部は、前記コンテンツの撮影画角に応じたビット数で示される前記視点情報を含む前記タグ情報を生成する、請求項6に記載の情報処理装置。
【請求項8】
前記タグ情報生成部は、少なくとも前記視点情報及び前記視界情報を各情報の境界の情報を保持する形式により文字列に変換し、変換して得られた文字列の値を前記キーの値として用いる、請求項7に記載の情報処理装置。
【請求項9】
前記タグ情報生成部は、前記各情報を所定の区切りビット列長で区切り、区切られることにより生成される各ビット列を、前記ビット列長内のビット列が取り得る全ての値を一意に特定する変換ルールに基づいて変換する、請求項8に記載の情報処理装置。
【請求項10】
前記視点情報は、前記視点の位置情報の誤差精度の情報を含む、請求項1に記載の情報処理装置。
【請求項11】
コンテンツデータに付帯する撮影情報から、前記コンテンツを撮影する撮像装置の位置である視点位置の情報を含む視点情報、及び、前記視点位置から前記コンテンツを撮影したときの視界空間を示す視界情報を取得する解析部と、
前記視点情報、前記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグ情報から、コンテンツに重畳させるタグの情報を検索する検索部と、
を備える、情報処理装置。
【請求項12】
コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、
前記視点位置から前記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、
前記視点情報、前記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部と、
を有するタグ情報生成装置と、
コンテンツデータに付帯する撮影情報から、前記視点情報及び前記視界情報を取得する解析部と、
前記視点情報および前記視界情報により特定される視界空間上の座標位置と関連づけられたタグ情報から、コンテンツに重畳させるタグの情報を検索する検索部と、
前記検索部により検索されたタグが重畳された映像を表示させる表示制御部と、
を有する再生装置と、
を備える、情報処理システム。
【請求項13】
コンピュータを、
コンテンツを撮影する撮像装置の位置である視点位置の情報を取得する視点情報取得部と、
前記視点位置から前記コンテンツを撮影したときの視界空間を示す視界情報を取得する視界情報取得部と、
前記視点情報、前記視界情報、及び奥行き情報により特定される視界空間上の座標位置と関連づけられたタグの情報を生成するタグ情報生成部と、
を備える、情報処理装置として機能させるための、プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21A】
【図21B】
【図22】
【図23】
【図24】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21A】
【図21B】
【図22】
【図23】
【図24】
【公開番号】特開2011−244058(P2011−244058A)
【公開日】平成23年12月1日(2011.12.1)
【国際特許分類】
【出願番号】特願2010−111944(P2010−111944)
【出願日】平成22年5月14日(2010.5.14)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成23年12月1日(2011.12.1)
【国際特許分類】
【出願日】平成22年5月14日(2010.5.14)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]