映像配信装置
【課題】重要領域が含まれるようにズーム範囲が自動的に設定され、理想的なズーム映像が簡単に得られる映像配信装置を提供する。
【解決手段】映像コンテンツごとにズーム率に応じて解像度の異なる複数のズーム用映像を記憶するズーム用映像DB102と、映像コンテンツのフレームから重要領域を抽出する重要領域抽出部104aと、重要領域を含む矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定するズーム範囲拡張部104eと、ズーム範囲のサイズに応じてズーム率を決定するズーム率決定部105と、ズーム率に応じたズーム用映像およびズーム映像の切り出し範囲を含むズーム条件を設定するズーム条件設定部106と、ズーム条件に基づいてズーム映像を切り出すズーム制御部108と、切り出されたズーム映像を配信する配信部109とを具備した。
【解決手段】映像コンテンツごとにズーム率に応じて解像度の異なる複数のズーム用映像を記憶するズーム用映像DB102と、映像コンテンツのフレームから重要領域を抽出する重要領域抽出部104aと、重要領域を含む矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定するズーム範囲拡張部104eと、ズーム範囲のサイズに応じてズーム率を決定するズーム率決定部105と、ズーム率に応じたズーム用映像およびズーム映像の切り出し範囲を含むズーム条件を設定するズーム条件設定部106と、ズーム条件に基づいてズーム映像を切り出すズーム制御部108と、切り出されたズーム映像を配信する配信部109とを具備した。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像コンテンツをストリーミング配信する映像配信装置に係り、特に、元映像の重要領域が含まれるズーム範囲を自動設定し、このズーム範囲を元映像から切り出してズーム映像として配信する映像配信装置に関する。
【背景技術】
【0002】
ケールブルテレビ等の大画面向けコンテンツを、TVだけでなくPC、携帯電話、スタイラス型可搬端末等のデバイスでも視聴可能にする、いわゆるマルチスクリーンサービスが一般的になりつつある。非特許文献1には、ケーブルテレビ向けコンテンツをPC向けに配信する技術が開示されている。こうしたマルチスクリーンサービスにおいては、ディスプレイが大きなテレビ向けに作成された高解像度のコンテンツを、ディスプレイの小さな携帯電話等向けに低解像度に変換する必要がある。
【0003】
一般的なマルチスクリーンサービスでは、大画面向けコンテンツの全体がそのまま変換(トランスコード)されて携帯電話等にストリーミング配信される。しかしながら、携帯電話等ではディスプレイが小さいのでコンテンツの魅力を十分に発揮されないという問題があった。そのため、ユーザが視聴したい任意の領域を拡大して見ることができるような仕組みが求められていた。
【0004】
映像コンテンツを拡大する技術として、映像中の任意の部分をトリミング(切り出し)して提示するデジタルズームが特許文献1に開示されている。しかしながら、このようなデジタルズーム機能は、映像撮影時の処理として行われるものであり、映像伝送におけるビットレートの制約やリアルタイムでのストリーミングに必要な低遅延性が考慮されておらず、また高負荷な処理が要求されるので、映像ストリーミングへの適用は困難である。
【0005】
このような技術課題の解決方法として、ユーザが希望する拡大映像を、サーバ側でリアルタイムにエンコードして送信する、リアルタイムエンコードを用いる方法が容易に想像できる。しかしながら、ユーザが希望する拡大映像を常にエンコードして送信しようとすればサーバの負荷が大きくなり、さらには、その負荷がサービスを受けるユーザ数に比例して大きくなるため、多数のユーザに対して同時にサービスを提供する用途では現実的では無い。
【0006】
さらに、上記の技術課題の別の解決方法として、非特許文献2には、映像コンテンツをタイル状に分割して符号化し、サーバ側からは全体のタイルの一部分を送信する一方、クライアント側では受信した各タイル毎に映像をデコードし、そのデコード結果を同時に表示することで拡大映像を得る方法が開示されている。しかしながら、この方法では、クライアント側でタイル状に分割された映像を個々にデコードし、同期をとって表示する必要があるので、携帯端末のような処理能力の低い端末への搭載は現実的では無い。
【0007】
このような技術課題に対して、本発明者等による特許文献2には、映像配信サーバには、提供可能なズーム倍率の段階に応じて、解像度の異なる複数のズーム用符号化ファイルを予め用意しておき、ズーム要求が検知されると、要求されたズーム倍率に応じたズーム用符号化ファイルからズーム位置の映像を矩形に切り出してズーム映像とすることにより、ズーム要求に対して低負荷でズーム映像を配信する技術が開示されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2008-316739号公報
【特許文献2】特願2010-219728号
【非特許文献】
【0009】
【非特許文献1】Fancast(http://www.fancast.com/)
【非特許文献2】インタラクティブ・パノラマ映像配信システムにおけるマルチ解像度配信方式の一検討(情報処理学会研究報告 Vol.2010-AVM-70 No.8)
【発明の概要】
【発明が解決しようとする課題】
【0010】
特許文献2では、元映像から切り出される矩形領域が固定的であったために、特に重要領域が画面内の複数箇所に分散されている映像からは、理想的なズーム映像を取得することが困難であった。
【0011】
図29は、このような技術課題を説明するための図であり、元映像[同図(a)]は3×3の9個のスライスP11〜P33に分割されており、ズーム映像は、この3×3の9スライスから2×2の4スライスを切り出すことで実現される。
【0012】
図示の例では、同図(b)のズーム無し映像に対してユーザによりズーム操作が行われ、一般的には、人物の表示領域が重要領域とされるので、5人の人物全員が含まれる同図(c)が理想的なズーム映像となる。しかしながら、図示の例では5人の人物が画面内で分散されているので、従来技術のようにスライスが固定的であると、人物をズーム映像に多く含ませようとしても、同図(d)のようにP12、P13、P22、P23の4スライス、または同図(e)のようにP22、P23、P32、P33の4スライス、のいずれかを選択せざるを得ず、理想的なズーム映像を得られなかった。
【0013】
本発明は、上記した従来技術の課題を解決し、重要領域が含まれるようにズーム範囲が自動的に設定され、理想的なズーム映像が簡単に得られる映像配信装置を提供することにある。
【課題を解決するための手段】
【0014】
上記の技術課題を解決するために、本発明は、映像コンテンツのズーム映像をストリーミング配信する映像配信装置において、以下のような手段を講じた点に特徴がある。
【0015】
(1)映像コンテンツごとにズーム率に応じて解像度の異なる複数のズーム用映像を記憶する手段と、映像コンテンツのフレームから重要領域を抽出する手段と、重要領域を含む矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定する手段と、ズーム範囲のサイズに応じてズーム率を決定する手段と、ズーム率に応じたズーム用映像およびズーム映像の切り出し範囲を含むズーム条件を設定する手段と、ズーム条件に基づいてズーム映像を切り出す手段と、切り出されたズーム映像を配信する手段とを具備した。
【0016】
(2)映像コンテンツをショット分割する手段と、各ショットから代表フレームを取得する手段とをさらに具備し、重要領域を抽出する手段は、各代表フレームから重要領域を抽出するようにした。
【0017】
(3)ズーム範囲を設定する手段は、代表フレームごとに前記重要領域を含む矩形を重要矩形に設定する手段と、各代表フレームの重要矩形の位置を時系列で比較し、前記重要矩形同士の距離が所定の閾値を下回る範囲ごとに各代表フレームの重要矩形を一つに統合する手段とを具備し、各重要矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定するようにした。
【0018】
(4)ズーム映像を切り出す手段は、ズーム率に応じたズーム用映像をn×mにスライスし、当該n×mにスライスされたズーム用映像から前記ズーム範囲を含むp×qのスライスをズーム映像として切り出すと共に、ズーム範囲を前記p×qのスライス内に含ませることができないときに、前記ズーム用映像を前記n×mよりも細かくスライスするようにした。
【0019】
(5)ズーム映像の座標位置をズーム映像と共に送信する手段をさらに具備した。
【0020】
(6)ズーム映像の配信を要求する操作信号を映像再生端末から受信する手段と、操作信号を分析してズーム条件を取得する手段とを具備し、前記ズーム映像を切り出す手段は、前記ズーム条件を設定する手段により設定されたズーム条件よりも、前記操作信号を分析して取得されたズーム条件を優先させるようにした。
【発明の効果】
【0021】
本発明によれば、以下のような効果が達成される。
【0022】
(1)映像コンテンツから重要領域に基づいてズーム範囲が自動的に設定され、さらにズーム範囲の映像が元映像から自動的に切り出されてズーム映像として配信されるので、映像コンテンツを視聴するユーザに煩雑なズーム操作を要求することなく、映像コンテンツの内容に応じて最適なズーム映像をストリーミング配信できるようになる。
【0023】
(2)重要領域がフレームごとに抽出されるので、ズーム条件をフレームごとに切り替えられるようになる。
【0024】
(3)同一フレーム内で重要矩形の位置が時系列で比較され、距離の近い重要矩形同士は一つの重要矩形に統合されるので、特徴量の僅かな相違のみでズーム条件が頻繁に切り替えられてしまうことを防止できるようになる。
【0025】
(4)ズーム範囲をp×qのスライス内に含ませることができないときに、ズーム用映像を更に細かくスライスするようにしたので、ズーム範囲を包含する最小範囲をズーム映像として配信できるようになり、ズーム映像内で重要領域をより大きく表示できるようになる。
【0026】
(5)ズーム映像の座標位置がズーム映像と共に再生端末側へ送信されるので、再生端末側では、元映像内でのズーム位置を簡単に認識できるようになる。
【図面の簡単な説明】
【0027】
【図1】本発明の一実施形態に係る映像配信システムのブロック図である。
【図2】本発明の動作概要を示した図である。
【図3】ズーム用映像の符号化ファイルの一例を示した図である。
【図4】元映像からズーム映像を切り出す方法を示した図である。
【図5】ズーム範囲を自動設定する方法を示したフローチャートである。
【図6】ショット分割を説明するための図である。
【図7】重要領域の抽出例を示した図である。
【図8】重要性が低いテロップの識別方法を示した図である。
【図9】重要矩形の設定方法を示した図である。
【図10】重要矩形を時系列で比較する方法(その1)を示した図である。
【図11】重要矩形の統合方法(その1)を示した図である。
【図12】重要矩形の統合をツリー形式で表現した図(その1)である。
【図13】重要矩形を時系列で比較する方法(その2)を示した図である。
【図14】重要矩形の統合方法(その2)を示した図である。
【図15】重要矩形の統合をツリー形式で表現した図(その2)である。
【図16】重要矩形を時系列で比較する方法(その3)を示した図である。
【図17】重要矩形の統合方法(その3)を示した図である。
【図18】重要矩形の統合をツリー形式で表現した図(その3)である。
【図19】重要矩形を時系列で比較する方法(その4)を示した図である。
【図20】重要矩形の統合方法(その4)を示した図である。
【図21】重要矩形の統合をツリー形式で表現した図(その4)である。
【図22】重要矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲を設定する方法を示した図である。
【図23】ズーム範囲をズーム用映像から切り出してズーム映像を配信する方法を示したフローチャートである。
【図24】ズーム用映像の解像度と、配信サイズに対する倍率と、ズーム映像の表示範囲を元映像の解像度に換算した値との関係を示した図である。
【図25】ズーム範囲の一例を示した図である。
【図26】ズーム範囲を包含できる切り出し範囲の設定方法を示した図である。
【図27】ズーム条件の一例を示した図である。
【図28】再生端末におけるズーム映像の再生例を示した図である。
【図29】技術課題を説明するための図である。
【発明を実施するための形態】
【0028】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の一実施形態に係る映像配信システムの構成を示したブロック図であり、映像コンテンツをストリーミング形式で配信する映像配信装置1と、前記映像コンテンツを受信して再生する映像再生端末2とが、インターネット等の広域ネットワークを介して接続されている。前記映像配信装置1は、映像コンテンツからズーム再生に適したシーンを検出して自動的に、あるいは再生端末2からのズーム要求に応答して、前記映像コンテンツのズーム映像を配信する。
【0029】
図2は、本発明の動作概要を示した図であり、前記映像配信装置1は、大型TV用に撮影、編集された高解像度(例えば、1920×1056画素)の映像コンテンツ[同図(a)]を、配信解像度すなわち再生端末2の表示解像度(例えば、640×352画素)に変換して配信[同図(b)]し、さらにはズーム映像に切り替えて配信[同図(c)]する。
【0030】
本発明では、このようなズーム映像の配信を、ビットレートや伝送遅延に悪影響を与えることなく、かつ再生端末2に高い処理能力を要求することなく実現すべく、映像コンテンツごとにズーム率に応じて解像度の異なる複数のズーム用映像の符号化ファイルが予め用意されている。
【0031】
本実施形態では、図3に示したように、ズーム倍率に応じて4つのズーム用映像(大ズーム用、中ズーム用、小ズーム用、ズーム無し用)ファイルが予め用意されている。大ズーム用映像[同図(a)]の解像度は、元映像と同じ1920×1056である。中ズーム用映像[同図(b)]の解像度は、1280×704である。小ズーム用映像[同図(c)]の解像度は、960×528である。ズーム無し映像[同図(d)]の解像度は、配信映像と同じ640×352である。
【0032】
各ズーム用映像に示されている格子線はスライス境界を表し、例えば中ズームが要求されると、図4に一例を示したように、例えば3×3にスライスされた中ズーム用の映像ファイルから、ズーム位置に応じて2×2の映像範囲のみが切り出され、ズーム映像として配信される。各スライスは、ズーム位置に応じた複数の集合で配信解像度のズーム映像を構成できるように、その位置、形状およびサイズが規定される。
【0033】
図示の例では、ズーム範囲が画面左上方であればスライス1-1,1-2,2-1、2-2が切り出され、ズーム範囲が画面右上方であればスライス1-2,1-3,2-2、2-3が切り出される。同様に、ズーム範囲が画面左下方であればスライス2-1、2-2、3-1、3-2が切り出され、ズーム範囲が画面右下方であればスライス2-2、2-3、3-2、3-3が切り出される。
【0034】
次いで、元映像の特徴領域に基づいてズーム範囲を自動設定する方法について、図5のフローチャートに沿って説明する。
【0035】
ステップS1では、図6に一例を示したように、元映像がショット境界においてショット分割される。ショット境界とは、映像編集によってカメラの視点が切り替わった点(映像がカットされた点)であり、例えば、特開2007−134986号公報に開示されているように、連続するフレーム間の差分量によって求めることができる。カメラの視点が変われば最適なズーム条件(ズーム位置およびズーム版率)も変わる可能性が高いので、本実施形態では、ショット境界がズーム切り替えの基本タイミングとされる。
【0036】
ステップS2では、前記ショット分割により得られた多数のショットから、今回の注目ショットが時系列で選択される。ステップS3では、注目ショットから代表フレームが選択される。ステップS4では、図7に一例を示したように、各代表フレームf1〜f5から重要領域(丸または楕円で表記)が抽出される。
【0037】
ここで、重要領域とは元映像の特徴を解析することで得られるROI(Region of interest)の一種であり、フレーム内の任意の場所に、任意の数、任意の面積で出現する。本実施形態では、以下の領域が重要領域として抽出される。
【0038】
(1)人物領域
【0039】
人物は多くの映像において重要な領域であり、例えば、特開2006−508461号公報に開示されている顔認識を適用して抽出される。
【0040】
(2)テロップ領域
【0041】
テロップには、映像中の重要な文字情報が含まれる場合が多い。そこで、特開平12−23062号公報に開示されているように、(a)テロップは画面の上部または下部の所定領域に表示される、(b)テロップの出現時および終了時には輝度変化が生じる、という特徴を用いてテロップ領域が抽出される。
【0042】
なお、本実施形態では、図8に一例を示したように、抽出されたテロップのうち、多数の代表フレームに跨って、比較的に長時間に渡って表示されるテロップは、重要性が低いと判断されて除外される。
【0043】
(3)顕著性の高い領域
【0044】
人物やテロップ以外に、顕著性の高い領域が重要領域として抽出される。本実施形態では、顕著性の高さを示す下位の特徴量として、「特徴点」、「周波数成分」および「動き注視モデル」が参照される。
【0045】
(1)特徴点
【0046】
画面を一定の格子単位で分割し、単位面積当たりの特徴点の数が一定以上の格子の領域が顕著領域として抽出される。特徴点の多い領域には有意な情報が多く存在すると想定され、その抽出には、例えばコーナー(corner)検出技術のように画像の角を検出する技術として、例えばHarrisやStephensの方式を採用できる。
【0047】
(2)周波数成分
【0048】
画像中では、変化の多い領域ほど有意な情報が多いことから、DCT係数のAC高周波成分の総エネルギー量に基づいて顕著領域が抽出される。一般的に、人間の眼の視覚特性は低周波成分に敏感であり、高周波成分には鈍感である。DCTとは、映像フレームの画素領域を、離散コサイン変換を用いて周波数領域に変換する技術であり、本実施形態では、ブロックあたりのDCTの高周波成分の総和(dAC)に基づいて顕著領域が抽出される。
【0049】
(3)動き注視モデル
【0050】
画面中の局所領域の動き量によって、注視を集める領域の座標が、例えば非特許文献3のような手法で算出される。各代表フレームで取得された重要物体について、その空間的な位置および特徴量に応じて重みづけが行われる。
【0051】
(4)その他
【0052】
映像中の特徴解析に基づく重要領域検出だけでなく、映像制作者が指定した、映像中の重要物体を顕著領域とすることも可能である。例えば、ある映像コンテンツにおいて、主演者の出現時刻およびその座標が映像制作者によって指定され、メタデータとして与えられる場合、上記の解析結果の代わりに、与えられた情報を使用して顕著領域を抽出する。
【0053】
図5へ戻り、ステップS5では、図9に一例を示したように、代表フレームfごとに全ての重要領域を包含する矩形の範囲が重要矩形C(C1,C2…C5)に設定される。ステップS6では、注目ショット内の時系列で2番目の重要矩形が今回の注目矩形として選択される。ここでは、2番目の代表フレームf2の重要矩形C2が注目矩形に選択される。
【0054】
ステップS7では、前記注目矩形C2と、その前後に隣接する2つの重要矩形との論理和(OR)領域がそれぞれ算出される。ここでは、図10に示したように、注目矩形C2と代表フレームf1の重要矩形C1とのOR領域C1/2、および注目矩形C2と代表フレームf3の重要矩形C3とのOR領域C2/3が算出される。
【0055】
ステップS8では、前記各OR領域C1/2,C2/3の面積が比較される。ステップS9では、OR領域の面積が小さい方の重要矩形ペアが一つの重要領域に統合される。ここでは、OR領域C2/3の面積の方が小さいため、図11に示したように、注目矩形C2と重要矩形C3とが一つの重要矩形C2-3に統合される。
【0056】
ステップS10では、図12に示したように、重要矩形C1〜C5を葉とする仮想的なノードツリーにおいて、前記統合された注目矩形C2の枝と重要矩形C3の枝とが連結され、その枝長L1(縦軸)が前記各OR領域C1/2,C2/3の面積差の絶対値に設定される。ステップS11では、全ての重要矩形がツリー化されたか否かが判定され、ここではツリー化が完了していないと判定されるのでステップS6へ戻る。
【0057】
ステップS6では、時系列で2番目の重要矩形として、前記統合された重要矩形C2-3が今回の注目矩形に選択される。ステップS7では、前記注目矩形C2-3と、その前後に隣接する2つの重要矩形とのOR領域がそれぞれ算出される。ここでは、図13に示したように、注目矩形C2-3と代表フレームf1の重要矩形C1とのOR領域C1/2-3、および注目矩形C2-3と代表フレームf4の重要矩形C4とのOR領域C2-3/4が算出される。
【0058】
ステップS8では、前記各OR領域の面積が比較され、ステップS9では、面積が小さい方のペアが統合される。ここでは、OR領域C1/2-3の面積の方が小さいため、図14に示したように、重要矩形C1と注目矩形C2-3とが重要矩形C1-3に統合される。ステップS10では、図15に示したように、重要矩形C1の枝と注目矩形C2-3の枝とが連結され、その枝長L2が前記OR領域C1/2-3,C2-3/4の面積差の絶対値に設定される。ステップS11では、重要矩形のツリー化が完了していないと判定されるので再びステップS6へ戻る。
【0059】
ステップS6では、時系列で2番目の重要矩形C4が今回の注目矩形に選択される。ステップS7では、前記注目矩形C4と、その前後に隣接する2つの重要矩形とのOR領域がそれぞれ算出される。ここでは、図16に示したように、注目矩形C4と重要矩形C1-3とのOR領域C1-3/4、および注目矩形C4と代表フレームf5の重要矩形C5とのOR領域C4/5が算出される。
【0060】
ステップS8では、前記各OR領域の面積が比較され、ステップS9では、面積が小さい方の重要領域ペアが統合される。ここでは、OR領域C4/5の面積の方が小さいために、図17に示したように、重要矩形C4,C5が一つの重要矩形C4-5に統合される。ステップS10では、図18に示したように、矩形領域C4の枝と重要領域C5の枝とが連結され、その枝長L3が前記OR領域C1-3/4,C4/5の面積差の絶対値に設定される。ステップS11では、重要矩形のツリー化が完了していないと判定されるので再びステップS6へ戻る。
【0061】
ステップS6では、時系列で2番目の重要矩形C4-5が今回の注目矩形に選択される。ステップS7では、前記注目矩形C4-5と、その前後に隣接する2つの重要矩形とのOR領域がそれぞれ算出される。ここでは、後に隣接する重要領域が存在しないので、図19に示したように、注目矩形C4-5と重要矩形C1-3とのOR領域C1-3/4-5のみが算出される。
【0062】
ステップS8では、前記各OR領域の面積が比較され、ステップS9では、面積が小さい方の重要矩形ペアが統合される。ここでは、OR領域C1-3/4-5しか算出されていないので、図20に示したように、重要矩形C1-3,C4-5が一つの重要矩形C1-5に統合される。ステップS10では、図21に示したように、重要矩形C4の枝と重要領域C5の枝とが連結され、その枝長L4が前記重要矩形C1-3と注目矩形C4-5との面積差の絶対値に設定される。ステップS11では、重要矩形のツリー化が完了したと判定されるのでステップS12へ進む。
【0063】
ステップS12では、図21のノードツリーに基づいてズーム切替点が検出される。本実施形態では、各枝長Lが閾値と比較され、ここでは枝長L4が閾値を越えているので、前記重要矩形C1-3,C4-5間にズーム切替点が設定される。したがって、当該ショットではショット内でも1箇所でズーム切替が発生することになる。
【0064】
ステップS13では、図22に一例を示したように、前記統合された各重要矩形Cxが配信アスペクト比の最小サイズまで拡張されてズーム範囲Z(Cx)に設定される。ステップS14では、全てのショットに関してズーム切替点の検出およびズーム範囲の設定が終了したか否かが判定される。終了していなければステップS2へ戻り、注目ショットを変更しながら上記の各処理が繰り返される。
【0065】
以上のようにして、重要矩形Cxを含むズーム範囲Z(Cx)が決定されると、当該ズーム範囲Z(Cx)が前記ズーム用映像から切り出されてズーム映像として配信される。
【0066】
次いで、図23のフローチャートを参照して、前記ズーム範囲Z(Cx)をズーム用映像から切り出してズーム映像を配信する方法について説明する。
【0067】
ここでも、元映像の解像度を1920×1056、携帯電話に配信される映像の解像度を640×352とし、ズーム映像が切り出されるズーム用映像ファイルとして、前記図3に関して説明した4つのズーム用映像(大ズーム用、中ズーム用、小ズーム用、ズーム無し用)が予め用意されているものとする
【0068】
図24は、前記各ズーム用映像の解像度と、配信サイズ(640×352)に対する倍率と、ズーム映像の表示範囲を元映像の解像度に換算した値との関係を示している。例えば、中ズーム映像は、解像度が1280×704の中ズーム用映像[図3(b)]から切り出され、その表示範囲は元映像上で960×528の画素範囲に相当することを意味している。
【0069】
ステップS21では、ズーム範囲Z(Cx)を包含できる最小の切出サイズに対応したズーム率が選択される。例えば、図25に一例を示したように、ズーム範囲Z(Cx)の元映像上でのサイズが1160×652であれば、ズーム映像として配信する切出サイズは、元映像上で当該1160×652のサイズを包含できる最小のサイズに設定することが望ましい。
【0070】
ここで、中ズームでは960×528のサイズしか切り出せないのでズーム範囲Z(Cx)の一部が欠けてしまう。また、ズーム無しでは1920×1056のサイズで切り出せるので前記ズーム範囲Z(Cx)を全て包含できるものの、ズーム範囲Z(Cx)以外の領域も多く含んでしまう。これに対して、小ズームでは1280×704のサイズで切り出せるので前記ズーム範囲Z(Cx)を全て包含でき、かつズーム範囲Z(Cx)以外の領域を最小限に抑えられる。そこで、ここでは小ズームが選択される。
【0071】
ステップS22では、小ズーム用の標準スライスで前記ズーム範囲Z(Cx)を切出サイズ内に収容できるか否かが判定される。本実施形態では、図26(a)に示したように、小ズーム用映像の標準スライスが3×3であるが、切出スライスは2×2なので、切出スライスの位置をどのように設定しても、切出スライス内に前記ズーム範囲Z(Cx)を完全に包含させることができないと判定されてステップS23へ進む。
【0072】
ステップS23では、図26(b)に示したように、スライス数が2倍の6×6に設定される。ステップS24では、前記6×6のスライスでズーム範囲Z(Cx)を切出スライスの4×4内に包含できるか否かが判定され、ここでは包含できると判定されるのでステップS25へ進む。ステップS25では、前記ズーム範囲Z(Cx)を包含できる4×4のスライスが切り出される。ステップS26では、前記切り出されたスライスがズーム映像として配信される。
【0073】
図1を改めて参照し、映像配信装置1において、ズーム用映像生成部101は、元映像ごとにズーム率に応じて解像度の異なる複数のズーム用映像ファイルを生成し、H.264符号化方式により符号化されてズーム用映像DBに102に保存される。本実施形態では、前記大ズーム用映像、中ズーム用映像、小ズーム用映像およびズーム無し映像の各符号化ファイルが保存される。
【0074】
ショット分割部103は、前記図6を参照して説明したように、元映像をショット境界においてショット分割する。ズーム範囲設定部104は、元映像から切り出してズーム映像として配信する前記ズーム範囲Z(Cx)を、元映像に含まれる重要領域に基づいて設定する。前記ズーム範囲設定部104において、代表フレーム取得部104aは、元映像から代表フレームを取得する。重要領域抽出部104bは、各代表フレームから重要領域を抽出する。重要矩形設定部104cは、代表フレーム毎に全ての重要領域を包含できる矩形範囲を重要矩形Cxとして設定する。
【0075】
ズーム切替点検出部104dは、前記矩形範囲の同一ショット内での時系列変化に基づいて、同一ショット内でズーム位置やズーム率を切り替えるズーム切替点を検出する。ズーム範囲拡張部104eは、前記重要矩形Cxを配信アスペクト比の最小範囲まで拡張してズーム範囲Z(Cx)に設定する。本実施形態では、重要矩形が時系列で変化するので、ズーム範囲も時系列で変化することになる。
【0076】
ズーム率決定部105は、前記ズーム範囲Z(Cx)のサイズに応じてズーム率を決定する。ズーム条件決定部106は、前記ズーム率に応じたズーム用映像ファイルから前記ズーム範囲を包含するズーム映像を適正に切り出すズーム条件として、切り出し対象となるズーム用映像ファイル、当該ズーム用映像ファイルのスライス方法、およびズーム映像として切り出す座標データを決定してズーム条件DB107に蓄積する。
【0077】
図27は、前記ズーム条件の一例を示した図であり、本実施形態では、ズーム条件が4つの数値で表現され、上位側から順に、「ズームの切り替えフレーム番号」、「表示指定座標1(ズーム範囲の左上座標)」、「表示指定座標2(ズーム範囲の右下座標)」、「拡大率(4段階)」を表現している。したがって、図中のズーム条件 [275,320,240,2] は、「第275フレームから、表示指定座標1が320で表示指定座標1が240のズーム範囲を拡大率「2」でズームする」ことを意味している。
【0078】
ズーム制御部108は、前記ズーム条件に基づいて、前記ズーム範囲を包含するズーム映像をズーム用映像ファイルから切り出し、これを配信部109から再生端末2へ配信する。このとき、ズーム配信用の映像データは、その音声データと共に多重化され、例えばRTP等の伝送フォーマットで伝送される。この際、ズーム位置に関する座標情報が一定間隔(例えば1秒毎)で再生端末側へ送信されるようにしても良い。この座標情報は、例えばRTCP等を用いて映像データや音声データとは別に送信されるようにしても良いし、あるいは前記RTPのヘッダ等に記述して前記映像データや音声データと同一のパケットで送信されるようにしても良い。
【0079】
再生端末2において、映像受信部201は、前記映像配信システムからズーム映像を受信し、映像再生部202へ転送して再生させる。ユーザ操作受付部203は、ズーム再生を要求するキー入力などのユーザ操作を受け付けて操作信号に変換する。この操作信号は操作信号送信部204から映像配信装置1へ送信される。
【0080】
図28は、本実施形態における再生端末側での再生例を示した図であり、再生画面には、ズーム映像251と共に、当該ズーム映像の元映像上での範囲を示す案内表示252と、自動拡大の開始/中止を指示するスイッチ253が設けられている。前記案内表示252の内容は、前記映像配信装置1から送信されるズーム位置の座標情報に基づいて生成され、図示の例は、現在のズーム位置が中央上部であることを示している。
【0081】
また、本実施形態では端末ユーザが画面上でタッピング等によりズーム配信を要求すると、この操作信号が映像配信装置1へ送信され、操作信号受信部110により受信されてユーザ操作分析部111へ通知される。ユーザ操作分析部111は、前記ユーザ操作を分析して、端末ユーザにより要求されたズーム条件を識別する。前記ズーム制御部108は、前記ズーム条件設定部により自動的に設定されたズーム条件よりも、前記端末ユーサにより指定されたズーム条件を優先させてズーム映像を切り出す。
【符号の説明】
【0082】
1…映像配信装置,2…再生端末,101…ズーム用映像生成部,102…ズーム用映像DB,103…ショット分割部,104…ズーム範囲設定部,105…ズーム率決定部,106…ズーム条件決定部,107…ズーム条件DB,108…ズーム制御部,109…配信部,110…操作信号受信部,111…ユーザ操作分析部,201…映像受信部,202…映像再生部,203…ユーザ操作受付部,204…操作信号送信部
【技術分野】
【0001】
本発明は、映像コンテンツをストリーミング配信する映像配信装置に係り、特に、元映像の重要領域が含まれるズーム範囲を自動設定し、このズーム範囲を元映像から切り出してズーム映像として配信する映像配信装置に関する。
【背景技術】
【0002】
ケールブルテレビ等の大画面向けコンテンツを、TVだけでなくPC、携帯電話、スタイラス型可搬端末等のデバイスでも視聴可能にする、いわゆるマルチスクリーンサービスが一般的になりつつある。非特許文献1には、ケーブルテレビ向けコンテンツをPC向けに配信する技術が開示されている。こうしたマルチスクリーンサービスにおいては、ディスプレイが大きなテレビ向けに作成された高解像度のコンテンツを、ディスプレイの小さな携帯電話等向けに低解像度に変換する必要がある。
【0003】
一般的なマルチスクリーンサービスでは、大画面向けコンテンツの全体がそのまま変換(トランスコード)されて携帯電話等にストリーミング配信される。しかしながら、携帯電話等ではディスプレイが小さいのでコンテンツの魅力を十分に発揮されないという問題があった。そのため、ユーザが視聴したい任意の領域を拡大して見ることができるような仕組みが求められていた。
【0004】
映像コンテンツを拡大する技術として、映像中の任意の部分をトリミング(切り出し)して提示するデジタルズームが特許文献1に開示されている。しかしながら、このようなデジタルズーム機能は、映像撮影時の処理として行われるものであり、映像伝送におけるビットレートの制約やリアルタイムでのストリーミングに必要な低遅延性が考慮されておらず、また高負荷な処理が要求されるので、映像ストリーミングへの適用は困難である。
【0005】
このような技術課題の解決方法として、ユーザが希望する拡大映像を、サーバ側でリアルタイムにエンコードして送信する、リアルタイムエンコードを用いる方法が容易に想像できる。しかしながら、ユーザが希望する拡大映像を常にエンコードして送信しようとすればサーバの負荷が大きくなり、さらには、その負荷がサービスを受けるユーザ数に比例して大きくなるため、多数のユーザに対して同時にサービスを提供する用途では現実的では無い。
【0006】
さらに、上記の技術課題の別の解決方法として、非特許文献2には、映像コンテンツをタイル状に分割して符号化し、サーバ側からは全体のタイルの一部分を送信する一方、クライアント側では受信した各タイル毎に映像をデコードし、そのデコード結果を同時に表示することで拡大映像を得る方法が開示されている。しかしながら、この方法では、クライアント側でタイル状に分割された映像を個々にデコードし、同期をとって表示する必要があるので、携帯端末のような処理能力の低い端末への搭載は現実的では無い。
【0007】
このような技術課題に対して、本発明者等による特許文献2には、映像配信サーバには、提供可能なズーム倍率の段階に応じて、解像度の異なる複数のズーム用符号化ファイルを予め用意しておき、ズーム要求が検知されると、要求されたズーム倍率に応じたズーム用符号化ファイルからズーム位置の映像を矩形に切り出してズーム映像とすることにより、ズーム要求に対して低負荷でズーム映像を配信する技術が開示されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2008-316739号公報
【特許文献2】特願2010-219728号
【非特許文献】
【0009】
【非特許文献1】Fancast(http://www.fancast.com/)
【非特許文献2】インタラクティブ・パノラマ映像配信システムにおけるマルチ解像度配信方式の一検討(情報処理学会研究報告 Vol.2010-AVM-70 No.8)
【発明の概要】
【発明が解決しようとする課題】
【0010】
特許文献2では、元映像から切り出される矩形領域が固定的であったために、特に重要領域が画面内の複数箇所に分散されている映像からは、理想的なズーム映像を取得することが困難であった。
【0011】
図29は、このような技術課題を説明するための図であり、元映像[同図(a)]は3×3の9個のスライスP11〜P33に分割されており、ズーム映像は、この3×3の9スライスから2×2の4スライスを切り出すことで実現される。
【0012】
図示の例では、同図(b)のズーム無し映像に対してユーザによりズーム操作が行われ、一般的には、人物の表示領域が重要領域とされるので、5人の人物全員が含まれる同図(c)が理想的なズーム映像となる。しかしながら、図示の例では5人の人物が画面内で分散されているので、従来技術のようにスライスが固定的であると、人物をズーム映像に多く含ませようとしても、同図(d)のようにP12、P13、P22、P23の4スライス、または同図(e)のようにP22、P23、P32、P33の4スライス、のいずれかを選択せざるを得ず、理想的なズーム映像を得られなかった。
【0013】
本発明は、上記した従来技術の課題を解決し、重要領域が含まれるようにズーム範囲が自動的に設定され、理想的なズーム映像が簡単に得られる映像配信装置を提供することにある。
【課題を解決するための手段】
【0014】
上記の技術課題を解決するために、本発明は、映像コンテンツのズーム映像をストリーミング配信する映像配信装置において、以下のような手段を講じた点に特徴がある。
【0015】
(1)映像コンテンツごとにズーム率に応じて解像度の異なる複数のズーム用映像を記憶する手段と、映像コンテンツのフレームから重要領域を抽出する手段と、重要領域を含む矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定する手段と、ズーム範囲のサイズに応じてズーム率を決定する手段と、ズーム率に応じたズーム用映像およびズーム映像の切り出し範囲を含むズーム条件を設定する手段と、ズーム条件に基づいてズーム映像を切り出す手段と、切り出されたズーム映像を配信する手段とを具備した。
【0016】
(2)映像コンテンツをショット分割する手段と、各ショットから代表フレームを取得する手段とをさらに具備し、重要領域を抽出する手段は、各代表フレームから重要領域を抽出するようにした。
【0017】
(3)ズーム範囲を設定する手段は、代表フレームごとに前記重要領域を含む矩形を重要矩形に設定する手段と、各代表フレームの重要矩形の位置を時系列で比較し、前記重要矩形同士の距離が所定の閾値を下回る範囲ごとに各代表フレームの重要矩形を一つに統合する手段とを具備し、各重要矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定するようにした。
【0018】
(4)ズーム映像を切り出す手段は、ズーム率に応じたズーム用映像をn×mにスライスし、当該n×mにスライスされたズーム用映像から前記ズーム範囲を含むp×qのスライスをズーム映像として切り出すと共に、ズーム範囲を前記p×qのスライス内に含ませることができないときに、前記ズーム用映像を前記n×mよりも細かくスライスするようにした。
【0019】
(5)ズーム映像の座標位置をズーム映像と共に送信する手段をさらに具備した。
【0020】
(6)ズーム映像の配信を要求する操作信号を映像再生端末から受信する手段と、操作信号を分析してズーム条件を取得する手段とを具備し、前記ズーム映像を切り出す手段は、前記ズーム条件を設定する手段により設定されたズーム条件よりも、前記操作信号を分析して取得されたズーム条件を優先させるようにした。
【発明の効果】
【0021】
本発明によれば、以下のような効果が達成される。
【0022】
(1)映像コンテンツから重要領域に基づいてズーム範囲が自動的に設定され、さらにズーム範囲の映像が元映像から自動的に切り出されてズーム映像として配信されるので、映像コンテンツを視聴するユーザに煩雑なズーム操作を要求することなく、映像コンテンツの内容に応じて最適なズーム映像をストリーミング配信できるようになる。
【0023】
(2)重要領域がフレームごとに抽出されるので、ズーム条件をフレームごとに切り替えられるようになる。
【0024】
(3)同一フレーム内で重要矩形の位置が時系列で比較され、距離の近い重要矩形同士は一つの重要矩形に統合されるので、特徴量の僅かな相違のみでズーム条件が頻繁に切り替えられてしまうことを防止できるようになる。
【0025】
(4)ズーム範囲をp×qのスライス内に含ませることができないときに、ズーム用映像を更に細かくスライスするようにしたので、ズーム範囲を包含する最小範囲をズーム映像として配信できるようになり、ズーム映像内で重要領域をより大きく表示できるようになる。
【0026】
(5)ズーム映像の座標位置がズーム映像と共に再生端末側へ送信されるので、再生端末側では、元映像内でのズーム位置を簡単に認識できるようになる。
【図面の簡単な説明】
【0027】
【図1】本発明の一実施形態に係る映像配信システムのブロック図である。
【図2】本発明の動作概要を示した図である。
【図3】ズーム用映像の符号化ファイルの一例を示した図である。
【図4】元映像からズーム映像を切り出す方法を示した図である。
【図5】ズーム範囲を自動設定する方法を示したフローチャートである。
【図6】ショット分割を説明するための図である。
【図7】重要領域の抽出例を示した図である。
【図8】重要性が低いテロップの識別方法を示した図である。
【図9】重要矩形の設定方法を示した図である。
【図10】重要矩形を時系列で比較する方法(その1)を示した図である。
【図11】重要矩形の統合方法(その1)を示した図である。
【図12】重要矩形の統合をツリー形式で表現した図(その1)である。
【図13】重要矩形を時系列で比較する方法(その2)を示した図である。
【図14】重要矩形の統合方法(その2)を示した図である。
【図15】重要矩形の統合をツリー形式で表現した図(その2)である。
【図16】重要矩形を時系列で比較する方法(その3)を示した図である。
【図17】重要矩形の統合方法(その3)を示した図である。
【図18】重要矩形の統合をツリー形式で表現した図(その3)である。
【図19】重要矩形を時系列で比較する方法(その4)を示した図である。
【図20】重要矩形の統合方法(その4)を示した図である。
【図21】重要矩形の統合をツリー形式で表現した図(その4)である。
【図22】重要矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲を設定する方法を示した図である。
【図23】ズーム範囲をズーム用映像から切り出してズーム映像を配信する方法を示したフローチャートである。
【図24】ズーム用映像の解像度と、配信サイズに対する倍率と、ズーム映像の表示範囲を元映像の解像度に換算した値との関係を示した図である。
【図25】ズーム範囲の一例を示した図である。
【図26】ズーム範囲を包含できる切り出し範囲の設定方法を示した図である。
【図27】ズーム条件の一例を示した図である。
【図28】再生端末におけるズーム映像の再生例を示した図である。
【図29】技術課題を説明するための図である。
【発明を実施するための形態】
【0028】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の一実施形態に係る映像配信システムの構成を示したブロック図であり、映像コンテンツをストリーミング形式で配信する映像配信装置1と、前記映像コンテンツを受信して再生する映像再生端末2とが、インターネット等の広域ネットワークを介して接続されている。前記映像配信装置1は、映像コンテンツからズーム再生に適したシーンを検出して自動的に、あるいは再生端末2からのズーム要求に応答して、前記映像コンテンツのズーム映像を配信する。
【0029】
図2は、本発明の動作概要を示した図であり、前記映像配信装置1は、大型TV用に撮影、編集された高解像度(例えば、1920×1056画素)の映像コンテンツ[同図(a)]を、配信解像度すなわち再生端末2の表示解像度(例えば、640×352画素)に変換して配信[同図(b)]し、さらにはズーム映像に切り替えて配信[同図(c)]する。
【0030】
本発明では、このようなズーム映像の配信を、ビットレートや伝送遅延に悪影響を与えることなく、かつ再生端末2に高い処理能力を要求することなく実現すべく、映像コンテンツごとにズーム率に応じて解像度の異なる複数のズーム用映像の符号化ファイルが予め用意されている。
【0031】
本実施形態では、図3に示したように、ズーム倍率に応じて4つのズーム用映像(大ズーム用、中ズーム用、小ズーム用、ズーム無し用)ファイルが予め用意されている。大ズーム用映像[同図(a)]の解像度は、元映像と同じ1920×1056である。中ズーム用映像[同図(b)]の解像度は、1280×704である。小ズーム用映像[同図(c)]の解像度は、960×528である。ズーム無し映像[同図(d)]の解像度は、配信映像と同じ640×352である。
【0032】
各ズーム用映像に示されている格子線はスライス境界を表し、例えば中ズームが要求されると、図4に一例を示したように、例えば3×3にスライスされた中ズーム用の映像ファイルから、ズーム位置に応じて2×2の映像範囲のみが切り出され、ズーム映像として配信される。各スライスは、ズーム位置に応じた複数の集合で配信解像度のズーム映像を構成できるように、その位置、形状およびサイズが規定される。
【0033】
図示の例では、ズーム範囲が画面左上方であればスライス1-1,1-2,2-1、2-2が切り出され、ズーム範囲が画面右上方であればスライス1-2,1-3,2-2、2-3が切り出される。同様に、ズーム範囲が画面左下方であればスライス2-1、2-2、3-1、3-2が切り出され、ズーム範囲が画面右下方であればスライス2-2、2-3、3-2、3-3が切り出される。
【0034】
次いで、元映像の特徴領域に基づいてズーム範囲を自動設定する方法について、図5のフローチャートに沿って説明する。
【0035】
ステップS1では、図6に一例を示したように、元映像がショット境界においてショット分割される。ショット境界とは、映像編集によってカメラの視点が切り替わった点(映像がカットされた点)であり、例えば、特開2007−134986号公報に開示されているように、連続するフレーム間の差分量によって求めることができる。カメラの視点が変われば最適なズーム条件(ズーム位置およびズーム版率)も変わる可能性が高いので、本実施形態では、ショット境界がズーム切り替えの基本タイミングとされる。
【0036】
ステップS2では、前記ショット分割により得られた多数のショットから、今回の注目ショットが時系列で選択される。ステップS3では、注目ショットから代表フレームが選択される。ステップS4では、図7に一例を示したように、各代表フレームf1〜f5から重要領域(丸または楕円で表記)が抽出される。
【0037】
ここで、重要領域とは元映像の特徴を解析することで得られるROI(Region of interest)の一種であり、フレーム内の任意の場所に、任意の数、任意の面積で出現する。本実施形態では、以下の領域が重要領域として抽出される。
【0038】
(1)人物領域
【0039】
人物は多くの映像において重要な領域であり、例えば、特開2006−508461号公報に開示されている顔認識を適用して抽出される。
【0040】
(2)テロップ領域
【0041】
テロップには、映像中の重要な文字情報が含まれる場合が多い。そこで、特開平12−23062号公報に開示されているように、(a)テロップは画面の上部または下部の所定領域に表示される、(b)テロップの出現時および終了時には輝度変化が生じる、という特徴を用いてテロップ領域が抽出される。
【0042】
なお、本実施形態では、図8に一例を示したように、抽出されたテロップのうち、多数の代表フレームに跨って、比較的に長時間に渡って表示されるテロップは、重要性が低いと判断されて除外される。
【0043】
(3)顕著性の高い領域
【0044】
人物やテロップ以外に、顕著性の高い領域が重要領域として抽出される。本実施形態では、顕著性の高さを示す下位の特徴量として、「特徴点」、「周波数成分」および「動き注視モデル」が参照される。
【0045】
(1)特徴点
【0046】
画面を一定の格子単位で分割し、単位面積当たりの特徴点の数が一定以上の格子の領域が顕著領域として抽出される。特徴点の多い領域には有意な情報が多く存在すると想定され、その抽出には、例えばコーナー(corner)検出技術のように画像の角を検出する技術として、例えばHarrisやStephensの方式を採用できる。
【0047】
(2)周波数成分
【0048】
画像中では、変化の多い領域ほど有意な情報が多いことから、DCT係数のAC高周波成分の総エネルギー量に基づいて顕著領域が抽出される。一般的に、人間の眼の視覚特性は低周波成分に敏感であり、高周波成分には鈍感である。DCTとは、映像フレームの画素領域を、離散コサイン変換を用いて周波数領域に変換する技術であり、本実施形態では、ブロックあたりのDCTの高周波成分の総和(dAC)に基づいて顕著領域が抽出される。
【0049】
(3)動き注視モデル
【0050】
画面中の局所領域の動き量によって、注視を集める領域の座標が、例えば非特許文献3のような手法で算出される。各代表フレームで取得された重要物体について、その空間的な位置および特徴量に応じて重みづけが行われる。
【0051】
(4)その他
【0052】
映像中の特徴解析に基づく重要領域検出だけでなく、映像制作者が指定した、映像中の重要物体を顕著領域とすることも可能である。例えば、ある映像コンテンツにおいて、主演者の出現時刻およびその座標が映像制作者によって指定され、メタデータとして与えられる場合、上記の解析結果の代わりに、与えられた情報を使用して顕著領域を抽出する。
【0053】
図5へ戻り、ステップS5では、図9に一例を示したように、代表フレームfごとに全ての重要領域を包含する矩形の範囲が重要矩形C(C1,C2…C5)に設定される。ステップS6では、注目ショット内の時系列で2番目の重要矩形が今回の注目矩形として選択される。ここでは、2番目の代表フレームf2の重要矩形C2が注目矩形に選択される。
【0054】
ステップS7では、前記注目矩形C2と、その前後に隣接する2つの重要矩形との論理和(OR)領域がそれぞれ算出される。ここでは、図10に示したように、注目矩形C2と代表フレームf1の重要矩形C1とのOR領域C1/2、および注目矩形C2と代表フレームf3の重要矩形C3とのOR領域C2/3が算出される。
【0055】
ステップS8では、前記各OR領域C1/2,C2/3の面積が比較される。ステップS9では、OR領域の面積が小さい方の重要矩形ペアが一つの重要領域に統合される。ここでは、OR領域C2/3の面積の方が小さいため、図11に示したように、注目矩形C2と重要矩形C3とが一つの重要矩形C2-3に統合される。
【0056】
ステップS10では、図12に示したように、重要矩形C1〜C5を葉とする仮想的なノードツリーにおいて、前記統合された注目矩形C2の枝と重要矩形C3の枝とが連結され、その枝長L1(縦軸)が前記各OR領域C1/2,C2/3の面積差の絶対値に設定される。ステップS11では、全ての重要矩形がツリー化されたか否かが判定され、ここではツリー化が完了していないと判定されるのでステップS6へ戻る。
【0057】
ステップS6では、時系列で2番目の重要矩形として、前記統合された重要矩形C2-3が今回の注目矩形に選択される。ステップS7では、前記注目矩形C2-3と、その前後に隣接する2つの重要矩形とのOR領域がそれぞれ算出される。ここでは、図13に示したように、注目矩形C2-3と代表フレームf1の重要矩形C1とのOR領域C1/2-3、および注目矩形C2-3と代表フレームf4の重要矩形C4とのOR領域C2-3/4が算出される。
【0058】
ステップS8では、前記各OR領域の面積が比較され、ステップS9では、面積が小さい方のペアが統合される。ここでは、OR領域C1/2-3の面積の方が小さいため、図14に示したように、重要矩形C1と注目矩形C2-3とが重要矩形C1-3に統合される。ステップS10では、図15に示したように、重要矩形C1の枝と注目矩形C2-3の枝とが連結され、その枝長L2が前記OR領域C1/2-3,C2-3/4の面積差の絶対値に設定される。ステップS11では、重要矩形のツリー化が完了していないと判定されるので再びステップS6へ戻る。
【0059】
ステップS6では、時系列で2番目の重要矩形C4が今回の注目矩形に選択される。ステップS7では、前記注目矩形C4と、その前後に隣接する2つの重要矩形とのOR領域がそれぞれ算出される。ここでは、図16に示したように、注目矩形C4と重要矩形C1-3とのOR領域C1-3/4、および注目矩形C4と代表フレームf5の重要矩形C5とのOR領域C4/5が算出される。
【0060】
ステップS8では、前記各OR領域の面積が比較され、ステップS9では、面積が小さい方の重要領域ペアが統合される。ここでは、OR領域C4/5の面積の方が小さいために、図17に示したように、重要矩形C4,C5が一つの重要矩形C4-5に統合される。ステップS10では、図18に示したように、矩形領域C4の枝と重要領域C5の枝とが連結され、その枝長L3が前記OR領域C1-3/4,C4/5の面積差の絶対値に設定される。ステップS11では、重要矩形のツリー化が完了していないと判定されるので再びステップS6へ戻る。
【0061】
ステップS6では、時系列で2番目の重要矩形C4-5が今回の注目矩形に選択される。ステップS7では、前記注目矩形C4-5と、その前後に隣接する2つの重要矩形とのOR領域がそれぞれ算出される。ここでは、後に隣接する重要領域が存在しないので、図19に示したように、注目矩形C4-5と重要矩形C1-3とのOR領域C1-3/4-5のみが算出される。
【0062】
ステップS8では、前記各OR領域の面積が比較され、ステップS9では、面積が小さい方の重要矩形ペアが統合される。ここでは、OR領域C1-3/4-5しか算出されていないので、図20に示したように、重要矩形C1-3,C4-5が一つの重要矩形C1-5に統合される。ステップS10では、図21に示したように、重要矩形C4の枝と重要領域C5の枝とが連結され、その枝長L4が前記重要矩形C1-3と注目矩形C4-5との面積差の絶対値に設定される。ステップS11では、重要矩形のツリー化が完了したと判定されるのでステップS12へ進む。
【0063】
ステップS12では、図21のノードツリーに基づいてズーム切替点が検出される。本実施形態では、各枝長Lが閾値と比較され、ここでは枝長L4が閾値を越えているので、前記重要矩形C1-3,C4-5間にズーム切替点が設定される。したがって、当該ショットではショット内でも1箇所でズーム切替が発生することになる。
【0064】
ステップS13では、図22に一例を示したように、前記統合された各重要矩形Cxが配信アスペクト比の最小サイズまで拡張されてズーム範囲Z(Cx)に設定される。ステップS14では、全てのショットに関してズーム切替点の検出およびズーム範囲の設定が終了したか否かが判定される。終了していなければステップS2へ戻り、注目ショットを変更しながら上記の各処理が繰り返される。
【0065】
以上のようにして、重要矩形Cxを含むズーム範囲Z(Cx)が決定されると、当該ズーム範囲Z(Cx)が前記ズーム用映像から切り出されてズーム映像として配信される。
【0066】
次いで、図23のフローチャートを参照して、前記ズーム範囲Z(Cx)をズーム用映像から切り出してズーム映像を配信する方法について説明する。
【0067】
ここでも、元映像の解像度を1920×1056、携帯電話に配信される映像の解像度を640×352とし、ズーム映像が切り出されるズーム用映像ファイルとして、前記図3に関して説明した4つのズーム用映像(大ズーム用、中ズーム用、小ズーム用、ズーム無し用)が予め用意されているものとする
【0068】
図24は、前記各ズーム用映像の解像度と、配信サイズ(640×352)に対する倍率と、ズーム映像の表示範囲を元映像の解像度に換算した値との関係を示している。例えば、中ズーム映像は、解像度が1280×704の中ズーム用映像[図3(b)]から切り出され、その表示範囲は元映像上で960×528の画素範囲に相当することを意味している。
【0069】
ステップS21では、ズーム範囲Z(Cx)を包含できる最小の切出サイズに対応したズーム率が選択される。例えば、図25に一例を示したように、ズーム範囲Z(Cx)の元映像上でのサイズが1160×652であれば、ズーム映像として配信する切出サイズは、元映像上で当該1160×652のサイズを包含できる最小のサイズに設定することが望ましい。
【0070】
ここで、中ズームでは960×528のサイズしか切り出せないのでズーム範囲Z(Cx)の一部が欠けてしまう。また、ズーム無しでは1920×1056のサイズで切り出せるので前記ズーム範囲Z(Cx)を全て包含できるものの、ズーム範囲Z(Cx)以外の領域も多く含んでしまう。これに対して、小ズームでは1280×704のサイズで切り出せるので前記ズーム範囲Z(Cx)を全て包含でき、かつズーム範囲Z(Cx)以外の領域を最小限に抑えられる。そこで、ここでは小ズームが選択される。
【0071】
ステップS22では、小ズーム用の標準スライスで前記ズーム範囲Z(Cx)を切出サイズ内に収容できるか否かが判定される。本実施形態では、図26(a)に示したように、小ズーム用映像の標準スライスが3×3であるが、切出スライスは2×2なので、切出スライスの位置をどのように設定しても、切出スライス内に前記ズーム範囲Z(Cx)を完全に包含させることができないと判定されてステップS23へ進む。
【0072】
ステップS23では、図26(b)に示したように、スライス数が2倍の6×6に設定される。ステップS24では、前記6×6のスライスでズーム範囲Z(Cx)を切出スライスの4×4内に包含できるか否かが判定され、ここでは包含できると判定されるのでステップS25へ進む。ステップS25では、前記ズーム範囲Z(Cx)を包含できる4×4のスライスが切り出される。ステップS26では、前記切り出されたスライスがズーム映像として配信される。
【0073】
図1を改めて参照し、映像配信装置1において、ズーム用映像生成部101は、元映像ごとにズーム率に応じて解像度の異なる複数のズーム用映像ファイルを生成し、H.264符号化方式により符号化されてズーム用映像DBに102に保存される。本実施形態では、前記大ズーム用映像、中ズーム用映像、小ズーム用映像およびズーム無し映像の各符号化ファイルが保存される。
【0074】
ショット分割部103は、前記図6を参照して説明したように、元映像をショット境界においてショット分割する。ズーム範囲設定部104は、元映像から切り出してズーム映像として配信する前記ズーム範囲Z(Cx)を、元映像に含まれる重要領域に基づいて設定する。前記ズーム範囲設定部104において、代表フレーム取得部104aは、元映像から代表フレームを取得する。重要領域抽出部104bは、各代表フレームから重要領域を抽出する。重要矩形設定部104cは、代表フレーム毎に全ての重要領域を包含できる矩形範囲を重要矩形Cxとして設定する。
【0075】
ズーム切替点検出部104dは、前記矩形範囲の同一ショット内での時系列変化に基づいて、同一ショット内でズーム位置やズーム率を切り替えるズーム切替点を検出する。ズーム範囲拡張部104eは、前記重要矩形Cxを配信アスペクト比の最小範囲まで拡張してズーム範囲Z(Cx)に設定する。本実施形態では、重要矩形が時系列で変化するので、ズーム範囲も時系列で変化することになる。
【0076】
ズーム率決定部105は、前記ズーム範囲Z(Cx)のサイズに応じてズーム率を決定する。ズーム条件決定部106は、前記ズーム率に応じたズーム用映像ファイルから前記ズーム範囲を包含するズーム映像を適正に切り出すズーム条件として、切り出し対象となるズーム用映像ファイル、当該ズーム用映像ファイルのスライス方法、およびズーム映像として切り出す座標データを決定してズーム条件DB107に蓄積する。
【0077】
図27は、前記ズーム条件の一例を示した図であり、本実施形態では、ズーム条件が4つの数値で表現され、上位側から順に、「ズームの切り替えフレーム番号」、「表示指定座標1(ズーム範囲の左上座標)」、「表示指定座標2(ズーム範囲の右下座標)」、「拡大率(4段階)」を表現している。したがって、図中のズーム条件 [275,320,240,2] は、「第275フレームから、表示指定座標1が320で表示指定座標1が240のズーム範囲を拡大率「2」でズームする」ことを意味している。
【0078】
ズーム制御部108は、前記ズーム条件に基づいて、前記ズーム範囲を包含するズーム映像をズーム用映像ファイルから切り出し、これを配信部109から再生端末2へ配信する。このとき、ズーム配信用の映像データは、その音声データと共に多重化され、例えばRTP等の伝送フォーマットで伝送される。この際、ズーム位置に関する座標情報が一定間隔(例えば1秒毎)で再生端末側へ送信されるようにしても良い。この座標情報は、例えばRTCP等を用いて映像データや音声データとは別に送信されるようにしても良いし、あるいは前記RTPのヘッダ等に記述して前記映像データや音声データと同一のパケットで送信されるようにしても良い。
【0079】
再生端末2において、映像受信部201は、前記映像配信システムからズーム映像を受信し、映像再生部202へ転送して再生させる。ユーザ操作受付部203は、ズーム再生を要求するキー入力などのユーザ操作を受け付けて操作信号に変換する。この操作信号は操作信号送信部204から映像配信装置1へ送信される。
【0080】
図28は、本実施形態における再生端末側での再生例を示した図であり、再生画面には、ズーム映像251と共に、当該ズーム映像の元映像上での範囲を示す案内表示252と、自動拡大の開始/中止を指示するスイッチ253が設けられている。前記案内表示252の内容は、前記映像配信装置1から送信されるズーム位置の座標情報に基づいて生成され、図示の例は、現在のズーム位置が中央上部であることを示している。
【0081】
また、本実施形態では端末ユーザが画面上でタッピング等によりズーム配信を要求すると、この操作信号が映像配信装置1へ送信され、操作信号受信部110により受信されてユーザ操作分析部111へ通知される。ユーザ操作分析部111は、前記ユーザ操作を分析して、端末ユーザにより要求されたズーム条件を識別する。前記ズーム制御部108は、前記ズーム条件設定部により自動的に設定されたズーム条件よりも、前記端末ユーサにより指定されたズーム条件を優先させてズーム映像を切り出す。
【符号の説明】
【0082】
1…映像配信装置,2…再生端末,101…ズーム用映像生成部,102…ズーム用映像DB,103…ショット分割部,104…ズーム範囲設定部,105…ズーム率決定部,106…ズーム条件決定部,107…ズーム条件DB,108…ズーム制御部,109…配信部,110…操作信号受信部,111…ユーザ操作分析部,201…映像受信部,202…映像再生部,203…ユーザ操作受付部,204…操作信号送信部
【特許請求の範囲】
【請求項1】
映像コンテンツのズーム映像をストリーミング配信する映像配信装置において、
映像コンテンツごとにズーム率に応じて解像度の異なる複数のズーム用映像を記憶する手段と、
映像コンテンツのフレームから重要領域を抽出する手段と、
前記重要領域を含む矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定する手段と、
前記ズーム範囲のサイズに応じてズーム率を決定する手段と、
前記ズーム率に応じたズーム用映像およびズーム映像の切り出し範囲を含むズーム条件を設定する手段と、
前記ズーム条件に基づいてズーム映像を切り出す手段と、
前記切り出されたズーム映像を配信する手段とを具備したことを特徴とする映像配信装置。
【請求項2】
前記映像コンテンツをショット分割する手段と、
各ショットから代表フレームを取得する手段とをさらに具備し、
前記重要領域を抽出する手段は、各代表フレームから重要領域を抽出することを特徴とする請求項1に記載の映像配信装置。
【請求項3】
前記ズーム範囲を設定する手段は、
代表フレームごとに前記重要領域を含む矩形を重要矩形に設定する手段(104c)と、
各代表フレームの重要矩形の位置を時系列で比較し、前記重要矩形同士の距離が所定の閾値を下回る範囲ごとに各代表フレームの重要矩形を一つに統合する手段とを具備し、
前記各重要矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定することを特徴とする請求項2に記載の映像配信装置。
【請求項4】
前記ズーム映像を切り出す手段は、ズーム率に応じたズーム用映像をn×mにスライスし、当該n×mにスライスされたズーム用映像から前記ズーム範囲を含むp×qのスライスをズーム映像として切り出し、
前記ズーム映像を切り出す手段は、前記ズーム範囲を前記p×qのスライス内に含ませることができないときに、前記ズーム用映像を前記n×mよりも細かくスライスすることを特徴とする請求項1ないし3のいずれかに記載の映像配信装置。
【請求項5】
ズーム映像の座標位置を前記ズーム映像と共に送信する手段をさらに具備したことを特徴とする請求項1ないし4のいずれかに記載の映像配信装置。
【請求項6】
ズーム映像の配信を要求する操作信号を映像再生端末から受信する手段と
前記操作信号を分析してズーム条件を取得する手段とを具備し、
前記ズーム映像を切り出す手段は、前記ズーム条件を設定する手段により設定されたズーム条件よりも、前記操作信号を分析して取得されたズーム条件を優先させることを特徴とする請求項1ないし5のいずれかに記載の映像配信装置。
【請求項1】
映像コンテンツのズーム映像をストリーミング配信する映像配信装置において、
映像コンテンツごとにズーム率に応じて解像度の異なる複数のズーム用映像を記憶する手段と、
映像コンテンツのフレームから重要領域を抽出する手段と、
前記重要領域を含む矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定する手段と、
前記ズーム範囲のサイズに応じてズーム率を決定する手段と、
前記ズーム率に応じたズーム用映像およびズーム映像の切り出し範囲を含むズーム条件を設定する手段と、
前記ズーム条件に基づいてズーム映像を切り出す手段と、
前記切り出されたズーム映像を配信する手段とを具備したことを特徴とする映像配信装置。
【請求項2】
前記映像コンテンツをショット分割する手段と、
各ショットから代表フレームを取得する手段とをさらに具備し、
前記重要領域を抽出する手段は、各代表フレームから重要領域を抽出することを特徴とする請求項1に記載の映像配信装置。
【請求項3】
前記ズーム範囲を設定する手段は、
代表フレームごとに前記重要領域を含む矩形を重要矩形に設定する手段(104c)と、
各代表フレームの重要矩形の位置を時系列で比較し、前記重要矩形同士の距離が所定の閾値を下回る範囲ごとに各代表フレームの重要矩形を一つに統合する手段とを具備し、
前記各重要矩形を配信アスペクト比の最小サイズまで拡張してズーム範囲に設定することを特徴とする請求項2に記載の映像配信装置。
【請求項4】
前記ズーム映像を切り出す手段は、ズーム率に応じたズーム用映像をn×mにスライスし、当該n×mにスライスされたズーム用映像から前記ズーム範囲を含むp×qのスライスをズーム映像として切り出し、
前記ズーム映像を切り出す手段は、前記ズーム範囲を前記p×qのスライス内に含ませることができないときに、前記ズーム用映像を前記n×mよりも細かくスライスすることを特徴とする請求項1ないし3のいずれかに記載の映像配信装置。
【請求項5】
ズーム映像の座標位置を前記ズーム映像と共に送信する手段をさらに具備したことを特徴とする請求項1ないし4のいずれかに記載の映像配信装置。
【請求項6】
ズーム映像の配信を要求する操作信号を映像再生端末から受信する手段と
前記操作信号を分析してズーム条件を取得する手段とを具備し、
前記ズーム映像を切り出す手段は、前記ズーム条件を設定する手段により設定されたズーム条件よりも、前記操作信号を分析して取得されたズーム条件を優先させることを特徴とする請求項1ないし5のいずれかに記載の映像配信装置。
【図1】
【図5】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図27】
【図2】
【図3】
【図4】
【図6】
【図25】
【図26】
【図28】
【図29】
【図5】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図27】
【図2】
【図3】
【図4】
【図6】
【図25】
【図26】
【図28】
【図29】
【公開番号】特開2012−178702(P2012−178702A)
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2011−40400(P2011−40400)
【出願日】平成23年2月25日(2011.2.25)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願日】平成23年2月25日(2011.2.25)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】
[ Back to top ]