説明

画像生成装置、情報端末、画像生成方法及びプログラム

【課題】視聴履歴から動的輪郭モデルを適用して視聴者にとって最適な提示領域を推定すること。
【解決手段】本発明にかかる画像生成装置1は、複数の入力画像から一つの画像を生成するものである。前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定部14を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像生成装置、情報端末、画像生成方法及びプログラムに関し、特に、例えば、複数の視聴者により原画像から選択された部分領域の集合である視聴履歴から動的輪郭モデルを適用して視聴者にとって最適な提示領域を推定して、画像を生成するのに好適な画像生成装置、情報端末、画像生成方法及びプログラムに関する。
【背景技術】
【0002】
動画像コンテンツやテキストなどのビジュアルコンテンツを視る際、視聴者にとって最も満足度が高くなるような空間的な切り出し範囲(最適提示領域)が存在する。例えば、サッカーの試合を撮影した動画像コンテンツの場合、フィールド全体ではなく、ボール付近をズームして動きを追ったものを提示する場合を指す。
【0003】
近年、家庭用テレビの大画面化、テレビ付き携帯電話の発売等、映像の視聴環境が多様化している。そのため、視聴者が高解像度のビジュアルコンテンツを低解像度のディスプレイで視聴する状況が生じている。その際、高解像度のビジュアルコンテンツの画像全体を単純にダウンサンプリングすることが一般的に行われている。
【0004】
そこで、特許文献1には、携帯端末で動画像コンテンツを視聴する環境において、視聴者が自在に空間的切り出しを行うことのできるインタフェースが提案されている。また、非特許文献1には、複数人の動画像コンテンツ視聴者により行われた切り出し操作履歴について、操作履歴を効率良く収集するために,視聴者が動画像コンテンツを視聴中に自身の嗜好に合わせて簡単に切り出し操作を行えるようなインターフェースが提案されている。
【0005】
一方、非特許文献2には、静止画像からの輪郭抽出を行うためのモデルとして、動的輪郭モデル(Active Contour Model)であるSnakesが提案されている。動的輪郭モデルとは、画像中の物体領域抽出などに利用されるアルゴリズムであり、輪郭によって決まるエネルギー関数を定義し、このエネルギーを最小化することによって輪郭を収束させ、所定の目的を達成するものである。
【0006】
さらに、非特許文献3には、時空間画像中の動物体に対応する領域を抽出するためのモデルとして、Active Tubesが提案されている。Active Tubesは、Snakesを時空間画像へ適用したとみなすことができ、非特許文献2と同様にエネルギー最小化の手法を用いて、時空間画像中の物体を抽出することができる。
【特許文献1】特開2005−341398号公報
【非特許文献1】岩下英史, 宮田高道, 酒井善則, "視聴者の操作履歴に基づく動画像コンテンツのトリミング手法の提案, " IMPS2006, pp. 55-56, (Nov. 2006).
【非特許文献2】M. Kass, A. witkin, and D. Terzopoulos, "Snakes : active contour models," International Journal of Computer Vision, vol.1, no.4, pp. 321-331,(1988).
【非特許文献3】古川亮, 今井正和, 烏野武, "時空間画像を利用した弾性輪郭モデルとその収束方法, " 電子情報通信学会論文誌, D-II, Vol. J79-D-II, No.6,pp. 1054-1063, (Jun. 1996).
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら特許文献1に記載のインタフェースでは、視聴者により切り出された切り出し領域を画面に表示することができるが、複数の視聴者による異なる切り出し領域から最適提示領域を推定することはできない。また、非特許文献1に記載のインタフェースでは、複数の視聴者からの操作履歴を収集することができるが、それらから最適提示領域を推定する具体的な方法については、開示されていない。
【0008】
また、非特許文献2に記載のSnakesでは、対象とする画像内の物体の輪郭を抽出するものであるが、抽出される輪郭は、表示される画面の形式とは対応しておらず、画面に表示される際に、最適提示領域となるとは限らない。さらに、非特許文献3に記載のActive Tubesでは、Snakesと比べ、時空間画像に適用可能であるが、やはり、原画像自体の特徴(輝度情報)から輪郭を抽出するものであるため、最適提示領域が抽出されるとは限らない。
【0009】
本発明は、このような問題点を解決するためになされたものであり、視聴履歴から動的輪郭モデルを適用して視聴者にとって最適な提示領域を推定することができる画像生成装置、情報端末、画像生成方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明にかかる画像生成装置は、複数の入力画像から一つの画像を生成するものである。前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定部を備える。
【0011】
本発明においては、一つの原画像に対する複数の選択領域から、最も共通する領域を含むような領域を推定する。これにより、多くの共通領域を含む提示領域を推定でき、複数の選択領域において平均的な領域を推定することができる。
【0012】
また、前記絞込エネルギーは、前記推定領域の内部に関する内部エネルギーと、前記推定領域の外部に関する外部エネルギーとを有し、前記内部エネルギーは、前記推定領域の画像が共通するほどエネルギーが小さくなり、前記外部エネルギーは、前記推定領域の外部に共通する画像が少ないほどエネルギーが小さくなるようにするとよい。これにより、より正確な領域を推定できる。
【0013】
また、前記エネルギー関数は、前記推定領域のサイズを目標値に近付けるサイズ調整エネルギーをさらに含むようにするとよい。これにより、サイズの目標値に近い提示領域を推定できる。
【0014】
また、前記入力画像は、原画像の一部の領域が切り出されたものであって、前記エネルギー関数は、前記原画像間で切り出された位置が一致するほど小さくなる画像間調整エネルギーをさらに含むようにするとよい。これにより、フレーム間の位置の移動量が調整され、推定される領域の品質を向上できる。
【0015】
さらに、複数の前記原画像は、複数のフレームから構成される時系列データであって、前記画像間調整エネルギーは、前後のフレームの切り出し位置を直線で結び、前記前後の間のフレームの切り出し位置が前記直線に近付くほどエネルギーが小さくなるようにするとよい。これにより、フレーム間の位置の移動量が調整され、推定される領域の品質をさらに向上できる。
【0016】
また、前記推定領域は、矩形であり、前記エネルギー関数は、前記推定領域の縦横の比率を一定に保つ縦横比調整エネルギーをさらに有するようにするとよい。これにより、領域の縦横の比率における品質を向上できる。
【0017】
また、前記複数の入力画像は、1又は複数の画像における一部又は全てが切り出された画像であるとよい。これにより、動画像において、画像内の一部における共通領域を推定できる。
【0018】
また、前記複数の入力画像は、前記原画像を視聴する複数の視聴者により選択された領域の集合である視聴履歴であるとよい。これにより、多くの視聴者が希望する提示領域を推定できる。
【0019】
また、前記視聴履歴を記憶する視聴履歴記憶部と、前記視聴履歴記憶部を参照し、領域ごとに視聴者数を集計したヒストグラムを生成する集計処理部とをさらに備えるようにするとよい。これにより、視聴者数を密度としてエネルギーに定義することができる。
【0020】
また、前記領域推定部は、前記エネルギー関数を貪欲法により最小化し、前記貪欲法の繰り返し回数が所定回数以下の場合、前記外部エネルギー及び前記画像間調整エネルギー以外の前記エネルギー関数を最小化する領域を求めるようにするとよい。これにより、収束効率を高めることができる。
【0021】
また、前記視聴者により選択された領域を入力画像として受け付け、前記視聴履歴記憶部へ格納する入力受付部をさらに備えるようにするとよい。これにより、視聴者の自由な範囲選択が可能となる。
【0022】
また、前記動的輪郭モデルは、前記原画像のレイアウト情報に関するエネルギーをさらに含むエネルギー関数が定義され、前記領域推定部は、当該動的輪郭モデルを用いて、推定領域を求めるとよい。これにより、WEBコンテンツのレイアウト情報を利用した提示領域の推定ができる。
【0023】
本発明にかかる情報端末は、前記原画像を表示し、前記視聴者により選択された領域を判別し、当該領域の情報を本発明にかかる画像生成装置へ送信するものである。これにより、選択領域の自動収集が可能となる。
【0024】
本発明にかかる画像生成方法は、複数の入力画像から一つの画像を生成するものである。前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定ステップを備える。これにより、多くの共通領域を含む提示領域を推定でき、複数の選択領域において平均的な領域を推定することができる。
【0025】
また、前記絞込エネルギーは、前記推定領域の内部に関する内部エネルギーと、前記推定領域の外部に関する外部エネルギーとを有し、前記内部エネルギーは、前記推定領域の画像が共通するほどエネルギーが小さくなり、前記外部エネルギーは、前記推定領域の外部に共通する画像が少ないほどエネルギーが小さくなるようにするとよい。これにより、より正確な領域を推定できる。
【0026】
また、前記エネルギー関数は、前記推定領域のサイズを目標値に近付けるサイズ調整エネルギーをさらに含むとよい。これにより、サイズの目標値に近い提示領域を推定できる。
【0027】
また、前記入力画像は、原画像の一部の画像領域が切り出されたものであって、前記エネルギー関数は、前記原画像間で切り出された位置が一致するほど小さくなる画像間調整エネルギーをさらに含むとよい。これにより、フレーム間の位置の移動量が調整され、推定される領域の品質を向上できる。
【0028】
また、複数の前記原画像は、複数のフレームでから構成される時系列データであって、前記画像間調整エネルギーは、前後のフレームの切り出し位置を直線で結び、前記前後の間のフレームの切り出し位置が前記直線に近付くほどエネルギーが小さくなるようにするとよい。これにより、フレーム間の位置の移動量が調整され、推定される領域の品質をさらに向上できる。
【0029】
また、前記推定領域は、矩形であり、前記エネルギー関数は、前記推定領域の縦横の比率を一定に保つ縦横比調整エネルギーをさらに有するとよい。これにより、領域の縦横の比率における品質を向上できる。
【0030】
また、前記複数の入力画像は、1又は複数の画像における一部又は全てが切り出された画像であるとよい。これにより、動画像において、画像内の一部における共通領域を推定できる。
【0031】
また、前記複数の入力画像は、前記原画像を視聴する複数の視聴者により選択された領域の集合である視聴履歴であるとよい。これにより、多くの視聴者が希望する提示領域を推定できる。
【0032】
また、前記視聴履歴から、領域ごとに視聴者数を集計したヒストグラムを生成する集計処理ステップとをさらに備えるようにするとよい。これにより、視聴者数を密度としてエネルギーに定義することができる。
【0033】
また、前記領域推定ステップは、前記エネルギー関数を貪欲法により最小化し、前記貪欲法の繰り返し回数が所定回数以下の場合、前記外部エネルギー及び前記画像間調整エネルギー以外の前記エネルギー関数を最小化する領域を求めるようにするとよい。これにより、収束効率を高めることができる。
【0034】
また、前記視聴者により選択された領域を入力画像として受け付け、前記視聴履歴記憶部へ格納する入力受付ステップをさらに備えるようにするとよい。これにより、視聴者の自由な範囲選択が可能となる。
【0035】
また、前記動的輪郭モデルは、前記原画像のレイアウト情報に関するエネルギーをさらに含むエネルギー関数が定義され、前記領域推定ステップは、当該動的輪郭モデルを用いて、推定領域を求めるとよい。これにより、WEBコンテンツのレイアウト情報を利用した提示領域の推定ができる。
【0036】
本発明にかかるプログラムは、上述した画像生成方法の処理をコンピュータに実行させるものである。
【発明の効果】
【0037】
本発明によれば、視聴履歴から動的輪郭モデルを適用して視聴者にとって最適な提示領域を推定することができる画像生成装置、情報端末、画像生成方法及びプログラムを提供することができる。
【発明を実施するための最良の形態】
【0038】
以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。
【0039】
発明の実施の形態1.
本発明は、複数の入力画像から、一つの画像を生成する画像生成装置に関するものである。画像生成装置は、動的輪郭モデルを用いて、当該複数の入力画像から最も共通する画像を含むような推定領域を求める領域推定部を備えたものである。このとき、動的輪郭モデルとしては、当該複数の入力画像から最も共通する画像を含むような領域を絞り込む絞込エネルギーを含むエネルギー関数を定義する。そして、領域推定部は、当該エネルギー関数を最小化するよう当該複数の入力画像から推定領域を求めることにより、推定領域に基づいた画像を生成する。
【0040】
本発明の実施の形態1においては、複数の入力画像として、予め、複数の視聴者が動画像コンテンツから所望の箇所を切り出した選択領域を用い、選択領域の内、共通する領域が多いものを推定領域として求める。そして、推定領域を求めるために、動的輪郭モデルに基づくエネルギー関数を定義する。当該エネルギー関数は、選択領域における視聴者数を視聴者の注目と捉え、視聴者数の多い領域を推定領域として絞り込む絞込エネルギーを含むものである。また、当該エネルギー関数は、上述した絞込エネルギーに加え、推定領域のサイズを目標値に近付けるエネルギー、選択領域のサイズ、縦横の比率を調整するエネルギー、及び、動画像コンテンツの複数のフレーム間の移動を滑らかにするエネルギーが定義されている。次に、本発明の実施の形態1における画像生成装置について更に詳細に説明する。
【0041】
図1、及び図2は、本発明の実施の形態1にかかる画像生成装置1の構成例を示す図である。図1は、画像生成装置1が、情報端末3a、3b、及び3cへビジュアルコンテンツを配信し、情報端末3a、3b、及び3cを使用する各視聴者におけるビジュアルコンテンツの視聴履歴を取得する流れを説明する図である。図2は、画像生成装置1が、当該視聴履歴に基づき領域推定処理を行い、推定領域コンテンツを生成し、当該推定領域コンテンツを、情報端末3d、3e、及び3fその他の情報端末に対して、配信する流れを説明する図である。これにより、視聴者は、当該ビジュアルコンテンツにおける最適提示領域を視聴することができる。
【0042】
画像生成装置1は、コンテンツ配信部11、入力受付部12、集計処理部13、領域推定部14、切り出し処理部15、コンテンツ記憶部21、視聴履歴記憶部22、ヒストグラム記憶部23、推定領域コンテンツ記憶部24を備える。画像生成装置1は、汎用的なコンピュータシステムにより構成されていればよく、例えば、動画像コンテンツの配信を行うWEBサーバであればよい。また、画像生成装置1は、ネットワーク(不図示)を介して、情報端末3a、3b、及び3cと接続されており、ビジュアルコンテンツその他の情報を送受信可能である。
【0043】
コンテンツ記憶部21は、情報端末3a、3b、及び3cへ配信されるビジュアルコンテンツを記憶する。ここで、ビジュアルコンテンツとは、例えば、複数のフレームから構成される時系列データからなる動画像コンテンツ、又はテキスト等である。また、各フレームは、矩形であり、複数のピクセルで構成され、各ピクセルの位置は、フレーム内の座標で特定することができる。
【0044】
コンテンツ配信部11は、情報端末3a、3b、又は3cからのコンテンツ配信要求に応じてコンテンツ記憶部21を参照し、要求元である情報端末へビジュアルコンテンツを送信する。尚、コンテンツ配信部11は、コンテンツ記憶部21に格納されたビジュアルコンテンツを情報端末3a、3b、及び3cへ一斉に配信するようにしても構わない。また、コンテンツ配信部11は、切り出し処理部15から送られる切り出し後のビジュアルコンテンツを要求元である情報端末へ送信する。さらに、コンテンツ配信部11は、情報端末3d、3e、又は3fからの推定領域コンテンツ配信要求に応じて推定領域コンテンツ記憶部24を参照し、要求元である情報端末へ推定領域コンテンツを送信する。
【0045】
入力受付部12は、情報端末3a、3b、又は3cからの視聴履歴データを受信し、視聴履歴記憶部22へ格納する。その際、入力受付部12は、情報端末3a、3b、又は3cを操作する各視聴者と、選択領域とを対応付ける。また、入力受付部12は、当該選択領域を切り出し処理部15へ送る。
【0046】
切り出し処理部15は、入力受付部12から選択領域を取得し、コンテンツ記憶部21を参照し、当該選択領域に基づきビジュアルコンテンツを切り出し、切り出し後のビジュアルコンテンツをコンテンツ配信部11へ送る。
【0047】
視聴履歴記憶部22は、情報端末3a、3b、及び3cを操作する各視聴者による当該ビジュアルコンテンツの視聴履歴データを記憶する。ここで、視聴履歴データは、情報端末3a、3b、及び3cの画面に表示される当該ビジュアルコンテンツを各視聴者がフレームごとに選択した部分領域である選択領域を表わす情報である。また、選択領域は、矩形とし、例えば、矩形の左上と右下の2点(ピクセル)の座標、矩形の4隅の点の座標、矩形の角1点の座標と矩形の高さ、及び幅の情報、又は、矩形内のすべてのピクセルの座標等で表現されるものとする。つまり、視聴履歴データは、視聴者当たり各フレームのどのピクセル集合が選択されたかを表わす情報である。尚、選択領域は、本実施の形態においては矩形とするが、これに限定されない。
【0048】
集計処理部13は、視聴履歴記憶部22を参照し、視聴履歴データからピクセル当たりの視聴者数を集計し、集計ヒストグラム情報を生成し、当該集計ヒストグラム情報をヒストグラム記憶部23へ格納する。ここで、集計ヒストグラム情報は、各フレーム、各ピクセルにおける視聴者数を値とする情報である。
【0049】
ヒストグラム記憶部23は、集計処理部13により生成される集計ヒストグラム情報を記憶する。図7は、集計ヒストグラム情報をグラフ表示した例を示す図である。図7に示すグラフは、三次元空間のグラフをあるフレームにおけるフレーム高さ、フレーム幅、及び視聴者数で表現したものである。ここで、フレーム高さ、及びフレーム幅は、あるフレームにおけるピクセル当たりのx、y座標に対応する。そのため、グラフ上の視聴者数が高い領域は、より多くの視聴者に選択された領域であることを示し、言い換えると、多くの選択領域に共通する領域であることを示す。
【0050】
領域推定部14は、ヒストグラム記憶部23を参照し、後述するエネルギー関数から、エネルギーを最小化する領域を求め、推定領域として推定する。その後、領域推定部14は、推定領域に基づき、コンテンツ記憶部21を参照し、当該ビジュアルコンテンツから画像データを生成し、推定領域コンテンツとして推定領域コンテンツ記憶部24へ格納する。
【0051】
推定領域コンテンツ記憶部24は、後述する領域推定部14により推定された領域に基づき、当該ビジュアルコンテンツから生成される推定領域コンテンツを記憶する。
【0052】
コンテンツ記憶部21と、視聴履歴記憶部22と、ヒストグラム記憶部23と、推定領域コンテンツ記憶部24とは、ハードディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置でもよいし、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置であってもよい。
【0053】
尚、画像生成装置1の構成は図1、及び図2に限定されない。例えば、コンテンツ配信部11、入力受付部12、集計処理部13、切り出し処理部15は、それぞれ別のコンピュータシステムにより実現され、画像生成装置1に接続、もしくは、ネットワークを介して通信可能であればよい。また、コンテンツ記憶部21、視聴履歴記憶部22、ヒストグラム記憶部23、推定領域コンテンツ記憶部24は、それぞれ別の記憶装置で実現され、画像生成装置1と接続されていても構わない。
【0054】
図1に示す情報端末3a、3b、及び3cは、画像生成装置1とネットワークを介して接続されており、画像生成装置1へコンテンツ配信要求を送信し、画像生成装置1から配信されるビジュアルコンテンツを受信し、画面に表示するものである。また、情報端末3a、3b、及び3cは、当該画面に表示されたビジュアルコンテンツに対して、視聴者が視聴する領域を切り出すことができるインタフェースを備えるものとする。情報端末3a、3b、及び3cは、例えば、非特許文献1に開示された動画像コンテンツを視聴しながら画像の切り出し(トリミング)を行えるインタフェースを備えていればよい。また、情報端末3a、3b、及び3cは、画像の切り出しを指示するためにマウス等の入力デバイスを備えている。尚、情報端末3a、3b、及び3cの台数は、これに限定されない。また、情報端末3a、3b、及び3cの機能は、画像生成装置1内に実現されていてもよい。
【0055】
図2に示す情報端末3d、3e、及び3fは、画像生成装置1とネットワークを介して接続されており、画像生成装置1へ推定領域コンテンツ配信要求を送信し、画像生成装置1から配信される推定領域コンテンツを受信し、画面に表示するものである。情報端末3d、3e、及び3fは、汎用的なコンピュータシステムであればよい。例えば、WEBブラウザを備えたコンピュータであればよい。尚、情報端末3d、3e、及び3fの台数は、これに限定されない。また、推定領域コンテンツを受信し、表示する情報端末は、情報端末3a、3b、及び3cであってもよい。
【0056】
尚、切り出し処理部15は、情報端末3a、3b、及び3cにあってもよい。例えば、情報端末3aは、情報端末3aを使用する視聴者が切り出した選択領域を取得し、受信したビジュアルコンテンツから当該選択領域に基づき切り出しを行い、切り出し後のビジュアルコンテンツを画面に表示するようにすればよい。
【0057】
以下に、本発明の実施の形態1の適用例の概略処理を図3のフローチャート図を参照しながら説明する。尚、図1は、図3のステップS11における処理の流れを示す図であって、情報端末3a、3b、及び3cから視聴履歴を収集する動作を説明する図である。また、図2は、ステップS12乃至S14における処理の流れを示す図であって、収集された視聴履歴から推定領域コンテンツを生成する動作を説明する図である。
【0058】
図1に示すように、まず、画像生成装置1は、情報端末3a、3b、及び3cから各視聴者における選択領域の情報を収集する(S11)。具体的には、まず、画像生成装置1は、情報端末3aからのコンテンツ送信要求を受信し、コンテンツ配信部11により、コンテンツ記憶部21に格納されたビジュアルコンテンツを要求元の情報端末3aへ送信する。次に、情報端末3aは、ビジュアルコンテンツを受信し、画面に表示する。そして、情報端末3aの視聴者は、後述する図6に示す領域選択画面50を通して、表示されるビジュアルコンテンツから視聴する領域を選択する。その後、情報端末3aは、当該選択領域を画像生成装置1へ送信する。そして、画像生成装置1の入力受付部12は、情報端末3aから視聴履歴データを受信し、視聴履歴記憶部22へ格納する。また、このとき、切り出し処理部15は、入力受付部12から取得した当該選択領域に基づき、コンテンツ記憶部21に格納されたビジュアルコンテンツから切り出し後のビジュアルコンテンツを生成し、コンテンツ配信部11は、切り出し後のビジュアルコンテンツを情報端末3aへ送信する。尚、ステップS11は、情報端末3a、3b、及び3cの全てについて行われる。
【0059】
尚、ステップS11における選択領域の収集処理は、上述した処理に限定されない。例えば、当該ビジュアルコンテンツに対する複数の選択領域を表わす情報自体を、画像生成装置1の外部から直接、視聴履歴記憶部22に格納してもよい。
【0060】
次に、図2に示すように、画像生成装置1は、集計ヒストグラム情報を生成する(S12)。具体的には、画像生成装置1の集計処理部13は、視聴履歴記憶部22を参照し、各視聴者の選択領域をピクセル単位に分割し、ピクセル当たりの視聴者数を集計して集計ヒストグラム情報を生成し、当該集計ヒストグラム情報をヒストグラム記憶部23へ格納する。つまり、異なる視聴者における視聴履歴データに同一のピクセルが存在する場合、同一のピクセルを選択したとみなす。すなわち、集計ヒストグラム情報は、複数の選択領域において、共通するピクセル(画像)が多いほど、値(視聴者数)が大きくなる。
【0061】
続いて、図2に示すように、画像生成装置1は、領域の推定を行う(S13)。具体的には、まず、画像生成装置1の領域推定部14は、ヒストグラム記憶部23を参照し、集計ヒストグラム情報を取得する。次に、領域推定部14は、集計ヒストグラム情報を後述するエネルギー関数に入力し、図5に示すエネルギー最小化処理により、最適解を求める。すなわち、領域推定部14は、当該エネルギー関数を最小化する領域を示すピクセルの集合を算出する。続いて、領域推定部14は、最適解である推定領域に基づき、コンテンツ記憶部21を参照し、当該ビジュアルコンテンツから画像データを生成する。そして、領域推定部14は、生成された画像データを推定領域コンテンツとして推定領域コンテンツ記憶部24へ格納する。
【0062】
その後、図2に示すように、画像生成装置1は、情報端末3a、3b、及び3cへ推定領域コンテンツを配信する(S14)。具体的には、まず、画像生成装置1は、情報端末3aからの推定領域コンテンツ送信要求を受信し、コンテンツ配信部11により、推定領域コンテンツ記憶部24に格納された推定領域コンテンツを要求元の情報端末3aへ送信する。次に、情報端末3aは、推定領域コンテンツを受信し、画面に表示する。これにより、情報端末3aの視聴者は、元のビジュアルコンテンツではなく、最適な提示領域が推定されたビジュアルコンテンツを視聴することができる。また、画像生成装置1は、情報端末3b、及び3cその他の情報端末に対しても、同様に、推定領域コンテンツを配信することができる。
【0063】
ここで、本発明の実施の形態1にかかる領域推定処理で採用される動的輪郭モデルについて説明する。図4は、動的輪郭モデルの適用例を示す図である。図4(a)は、中央に位置する対象物体4について、動的輪郭モデルを適用する際の初期状態を表わし、図4(b)は、動的輪郭モデルの適用による対象物体4の輪郭への収束後の状態を表わす。対象物体4は、対象領域がエッジで囲まれているものである。そして、動的輪郭モデルは、当該エッジを閉曲線として抽出することで、対象物体4の輪郭を抽出するものである。
【0064】
図4(a)において、領域40は、代表点41乃至48により囲まれた領域であり、初期状態における対象物体4の輪郭を表わす。ここで、代表点の数、及び位置は、初期状態で任意に与えられたものであり、これに限定されない。代表点41乃至48は、対象物体4に近付くほど小さくなるように定義されたエネルギー関数により、当該エネルギー関数を最小化するような点が求められることにより、それぞれ矢印401乃至408の方向へ移動をする。その後、代表点41乃至48は、図4(b)に示す位置で停止し、領域40は、対象物体4の輪郭として収束した状態となる。
【0065】
尚、一般的な動的輪郭モデルでは、対象物体4と背景画像との境界における画素値の差などにより当該エッジの判断が行われるが、本発明の実施の形態1にかかる動的輪郭モデルでは、視聴者数の差により当該エッジの判断が行われる。
【0066】
次に、本発明の実施の形態1で用いるエネルギー関数について説明する。ここでは、動的輪郭モデルにおける輪郭は、有限数の代表点(ノード)vi,jを曲線によって繋いだものとして表される。iは、同一フレーム内でのノード番号、jはフレーム番号を表す。
【0067】
以下に、本発明の実施の形態1で用いるエネルギー関数Etubeを式(1)に定義する。
【数1】

【0068】
ここで、α、β、γ、δ、及びεは、各項に対する重み付け係数である。Ehin、及びEhoutは、多くの視聴者が注目している箇所、すなわち、人気のある位置に近付くエネルギーである。つまり、視聴履歴データの選択領域に共通箇所が多い領域、又は、最も共通する画像を含むような領域に収束するエネルギーである。また、Eframeは、カメラワークを滑らかにしようとするエネルギーである。また、Edis、及びEaspは、それぞれ推定領域を適切な大きさに保つエネルギーと、画面のアスペクト比(縦横比)に近づけるエネルギーである。
【0069】
式(1)におけるそれぞれの項は以下の式(2)、式(3)、式(4)、式(5)、及び式(6)のように表される。但し、vi,j=(xi,j、yi,j)は、フレームjにおけるノードiの座標を示している。このとき、Nは、そのコンテンツの視聴者全体の数、PIN、及びPOUTは、それぞれ推定領域の内側、及び外側のピクセル数、ΣIN、及びΣOUTは、それぞれ推定領域の内側、及び外側の各ピクセルにおける視聴者数の合計である。
【0070】
式(2)に示すように、Ehinは、推定領域の内部に関するエネルギーであり、推定領域の内部の視聴者数が多いほど、又は、推定領域の内部に共通する画像が多いほど、小さくなるエネルギーである。
【数2】

【0071】
式(3)に示すように、Ehoutは、推定領域の外部に関するエネルギーであり、推定領域の外部の視聴者数が少ないほど、又は、推定領域の外部に共通する画像が少ないほど、小さくなるエネルギーである。
【数3】

【0072】
式(4)に示すように、Eframeは、前後のフレームの同一のノードiにおける座標位置が一致するほど、小さくなるエネルギーである。つまり、Eframeは、フレーム間の移動を滑らかにするエネルギーである。または、Eframeは、対象のフレームの前後のフレームの切り出し位置を直線で結び、前記前後の間の対象のフレームの切り出し位置が直線に近付くほど、小さくなるエネルギーである。
【数4】

【0073】
式(5)に示すように、Edisは、フレームjにおける目標とする推定領域のサイズxidea、及びyideaに近付くほど小さくなるエネルギーである。すなわち、Edisは、推定領域のサイズを統一するためのエネルギーである。ここで、xidea、及びyideaは、それぞれ推定領域が近付くべき縦、及び横の幅を表わす。
【数5】

【0074】
式(6)に示すように、Easpは、フレームjにおける推定領域のアスペクト比が、目標とするアスペクト比h/wに近付くほど、小さくなるエネルギーである。すなわち、Easpは、アスペクト比を一定に保つためのエネルギーである。ここで、w、及びhは、それぞれ表示される画面の幅、及び高さを表わす。
【数6】

【0075】
また、xsize(j)、及びysize(j)は、以下の式(7)、及び式(8)で表される。
【数7】

【数8】

【0076】
尚、本発明の実施の形態1にかかる領域推定処理を実現するためには、エネルギー関数Etubeにおいて、Ehinが最低限、定義される必要がある。視聴履歴データを利用するためである。但し、式(2)の内容は、任意である。
【0077】
また、式(3)、式(4)、式(5)、及び式(6)の内容がこれに限定されないことは勿論である。さらに、エネルギー関数Etubeにおいては、式(1)に加えて、他のエネルギーが追加で定義されても構わない。
【0078】
図5は、本発明の実施の形態1にかかるエネルギー最小化処理を示すフローチャート図である。エネルギー最小化には、貪欲法(Greedy Algorithm)を用いる。尚、Greedy Algorithmは、公知技術としてよく知られているものであるから、ここでは詳細な説明を省略する。
【0079】
ここでは、式(1)における各々のパラメータを、N=32、w=180、h=120、xidea=360、及びyidea=240とする。また、Greedy Algorithmに関する探索近傍は、7×7ピクセルとする。すなわち、本発明の実施の形態1にかかるエネルギー最小化処理では、1つの代表点当たり、当該代表点の周囲7×7ピクセルの点について、エネルギー関数値を算出するものとする。但し、これらのパラメータ、探索近傍のピクセル数はこれに限定されるものではない。
【0080】
画像生成装置1の領域推定部14は、式(1)に定義されるエネルギー関数に基づき、視聴履歴データを入力として、エネルギー最小化処理を行う。まず、領域推定部14は、初期代表点を入力する(S21)。ここで、初期代表点は、各フレーム当たり、任意の2点である。例えば、各フレームの左上、及び右下の点であればよい。
【0081】
次に、領域推定部14は、各代表点の近傍ピクセルのエネルギー関数値を算出する(S22)。具体的には、領域推定部14は、代表点vi,j、及び、代表点vi,jの近傍ピクセルにおけるエネルギー関数値を算出する。これを全てのフレーム、及びノードについて行う。
【0082】
そして、領域推定部14は、各代表点vi,jに当たりに、代表点よりエネルギー関数値が小さい近傍ピクセルが存在するか否かを判定する(S23)。いずれかの代表点vi,jにおいて、代表点よりエネルギー関数値が小さい近傍ピクセルが存在すると判定された場合、ステップS24へ進み、存在しないと判定された場合、処理を終了し、この時点での代表点により表わされる領域を推定領域とする。
【0083】
代表点よりエネルギー関数値が小さい近傍ピクセルが存在すると判定された場合、領域推定部14は、該当する代表点vi,jを、エネルギー関数値が最小となる当該近傍ピクセルへ移動させ、次の代表点vi,jとする(S24)。これを、ステップS23において、該当する代表点がなくなるまで繰り返す。
【0084】
尚、ステップS23において、該当する代表点がなくなるまで繰り返すようにしたが、該当する代表点の上限値を設定してもよい。これにより、収束時間が短縮される。
【0085】
さらに、式(1)の収束を助けるため、パラメータα、β、γ、δ、及びεを式(9)に示すように、反復回数rによって変化させることが望ましい。これにより、より収束効率を上げることができる。すなわち、エネルギー最小化処理における反復回数が150回未満の間は、パラメータβ、及びγを0として、式(1)は、式(2)、式(5)、及び式(6)のみで定義されるエネルギー関数とする。そして、反復回数が150回以上になった後に、パラメータβ、及びγを0以外にし、式(1)に、式(3)、及び式(4)の定義をさらに加え、パラメータδ、及びεを変更して、式(5)、及び式(6)に定義されるエネルギー値の重みを調整する。従って、パラメータαの値自体は変更しないが、結果的に式(2)の式(1)における比率は、反復回数が150回未満の間に比べ、調整されたことになる。
【数9】

【0086】
尚、上述したエネルギー最小化処理は、Greedy Algorithmに限定されない。例えば、変分法や動的計画法が適用可能である。しかし、本発明の実施の形態1におけるエネルギー最小化処理は、変分法、及び動的計画法に比べ、Greedy Algorithmが好適である。例えば、変分法の場合、エネルギー最小化における反復処理ごとに逆行列の計算が発生し、計算量、及び精度の観点で最適とは言えない。尚、変分法、及び動的計画法は、公知技術としてよく知られているものであるから、ここでは詳細な説明を省略する。
【0087】
図6は、本発明の実施の形態1にかかる領域選択画面50の例を示す図である。領域選択画面50は、情報端末3a、3b、及び3c内で稼働する選択領域の切り出すためのアプリケーションにより提供されるインタフェースである。
【0088】
領域選択画面50は、情報端末3a、3b、及び3cの画面に表示される。領域選択画面50は、ダウンサンプリング済原画像51と、切り出し画像53とを備える。ダウンサンプリング済原画像51は、画像生成装置1から配信されるビジュアルコンテンツを表示する領域であり、元のビジュアルコンテンツに対して、低解像度で表示される。ダウンサンプリング済原画像51は、切り出し領域52を含む。切り出し領域52は、視聴者のマウス等の操作により、位置、及び大きさが変更可能である。そのため、視聴者は、ダウンサンプリング済原画像51内の切り出し領域52の位置、及び大きさを変更させることができる。
【0089】
切り出し画像53は、切り出し領域52に囲まれた画像が、ダウンサンプリング済原画像51と同じサイズに拡大して表示される領域である。そのため、視聴者は、自身が選択した切り出し領域52の領域を切り出し画像53により確認した上で、画像の切り出しを行うことができる。
【0090】
図7は、動画像コンテンツへの従来技術及び本発明の実施の形態1の適用の比較結果を示す図である。この例では、当該動画像コンテンツは、フレーム内に一つのオブジェクト(ライオン)が存在し、フレーム間で当該オブジェクトが移動する様子を示す。また、比較対象は、当該動画像コンテンツにおけるフレーム0、30、60、90、120とする。また、各視聴者は、図6に示す領域選択画面50を操作し、当該オブジェクト付近を任意に選択領域として選択したものとする。
【0091】
図8は、原画像である高解像度の動画像コンテンツを単純にダウンサンプリングした結果、生成される画像群を示す。図9は、原画像を本発明の実施の形態1にかかる画像生成装置1に適用した結果、推定領域コンテンツとして生成される画像群を示す。このことから、図9は、図8に比べ、当該オブジェクトがより鮮明に表示されることがわかる。また、この結果は、対象となる動画像コンテンツに複数のオブジェクトに対しても、同様に得ることが可能である。
【0092】
このように、本発明の実施の形態1にかかる画像生成装置1を用いることにより、多数の視聴者から集められた多くの履歴情報から全体にとって最適な提示領域を推定することができる。すなわち、集合知を用いることで、原画像に含まれる部分的な領域のうち、より多くの視聴者に選択された領域を推定することができる。
【0093】
また、視聴者の操作履歴から選択領域における視聴者数の集計ヒストグラム情報を生成することで、視聴者の注目箇所をより的確に表現することができ、最適提示領域、すなわち、視聴者全体の満足度の平均が最高となるような領域を推定することができる。
【0094】
さらに、選択領域における視聴者数の集計ヒストグラム情報を用いることで、選択領域内の視聴者数の密度をエネルギーとして定義した動的輪郭モデルを適用することにより、視聴者全体の主観品質を高くする推定領域を求めることができる。
【0095】
特に、本発明の実施の形態1にかかる画像生成方法における動的輪郭モデルでは、複数の視聴者の操作履歴から最適提示領域を推定するために,さまざまな拘束条件を一次元のエネルギーで表現したエネルギー関数を定義した。当該エネルギー関数では、選択領域内の視聴者数の累積数やカメラワークの整合性を導入することにより、単純に動画像全体を縮小する場合に比べて高い主観品質の動画像を生成することができる。
【0096】
尚、上述した領域推定部14では、予め、推定領域から推定領域コンテンツを生成し、推定領域コンテンツ記憶部24に格納するようにしていたが、これに限定されない。例えば、領域推定部14は、推定領域自体を別途、記憶しておき、推定領域コンテンツの配信時に、コンテンツ配信部11が、都度、当該推定領域から推定領域コンテンツを生成した上で配信するようにしてもよい。
【0097】
発明の実施の形態2.
近年、携帯電話へのいわゆる「フルブラウザ」の搭載により、本来はPC(パーソナルコンピュータ)での閲覧を前提に作成されたWEBコンテンツを、その本来のレイアウトを崩さずに携帯電話で閲覧できるようになった。しかしながら、依然として携帯電話のディスプレイは低解像度であり、一度に閲覧できる範囲は本来のWEBコンテンツの一部を切り取った(トリミングした)ものとならざるを得ない。これにより、携帯電話を使用するユーザ(視聴者)がWEBコンテンツのうち、自身が所望する箇所を閲覧できるまでには、大きな労力が求められる。これを助けるため、携帯電話のフルブラウザには、現在視聴している箇所がWEBコンテンツ全体のどの部分にあたるかを提示する縮小画像の表示機能が搭載されていることが多い。しかし、当該縮小画像からWEBコンテンツの各部の内容を把握することは難しいため、問題の部分的な解決に留まっている。
【0098】
そこで、本発明の実施の形態2は、本発明の実施の形態1における領域推定処理の変形例として、携帯電話向けのWEBコンテンツを対象とするものを提供する。つまり、当該WEBコンテンツを同様の携帯電話を用いて閲覧した他ユーザの視聴履歴を利用して、特に人気のある箇所をすばやく表示させることで、携帯電話のディスプレイに自身が所望する箇所を表示させる労力を劇的に減らせることができる。
【0099】
図10は、本発明の実施の形態2における適用例の概略を示す図である。図10おいては、図1、及び図2の画像生成装置1が、キャリアサーバ1a、及びWEBサーバ1bに置き換わり、図1の情報端末3a、3b、及び3cが、携帯電話端末31に置き換わり、図2の情報端末3d、3e、及び3fが、携帯電話端末33に置き換ったものである。また、本発明の実施の形態1にかかるコンテンツ配信部11が、コンテンツ配信部11aに置き換わり、本発明の実施の形態1にかかる推定領域コンテンツ記憶部24が、推定領域情報記憶部25に置き換わったものである。その他、図10において、図1、及び図2と同等の機能を有するものには、同一の符号が付されており、説明を省略する。
【0100】
携帯電話端末31は、ネットワークを介してキャリアサーバ1aと通信可能であり、フルブラウザ32を備えた携帯電話端末である。フルブラウザ32は、キャリアサーバ1aから受信したWEBコンテンツを表示し、当該WEBコンテンツにおける一部を拡大表示することができる。また、フルブラウザ32は、拡大表示された位置をキャリアサーバ1aへ送信することができる。これにより、フルブラウザ32に表示されたWEBコンテンツの内、拡大表示された領域を、視聴者における視聴履歴データとして扱うことができる。
【0101】
尚、携帯電話端末33、及び携帯電話端末33が備えるフルブラウザ34は、携帯電話端末31、及びフルブラウザ32と同様の機能であればよいため、説明を省略する。
【0102】
キャリアサーバ1aは、携帯電話端末31、携帯電話端末33、及びWEBサーバ1bとネットワーク(不図示)を介して通信可能であり、携帯電話端末31、及び携帯電話端末33とWEBサーバ1bとを中継するためのサーバである。WEBブラウジングを含む携帯電話端末による通信は、課金等の都合上、すべて携帯電話会社(キャリア)のサーバを経由する必要があるためである。
【0103】
キャリアサーバ1aの推定領域情報記憶部25は、領域推定部14により求められる推定領域情報を記憶する。ここで、推定領域情報は、WEBコンテンツにおける位置情報である。例えば、WEBコンテンツに含まれているレイアウト情報であればよい。
【0104】
また、キャリアサーバ1aのコンテンツ配信部11aは、携帯電話端末31、又は携帯電話端末33からWEBサーバ1bへのWEBコンテンツのリクエストを中継し、WEBサーバ1bからのWEBコンテンツを携帯電話端末31、又は携帯電話端末33へ送信する。
【0105】
キャリアサーバ1aは、携帯電話端末31、又は携帯電話端末33から当該WEBコンテンツにおける視聴履歴データを受信し、視聴履歴記憶部22に格納する。また、キャリアサーバ1aは、画像生成装置1と同様に、集計処理部13、及び領域推定部14により領域推定情報を生成する。そして、領域推定部14は、推定領域情報記憶部25へ当該推定領域情報を格納する。さらに、コンテンツ配信部11aは、携帯電話端末31、又は携帯電話端末33からの推定領域コンテンツ要求時には、WEBコンテンツに推定領域情報を付加して送信する。
【0106】
WEBサーバ1bは、キャリアサーバ1aと通信可能であり、コンテンツ記憶部21を備えた一般的なWEBサーバである。コンテンツ記憶部21は、PC向けのWEBコンテンツを記憶する。
【0107】
続いて、本発明の実施の形態2における処理の流れを説明する。尚、本発明の実施の形態2の適用例の概略処理は、図3と同様のため、図示を省略する。
【0108】
まず、キャリアサーバ1aは、携帯電話端末31から視聴者の選択領域の情報を収集する(S11)。具体的には、まず、携帯電話端末31は、キャリアサーバ1aへWEBコンテンツのリクエストを送信する。次に、キャリアサーバ1aは、携帯電話端末31からのWEBコンテンツのリクエストを受信し、当該WEBコンテンツを保有するWEBサーバ1bへリクエストを送信する。そして、WEBサーバ1bは、コンテンツ記憶部21を参照し、当該WEBコンテンツをキャリアサーバ1aへ送信する。その後、キャリアサーバ1aは、WEBサーバ1bから当該WEBコンテンツを受信し、要求元である携帯電話端末31へ送信する。ここで、携帯電話端末31は、キャリアサーバ1aからWEBコンテンツを受信し、フルブラウザ32に表示する。視聴者は、フルブラウザ32により、当該WEBコンテンツに対して、自身が所望する箇所を拡大表示させる。このとき、フルブラウザ32は、当該WEBコンテンツにおける拡大表示された位置を視聴履歴データとして、キャリアサーバ1aへ送信する。そして、キャリアサーバ1aは、携帯電話端末31から当該WEBコンテンツにおける視聴履歴データを受信し、視聴履歴記憶部22に格納する。
【0109】
次に、キャリアサーバ1aは、集計処理部13により集計ヒストグラム情報の生成(S12)、領域推定部14により領域推定処理(S13)を行い、推定領域情報記憶部25へ当該推定領域情報を格納する。このとき、領域推定処理において用いられるエネルギー関数は、例えば、式(2)、式(3)、式(5)、及び式(6)により定義することができる。さらに、WEBコンテンツに含まれているレイアウト情報を用いることでより領域推定の精度を上げることができる。ここで、レイアウト情報とは、HTML(HyperText Markup Language)タグやCSS(Cascading Style Sheets)に記述されているものであればよい。
【0110】
その後、キャリアサーバ1aは、携帯電話端末33へ推定領域コンテンツを配信する(S14)。具体的には、まず、キャリアサーバ1aは、携帯電話端末33からの推定領域コンテンツ送信要求を受信し、WEBサーバ1bへWEBコンテンツのリクエストを送信する。その後、キャリアサーバ1aは、WEBサーバ1bから当該WEBコンテンツを受信し、また、コンテンツ配信部11aにより、推定領域情報記憶部25に格納された推定領域情報を取得し、当該WEBコンテンツに推定領域情報を付加して、要求元である携帯電話端末33へ送信する。次に、携帯電話端末33は、WEBコンテンツ、及び推定領域情報を受信する。そして、フルブラウザ34は、推定領域情報の位置情報を解釈し、WEBコンテンツの該当する位置を拡大表示する。
【0111】
これにより、携帯電話端末33の視聴者は、当該WEBコンテンツの先頭から自身が所望する箇所へ移動させることなく、事前に携帯電話端末31の視聴者が拡大表示した位置を閲覧することができる。そのため、キャリアサーバ1aによって推定領域情報が求められた後には、当該WEBコンテンツを閲覧する視聴者に対してこの最適提示領域を推薦することが可能となり、これによってユーザがWEBコンテンツ内部で適切な閲覧箇所を探す労力を大幅に軽減することができる。
【0112】
尚、上述したフルブラウザ32は、拡大表示された領域の表示時間により、視聴履歴データに重み付けをしてもよい。例えば、WEBコンテンツの内、表示時間が短い箇所は、視聴者の所望の箇所へ移動する際に通過した箇所である可能性が高いため、視聴者の興味が少ないとみなして重み付けを下げ、表示時間が長い箇所は、視聴者の所望の箇所である可能性が高いため、視聴者の興味が大きいとみなして重み付けを上げるようにするとよい。これにより、より精度の高い推定領域情報を求めることができる。
【0113】
このように、本発明の実施の形態2では、世界中の複数のWEBサーバに分散して存在しているWEBコンテンツに対し、各WEBコンテンツの視聴履歴データをキャリアサーバ1a上で一元的に管理することで、世界中に分散して存在する各WEBサーバに改変を加えることなく、それぞれのWEBコンテンツにおける最適提示領域を推薦することができる。
【0114】
尚、本発明の実施の形態2は、携帯電話端末に限定されない。例えば、PCなどの任意の情報端末においても、通信プロバイダなどの直近のサーバに視聴履歴データを格納し、領域推定処理を行うことで、実現可能である。
【0115】
その他の発明の実施の形態.
尚、本発明の実施の形態1において、ビジュアルコンテンツは、動画像コンテンツに限定されない。例えば、単一の画像データであっても適用可能である。
【0116】
本発明の実施の形態1において、フレーム、及び選択領域は、矩形に限定されない。例えば、矩形以外の形状の選択領域である場合、式(5)、式(6)の定義を変形させることで実現可能である。また、矩形以外の形状の推定領域である場合、画面への表示において、推定領域の形状を維持したまま表示すればよい。
【0117】
尚、本発明の実施の形態1及び2において、動的輪郭モデルに対して、視聴履歴データを入力としたが、視聴履歴に限定されるものではない。例えば、複数の画像データを入力とすればよい。
【0118】
尚、本発明の実施の形態1における画像生成装置1の各機能は、情報端末3a、3b、及び3cの内部で実現されても構わない。すなわち、情報端末3a、3b、及び3cは、本発明の実施の形態1にかかるコンテンツ配信部11、入力受付部12、集計処理部13、領域推定部14、コンテンツ記憶部21、視聴履歴記憶部22、ヒストグラム記憶部23、又は推定領域コンテンツ記憶部24のいずれか又は全てを備えるものであって構わない。
【0119】
例えば、情報端末3aを使用する視聴者は、情報端末3aの内部に格納されたビジュアルコンテンツに対して、自身が嗜好する領域を選択し、情報端末3aは、当該選択領域に基づき、領域推定を行うことができる。その後、視聴者は、当該ビジュアルコンテンツに対して、情報端末3a内に格納された推定領域コンテンツを視聴することができる。これにより、情報端末3aを使用する視聴者は、当該当該ビジュアルコンテンツに対して、より自身の嗜好に合った推定領域コンテンツを視聴することができる。
【0120】
さらに、本発明は上述した実施の形態のみに限定されるものではなく、既に述べた本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【図面の簡単な説明】
【0121】
【図1】本発明の実施の形態1にかかる画像生成装置1において視聴履歴を収集する動作を説明する図である。
【図2】本発明の実施の形態1にかかる画像生成装置1において視聴履歴から推定領域コンテンツを生成する動作を説明する図である。
【図3】本発明の実施の形態1の適用例の概略処理を示すフローチャート図である。
【図4】動的輪郭モデルの適用例を示す図である。
【図5】本発明の実施の形態1にかかるエネルギー最小化処理を示すフローチャート図である。
【図6】本発明の実施の形態1にかかる領域選択画面の例を示す図である。
【図7】視聴履歴のヒストグラムの例を示す図である。
【図8】動画像コンテンツへ従来技術(ダウンサンプリング)を適用した結果、生成される画像群を示す図である。
【図9】動画像コンテンツへ本発明の実施の形態1にかかる画像生成装置1を適用した結果、推定領域コンテンツとして生成される画像群を示す図である。
【図10】本発明の実施の形態2における適用例の概略を示す図である。
【符号の説明】
【0122】
1 画像生成装置 1a キャリアサーバ 1b WEBサーバ
11 コンテンツ配信部 11a コンテンツ配信部 12 入力受付部
13 集計処理部 14 領域推定部 15 切り出し処理部
21 コンテンツ記憶部 22 視聴履歴記憶部
23 ヒストグラム記憶部 24 推定領域コンテンツ記憶部
25 推定領域情報記憶部
3a、3b、3c、3d、3e、3f 情報端末
31 携帯電話端末 32 フルブラウザ
33 携帯電話端末 34 フルブラウザ
4 対象物体40 領域
41乃至48 代表点 401乃至408 矢印
40 初期領域 41 代表点 42 収束エネルギー
43 代表点 44 収束エネルギー
45 収束領域 46 代表点 47 代表点
50 領域選択画面 51 ダウンサンプリング済原画像 52 切り出し領域
53 切り出し画像
i,j 代表点(ノード) i ノード番号 j フレーム番号
tube エネルギー関数 α、β、γ、δ、ε 重み付け係数
hin、Ehout、Eframe、Edis、Easp エネルギー
N そのコンテンツの視聴者全体の数
IN 推定領域の内側のピクセル数 POUT 推定領域の外側のピクセル数
ΣIN 推定領域の内側の各ピクセルにおける視聴者数の合計
ΣOUT 推定領域の外側の各ピクセルにおける視聴者数の合計
idea、yidea 目標とする推定領域のサイズ
w 表示される画面の幅 h 表示される画面高さ

【特許請求の範囲】
【請求項1】
複数の入力画像から一つの画像を生成する画像生成装置であって、
前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定部を備える画像生成装置。
【請求項2】
前記絞込エネルギーは、
前記推定領域の内部に関する内部エネルギーと、
前記推定領域の外部に関する外部エネルギーとを有し、
前記内部エネルギーは、
前記推定領域の画像が共通するほどエネルギーが小さくなり、
前記外部エネルギーは、
前記推定領域の外部に共通する画像が少ないほどエネルギーが小さくなることを特徴とする請求項1に記載の画像生成装置。
【請求項3】
前記エネルギー関数は、
前記推定領域のサイズを目標値に近付けるサイズ調整エネルギーをさらに含む、請求項2に記載の画像生成装置。
【請求項4】
前記入力画像は、原画像の一部の領域が切り出されたものであって、
前記エネルギー関数は、
前記原画像間で切り出された位置が一致するほど小さくなる画像間調整エネルギーをさらに含む、請求項3に記載の画像生成装置。
【請求項5】
複数の前記原画像は、複数のフレームから構成される時系列データであって、
前記画像間調整エネルギーは、
前後のフレームの切り出し位置を直線で結び、前記前後の間のフレームの切り出し位置が前記直線に近付くほどエネルギーが小さくなることを特徴とする請求項4に記載の画像生成装置。
【請求項6】
前記推定領域は、矩形であり、
前記エネルギー関数は、
前記推定領域の縦横の比率を一定に保つ縦横比調整エネルギーをさらに有する、請求項4又は5に記載の画像生成装置。
【請求項7】
前記複数の入力画像は、
1又は複数の画像における一部又は全てが切り出された画像である、請求項1乃至6のいずれか1項に記載の画像生成装置。
【請求項8】
前記複数の入力画像は、前記原画像を視聴する複数の視聴者により選択された領域の集合である視聴履歴である、請求項1乃至7のいずれか1項に記載の画像生成装置。
【請求項9】
前記視聴履歴を記憶する視聴履歴記憶部と、
前記視聴履歴記憶部を参照し、領域ごとに視聴者数を集計したヒストグラムを生成する集計処理部とをさらに備えることを特徴とする、請求項8に記載の画像生成装置。
【請求項10】
前記領域推定部は、
前記エネルギー関数を貪欲法により最小化し、
前記貪欲法の繰り返し回数が所定回数以下の場合、前記外部エネルギー及び前記画像間調整エネルギー以外の前記エネルギー関数を最小化する領域を求めることを特徴とする、請求項6に記載の画像生成装置。
【請求項11】
前記視聴者により選択された領域を入力画像として受け付け、前記視聴履歴記憶部へ格納する入力受付部をさらに備える、請求項9又は10に記載の画像生成装置。
【請求項12】
前記動的輪郭モデルは、
前記原画像のレイアウト情報に関するエネルギーをさらに含むエネルギー関数が定義され、
前記領域推定部は、
当該動的輪郭モデルを用いて、推定領域を求める、請求項1に記載の画像生成装置。
【請求項13】
前記原画像を表示し、前記視聴者により選択された領域を判別し、当該領域の情報を請求項1乃至12のいずれか1項に記載の画像生成装置へ送信する情報端末。
【請求項14】
複数の入力画像から一つの画像を生成する画像生成方法であって、
前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定ステップを備える画像生成方法。
【請求項15】
前記絞込エネルギーは、
前記推定領域の内部に関する内部エネルギーと、
前記推定領域の外部に関する外部エネルギーとを有し、
前記内部エネルギーは、
前記推定領域の画像が共通するほどエネルギーが小さくなり、
前記外部エネルギーは、
前記推定領域の外部に共通する画像が少ないほどエネルギーが小さくなることを特徴とする請求項14に記載の画像生成方法。
【請求項16】
前記エネルギー関数は、
前記推定領域のサイズを目標値に近付けるサイズ調整エネルギーをさらに含む、請求項15に記載の画像生成方法。
【請求項17】
前記入力画像は、原画像の一部の画像領域が切り出されたものであって、
前記エネルギー関数は、
前記原画像間で切り出された位置が一致するほど小さくなる画像間調整エネルギーをさらに含む、請求項16に記載の画像生成方法。
【請求項18】
複数の前記原画像は、複数のフレームでから構成される時系列データであって、
前記画像間調整エネルギーは、
前後のフレームの切り出し位置を直線で結び、前記前後の間のフレームの切り出し位置が前記直線に近付くほどエネルギーが小さくなることを特徴とする請求項17に記載の画像生成方法。
【請求項19】
前記推定領域は、矩形であり、
前記エネルギー関数は、
前記推定領域の縦横の比率を一定に保つ縦横比調整エネルギーをさらに有する、請求項17又は18に記載の画像生成方法。
【請求項20】
前記複数の入力画像は、
1又は複数の画像における一部又は全てが切り出された画像である、請求項14乃至19のいずれか1項に記載の画像生成方法。
【請求項21】
前記複数の入力画像は、前記原画像を視聴する複数の視聴者により選択された領域の集合である視聴履歴である、請求項14乃至20のいずれか1項に記載の画像生成方法。
【請求項22】
前記視聴履歴から、領域ごとに視聴者数を集計したヒストグラムを生成する集計処理ステップとをさらに備えることを特徴とする、請求項21に記載の画像生成方法。
【請求項23】
前記領域推定ステップは、
前記エネルギー関数を貪欲法により最小化し、
前記貪欲法の繰り返し回数が所定回数以下の場合、前記外部エネルギー及び前記画像間調整エネルギー以外の前記エネルギー関数を最小化する領域を求めることを特徴とする、請求項19に記載の画像生成方法。
【請求項24】
前記視聴者により選択された領域を入力画像として受け付け、前記視聴履歴記憶部へ格納する入力受付ステップをさらに備える、請求項22又は23に記載の画像生成方法。
【請求項25】
前記動的輪郭モデルは、
前記原画像のレイアウト情報に関するエネルギーをさらに含むエネルギー関数が定義され、
前記領域推定ステップは、
当該動的輪郭モデルを用いて、推定領域を求める、請求項14に記載の画像生成方法。
【請求項26】
請求項14乃至25のいずれか1項に記載の処理をコンピュータに実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図10】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−169644(P2009−169644A)
【公開日】平成21年7月30日(2009.7.30)
【国際特許分類】
【出願番号】特願2008−6691(P2008−6691)
【出願日】平成20年1月16日(2008.1.16)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成19年10月31日・11月1日・2日「映像メディア処理シンポジウム」 第12回シンポジウム資料
【出願人】(304021417)国立大学法人東京工業大学 (1,821)
【Fターム(参考)】