画像生成装置、情報端末、画像生成方法及びプログラム

【課題】視聴履歴から動的輪郭モデルを適用して視聴者にとって最適な提示領域を推定すること。
【解決手段】本発明にかかる画像生成装置１は、複数の入力画像から一つの画像を生成するものである。前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定部１４を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像生成装置、情報端末、画像生成方法及びプログラムに関し、特に、例えば、複数の視聴者により原画像から選択された部分領域の集合である視聴履歴から動的輪郭モデルを適用して視聴者にとって最適な提示領域を推定して、画像を生成するのに好適な画像生成装置、情報端末、画像生成方法及びプログラムに関する。
【背景技術】
【０００２】
動画像コンテンツやテキストなどのビジュアルコンテンツを視る際、視聴者にとって最も満足度が高くなるような空間的な切り出し範囲（最適提示領域）が存在する。例えば、サッカーの試合を撮影した動画像コンテンツの場合、フィールド全体ではなく、ボール付近をズームして動きを追ったものを提示する場合を指す。
【０００３】
近年、家庭用テレビの大画面化、テレビ付き携帯電話の発売等、映像の視聴環境が多様化している。そのため、視聴者が高解像度のビジュアルコンテンツを低解像度のディスプレイで視聴する状況が生じている。その際、高解像度のビジュアルコンテンツの画像全体を単純にダウンサンプリングすることが一般的に行われている。
【０００４】
そこで、特許文献１には、携帯端末で動画像コンテンツを視聴する環境において、視聴者が自在に空間的切り出しを行うことのできるインタフェースが提案されている。また、非特許文献１には、複数人の動画像コンテンツ視聴者により行われた切り出し操作履歴について、操作履歴を効率良く収集するために，視聴者が動画像コンテンツを視聴中に自身の嗜好に合わせて簡単に切り出し操作を行えるようなインターフェースが提案されている。
【０００５】
一方、非特許文献２には、静止画像からの輪郭抽出を行うためのモデルとして、動的輪郭モデル（Active Contour Model）であるSnakesが提案されている。動的輪郭モデルとは、画像中の物体領域抽出などに利用されるアルゴリズムであり、輪郭によって決まるエネルギー関数を定義し、このエネルギーを最小化することによって輪郭を収束させ、所定の目的を達成するものである。
【０００６】
さらに、非特許文献３には、時空間画像中の動物体に対応する領域を抽出するためのモデルとして、Active Tubesが提案されている。Active Tubesは、Snakesを時空間画像へ適用したとみなすことができ、非特許文献２と同様にエネルギー最小化の手法を用いて、時空間画像中の物体を抽出することができる。
【特許文献１】特開２００５−３４１３９８号公報
【非特許文献１】岩下英史, 宮田高道, 酒井善則, "視聴者の操作履歴に基づく動画像コンテンツのトリミング手法の提案, " IMPS2006, pp. 55-56, (Nov. 2006).
【非特許文献２】M. Kass, A. witkin, and D. Terzopoulos, "Snakes : active contour models," International Journal of Computer Vision, vol.1, no.4, pp. 321-331,(1988).
【非特許文献３】古川亮, 今井正和, 烏野武, "時空間画像を利用した弾性輪郭モデルとその収束方法, " 電子情報通信学会論文誌, D-II, Vol. J79-D-II, No.6,pp. 1054-1063, (Jun. 1996).
【発明の開示】
【発明が解決しようとする課題】
【０００７】
しかしながら特許文献１に記載のインタフェースでは、視聴者により切り出された切り出し領域を画面に表示することができるが、複数の視聴者による異なる切り出し領域から最適提示領域を推定することはできない。また、非特許文献１に記載のインタフェースでは、複数の視聴者からの操作履歴を収集することができるが、それらから最適提示領域を推定する具体的な方法については、開示されていない。
【０００８】
また、非特許文献２に記載のSnakesでは、対象とする画像内の物体の輪郭を抽出するものであるが、抽出される輪郭は、表示される画面の形式とは対応しておらず、画面に表示される際に、最適提示領域となるとは限らない。さらに、非特許文献３に記載のActive Tubesでは、Snakesと比べ、時空間画像に適用可能であるが、やはり、原画像自体の特徴（輝度情報）から輪郭を抽出するものであるため、最適提示領域が抽出されるとは限らない。
【０００９】
本発明は、このような問題点を解決するためになされたものであり、視聴履歴から動的輪郭モデルを適用して視聴者にとって最適な提示領域を推定することができる画像生成装置、情報端末、画像生成方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１０】
本発明にかかる画像生成装置は、複数の入力画像から一つの画像を生成するものである。前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定部を備える。
【００１１】
本発明においては、一つの原画像に対する複数の選択領域から、最も共通する領域を含むような領域を推定する。これにより、多くの共通領域を含む提示領域を推定でき、複数の選択領域において平均的な領域を推定することができる。
【００１２】
また、前記絞込エネルギーは、前記推定領域の内部に関する内部エネルギーと、前記推定領域の外部に関する外部エネルギーとを有し、前記内部エネルギーは、前記推定領域の画像が共通するほどエネルギーが小さくなり、前記外部エネルギーは、前記推定領域の外部に共通する画像が少ないほどエネルギーが小さくなるようにするとよい。これにより、より正確な領域を推定できる。
【００１３】
また、前記エネルギー関数は、前記推定領域のサイズを目標値に近付けるサイズ調整エネルギーをさらに含むようにするとよい。これにより、サイズの目標値に近い提示領域を推定できる。
【００１４】
また、前記入力画像は、原画像の一部の領域が切り出されたものであって、前記エネルギー関数は、前記原画像間で切り出された位置が一致するほど小さくなる画像間調整エネルギーをさらに含むようにするとよい。これにより、フレーム間の位置の移動量が調整され、推定される領域の品質を向上できる。
【００１５】
さらに、複数の前記原画像は、複数のフレームから構成される時系列データであって、前記画像間調整エネルギーは、前後のフレームの切り出し位置を直線で結び、前記前後の間のフレームの切り出し位置が前記直線に近付くほどエネルギーが小さくなるようにするとよい。これにより、フレーム間の位置の移動量が調整され、推定される領域の品質をさらに向上できる。
【００１６】
また、前記推定領域は、矩形であり、前記エネルギー関数は、前記推定領域の縦横の比率を一定に保つ縦横比調整エネルギーをさらに有するようにするとよい。これにより、領域の縦横の比率における品質を向上できる。
【００１７】
また、前記複数の入力画像は、１又は複数の画像における一部又は全てが切り出された画像であるとよい。これにより、動画像において、画像内の一部における共通領域を推定できる。
【００１８】
また、前記複数の入力画像は、前記原画像を視聴する複数の視聴者により選択された領域の集合である視聴履歴であるとよい。これにより、多くの視聴者が希望する提示領域を推定できる。
【００１９】
また、前記視聴履歴を記憶する視聴履歴記憶部と、前記視聴履歴記憶部を参照し、領域ごとに視聴者数を集計したヒストグラムを生成する集計処理部とをさらに備えるようにするとよい。これにより、視聴者数を密度としてエネルギーに定義することができる。
【００２０】
また、前記領域推定部は、前記エネルギー関数を貪欲法により最小化し、前記貪欲法の繰り返し回数が所定回数以下の場合、前記外部エネルギー及び前記画像間調整エネルギー以外の前記エネルギー関数を最小化する領域を求めるようにするとよい。これにより、収束効率を高めることができる。
【００２１】
また、前記視聴者により選択された領域を入力画像として受け付け、前記視聴履歴記憶部へ格納する入力受付部をさらに備えるようにするとよい。これにより、視聴者の自由な範囲選択が可能となる。
【００２２】
また、前記動的輪郭モデルは、前記原画像のレイアウト情報に関するエネルギーをさらに含むエネルギー関数が定義され、前記領域推定部は、当該動的輪郭モデルを用いて、推定領域を求めるとよい。これにより、ＷＥＢコンテンツのレイアウト情報を利用した提示領域の推定ができる。
【００２３】
本発明にかかる情報端末は、前記原画像を表示し、前記視聴者により選択された領域を判別し、当該領域の情報を本発明にかかる画像生成装置へ送信するものである。これにより、選択領域の自動収集が可能となる。
【００２４】
本発明にかかる画像生成方法は、複数の入力画像から一つの画像を生成するものである。前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定ステップを備える。これにより、多くの共通領域を含む提示領域を推定でき、複数の選択領域において平均的な領域を推定することができる。
【００２５】
また、前記絞込エネルギーは、前記推定領域の内部に関する内部エネルギーと、前記推定領域の外部に関する外部エネルギーとを有し、前記内部エネルギーは、前記推定領域の画像が共通するほどエネルギーが小さくなり、前記外部エネルギーは、前記推定領域の外部に共通する画像が少ないほどエネルギーが小さくなるようにするとよい。これにより、より正確な領域を推定できる。
【００２６】
また、前記エネルギー関数は、前記推定領域のサイズを目標値に近付けるサイズ調整エネルギーをさらに含むとよい。これにより、サイズの目標値に近い提示領域を推定できる。
【００２７】
また、前記入力画像は、原画像の一部の画像領域が切り出されたものであって、前記エネルギー関数は、前記原画像間で切り出された位置が一致するほど小さくなる画像間調整エネルギーをさらに含むとよい。これにより、フレーム間の位置の移動量が調整され、推定される領域の品質を向上できる。
【００２８】
また、複数の前記原画像は、複数のフレームでから構成される時系列データであって、前記画像間調整エネルギーは、前後のフレームの切り出し位置を直線で結び、前記前後の間のフレームの切り出し位置が前記直線に近付くほどエネルギーが小さくなるようにするとよい。これにより、フレーム間の位置の移動量が調整され、推定される領域の品質をさらに向上できる。
【００２９】
また、前記推定領域は、矩形であり、前記エネルギー関数は、前記推定領域の縦横の比率を一定に保つ縦横比調整エネルギーをさらに有するとよい。これにより、領域の縦横の比率における品質を向上できる。
【００３０】
また、前記複数の入力画像は、１又は複数の画像における一部又は全てが切り出された画像であるとよい。これにより、動画像において、画像内の一部における共通領域を推定できる。
【００３１】
また、前記複数の入力画像は、前記原画像を視聴する複数の視聴者により選択された領域の集合である視聴履歴であるとよい。これにより、多くの視聴者が希望する提示領域を推定できる。
【００３２】
また、前記視聴履歴から、領域ごとに視聴者数を集計したヒストグラムを生成する集計処理ステップとをさらに備えるようにするとよい。これにより、視聴者数を密度としてエネルギーに定義することができる。
【００３３】
また、前記領域推定ステップは、前記エネルギー関数を貪欲法により最小化し、前記貪欲法の繰り返し回数が所定回数以下の場合、前記外部エネルギー及び前記画像間調整エネルギー以外の前記エネルギー関数を最小化する領域を求めるようにするとよい。これにより、収束効率を高めることができる。
【００３４】
また、前記視聴者により選択された領域を入力画像として受け付け、前記視聴履歴記憶部へ格納する入力受付ステップをさらに備えるようにするとよい。これにより、視聴者の自由な範囲選択が可能となる。
【００３５】
また、前記動的輪郭モデルは、前記原画像のレイアウト情報に関するエネルギーをさらに含むエネルギー関数が定義され、前記領域推定ステップは、当該動的輪郭モデルを用いて、推定領域を求めるとよい。これにより、ＷＥＢコンテンツのレイアウト情報を利用した提示領域の推定ができる。
【００３６】
本発明にかかるプログラムは、上述した画像生成方法の処理をコンピュータに実行させるものである。
【発明の効果】
【００３７】
本発明によれば、視聴履歴から動的輪郭モデルを適用して視聴者にとって最適な提示領域を推定することができる画像生成装置、情報端末、画像生成方法及びプログラムを提供することができる。
【発明を実施するための最良の形態】
【００３８】
以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。
【００３９】
発明の実施の形態１．
本発明は、複数の入力画像から、一つの画像を生成する画像生成装置に関するものである。画像生成装置は、動的輪郭モデルを用いて、当該複数の入力画像から最も共通する画像を含むような推定領域を求める領域推定部を備えたものである。このとき、動的輪郭モデルとしては、当該複数の入力画像から最も共通する画像を含むような領域を絞り込む絞込エネルギーを含むエネルギー関数を定義する。そして、領域推定部は、当該エネルギー関数を最小化するよう当該複数の入力画像から推定領域を求めることにより、推定領域に基づいた画像を生成する。
【００４０】
本発明の実施の形態１においては、複数の入力画像として、予め、複数の視聴者が動画像コンテンツから所望の箇所を切り出した選択領域を用い、選択領域の内、共通する領域が多いものを推定領域として求める。そして、推定領域を求めるために、動的輪郭モデルに基づくエネルギー関数を定義する。当該エネルギー関数は、選択領域における視聴者数を視聴者の注目と捉え、視聴者数の多い領域を推定領域として絞り込む絞込エネルギーを含むものである。また、当該エネルギー関数は、上述した絞込エネルギーに加え、推定領域のサイズを目標値に近付けるエネルギー、選択領域のサイズ、縦横の比率を調整するエネルギー、及び、動画像コンテンツの複数のフレーム間の移動を滑らかにするエネルギーが定義されている。次に、本発明の実施の形態１における画像生成装置について更に詳細に説明する。
【００４１】
図１、及び図２は、本発明の実施の形態１にかかる画像生成装置１の構成例を示す図である。図１は、画像生成装置１が、情報端末３ａ、３ｂ、及び３ｃへビジュアルコンテンツを配信し、情報端末３ａ、３ｂ、及び３ｃを使用する各視聴者におけるビジュアルコンテンツの視聴履歴を取得する流れを説明する図である。図２は、画像生成装置１が、当該視聴履歴に基づき領域推定処理を行い、推定領域コンテンツを生成し、当該推定領域コンテンツを、情報端末３d、３e、及び３fその他の情報端末に対して、配信する流れを説明する図である。これにより、視聴者は、当該ビジュアルコンテンツにおける最適提示領域を視聴することができる。
【００４２】
画像生成装置１は、コンテンツ配信部１１、入力受付部１２、集計処理部１３、領域推定部１４、切り出し処理部１５、コンテンツ記憶部２１、視聴履歴記憶部２２、ヒストグラム記憶部２３、推定領域コンテンツ記憶部２４を備える。画像生成装置１は、汎用的なコンピュータシステムにより構成されていればよく、例えば、動画像コンテンツの配信を行うＷＥＢサーバであればよい。また、画像生成装置１は、ネットワーク（不図示）を介して、情報端末３ａ、３ｂ、及び３ｃと接続されており、ビジュアルコンテンツその他の情報を送受信可能である。
【００４３】
コンテンツ記憶部２１は、情報端末３ａ、３ｂ、及び３ｃへ配信されるビジュアルコンテンツを記憶する。ここで、ビジュアルコンテンツとは、例えば、複数のフレームから構成される時系列データからなる動画像コンテンツ、又はテキスト等である。また、各フレームは、矩形であり、複数のピクセルで構成され、各ピクセルの位置は、フレーム内の座標で特定することができる。
【００４４】
コンテンツ配信部１１は、情報端末３ａ、３ｂ、又は３ｃからのコンテンツ配信要求に応じてコンテンツ記憶部２１を参照し、要求元である情報端末へビジュアルコンテンツを送信する。尚、コンテンツ配信部１１は、コンテンツ記憶部２１に格納されたビジュアルコンテンツを情報端末３ａ、３ｂ、及び３ｃへ一斉に配信するようにしても構わない。また、コンテンツ配信部１１は、切り出し処理部１５から送られる切り出し後のビジュアルコンテンツを要求元である情報端末へ送信する。さらに、コンテンツ配信部１１は、情報端末３ｄ、３ｅ、又は３ｆからの推定領域コンテンツ配信要求に応じて推定領域コンテンツ記憶部２４を参照し、要求元である情報端末へ推定領域コンテンツを送信する。
【００４５】
入力受付部１２は、情報端末３ａ、３ｂ、又は３ｃからの視聴履歴データを受信し、視聴履歴記憶部２２へ格納する。その際、入力受付部１２は、情報端末３ａ、３ｂ、又は３ｃを操作する各視聴者と、選択領域とを対応付ける。また、入力受付部１２は、当該選択領域を切り出し処理部１５へ送る。
【００４６】
切り出し処理部１５は、入力受付部１２から選択領域を取得し、コンテンツ記憶部２１を参照し、当該選択領域に基づきビジュアルコンテンツを切り出し、切り出し後のビジュアルコンテンツをコンテンツ配信部１１へ送る。
【００４７】
視聴履歴記憶部２２は、情報端末３ａ、３ｂ、及び３ｃを操作する各視聴者による当該ビジュアルコンテンツの視聴履歴データを記憶する。ここで、視聴履歴データは、情報端末３ａ、３ｂ、及び３ｃの画面に表示される当該ビジュアルコンテンツを各視聴者がフレームごとに選択した部分領域である選択領域を表わす情報である。また、選択領域は、矩形とし、例えば、矩形の左上と右下の２点（ピクセル）の座標、矩形の４隅の点の座標、矩形の角１点の座標と矩形の高さ、及び幅の情報、又は、矩形内のすべてのピクセルの座標等で表現されるものとする。つまり、視聴履歴データは、視聴者当たり各フレームのどのピクセル集合が選択されたかを表わす情報である。尚、選択領域は、本実施の形態においては矩形とするが、これに限定されない。
【００４８】
集計処理部１３は、視聴履歴記憶部２２を参照し、視聴履歴データからピクセル当たりの視聴者数を集計し、集計ヒストグラム情報を生成し、当該集計ヒストグラム情報をヒストグラム記憶部２３へ格納する。ここで、集計ヒストグラム情報は、各フレーム、各ピクセルにおける視聴者数を値とする情報である。
【００４９】
ヒストグラム記憶部２３は、集計処理部１３により生成される集計ヒストグラム情報を記憶する。図７は、集計ヒストグラム情報をグラフ表示した例を示す図である。図７に示すグラフは、三次元空間のグラフをあるフレームにおけるフレーム高さ、フレーム幅、及び視聴者数で表現したものである。ここで、フレーム高さ、及びフレーム幅は、あるフレームにおけるピクセル当たりのｘ、ｙ座標に対応する。そのため、グラフ上の視聴者数が高い領域は、より多くの視聴者に選択された領域であることを示し、言い換えると、多くの選択領域に共通する領域であることを示す。
【００５０】
領域推定部１４は、ヒストグラム記憶部２３を参照し、後述するエネルギー関数から、エネルギーを最小化する領域を求め、推定領域として推定する。その後、領域推定部１４は、推定領域に基づき、コンテンツ記憶部２１を参照し、当該ビジュアルコンテンツから画像データを生成し、推定領域コンテンツとして推定領域コンテンツ記憶部２４へ格納する。
【００５１】
推定領域コンテンツ記憶部２４は、後述する領域推定部１４により推定された領域に基づき、当該ビジュアルコンテンツから生成される推定領域コンテンツを記憶する。
【００５２】
コンテンツ記憶部２１と、視聴履歴記憶部２２と、ヒストグラム記憶部２３と、推定領域コンテンツ記憶部２４とは、ハードディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置でもよいし、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置であってもよい。
【００５３】
尚、画像生成装置１の構成は図１、及び図２に限定されない。例えば、コンテンツ配信部１１、入力受付部１２、集計処理部１３、切り出し処理部１５は、それぞれ別のコンピュータシステムにより実現され、画像生成装置１に接続、もしくは、ネットワークを介して通信可能であればよい。また、コンテンツ記憶部２１、視聴履歴記憶部２２、ヒストグラム記憶部２３、推定領域コンテンツ記憶部２４は、それぞれ別の記憶装置で実現され、画像生成装置１と接続されていても構わない。
【００５４】
図１に示す情報端末３ａ、３ｂ、及び３ｃは、画像生成装置１とネットワークを介して接続されており、画像生成装置１へコンテンツ配信要求を送信し、画像生成装置１から配信されるビジュアルコンテンツを受信し、画面に表示するものである。また、情報端末３ａ、３ｂ、及び３ｃは、当該画面に表示されたビジュアルコンテンツに対して、視聴者が視聴する領域を切り出すことができるインタフェースを備えるものとする。情報端末３ａ、３ｂ、及び３ｃは、例えば、非特許文献１に開示された動画像コンテンツを視聴しながら画像の切り出し（トリミング）を行えるインタフェースを備えていればよい。また、情報端末３ａ、３ｂ、及び３ｃは、画像の切り出しを指示するためにマウス等の入力デバイスを備えている。尚、情報端末３ａ、３ｂ、及び３ｃの台数は、これに限定されない。また、情報端末３ａ、３ｂ、及び３ｃの機能は、画像生成装置１内に実現されていてもよい。
【００５５】
図２に示す情報端末３ｄ、３ｅ、及び３ｆは、画像生成装置１とネットワークを介して接続されており、画像生成装置１へ推定領域コンテンツ配信要求を送信し、画像生成装置１から配信される推定領域コンテンツを受信し、画面に表示するものである。情報端末３ｄ、３ｅ、及び３ｆは、汎用的なコンピュータシステムであればよい。例えば、ＷＥＢブラウザを備えたコンピュータであればよい。尚、情報端末３ｄ、３ｅ、及び３ｆの台数は、これに限定されない。また、推定領域コンテンツを受信し、表示する情報端末は、情報端末３ａ、３ｂ、及び３ｃであってもよい。
【００５６】
尚、切り出し処理部１５は、情報端末３ａ、３ｂ、及び３ｃにあってもよい。例えば、情報端末３ａは、情報端末３ａを使用する視聴者が切り出した選択領域を取得し、受信したビジュアルコンテンツから当該選択領域に基づき切り出しを行い、切り出し後のビジュアルコンテンツを画面に表示するようにすればよい。
【００５７】
以下に、本発明の実施の形態１の適用例の概略処理を図３のフローチャート図を参照しながら説明する。尚、図１は、図３のステップＳ１１における処理の流れを示す図であって、情報端末３ａ、３ｂ、及び３ｃから視聴履歴を収集する動作を説明する図である。また、図２は、ステップＳ１２乃至Ｓ１４における処理の流れを示す図であって、収集された視聴履歴から推定領域コンテンツを生成する動作を説明する図である。
【００５８】
図１に示すように、まず、画像生成装置１は、情報端末３ａ、３ｂ、及び３ｃから各視聴者における選択領域の情報を収集する（Ｓ１１）。具体的には、まず、画像生成装置１は、情報端末３ａからのコンテンツ送信要求を受信し、コンテンツ配信部１１により、コンテンツ記憶部２１に格納されたビジュアルコンテンツを要求元の情報端末３ａへ送信する。次に、情報端末３ａは、ビジュアルコンテンツを受信し、画面に表示する。そして、情報端末３ａの視聴者は、後述する図６に示す領域選択画面５０を通して、表示されるビジュアルコンテンツから視聴する領域を選択する。その後、情報端末３ａは、当該選択領域を画像生成装置１へ送信する。そして、画像生成装置１の入力受付部１２は、情報端末３ａから視聴履歴データを受信し、視聴履歴記憶部２２へ格納する。また、このとき、切り出し処理部１５は、入力受付部１２から取得した当該選択領域に基づき、コンテンツ記憶部２１に格納されたビジュアルコンテンツから切り出し後のビジュアルコンテンツを生成し、コンテンツ配信部１１は、切り出し後のビジュアルコンテンツを情報端末３ａへ送信する。尚、ステップＳ１１は、情報端末３ａ、３ｂ、及び３ｃの全てについて行われる。
【００５９】
尚、ステップＳ１１における選択領域の収集処理は、上述した処理に限定されない。例えば、当該ビジュアルコンテンツに対する複数の選択領域を表わす情報自体を、画像生成装置１の外部から直接、視聴履歴記憶部２２に格納してもよい。
【００６０】
次に、図２に示すように、画像生成装置１は、集計ヒストグラム情報を生成する（Ｓ１２）。具体的には、画像生成装置１の集計処理部１３は、視聴履歴記憶部２２を参照し、各視聴者の選択領域をピクセル単位に分割し、ピクセル当たりの視聴者数を集計して集計ヒストグラム情報を生成し、当該集計ヒストグラム情報をヒストグラム記憶部２３へ格納する。つまり、異なる視聴者における視聴履歴データに同一のピクセルが存在する場合、同一のピクセルを選択したとみなす。すなわち、集計ヒストグラム情報は、複数の選択領域において、共通するピクセル（画像）が多いほど、値（視聴者数）が大きくなる。
【００６１】
続いて、図２に示すように、画像生成装置１は、領域の推定を行う（Ｓ１３）。具体的には、まず、画像生成装置１の領域推定部１４は、ヒストグラム記憶部２３を参照し、集計ヒストグラム情報を取得する。次に、領域推定部１４は、集計ヒストグラム情報を後述するエネルギー関数に入力し、図５に示すエネルギー最小化処理により、最適解を求める。すなわち、領域推定部１４は、当該エネルギー関数を最小化する領域を示すピクセルの集合を算出する。続いて、領域推定部１４は、最適解である推定領域に基づき、コンテンツ記憶部２１を参照し、当該ビジュアルコンテンツから画像データを生成する。そして、領域推定部１４は、生成された画像データを推定領域コンテンツとして推定領域コンテンツ記憶部２４へ格納する。
【００６２】
その後、図２に示すように、画像生成装置１は、情報端末３ａ、３ｂ、及び３ｃへ推定領域コンテンツを配信する（Ｓ１４）。具体的には、まず、画像生成装置１は、情報端末３ａからの推定領域コンテンツ送信要求を受信し、コンテンツ配信部１１により、推定領域コンテンツ記憶部２４に格納された推定領域コンテンツを要求元の情報端末３ａへ送信する。次に、情報端末３ａは、推定領域コンテンツを受信し、画面に表示する。これにより、情報端末３ａの視聴者は、元のビジュアルコンテンツではなく、最適な提示領域が推定されたビジュアルコンテンツを視聴することができる。また、画像生成装置１は、情報端末３ｂ、及び３ｃその他の情報端末に対しても、同様に、推定領域コンテンツを配信することができる。
【００６３】
ここで、本発明の実施の形態１にかかる領域推定処理で採用される動的輪郭モデルについて説明する。図４は、動的輪郭モデルの適用例を示す図である。図４（ａ）は、中央に位置する対象物体４について、動的輪郭モデルを適用する際の初期状態を表わし、図４（ｂ）は、動的輪郭モデルの適用による対象物体４の輪郭への収束後の状態を表わす。対象物体４は、対象領域がエッジで囲まれているものである。そして、動的輪郭モデルは、当該エッジを閉曲線として抽出することで、対象物体４の輪郭を抽出するものである。
【００６４】
図４（ａ）において、領域４０は、代表点４１乃至４８により囲まれた領域であり、初期状態における対象物体４の輪郭を表わす。ここで、代表点の数、及び位置は、初期状態で任意に与えられたものであり、これに限定されない。代表点４１乃至４８は、対象物体４に近付くほど小さくなるように定義されたエネルギー関数により、当該エネルギー関数を最小化するような点が求められることにより、それぞれ矢印４０１乃至４０８の方向へ移動をする。その後、代表点４１乃至４８は、図４（ｂ）に示す位置で停止し、領域４０は、対象物体４の輪郭として収束した状態となる。
【００６５】
尚、一般的な動的輪郭モデルでは、対象物体４と背景画像との境界における画素値の差などにより当該エッジの判断が行われるが、本発明の実施の形態１にかかる動的輪郭モデルでは、視聴者数の差により当該エッジの判断が行われる。
【００６６】
次に、本発明の実施の形態１で用いるエネルギー関数について説明する。ここでは、動的輪郭モデルにおける輪郭は、有限数の代表点（ノード）ｖ_ｉ,ｊを曲線によって繋いだものとして表される。ｉは、同一フレーム内でのノード番号、ｊはフレーム番号を表す。
【００６７】
以下に、本発明の実施の形態１で用いるエネルギー関数Ｅ_ｔｕｂｅを式（１）に定義する。
【数１】

【００６８】
ここで、α、β、γ、δ、及びεは、各項に対する重み付け係数である。Ｅ_ｈｉｎ、及びＥ_ｈｏｕｔは、多くの視聴者が注目している箇所、すなわち、人気のある位置に近付くエネルギーである。つまり、視聴履歴データの選択領域に共通箇所が多い領域、又は、最も共通する画像を含むような領域に収束するエネルギーである。また、Ｅ_{ｆｒａｍｅ}は、カメラワークを滑らかにしようとするエネルギーである。また、Ｅ_ｄｉｓ、及びＥ_ａｓｐは、それぞれ推定領域を適切な大きさに保つエネルギーと、画面のアスペクト比（縦横比）に近づけるエネルギーである。
【００６９】
式（１）におけるそれぞれの項は以下の式（２）、式（３）、式（４）、式（５）、及び式（６）のように表される。但し、ｖ_ｉ,ｊ＝（ｘ_ｉ,ｊ、ｙ_ｉ,ｊ）は、フレームｊにおけるノードｉの座標を示している。このとき、Ｎは、そのコンテンツの視聴者全体の数、Ｐ_ＩＮ、及びＰ_ＯＵＴは、それぞれ推定領域の内側、及び外側のピクセル数、Σ_ＩＮ、及びΣ_ＯＵＴは、それぞれ推定領域の内側、及び外側の各ピクセルにおける視聴者数の合計である。
【００７０】
式（２）に示すように、Ｅ_ｈｉｎは、推定領域の内部に関するエネルギーであり、推定領域の内部の視聴者数が多いほど、又は、推定領域の内部に共通する画像が多いほど、小さくなるエネルギーである。
【数２】

【００７１】
式（３）に示すように、Ｅ_ｈｏｕｔは、推定領域の外部に関するエネルギーであり、推定領域の外部の視聴者数が少ないほど、又は、推定領域の外部に共通する画像が少ないほど、小さくなるエネルギーである。
【数３】

【００７２】
式（４）に示すように、Ｅ_{ｆｒａｍｅ}は、前後のフレームの同一のノードｉにおける座標位置が一致するほど、小さくなるエネルギーである。つまり、Ｅ_{ｆｒａｍｅ}は、フレーム間の移動を滑らかにするエネルギーである。または、Ｅ_{ｆｒａｍｅ}は、対象のフレームの前後のフレームの切り出し位置を直線で結び、前記前後の間の対象のフレームの切り出し位置が直線に近付くほど、小さくなるエネルギーである。
【数４】

【００７３】
式（５）に示すように、Ｅ_ｄｉｓは、フレームｊにおける目標とする推定領域のサイズｘ_ｉｄｅａ、及びｙ_ｉｄｅａに近付くほど小さくなるエネルギーである。すなわち、Ｅ_ｄｉｓは、推定領域のサイズを統一するためのエネルギーである。ここで、ｘ_ｉｄｅａ、及びｙ_ｉｄｅａは、それぞれ推定領域が近付くべき縦、及び横の幅を表わす。
【数５】

【００７４】
式（６）に示すように、Ｅ_ａｓｐは、フレームｊにおける推定領域のアスペクト比が、目標とするアスペクト比ｈ／ｗに近付くほど、小さくなるエネルギーである。すなわち、Ｅ_ａｓｐは、アスペクト比を一定に保つためのエネルギーである。ここで、ｗ、及びｈは、それぞれ表示される画面の幅、及び高さを表わす。
【数６】

【００７５】
また、ｘ_ｓｉｚｅ（ｊ）、及びｙ_ｓｉｚｅ（ｊ）は、以下の式（７）、及び式（８）で表される。
【数７】

【数８】

【００７６】
尚、本発明の実施の形態１にかかる領域推定処理を実現するためには、エネルギー関数Ｅ_ｔｕｂｅにおいて、Ｅ_ｈｉｎが最低限、定義される必要がある。視聴履歴データを利用するためである。但し、式（２）の内容は、任意である。
【００７７】
また、式（３）、式（４）、式（５）、及び式（６）の内容がこれに限定されないことは勿論である。さらに、エネルギー関数Ｅ_ｔｕｂｅにおいては、式（１）に加えて、他のエネルギーが追加で定義されても構わない。
【００７８】
図５は、本発明の実施の形態１にかかるエネルギー最小化処理を示すフローチャート図である。エネルギー最小化には、貪欲法（Greedy Algorithm）を用いる。尚、Greedy Algorithmは、公知技術としてよく知られているものであるから、ここでは詳細な説明を省略する。
【００７９】
ここでは、式（１）における各々のパラメータを、Ｎ＝３２、ｗ＝１８０、ｈ＝１２０、ｘ_ｉｄｅａ＝３６０、及びｙ_ｉｄｅａ＝２４０とする。また、Greedy Algorithmに関する探索近傍は、７×７ピクセルとする。すなわち、本発明の実施の形態１にかかるエネルギー最小化処理では、１つの代表点当たり、当該代表点の周囲７×７ピクセルの点について、エネルギー関数値を算出するものとする。但し、これらのパラメータ、探索近傍のピクセル数はこれに限定されるものではない。
【００８０】
画像生成装置１の領域推定部１４は、式（１）に定義されるエネルギー関数に基づき、視聴履歴データを入力として、エネルギー最小化処理を行う。まず、領域推定部１４は、初期代表点を入力する（Ｓ２１）。ここで、初期代表点は、各フレーム当たり、任意の２点である。例えば、各フレームの左上、及び右下の点であればよい。
【００８１】
次に、領域推定部１４は、各代表点の近傍ピクセルのエネルギー関数値を算出する（Ｓ２２）。具体的には、領域推定部１４は、代表点ｖ_ｉ,ｊ、及び、代表点ｖ_ｉ,ｊの近傍ピクセルにおけるエネルギー関数値を算出する。これを全てのフレーム、及びノードについて行う。
【００８２】
そして、領域推定部１４は、各代表点ｖ_ｉ,ｊに当たりに、代表点よりエネルギー関数値が小さい近傍ピクセルが存在するか否かを判定する（Ｓ２３）。いずれかの代表点ｖ_ｉ,ｊにおいて、代表点よりエネルギー関数値が小さい近傍ピクセルが存在すると判定された場合、ステップＳ２４へ進み、存在しないと判定された場合、処理を終了し、この時点での代表点により表わされる領域を推定領域とする。
【００８３】
代表点よりエネルギー関数値が小さい近傍ピクセルが存在すると判定された場合、領域推定部１４は、該当する代表点ｖ_ｉ,ｊを、エネルギー関数値が最小となる当該近傍ピクセルへ移動させ、次の代表点ｖ_ｉ,ｊとする（Ｓ２４）。これを、ステップＳ２３において、該当する代表点がなくなるまで繰り返す。
【００８４】
尚、ステップＳ２３において、該当する代表点がなくなるまで繰り返すようにしたが、該当する代表点の上限値を設定してもよい。これにより、収束時間が短縮される。
【００８５】
さらに、式（１）の収束を助けるため、パラメータα、β、γ、δ、及びεを式（９）に示すように、反復回数ｒによって変化させることが望ましい。これにより、より収束効率を上げることができる。すなわち、エネルギー最小化処理における反復回数が１５０回未満の間は、パラメータβ、及びγを０として、式（１）は、式（２）、式（５）、及び式（６）のみで定義されるエネルギー関数とする。そして、反復回数が１５０回以上になった後に、パラメータβ、及びγを０以外にし、式（１）に、式（３）、及び式（４）の定義をさらに加え、パラメータδ、及びεを変更して、式（５）、及び式（６）に定義されるエネルギー値の重みを調整する。従って、パラメータαの値自体は変更しないが、結果的に式（２）の式（１）における比率は、反復回数が１５０回未満の間に比べ、調整されたことになる。
【数９】

【００８６】
尚、上述したエネルギー最小化処理は、Greedy Algorithmに限定されない。例えば、変分法や動的計画法が適用可能である。しかし、本発明の実施の形態１におけるエネルギー最小化処理は、変分法、及び動的計画法に比べ、Greedy Algorithmが好適である。例えば、変分法の場合、エネルギー最小化における反復処理ごとに逆行列の計算が発生し、計算量、及び精度の観点で最適とは言えない。尚、変分法、及び動的計画法は、公知技術としてよく知られているものであるから、ここでは詳細な説明を省略する。
【００８７】
図６は、本発明の実施の形態１にかかる領域選択画面５０の例を示す図である。領域選択画面５０は、情報端末３ａ、３ｂ、及び３ｃ内で稼働する選択領域の切り出すためのアプリケーションにより提供されるインタフェースである。
【００８８】
領域選択画面５０は、情報端末３ａ、３ｂ、及び３ｃの画面に表示される。領域選択画面５０は、ダウンサンプリング済原画像５１と、切り出し画像５３とを備える。ダウンサンプリング済原画像５１は、画像生成装置１から配信されるビジュアルコンテンツを表示する領域であり、元のビジュアルコンテンツに対して、低解像度で表示される。ダウンサンプリング済原画像５１は、切り出し領域５２を含む。切り出し領域５２は、視聴者のマウス等の操作により、位置、及び大きさが変更可能である。そのため、視聴者は、ダウンサンプリング済原画像５１内の切り出し領域５２の位置、及び大きさを変更させることができる。
【００８９】
切り出し画像５３は、切り出し領域５２に囲まれた画像が、ダウンサンプリング済原画像５１と同じサイズに拡大して表示される領域である。そのため、視聴者は、自身が選択した切り出し領域５２の領域を切り出し画像５３により確認した上で、画像の切り出しを行うことができる。
【００９０】
図７は、動画像コンテンツへの従来技術及び本発明の実施の形態１の適用の比較結果を示す図である。この例では、当該動画像コンテンツは、フレーム内に一つのオブジェクト（ライオン）が存在し、フレーム間で当該オブジェクトが移動する様子を示す。また、比較対象は、当該動画像コンテンツにおけるフレーム０、３０、６０、９０、１２０とする。また、各視聴者は、図６に示す領域選択画面５０を操作し、当該オブジェクト付近を任意に選択領域として選択したものとする。
【００９１】
図８は、原画像である高解像度の動画像コンテンツを単純にダウンサンプリングした結果、生成される画像群を示す。図９は、原画像を本発明の実施の形態１にかかる画像生成装置１に適用した結果、推定領域コンテンツとして生成される画像群を示す。このことから、図９は、図８に比べ、当該オブジェクトがより鮮明に表示されることがわかる。また、この結果は、対象となる動画像コンテンツに複数のオブジェクトに対しても、同様に得ることが可能である。
【００９２】
このように、本発明の実施の形態１にかかる画像生成装置１を用いることにより、多数の視聴者から集められた多くの履歴情報から全体にとって最適な提示領域を推定することができる。すなわち、集合知を用いることで、原画像に含まれる部分的な領域のうち、より多くの視聴者に選択された領域を推定することができる。
【００９３】
また、視聴者の操作履歴から選択領域における視聴者数の集計ヒストグラム情報を生成することで、視聴者の注目箇所をより的確に表現することができ、最適提示領域、すなわち、視聴者全体の満足度の平均が最高となるような領域を推定することができる。
【００９４】
さらに、選択領域における視聴者数の集計ヒストグラム情報を用いることで、選択領域内の視聴者数の密度をエネルギーとして定義した動的輪郭モデルを適用することにより、視聴者全体の主観品質を高くする推定領域を求めることができる。
【００９５】
特に、本発明の実施の形態１にかかる画像生成方法における動的輪郭モデルでは、複数の視聴者の操作履歴から最適提示領域を推定するために，さまざまな拘束条件を一次元のエネルギーで表現したエネルギー関数を定義した。当該エネルギー関数では、選択領域内の視聴者数の累積数やカメラワークの整合性を導入することにより、単純に動画像全体を縮小する場合に比べて高い主観品質の動画像を生成することができる。
【００９６】
尚、上述した領域推定部１４では、予め、推定領域から推定領域コンテンツを生成し、推定領域コンテンツ記憶部２４に格納するようにしていたが、これに限定されない。例えば、領域推定部１４は、推定領域自体を別途、記憶しておき、推定領域コンテンツの配信時に、コンテンツ配信部１１が、都度、当該推定領域から推定領域コンテンツを生成した上で配信するようにしてもよい。
【００９７】
発明の実施の形態２．
近年、携帯電話へのいわゆる「フルブラウザ」の搭載により、本来はＰＣ（パーソナルコンピュータ）での閲覧を前提に作成されたＷＥＢコンテンツを、その本来のレイアウトを崩さずに携帯電話で閲覧できるようになった。しかしながら、依然として携帯電話のディスプレイは低解像度であり、一度に閲覧できる範囲は本来のＷＥＢコンテンツの一部を切り取った（トリミングした）ものとならざるを得ない。これにより、携帯電話を使用するユーザ（視聴者）がＷＥＢコンテンツのうち、自身が所望する箇所を閲覧できるまでには、大きな労力が求められる。これを助けるため、携帯電話のフルブラウザには、現在視聴している箇所がＷＥＢコンテンツ全体のどの部分にあたるかを提示する縮小画像の表示機能が搭載されていることが多い。しかし、当該縮小画像からＷＥＢコンテンツの各部の内容を把握することは難しいため、問題の部分的な解決に留まっている。
【００９８】
そこで、本発明の実施の形態２は、本発明の実施の形態１における領域推定処理の変形例として、携帯電話向けのＷＥＢコンテンツを対象とするものを提供する。つまり、当該ＷＥＢコンテンツを同様の携帯電話を用いて閲覧した他ユーザの視聴履歴を利用して、特に人気のある箇所をすばやく表示させることで、携帯電話のディスプレイに自身が所望する箇所を表示させる労力を劇的に減らせることができる。
【００９９】
図１０は、本発明の実施の形態２における適用例の概略を示す図である。図１０おいては、図１、及び図２の画像生成装置１が、キャリアサーバ１ａ、及びＷＥＢサーバ１ｂに置き換わり、図１の情報端末３ａ、３ｂ、及び３ｃが、携帯電話端末３１に置き換わり、図２の情報端末３ｄ、３ｅ、及び３ｆが、携帯電話端末３３に置き換ったものである。また、本発明の実施の形態１にかかるコンテンツ配信部１１が、コンテンツ配信部１１ａに置き換わり、本発明の実施の形態１にかかる推定領域コンテンツ記憶部２４が、推定領域情報記憶部２５に置き換わったものである。その他、図１０において、図１、及び図２と同等の機能を有するものには、同一の符号が付されており、説明を省略する。
【０１００】
携帯電話端末３１は、ネットワークを介してキャリアサーバ１ａと通信可能であり、フルブラウザ３２を備えた携帯電話端末である。フルブラウザ３２は、キャリアサーバ１ａから受信したＷＥＢコンテンツを表示し、当該ＷＥＢコンテンツにおける一部を拡大表示することができる。また、フルブラウザ３２は、拡大表示された位置をキャリアサーバ１ａへ送信することができる。これにより、フルブラウザ３２に表示されたＷＥＢコンテンツの内、拡大表示された領域を、視聴者における視聴履歴データとして扱うことができる。
【０１０１】
尚、携帯電話端末３３、及び携帯電話端末３３が備えるフルブラウザ３４は、携帯電話端末３１、及びフルブラウザ３２と同様の機能であればよいため、説明を省略する。
【０１０２】
キャリアサーバ１ａは、携帯電話端末３１、携帯電話端末３３、及びＷＥＢサーバ１ｂとネットワーク（不図示）を介して通信可能であり、携帯電話端末３１、及び携帯電話端末３３とＷＥＢサーバ１ｂとを中継するためのサーバである。ＷＥＢブラウジングを含む携帯電話端末による通信は、課金等の都合上、すべて携帯電話会社（キャリア）のサーバを経由する必要があるためである。
【０１０３】
キャリアサーバ１ａの推定領域情報記憶部２５は、領域推定部１４により求められる推定領域情報を記憶する。ここで、推定領域情報は、ＷＥＢコンテンツにおける位置情報である。例えば、ＷＥＢコンテンツに含まれているレイアウト情報であればよい。
【０１０４】
また、キャリアサーバ１ａのコンテンツ配信部１１ａは、携帯電話端末３１、又は携帯電話端末３３からＷＥＢサーバ１ｂへのＷＥＢコンテンツのリクエストを中継し、ＷＥＢサーバ１ｂからのＷＥＢコンテンツを携帯電話端末３１、又は携帯電話端末３３へ送信する。
【０１０５】
キャリアサーバ１ａは、携帯電話端末３１、又は携帯電話端末３３から当該ＷＥＢコンテンツにおける視聴履歴データを受信し、視聴履歴記憶部２２に格納する。また、キャリアサーバ１ａは、画像生成装置１と同様に、集計処理部１３、及び領域推定部１４により領域推定情報を生成する。そして、領域推定部１４は、推定領域情報記憶部２５へ当該推定領域情報を格納する。さらに、コンテンツ配信部１１ａは、携帯電話端末３１、又は携帯電話端末３３からの推定領域コンテンツ要求時には、ＷＥＢコンテンツに推定領域情報を付加して送信する。
【０１０６】
ＷＥＢサーバ１ｂは、キャリアサーバ１ａと通信可能であり、コンテンツ記憶部２１を備えた一般的なＷＥＢサーバである。コンテンツ記憶部２１は、ＰＣ向けのＷＥＢコンテンツを記憶する。
【０１０７】
続いて、本発明の実施の形態２における処理の流れを説明する。尚、本発明の実施の形態２の適用例の概略処理は、図３と同様のため、図示を省略する。
【０１０８】
まず、キャリアサーバ１ａは、携帯電話端末３１から視聴者の選択領域の情報を収集する（Ｓ１１）。具体的には、まず、携帯電話端末３１は、キャリアサーバ１ａへＷＥＢコンテンツのリクエストを送信する。次に、キャリアサーバ１ａは、携帯電話端末３１からのＷＥＢコンテンツのリクエストを受信し、当該ＷＥＢコンテンツを保有するＷＥＢサーバ１ｂへリクエストを送信する。そして、ＷＥＢサーバ１ｂは、コンテンツ記憶部２１を参照し、当該ＷＥＢコンテンツをキャリアサーバ１ａへ送信する。その後、キャリアサーバ１ａは、ＷＥＢサーバ１ｂから当該ＷＥＢコンテンツを受信し、要求元である携帯電話端末３１へ送信する。ここで、携帯電話端末３１は、キャリアサーバ１ａからＷＥＢコンテンツを受信し、フルブラウザ３２に表示する。視聴者は、フルブラウザ３２により、当該ＷＥＢコンテンツに対して、自身が所望する箇所を拡大表示させる。このとき、フルブラウザ３２は、当該ＷＥＢコンテンツにおける拡大表示された位置を視聴履歴データとして、キャリアサーバ１ａへ送信する。そして、キャリアサーバ１ａは、携帯電話端末３１から当該ＷＥＢコンテンツにおける視聴履歴データを受信し、視聴履歴記憶部２２に格納する。
【０１０９】
次に、キャリアサーバ１ａは、集計処理部１３により集計ヒストグラム情報の生成（Ｓ１２）、領域推定部１４により領域推定処理（Ｓ１３）を行い、推定領域情報記憶部２５へ当該推定領域情報を格納する。このとき、領域推定処理において用いられるエネルギー関数は、例えば、式（２）、式（３）、式（５）、及び式（６）により定義することができる。さらに、ＷＥＢコンテンツに含まれているレイアウト情報を用いることでより領域推定の精度を上げることができる。ここで、レイアウト情報とは、ＨＴＭＬ（HyperText Markup Language）タグやＣＳＳ（Cascading Style Sheets）に記述されているものであればよい。
【０１１０】
その後、キャリアサーバ１ａは、携帯電話端末３３へ推定領域コンテンツを配信する（Ｓ１４）。具体的には、まず、キャリアサーバ１ａは、携帯電話端末３３からの推定領域コンテンツ送信要求を受信し、ＷＥＢサーバ１ｂへＷＥＢコンテンツのリクエストを送信する。その後、キャリアサーバ１ａは、ＷＥＢサーバ１ｂから当該ＷＥＢコンテンツを受信し、また、コンテンツ配信部１１ａにより、推定領域情報記憶部２５に格納された推定領域情報を取得し、当該ＷＥＢコンテンツに推定領域情報を付加して、要求元である携帯電話端末３３へ送信する。次に、携帯電話端末３３は、ＷＥＢコンテンツ、及び推定領域情報を受信する。そして、フルブラウザ３４は、推定領域情報の位置情報を解釈し、ＷＥＢコンテンツの該当する位置を拡大表示する。
【０１１１】
これにより、携帯電話端末３３の視聴者は、当該ＷＥＢコンテンツの先頭から自身が所望する箇所へ移動させることなく、事前に携帯電話端末３１の視聴者が拡大表示した位置を閲覧することができる。そのため、キャリアサーバ１ａによって推定領域情報が求められた後には、当該ＷＥＢコンテンツを閲覧する視聴者に対してこの最適提示領域を推薦することが可能となり、これによってユーザがＷＥＢコンテンツ内部で適切な閲覧箇所を探す労力を大幅に軽減することができる。
【０１１２】
尚、上述したフルブラウザ３２は、拡大表示された領域の表示時間により、視聴履歴データに重み付けをしてもよい。例えば、ＷＥＢコンテンツの内、表示時間が短い箇所は、視聴者の所望の箇所へ移動する際に通過した箇所である可能性が高いため、視聴者の興味が少ないとみなして重み付けを下げ、表示時間が長い箇所は、視聴者の所望の箇所である可能性が高いため、視聴者の興味が大きいとみなして重み付けを上げるようにするとよい。これにより、より精度の高い推定領域情報を求めることができる。
【０１１３】
このように、本発明の実施の形態２では、世界中の複数のＷＥＢサーバに分散して存在しているＷＥＢコンテンツに対し、各ＷＥＢコンテンツの視聴履歴データをキャリアサーバ１ａ上で一元的に管理することで、世界中に分散して存在する各ＷＥＢサーバに改変を加えることなく、それぞれのＷＥＢコンテンツにおける最適提示領域を推薦することができる。
【０１１４】
尚、本発明の実施の形態２は、携帯電話端末に限定されない。例えば、ＰＣなどの任意の情報端末においても、通信プロバイダなどの直近のサーバに視聴履歴データを格納し、領域推定処理を行うことで、実現可能である。
【０１１５】
その他の発明の実施の形態．
尚、本発明の実施の形態１において、ビジュアルコンテンツは、動画像コンテンツに限定されない。例えば、単一の画像データであっても適用可能である。
【０１１６】
本発明の実施の形態１において、フレーム、及び選択領域は、矩形に限定されない。例えば、矩形以外の形状の選択領域である場合、式（５）、式（６）の定義を変形させることで実現可能である。また、矩形以外の形状の推定領域である場合、画面への表示において、推定領域の形状を維持したまま表示すればよい。
【０１１７】
尚、本発明の実施の形態１及び２において、動的輪郭モデルに対して、視聴履歴データを入力としたが、視聴履歴に限定されるものではない。例えば、複数の画像データを入力とすればよい。
【０１１８】
尚、本発明の実施の形態１における画像生成装置１の各機能は、情報端末３ａ、３ｂ、及び３ｃの内部で実現されても構わない。すなわち、情報端末３ａ、３ｂ、及び３ｃは、本発明の実施の形態１にかかるコンテンツ配信部１１、入力受付部１２、集計処理部１３、領域推定部１４、コンテンツ記憶部２１、視聴履歴記憶部２２、ヒストグラム記憶部２３、又は推定領域コンテンツ記憶部２４のいずれか又は全てを備えるものであって構わない。
【０１１９】
例えば、情報端末３ａを使用する視聴者は、情報端末３ａの内部に格納されたビジュアルコンテンツに対して、自身が嗜好する領域を選択し、情報端末３ａは、当該選択領域に基づき、領域推定を行うことができる。その後、視聴者は、当該ビジュアルコンテンツに対して、情報端末３ａ内に格納された推定領域コンテンツを視聴することができる。これにより、情報端末３ａを使用する視聴者は、当該当該ビジュアルコンテンツに対して、より自身の嗜好に合った推定領域コンテンツを視聴することができる。
【０１２０】
さらに、本発明は上述した実施の形態のみに限定されるものではなく、既に述べた本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【図面の簡単な説明】
【０１２１】
【図１】本発明の実施の形態１にかかる画像生成装置１において視聴履歴を収集する動作を説明する図である。
【図２】本発明の実施の形態１にかかる画像生成装置１において視聴履歴から推定領域コンテンツを生成する動作を説明する図である。
【図３】本発明の実施の形態１の適用例の概略処理を示すフローチャート図である。
【図４】動的輪郭モデルの適用例を示す図である。
【図５】本発明の実施の形態１にかかるエネルギー最小化処理を示すフローチャート図である。
【図６】本発明の実施の形態１にかかる領域選択画面の例を示す図である。
【図７】視聴履歴のヒストグラムの例を示す図である。
【図８】動画像コンテンツへ従来技術（ダウンサンプリング）を適用した結果、生成される画像群を示す図である。
【図９】動画像コンテンツへ本発明の実施の形態１にかかる画像生成装置１を適用した結果、推定領域コンテンツとして生成される画像群を示す図である。
【図１０】本発明の実施の形態２における適用例の概略を示す図である。
【符号の説明】
【０１２２】
１画像生成装置１ａキャリアサーバ１ｂＷＥＢサーバ
１１コンテンツ配信部１１ａコンテンツ配信部１２入力受付部
１３集計処理部１４領域推定部１５切り出し処理部
２１コンテンツ記憶部２２視聴履歴記憶部
２３ヒストグラム記憶部２４推定領域コンテンツ記憶部
２５推定領域情報記憶部
３ａ、３ｂ、３ｃ、３ｄ、３ｅ、３ｆ情報端末
３１携帯電話端末３２フルブラウザ
３３携帯電話端末３４フルブラウザ
４対象物体４０領域
４１乃至４８代表点４０１乃至４０８矢印
４０初期領域４１代表点４２収束エネルギー
４３代表点４４収束エネルギー
４５収束領域４６代表点４７代表点
５０領域選択画面５１ダウンサンプリング済原画像５２切り出し領域
５３切り出し画像
ｖ_ｉ,ｊ代表点（ノード）ｉノード番号ｊフレーム番号
Ｅ_ｔｕｂｅエネルギー関数 α、β、γ、δ、ε 重み付け係数
Ｅ_ｈｉｎ、Ｅ_ｈｏｕｔ、Ｅ_{ｆｒａｍｅ}、Ｅ_ｄｉｓ、Ｅ_ａｓｐエネルギー
Ｎそのコンテンツの視聴者全体の数
Ｐ_ＩＮ推定領域の内側のピクセル数Ｐ_ＯＵＴ推定領域の外側のピクセル数
Σ_ＩＮ推定領域の内側の各ピクセルにおける視聴者数の合計
Σ_ＯＵＴ推定領域の外側の各ピクセルにおける視聴者数の合計
ｘ_ｉｄｅａ、ｙ_ｉｄｅａ目標とする推定領域のサイズ
ｗ表示される画面の幅ｈ表示される画面高さ

【特許請求の範囲】
【請求項１】
複数の入力画像から一つの画像を生成する画像生成装置であって、
前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定部を備える画像生成装置。
【請求項２】
前記絞込エネルギーは、
前記推定領域の内部に関する内部エネルギーと、
前記推定領域の外部に関する外部エネルギーとを有し、
前記内部エネルギーは、
前記推定領域の画像が共通するほどエネルギーが小さくなり、
前記外部エネルギーは、
前記推定領域の外部に共通する画像が少ないほどエネルギーが小さくなることを特徴とする請求項１に記載の画像生成装置。
【請求項３】
前記エネルギー関数は、
前記推定領域のサイズを目標値に近付けるサイズ調整エネルギーをさらに含む、請求項２に記載の画像生成装置。
【請求項４】
前記入力画像は、原画像の一部の領域が切り出されたものであって、
前記エネルギー関数は、
前記原画像間で切り出された位置が一致するほど小さくなる画像間調整エネルギーをさらに含む、請求項３に記載の画像生成装置。
【請求項５】
複数の前記原画像は、複数のフレームから構成される時系列データであって、
前記画像間調整エネルギーは、
前後のフレームの切り出し位置を直線で結び、前記前後の間のフレームの切り出し位置が前記直線に近付くほどエネルギーが小さくなることを特徴とする請求項４に記載の画像生成装置。
【請求項６】
前記推定領域は、矩形であり、
前記エネルギー関数は、
前記推定領域の縦横の比率を一定に保つ縦横比調整エネルギーをさらに有する、請求項４又は５に記載の画像生成装置。
【請求項７】
前記複数の入力画像は、
１又は複数の画像における一部又は全てが切り出された画像である、請求項１乃至６のいずれか１項に記載の画像生成装置。
【請求項８】
前記複数の入力画像は、前記原画像を視聴する複数の視聴者により選択された領域の集合である視聴履歴である、請求項１乃至７のいずれか１項に記載の画像生成装置。
【請求項９】
前記視聴履歴を記憶する視聴履歴記憶部と、
前記視聴履歴記憶部を参照し、領域ごとに視聴者数を集計したヒストグラムを生成する集計処理部とをさらに備えることを特徴とする、請求項８に記載の画像生成装置。
【請求項１０】
前記領域推定部は、
前記エネルギー関数を貪欲法により最小化し、
前記貪欲法の繰り返し回数が所定回数以下の場合、前記外部エネルギー及び前記画像間調整エネルギー以外の前記エネルギー関数を最小化する領域を求めることを特徴とする、請求項６に記載の画像生成装置。
【請求項１１】
前記視聴者により選択された領域を入力画像として受け付け、前記視聴履歴記憶部へ格納する入力受付部をさらに備える、請求項９又は１０に記載の画像生成装置。
【請求項１２】
前記動的輪郭モデルは、
前記原画像のレイアウト情報に関するエネルギーをさらに含むエネルギー関数が定義され、
前記領域推定部は、
当該動的輪郭モデルを用いて、推定領域を求める、請求項１に記載の画像生成装置。
【請求項１３】
前記原画像を表示し、前記視聴者により選択された領域を判別し、当該領域の情報を請求項１乃至１２のいずれか１項に記載の画像生成装置へ送信する情報端末。
【請求項１４】
複数の入力画像から一つの画像を生成する画像生成方法であって、
前記複数の入力画像から最も共通する画像を含むよう領域を絞り込む絞込エネルギーを含むエネルギー関数が定義された動的輪郭モデルを用いて、前記エネルギー関数を最小化するよう前記複数の入力画像から推定領域を求める領域推定ステップを備える画像生成方法。
【請求項１５】
前記絞込エネルギーは、
前記推定領域の内部に関する内部エネルギーと、
前記推定領域の外部に関する外部エネルギーとを有し、
前記内部エネルギーは、
前記推定領域の画像が共通するほどエネルギーが小さくなり、
前記外部エネルギーは、
前記推定領域の外部に共通する画像が少ないほどエネルギーが小さくなることを特徴とする請求項１４に記載の画像生成方法。
【請求項１６】
前記エネルギー関数は、
前記推定領域のサイズを目標値に近付けるサイズ調整エネルギーをさらに含む、請求項１５に記載の画像生成方法。
【請求項１７】
前記入力画像は、原画像の一部の画像領域が切り出されたものであって、
前記エネルギー関数は、
前記原画像間で切り出された位置が一致するほど小さくなる画像間調整エネルギーをさらに含む、請求項１６に記載の画像生成方法。
【請求項１８】
複数の前記原画像は、複数のフレームでから構成される時系列データであって、
前記画像間調整エネルギーは、
前後のフレームの切り出し位置を直線で結び、前記前後の間のフレームの切り出し位置が前記直線に近付くほどエネルギーが小さくなることを特徴とする請求項１７に記載の画像生成方法。
【請求項１９】
前記推定領域は、矩形であり、
前記エネルギー関数は、
前記推定領域の縦横の比率を一定に保つ縦横比調整エネルギーをさらに有する、請求項１７又は１８に記載の画像生成方法。
【請求項２０】
前記複数の入力画像は、
１又は複数の画像における一部又は全てが切り出された画像である、請求項１４乃至１９のいずれか１項に記載の画像生成方法。
【請求項２１】
前記複数の入力画像は、前記原画像を視聴する複数の視聴者により選択された領域の集合である視聴履歴である、請求項１４乃至２０のいずれか１項に記載の画像生成方法。
【請求項２２】
前記視聴履歴から、領域ごとに視聴者数を集計したヒストグラムを生成する集計処理ステップとをさらに備えることを特徴とする、請求項２１に記載の画像生成方法。
【請求項２３】
前記領域推定ステップは、
前記エネルギー関数を貪欲法により最小化し、
前記貪欲法の繰り返し回数が所定回数以下の場合、前記外部エネルギー及び前記画像間調整エネルギー以外の前記エネルギー関数を最小化する領域を求めることを特徴とする、請求項１９に記載の画像生成方法。
【請求項２４】
前記視聴者により選択された領域を入力画像として受け付け、前記視聴履歴記憶部へ格納する入力受付ステップをさらに備える、請求項２２又は２３に記載の画像生成方法。
【請求項２５】
前記動的輪郭モデルは、
前記原画像のレイアウト情報に関するエネルギーをさらに含むエネルギー関数が定義され、
前記領域推定ステップは、
当該動的輪郭モデルを用いて、推定領域を求める、請求項１４に記載の画像生成方法。
【請求項２６】
請求項１４乃至２５のいずれか１項に記載の処理をコンピュータに実行させることを特徴とするプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図１０】

【図６】

【図７】

【図８】

【図９】

【公開番号】特開２００９−１６９６４４（Ｐ２００９−１６９６４４Ａ）
【公開日】平成２１年７月３０日（２００９．７．３０）
【国際特許分類】

【出願番号】特願２００８−６６９１（Ｐ２００８−６６９１）
【出願日】平成２０年１月１６日（２００８．１．１６）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成１９年１０月３１日・１１月１日・２日「映像メディア処理シンポジウム」　第１２回シンポジウム資料
【出願人】（３０４０２１４１７）国立大学法人東京工業大学 (1,821)
【Ｆターム（参考）】

[ Back to top ]

画像生成装置、情報端末、画像生成方法及びプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

画像生成装置、情報端末、画像生成方法及びプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク