画像領域の高凝縮要約画像を生成する方法
【課題】画像領域の高凝縮要約画像を生成する方法を提供する。
【解決手段】(a)主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、(b)定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、(c)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、(d)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填する。
【解決手段】(a)主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、(b)定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、(c)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、(d)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理に関し、詳細には、画像セグメントから重要な画像領域を抽出することに関し、さらに詳細には、画像領域の高凝縮要約画像を生成する方法に関する。
【背景技術】
【0002】
作成されるデジタル画像、ビデオ、及びマルチメディア・コンテンツが増えるにつれ、これらのコンテンツに対し、より多くのタイプのデバイス(携帯電話、PDA、ノート・パソコン、ラップトップ・コンピュータ、及びその他のモバイル・デバイス、並びに、デスクトップ・コンピュータ、ワーク・ステーション、及び何らかのモニタを有するか或いは何らかのモニタと通信するその他のデバイスのような、非モバイル・デバイスを含む)を用いて、アクセス可能であることが望まれる。モバイル・デバイスに関し、PDAや携帯電話のような小型の無線モバイル・デバイスにおいてビデオを閲覧することは困難である。なぜなら、一般的に、スクリーンが小さいと、表示できるコンテンツの量が制限されるからである。
【0003】
ビデオ・サマリを視覚化する既存の手法は、小型スクリーンに合わせて企画されておらず、小型スクリーンでは適切に機能しない。したがって、ビジュアル・サマリは、モバイル・デバイスに見られるような小型スクリーンでは適切に機能しないのが一般的である。よく知られている1つの方法として、コンテンツ分析アルゴリズムを用いてビデオから抽出されたいくつかの重要なキー・フレームを含むストーリー・ボードを使用する方法がある。ストーリー・ボード表示の一例が、図1に示されている。このレイアウトは、同じサイズの画像を有していてもよいし、異なるサイズの画像を有していてもよい。小型スクリーンで見る場合、画像の中身が見えにくい。
【0004】
ドキュメントの強調表示領域の検出に関する特許文献1、ドキュメントのテキスト領域の自動抽出に関する特許文献2、及び、非特許文献1は、本発明に関連する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】米国特許第5,048,109 A号明細書
【特許文献2】米国特許第6,470,095 B2号明細書
【非特許文献】
【0006】
【非特許文献1】S.ウチハシ、J.フート、A.ギルゲンゾーン、J.ボレツキー(S. Uchihashi, J. Foote, A. Girgensohn, J. Boreczky)、「ビデオ・マンガ:意味を有するビデオ要約の意味論的生成(Video Manga: Generating semantically meaningful video summaries)」、ACMマルチメディア予稿集(Proceedings ACM Multimedia)、1999年、pp.383-392
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記に鑑み、本発明の課題は、小型スクリーンにも適切に対応する画像領域の高凝縮ビジュアル・サマリを生成することができるようにすることである。
【課題を解決するための手段】
【0008】
本発明の第1の態様は、コンピュータが画像領域の高凝縮要約画像を生成する方法であって、(a)主要グループ決定手段が複数の動画セグメントの各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、(b)キー・フレーム決定手段が前記動画セグメントの各々におけるキー・フレームを決定し、(c)定義手段が前記動画セグメントの各々における前記各主要グループに関連するジャームを定義し、(d)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、(e)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、前記ジャームは前記主要グループの前記キー・フレームへの投影であり、(e)において、第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する。
【0009】
本発明の第2の態様は、第1の態様の高凝縮要約画像を生成する方法であって、前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする。
【0010】
本発明の第3の態様は、第1または第2の態様の高凝縮要約画像を生成する方法であって、(d)が、前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する。
【0011】
本発明の第4の態様は、第1または第2の態様の高凝縮要約画像を生成する方法であって、(d)が、前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する。
【0012】
本発明の第5の態様は、コンピュータが画像領域の高凝縮要約画像を生成する方法であって、(a)主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、(b)定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、(c)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、(d)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、(d)において、第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する。
【0013】
本発明の第6の態様は、第5の態様の高凝縮要約画像を生成する方法であって、前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする。
【0014】
本発明の第7の態様は、第5または第6の態様の高凝縮要約画像を生成する方法であって、(c)が、前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する。
【0015】
本発明の第8の態様は、第5または第6の態様の高凝縮要約画像を生成する方法であって、(c)が、前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する。
【発明の効果】
【0016】
本発明は、複数の画像セグメントの各々における主要グループを決定し、前記画像セグメントの各々におけるキー・フレームを決定し、前記画像セグメントの各々における前記各主要グループに関連するジャームを定義し、前記ジャームをキャンバス上にレイアウトし、前記キャンバスの空間を充填している。これにより、本発明では、小型スクリーンに適切に対応する画像領域の高凝縮要約画像を生成することができる。
【図面の簡単な説明】
【0017】
【図1】従来技術による、キー・フレームを用いたビデオのストーリー・ボード・サマリを示す図である。
【図2】本発明の一実施形態による、ビデオ領域を抽出してビデオの高凝縮ビジュアル・サマリを生成する方法を示す図である。
【図3】本発明の一実施形態による、ビデオにおける重要な領域を判別する方法を示す図である。
【図4】本発明の一実施形態による、x−y−t空間に表されたビデオを示す図である。
【図5】本発明の一実施形態による、ジャームをレイアウトする方法を示す図である。
【図6】Aは、本発明の一実施形態によるジャーム及びジャームのサポートを示す図であり、Bは、本発明の一実施形態によるジャームを示す図である。
【図7】本発明の一実施形態による、ジャームを含むキャンバスを示す図である。
【図8】本発明の一実施形態による、ジャームを含むボロノイ領域を有するキャンバスを示す図である。
【図9】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図10】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図11】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図12】本発明の一実施形態による、異なる距離関数測定値を示す図である。
【図13】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図14】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図15】本発明の一実施形態による、画像の高凝縮ビジュアル・サマリを示す図である。
【図16】本発明の一実施形態による、顔のサイズが均一な画像の高凝縮ビジュアル・サマリを示す図である。
【図17】本発明の一実施形態による、顔のサイズが異なる画像の高凝縮ビジュアル・サマリを示す図である。
【図18】本発明の一実施形態による、距離測定値が強調表示された画像の高凝縮ビジュアル・サマリを示す図である。
【発明を実施するための形態】
【0018】
本発明の一実施形態では、高凝縮ビジュアル・サマリ装置は、複数のビデオ・セグメントの各々における主要グループを決定する主要グループ決定手段と、該ビデオ・セグメントの各々におけるキー・フレームを決定するキー・フレーム決定手段と、該ビデオ・セグメントの各々における該各主要グループに関連するジャームを定義する定義手段と、サポートと関連付けられた該ジャームをキャンバス上にレイアウトするレイアウト手段と、該キャンバスの空間を充填する充填手段と、を少なくとも備える。高凝縮ビジュアル・サマリ装置は、ビデオ領域の高凝縮ビジュアル・サマリを生成する装置に相当する。
【0019】
高凝縮ビジュアル・サマリ装置は、例えば、比較的小さいモニタを有する小型コンピュータであってよく、該小型コンピュータは、ビデオ・ファイル等のデータやユーザの指示情報等を入力する入力部、プロセッサによる実行の際の作業領域を形成すると共にプログラムや処理対象としてのデータを格納する記憶部、処理内容や処理結果を表示画面に表示するモニタ(表示部)、及びデータを通信網などに出力する出力部などを含む。プロセッサは、判別手段、付与手段、構成手段、併合手段に相当し、プログラム(ソフトウェア)を読み出し実行することにより、処理対象のデータ等に対し当該プログラムの手順に対応した処理をする。
【0020】
本発明の高凝縮ビジュアル・サマリ装置は、小型コンピュータに限定されず、例えば、PDA、携帯電話、腕時計、小型コンピュータ、デジタル・カメラ、及びその他のデバイスのような、他の比較的小さいモニタ若しくは表示スクリーンを有するデバイスであってよい。さらに、デスクトップ・コンピュータ、ワーク・ステーション、及び何らかのモニタを有するか或いは何らかのモニタと通信するその他のデバイスのような、比較的大型のデバイスであってもよい。また、本発明は、ハードウェアによって実現されることに限定されず、ソフトウェアによって実現されてもよいし、ファームウェアによって実現されてもよい。
【0021】
本発明の一実施形態は、1つ以上のビデオから重要なビデオ領域を抽出し、これらのビデオの高凝縮ビジュアル・サマリを生成する。重要なビデオ領域は、エネルギー、動作、顔若しくはその他のオブジェクト検出方法、関連データ若しくは外部入力、又は、ビデオのその他何らかの特性に基づいて抽出される。別の実施形態では、本発明は、画像から重要なジャームを受信若しくは抽出し、これらの画像の高凝縮ビジュアル・サマリを生成する。
【0022】
本発明の別の一実施形態では、重要な領域は、2つの部分、即ち、ジャームとサポートとから構成される。高凝縮ビジュアル・サマリは、キャンバス上にジャームをレイアウトし、これらのジャーム間の空間を充填することにより、生成される。その結果、様々な形状をした部分を備えるステンド・グラスの窓に似た、ビジュアル・サマリがもたらされる。ジャームは、所望のパターン、サイズ、又はその他何らかの様式に応じて、時間的順序、カラー・ヒストグラム、類似性によってレイアウトされてもよい。ジャームにおける人々、オブジェクト、及びその他のビジュアル・コンテンツは、より大きくなると、より見やすくなる。本発明のさらに別の一実施形態では、パッキングされたジャーム間の空間を充填するボロノイ・ベースのアルゴリズムにより、不規則な形状をしたセル境界が得られる。本発明のビジュアル・サマリは、キー・フレーム内の重要な部分領域を利用することによって、小型スクリーンに十分に適した、より凝縮度の高いサマリをもたらす。
【0023】
ビジュアル・サマリの生成
ビデオ領域を抽出して高凝縮ビジュアル・サマリを生成する方法200が、図2に示されている。方法200は、開始ステップ205で開始する。次に、ステップ210において、ビデオがセグメントにセグメント化される。次に、ステップ220において、これらのビデオ・セグメントから重要な領域が決定される。重要な領域が決定されると、ステップ230において、重要度の高いこれらの領域がキャンバス上にレイアウトされる。次に、ステップ240において、重要度の高いこれらの領域間の空間が充填され、ステップ245において、方法200が終了する。これらの作業については各々、以下により詳細に述べる。
【0024】
ビデオのクリップへのセグメント化
ビデオは、様々な方法を用いて、1つ以上のセグメントにセグメント化されてもよい。1つのビデオは、連続的な画像フレームから構成される。一実施形態では、ビデオは、各クリップが類似した連続フレームから構成されるように、ビデオ・セグメントにセグメント化される。このセグメント化は、カラー・ヒストグラム、ユーザ入力、又はその他何らかの手段のような、標準的な手法を用いて行うことができる。別の手法としては、利用可能なカメラのオン/オフ情報を用いて、ビデオ・セグメントの時間的境界を決定する手法があり、これによって、真のショット境界がもたらされ、この真のショット境界は、より適切なセグメントを制作するのに役立つ。
【0025】
別の一実施形態では、ビデオ・フレーム画像をサブサンプリングする精度が設定されてもよい。このサンプリング・レートは、凝縮サマリをもたらすデバイスの用途、利用可能な処理能力、規格、及びその他の特性に基づいて選択されてもよい。さらに別の一実施形態では、モバイル・デバイスにおいて一般的に使用することができると共に表示がしやすいという点から、1ビデオ画像当たり幅方向が16ピクセルで高さ方向が12ピクセルという、かなり低いサンプリング・レートを用いてもよい。さらに、画像を平滑化して、ノイズを減少させてもよい。
【0026】
重要な領域の判別
方法200のステップ210においてビデオが1つ以上のビデオ・セグメントにセグメント化された後、ビデオ・クリップにおいて重要な領域が決定される。図3の方法300は、本発明の一実施形態による、重要な領域を判別する処理を示している。方法300は、開始ステップ305で開始する。次に、ステップ310において、ビデオ・セグメント内で重要な領域が決定される。1つのビデオは、x−y−t空間における三次元ボリュームとみなすことができる。ビデオの三次元ボリュームの例示的表現が、図4に示されている。図示されているように、ビデオ・セグメント410は、第1フレーム440と、t軸に沿ったいくつかの連続フレームとから構成され得る。1つの領域は、この三次元ビデオ・セグメント410のx−y−t空間内における部分集合の三次元領域として特徴付けることができる。領域420及び430は、ビデオ410の三次元ボリューム内に位置する。
【0027】
重要な領域は、多数の方法で決定することができる。一実施形態では、アクティビティ若しくは運動エネルギーが比較的高い三次元空間を重要な領域として決定してもよい。また、いくつかの方法を用いて、領域のエネルギー若しくはアクティビティを求めてもよい。別の一実施形態では、エネルギーを測定するために、速度フィールドを算出してもよい。この場合、サンプリングされた各ピクセルに速度が付与される。この速度は、ビデオ・フレーム間における輝度変化を計算することにより得ることができる。一実施形態では、速度変化を、t成分における速度変化から算出してもよい。別の実施形態では、この速度変化を、x、y、及びt成分の全てを用いて、輝度変化から算出してもよい。このように、全ての成分から速度を算出するには、より多くの処理が必要とされるが、より良い結果が得られる可能性が高い。
【0028】
一実施形態では、領域の残余動作(residual motion)を用いて、輝度変化若しくは速度
変化を求めるのが望ましい。残余動作とは、カメラ動作若しくは背景動作が除去若しくは減算された後に得られる動作のことである。カメラ動作にはパン、チルト、及びズームのような様々なタイプがあり、これらのタイプを検出する方法が開発されている。別の一実施形態では、この残余動作を、特定ピクセルに対する動作変化からフレームの平均動作を減算することにより求めてもよい。
【0029】
次に、方法300では、ビデオ・セグメントの(x−y−t空間における)各ピクセルに関し、ステップ320において、重要な領域における各ピクセルに対する速度の大きさに値が付与される。一実施形態では、この値は、所定のピクセル・レンジ内に収まるように付与されてもよい。このピクセル・レンジは、処理能力及び生成される領域の所望の特徴に基づいて選択されてもよい。別の実施形態では、この速度の大きさは、0と1の二進数のレンジ内となるように量子化されてもよい。0と1の二進レンジを用いるこの実施形態では、平均値(特定のビデオ・セグメントにおけるサンプリングされたピクセル全ての速度の大きさの平均値)よりも速度の大きさが大きいピクセルを1に設定し、残りのピクセルを0に設定してもよい。この実施形態では、分析及び処理の重点を、値が1であるピクセルの集合に置いてもよく、これにより、計算時間が実質的に削減される。
【0030】
次に、方法300のステップ330において、値が1であるピクセルからグループが構成される。一実施形態では、値が1である隣接したピクセルをグループ化することによって、領域が構成される。二次元のビットマップ画像に関しては、各反復において、値が1であるピクセルまでの距離が短いピクセルが、値1のピクセルに変換される。この短い距離は用途によって決まり、一般的にはピクセル1個分であるが、任意のレンジであってもよい。例えば、ピクセル1〜5個分という距離が挙げられるが、本発明はこれに限定されない。しかしながら、値が1である隣接したピクセルをグループ化するのに、いくつのピクセル若しくはレンジを用いてもよい。何回かの反復後、値が1であるピクセルのグループ若しくは「ブロブ(blobs)」が現れる。これらのグループは、かなり不規則な形状をし
ている可能性がある。これにより、計算上、ビデオに対応する三次元ボリュームには、はるかに多くのコストがかかる。さらに、領域の構成処理中及びその後のレイアウト・ステップにおいて、領域の交差及び包含というような幾何学的特性が得られるが、これらの計算に対するアルゴリズムは、二次元よりも三次元の方がより複雑である。
【0031】
ステップ330においてグループが構成された後、作業はステップ340へ続き、このステップ340では、値が1であるピクセルのグループを併合することによって、より大きなグループが形成される。一実施形態では、重要度の高い領域を表すのに、長方形のボックスが用いられる。本明細書中では、単なる例として長方形の領域について述べるが、これらの領域は、あらゆる形状で又はあらゆる形状の組み合わせでグループ化され構成されてもよい。重要度の高い領域を構成するために、ステップ340において、ボックスの前段階である、ステップ330で構成された値が1である隣接したピクセルのグループが、より大きなグループに併合される。
【0032】
一実施形態では、値が1である2のピクセルが隣接しているならば、これらはより大きなグループに併合される。これにより、重要度の高い領域が形成され、これらは一以上の停止条件を備える。この実施形態では、該停止条件により、グループが過度にまばらに散らばらないようにされる。本発明の範囲内における停止条件は、エネルギー密度、体積、及びその他の特性に基づき得る。別の一実施形態では、この得られたより大きなグループは、値が1であるピクセルのより小さなグループを両方とも含む、最小の三次元長方形ボックスという形状をしている。本明細書中では、単なる例として長方形をしたグループについて述べる。領域は、任意の形状で又は多数のタイプの式を用いて構成されグループ化されてもよい。ステップ340において、値が1であるピクセルのグループが併合された後、方法300の作業は、ステップ345で終了する。
【0033】
上述したように、停止条件は多数の特性に基づき得る。このような特性の1つとして、エネルギー密度がある。本発明の一実施形態では、ステップ340で行われるような併合後に、このエネルギー密度が一定の閾値よりも低下しないようにしなければならない。例えば、グループAの密度はd(A)で表すことができ、これは、グループAにおける値1のピクセルの数を、Aのバウンディング・ボックスに含まれるピクセルの総数で割ったものである。
【0034】
同様に、隣接したグループBの密度は、d(B)で表すことができる。ビデオ・セグメント全体の平均密度は、d(W)で表すことができる。この場合、2つのグループAとBは、d(C)>d(W)となるのであれば、併合してグループCとすることができる。ここでは、単なる例として、併合されたグループのエネルギー密度が平均エネルギー密度と比較される。エネルギー密度の代わりに他の閾値を用いてもよく、これは本発明の範囲内に含まれる。
【0035】
別の実施形態では、方法300のステップ340で行われるように2つ以上のグループが併合される際、併合されたグループの体積が一定の閾値を超えないようにしなくてはならない。例えば、グループAに対するバウンディング・ボックスの体積は、v(A)と表すことができる。同様に、グループBに対するバウンディング・ボックスの体積は、v(B)と表すことができる。グループA及びBに関し、これらの交差部分をKと表すことができる。この場合、v(K)/v(A)<1/2且つv(K)/v(B)<1/2であると、AとBとは併合することができない。ここでは、単なる例として、併合された2つのグループの交差部分の体積が各グループの体積と比較される。その他の体積比較法を用いてもよく、これは本発明の範囲内に含まれる。
【0036】
一実施形態では、反復併合処理の結果を、複数のツリー(tree:木)から成るフォレスト(forest:森)と比較してもよい。ここで、各ツリーは1グループを表し、このツリーの複数のリーフ(leaf:葉)は値1のピクセルである。これらのツリーは二進法ではなく、各ノードは2より多くの子を有することができる。各ツリーのバウンディング・ボックスは、一領域である。
【0037】
重要度の高い領域のレイアウト
図2の方法200では、ステップ220においてビデオ・クリップにおける重要な領域を判別した後、次のステップ230においてジャームをレイアウトする。方法200の作業におけるこの段階では、ビデオは、図4のセグメント410のようなセグメントにセグメント化されており、各セグメントに対し、グループ若しくは領域420及び430のような、重要度の高いグループ若しくは領域が算出されている。これらの重要度の高いグループからレイアウトを作成する処理が、図5の方法500によって示されている。方法500は、開始ステップ505で開始する。次に、ステップ510において、1つ以上のセグメントにおける主要グループが決定される。1つのセグメントには、1つの主要グループがあることが多い。一実施形態では、主要グループとは、最も多くのエネルギー、モーション、又は体積を備えた区域か、或いは、その他の理由で重要な区域のことである。例えば、プレゼンテーションのビデオに関して言えば、主要グループは、壇上で身ぶり手ぶりで話している人と、部屋のあちらこちらに座っている人々とを含み得る。ビデオの各クリップから主要グループが選択されてレイアウトされる。
【0038】
次に、ステップ520において、各ビデオ・セグメントに対し、キー・フレームが定義される。一実施形態では、各セグメントの第1フレームをキー・フレームとされる。しかしながら、キー・フレームは様々な方法で決定してもよく、これらは全て本発明の範囲内に含まれると考えられる。
【0039】
次に、方法500では、ステップ530において、各主要グループに対し、ジャーム及びサポートが定義される。一実施形態では、各グループは、レイアウトを決定する2つの長方形、即ち、(1)グループの三次元バウンディング・ボックス及び(2)キー・フレーム画像の二次元バウンディング・ボックスと関連付けられる。これらの長方形を念頭に置くと、ジャームは、グループのx−y面をキー・フレーム上に投影したものと考えられる。ジャームのサポートは、キー・フレームにおいてジャームを囲む画像コンテンツ区域である。
【0040】
図6A及び図6Bは各々、本発明の一実施形態による、ジャーム及びジャームのサポートを示している。図6Aにおいて、キー・フレーム画像バウンディング・ボックス610は、ジャーム画像614と、ジャームのサポート612によって占有された空間とを含む。図6A及び図6Bに示されている実施形態では、ジャームは、キー・フレームの部分区域である。図6Aのジャームのサポート612は、空白であり、このサポートが占める空間を示していることに注意されたい。図6Bは、空間620において、ジャームとサポートとを一緒に示している。図6A及び図6Bは、単なる例として長方形をした、ジャーム及びジャームのサポートの例を表している。別の実施形態では、これらのジャーム及びサポートは、不規則な形状をしていてもよい。さらに別の実施形態では、ビデオ・モザイク・アルゴリズムのような手法を用いて、ジャームのサポートをキー・フレームの境界よりも延出させることにより、より大きなパノラマ画像を作成してもよい。ジャーム及びジャームのサポートは、本発明による任意の形状であってよく、互いに類似していても異なっていてもよいし、変化しても変化しなくてもよい。
【0041】
ジャームが選択されると、次に、任意で、ジャームの順序付けが決定されてもよい(方法500には示されていない)。このジャームの順序付けは、時間的特性、サイズ特性、カラー特性、コンテンツを含む、多数の方法のうちのいずれによって決定されてもよいし、特定のジャームから得られる又は特定のジャームと関連付けられたその他のデータによって決定されてもよい。
【0042】
次に、ステップ540において、主要領域に対し倍率が決定される。一実施形態では、この倍率はジャームの最大倍率に相当しており、キャンバスを完全に満たす行又は列にジャームを配置することができる。この倍率は、最も望ましいスケーリングが達成されるまで、繰り返し調整することができる。一実施形態では、表示される全てのジャームに対して同じ倍率が適用される。別の実施形態では、ジャーム間で倍率が異なっていてもよい。いずれの場合にも、ステップ540における倍率の決定は、方法500に示されているような改行決定ステップ550と別に行ってもよいし、同時に行ってもよい。
【0043】
次に、ステップ550において、領域をキャンバス若しくは表示ページ上に配置するために、改行が決定される。一実施形態では、これは、テキストが、テキストを示すページのサイズで「ラップ」されるように、テキストのパラグラフをワード−ラップでレイアウトするのに似ている。ジャームが水平な行に配置される実施形態では、左から右へ1行ずつジャームをパッキングすることによって、その境界となる空間がキャンバス形状の縦横比に最も近くなるように、改行が選択される。改行によりジャームがレイアウトされたキャンバス700の一例が、図7に示されている。キャンバス700は、ジャーム710、720、及び730を含むジャームと、背景740とを含む。これらのジャームは、3行に改行されており、これらの行は各々、ジャームを3つ、2つ、3つ有している。別の実施形態では、一度に1行ずつの改行を決定するのではなく、小さな数であるN個のジャームに関し、これらを1〜N行に配置する全ての組み合わせを完全にリストアップすることが可能である。各組み合わせに対して、カバー区域のサイズというような品質測度を決定することができ、最適な組み合わせを選択することができる。順序付けされた複数のジャームが1ページに表示されるように「改行」を必要とする別の実施形態では、これらのジャームは、垂直列、同心円の行、又は、あらゆるその他の方式で配置されてもよい。
【0044】
ステップ560では、そのレイアウトが許容可能であるかどうかが決定される。一実施形態では、倍率が、全てのジャームをキャンバス上に表示できる最大の大きさである場合、そのレイアウトは許容可能である。レイアウトが許容可能でない場合、方法500の作業はステップ540へ戻る。レイアウトが許容可能である場合、作業はステップ570へ進む。
【0045】
ステップ570において、セルの高さと幅が設定される。一実施形態では、ジャームは、右側に余白のあるライン上に水平方向に離間され、垂直方向に沿ったラインの中心にできるだけ近くなるように移動される。この離間及びセンタリングは、ジャームのサポートによって制約される。一実施形態では、キャンバスは、サポートによってできるだけ多くカバーされなければならない。本発明の一実施形態による一例が、図8のキャンバス800によって示されている。キャンバス800は、ジャーム810、820、830、及び840を含む、いくつかのジャームを含む。右上のジャーム840は、そのサポートが上部に十分な空間をカバーできていないため、垂直方向におけるラインの中心に配置されていないことに注意されたい。結果として、そのジャームはパッキングが密となる。
【0046】
最後に、キャンバスの縦横比に近付けるために、サポートが隙間をカバーできるのであれば、ラインをさらに離間させてもよい。本発明の別の実施形態では、キャンバスにおける隙間の全部又は一部をカバーするように、ジャームをスケーリングすることができる。本発明の別の実施形態では、キャンバスが隙間を許容することができる。ステップ570において、セルの高さと幅がキャンバスに適合された後、方法500の作業は、ステップ575で終了する。
【0047】
領域間における空間の充填
方法200のステップ230においてジャームのレイアウトが完了すると、ステップ240においてジャーム間の空間が充填される。一実施形態では、ジャームのボロノイ領域に応じて、領域間の空間が充填される。これらのボロノイ領域は、キャンバスを、ジャームに対応する非接合区域に分割する。つまり、キャンバス上の点(x,y)は、それに最も近いジャームに属する。この点が最も近いジャームのサポートに属する場合、そのピクセルには、このジャームのサポートの対応するピクセルと同じ値が付与される。最も近いジャームのサポートが点(x,y)を含まない場合、ボロノイ領域は用いられず、サポートが点(x,y)を含む次に最も近いジャームが用いられて、この点が充填される(そのピクセルには、サポートがこの点を含む次に最も近いジャームの値が付与される)。この点を含むジャームが無い場合、そのピクセルには、隣接したピクセル値の平均値、キャンバスの背景色、又はその他何らかの値を付与することができる。
【0048】
一実施形態では、視覚化のために画像を描くのに、異なるジャーム及びサポート区域の区域周囲に境界が配置されてもよい。ジャーム及びサポート区域境界が強調表示されたキャンバス800の一例が、図8に示されている。キャンバス800は、ジャーム810、820、830、及び840、ジャーム・セル・ライン850、並びに区域境界線860を含む。図示されているように、この境界線860は、ジャーム830とジャーム830のサポートの一部との周囲に設けられている。
【0049】
ボロノイ領域、その他の隣接したサポート、又は背景に応じて、キャンバス上の全ての点がいずれも充填されると、キャンバスが完成される。次に、方法200の作業は、ステップ245で終了する。完成したキャンバス900の一例が、図9に示されている。さらに、異なる縦横比を用いたキャンバスの例が、図10及び図11に示されている。図10及び図11では各々、例として、ジャームは、1010、1020、1110、及び1120のようなボックスによって囲まれている。
【0050】
ボロノイ図式は、点からの距離を用いることが多い。異なる実施形態では、ジャームからの距離を用いてもよい。別の実施形態では、ジャームの最も近い境界と点との間の距離が用いられる。充填処理の際に異なる距離関数を用いれば、キャンバス上に異なる形状の領域を生成することができる。一実施形態では、この距離関数は、ジャームの中心とピクセルとの間の距離から得ることができる。図12は、本発明の一実施形態による距離関数測定法1200の一例を示している。図12は、点(x,y)におけるピクセル1210、中心が点1225にあるジャーム1220、第1半径r11230、第2半径r21240、ピクセルとジャームとの間の距離d01250、及びジャームの中心とピクセルとの間の距離d11260を含む。この距離関数におけるジャームのサイズが含まれるように、ジャームの中心を中心とした2つの円が生成される。半径r11230の第1の円の直径は、ジャームの幅と高さとの平均である。半径r21240の第2の円の直径は、ジャームの対角線である。第1の距離関数max(0,d1−r1)を用いれば、図13に示されているような緩やかなカーブの境界が生成される。第2の距離関数d1/r2を用いれば、図14に示されているような急なカーブの境界が生成される。別の実施形態では、これらの距離関数を加重平均において組み合わせることにより、カーブの程度を変更することができる。また、その他様々な距離関数を用いてもよく、これにより、異なるタイプの領域境界を設けることができる。
【0051】
一実施形態では、高凝縮ビジュアル・サマリは、PDA、携帯電話、腕時計、小型コンピュータ、デジタル・カメラ、及びその他のデバイスのような、比較的小さいモニタ若しくは表示スクリーンを有するデバイスにおいて利用することができる。高凝縮ビジュアル・サマリがこれらのデバイスに表示されたら、ユーザは、入力データを供給することによって、関連付けられたグループに対応するジャームを選択することができる。ジャーム又はジャームのサポートが選択されたら、デバイスは、スクリーン上にそのグループを再生してもよい。ジャーム又はそのサポートが選択されたら、その他様々な方法でそのグループを供給するか或いはその他の動作を行うことも可能であり、これらは全て本発明の範囲内に含まれる。
【0052】
画像及び写真からの高凝縮サマリ
この高凝縮サマリ構成は、画像及び写真にも適用することができる。画像において重要な領域を判別するには、一般的な画像解析アルゴリズム、静止画像の主要部分を決定する顔検出アルゴリズム、ユーザ入力若しくはその他のオブジェクト検出アルゴリズム、又はその他の方法を用いて、重要な領域を決定することができる。ユーザ入力によれば、画像を全体として又は一部として、(マウス又はその他の入力デバイスによって)選択することができる。領域が決定されたら、これらの領域は、サポートとして機能する画像の残りの部分と共にジャームとしてレイアウトすることができる。画像の高凝縮サマリの一例が、図15に示されている。
【0053】
別の実施形態では、重要な領域は、本発明のシステムにより入力データとして受信することができる。この場合、システムは、画像内の重要な領域と関連付けられた画像データ又はその他のデータを受信して、これらの領域をジャームとしてレイアウトするよう処理を進めてもよい。
【0054】
別の実施形態では、画像から選んだジャームのレイアウトを、方法500に示されたものとは異なる方法を用いて行ってもよい。一実施形態では、検出された顔を用いて、顔のコレクションから成るアトラクティブなコラージュが作成される。このような視覚化では、画像領域は、コラージュにおいて組み合わされ、領域間の隙間は、オリジナル画像における重要な領域の外側にあるピクセルで充填される。ビデオ・サマリに用いられ得るビデオ・セグメントにおけるアクティビティ領域の代わりに、顔が重要な領域である。ビデオ・セグメントを時間的順序に保つビデオ・サマリのレイアウト・アルゴリズムは、顔のコレクションに対してより適したアルゴリズムに置き換えてもよい。隙間を充填するためのアルゴリズムはほぼ同じままであるが、このようなレイアウト・アルゴリズムを用いることによって異なる充填効果が得られる。
【0055】
レイアウト
ステンド・グラスに含まれる顔が、行にグループ化される。一実施形態では、写真が行全体をカバーできないような、顔の少ない行ができるのを回避するために、顔は、1行当たりのその数が1つしか違わないように、行に分割される。別の実施形態では、偶数及び奇数の顔を備えた行をできるだけ交互に設けることによって、より不規則なレイアウトが作成される。
【0056】
隣り合った顔が似たような外観(同じ写真からの同じ背景、同じ日における同じ人の写真)になるのを回避するために、水平方向及び垂直方向に隣接した顔までの時間的距離が最大となるように、顔の順序のランダム順列が生成される。さらに別の実施形態では、カラー・ヒストグラムのような視覚的相違を用いてもよく、これにより、異なる時間から選んだ写真を隣接させたレイアウトに類似した効果が得られる。
【0057】
顔が行に割り当てられた後、顔の幅及び高さのうちのほんの一部が余白となるように、キャンバスの寸法が決定される。一実施形態では、顔の幅の10%を水平方向の余白、顔の高さの20%を垂直方向の余白としてもよい。各行の高さは、最初は、その行における最も高い顔の高さに設定してもよい。垂直方向における余白は、どの行もその行における顔の写真寸法を越えて延出しない限り、全ての行にわたって均等に分割される。各行において、水平方向における余白も同様に分配される。一実施形態では、各顔は、垂直方向及び水平方向における余白を分配することにより作成されたセルの中心に配置され、含んでいる写真がセル全体をカバーできない場合のみ移動される。全ての顔を同じサイズにすると、図16に示されているように、非常に規則的なレイアウトがもたらされる。コラージュをより不規則にして、よりアトラクティブにするには、顔のサイズに変化をつけて、写真のより多くの部分をカバーする顔(拡大写真)には、コラージュにおいて、より大きなサイズが与えられるようにする。顔は、セルの中心に配置される代わりに、図17に示されているように、ランダムに配置されてもよい。
【0058】
隙間の充填
顔と点との間の距離測度を求めるために、顔の中心と点との間のユークリッド距離が求められ、顔を囲む円の半径が減算される。この距離測度によって、より大きな顔にはより広い範囲が与えられ、区域間にわずかにカーブした境界がもたらされる。
【0059】
キャンバスにおけるジャームの隙間を充填する際、いくつかの変形例及びガイドラインを任意で実施してもよい。本発明のガイドラインのうちのいくつかを組み込んでいる1つのキャンバス1800の一部が、図18に示されている。キャンバス1800は、セル1810、1820、及び1830を含み、これらのセルは各々、顔と、中心1812、1822、及び1832とを有する。図18に示されている実施形態では、これら3つの顔と顔との間において、各顔から点1840までの距離が同じであり、この点は、これらの顔と顔との間における境界を表している。ユークリッド距離を円の半径で割る場合、この距離測度によってよりカーブした境界がもたらされる。1つの写真がその顔に加えて別の顔を含む場合、これらの別の顔は、部分的に表示されるのを回避するため、その写真がカバーできる領域から取り除くことができる。例えば、別の顔1850は、セル1820における画像の一部である。従って、この別の顔1850は、セル1820における画像から取り除かれる。同じ写真からのいくつかの顔に対処する別の方法では、これら全ての顔を含む領域が用いられる。この方法は、1つの写真からいくつかの顔を選択してキャンバスに含める場合に適している。さらに別の実施形態では、1つのセルが、1つ以上の顔の部分画像を含んでもよい。
【0060】
一実施形態では、本発明は、1つ以上のビデオから重要なビデオ領域を抽出し、これらのビデオの高凝縮ビジュアル・サマリを生成する。重要なビデオ領域は、エネルギー、モーション、顔若しくはその他のオブジェクト検出方法、関連データ若しくは外部入力、又は、ビデオのその他何らかの特性に基づいて抽出される。別の実施形態では、本発明は、画像から重要なジャームを受信若しくは抽出し、これらの画像の高凝縮ビジュアル・サマリを生成する。一実施形態では、重要な領域は、2つの部分、即ち、ジャームとサポートとから構成される。高凝縮ビジュアル・サマリは、キャンバス上にジャームをレイアウトし、これらのジャーム間の空間を充填することにより、生成される。その結果、様々な形状をした部分を備えるステンド・グラスの窓に似た、ビジュアル・サマリがもたらされる。ジャームは、所望のパターン、サイズ、又はその他何らかの様式に応じて、時間的順序、カラー・ヒストグラム、類似性によってレイアウトされてもよい。ジャームにおける人々、オブジェクト、及びその他のビジュアル・コンテンツは、より大きくなると、より見やすくなる。本発明の一実施形態では、パッキングされたジャーム間の空間を充填するボロノイ・ベースのアルゴリズムにより、不規則な形状をしたセル境界が得られる。
【0061】
上記記述では、本発明の様々な態様が説明されている。しかしながら、当業者には、これらの態様のうちのいくつかのみ又は全てを用いて本発明を実施してもよい、ということは明らかであろう。本発明の理解を深めるため、説明の目的で、特定の数、材料、及び構造が示されている。しかしながら、当業者には、これらの特定の特徴を用いずに本発明を実施してもよい、ということは明らかであろう。別の例では、周知の特徴については、本発明が不明瞭とならないように省略又は簡略化されている。本発明のその他の特徴、態様、及び目的は、図面及び特許請求の範囲を検討することにより得ることができる。本発明のその他の実施形態を開発することができると共に、これらは本発明の精神及び範囲並びに特許請求の範囲内に含まれる、ということは理解されるであろう。
【0062】
本発明の好適な実施形態の上記記述は、例示及び説明の目的で為されたものである。この記述は、完全であることを意図したものでもないし、ここに開示した厳密な形態に本発明を限定することを意図したものでもない。当業者には、多数の修正物及び変形物が明らかであろう。本発明の原理及びその実用化を最も適切に説明するために、これらの実施形態が選択されて説明され、これにより、当業者は、様々な実施形態に対する本発明、及び、意図される特定使用に適した様々な修正を加えた本発明を理解することができる。本発明の範囲は、添付の特許請求の範囲及びそれらの等価物によって定義されることが意図される。
【0063】
コンピュータ分野の当業者には明らかであるように、特殊設計された集積回路又はその他の電子機器から構成される実施形態に加えて、本発明は、従来の汎用若しくは専用デジタル・コンピュータ、又は、本開示の教示に応じてプログラムされたマイクロプロセッサを用いて、好適に実施されてもよい。
【0064】
ソフトウェア分野の当業者には明らかであるように、適切なソフトウェア・コーディングは、本開示の教示に基づいて、熟練したプログラマーにより容易に作製することができる。また、当業者には明らかであるように、本発明は、特定用途向け集積回路を作製することにより、或いは、従来のコンポーネント回路の適切なネットワークを相互接続することにより、実施してもよい。
【0065】
本発明は、命令が記憶された記憶媒体であるコンピュータ・プログラム・プロダクトを含み、これらの命令を用いてコンピュータをプログラムすることにより、本発明の処理のいずれをも行うことができる。この記憶媒体としては、フロッピー(登録商標)・ディスク、光ディスク、DVD、CD−ROM、マイクロドライブ、及び光磁気ディスクを含むあらゆるタイプのディスク、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、フラッシュ・メモリ・デバイス、磁気若しくは光カード、ナノシステム(分子メモリICを含む)、又は、命令及び/若しくはデータを記憶するのに適したあらゆるタイプの媒体若しくはデバイスが挙げられるが、これらに限定されるわけではない。
【0066】
本発明では、汎用/専用コンピュータ若しくはマイクロプロセッサのハードウェアを制御すると共に、このコンピュータ若しくはマイクロプロセッサが人間のユーザと又は本発明の結果を利用するその他の機構とインターアクトできるようにするソフトウェアが、コンピュータ可読媒体のうちのいずれかに記憶される。このようなソフトウェアとしては、デバイス・ドライバ、オペレーティング・システム、及びユーザ・アプリケーションが挙げられるが、これらに限定されるわけではない。
【0067】
本発明の教示(ビデオからの重要な領域の抽出及び高凝縮ビジュアル・サマリの生成が挙げられるが、これらに限定されない)を実施するソフトウェア・モジュールが、汎用/専用コンピュータ若しくはマイクロプロセッサのプログラミング(ソフトウェア)に含まれる。
【符号の説明】
【0068】
410 ビデオ・セグメント
420、430 領域
440 第1フレーム
610 キー・フレーム画像バウンディング・ボックス
612 ジャームのサポート
614 ジャーム画像
620 空間
700、800、900、1800 キャンバス
710、720、730、810、820、830、840、1220 ジャーム
740 背景
850 ジャーム・セル・ライン
860 区域境界線
1010、1020、1110、1120 ボックス
【技術分野】
【0001】
本発明は、画像処理に関し、詳細には、画像セグメントから重要な画像領域を抽出することに関し、さらに詳細には、画像領域の高凝縮要約画像を生成する方法に関する。
【背景技術】
【0002】
作成されるデジタル画像、ビデオ、及びマルチメディア・コンテンツが増えるにつれ、これらのコンテンツに対し、より多くのタイプのデバイス(携帯電話、PDA、ノート・パソコン、ラップトップ・コンピュータ、及びその他のモバイル・デバイス、並びに、デスクトップ・コンピュータ、ワーク・ステーション、及び何らかのモニタを有するか或いは何らかのモニタと通信するその他のデバイスのような、非モバイル・デバイスを含む)を用いて、アクセス可能であることが望まれる。モバイル・デバイスに関し、PDAや携帯電話のような小型の無線モバイル・デバイスにおいてビデオを閲覧することは困難である。なぜなら、一般的に、スクリーンが小さいと、表示できるコンテンツの量が制限されるからである。
【0003】
ビデオ・サマリを視覚化する既存の手法は、小型スクリーンに合わせて企画されておらず、小型スクリーンでは適切に機能しない。したがって、ビジュアル・サマリは、モバイル・デバイスに見られるような小型スクリーンでは適切に機能しないのが一般的である。よく知られている1つの方法として、コンテンツ分析アルゴリズムを用いてビデオから抽出されたいくつかの重要なキー・フレームを含むストーリー・ボードを使用する方法がある。ストーリー・ボード表示の一例が、図1に示されている。このレイアウトは、同じサイズの画像を有していてもよいし、異なるサイズの画像を有していてもよい。小型スクリーンで見る場合、画像の中身が見えにくい。
【0004】
ドキュメントの強調表示領域の検出に関する特許文献1、ドキュメントのテキスト領域の自動抽出に関する特許文献2、及び、非特許文献1は、本発明に関連する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】米国特許第5,048,109 A号明細書
【特許文献2】米国特許第6,470,095 B2号明細書
【非特許文献】
【0006】
【非特許文献1】S.ウチハシ、J.フート、A.ギルゲンゾーン、J.ボレツキー(S. Uchihashi, J. Foote, A. Girgensohn, J. Boreczky)、「ビデオ・マンガ:意味を有するビデオ要約の意味論的生成(Video Manga: Generating semantically meaningful video summaries)」、ACMマルチメディア予稿集(Proceedings ACM Multimedia)、1999年、pp.383-392
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記に鑑み、本発明の課題は、小型スクリーンにも適切に対応する画像領域の高凝縮ビジュアル・サマリを生成することができるようにすることである。
【課題を解決するための手段】
【0008】
本発明の第1の態様は、コンピュータが画像領域の高凝縮要約画像を生成する方法であって、(a)主要グループ決定手段が複数の動画セグメントの各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、(b)キー・フレーム決定手段が前記動画セグメントの各々におけるキー・フレームを決定し、(c)定義手段が前記動画セグメントの各々における前記各主要グループに関連するジャームを定義し、(d)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、(e)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、前記ジャームは前記主要グループの前記キー・フレームへの投影であり、(e)において、第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する。
【0009】
本発明の第2の態様は、第1の態様の高凝縮要約画像を生成する方法であって、前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする。
【0010】
本発明の第3の態様は、第1または第2の態様の高凝縮要約画像を生成する方法であって、(d)が、前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する。
【0011】
本発明の第4の態様は、第1または第2の態様の高凝縮要約画像を生成する方法であって、(d)が、前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する。
【0012】
本発明の第5の態様は、コンピュータが画像領域の高凝縮要約画像を生成する方法であって、(a)主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、(b)定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、(c)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、(d)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、(d)において、第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する。
【0013】
本発明の第6の態様は、第5の態様の高凝縮要約画像を生成する方法であって、前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする。
【0014】
本発明の第7の態様は、第5または第6の態様の高凝縮要約画像を生成する方法であって、(c)が、前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する。
【0015】
本発明の第8の態様は、第5または第6の態様の高凝縮要約画像を生成する方法であって、(c)が、前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する。
【発明の効果】
【0016】
本発明は、複数の画像セグメントの各々における主要グループを決定し、前記画像セグメントの各々におけるキー・フレームを決定し、前記画像セグメントの各々における前記各主要グループに関連するジャームを定義し、前記ジャームをキャンバス上にレイアウトし、前記キャンバスの空間を充填している。これにより、本発明では、小型スクリーンに適切に対応する画像領域の高凝縮要約画像を生成することができる。
【図面の簡単な説明】
【0017】
【図1】従来技術による、キー・フレームを用いたビデオのストーリー・ボード・サマリを示す図である。
【図2】本発明の一実施形態による、ビデオ領域を抽出してビデオの高凝縮ビジュアル・サマリを生成する方法を示す図である。
【図3】本発明の一実施形態による、ビデオにおける重要な領域を判別する方法を示す図である。
【図4】本発明の一実施形態による、x−y−t空間に表されたビデオを示す図である。
【図5】本発明の一実施形態による、ジャームをレイアウトする方法を示す図である。
【図6】Aは、本発明の一実施形態によるジャーム及びジャームのサポートを示す図であり、Bは、本発明の一実施形態によるジャームを示す図である。
【図7】本発明の一実施形態による、ジャームを含むキャンバスを示す図である。
【図8】本発明の一実施形態による、ジャームを含むボロノイ領域を有するキャンバスを示す図である。
【図9】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図10】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図11】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図12】本発明の一実施形態による、異なる距離関数測定値を示す図である。
【図13】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図14】本発明の一実施形態による、ビデオの高凝縮ビジュアル・サマリを示す図である。
【図15】本発明の一実施形態による、画像の高凝縮ビジュアル・サマリを示す図である。
【図16】本発明の一実施形態による、顔のサイズが均一な画像の高凝縮ビジュアル・サマリを示す図である。
【図17】本発明の一実施形態による、顔のサイズが異なる画像の高凝縮ビジュアル・サマリを示す図である。
【図18】本発明の一実施形態による、距離測定値が強調表示された画像の高凝縮ビジュアル・サマリを示す図である。
【発明を実施するための形態】
【0018】
本発明の一実施形態では、高凝縮ビジュアル・サマリ装置は、複数のビデオ・セグメントの各々における主要グループを決定する主要グループ決定手段と、該ビデオ・セグメントの各々におけるキー・フレームを決定するキー・フレーム決定手段と、該ビデオ・セグメントの各々における該各主要グループに関連するジャームを定義する定義手段と、サポートと関連付けられた該ジャームをキャンバス上にレイアウトするレイアウト手段と、該キャンバスの空間を充填する充填手段と、を少なくとも備える。高凝縮ビジュアル・サマリ装置は、ビデオ領域の高凝縮ビジュアル・サマリを生成する装置に相当する。
【0019】
高凝縮ビジュアル・サマリ装置は、例えば、比較的小さいモニタを有する小型コンピュータであってよく、該小型コンピュータは、ビデオ・ファイル等のデータやユーザの指示情報等を入力する入力部、プロセッサによる実行の際の作業領域を形成すると共にプログラムや処理対象としてのデータを格納する記憶部、処理内容や処理結果を表示画面に表示するモニタ(表示部)、及びデータを通信網などに出力する出力部などを含む。プロセッサは、判別手段、付与手段、構成手段、併合手段に相当し、プログラム(ソフトウェア)を読み出し実行することにより、処理対象のデータ等に対し当該プログラムの手順に対応した処理をする。
【0020】
本発明の高凝縮ビジュアル・サマリ装置は、小型コンピュータに限定されず、例えば、PDA、携帯電話、腕時計、小型コンピュータ、デジタル・カメラ、及びその他のデバイスのような、他の比較的小さいモニタ若しくは表示スクリーンを有するデバイスであってよい。さらに、デスクトップ・コンピュータ、ワーク・ステーション、及び何らかのモニタを有するか或いは何らかのモニタと通信するその他のデバイスのような、比較的大型のデバイスであってもよい。また、本発明は、ハードウェアによって実現されることに限定されず、ソフトウェアによって実現されてもよいし、ファームウェアによって実現されてもよい。
【0021】
本発明の一実施形態は、1つ以上のビデオから重要なビデオ領域を抽出し、これらのビデオの高凝縮ビジュアル・サマリを生成する。重要なビデオ領域は、エネルギー、動作、顔若しくはその他のオブジェクト検出方法、関連データ若しくは外部入力、又は、ビデオのその他何らかの特性に基づいて抽出される。別の実施形態では、本発明は、画像から重要なジャームを受信若しくは抽出し、これらの画像の高凝縮ビジュアル・サマリを生成する。
【0022】
本発明の別の一実施形態では、重要な領域は、2つの部分、即ち、ジャームとサポートとから構成される。高凝縮ビジュアル・サマリは、キャンバス上にジャームをレイアウトし、これらのジャーム間の空間を充填することにより、生成される。その結果、様々な形状をした部分を備えるステンド・グラスの窓に似た、ビジュアル・サマリがもたらされる。ジャームは、所望のパターン、サイズ、又はその他何らかの様式に応じて、時間的順序、カラー・ヒストグラム、類似性によってレイアウトされてもよい。ジャームにおける人々、オブジェクト、及びその他のビジュアル・コンテンツは、より大きくなると、より見やすくなる。本発明のさらに別の一実施形態では、パッキングされたジャーム間の空間を充填するボロノイ・ベースのアルゴリズムにより、不規則な形状をしたセル境界が得られる。本発明のビジュアル・サマリは、キー・フレーム内の重要な部分領域を利用することによって、小型スクリーンに十分に適した、より凝縮度の高いサマリをもたらす。
【0023】
ビジュアル・サマリの生成
ビデオ領域を抽出して高凝縮ビジュアル・サマリを生成する方法200が、図2に示されている。方法200は、開始ステップ205で開始する。次に、ステップ210において、ビデオがセグメントにセグメント化される。次に、ステップ220において、これらのビデオ・セグメントから重要な領域が決定される。重要な領域が決定されると、ステップ230において、重要度の高いこれらの領域がキャンバス上にレイアウトされる。次に、ステップ240において、重要度の高いこれらの領域間の空間が充填され、ステップ245において、方法200が終了する。これらの作業については各々、以下により詳細に述べる。
【0024】
ビデオのクリップへのセグメント化
ビデオは、様々な方法を用いて、1つ以上のセグメントにセグメント化されてもよい。1つのビデオは、連続的な画像フレームから構成される。一実施形態では、ビデオは、各クリップが類似した連続フレームから構成されるように、ビデオ・セグメントにセグメント化される。このセグメント化は、カラー・ヒストグラム、ユーザ入力、又はその他何らかの手段のような、標準的な手法を用いて行うことができる。別の手法としては、利用可能なカメラのオン/オフ情報を用いて、ビデオ・セグメントの時間的境界を決定する手法があり、これによって、真のショット境界がもたらされ、この真のショット境界は、より適切なセグメントを制作するのに役立つ。
【0025】
別の一実施形態では、ビデオ・フレーム画像をサブサンプリングする精度が設定されてもよい。このサンプリング・レートは、凝縮サマリをもたらすデバイスの用途、利用可能な処理能力、規格、及びその他の特性に基づいて選択されてもよい。さらに別の一実施形態では、モバイル・デバイスにおいて一般的に使用することができると共に表示がしやすいという点から、1ビデオ画像当たり幅方向が16ピクセルで高さ方向が12ピクセルという、かなり低いサンプリング・レートを用いてもよい。さらに、画像を平滑化して、ノイズを減少させてもよい。
【0026】
重要な領域の判別
方法200のステップ210においてビデオが1つ以上のビデオ・セグメントにセグメント化された後、ビデオ・クリップにおいて重要な領域が決定される。図3の方法300は、本発明の一実施形態による、重要な領域を判別する処理を示している。方法300は、開始ステップ305で開始する。次に、ステップ310において、ビデオ・セグメント内で重要な領域が決定される。1つのビデオは、x−y−t空間における三次元ボリュームとみなすことができる。ビデオの三次元ボリュームの例示的表現が、図4に示されている。図示されているように、ビデオ・セグメント410は、第1フレーム440と、t軸に沿ったいくつかの連続フレームとから構成され得る。1つの領域は、この三次元ビデオ・セグメント410のx−y−t空間内における部分集合の三次元領域として特徴付けることができる。領域420及び430は、ビデオ410の三次元ボリューム内に位置する。
【0027】
重要な領域は、多数の方法で決定することができる。一実施形態では、アクティビティ若しくは運動エネルギーが比較的高い三次元空間を重要な領域として決定してもよい。また、いくつかの方法を用いて、領域のエネルギー若しくはアクティビティを求めてもよい。別の一実施形態では、エネルギーを測定するために、速度フィールドを算出してもよい。この場合、サンプリングされた各ピクセルに速度が付与される。この速度は、ビデオ・フレーム間における輝度変化を計算することにより得ることができる。一実施形態では、速度変化を、t成分における速度変化から算出してもよい。別の実施形態では、この速度変化を、x、y、及びt成分の全てを用いて、輝度変化から算出してもよい。このように、全ての成分から速度を算出するには、より多くの処理が必要とされるが、より良い結果が得られる可能性が高い。
【0028】
一実施形態では、領域の残余動作(residual motion)を用いて、輝度変化若しくは速度
変化を求めるのが望ましい。残余動作とは、カメラ動作若しくは背景動作が除去若しくは減算された後に得られる動作のことである。カメラ動作にはパン、チルト、及びズームのような様々なタイプがあり、これらのタイプを検出する方法が開発されている。別の一実施形態では、この残余動作を、特定ピクセルに対する動作変化からフレームの平均動作を減算することにより求めてもよい。
【0029】
次に、方法300では、ビデオ・セグメントの(x−y−t空間における)各ピクセルに関し、ステップ320において、重要な領域における各ピクセルに対する速度の大きさに値が付与される。一実施形態では、この値は、所定のピクセル・レンジ内に収まるように付与されてもよい。このピクセル・レンジは、処理能力及び生成される領域の所望の特徴に基づいて選択されてもよい。別の実施形態では、この速度の大きさは、0と1の二進数のレンジ内となるように量子化されてもよい。0と1の二進レンジを用いるこの実施形態では、平均値(特定のビデオ・セグメントにおけるサンプリングされたピクセル全ての速度の大きさの平均値)よりも速度の大きさが大きいピクセルを1に設定し、残りのピクセルを0に設定してもよい。この実施形態では、分析及び処理の重点を、値が1であるピクセルの集合に置いてもよく、これにより、計算時間が実質的に削減される。
【0030】
次に、方法300のステップ330において、値が1であるピクセルからグループが構成される。一実施形態では、値が1である隣接したピクセルをグループ化することによって、領域が構成される。二次元のビットマップ画像に関しては、各反復において、値が1であるピクセルまでの距離が短いピクセルが、値1のピクセルに変換される。この短い距離は用途によって決まり、一般的にはピクセル1個分であるが、任意のレンジであってもよい。例えば、ピクセル1〜5個分という距離が挙げられるが、本発明はこれに限定されない。しかしながら、値が1である隣接したピクセルをグループ化するのに、いくつのピクセル若しくはレンジを用いてもよい。何回かの反復後、値が1であるピクセルのグループ若しくは「ブロブ(blobs)」が現れる。これらのグループは、かなり不規則な形状をし
ている可能性がある。これにより、計算上、ビデオに対応する三次元ボリュームには、はるかに多くのコストがかかる。さらに、領域の構成処理中及びその後のレイアウト・ステップにおいて、領域の交差及び包含というような幾何学的特性が得られるが、これらの計算に対するアルゴリズムは、二次元よりも三次元の方がより複雑である。
【0031】
ステップ330においてグループが構成された後、作業はステップ340へ続き、このステップ340では、値が1であるピクセルのグループを併合することによって、より大きなグループが形成される。一実施形態では、重要度の高い領域を表すのに、長方形のボックスが用いられる。本明細書中では、単なる例として長方形の領域について述べるが、これらの領域は、あらゆる形状で又はあらゆる形状の組み合わせでグループ化され構成されてもよい。重要度の高い領域を構成するために、ステップ340において、ボックスの前段階である、ステップ330で構成された値が1である隣接したピクセルのグループが、より大きなグループに併合される。
【0032】
一実施形態では、値が1である2のピクセルが隣接しているならば、これらはより大きなグループに併合される。これにより、重要度の高い領域が形成され、これらは一以上の停止条件を備える。この実施形態では、該停止条件により、グループが過度にまばらに散らばらないようにされる。本発明の範囲内における停止条件は、エネルギー密度、体積、及びその他の特性に基づき得る。別の一実施形態では、この得られたより大きなグループは、値が1であるピクセルのより小さなグループを両方とも含む、最小の三次元長方形ボックスという形状をしている。本明細書中では、単なる例として長方形をしたグループについて述べる。領域は、任意の形状で又は多数のタイプの式を用いて構成されグループ化されてもよい。ステップ340において、値が1であるピクセルのグループが併合された後、方法300の作業は、ステップ345で終了する。
【0033】
上述したように、停止条件は多数の特性に基づき得る。このような特性の1つとして、エネルギー密度がある。本発明の一実施形態では、ステップ340で行われるような併合後に、このエネルギー密度が一定の閾値よりも低下しないようにしなければならない。例えば、グループAの密度はd(A)で表すことができ、これは、グループAにおける値1のピクセルの数を、Aのバウンディング・ボックスに含まれるピクセルの総数で割ったものである。
【0034】
同様に、隣接したグループBの密度は、d(B)で表すことができる。ビデオ・セグメント全体の平均密度は、d(W)で表すことができる。この場合、2つのグループAとBは、d(C)>d(W)となるのであれば、併合してグループCとすることができる。ここでは、単なる例として、併合されたグループのエネルギー密度が平均エネルギー密度と比較される。エネルギー密度の代わりに他の閾値を用いてもよく、これは本発明の範囲内に含まれる。
【0035】
別の実施形態では、方法300のステップ340で行われるように2つ以上のグループが併合される際、併合されたグループの体積が一定の閾値を超えないようにしなくてはならない。例えば、グループAに対するバウンディング・ボックスの体積は、v(A)と表すことができる。同様に、グループBに対するバウンディング・ボックスの体積は、v(B)と表すことができる。グループA及びBに関し、これらの交差部分をKと表すことができる。この場合、v(K)/v(A)<1/2且つv(K)/v(B)<1/2であると、AとBとは併合することができない。ここでは、単なる例として、併合された2つのグループの交差部分の体積が各グループの体積と比較される。その他の体積比較法を用いてもよく、これは本発明の範囲内に含まれる。
【0036】
一実施形態では、反復併合処理の結果を、複数のツリー(tree:木)から成るフォレスト(forest:森)と比較してもよい。ここで、各ツリーは1グループを表し、このツリーの複数のリーフ(leaf:葉)は値1のピクセルである。これらのツリーは二進法ではなく、各ノードは2より多くの子を有することができる。各ツリーのバウンディング・ボックスは、一領域である。
【0037】
重要度の高い領域のレイアウト
図2の方法200では、ステップ220においてビデオ・クリップにおける重要な領域を判別した後、次のステップ230においてジャームをレイアウトする。方法200の作業におけるこの段階では、ビデオは、図4のセグメント410のようなセグメントにセグメント化されており、各セグメントに対し、グループ若しくは領域420及び430のような、重要度の高いグループ若しくは領域が算出されている。これらの重要度の高いグループからレイアウトを作成する処理が、図5の方法500によって示されている。方法500は、開始ステップ505で開始する。次に、ステップ510において、1つ以上のセグメントにおける主要グループが決定される。1つのセグメントには、1つの主要グループがあることが多い。一実施形態では、主要グループとは、最も多くのエネルギー、モーション、又は体積を備えた区域か、或いは、その他の理由で重要な区域のことである。例えば、プレゼンテーションのビデオに関して言えば、主要グループは、壇上で身ぶり手ぶりで話している人と、部屋のあちらこちらに座っている人々とを含み得る。ビデオの各クリップから主要グループが選択されてレイアウトされる。
【0038】
次に、ステップ520において、各ビデオ・セグメントに対し、キー・フレームが定義される。一実施形態では、各セグメントの第1フレームをキー・フレームとされる。しかしながら、キー・フレームは様々な方法で決定してもよく、これらは全て本発明の範囲内に含まれると考えられる。
【0039】
次に、方法500では、ステップ530において、各主要グループに対し、ジャーム及びサポートが定義される。一実施形態では、各グループは、レイアウトを決定する2つの長方形、即ち、(1)グループの三次元バウンディング・ボックス及び(2)キー・フレーム画像の二次元バウンディング・ボックスと関連付けられる。これらの長方形を念頭に置くと、ジャームは、グループのx−y面をキー・フレーム上に投影したものと考えられる。ジャームのサポートは、キー・フレームにおいてジャームを囲む画像コンテンツ区域である。
【0040】
図6A及び図6Bは各々、本発明の一実施形態による、ジャーム及びジャームのサポートを示している。図6Aにおいて、キー・フレーム画像バウンディング・ボックス610は、ジャーム画像614と、ジャームのサポート612によって占有された空間とを含む。図6A及び図6Bに示されている実施形態では、ジャームは、キー・フレームの部分区域である。図6Aのジャームのサポート612は、空白であり、このサポートが占める空間を示していることに注意されたい。図6Bは、空間620において、ジャームとサポートとを一緒に示している。図6A及び図6Bは、単なる例として長方形をした、ジャーム及びジャームのサポートの例を表している。別の実施形態では、これらのジャーム及びサポートは、不規則な形状をしていてもよい。さらに別の実施形態では、ビデオ・モザイク・アルゴリズムのような手法を用いて、ジャームのサポートをキー・フレームの境界よりも延出させることにより、より大きなパノラマ画像を作成してもよい。ジャーム及びジャームのサポートは、本発明による任意の形状であってよく、互いに類似していても異なっていてもよいし、変化しても変化しなくてもよい。
【0041】
ジャームが選択されると、次に、任意で、ジャームの順序付けが決定されてもよい(方法500には示されていない)。このジャームの順序付けは、時間的特性、サイズ特性、カラー特性、コンテンツを含む、多数の方法のうちのいずれによって決定されてもよいし、特定のジャームから得られる又は特定のジャームと関連付けられたその他のデータによって決定されてもよい。
【0042】
次に、ステップ540において、主要領域に対し倍率が決定される。一実施形態では、この倍率はジャームの最大倍率に相当しており、キャンバスを完全に満たす行又は列にジャームを配置することができる。この倍率は、最も望ましいスケーリングが達成されるまで、繰り返し調整することができる。一実施形態では、表示される全てのジャームに対して同じ倍率が適用される。別の実施形態では、ジャーム間で倍率が異なっていてもよい。いずれの場合にも、ステップ540における倍率の決定は、方法500に示されているような改行決定ステップ550と別に行ってもよいし、同時に行ってもよい。
【0043】
次に、ステップ550において、領域をキャンバス若しくは表示ページ上に配置するために、改行が決定される。一実施形態では、これは、テキストが、テキストを示すページのサイズで「ラップ」されるように、テキストのパラグラフをワード−ラップでレイアウトするのに似ている。ジャームが水平な行に配置される実施形態では、左から右へ1行ずつジャームをパッキングすることによって、その境界となる空間がキャンバス形状の縦横比に最も近くなるように、改行が選択される。改行によりジャームがレイアウトされたキャンバス700の一例が、図7に示されている。キャンバス700は、ジャーム710、720、及び730を含むジャームと、背景740とを含む。これらのジャームは、3行に改行されており、これらの行は各々、ジャームを3つ、2つ、3つ有している。別の実施形態では、一度に1行ずつの改行を決定するのではなく、小さな数であるN個のジャームに関し、これらを1〜N行に配置する全ての組み合わせを完全にリストアップすることが可能である。各組み合わせに対して、カバー区域のサイズというような品質測度を決定することができ、最適な組み合わせを選択することができる。順序付けされた複数のジャームが1ページに表示されるように「改行」を必要とする別の実施形態では、これらのジャームは、垂直列、同心円の行、又は、あらゆるその他の方式で配置されてもよい。
【0044】
ステップ560では、そのレイアウトが許容可能であるかどうかが決定される。一実施形態では、倍率が、全てのジャームをキャンバス上に表示できる最大の大きさである場合、そのレイアウトは許容可能である。レイアウトが許容可能でない場合、方法500の作業はステップ540へ戻る。レイアウトが許容可能である場合、作業はステップ570へ進む。
【0045】
ステップ570において、セルの高さと幅が設定される。一実施形態では、ジャームは、右側に余白のあるライン上に水平方向に離間され、垂直方向に沿ったラインの中心にできるだけ近くなるように移動される。この離間及びセンタリングは、ジャームのサポートによって制約される。一実施形態では、キャンバスは、サポートによってできるだけ多くカバーされなければならない。本発明の一実施形態による一例が、図8のキャンバス800によって示されている。キャンバス800は、ジャーム810、820、830、及び840を含む、いくつかのジャームを含む。右上のジャーム840は、そのサポートが上部に十分な空間をカバーできていないため、垂直方向におけるラインの中心に配置されていないことに注意されたい。結果として、そのジャームはパッキングが密となる。
【0046】
最後に、キャンバスの縦横比に近付けるために、サポートが隙間をカバーできるのであれば、ラインをさらに離間させてもよい。本発明の別の実施形態では、キャンバスにおける隙間の全部又は一部をカバーするように、ジャームをスケーリングすることができる。本発明の別の実施形態では、キャンバスが隙間を許容することができる。ステップ570において、セルの高さと幅がキャンバスに適合された後、方法500の作業は、ステップ575で終了する。
【0047】
領域間における空間の充填
方法200のステップ230においてジャームのレイアウトが完了すると、ステップ240においてジャーム間の空間が充填される。一実施形態では、ジャームのボロノイ領域に応じて、領域間の空間が充填される。これらのボロノイ領域は、キャンバスを、ジャームに対応する非接合区域に分割する。つまり、キャンバス上の点(x,y)は、それに最も近いジャームに属する。この点が最も近いジャームのサポートに属する場合、そのピクセルには、このジャームのサポートの対応するピクセルと同じ値が付与される。最も近いジャームのサポートが点(x,y)を含まない場合、ボロノイ領域は用いられず、サポートが点(x,y)を含む次に最も近いジャームが用いられて、この点が充填される(そのピクセルには、サポートがこの点を含む次に最も近いジャームの値が付与される)。この点を含むジャームが無い場合、そのピクセルには、隣接したピクセル値の平均値、キャンバスの背景色、又はその他何らかの値を付与することができる。
【0048】
一実施形態では、視覚化のために画像を描くのに、異なるジャーム及びサポート区域の区域周囲に境界が配置されてもよい。ジャーム及びサポート区域境界が強調表示されたキャンバス800の一例が、図8に示されている。キャンバス800は、ジャーム810、820、830、及び840、ジャーム・セル・ライン850、並びに区域境界線860を含む。図示されているように、この境界線860は、ジャーム830とジャーム830のサポートの一部との周囲に設けられている。
【0049】
ボロノイ領域、その他の隣接したサポート、又は背景に応じて、キャンバス上の全ての点がいずれも充填されると、キャンバスが完成される。次に、方法200の作業は、ステップ245で終了する。完成したキャンバス900の一例が、図9に示されている。さらに、異なる縦横比を用いたキャンバスの例が、図10及び図11に示されている。図10及び図11では各々、例として、ジャームは、1010、1020、1110、及び1120のようなボックスによって囲まれている。
【0050】
ボロノイ図式は、点からの距離を用いることが多い。異なる実施形態では、ジャームからの距離を用いてもよい。別の実施形態では、ジャームの最も近い境界と点との間の距離が用いられる。充填処理の際に異なる距離関数を用いれば、キャンバス上に異なる形状の領域を生成することができる。一実施形態では、この距離関数は、ジャームの中心とピクセルとの間の距離から得ることができる。図12は、本発明の一実施形態による距離関数測定法1200の一例を示している。図12は、点(x,y)におけるピクセル1210、中心が点1225にあるジャーム1220、第1半径r11230、第2半径r21240、ピクセルとジャームとの間の距離d01250、及びジャームの中心とピクセルとの間の距離d11260を含む。この距離関数におけるジャームのサイズが含まれるように、ジャームの中心を中心とした2つの円が生成される。半径r11230の第1の円の直径は、ジャームの幅と高さとの平均である。半径r21240の第2の円の直径は、ジャームの対角線である。第1の距離関数max(0,d1−r1)を用いれば、図13に示されているような緩やかなカーブの境界が生成される。第2の距離関数d1/r2を用いれば、図14に示されているような急なカーブの境界が生成される。別の実施形態では、これらの距離関数を加重平均において組み合わせることにより、カーブの程度を変更することができる。また、その他様々な距離関数を用いてもよく、これにより、異なるタイプの領域境界を設けることができる。
【0051】
一実施形態では、高凝縮ビジュアル・サマリは、PDA、携帯電話、腕時計、小型コンピュータ、デジタル・カメラ、及びその他のデバイスのような、比較的小さいモニタ若しくは表示スクリーンを有するデバイスにおいて利用することができる。高凝縮ビジュアル・サマリがこれらのデバイスに表示されたら、ユーザは、入力データを供給することによって、関連付けられたグループに対応するジャームを選択することができる。ジャーム又はジャームのサポートが選択されたら、デバイスは、スクリーン上にそのグループを再生してもよい。ジャーム又はそのサポートが選択されたら、その他様々な方法でそのグループを供給するか或いはその他の動作を行うことも可能であり、これらは全て本発明の範囲内に含まれる。
【0052】
画像及び写真からの高凝縮サマリ
この高凝縮サマリ構成は、画像及び写真にも適用することができる。画像において重要な領域を判別するには、一般的な画像解析アルゴリズム、静止画像の主要部分を決定する顔検出アルゴリズム、ユーザ入力若しくはその他のオブジェクト検出アルゴリズム、又はその他の方法を用いて、重要な領域を決定することができる。ユーザ入力によれば、画像を全体として又は一部として、(マウス又はその他の入力デバイスによって)選択することができる。領域が決定されたら、これらの領域は、サポートとして機能する画像の残りの部分と共にジャームとしてレイアウトすることができる。画像の高凝縮サマリの一例が、図15に示されている。
【0053】
別の実施形態では、重要な領域は、本発明のシステムにより入力データとして受信することができる。この場合、システムは、画像内の重要な領域と関連付けられた画像データ又はその他のデータを受信して、これらの領域をジャームとしてレイアウトするよう処理を進めてもよい。
【0054】
別の実施形態では、画像から選んだジャームのレイアウトを、方法500に示されたものとは異なる方法を用いて行ってもよい。一実施形態では、検出された顔を用いて、顔のコレクションから成るアトラクティブなコラージュが作成される。このような視覚化では、画像領域は、コラージュにおいて組み合わされ、領域間の隙間は、オリジナル画像における重要な領域の外側にあるピクセルで充填される。ビデオ・サマリに用いられ得るビデオ・セグメントにおけるアクティビティ領域の代わりに、顔が重要な領域である。ビデオ・セグメントを時間的順序に保つビデオ・サマリのレイアウト・アルゴリズムは、顔のコレクションに対してより適したアルゴリズムに置き換えてもよい。隙間を充填するためのアルゴリズムはほぼ同じままであるが、このようなレイアウト・アルゴリズムを用いることによって異なる充填効果が得られる。
【0055】
レイアウト
ステンド・グラスに含まれる顔が、行にグループ化される。一実施形態では、写真が行全体をカバーできないような、顔の少ない行ができるのを回避するために、顔は、1行当たりのその数が1つしか違わないように、行に分割される。別の実施形態では、偶数及び奇数の顔を備えた行をできるだけ交互に設けることによって、より不規則なレイアウトが作成される。
【0056】
隣り合った顔が似たような外観(同じ写真からの同じ背景、同じ日における同じ人の写真)になるのを回避するために、水平方向及び垂直方向に隣接した顔までの時間的距離が最大となるように、顔の順序のランダム順列が生成される。さらに別の実施形態では、カラー・ヒストグラムのような視覚的相違を用いてもよく、これにより、異なる時間から選んだ写真を隣接させたレイアウトに類似した効果が得られる。
【0057】
顔が行に割り当てられた後、顔の幅及び高さのうちのほんの一部が余白となるように、キャンバスの寸法が決定される。一実施形態では、顔の幅の10%を水平方向の余白、顔の高さの20%を垂直方向の余白としてもよい。各行の高さは、最初は、その行における最も高い顔の高さに設定してもよい。垂直方向における余白は、どの行もその行における顔の写真寸法を越えて延出しない限り、全ての行にわたって均等に分割される。各行において、水平方向における余白も同様に分配される。一実施形態では、各顔は、垂直方向及び水平方向における余白を分配することにより作成されたセルの中心に配置され、含んでいる写真がセル全体をカバーできない場合のみ移動される。全ての顔を同じサイズにすると、図16に示されているように、非常に規則的なレイアウトがもたらされる。コラージュをより不規則にして、よりアトラクティブにするには、顔のサイズに変化をつけて、写真のより多くの部分をカバーする顔(拡大写真)には、コラージュにおいて、より大きなサイズが与えられるようにする。顔は、セルの中心に配置される代わりに、図17に示されているように、ランダムに配置されてもよい。
【0058】
隙間の充填
顔と点との間の距離測度を求めるために、顔の中心と点との間のユークリッド距離が求められ、顔を囲む円の半径が減算される。この距離測度によって、より大きな顔にはより広い範囲が与えられ、区域間にわずかにカーブした境界がもたらされる。
【0059】
キャンバスにおけるジャームの隙間を充填する際、いくつかの変形例及びガイドラインを任意で実施してもよい。本発明のガイドラインのうちのいくつかを組み込んでいる1つのキャンバス1800の一部が、図18に示されている。キャンバス1800は、セル1810、1820、及び1830を含み、これらのセルは各々、顔と、中心1812、1822、及び1832とを有する。図18に示されている実施形態では、これら3つの顔と顔との間において、各顔から点1840までの距離が同じであり、この点は、これらの顔と顔との間における境界を表している。ユークリッド距離を円の半径で割る場合、この距離測度によってよりカーブした境界がもたらされる。1つの写真がその顔に加えて別の顔を含む場合、これらの別の顔は、部分的に表示されるのを回避するため、その写真がカバーできる領域から取り除くことができる。例えば、別の顔1850は、セル1820における画像の一部である。従って、この別の顔1850は、セル1820における画像から取り除かれる。同じ写真からのいくつかの顔に対処する別の方法では、これら全ての顔を含む領域が用いられる。この方法は、1つの写真からいくつかの顔を選択してキャンバスに含める場合に適している。さらに別の実施形態では、1つのセルが、1つ以上の顔の部分画像を含んでもよい。
【0060】
一実施形態では、本発明は、1つ以上のビデオから重要なビデオ領域を抽出し、これらのビデオの高凝縮ビジュアル・サマリを生成する。重要なビデオ領域は、エネルギー、モーション、顔若しくはその他のオブジェクト検出方法、関連データ若しくは外部入力、又は、ビデオのその他何らかの特性に基づいて抽出される。別の実施形態では、本発明は、画像から重要なジャームを受信若しくは抽出し、これらの画像の高凝縮ビジュアル・サマリを生成する。一実施形態では、重要な領域は、2つの部分、即ち、ジャームとサポートとから構成される。高凝縮ビジュアル・サマリは、キャンバス上にジャームをレイアウトし、これらのジャーム間の空間を充填することにより、生成される。その結果、様々な形状をした部分を備えるステンド・グラスの窓に似た、ビジュアル・サマリがもたらされる。ジャームは、所望のパターン、サイズ、又はその他何らかの様式に応じて、時間的順序、カラー・ヒストグラム、類似性によってレイアウトされてもよい。ジャームにおける人々、オブジェクト、及びその他のビジュアル・コンテンツは、より大きくなると、より見やすくなる。本発明の一実施形態では、パッキングされたジャーム間の空間を充填するボロノイ・ベースのアルゴリズムにより、不規則な形状をしたセル境界が得られる。
【0061】
上記記述では、本発明の様々な態様が説明されている。しかしながら、当業者には、これらの態様のうちのいくつかのみ又は全てを用いて本発明を実施してもよい、ということは明らかであろう。本発明の理解を深めるため、説明の目的で、特定の数、材料、及び構造が示されている。しかしながら、当業者には、これらの特定の特徴を用いずに本発明を実施してもよい、ということは明らかであろう。別の例では、周知の特徴については、本発明が不明瞭とならないように省略又は簡略化されている。本発明のその他の特徴、態様、及び目的は、図面及び特許請求の範囲を検討することにより得ることができる。本発明のその他の実施形態を開発することができると共に、これらは本発明の精神及び範囲並びに特許請求の範囲内に含まれる、ということは理解されるであろう。
【0062】
本発明の好適な実施形態の上記記述は、例示及び説明の目的で為されたものである。この記述は、完全であることを意図したものでもないし、ここに開示した厳密な形態に本発明を限定することを意図したものでもない。当業者には、多数の修正物及び変形物が明らかであろう。本発明の原理及びその実用化を最も適切に説明するために、これらの実施形態が選択されて説明され、これにより、当業者は、様々な実施形態に対する本発明、及び、意図される特定使用に適した様々な修正を加えた本発明を理解することができる。本発明の範囲は、添付の特許請求の範囲及びそれらの等価物によって定義されることが意図される。
【0063】
コンピュータ分野の当業者には明らかであるように、特殊設計された集積回路又はその他の電子機器から構成される実施形態に加えて、本発明は、従来の汎用若しくは専用デジタル・コンピュータ、又は、本開示の教示に応じてプログラムされたマイクロプロセッサを用いて、好適に実施されてもよい。
【0064】
ソフトウェア分野の当業者には明らかであるように、適切なソフトウェア・コーディングは、本開示の教示に基づいて、熟練したプログラマーにより容易に作製することができる。また、当業者には明らかであるように、本発明は、特定用途向け集積回路を作製することにより、或いは、従来のコンポーネント回路の適切なネットワークを相互接続することにより、実施してもよい。
【0065】
本発明は、命令が記憶された記憶媒体であるコンピュータ・プログラム・プロダクトを含み、これらの命令を用いてコンピュータをプログラムすることにより、本発明の処理のいずれをも行うことができる。この記憶媒体としては、フロッピー(登録商標)・ディスク、光ディスク、DVD、CD−ROM、マイクロドライブ、及び光磁気ディスクを含むあらゆるタイプのディスク、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、フラッシュ・メモリ・デバイス、磁気若しくは光カード、ナノシステム(分子メモリICを含む)、又は、命令及び/若しくはデータを記憶するのに適したあらゆるタイプの媒体若しくはデバイスが挙げられるが、これらに限定されるわけではない。
【0066】
本発明では、汎用/専用コンピュータ若しくはマイクロプロセッサのハードウェアを制御すると共に、このコンピュータ若しくはマイクロプロセッサが人間のユーザと又は本発明の結果を利用するその他の機構とインターアクトできるようにするソフトウェアが、コンピュータ可読媒体のうちのいずれかに記憶される。このようなソフトウェアとしては、デバイス・ドライバ、オペレーティング・システム、及びユーザ・アプリケーションが挙げられるが、これらに限定されるわけではない。
【0067】
本発明の教示(ビデオからの重要な領域の抽出及び高凝縮ビジュアル・サマリの生成が挙げられるが、これらに限定されない)を実施するソフトウェア・モジュールが、汎用/専用コンピュータ若しくはマイクロプロセッサのプログラミング(ソフトウェア)に含まれる。
【符号の説明】
【0068】
410 ビデオ・セグメント
420、430 領域
440 第1フレーム
610 キー・フレーム画像バウンディング・ボックス
612 ジャームのサポート
614 ジャーム画像
620 空間
700、800、900、1800 キャンバス
710、720、730、810、820、830、840、1220 ジャーム
740 背景
850 ジャーム・セル・ライン
860 区域境界線
1010、1020、1110、1120 ボックス
【特許請求の範囲】
【請求項1】
コンピュータが画像領域の高凝縮要約画像を生成する方法であって、
(a)主要グループ決定手段が複数の動画セグメントの各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、
(b)キー・フレーム決定手段が前記動画セグメントの各々におけるキー・フレームを決定し、
(c)定義手段が前記動画セグメントの各々における前記各主要グループに関連するジャームを定義し、
(d)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、
(e)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、
前記ジャームは前記主要グループの前記キー・フレームへの投影であり、
(e)において、
第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、
第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、
第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、
第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する、
画像領域の高凝縮要約画像を生成する方法。
【請求項2】
前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする、請求項1に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項3】
(d)が、
前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する、
請求項1または請求項2に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項4】
(d)が、
前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する、
請求項1または請求項2に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項5】
コンピュータが画像領域の高凝縮要約画像を生成する方法であって、
(a)主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、
(b)定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、
(c)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、
(d)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、
(d)において、
第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、
第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、
第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、
第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する、
画像領域の高凝縮要約画像を生成する方法。
【請求項6】
前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする、請求項5に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項7】
(c)が、
前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する、
請求項5または請求項6に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項8】
(c)が、
前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する、
請求項5または請求項6に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項1】
コンピュータが画像領域の高凝縮要約画像を生成する方法であって、
(a)主要グループ決定手段が複数の動画セグメントの各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、
(b)キー・フレーム決定手段が前記動画セグメントの各々におけるキー・フレームを決定し、
(c)定義手段が前記動画セグメントの各々における前記各主要グループに関連するジャームを定義し、
(d)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、
(e)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、
前記ジャームは前記主要グループの前記キー・フレームへの投影であり、
(e)において、
第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、
第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、
第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、
第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する、
画像領域の高凝縮要約画像を生成する方法。
【請求項2】
前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする、請求項1に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項3】
(d)が、
前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する、
請求項1または請求項2に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項4】
(d)が、
前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する、
請求項1または請求項2に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項5】
コンピュータが画像領域の高凝縮要約画像を生成する方法であって、
(a)主要グループ決定手段が複数の画像の各々における主要グループとして重要な領域にあたる前記画像に含まれる人間の顔の領域を決定し、
(b)定義手段が前記画像の各々における前記各主要グループをジャームとして定義し、
(c)レイアウト手段が前記ジャームをスクリーンに対応する画像メモリ上にレイアウトし、
(d)充填手段が、前記画像メモリ上のジャームとジャームとの間の空間内の点を前記重要な領域の外側にある点の画素値で充填し、
(d)において、
第一の顔の中心と空間内の第一の点との間の距離から第一の顔を囲む円の半径を減算した値を第一の距離とし、
第二の顔の中心と空間内の第一の点との間の距離から第二の重要な領域を囲む円の半径を減算した値を第二の距離とし、
第一の距離が第二の距離より小さい場合には、第一の顔の外側にある点の画素値で該第一の点を充填し、
第二の距離が第一の距離より小さい場合には、第二の顔の外側にある点の画素値で該第一の点を充填する、
画像領域の高凝縮要約画像を生成する方法。
【請求項6】
前記レイアウト手段は、カラー・ヒストグラム、類似性、サイズ、時間的順序の少なくとも一つにもとづいて前記ジャームをレイアウトする、請求項5に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項7】
(c)が、
前記スクリーンに適合する最大サイズに前記ジャームがスケーリングされるように、前記各ジャームに適用される倍率を決定する、
請求項5または請求項6に記載の画像領域の高凝縮要約画像を生成する方法。
【請求項8】
(c)が、
前記ジャームを、各々が当該行の中で最も高いジャームに応じた高さを有する行に配置する、
請求項5または請求項6に記載の画像領域の高凝縮要約画像を生成する方法。
【図2】
【図3】
【図5】
【図12】
【図1】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図3】
【図5】
【図12】
【図1】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【公開番号】特開2011−129137(P2011−129137A)
【公開日】平成23年6月30日(2011.6.30)
【国際特許分類】
【出願番号】特願2011−3065(P2011−3065)
【出願日】平成23年1月11日(2011.1.11)
【分割の表示】特願2005−91702(P2005−91702)の分割
【原出願日】平成17年3月28日(2005.3.28)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成23年6月30日(2011.6.30)
【国際特許分類】
【出願日】平成23年1月11日(2011.1.11)
【分割の表示】特願2005−91702(P2005−91702)の分割
【原出願日】平成17年3月28日(2005.3.28)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]