説明

所望のアスペクト比の画像の生成

元のディジタル画像から所望のアスペクト比の新しい画像を生成させる方法であって、
(a)所望のアスペクト比のトリミング・ウインドウおよび元のディジタル画像のサイズに関して予め決められたサイズを決定するステップと;
(b)元のディジタル画像中の主要対象物の位置および相対的重要度を示す信頼値のアレイを含む主要対象信頼度マップを取得するステップと;
(c)その主要対象信頼度マップを使用し、予め決められた一群の基準を満たす、元のディジタル画像中におけるトリミング・ウインドウの位置を決定するステップと;
(d)所望のアスペクト比のトリミングされた画像を生成するステップ
を含む方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理に関するものであり、その中でも、所望のアスペクト比の画像を生成するために画像をトリミングすることに関する。
【背景技術】
【0002】
コンシューマーは、さまざまなフォーマットの写真プリントを作る要求を有している。一般に、35mmフィルムに捕捉される写真はアスペクト比が2:3である。異なるアスペクト比(例えば3×5、5×7、8×10)のプリントを作成するためには、従来のプリント手順では、画像の2つの対応する側に対し等量のトリミングを適用する(他の2つの側はトリミングしない)。この操作は、“いっぱいにトリミングする(crop to fill)”と呼ばれる。撮影者は、主要対象が写真の中央にあるように写真を構成する傾向があるため、一般にこの操作によって満足のゆくプリントが得られるとはいえ、対象の頭が元の画像の上辺や側方境界付近に位置している場合には、対象の頭をトリミングで取り除いてしまうといった決定的な失敗に至ることもある。この問題の原因は、画像のどこに主要対象と背景が存在しているかを理解するための情景(scene)分析がなされていないことにある。
【0003】
ディジタル写真により、新しい機会が生まれると同時に、新しい問題も発生している。多くのディジタル・カメラでアスペクト比が2:3のディジタル画像が得られるが、別のカメラのかなりの割合では、アスペクト比が3:4の画像が得られる。最も一般的なプリントのフォーマットは4×6であるため、元のアスペクト比が3:4というディジタル画像をプリントするとき、画像をトリミングする必要がある。“いっぱいにトリミングする”に対し、あまり満足のいかない別法、いわゆる“フィットするようにトリミングする(crop to fit)”は、所望のアスペクト比を得るために白いスペースを補足して3:4の画像に詰め込むことである。
【0004】
ディジタル画像処理によって新しい多くの可能性が実現する。そのような可能性の1つは、シーン依存自動的画像トリミングである。すなわち、写真から望ましくない内容をトリミングし、望む内容を拡大またはズーミングして写真プリントの全体を占めるようにするという方法である。Bollmanらは、米国特許第5,978,519号で、画像内の強度レベルの違いに基づいて画像をトリミングする方法を記述している。このシステムでは、トリミングする画像を1つの格子まで縮小し、互いに重ならない複数のブロックに分割する。各ブロックについて強度レベルの平均値と分散を計算する。ブロック間で分散がどのように分布しているかに基づき、分散の閾値を選択する。その分散閾値よりも大きな分散を持つすべてのブロックを、興味の対象となる領域として選択する。次に、興味の対象となる領域を境界となる長方形に合わせてトリミングする。しかしこのようなシステムは、トリミングされていない画像に、強度レベルが一様な領域と、強度レベルがかなり変動するそれ以外の領域とが含まれている場合にだけ有効である。要するに、この技法では、画像内の“オープン”スペースをトリミングすることができるだけであり、背景が一様でない画像を取り扱うことはできない。さらに、この方法におけるトリミングの精度も、互いに重ならないブロックのサイズによる制約を受ける(すなわちブロックよりも小さなレベルでのトリミングはできない)。結果として、トリミングしている間に所望のアスペクト比にする優れた方法は存在していない。この方法の別の大きな欠点は、いかなる写真構成方式も適用されないことである。
【0005】
別の従来法は、オンライン・プリント履行サービスの提供者(例えば、Ofoto)が使用している。プレビューの際、必要な場合にはユーザーによってすべての写真が上を向くように方向調節されていると仮定すると、いくらか“知的(intelligent)”なトリミング規則は、いわゆる“20-80ルール”に基づいて画像をトリミングするというものである。すなわち、必要とされるトリミング量の20%を画像の上部に適用し、残りの80%を画像の下部に適用することにより、対象の頭部が切断される可能性を非常に小さくするというものである。この方法は、フィルムをもとにしたプリント履行システムでは不可能である。なぜなら、画像が上を向いているという仮定が、常に有効ではないからである。(上を向いている)画像の左側と右側をトリミングする必要がある場合には、両側を同じ量だけトリミングする。どの場合でも、元の写真の2つの側にのみトリミングを適用し、元の画像の内容ができるだけ残るようにする。
【発明の開示】
【発明が解決しようとする課題】
【0006】
したがって、(1)画像の主要対象は一部でもまたは全体としてもトリミングしない、(2)平坦な背景およびテクスチャを有する背景の両方を同定して必要な場合にはその一部または全体を除去できる、(3)共通の画像構成規則(例えば十分な頭上スペース)を実施できるように、画像の内容の自動理解と構成規則の実施によって知的画像トリミングを提供することが必要である。
【課題を解決するための手段】
【0007】
本発明は、上記問題点の1つ以上を解決することを目的とする。本発明の1つの態様に従って、簡単にまとめるならば、本発明は、元のディジタル画像から所望のアスペクト比の新しい画像を生成させる方法であって、
(a)所望のアスペクト比のトリミング・ウインドウおよび元のディジタル画像のサイズに関して予め決められたサイズを決定するステップと;
(b)元のディジタル画像中の主要対象の位置および相対的重要度を示す信頼値のアレイを含む主要対象信頼度マップを取得するステップと;
(c)その主要対象信頼度マップを使用し、予め決められた一連の基準を満たす、元のディジタル画像中におけるトリミング・ウインドウの位置を決定するステップと;
(d)所望のアスペクト比のトリミングされた画像を生成するステップ
を含む方法にある。
【発明の効果】
【0008】
本発明により、(1)画像の主要対象が部分的にも全体的にもトリミングされないことを確実にする、(2)必要な場合には、平坦な背景およびテクスチャを有する背景の両方を同定し、トリミングする、(3)共通の画像構成規則(例えば頭上スペースを十分に残す)を実施するという利点を有する画像トリミング法が提供される。
【0009】
本発明のこれらのおよび他の態様、目的、特徴、利点は、好ましい態様に関する以下の詳細な説明と添付の請求項から、そして添付の図面を参照することにより明瞭に理解、評価することができよう。
【発明を実施するための最良の形態】
【0010】
自動トリミングを使用した画像処理システムはよく知られているため、ここでの説明は、特に、本発明の方法の一部を構成する特徴、または本発明の方法とより直接的に組み合わされる特徴を対象とする。この明細書に具体的に示したり説明したりしていない特徴は、従来技術で知られている特徴の中から選択することができる。以下の説明では、本発明の好ましい一つの態様は、一般にソフトウエア・プログラムとして実行されることになろう。しかし当業者であれば、そのようなソフトウエアと同等なものをハードウエアの中に構成できることも容易にわかるであろう。以下の材料では、本発明に従って記述したように方法を提供したが、本発明の実施に有用であるこの明細書に具体的に示したり、示唆したり、記述したりしていないソフトウエアは、従来から存在していて当業者に知られているものである。本発明をコンピュータ・プログラムとして実施する場合には、そのプログラムは、例えば従来型のコンピュータ可読記憶媒体に記憶させることができる。そのような記憶媒体としては、例えば、磁気記憶媒体(例えば、磁気ディスク(フロッピー(登録商標)・ディスクやハード・ドライブなど)または磁気テープ);光学的記憶媒体(例えば光ディスク、光テープ、機械で読み取ることのできるバーコード);固体エレクトロニクス記憶装置(例えばランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM));コンピュータ・プログラムを記憶させるのに用いる他のあらゆるタイプの物理的な装置または媒体などが挙げられる。
【0011】
図1を参照すると、本発明の一つの態様のフロー・チャートが示してあることがわかる。元の入力ディジタル画像10は、最初に、主要対象を検出する段階20において処理される。その結果として得られるのは、画像内の主要対象の相対的な重要性と位置を示す主要対象信頼度マップである。主要対象信頼度マップの一例を図10に示してある。この主要対象信頼度マップ25に基づき、予め決められた画像構成規則を使用して探索30を実行し、望むサイズとアスペクト比になったトリミング・ウインドウの最適な位置を見つけ出す。最後に、画像トリミング段階40において、トリミング・ウインドウの最適位置に対応するトリミングされた画像45が生成する。
【0012】
本発明では、情景内の主要対象を分析してディジタル画像を自動的にトリミングする。第三者の視点でコンシューマータイプの写真画像内の主要対象を検出する方法(例えば主要対象検出、すなわち“MSD”)は、2001年8月28日に付与された米国特許第6,282,317号に記載されている(その開示内容は、参照することにより本明細書に組み入れる)。主要対象を検出することにより、画像内にあるさまざまな対象と関係する種々の領域の顕著な特徴または相対的重要度の尺度が与えられる。主要対象を検出することにより、コンシューマー写真画像に関係した多数の用途において、自動画像トリミングを含めたシーンコンテントの識別処理が可能となる。
【0013】
MSDシステムは、意味情報が使用できるときには、たいてい、その意味情報と一体化した低レベルの視覚的特徴に基づいて構築されている。このMSDシステムは多数のステップからなり、その中には、領域のセグメント化、特徴の抽出、意味の確率的推論などが含まれる。特に、視覚的に顕著な多種多様な特徴を表すため、画像内のセグメント化された各領域について多数の特徴が抽出され、その特徴群が調節可能で拡張可能な確率ネットに入力されて、連続的な値を持つ信頼度マップが生成される。
【0014】
MSDを使用すると、主要対象が属している領域は、一般に、画像内の雑然とした背景から区別される。したがって自動画像トリミングが可能になる。自動画像トリミングは重要な操作であり、自由画像(必ずしも一様な背景を含んでいない)の場合では、一定量の情景認識無しには不可能であると考えられていた。コンテンツ駆動トリミングが行なわれない場合、従来のシステムでは、単なる中央トリミング方式を使用したり、画像境界に接する一様な背景を単純に除去したりすることが中心的な操作であった。中央トリミングは、主要対象が画像の中心に存在していないときにはコンシューマーにとって魅力的でなかったり受け入れ難かったりすることがわかっている。
【0015】
図2を参照すると、画像をセグメント化する段階50において、入力画像が均一な特性(例えば、色およびテクスチャ)の少数の領域にセグメント化される。各領域は、特徴評価段階60において、2つの独立ではあるが相補的なタイプの特徴(構造上の特徴と意味上の特徴)に関して顕著性が評価される。例えば人の皮膚または顔の認識は意味上の特徴であるのに対し、全体として何が目立つかは、構造に分類される。構造上の特徴に関し、低レベルの視覚的特徴群と幾何学的特徴群を抽出する。意味上の特徴に関し、写真にしばしば見られるキーとなる対象物を検出する。ベイズ・ネットに基づいた推論エンジン70を使用して両方のタイプの特徴に由来する証拠を統合し、最終的な主要対象信頼度マップ25を作る。ベイズ・ネットに関する参考文献としては、J. Pearl、『インテリジェント・システムにおける確率的推論』、モーガン・カウフマン社、サンフランシスコ、カリフォルニア州、1988年を参照されたい。
【0016】
構造上の1つの特徴は、中心性(centrality)である。位置に関しては、主要対象は、画像の周辺部ではなく中心近傍に位置する傾向がある。したがって中心性が大きいということは、ある領域が画像の主要対象であることを示している。しかし中心性とは、ある領域が画像の中心にあることを必ずしも直接意味するものではない。実際、プロの写真家は、主要対象を、画像を3つに分割する線や線の交点に沿って主要対象を配置する傾向がある(いわゆる黄金分割位置または1/3ルール)。
【0017】
画像全体に対するある領域の位置を、その領域のサイズと形状を与えずに示すには、その領域の図心だけでは十分でない可能性があることを理解する必要がある。中心性の尺度は、与えられた領域の面積全体にわたって確率密度関数(PDF)を積分計算することによって規定される。PDFは“グランドトルース(ground truth)”データをもとにして導出される。即ち、主要対象領域を手で輪郭を描いてその領域に1という値を与え、背景領域には0という値を与え、グランドトルースデータ・マップをトレーニング集合全体で足し合わせる。要するに、PDFは、主要対象の位置に関する分布を表わす。中心性の尺度は、所定の領域のすべての画素(図心だけではない)が、その位置に応じる変化の度合いに対してその領域の中心性の尺度に寄与するように案出する。中心性の尺度は以下のように定義される。
【0018】
【数1】

【0019】
ここで(x, y)は、領域R内の画素を表わし、NRは領域R内の画素数である。
【0020】
方向がわからない場合には、PDFは、鉛直方向と水平方向の両方で画像の中心に対して対称である。その結果、方向とは独立な中心性の尺度が得られる。このPDFは、画像の中心に位置する物体が主要対象である可能性が大きい形状になっている。方向がわかっている場合には、PDFは、水平方向に関して画像の中心に対して対称であるが、鉛直方向に関してはそうでない。その結果、方向に依存した中心性の尺度が得られる。方向に依存したこのPDFは、画像の下部に位置する物体が主要対象である可能性が大きい形状になっている。
【0021】
構造上のもう一つの特徴は、境界性(borderness)である。多くの背景領域が、画像の一つまたは複数の境界と接する傾向がある。したがって画像の境界上でその輪郭のかなりの量を有する領域は、主要対象よりは背景に属する可能性が大きい。二つの尺度を用いてある領域の境界性を特徴づける。それは、ある領域が横切る境界の数(以下、“境界性1”という)と、その画像境界に沿っている領域の周辺部の割合(以下、“境界性2” という)である。
【0022】
方向がわからない場合には、境界性1を使用し、与えられた領域を、6つある分類の1つに分類する。これは、その領域が接している画像境界の数と位置によって決まる。その領域内の少なくとも1つの画素がその画像の境界一定距離の範囲内にある場合、領域は境界と接している。距離は、画像の短いほうの寸法の一部として表される。境界性1の6つの分類は、その領域が、境界と接しない、1つの境界と接する、2つの境界と接する、互いに向かい合った2つの境界と接する、3つの境界と接する、または4つの境界と接する、である。ある領域が有する境界との接触が多くなるほど、その領域が主要対象で無いという見込みが増加する。
【0023】
方向がわかっている場合には、境界性という特徴を、上部境界と接する領域が、底部境界と接する領域よりも背景である可能性がはるかに大きいという事実を説明できるように再定義することができる。その結果、領域が接する画像境界の数と位置により決められる、12通りの境界性1が生じる。情景内の物体が上を向いた画像では、上から“接する”の規定を用いると、画像の4つの境界を、その位置に従って“上部”、“底部”、“左”、“右”と標識付ける。
【0024】
第2の境界性(境界性2)は、画像境界上にある領域周辺部分の割合として定義される。この割合は、本質的に、1/2を超えることができない。なぜなら、そうなることは、その領域の面積が負であるか、その領域の一部が画像領域の外に存在することを意味するからであり、どのような画像でも、それは知られていない。この割合は1/2を超えることができないため、以下の定義を使用してこの特徴値を0〜1の範囲に正規化する。
【0025】
境界性2 = 2×(画像の境界上にある領域周辺部の画素数)/(領域周辺部の画素数)
【0026】
意味上の特徴の1つは人の皮膚である。2000枚を超える写真画像データベースを調べた結果によると、写真画像の70%超が人物であり、ほぼ同数の画像にかなり大きな顔が含まれている。したがって、画像においては皮膚の色調は共通している。実際、人物は写真において唯一つの最も重要な対象である。したがって皮膚の色調の存在を効果的に検出できるアルゴリズムが、画像の主要対象を同定するのに有用である。同様に、人の顔の存在を効果的に検出できるアルゴリズムが、画像の主要対象を同定するのに有用である。
【0027】
本発明では、皮膚検出アルゴリズムは、カラー画像のセグメント化と、特定のクロミナンス空間においてあらかじめ決めた皮膚の分布:P(皮膚|クロミナンス))を使用する。人種間での最大の違いは輝度の方向に沿うものであり、光源の影響も主として輝度方向内にあることが、当業者に知られている。したがってある領域が規定されたクロミナンス空間に入る場合には、輝度のレベルとは関係なくその領域が皮膚である蓋然性がある。Leeの、「物理学と心理物理学に基づいたカラー画像の量子化」、Journal of Society of Photographic Science and Technology of Japan、第59巻、第1号、212〜225ページ、1996年を参照されたい(その内容を、引用することによりこの明細書に組み込む)。皮膚領域の分類は、セグメント化した1つの領域の平均的な色が予め決められたクロミナンス空間のどこに入るかの最大確率に基づいている。しかしある領域が皮膚であるかどうかの決定は、主として二値による決定である。連続的な皮膚信頼値を使用することは、皮膚を同定してより大きな信頼値を割り当てる目的とある程度矛盾する。この課題に対処するため、“ソフトな”閾値演算子として機能するシグモイド信頼度関数を通して、皮膚である確率を信頼度出力にマッピングする。シグモイド信頼度関数は、当業者に知られている。
【0028】
ある領域が主要対象であるかどうかの判定に関してなすべき作業は、事後確率:
P(主要対象の検出|特徴)
に基づいて画像内のある領域が主要対象である確率を決定することである。
【0029】
具体的に表した本発明の一つの態様では、画像内の各領域についてアクティブなベイズ・ネットが1つ存在している。したがって確率的推論を(画像ごとではなく)領域基準ごとに実施する。
【0030】
本発明で使用する主要対象検出出力は、セグメント化された領域を、それぞれの領域が主要対象である確率(または信頼度)を降順でランク付けしたリストである。このリストは、信頼度マップに容易に変換することができる。そのマップには各領域が配置されていて、その領域の主要対象信頼度に比例した信頼値が割り当てられている。したがってこのマップは、主要対象信頼度マップと呼ぶことができる。一例を図10に示してある。この図では、異なるグレイ値が、その領域の主要対象信頼度に比例している。信頼度マップで用いる信頼値は連続的であるため、信頼度マップは、決定された主要対象の位置を示すだけの二値マップ以上のものである。関連する確率も各領域に添付され、大きな値の領域は、主要対象の部分との確信(即ち、信頼度)のより高い領域に対応する。
【0031】
この信頼度マップは、人間がMSDなどの作業を実行する際に固有の不確実性をある程度反映している。なぜなら、見ている人が違えば、主要対象に関してある対象物は是認せず、別の対象物を是認する可能性があるからである。しかし望むのであれば、信頼度マップにおいて適切な閾値を使用することにより、二値判断を容易に得ることができる。さらに、信頼度情報は、下流の用途で非常に役立つ可能性がある。例えば画像トリミングを行なう量と位置を決定する際に、異なる領域(対象物)に異なる重み因子を割り当てることができる。
【0032】
本発明では、トリミング・ウインドウの位置を決定するため、二値化されたマップの代わりに主要対象信頼度マップを使用し、トリミングに関して後戻りできない間違った判断がなされることを回避する。さらに、主要対象信頼度の連続値を使用すると、トリミングで遭遇する制約下で、さまざまな領域のトレード・オフを助ける。何を含めて何を除外するかの二値決定が一旦なされると、トレード・オフのための余地はほとんど残されていない。例えば主要対象の領域がトリミング・ウインドウよりも小さい場合には、主要対象二値マップが与えられたときの合理的な唯一の選択は、主要対象の領域の周囲に等しい量の余白を残すことである。その一方で二次的な主要対象は、主要対象信頼度マップにおいてより低い信頼値で表わされ、信頼値が最高の主要対象を含むようにした後に、信頼値の降順に従って含められる。さらに、何を含めるか/除外するかに関して望ましくない二値決定がなされる場合には、遡及してその間違いを訂正することができない。従ってトリミングの結果は、二値決定を行なうのに使用する閾値に大きく左右される。連続値の主要対象信頼度マップを用いると、すべての領域または物体に、その領域が含まれる確率、またはその領域が含まれる信頼値が付随する。
【0033】
“いっぱいにトリミングする”と呼ばれる従来のトリミング法を図4〜図6に示してある。この方法は、与えられた画像の内容を分析した結果に基づいているのではなく、対象の頭部は画像の上部に存在する傾向があるため、対象の頭部がトリミングされないことを確実にするために、画像の上部でのトリミングはあまりしないほうが良いとの仮定に基づいている。画像の方向がわかっていない場合や、上になる方向を決められない場合には、画像の2辺を同じ量だけトリミングする(図4)。画像が上を向いていることがわかっている場合、元の画像が“風景”配置で鉛直方向のトリミングが必要なのであれば、必要なトリミング量の20%を画像の上部に取り、80%を画像の底部に取る(図5)。元の画像が“ポートレート”配置で水平方向のトリミングが必要なのであれば、対称的であるために左右の辺に必要なトリミング量の50%を取る(図6)。
【0034】
ここで図3を参照すると、本発明に従って所望のアスペクト比の画像を生成させるステップが示してある。本発明の方法では、主要対象信頼度マップ25を作った後、アスペクト比(例えば4×6)によって規定されるようなプリントフォーマットを受け取り、次いでトリミング・ウインドウ66(図7に図示する)を決定する。プリントフォーマットは、オペレータが選択するか、または主要対象信頼度マップ(例えば主要対象の形状を評価に由来する)に直接基づいた自動的な方法で選択することができる。トリミング・ウインドウ66は、所望のアスペクト比の長方形のウインドウである。ここで図7を参照して説明すると、トリミング・ウインドウの探索範囲は、探索範囲決定段階80において決定される。元の画像のフレーム140は、最も外側のボックスとして示してある。最も左上のトリミング・ウインドウ66(a)と最も右下のトリミング・ウインドウ66(b)(図をわかりやすくするため、ウインドウ66(b)をウインドウ66(a)の一部に重ねてある)により、許容できるすべてのトリミング・ウインドウの左上隅の位置130が決まる。そのことが、太線によるボックス内の濃い斜線領域として示してある。
【0035】
本発明の方法では、主要対象である確率が大きいほど信頼値の値も大きくしていることに注意すべきである。したがって信頼値の和の最大値を見つけることは、対象コンテント指数の最適値を見つけることに等しい。あるトリミング・ウインドウに関する信頼値の和、シーンコンテント指数(sci)は、以下のようにして計算される。
【0036】
【数2】

【0037】
(ここで、bel (x, y)は、トリミング・ウインドウw内の1つの画素の位置(x, y)における信頼値を表わす)
【0038】
主要対象は最も大きな信頼値で示され、二次的対象物は、主要対象の信頼値よりも小さいが背景となる対象の信頼値よりも大きい信頼値で示されることを思い出してほしい。到達目標は、信頼値の和が最大であると同時に、主要対象がトリミング・ウインドウ内完全に中に含まれることを確実にするトリミング・ウインドウを見いだすことである。すなわち、この式は以下のようになる。
【0039】
【数3】

【0040】
(ここで、Wは、上記の制約をすべて満たす許容できるすべてのトリミング・ウインドウ群(例えばトリミングされていない画像の中に完全に含まれるウインドウや、主要対象の全体を含むウインドウ)を表わす)。
【0041】
図3に戻ると、トリミング・ウインドウのシーンコンテント指数の値が、対象コンテントを計算する段階90において、探索範囲内のそれぞれの位置について計算される。本発明の方法では、最初に、最大化段階100において、シーンコンテント指数値が最大であるトリミング・ウインドウを見いだす。次に、ウインドウ調節段階110において、予め決められた一群の画像構成規則101に従ってトリミング・ウインドウを調節する。最後に、トリミング段階120において、最終的に調節されたトリミング・ウインドウに対応して元の画像10をトリミングし、トリミングされた画像45を生成させる。
【0042】
いわゆる統合画像(ii)(統合画像の詳細に関しては、『視覚の統計理論と計算理論に関するICCV 2001ワークショップ』のプロシーディングに掲載されているPaul ViolとMichael Jones、「骨の折れるリアルタイム物体検出」を参照されたい)を使用すると、効率的な計算法でシーンコンテント指数を計算することができる。図8を参照すると、長方形D内の画素の和を4つの参照アレイを用いて計算できることがわかる。位置1での統合画像の値は長方形A内の画素の和であり、位置2での統合画像の値はA+Bであり、位置3での統合画像の値はA+Cであり、位置4での統合画像の値はA+B+C+Dである。したがって長方形D内の和は、(4+1)-(2+3)として計算することができる。位置(x, y)における統合画像は、(x, y)も含め、その(x, y)の上側と左側の画素の和を含んでいる。
【0043】
【数4】

【0044】
(ここで、ii (x, y)は統合画像であり、i (x, y)は元の画像である)。以下に示す一対の漸化式:
【0045】
【数5】

【0046】
(ここで、s (x, y)は行の累積和であり、s (x, -1)=0、ii (-1, y)=0である)を使用すると、元の画像の全体にわたって1回で統合画像を計算することができる。計算を一度しか行なう必要のない統合画像を用いると、シーンコンテント指数が最大、または主要対象信頼値の和が最大であるトリミング・ウインドウの探索を極端に速く達成することができる。
【0047】
本発明では、“k−平均”クラスター化法を使用し、画像をトリミングするためのMSD信頼値の適切な閾値を決定する。好ましい一つの態様では、MSD信頼値を量子化するのに3つのレベルを使用すれば十分である。すなわち、“高”、“中”、“低”の3つのレベルである。当業者であれば、本発明が3レベルでの分類に限定されることはなく、信頼度マップにおける(不必要な)変動を減らす上で合理的な数の分類レベルを用いることができることがわかるであろう。3つのレベルにより、主要対象(高)、背景(低)、二次的対象を捕捉するための中間レベル(中)に分類することができる。したがって本発明は、MSDマップ上でk=3のk平均クラスター化を実行し、画像に依存した様式で信頼値を“量子化”することができる。その結果、各領域の信頼度がその領域におけるクラスターの平均信頼度で置き換えられる。(k=2のk平均クラスター化では本質的に“高”と“低”の2つのクラスターを持つ二値マップが生まれるため、最初の議論に基づいて、トリミングを行なう上でk=2は望ましくないことに留意されたい。)
【0048】
このようなクラスター化または量子化を実行することの大きな利点は2つある。第1に、クラスター化することで信頼度が低い背景領域をまとめて一様な低信頼度(例えば信頼度0)背景領域を形成することにより、背景を分離しやすくなる。第2に、クラスター化することで似た信頼度レベルをまとめることにより、順序よく並んでいる信頼度に存在するノイズを除去しやすくなる。ここで使用する量子化の主な目的は、背景に関する閾値と、主要対象に関する別の閾値とを提供することにある。
【0049】
k平均クラスター化により、信頼度マップに関してマルチレベルの閾値決定演算が効果的に実行される。クラスター化の後、2つの閾値を以下のようにして決定することができる。
【0050】
【数6】

【0051】
(ここで、{C, C, C}は、3つのクラスターの図心の集合(信頼値の平均)であり、閾値と閾値は、それぞれ下方閾値と上方閾値である)
【0052】
信頼値が低閾値よりも小さい領域は“背景”と見なされ、その信頼値はゼロに設定される。信頼値が上方閾値よりも高い領域は、主要対象物の一部と見なされ、可能な場合にはいつでもその全体を含める必要がある。中間的な信頼値の領域(例えば高閾値以下で、しかも低閾値以上)は“二次的対象”の部分と見なされ、トリミング・ウインドウによって保持される主要対象の信頼値の和を最大にするため、可能な場合にはその全体または一部を含めることになる。3つのクラスターの分散の統計値を使用して、クラスターの分散を反映した閾値をより正確に設定できることに留意されたい。
【0053】
本発明によれば、k平均法を、信頼度マップの最大値bel最大と最小値bel最小を見いだし、信頼度マップ内のアイテムの最大値と最小値の平均値bel平均を計算し、これら3つの値について最初の図心(下添字0で表わす)を設定することによって初期設定する。すなわち、以下のようになる。
【0054】
【数7】

【0055】
別の形態の初期化も可能である。代表的なMSD信頼度マップでは、k平均法は通常10回未満の繰り返しで収束する。
【0056】
目で見て心地よいトリミング画像を得るためには、多数の重要な画像構成規則を適用する必要がある。本発明の好ましい一つの態様では、画像構成規則の1つは、いわゆる“頭上スペース”を維持し、主要対象の上部(例えば人物の頭部)がトリミングされないようにするだけでなく、最上画像境界と主要対象の上部との間に予め決められた量のスペース(例えば主要対象のサイズの10%)を維持する必要があるというものである。頭上スペース99の一例が図11に示してある。
【0057】
同様の画像構成規則は、画像の上部にあらかじめ決めた最少量のオープン・スペース(例えば空や天井)を残し、いわゆる“息抜き空間”を維持するというものである。オープン・スペースは、実質的に広くて平坦な領域として定義され、主要対象検出プロセスの間に得られたセグメント化領域に縁部または勾配があるかどうかを調べることによって見つけることができる。最大勾配の大きさが予め決められた閾値よりも小さい領域は、オープン・スペース領域と宣言される。オープン・スペースの検出法は、共通の譲受人に譲渡されたWarnickらの米国特許第5,901,245号に開示されている(その内容は、引用することによりこの明細書に組み込む)。
【0058】
別の画像構成規則は、“中心優先”と呼ばれている。そのため、多数のトリミング・ウインドウが同じシーンコンテント指標値を持つ場合には、最も中心にあるトリミング・ウインドウを選択すべきである。当業者であれば、他の画像構成規則を決定してそれを実施することができよう。例えば1/3ルールを実施し、主要対象を一定方向に沿って大まかに1/3の位置のところに位置決めする。
【0059】
コンシューマーの写真とそれをさまざまにトリミングしたものの一例を図9、図11、図12に示してある。さらに詳しく説明すると、図9には、トリミングしていない元の写真画像が示してあり、図10には、対応する主要対象信頼度マップ(明るい領域ほど、主要対象としての信頼値がより大きいことを示している:女児の顔が主要対象で、身体と三輪車は二次的主要対象であり、木や芝生は背景である)が示してあり、図11は、本発明による画像トリミングの結果である。比較のため、“20-80”固定ルールを使用してトリミングした画像を図12に示してある。女児の三輪車の意味のある部分が“20-80”ルールを使用してトリミングされてしまっているのに対し、木が占めているスペースは過剰なほど残されたままになっていることに留意されたい。明らかに、後者結果は、見たとき、本発明によって得られる結果と同程度に心地よいものとは言えない。
【0060】
この例に関しては、本明細書の背景技術の項に記載した従来技術の場合、Bollmanら(米国特許第5,978,519号)なら画像全体を維持し、トリミングされた画像を作ることはできないであろう。なぜなら、背景があまりに雑然としている(例えば木や草)ため、この写真内の画像の各辺から延びる活性度の低い連続的な領域が存在していないからである。
【0061】
図13を参照すると、本発明をディジタル・プリンティング環境(例えば、対話式スタンドアローン型ディジタル写真仕上げシステム(キオスクなど)や、オンライン・プリント履行システム(コダック社のOfotoによって提供されるサービスなど))で実現するためのコンピュータ・システム210が示してある。好ましい一つの態様を具体的に示すことを目的としてコンピュータ・システム210を図示したが、本発明がここに図示したコンピュータ・システム210に限定されることはなく、あらゆる電子的処理システム、例えばホーム・コンピュータ、キオスク、小規模または大規模な写真仕上げ店、またはディジタル画像を処理するための他のあらゆるシステムに見られるもので本発明を使用することができる。コンピュータ・システム210にはソフトウエア・プログラムを受け入れ処理するための、また他の処理機能を実行するためのマイクロプロセッサをベースとしたユニット212が含まれている。ディスプレイ214は、マイクロプロセッサをベースとしたユニット212に電気的に接続されていて、前記ソフトウエアに関連するユーザー関連情報が例えばグラフィカル・ユーザー・インターフェイスの手段によって表示される。キーボード216もマイクロプロセッサをベースとしたユニット212に接続されており、ユーザーは情報をソフトウエアに入力することができる。入力にキーボード216を用いる代わりにマウス218を用いてディスプレイ214上でセレクタ220を移動させ、そのセレクタ220が重なったアイテム(当該技術分野でよく知られているように、グラフィカル・ユーザー・インターフェイス221の一部として表示されるアイテム)を選択することもできる。
【0062】
コンパクト・ディスク読み出し専用記憶媒体(CD-ROM)読み取り装置222がマイクロプロセッサユニット212に接続されていて、ソフトウエア・プログラムとそれ以外の情報を、コンパクト・ディスク224(一般に、この中にソフトウエア・プログラムが収容されている)を通じてマイクロプロセッサユニット212に入力する手段を提供する。さらに、フロッピー(登録商標)・ディスク226にもソフトウエア・プログラムを収容することができる。マイクロプロセッサユニット212にフロッピー(登録商標)・ディスク226を挿入してそのソフトウエア・プログラムを入力する。さらに、従来技術で知られているように、マイクロプロセッサユニット212にプログラムしてソフトウエア・プログラムを内部に記憶させることができる。マイクロプロセッサユニット212は、外部ネットワーク(例えばローカル・エリア・ネットワークやインターネット)へのネットワーク接続線227(例えば電話線)も備えることができる。プリンタ228がマイクロプロセッサユニット212に接続されていて、コンピュータ・システム210の出力のハードコピーがプリントされる。
【0063】
画像は、パーソナル・コンピュータ・カード(PCカード)230(例えばディジタル化された画像が電子化されて収容されている(パーソナル・コンピュータ・メモリ・カード国際協会の仕様に基づく)PCMCIAカード230)を通じてディスプレイ214に表示することもできる。PCカード230が最終的にマイクロプロセッサユニット212に挿入されると、画像をディスプレイ214に表示することができる。画像は、コンパクト・ディスク224、またはフロッピー(登録商標)・ディスク226、またはネットワーク接続線227を通じて入力することもできる。PCカード230、またはフロッピー(登録商標)・ディスク226、またはコンパクト・ディスク224に記憶されているあらゆる画像、あるいはネットワーク接続線227を通じて入力されるあらゆる画像は、さまざまな供給源(例えばディジタル・カメラ234やスキャナ236)から(例えばハロゲン化銀フィルムなどのオリジナルを走査することによって)取得することができる。ディジタル・カメラ234の画像は、通信リンク240(例えばRFリンクやIRリンク)を通じてコンピュータ・システムにダウンロードすることもできる。本発明によれば、これまでに説明した任意の記憶装置にアルゴリズムを記憶させ、そのアルゴリズムを画像に適用し、予め決められたアスペクト比と予め決められた構成規則群に従って1つ以上の画像を自動的にトリミングすることができる。
【0064】
図14にさらに示したように、グラフィカル・ユーザー・インターフェイス221を用いてユーザーに元の画像150を提示すると同時に、トリミングに関するいくつかの選択肢をプレビュー画像(その中には、“20-80”トリミング152や、本発明によるインテリジェントトリミング154が含まれる)とともに提示する。ユーザーは、各プレビュー画像の下にあるボタン156、158をクリックすると、好みのトリミングを選択することができる。選択されたトリミングが高精細度ディジタル画像に適用され、トリミングされた画像がプリンタに送られて、ユーザーが選択したフォーマットの写真プリントが得られる。
【0065】
図15を参照すると、フィルムをベースとした本発明のプリント・システムが図示されている。このようなシステムは、卸売り業ディジタル写真仕上げシステムや、ディジタル・ミニ-ラボ写真仕上げシステムなどに見られる。フィルム・スキャナ332は、写真フィルム・サンプル331を受け取ると、その写真フィルム・サンプルの空間密度分布に関するソース・ディジタル画像310を生成させる。このソース・ディジタル画像を、ディジタル画像処理装置320が受け取る。ディジタル画像処理装置320を、入力制御装置360からオペレータが制御する全体制御用コンピュータ340に接続してもよい。オフライン・メモリ装置370は、全体制御用コンピュータ340に接続されている。モニタ装置350は、光学的プリント・システムに関する診断情報を表示する。全体制御用コンピュータ340は、レンズの倍率設定を制御する。
【0066】
図16を参照すると、プリントフォーマット311も(レンズの倍率設定に対応する)、オペレータが制御する全体制御用コンピュータ340からディジタル画像処理装置320によって、受け取ることができる。ディジタル画像処理装置320は、ソース・ディジタル画像310を受け取り、プリントフォーマット311およびそのソース・ディジタル画像310を使用して、フィルム・サンプル位置309の形態に写真フィルム・サンプルの適切な位置を計算する。写真フィルム・サンプルは露光時にフィルムネガに適所に保持するゲート装置336に配置される。ゲート装置336は、フィルム・サンプル位置309を受け取って写真フィルム・サンプルの位置を決め、写真のどの画像領域をプリントするかを調節する。
【0067】
再び図15に戻ると、ランプ・ハウス334が光源を提供する。その光は写真フィルム・サンプル331を通過し、レンズ312によって写真用紙338の上に焦点を結ぶ。時間積分装置313は、ランプ・ハウス334からフォーカスされた光が写真用紙338を露光できる時間を変えるために、シャッターを開閉する。露光制御装置316は、ディジタル画像処理装置320から、輝度バランス値を受け取る。露光制御装置316は、その輝度バランス値を用い、時間積分装置のシャッターが開いたままになっている時間を調節する。
【0068】
本発明を好ましい態様を参照して説明した。しかし当業者であれば、本発明の範囲を逸脱することなく変更や修正を施しうることがわかるであろう。
【図面の簡単な説明】
【0069】
【図1】図1は、本発明の一つの態様を示すフロー・チャートである。
【図2】図2は、図1に示した主要対象検出プロセスのフロー・チャートである。
【図3】図3は、本発明において画像をトリミングするための各ステップを示すフロー・チャートである。
【図4】図4は、画像の方向がわからない場合の従来の“いっぱいにトリミングする”方法の図である。
【図5】図5は、画像方向が横長であるとわかっている場合に画像のトリミングを鉛直方向で実施する場合の従来の“いっぱいにトリミングする”方法の図である。
【図6】図6は、画像方向がポートレートであるとわかっている場合に画像のトリミングを水平方向で実施する場合の従来の“いっぱいにトリミングする”方法の図である。
【図7】図7は、トリミング・ウインドウの可能な配置を示す図である。
【図8】図8は、統合画像の図であり、長方形領域内の画素の総和を計算するのに用いる。
【図9】図9は、トリミングされていない画像の一例である。
【図10】図10は、図9から作った主要対象信頼度マップの一例である。
【図11】図11は、本発明により図9の画像から作ったトリミングされた画像の一例であり、望ましい量の頭上スペースがあることを示している。
【図12】図12は、従来法に従って図9の画像から作ったトリミングされた画像の一例である。
【図13】図13は、ディジタル・プリント履行システムを使用する本発明のシステムの一つの態様の概略ダイヤグラムである。
【図14】図14は、図13に示したディジタル・プリント履行システムのユーザー・インターフェイスを具体的に示した図である。
【図15】図15は、光学的プリント・システムを使用する本発明のシステムの一つの態様の概略ダイヤグラムである。
【図16】図16は、図15に示した光学的プリント・システムのゲート内で、フィルム・サンプルの適切な位置を計算するための調節システムの概略ダイヤグラムである。
【符号の説明】
【0070】
10 入力する元のディジタル画像
20 主要対象を検出する段階
25 主要対象信頼度マップ
30 探索
40 画像をトリミングする段階
45 トリミングされた画像
50 画像をセグメント化する段階
60 特徴を評価する段階
66 トリミング・ウインドウ
66a 左上トリミング・ウインドウ
66b 右下トリミング・ウインドウ
70 推論エンジン
80 探索範囲を決定する段階
90 対象物の内容を計算する段階
99 頭上スペース
【0071】
100 最大化する段階
101 画像構成規則
110 ウインドウを調節する段階
120 トリミングする段階
130 許容できるすべてのトリミング・ウインドウの左上隅
140 元の画像のフレーム
150 元の画像
152 “20-80”トリミング
154 インテリジェントトリミング
【0072】
210 コンピュータ・システム
212 マイクロプロセッサユニット
214 ディスプレイ
216 キーボード
218 マウス
220 セレクタ
221 グラフィカル・ユーザー・インターフェイス
222 CD-ROM読み取り装置
224 コンパクト・ディスク
226 フロッピー(登録商標)・ディスク
227 ネットワーク接続線
228 プリンタ
230 PCカード
232 カード読み取り装置
234 ディジタル・カメラ
236 スキャナ
240 通信リンク
【0073】
309 フィルム・サンプル位置
310 ソース・ディジタル画像
311 プリントフォーマット
312 レンズ
313 時間積分装置
316 露光制御装置
320 ディジタル画像処理装置
331 写真フィルム・サンプル
332 フィルム・スキャナ
334 ランプ・ハウス
336 ゲート装置
338 写真用紙
340 全体制御用コンピュータ
350 モニタ装置
360 入力制御装置
370 オフライン・メモリ装置

【特許請求の範囲】
【請求項1】
元のディジタル画像から所望のアスペクト比の新しい画像を生成させる方法であって、
(a)所望のアスペクト比のトリミング・ウインドウおよび元のディジタル画像のサイズに関して予め決められたサイズを決定するステップと;
(b)元のディジタル画像中の主要対象物の位置および相対的重要度を示す信頼値のアレイを含む主要対象信頼度マップを取得するステップと;
(c)その主要対象信頼度マップを使用し、予め決められた一群の基準を満たす、元のディジタル画像中におけるトリミング・ウインドウの位置を決定するステップと;
(d)所望のアスペクト比のトリミングされた画像を生成するステップ
を含む方法。
【請求項2】
所望のアスペクト比が、3×5、4×6、5×7、および8×10を含む群から選択される請求項1に記載の方法。
【請求項3】
トリミング・ウインドウの予め決められたサイズが、元のディジタル画像によって許容できる最大のサイズである請求項1に記載の方法。
【請求項4】
上記予め決められた一群の基準が、最大シーンコンテント指数値を含む(ここで、シーンコンテント指数は、トリミング・ウインドウ内の信頼値の和として定義する)請求項1に記載の方法。
【請求項5】
上記予め決められた一群の基準が、それら全体として最高信頼値の領域を含む請求項1に記載の方法。
【請求項6】
上記予め決められた一群の基準が、元のディジタル画像の最上部の画像境界と最高主要対象信頼値の領域との間に予め決められた量のスペースを維持することを含む請求項1に記載の方法。
【請求項7】
上記予め決められた一群の基準が、元のディジタル画像の最上部の画像境界のところで、予め決められた量のオープン・スペースを保持することを含む請求項1に記載の方法。
【請求項8】
上記予め決められた一群の基準が、元のディジタル画像の中心に対してトリミング・ウインドウの相対位置に対応した重みを割り当てることを含む請求項1に記載の方法。
【請求項9】
主要対象信頼度マップを取得するステップが、
(i)元のディジタル画像から一様な特性領域を抽出するステップと;
(ii)前記各領域について、少なくとも1つの構造上顕著な特徴と、少なくとも1つの意味上顕著な特徴を抽出するステップと;
(iii)確率的推論エンジンを使用して、前記構造上顕著な特徴と前記意味上顕著な特徴とを統合し、各領域が主要対象である信頼値の推定を生成するステップと
を含む請求項1に記載の方法。
【請求項10】
ステップ(ii)において、中心性を構造上顕著な特徴として用いる請求項9に記載の方法。
【請求項11】
ステップ(ii)において、境界性を構造上顕著な特徴として用いる請求項9に記載の方法。
【請求項12】
ステップ(ii)において、人の皮膚の色調の存在を意味上顕著な特徴として用いる請求項9に記載の方法。
【請求項13】
ステップ(ii)において、人の顔の存在を意味上顕著な特徴として用いる請求項9に記載の方法。
【請求項14】
ステップ(iii)において、ベイズ・ネットワークを確率的推論エンジンとして用いる請求項9に記載の方法。
【請求項15】
トリミング・ウインドウの位置を決定するステップが、
(i)主要対象信頼度マップから統合画像を計算するステップと;
(ii)トリミング・ウインドウの前記シーンコンテント指数を計算するステップと;
(iii)最大対象コンテント指数値を生成するトリミング・ウインドウの位置を選択するステップ
を含む請求項4に記載の方法。
【請求項16】
前記トリミング・ウインドウの位置を決定するステップが、ユーザーが選択する、トリミング・ウインドウのサイズのための一連のすべての可能な位置を決定するステップをさらに含む請求項1に記載の方法。
【請求項17】
(a)所望のアスペクト比のトリミング・ウインドウおよび予め決められたサイズを決定するステップと;
(b)元のディジタル画像中の主要対象物の位置および相対的重要度を示す信頼値のアレイを含む主要対象信頼度マップを取得するステップと;
(c)その主要対象信頼度マップを使用し、予め決められた一群の基準を満たす、元のディジタル画像中におけるトリミング・ウインドウの位置を決定するステップと;
(d)所望のアスペクト比のトリミングされた画像を生成するステップと
を実行するために保存されたコンピュータ・プログラムを有するコンピュータ可読記憶媒体を含んで成る、元のディジタル画像から所望のアスペクト比の新しい画像を生成させるためのコンピュータ・プログラム製品。
【請求項18】
ディジタル画像から所望のアスペクト比のプリントを生成するために、ステップ(a)〜ステップ(d)をオンライン・プリント履行システムによって実施する請求項17に記載のコンピュータ・プログラム製品。
【請求項19】
ディジタル画像から所望のアスペクト比のプリントを生成するために、ステップ(a)〜ステップ(d)をディジタルミニラボ写真仕上げシステムによって実施する請求項17に記載のコンピュータ・プログラム製品。
【請求項20】
ディジタル画像から所望のアスペクト比のプリントを生成するために、ステップ(a)〜ステップ(d)を対話式スタンドアローン型ディジタル写真仕上げシステムによって実施する請求項17に記載のコンピュータ・プログラム製品。
【請求項21】
ディジタル画像から所望のアスペクト比のプリントを生成するために、ステップ(a)〜ステップ(d)を卸売り業ディジタル写真仕上げシステムによって実施する請求項17に記載のコンピュータ・プログラム製品。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公表番号】特表2007−500967(P2007−500967A)
【公表日】平成19年1月18日(2007.1.18)
【国際特許分類】
【出願番号】特願2006−521886(P2006−521886)
【出願日】平成16年7月15日(2004.7.15)
【国際出願番号】PCT/US2004/022984
【国際公開番号】WO2005/013602
【国際公開日】平成17年2月10日(2005.2.10)
【出願人】(590000846)イーストマン コダック カンパニー (1,594)
【Fターム(参考)】