説明

ヘッダ情報に基づく画像処理方法

【課題】本発明は、符号ストリームヘッダデータに基づく画像のセグメンテーション、画像の適応的スケーリング、画像の自動スケーリング及びクロッピングの方法及び装置の提供を目的とする。
【解決手段】本発明によれば、画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを含むファイルが取得され、ブロック毎に、ブロックの尤度の積である総尤度と、事前確率との積であるコスト関数を最大化するスケールが割当てられる。画像は等価的なスケールが割当てられたブロックを集めることによってセグメント化される。ファイルはJPEG2000フォーマットの画像を表現する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的に画像処理の分野に係り、特に、マルチスケール変換を使用する画像処理に関する。
【0002】
本願発明は、本願の優先権主張日と同日の2002年1月10日に出願され、本願と同一出願人に譲渡された米国特許出願第02−044603号に関連している。
【背景技術】
【0003】
デジタル画像は、多様なフォーマットで表現され蓄積される。デジタル画像表現フォーマットにおける一般的な特徴は、画像ファイルを構成するビットが画像記述ビットとヘッダビットとに分けられることである。画像記述ビットは実際の基礎画像を記述する。屡々、画像記述ビットは便宜上より小さい細分ユニットに分割される。ヘッダビットは、多数の細分画像記述ユニットに対する画素単位の画像サイズ、ファイルサイズ、ビット単位の長さなどのような画像に関する構造的情報を与える。
【0004】
圧縮画像ファイルは、主として、便利なファイル管理及び解釈を実現し易くするため、種々様々な構造的情報をヘッダに収容する。例えば、幅、高さ、色成分情報、及び、その他の詳細のような従来からの情報に加えて、JPEG 2000(非特許文献1を参照)の画像ヘッダは、画像の圧縮データを構成するウェーブレット係数のグループ(符号ブロックと称される)のような細分ユニットに含まれるビット数と、これらの係数の細分ユニットのウェーブレット領域(ドメイン)での位置と、に関する情報を与える。他の画像ファイルフォーマットは細分情報を収容する。
【0005】
非特許文献2には、通常のJPEG圧縮文書を画像内の8×8形ブロックのエントロピーを使用する通常のJPEG圧縮文書のセグメンテーションが記載されている。エントロピー値は従来のJPEG画像ヘッダで利用できないので、非特許文献2に記載された技術はヘッダ情報に基づく処理を使用しない。また、個の技術は、局部的な8×8形ブロックだけに作用する従来のJPEGによって使用される離散コサイン変換(DCT)を利用する。したがって、この技術はマルチスケール変換を使用しない。更に、この技術は、画像領域内の8×8形ブロック上で利用可能なエントロピー分布だけを使用し、マルチスケールビット分布を利用しない。
【0006】
画像解析には、画像の記述、解釈及び理解が含まれる。画像解析は、画像から測定量、データ若しくは情報を抽出する。画像解析技術は、特徴抽出、セグメンテーション(区分け)及びクラシフィケーション(分類)が含まれる。画像解析は、コンピュータビジョン、画像データ抽出、情景解析、画像記述、自動写真理解、領域選択、又は、画像理解のように呼ばれる場合がある。非特許文献3及び非特許文献4を参照せよ。
【0007】
画像処理は、入力画像から修正された出力画像を生成する。画像処理技術には、クロッピング、スケーリング、ポイント演算、フィルタリング、ノイズ除去、修復、強調が含まれる(非特許文献4の第7及び8章、非特許文献3の第4部)。
【0008】
一部のアプリケーションでは、最初に画像に対して画像解析を実行し、次に、画像上の画像処理を制御するため解析結果を使用することが望ましい。例えば、非特許文献5に掲載されたプログラム"pnmcrop"は、最初に、四方全てについて、背景色(単一の色値、例えば、白又は黒)の縞を見つけるため画像を解析する。次に、このプログラムは、縞を取り除くため、画像処理演算のクロッピングを画像に対して実行する。
【非特許文献1】ITU−T勧告T.800(ISO/IEC 15444−1:2000)、[online]、<URL:www.iso.ch>
【非特許文献2】アール・デ・ケイロース(R. De Queiroz)及びアール・エッシュバッハ(R. Eschbach)著、「JPEG圧縮文書の高速セグメンテーション(Fast segmentation of JPEG compressed documents)」、エレクトロニック・イメージング(ElectronicImaging)、第7巻、1998年4月、p.367−377
【非特許文献3】ダブリュー・プラット(W. Pratt)著、「デジタル画像処理(Digital Image Processing)」、第2版、ジョンワイリー社(John Wiley & Sons, Inc.)発行、米国ニューヨーク州ニューヨーク市、1995年
【非特許文献4】エー・ジェイン(A. Jain)著、「デジタル画像処理の基礎(Fundamentals of Digital Image Processing)」、プレンティス・ホール(PrenticeHall)、米国ニュージャージー州エングルウッド、1995年
【非特許文献5】インターネット<URL:http://www.acme.com/software/pbmplus/)
【発明の開示】
【発明が解決しようとする課題】
【0009】
本発明は、マルチスケール変換を使用する画像処理方法の提供を目的とする。
【課題を解決するための手段】
【0010】
本発明は、画像セグメンテーション、適応的スケール選択、自動領域選択のような演算を実行し、画像ファイルヘッダ情報だけを使用して基礎画像をスケーリングする方法及び装置を提供する。画像ファイルは、マルチスケール画像圧縮技術を使用する。処理のため使用されるマルチスケールビット割り付けはファイルヘッダから推定される。処理アルゴリズムは、基礎特徴の視覚的重要性に対する定量的指標として、画像符号器によって割り付けられた(又は、別の実施例では、割り付けるべきであると推定された)ビット数を使用する。
【発明を実施するための最良の形態】
【0011】
本発明は、以下の詳細な記述と、種々の実施例についての添付図面とによって、完全に理解されるであろう。但し、本発明は特定の実施例に限定して理解されるべきではなく、実施例は説明と理解のためだけに用いられる。
【0012】
基礎デジタル画像を処理するためファイルヘッダ情報を使用する方法及び装置を説明する。ファイルヘッダ情報は、基礎デジタル画像に対応した圧縮データを含むビットストリームの一部分でもよい。ここで説明される処理は、ヘッダの情報を使用し、圧縮データの中で復号すべき部分を決定するためヘッダの情報を特定の方式で処理する。基本的に、ヘッダの情報は、更なる処理が現れる領域を識別することが可能である。
【0013】
一実施例において、圧縮データは、マルチスケール変換に基づく圧縮によって得られた画像表現フォーマットを含む。圧縮データは、ヘッダ及び画像記述ビットにより構成される。すなわち、マルチスケール変換に基づく圧縮は、画像記述ビットを生成する処理の一部として画像データに適用される。ヘッダ情報から、マルチスケール領域における画像符号器の画像符号器のエントロピー分布、又は、ビット割当が推定され、基礎画像特徴の視覚的重要性に対する定量的指標として使用される。例えば、JPEG 2000ファイル情報のヘッダから、符号ブロックの長さ、零ビットプレーンの数、符号化パスの数のようなファイル情報がエントロピー分布を判定するため使用される。このようにして、マルチスケール変換に基づく表現におけるビット分布は、非限定的な例として、画像セグメンテーションと、画像に対する適応スケール/解像度選択と、自動スケーリング及び検出と、重要な画像領域の選択、スケーリング及びクロッピングと、を含む一つ以上の演算を実行するため使用される。
【0014】
一実施例において、ヘッダ中の情報は、圧縮画像データの中で後続の処理のため望ましいデータを収容する部分を示すエントロピー分布マップを作成するため使用される。このようなマップの一例が図1に与えられる。その他のマップも考えられ、望ましいビットレートを獲得するため(特に、レイヤ割当が歪みに関連する場合)、JPEG 2000の記述とともに後述されるレイヤ数を示すか、又は、多数のビットレート毎にエントロピー分布を示す。エントロピー分布を示す場合、マップ上の各四角形エリアにはベクトルが関連付けられる。このベクトルは、多数のレイヤの値を示す。
【0015】
画像記述ビットを圧縮するためマルチスケール変換を利用する画像表現フォーマットは、典型的に、多数の構造的細部をヘッダに組み込むので、デジタル画像に関する記述は、画素の観点では、正確かつ都合よく復号化される。JPEG2000は、ファイルヘッダにマルチスケールビット分布を与える画像圧縮標準の一例である。屡々、画像記述ビットは細分ユニットに分割され、符号器(エンコーダ)がこれらの細分ユニットへ割り付けるビット数は、部分的な画像アクセス、ネットワーク化された環境への適応などのような機能を実現し易くするため、画像ヘッダに格納される。情報理論の慣例に従って、割り付けられたビット数は、各細分ユニットのエントロピーと呼ばれる。画像符号器によって使用されるエントロピー分布は、圧縮画像の視覚的重要性についての優れた定量的指標を与える。損失のない圧縮の場合、画像符号器は、動きが活発な(ディテールが多い)領域を記述するため多くのビットを使用し、ディテール情報が少ない領域を搬送するため使用するビット数は少ない。損失の多い圧縮の場合、画像符号器は、典型的に、割り付けられたビットの範囲内で実現可能な最良の画像の記述を搬送するために努力する。したがって、符号器は、画像内で視覚的に重要な特徴を記述する有効な少数のビットを費やすように巧みに設計される。
【0016】
マルチスケール画像符号器は、画像の画素を符号化するのではなく、画像情報を多数の周波数帯域に分離する変換がなされた変換画像の係数を符号化する。マルチスケール画像符号器(例えば、JPEG 2000符号器)は、基礎画像に対するエントロピーのマルチスケール分布を画像ヘッダに収容する。このような変換に基づく機能は空間域と周波数域の両方で同時に定位を行うので、変換係数は画像内の特定の位置における周波数内容に関する情報を含む。
【0017】
画像を画像のヘッダ情報だけに基づいて処理する能力は好ましい。なぜならば、ヘッダ情報は少ない回数の計算を使用して容易にアクセスできるだけではなく、利用可能な画像情報が凝縮された性質は後続の処理の効率を高めるからである。重要な点は、簡単にアクセスすることができるヘッダ情報が、係数を復号化することなく画像に関する情報を示すことである。したがって、処理時の決定は、係数を復号化する膨大な時間を費やすことなく行われる。
【0018】
ここで説明している技術は、例えば、表示に適応した画像表現、デジタル映像監視、画像データベース管理、画像分類、画像検索、並びに、ポターン解析、画像フィルタリング及び画像サイジングの前処理のような分野に適用されるが、これらの例に限定されるものではない。
【0019】
以下の記述では、多数の細部について説明される。しかし、本発明は、これらの特定の細部を用いることなく実施されることが当業者に明らかであろう。それ以外の場合に、周知の構造及び装置は、本発明を分かり難くすることを避けるため、詳細ではなく、ブロック図形式で示される。
【0020】
以下の詳細な説明の一部分は、コンピュータメモリ内でのデータビットに対する演算のアルゴリズム及び記号表現の観点で記述されている。これらのアルゴリズム的な記述及び表現は、データ処理技術の当業者が自分の業績の要旨を他の当業者へ最も効率的に伝えるために使用する手段である。ここで説明するアルゴリズムは、一般的なアルゴリズムがそうであるように、所望の結果を導く首尾一貫した手順の系列である。手順(ステップ)は、物理量の物理的操作を必要とする手順である。必然的ではないが通常は、これらの量は、記憶、転送、合成、比較、及び、その他の操作を行うことができる電気信号又は磁気信号の形式をとる。主として、一般的な用法であるとの理由から、これらの信号は、ビット、値、要素、シンボル、文字、項、数などによって指定することが時に好都合であることがわかる。
【0021】
しかし、これらの用語及び類義語は、適切な物理量と関連付けられ、物理量に与えられた便宜的なラベルに過ぎない。特に断らない限り、以下の説明から明らかであるように、「処理」、「コンピューティング」、「計算」、「決定」、或いは、「表示」のような用語を利用する記述は、コンピュータシステム若しくは類似した電子コンピューティング装置の動作及び処理を示すものであり、コンピュータシステムのレジスタ及びメモリ内で物理(電子)量として表現されたデータを操作し、同じように、コンピュータシステムのメモリ若しくはレジスタ、又は、他の情報記憶装置、情報伝送装置、若しくは、情報表示装置内で物理量として表現された他のデータへ変換する。
【0022】
本発明は、以下で説明する動作を実行する装置に関する。この装置は、特に、要求された用途に応じて構成されるか、或いは、選択的に作動され、若しくは、コンピュータに記憶されたコンピュータプログラムを用いて再構成される汎用コンピュータを含む。このようなコンピュータプログラムは、たとえば、フレキシブルディスク、光ディスク、CD−ROM、光磁気ディスクなどを含む任意のタイプのディスクや、読み出し専用メモリ(ROM)や、ランダム・アクセス・メモリ(RAM)や、EPROMや、EEPROMや、磁気若しくは光カードや、電子命令を記憶するため適した任意のタイプの媒体のような、コンピュータシステムバスに接続された、コンピュータ読み取り可能な記憶媒体に記憶されるが、これらの例示的な記憶媒体に制限されるものではない。
【0023】
ここで説明するアルゴリズム及びディスプレイは、本来的に特定のコンピュータ若しくはその他の装置に関連付けられたものではない。種々の汎用システムが、ここで教示された事項に応じたプログラムと共に使用される。或いは、要求された方法の手順を実行するため、より専用化された装置を構成した方が便利な場合もある。多様なこれらのシステムに対し要求される構成は、以下の記載から明らかになる。さらに、本発明は、特定のプログラミング言語に基づいて説明されていない。以下で説明するような本発明の教示事項を実現するために、多様なプログラミング言語を使用できることが認められるであろう。
【0024】
機械読み取り可能な媒体は、機械(たとえば、コンピュータ)によって読み取り可能な形式で情報を記憶若しくは伝送する任意のメカニズムを含む。たとえば、機械読み取り可能な媒体は、読み出し専用メモリ(ROM)と、ランダム・アクセス・メモリ(RAM)と、磁気ディスク記憶媒体と、光記憶媒体と、フラッシュメモリ装置と、電気的、光学的、音響的若しくはその他の形式の伝搬信号(たとえば、搬送波、赤外線信号、デジタル信号など)と、を含む。
【0025】
図1は、画像に対する一つのマルチスケールエントロピー分布を示す図である。最初、画像にJPEG 2000符号化が施される。下にあるパターンは、画像のウェーブレット係数である。太線は、JPEG 2000によるウェーブレットドメイン係数の符号ブロックへの分割を示し、細線は異なるウェーブレットサブバンドを分離する。JPEG 2000の場合、エンコーディング処理を実行する符号器は、ウェーブレットドメイン係数を符号ブロックと呼ばれる細分ユニットへ割り付け、分割する。各正方形に表された数字は、3レベルの分解を使用して1画素あたりに0.5ビットで動作するJPEG 2000符号器によって、夫々の符号ブロックへ割当てられたビット又はエントロピーである。これらの数字は、マルチスケールエントロピー分布を表現する。
【0026】
JPEG 2000ファイルヘッダだけを使用して入手できるエントロピー割当は、種々のスケールでの異なる特徴の視覚的重要性に関する優れた指標となり、異なるマルチスケール特性によって特徴付けられた様々なタイプの重要な画像特徴の間の識別に役立つ。例えば、画像内でフェザー領域を記述するため、マルチスケール画像符号器は、細かいスケール係数を符号化する多数のビットを使用し、粗いスケール係数に使用するビット数は、例えば、フェザー領域に対応した細かいスケール係数に使用するビット数よりも少ない。これに対して、フェース領域を符号化するため、マルチスケール画像符号器は、中間スケール係数を符号化するためより多くのビットを費やす。滑らかな背景に使用されるビット数は少ない。かくして、マルチスケールエントロピー分布は、下にある画像特徴に関する重要な情報を提供する。マルチスケールエントロピー分布の知識がヘッダから取得できる場合を考えると、一つ以上の演算が実行される。これらの演算は、例えば、画像セグメンテーション、自動アクティブ領域識別及びスケーリング、及び/又は、適応画像スケーリングを含む。
【0027】
JPEG 2000は、コヒーレントな符号ストリーム内のデジタル画像とファイルフォーマットを表す規格である(例えば、ウェブサイトwww.iso.chのITU−T勧告T.800|ISO/IEC 15444−1:2000、"JPEG 2000 image coding standard"を参照せよ。)。JPEG 2000は、以下の手順を使用して、画像のウェーブレット係数を効率的に符号化することにより、デジタル画像を効率的に表現する。典型的な画像は、一つ以上の成分(例えば、赤、緑、青)により構成される。成分は、サンプルの矩形状配列である。これらの配列は、更に矩形状タイルに分割してもよい。タイル単位に基づいて、成分は、随意的に、色空間変換と逆相関される。各タイル成分は別々に圧縮される。タイル内の各カラー成分のウェーブレット係数が獲得される。ウェーブレット係数はウェーブレットドメインの局部的グループに分離される。この局部グループは符号ブロックと呼ばれる。符号ブロックは周囲を使用して順序付けされる場合もある。これらの多様なウェーブレット係数グループを独立に符号化するため算術符号化が使用される。符号化された係数(符号化係数)は、随意的にレイヤに構造化され、進行を促進させる。一つのタイルの一つの成分の一つの周囲のある解像度の一つのレイヤからの符号化データは、パケットと呼ばれるユニットに保持される。符号化データの他に、各パケットはパケットヘッダを有する。符号化後、タイル成分は、随意的に、タイル部に分割され、さもなければ、タイル成分は単一のタイル部により構成される。タイル部は、構文に対応した符号ストリームにおける最小ユニットである。JPEG 2000符号ストリームは、構文(主ヘッダ及びタイル部ヘッダと、EOC)と、一つ以上のビットストリームとにより構成される。ビットストリームは、パケット(符号ブロックに対する符号化データと、印ストリームパケットヘッダを含む任意のインストリームマーカー)により構成される。符号化データを解析するための構造的情報であるパケットヘッダは、メインヘッダ、タイルヘッダ、若しくは、インストリームに保持される。
【0028】
JPEG 2000は、マーカーセグメントを含む主ヘッダ及びタイルヘッダを規定する。また、JPEG 2000は、マーカーセグメントに収容されるか、若しくは、ビットストリーム中のインストリームであるパケットヘッダを規定する。ヘッダは、読み出され、マルチスケールエントロピー分布を獲得する処理への入力として使用される。以下の表1は、種々のJPEG 2000ヘッダに収容された情報の中でヘッダ情報に基づく処理に関連したヘッダを要約したものである。
【0029】
【表1】

パケットヘッダ(PPM、PPT、in−stream)の場合、パケットヘッダは、主ヘッダ、タイルヘッダ、若しくは、インストリームにあるが、同時にこれらのうちの二つ以上の組合せになることはない。これに対して、パケット長及びタイル長さ部は、主ヘッダ若しくはタイルヘッダ、又は、同時に両方に存在する。
【0030】
〔高ビットレート画像からの低ビットレート画像の推定〕
低い方のビットレートでのマルチスケールエントロピー分布は、視覚的重要性の頑強な指標を与える。高い方のビットレートでは、センサ若しくは撮影装置からのデジタル画像に現れる画像ノイズが存在すると、全体的なエントロピー分布が悪化する。アプリケーションに基づいて、画像は、損失のある符号化又は損失の無い符号化が施される。JPEG 2000標準における階層(レイヤ状)体系は、損失の無い、若しくは、高ビットレートの符号化画像の符号ストリームを、視覚的な重要性又は平均自乗誤差(MSE)に基づく重要性のレイヤに並べるため使用される。この場合、低ビットレート型の画像は、一部のレイヤのパケットだけから情報を抽出し、他のレイヤのパケットを無視することにより獲得される。このような階層化が符号器によって利用されない場合、ヘッダからのパケット長さ情報は、符号器によって選択されたビットレート、例えば、損失の無いビットレート、高ビットレート、若しくは、低ビットレートだけでマルチスケールエントロピー分布を生成することが可能である。
【0031】
符号器が損失無し、若しくは、高ビットレートを選択した場合、低ビットレート型の画像の推定は、後述のいずれかの画像処理アルゴリズムを適用する前に行われる。このような推定を実施する一実施例について次に説明する。ビットが割当てられる順序を決定するため、符号ブロック中の係数の絶対値の最大値及び符号化パスの個数に関するヘッダからの情報と、種々の解像度レベルでのサブバンドの視覚的重要性若しくは最小自乗誤差に基づく重要性の発見的情報及び統計的情報が使用される。
【0032】
この推定は、画像に対する所定のビットレートが達成されるまで、1符号ブロックあたりのビット総数からビットを連続的に減じる。控除する順序は、ビット割当アルゴリズムと逆の順序である。割当アルゴリズムは、符号器が使用するアルゴリズムと同じでもよいが、同じで無ければならないわけではない。
【0033】
JPEG 2000ファイルのパケットヘッダから、符号ブロックの長さ、すなわち、ビット”B”の個数と、零ビットプレーン”NZ”の個数と、符号化中に使用される符号化パス”CP”の個数とが得られる。符号ブロック内の係数の絶対値の最大値の推定値2maxBは、次式(1)に従って、最大非零ビットプレーンを計算することによって、零ビットプレーンの個数から取得される。
MaxB=MSB(codeblock subband) − NZ (1)
式中、MSBは、符号ブロックが属する特定のサブバンドのビットプレーンの最大数である。MSBは、JPEG 2000の適切なQCCヘッダエントリー若しくはQCDヘッダエントリーの情報によって定義される。画像の視覚的若しくはMSEに基づく重み付け又は統計的特性に基づいて、所与のサブバンド内のビットプレーンの重要性を反映したサブバンド及びビットプレーンの順序が取得される。例えば、MSEに基づく重要性に基づいて、5レベル分割のサブバンド内のビットプレーンの重要性の順序付けは、表2に示された順序によって与えられる。
【0034】
【表2】

推定アルゴリズムは、その順序を使用し、順序数iのコードブロック毎に、サブバンドs(i)内の特定のビットプレーンb(i)と、対応したレベルl(i)とを含む符号化パスの数CP(b(i))、すなわち、
CP(b(i))=CP-((MaxB(s(i),l(i))-b(i))*3+1) (2)
を計算する。この数が正である場合、特定のビット数が符号ブロックビットから控除される。一実施例において、この特定のビット数は、特定のサブバンド、又は、特定の解像度における符号化パスあたりの平均ビット数として計算される。次の手順の順序数(i+1)において、導出されたビット数は、同様の方式で、レベルl(i+1)でのサブバンド(i+1)のビットプレーンb(i+1)から控除される。
【0035】
擬似コードでは、0.5ビット/画素を目標レートとする例示的な推定アルゴリズムは、
Max_I = largest_order_number
target_rate = 0.5
new_B = B;
new_CP = CP
i=1
while ((i=<max_i) && (new_rate>target_rate)){
for each codeblock m in subband s(i)
elim_CP[m](b(i))=new_CP[m]-((MaxB(s(i),l(i))-b(i))*3+1);
if(elim_CP[m](b(i)) > 0)
av_bits=new_B[m](s(i))/new_CP[m](s(i));
new_B[m]−=av_bits*elim_CP[m](b(i));
if(new_B[m]<0)new_B[m]=0;
new_CP[m]−=elim_CP[m](b(i));
end
end
new_rate=sum(new_B*8)/ImaeSize;
i++;
end
のように表現される。new_B及びnew_CPは、符号ブロックの個数をサイズとする配列である。
【0036】
目標レートに到達した場合、新しい推定ビット値new_Bがエントロピー処理アルゴリズムで使用される。
【0037】
高ビットレート画像から低ビットレート画像を推定する代替案は多数存在する。代替的な一実施例では、低ビットレート画像を推定する別のアプローチが使用される。このアプローチは、画像のウェーブレット係数の分布に関するモデルを使用する。
【0038】
ウェーブレット係数の分布は、ガウシアン分布又はラプラシアン分布によって記述することができる。多数の自然画像の分布は近似的に指数分布に従うことが検証されているので、ラプラシアン分布は、屡々、文献でモデリングのため使用されている。ラプラシアン分布は、次の式、
【0039】
【数1】

で表される密度を有する。
【0040】
エントロピーの理論的な定義は、
H=−Σplog(p) (4)
であり、式中、pは、イベントAの確率であり、すなわち、
=P(A
である。損失のある圧縮画像の場合、イベントとは、係数が特定の量子化ビンに分類される状況である。量子化器Qによるスカラー量子化の場合、イベントAは、係数が、区間、
〔i*2,(i+1)*2
に収まるイベント、すなわち、
=P(A)=P(ウェーブレット係数d∈〔i*2,(i+1)*2))
・・・・・(5)
として記述される。ラプラシアン分布の場合、
【0041】
【数2】

が得られる。
【0042】
パラメータλが符号化ユニットのヘッダデータから推定できる場合、この符号化ユニットにおける係数のpdf(確率密度関数)を推定することができ、任意の量子化器Qに対するエントロピーが決定される。
【0043】
JPEG 2000ファイルのパケットヘッダは、符号ブロックにおける零ビットプレーンの数に関する情報を含む。この情報から、その符号ブロック内の係数の最大絶対値についての推定値が、式(1)の変数MaxBによって得られる。この変数を使用して、パラメータλは、
λ*=log(1符号ブロックあたりの係数の個数)/(2MaxB) (7)
のように推定される。
【0044】
この推定値を式(6)及び(4)に挿入することにより、特定の量子化を受けたエントロピーの推定値が獲得される。値Hは、画素あたりのビットを与える。符号ブロック長さはバイト単位で測定されるので、推定値Hは、8*(1符号ブロックあたりの係数の個数)倍する必要がある。最終アルゴリズムは、異なる解像度レベルで異なるサブバンドのビット数を連続的に削減するため、上述の方法と同じ順序を使用する。ビットの削減は、量子化器を表2からのビットプレーンパラメータb(i)に設定することによって得られる。
【0045】
〔画像解析処理アルゴリズム〕
ヘッダから入手可能であるマルチスケールエントロピー分布を利用することにより、画像解析又はコンピュータビジョン、及び、例えば、セグメンテーション、自動スケーリング、解像度選択、下にある画像についての自動領域選択及びクロッピングのような類似した演算を実行するため使用されるが、これらの例には限定されない。一般的な従来技術は、文献:ダブリュー・プラット(W. Pratt)著、「デジタル画像処理(Digital ImageProcessing)」、第2版、ジョンワイリー社(John Wiley & Sons, Inc.)発行、米国ニューヨーク州ニューヨーク市、1995年と、文献:エー・ジェイン(A. Jain)著、「デジタル画像処理の基礎(Fundamentals of Digital Image Processing)」、プレンティス・ホール(PrenticeHall)、米国ニュージャージー州エングルウッド、1995年に記載されている。一実施例では、厳密なサンプルに関するマルチスケールエントロピー分布の代わりに、(例えば、JPEG 2000における符号ブロックのような)マルチスケール係数の局所ブロックに広がるエントロピー分布、すなわち、粒状エントロピー分布が利用可能である。一実施例において、粒状エントロピー分布は、基礎画像を処理するため使用される。
【0046】
以下で説明するように、JPEG 2000ヘッダで利用可能な画像からのマルチスケール情報の用法は、幾つかの画像解析アルゴリズム(又はコンピュータビジョン)のフレームワークで実証される。一実施例において、使用されるヘッダパラメータは、PPM、PPT、SIZ、COD、COC、QCC及びQCDである。これらのパラメータから、ウェーブレットドメインでの符号ブロックの位置、及び、対応した係数を符号化するため符号器によって使用されるビット数を導出することができる。これらのビット数は、画像のマルチスケール表現のビット分布を導出するため使用され得る。符号ブロックのスケール及び空間位置、並びに、ヘッダから推測されるマルチスケールビット分布は、マルチスケールセグメンテーション、自動スケーリング、自動スケーリング及びクロッピング、並びに、マルチスケールコラージュの生成のような種々の画像処理アプリケーションにつながる。
【0047】
〔セグメンテーション〕
クラシフィケーション技術は、クラスラベルを画像の各小エリアに割当てる。このようなエリアは、個々の画素でもよく、或いは、例えば、正方形ブロックに含まれる画素のような画素のグループでもよい。多様な画像解析技術は、異なる方法でクラス割当を使用し、例えば、セグメンテーション技術は、画像を一様な特性、例えば、同じクラスラベルをもつ領域に分離する。
【0048】
マルチスケールエントロピー分布を使用することにより、スケールはクラスラベルとして各画像領域へ割当てられるので、より細かいスケールからの係数が無視されるとしても、基礎領域に関する視覚的関連情報は割当てられたスケールで維持される。このようなラベリングは基礎画像特徴の周波数帯域を識別する。セグメンテーションは、最適化問題をもたらし、この最適化問題を解決するため統計的アプローチが求められる。
【0049】
ウェーブレットドメインにおける符号ブロックの位置は、2次元(2D)空間位置(i,k)とスケールjとによって与えられる。例えば、サイズが512×512で、32×32のサイズの符号ブロックを有する画像を処理する場合、レベル1の各帯域には、サイズが32×32の符号ブロックが8×8個存在し、レベル2では1帯域あたりに4×4個の符号ブロックが存在し、レベル3では1帯域あたり2×2個の符号ブロックが存在する。レベルjの3種類の帯域LH、HL及びHHに対するレベルjの符号ブロック位置(i,k)毎のビット数B(i,k)は、ウェーブレットドメイン位置(i,k)での全係数を符号化するため必要なビット数を得るため加算される。実際上、種々のエントロピーの線形結合又は非線形結合は、垂直特徴と水平特徴の区別を促進するため使用され得る。スケールj∈{1...J}は各ブロックに割当てられるので、コスト関数Λは、次式:
【0050】
【数3】

のように最大化される。式中、Soptは画像全体に対する最適セグメンテーションマップであり、Sは、{1...J}のうちのスケールが一つずつ割当てられたサイズM×Nのブロックの考えられるラベリングJMNのうちの一つであり、Λ(S,B)は、セグメンテーションSとエントロピー分布Bが与えられた場合のコストを生じる。
【0051】
一実施例において、統計学における従来技術の最大事後確率(MAP)アプローチは、セグメンテーション問題を解決するため使用される。なぜならば、このようなアプローチは最終的なアプリケーションに合うように調整できるからである。コスト関数Λを設定するためMAPによって使用される基本構成要素は、セグメンテーションマップSと、セグメンテーションマップSの確率である事前確率P(S)とが与えられた場合に、画像のエントロピー分布Bの確率を表す尤度(尤もらしさ)P(B|S)である。MAPコスト関数は、
Λ(B,S)=P(B,S)=P(B|S)P(S) (ベイズの法則) (9)
によって与えられる。MAPセグメンテーション解法は、式(9)を用いて式(8)を最適化することに相当する。
【0052】
レベル1の符号ブロックに含まれる係数は、画素ドメインにおいて約2倍のサイズのブロックに関する情報を収容する。画素ドメインが特定サイズのブロックに分割された場合、画素ドメインにはウェーブレット分解のレベル1の符号ブロックよりも4倍多いブロックが存在し、ウェーブレット分解のレベル2符号ブロックよりも16倍多いブロックが存在し、以下同様に続く。したがって、サイズn×nの符号ブロックB(i,k)のビットは、位置(i2n,k2n)におけるサイズ2n×2nの画素ドメインにおけるブロックの情報に寄与する。逆に、位置(x,y)におけるサイズn×nの画素ブロックは、
【0053】
【数4】

における符号ブロックB(i,k)から、1/4として推定された、ビットの一部分を受け取る。一実施例において、画素ドメインに関連したレベルjのビット数は、
【0054】
【数5】

のように定義される。この計算は、エントロピー値の断片に関する補間と等価的である。例えば、多角形補間若しくはその他の非線形補間のような別の補間アルゴリズムを、レベルjのビットを計算するため使用してもよい。
【0055】
位置(x,y)におけるサイズ2n×2nの画素ブロックの解像度jのエントロピーの累積加重は、次式、
【0056】
【数6】

によって与えられる。但し、式(10)における
【0057】
【数7】

の位置i及びkに対して、
【0058】
【数8】

であり、重みはγである。一例として、重みの組は、
l<jの場合に、γ=0
l≧jの場合に、γ=w (12)
であり、w=1、w=3.5、w=5.5、w=13、w=20である。パラメータwと重みγは、アプリケーションに応じて変更され得る。値
【0059】
【数9】

の組は、解像度jにおける画像の累積加重エントロピーと呼ばれる。
【0060】
位置(x,y)における画素ドメインブロックのエントロピー
【0061】
【数10】

に対する尤度は、画素ドメイン位置(x,y)と関連した全てのレベルの総加重ビットに対する
【0062】
【数11】

の値になるように設定される。すなわち、
【0063】
【数12】

である。画素ドメインブロックは独立であることを仮定すると、総尤度は、
【0064】
【数13】

によって与えられる。
【0065】
【数14】

は、原画像に対するマルチスケールエントロピー分布を表す。
【0066】
次に、事前確率P(s)を決定する必要がある。以下の議論は、典型的なセグメンテーションマップに関する既存知識を反映している。事前確率を選択するため多数の方法が考えられる。例えば、事前確率を選択する別の方法は、文献:R. Neelamani, J.K. Romberg, H. Choi, R.Riedi, and R.G. Baraniuk, "Multiscale image segmentation using joint texture and shape analysis", in Proceedings of Wavelet Applications in Signal and Image Processing VIII, part of SPIE's interntional Symposium on Optical Science and Technology, San Diego, CA, July 2000文献:H. Cheng and C.A. Bouman, "Trainable context model for multiscalesegmentation," in Proc. IEEE Int. Conf. on Image Proc. ?ICIP'98, Chicago, IL, Oct.4-7, 1998文献:H. Choi and R. Barauik, "Multiscale texture segmentation using wavelet-domain hidden Markov models," in Proc. 32nd Asilomar Conf. on Signals, Systems and Computers, Pacific Grove, CA, Nov. 1-4, 1998に記載されている。
【0067】
セグメンテーションマップは連続領域をもつと考えられるので、各位置(x,y)に関する事前確率は、その直近の、(境界での反射を使用して)9ブロックにより構成された近傍N(x,y)に基づいて設定される。個別の事前確率は、
【0068】
【数15】

である。式中、#(N(x,y)=S(x,y))はS(x,y)と同じ近傍の個数を表し、αは連続領域を優遇するため増加されるパラメータであり、α=0は、セグメンテーションマップのブロックが相互に独立であることを意味する。一実施例において、全体的な事前確率は、
【0069】
【数16】

のように選択される。
【0070】
一実施例において、αは、0.02乃至0.08に一致する。希望セグメンテーションマップは、コスト関数Λ(S,B)を最適化することによって獲得できる。多数の従来技術による反復技術が局所極大を探索するため使用される。ある反復技術は、最初に、式(12)にα=0を代入してコスト関数を最適化する初期セグメンテーションマップを計算する。ベクトル最適化問題はスカラー最適化問題に分離されるので、最終的なコスト関数を最適化するセグメンテーションマップが獲得される。セグメンテーションマップは、
【0071】
【数17】

によって与えられる。全ての(x,y)に対して、(x,y)でのセグメンテーションマップは、式、
【0072】
【数18】

を使用して更新される。ここで、N(x,y)はSm−1から取得される。反復毎に、mは、m=m+1にインクリメントされる。反復ループは、S=Sm−1になるまで繰り返される。反復アルゴリズムは常に収束する。その理由は、コスト関数Λ(B,S)が、反復mに関して非減少関数であり、コスト関数は有界であることにある。収束後に得られるSはセグメンテーション推定値である。
【0073】
領域のラベリングに関する実際のセグメンテーション出力は、上述の式(3)に表されるように、MAPコスト関数
Λ(B,S)=P(B|S)・P(S) (20)
を最大化することによって得られる。
【0074】
図2は、画像を区分(セグメント化)する処理の一実施例のフローチャートである。図2を参照するに、処理ステップ201において、画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを含むファイルが受け取られる。一実施例において、ファイルはJPEG 2000フォーマットの画像を表現する。処理ステップ202において、ブロック毎に、スケールの組の中のスケールがコスト関数を最大化するブロックに割当てられる。コスト関数は、総尤度と事前確率の積である。総尤度は、ブロックの尤度の積である。一実施例において、ブロックの各尤度は、スケールの組の各スケールに対して、スケールの重みと、そのスケールでブロックを符号化するために費やされたビット数との積和に比例する。一実施例において、そのスケールでブロックを符号化するため費やされたビット数は、分子:そのスケールでのブロックのマルチスケール係数のエントロピー分布を、分母:スケールの4乗で割算して得られた数である。処理ステップ203において、画像は、等しいスケールが割当てられたブロックを一つにグループ化することによって区分される。
【0075】
図3は、女性の画像例の上に重ね合わされたセグメンテーションマップの説明図である。一実施例において、上述のセグメンテーション処理は、画像の基礎特徴を反映させるため、精細なスケールを使用して画像301の顔領域にラベルを付け、粗いスケールを用いて背景領域にラベルを付ける。種々のシェードは、様々なタイプの特徴を備えた領域が個別に識別されたことを表す。一実施例において、セグメンテーション処理は、基礎特徴に基づいて様々な領域にスケールを割当てる。右側の色バー302は、様々な領域に割当てられたスケールをあらわす。多数のエッジを含む顔のような領域は、精細なスケール301を用いてラベル付けされる。これに対して、背景領域は粗いスケール304が割当てられる。
【0076】
図4は、日本語テキストの画像例の上に重ね合わされたセグメンテーションマップの説明図である。セグメンテーションマップ402は一様であるため、重ね合わせは、原画像401の見え方を変えない。一実施例において、雪面テーション処理は、基礎特徴に基づいて様々な領域にスケールを割当てようとする。右側の色バー403は、様々な領域に割当てられたスケールを表す。画像401は一様な特徴を備えているので、アルゴリズムは、画像401の全ての領域にスケール3を一様に割当てた。一実施例において、本例における画像符号器は、JPEG 2000 パートIの可逆ウェーブレットフィルタと、5レベルの分解と、符号ブロックのサイズ32×32と、階調画像上で1画素あたり0.2ビットのビットレートと、を使用した。
【0077】
この結果は、カラー画像にも拡張できる。セグメンテーションのため、異なるカラー成分の間でマルチスケールエントロピー割当を線形結合、又は、非線形結合を使用する。セグメンテーションは、輝度若しくは緑色のような一成分だけに基づいて実行される。セグメンテーションアルゴリズムは、成分毎に別々に実行することが可能であり、投票を使用して合成され、又は、MAP方法によって合成される。
【0078】
一実施例では、最終結果の解像度は、マルチスケールエントロピー分布の粒度(粗さ)によって制限される。典型的に、基礎画像に関する最終結果の解像度は、符号ブロックサイズの倍数に制限される。一実施例において、プリーシンクトが利用される場合、プリーシンクト境界が符号ブロックを分離させるならば、解像度がよくなる。
【0079】
〔自動解像度選択〕
屡々、望ましくは、精細なスケール係数が完全に棄てられた場合でも、維持される係数が画像を識別するために十分な情報を含むように、最良スケールが分かっている。これは、例えば、デジタルカメラと共に使用される。エントロピーは視覚的情報の良好な指標であるため、エントロピーは、画像がスケールjで表現されたときに失われた視覚的情報の量に対する指標として使用される。さらに、マルチスケール表現は、画像スケーリング中に視覚的情報が失われた画像内の近似エリアを識別するため役立つ。最良スケールは以下の如く推定される。各スケールjに対して、画像の夫々の部分を再構成するためにマルチスケール係数Sの所与のグループの重要性が解析される。係数の相対的な重要性は、エントロピーを、直前の粗いレベルj+1からの平均エントロピーのスケール倍、又は、より粗い全てのレベルj+1,...,Jの組合せからの平均エントロピーのスケール倍と比較することによって推定される。Si,jは、B<βμj+1である場合に重要であり、B≧βμi+1である場合に重要ではない。ここで、μj+1は、粗いスケールj+1における1ブロックあたりのビット数の平均であり、βは重要性を決定する閾値パラメータである。一実施例において、βは0.3である。
【0080】
各スケールjに対し、レベルjで有意な係数が対象とする画像エリアのパーセンテージP(j)を測定する。P(j)は、レベルjで有意な係数が棄てられた場合に、情報の有意な量を失うエリアを測定する(画像が2の倍率でスケール縮小された場合、レベル1...jの全ての係数はスケール縮小された画像内で失われる。)。起こり得る最も粗いスケールJoptは、少なくとも領域のPパーセントが有意であり続けるように、すなわち、
P(Jopt)>P (21)
であるように選択される。ここで、Pは、認識できる必要のあるエリアの最低限のパーセンテージを設定する閾値パラメータである。一実施例において、Pは35%と一致する。画像に関する十分な情報を維持する最良スケールはJoptである。したがって、画像が至るところで、
【0081】
【数19】

の倍率でスケール縮小された場合でも、画像は、画像の認識を実現し易くするため、残りの係数に十分な情報を含むであろう。あらゆる粗いスケール係数に基づいて、或いは、粗いスケール係数の一部だけに基づいて、重要性の閾値を設定することが可能である。
【0082】
図5は、画像を適応的にスケーリングする処理の一実施例のフローチャートである。処理ステップ501において、画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを含むファイルが受け取られる。一実施例において、ファイルはJPEG 2000フォーマットで画像を表現する。処理ステップ502において、ブロック毎に、ブロックがスケールで重要性を維持するかどうかが判定される。重要性を維持する旨を判定するのは、そのスケールにおけるブロックのマルチスケール係数のエントロピーが少なくとも一つの粗いスケールにおけるブロックのマルチスケール係数の平均エントロピーよりも大きいと判定されたときである。一実施例において、平均エントロピーは、閾値パラメータが乗算された平均ビット分布である。処理ステップ503において、画像は、ブロックの閾値パーセンテージが重要性を維持する最も粗いスケールへスケーリングされる。
【0083】
図6は、女性の画像例の適応スケーリングの説明図である。原画像601のサイズは、512×512画素である。スケール処理後画像602のサイズは64×64画素である。四角い枠603、604及び605は、スケール処理後画像サイズに対する種々の選択肢を表す。一実施例において、スケーリングは、35%の認識可能なエリアと、重要性閾値係数0.3と、を使用して判定される。図7は、日本語テキストの画像例の適応的なスケーリングの説明図である。原画像701のサイズは、512×512画素である。スケール処理後画像702のサイズは128×128画素である。四角い枠703及び704は、スケール処理後画像サイズに対する種々の選択肢を表す。一実施例において、スケーリングは、35%の認識可能なエリアと、重要性閾値係数0.3と、を使用して判定される。上述のスケール選択アルゴリズムは、異なる画像に対しては異なるスケールを選択する。女性の画像601は、一実施例によれば、2の倍率でダウンサンプリングされ、日本語テキストの画像701は、一実施例によれば、2の倍率でダウンサンプリングされる。スケールの違いが生じる理由は、日本語テキスト画像701の方が女性の画像601よりも高周波数帯域に(より高いエントロピーとして反映した)重要な成分を含むからである。
【0084】
重要性閾値βが与えられた場合、符号ブロックを重要又は重要でないとしてラベル付けすることは、一つの解像度レベルにおける全ての符号ブロックのエントロピーを、例えば、異なる平均値μ及びμと、異なる標準偏差σ及びσをもつ二つのガウシアン分布のような二つの確率分布の混合としてモデル化することによって実行される。重要性閾値よりも低いエントロピー値から、パラメータμ及びσが推定される。これらの二つの確率密度関数f及びfが与えられた場合、fに属するエントロピー値xの確率が推定される。この方法は、例えば、文献:Duda, Hart, Stork, "Pattern Classification (2nd ed.)", Wiley, New York, NY, 2000に記載されているように標準的な手続である。各解像度での符号ブロックの確率分布は、上述のマルチスケールセグメンテーションアルゴリズムに取り入れられる。
【0085】
重要性閾値βが与えられた場合、最適スケールJoptは、
【0086】
【数20】

のように選択される。
【0087】
固定サイズウィンドウの自動クロッピング及びスケーリング
屡々、画像は、固定サイズの画素で表現される。このような制約下では、所与のサイズ制約を充たす画像の最良の表現を選択することが望ましい。エントロピーは視覚的情報の優れた指標であるため、サイズ制約を依然として充たしつつ最大エントロピーを包含する画像表現が実現される。
【0088】
式(6)から得られる累積加重エントロピー
【0089】
【数21】

は、局所インジケータ関数と畳み込まれた画像の最良スケール(又は解像度レベル)を決定するための最大化アルゴリズムへの入力として使用される。重みは、セグメンテーション部と同様に、
l<jの場合に、γj、l=0
l≧jの場合に、γj、l=1
として選択される。
【0090】
2次元インジケータ関数Iは、アプリケーションの形状制約及びサイズ制約によって定められたサポートを用いて構成される。例えば、希望形状制約が矩形であり、サイズ制約が画素次元m×nである場合、位置(x,y)にあるサイズm×nの矩形に対するインジケータ関数は、
【0091】
【数22】

によって与えられる。「最良」レベルjに置かれた矩形の「最良」位置(a,b)は、
【0092】
【数23】

として計算される。式中、κ(a,b)は、エントロピーの相対的な空間及びスケール重要性を制御するマトリックスである。κ(a,b)のサイズは、スケールと全く同じである。換言すると、中心に置かれた画像を取り扱い、かつ、自然な人の傾向、すなわち、殆どの画像符号器には取り入れられていない発見的手法を組み込むため、κ(a,b)は、典型的に、画像の中心部分が画像のエッジのエントロピーよりも重く加重されるように選択される。一例として、符号ブロックサイズが32×32の512×512形の画像を想定する。j=1,2,3,4の場合に、空間重要性加重マトリックスの組に対する一例は、
κ=κ=mask1*64/||mask1||
マスク1 mask1=[(1.0 1.1 1.2 1.3 1.3 1.21.1 1.0)×(1.0 1.1 1.2 1.3 1.3 1.2 1.1 1.0)
κ,κ==mask2*64/||mask2||
mask2=[11111111]×[11111111]
であり、||mask1||は、マスク用マトリックスのL−ノルムを表す。
【0093】
解像度jでの累積加重エントロピーとをマスク1と乗算することは、解像度jで画像の中心からエッジへ向かって1から0.77まで線形に減少するエントロピー値に重み付けすることを意味する。
【0094】
画像の最良表現は、解像度jで画像を理論的に計算し、この低解像度画像から、位置
【0095】
【数24】

の左下隅に置かれたサイズm×nの矩形をクロッピングすることにより得られる。この手続は、j低減解像度画像のクロッピングされた部分に寄与するJPEG 2000符号ストリームの符号ブロックだけを復号化し、実際にクロッピングされた画像を作成するためこれらのデータに逆変換を施すことにより実際に行われる。
【0096】
図8は、画像の自動スケーリング及びクロッピング処理の一実施例のフローチャートである。この処理は、ハードウェア(例えば、回路、専用ロジックなど)、ソフトウェア(汎用コンピュータシステム若しくは専用機械上で動くようなもの)、又は、ハードウェアとソフトウェアの組合せを含むロジックを処理することにより実行される。
【0097】
図8を参照するに、処理ステップ801で、画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを含むファイルと、表示幅及び表示高さのような形状制約とが受け取られる。一実施例において、このファイルは、JPEG 2000フォーマットで画像を表現する。
【0098】
処理ステップ802で、ブロック毎にスケールの組の中の各スケールに対して、そのスケールにおけるブロックの累積エントロピー分布は、最初のスケールと最大スケールの間に収まるスケールのブロックを符号化するため消費される加重和に一致するように設定される。
【0099】
処理ステップ803で、ブロック毎にスケールの組から選択された各スケールに対して、かつ、所与の画像幅及び高さの範囲内で選択された幅と高さの各オフセットに対して、選択されたスケールと、選択された幅及び高さオフセットとにけるブロックのインジケータ関数が1に設定されるのは、ブロックの幅位置が、選択された幅オフセットと、選択された幅オフセットに選択されたスケールで拡大縮小された表示幅を加えたものと、により構成される組の第1の最小値よりも大きくない、と判定され、かつ、ブロックの高さ位置が、選択された高さオフセットと、選択された高さオフセットに選択されたスケールで拡大縮小された表示高さを加えたものと、により構成される組の第2の最小値よりも大きくない、と判定されたときである。それ以外の場合、インジケータ関数は零に設定される。第1の最小値は、画像の幅と、ブロックの幅プラス1に第1のスケールで拡大縮小された希望高さを加えたものとにより構成される組の最小値である。第2の最小値は、画像の高さと、ブロックの高さプラス1に第2のスケールで拡大縮小された希望高さを加えたものとにより構成される組の最小値である。
【0100】
処理ステップ804で、ブロックに対する累積エントロピー分布にブロックのインジケータ関数(スケール、幅及び高さのオフセットにより特徴付けられる)及びパラメータを乗算したものの和を最大にするときの最適位置(幅及び高さのオフセット)及び最適スケールが計算される。処理ステップ805において、画像は最適位置へクロッピングされ、得られるクロッピングされた画像は最適スケールへダウンサンプリングされる。
【0101】
一実施例において、上記の処理は、画像の領域とそのスケーリング倍率を同時に選択する。図9は、女性の画像例の自動スケーリング及びクロッピングの説明図である。原画像901のサイズは512×512画素である。描画902の最大サイズは、192×192画素になるように制約される。最終表現902を192×192画素の範囲に収容するため、この処理は、女性の重要な顔領域を選択し、つぎに、重要な顔領域を倍率2でスケールダウンする。固定サイズ表現902は、重要でない背景領域を含まない。四角い枠903は、表現されていると考えられる原画像に関する領域を表示する。
【0102】
図10は、日本語テキストの画像例の自動スケーリング及びクロッピングの説明図である。原画像1001のサイズは512×512画素である。描画1002の最大サイズは、192×192画素になるように制約される。日本語テキスト画像1001に対するこのアルゴリズムによる最良の192×192表現1002は、全体画像1001を適切に縮小した画像である。四角い枠1003は、表現されていると考えられる原画像に関する領域を表示する。日本語テキスト画像1001の全体が表現1002を得るため縮小される。
【0103】
〔表示制約〕
表示空間は、屡々、装置に制約される。このような環境下では、装置に依存した、重要な、凝縮された画像の表現を獲得することが望ましい。ヘッダ情報に基づく処理を表示適合技術と組み合わせることにより、多種多様な重要かつ凝縮された画像表現が得られる。表示装置特性は、表現される画像のサイズに上限と下限を設定する。上述の自動スケーリング処理は、殆どの画像情報がスケールダウンされた画像に維持されることを保証するスケールを提案するので、スケールは、表示装置によって指定された限界の間で、提案されたスケールに最も近くなるように選択することができる。
【0104】
屡々、画像を表現するため利用できるサイズ(例えば、画素単位)は固定されている。このような場合、利用可能な画素の範囲内に収容できるように画像の最良表現を見つけることが望ましい。上述の自動領域選択及びスケーリング技術は、マルチスケールエントロピー分布を利用することにより、画像の最良の固定サイズ表現を与えることができる。この処理におけるパラメータは、表現を特定の表示装置に合わせるように選択される。
【0105】
〔アプリケーション〕
デジタルビデオシーケンスを圧縮する一つのアプローチは、多重解像度画像符号器を用いて各ビデオフレームを独立に圧縮することである。例えば、動画JPEG 2000標準規格は、各ビデオフレームに関して独立にマルチスケール変換に基づく圧縮を使用する。ここで提案するアルゴリズムはこれらのフレームを効率的に処理することができるので、上述の処理は、動画JPEG 2000にも同様に適用される。例えば、α及びγj,kのようなセグメンテーション処理パラメータを適切に設定することにより、人物のような「アクティブ」領域が一つのビデオフレームの背景から識別される。このことは、より多数のビットを次のフレームのアクティブ領域に割当てるため利用され得るので、必要に応じて人物をより良く識別できるようになる。フレーム間におけるエントロピー割当の重要な時間的変化は、ビデオ中の動きを検出するためにも利用できる。これは、監視カメラの特殊用途に適用される。
【0106】
画像クラシフィケーションの目的は、画像データベースの全体を自動的にソートし、自然画像、ポートレート、文書、一様なテクスチャーなどのような類似タイプの画像をグループ分けすることである。マルチスケールエントロピー分布を処理することにより獲得されるセグメンテーションマップは、広範囲のクラシフィケーションを実行するために特徴として利用される。クラシフィケーションは、後で、より集中的かつ専門化された処理を使用して微調整される。
【0107】
画像検索の目的は、ある種のテンプレート画像に類似した画像を識別することである。優れた画像検索アルゴリズムは、集中的であり、解析を行うため実際の画像を必要とするので、ヘッダ情報に基づくセグメンテーションマップは、復号化され、専門画像検索アルゴリズムへ供給されるべき画像の数を減少させるため利用できる。
【0108】
上述のセグメンテーションは、画像を、粗いスケール特徴を含む領域と、細かいスケール特徴を含む領域とに分離する近似セグメンテーションを行うため使用される。例えば、文書画像の場合、セグメンテーションアルゴリズムは、テキスト領域を画像から適切に区別する。近似セグメンテーションは、更なる解析のため光学式文字認識(OCR)のような、より集中的なパターン解析アルゴリズムへ入力される。
【0109】
上述のセグメンテーション技術は、画像の種々の領域が、その領域に含まれる特徴が粗い特徴か、又は、細かい特徴であるかに応じて、スケールを増減される、画像の抽象コラージュ表現を作成するため使用され得る。このような画像の抽象表現は、ウェブ・ブラウザのような多数のグラフィカル・ユーザ・インタフェース(GUI)画像通信アプリケーションで使用することが可能である。
【0110】
〔マルチスケールコラージュ〕
第1ステップとして、画像のマルチスケールコラージュを計算するため、上記のセグメンテーション部で説明したようなセグメンテーションが実行される。続いて、矩形が、以下の方法でセグメント化された画像に合わされる。
【0111】
式(6)によるMAPコスト関数
【0112】
【数25】

のようなマルチスケール確率分布、又は、
【0113】
【数26】

のような単調な変換の結果は、矩形を適合させる技術への入力として使用される。目標は、各レベルjで、より大きいレベルjでの確率に最も類似した確率を有する矩形を見つけることである。すなわち、矩形内部の内容は、
j≦m≦j
を充たすあらゆるmに関して最も重要である可能性の高い内容である。したがって、この矩形に対応した画像部分は、解像度jで巧く表現されていると考えられる。矩形が見つけられると、この矩形によって覆われたエントリーの場所が、「カウント済み」としてマークされ、対応した確率値は、より大きい値(例えば、10)を加算することによってペナルティーを科される。この手続がすべてのレベルに対して実行された後、矩形及びレベルは、レベルjにおける矩形に対する確率の差が最小になるように選択される。矩形の位置及びサイズと、関連したレベルは、リストに保存される。次の反復ステップにおいて、この手続は、ペナルティーを科された確率分布関数(pdf)ユニットに再度適用され、画像の全ての符号ブロック位置は「カウント済み」としてラベル付けされる。最終リスト内の情報は、画像の矩形状マルチスケール区画を表現する。
【0114】
図11Aは、画像をセグメント化し、画像を適応的にスケーリングし、或いは、画像を自動的にスケーリング及びクロッピングする装置の略構成図である。図11Aを参照するに、装置1101は、画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを含むファイルを受け取る受信ユニット1102を具備する。一実施例において、ファイルは、JPEG 2000フォーマットで画像を表現する。装置1101は、受信ユニット1102と接続された処理ユニット1103を更に具備する。一実施例において、処理ユニット1103は、ブロック毎に、スケールの組の中からコスト関数を最大化するスケールをブロックに割当てる。コスト関数は、総尤度と事前確率の積である。総尤度は、ブロックの尤度の積である。一実施例において、ブロックの各尤度は、スケールの組の各スケールに対して、スケールの重みと、そのスケールでブロックを符号化するために費やされるビット数との積の和に比例する。一実施例において、そのスケールでブロックを符号化するために費やされるビット数は、そのスケールでのブロックのマルチスケール係数のエントロピー分布を、スケールの4乗で割算したものである。
【0115】
一実施例において、処理ユニット1103は、画像をセグメント化するため等価的なスケールが割当てられたブロックを一まとめに集める。一実施例において、処理ユニット1103は、ブロック毎に、あるスケールでのブロックのマルチスケール係数のエントロピーが少なくとも一つのより粗いスケールにおけるブロックのマルチスケール係数の平均エントロピーよりも高いということが判定されたとき、ブロックがそのスケールで重要性を維持している、と判定する。一実施例において、平均エントロピーは、平均ビット分布に閾値パラメータを乗算したものである。
【0116】
一実施例において、処理ユニット1103は、上述の如くブロックの閾値パラメータPのような閾値パーセント(例えば、35%)が重要性を維持する最も粗いスケールに画像をスケーリングする。
【0117】
処理ユニット1103は、各ブロックに対して、スケールの組の中の第1のスケール毎に、その第1のスケールにおけるブロックの累積エントロピー分布を、その第1のスケールと最大スケールとの間に収まるスケールに対するブロックを符号化するために費やされるビット数の和と一致するように設定する。
【0118】
処理ユニット1103は、各ブロックに対して、スケールの組の中の第1のスケール毎に、ブロックの幅が第1の最小値よりも大きくなく、かつ、ブロックの高さが第2の最小値よりも大きくない、と判定された場合、ブロックのインジケータ関数及び第1のスケールに1を設定し、それ以外の場合、0を設定する。第1の最小値と第2の最小値は、図8に示されるように同じである。
【0119】
一実施例において、処理ユニット1103は、最適スケールの最適位置におけるブロック毎に、最適スケールのブロックに対する累積エントロピー分布に、ブロックのインジケータ関数と最適スケールとを乗算し、パラメータ(例えば、上述のκ)倍されたものの和を最大化するような最適位置及び最適スケールを更に計算する。
【0120】
次に、処理ユニット1103は、画像を最適位置にクロッピングし、得られたクロップ画像を最適スケールにダウンサンプリングする。
【0121】
図11Bは、画像処理システムで使用する符号ストリームプロセッサの一実施例のブロック図である。図11Bを参照するに、符号ストリーム1121は、ヘッダ抽出器1122によって受信され、ヘッダ抽出器1122はヘッダ情報を抽出する。セグメンテーションユニット1123は、ヘッダ抽出器1122から抽出されたヘッダ情報を使用して符号ストリームに関してセグメンテーションを実行する。一実施例において、セグメンテーションユニット1123は、符号ストリーム1121の中で復号化すべき符号ブロックを判定し、復号器1124へ通知する。復号器1124は、セグメント化された画像部分(例えば、指定解像度での領域)に必要な符号ブロックを復号化する。
【0122】
〔定量的な例〕
ヘッダ情報に基づく処理の意義を、1024×1024形の画像から良好な128×128形サムネイル表現を作成する例を用いて説明する。ここで説明する画像解析処理は、上述の自動クロッピング及びスケーリングのためのものである。JPEG 2000画像を本例の画像解析処理で処理した画像の複雑さと、従来の画像処理で処理した画像の複雑さと、ラスタ画像の複雑さの比較結果を表3に列挙する。JPEG 2000形式の画像に対する優位性は、データの1/1000だけがセグメンテーションアルゴリズムで使用され、データの1/2未満しか復号化されない点にある。
【0123】
【表3】

〔コンピュータシステムの例〕
図12は、上記の演算うちの一つ以上の演算を実行するコンピュータシステムのブロック図である。図12を参照するに、コンピュータシステム1200は、典型的なクライアント1250若しくはサーバー1200のコンピュータシステムを含む場合もある。コンピュータシステム1200は、情報を通信するための通信機構若しくはバス1211と、バス1211に接続され情報を処理するプロセッサ1212と、を含む。プロセッサ1212は、例えば、Pentium(登録商標)、PowerPC(登録商標)などのマイクロプロセッサを具備するが、これらのマイクロプロセッサに限定されるものではない。
【0124】
システム1200は、バス1211に接続され、情報と、プロセッサ1212によって実行される命令とを保持するランダム・アクセス・メモリ(RAM)、或いは、その他のダイナミック記憶装置1204(メインメモリと呼ばれる)を更に具備する。メインメモリ1204は、プロセッサ1212による命令の実行中に、一時的な値、或いは、その他の中間情報を保持するためにも使用される。
【0125】
コンピュータシステム1200は、バス1211に接続され、プロセッサ1212用のスタティック情報及び命令を保持するリード・オンリ・メモリ(ROM)及び/又はその他のスタティック記憶装置1206と、磁気ディスク若しくは光ディスクと対応したディスクドライブのようなデータ記憶装置1207と、を更に具備する。データ記憶装置1207は、バス1211に接続され、情報及び命令を保持する。
【0126】
コンピュータシステム1200は、バス1211に接続され情報をコンピュータユーザへ表示する、陰極線管(CRT)若しくは液晶ディスプレイ(LCD)のような表示装置1221にも接続される。英数字及びその他のキーを含む英数字入力装置1222は、バス1211に接続され、情報及びコマンド選択をプロセッサ1212へ通信する。補助ユーザ入力装置は、マウス、トラックボール、スタイラスペン、若しくは、カーソル方向キーのようなカーソル制御器1223であり、方向情報及びコマンド選択をプロセッサ1221へ通信し、表示装置1221上のカーソル移動を制御する。
【0127】
バス1211に接続された別の装置は、ハードコピー装置1224であり、命令、データ、若しくは、その他の情報を、用紙のような媒体、若しくは、同じようなタイプの媒体に印刷するため使用される。更に、スピーカー及び/又はマイクロホンのようなサウンド録音及び再生装置がバス1211へ随意的に接続され、コンピュータシステム1200とのオーディオインタフェースを実現する。バスに接続されるその他の装置には、電話機又はハンドヘルド・パーム型装置と通信するための有線/無縁通信機器1225が含まれる。
【0128】
尚、コンピュータシステム1200及び関連したハードウェアのコンポーネントの一部若しくは全部が本発明で使用できる。しかし、これらのコンポーネントの一部若しくは全部を含む他のコンピュータシステムの構成もあり得ることが認められる。
【0129】
以上の説明から、本発明の多数の代替及び変更が当業者に明らかになるであろう。しかし、例示のために解説され、図示された具体的な実施例は、本発明を制限することを意図していないことに注意する必要がある。したがって、多数の実施例の詳細の説明は、本発明に不可欠であると考えられる事項だけが記載された請求項に挙げられた事項の範囲を制限することを意図したものではない。
【0130】
なお、本開示にあたり以下の付記を記す。
【0131】
(付記1) 圧縮ビットストリームのヘッダから取得した情報を使用して粒状エントロピー分布を作成する手順と、
粒状エントロピー分布に基づいて一つ以上の画像処理演算を適用する手順と、を有する方法。
【0132】
(付記2) 一つ以上の画像処理演算を適用する部分として、圧縮ビットストリームの中で符号化データの一部分だけを復号化する手順を更に有する付記1記載の方法。
【0133】
(付記3) ヘッダに基づいてクラスラベルを割当てる手順を更に有する付記1記載の方法。
【0134】
(付記4) 圧縮ビットストリームのヘッダから取得した情報を使用して粒状エントロピー分布を作成する機能と、
粒状エントロピー分布に基づいて一つ以上の画像処理演算を適用する機能と、をコンピュータに実現させるためのプログラム。
【0135】
(付記5) 一つ以上の画像処理演算を適用する部分として、圧縮ビットストリームの中で符号化データの一部分だけを復号化する機能を更にコンピュータに実現させるための付記4記載のプログラム。
【0136】
(付記6) ヘッダに基づいてクラスラベルを割当てる機能を更にコンピュータに実現させるための付記4記載のプログラム。
【0137】
(付記7) 圧縮ビットストリームのヘッダから取得した情報を使用して粒状エントロピー分布を作成する手段と、
粒状エントロピー分布に基づいて一つ以上の画像処理演算を適用する手段と、
を有する装置。
【0138】
(付記8) 一つ以上の画像処理演算を適用する部分として、圧縮ビットストリームの中で符号化データの一部分だけを復号化する手段を更に有する付記7記載の装置。
【0139】
(付記9) ヘッダに基づいてクラスラベルを割当てる手段を更に有する付記7記載の装置。
【0140】
(付記10) 符号ストリームのヘッダ情報に基づいて符号ストリームの画像解析を実行する手順と、
画像解析の出力によって指定された一つ以上の画像部分の符号化データだけを復号化する手順と、
を有する方法。
【0141】
(付記11) 画像解析を実行する手順はセグメンテーションを実行する手順を含む、付記10記載の方法。
【0142】
(付記12) セグメンテーションを実行する手順は最大事後確率アプローチを使用する、付記11記載の方法。
【0143】
(付記13) 画像解析を実行する手順はクラシフィケーションを実行する手順を含む、付記10記載の方法。
【0144】
(付記14) 画像解析を実行する手順は粒状エントロピー分布を抽出する手順を含む、付記10記載の方法。
【0145】
(付記15) 符号ストリームのヘッダ情報に基づいて符号ストリームの画像解析を実行する手段と、
画像解析の出力によって指定された一つ以上の画像部分の符号化データだけを復号化する手段と、
を有する装置。
【0146】
(付記16) 画像解析を実行する手段はセグメンテーションを実行する手段を含む、付記15記載の装置。
【0147】
(付記17) セグメンテーションを実行する手段は最大事後確率アプローチを使用する、付記16記載の装置。
【0148】
(付記18) 画像解析を実行する手段はクラシフィケーションを実行する手段を含む、付記15記載の装置。
【0149】
(付記19) 画像解析を実行する手段は粒状エントロピー分布を抽出する手段を含む、付記15記載の装置。
【0150】
(付記20) 符号ストリームのヘッダ情報に基づいて符号ストリームの画像解析を実行する機能と、
画像解析の出力によって指定された一つ以上の画像部分の符号化データだけを復号化する機能と、
をコンピュータに実現させるためのプログラム。
【0151】
(付記21) セグメンテーションを実行する機能を更にコンピュータに実現させるための付記20記載のプログラム。
【0152】
(付記22) クラシフィケーションを実行する機能を更にコンピュータに実現させるための付記20記載のプログラム。
【0153】
(付記23) 最大事後確率アプローチを使用してセグメンテーションを実行する機能を更にコンピュータに実現させるための付記21記載のプログラム。
【0154】
(付記24) 粒状エントロピー分布を抽出する機能を更にコンピュータに実現させるための付記20記載のプログラム。
【0155】
(付記25) 符号化画像データを含む符号ストリームからヘッダ情報を抽出する手順と、
符号化画像データの復号化とは独立してヘッダ情報に基づいて符号ストリームのセグメンテーションを実行する手順と、
セグメント化された画像部分を表現するため必要な符号化画像データを復号化する手順と、
を有する方法。
【0156】
(付記26) 粒状エントロピー分布を抽出する手順を更に有する付記25記載の方法。
【0157】
(付記27) セグメンテーションを実行する手順は符号化画像データを復号化する手順よりも前に行われる、付記25記載の方法。
【0158】
(付記28) セグメント化された画像部分は特定解像度の画像の領域を含む、付記27記載の方法。
【0159】
(付記29) 符号化画像データを含む符号ストリームからヘッダ情報を抽出する手段と、
符号化画像データの復号化とは独立してヘッダ情報に基づいて符号ストリームのセグメンテーションを実行する手段と、
セグメント化された画像部分を表現するため必要な符号化画像データを復号化する手段と、
を有する装置。
【0160】
(付記30) 粒状エントロピー分布を抽出する手段を更に有する付記29記載の装置。
【0161】
(付記31) セグメンテーションを実行する手段は符号化画像データを復号化する前にセグメンテーションを実行する、付記29記載の装置。
【0162】
(付記32) セグメント化された画像部分は特定解像度の画像の領域を含む、付記31記載の装置。
【0163】
(付記33) 符号化画像データを含む符号ストリームからヘッダ情報を抽出する機能と、
符号化画像データの復号化とは独立してヘッダ情報に基づいて符号ストリームのセグメンテーションを実行する機能と、
セグメント化された画像部分を表現するため必要な符号化画像データを復号化する機能と、
をコンピュータに実現させるためのプログラム。
【0164】
(付記34) 粒状エントロピー分布を抽出する機能を更にコンピュータに実現させるための付記33記載のプログラム。
【0165】
(付記35) 符号化画像データを復号化する前にセグメンテーションを実行する機能を更に実現させるための付記33記載のプログラム。
【0166】
(付記36) 画像部分は特定解像度の画像の領域を含む、付記35記載のプログラム。
【0167】
(付記37) 画像データを表現するマルチスケール変換に基づく圧縮データのビットストリームに対応したヘッダ情報を取得する手順と、
ヘッダ情報からビットストリームの画像記述ビットに対応する特徴ベクトルを作成する手順と、
特徴ベクトルに基づいてビットストリームの少なくとも一部分に一つ以上の演算を実行する手順と、
を有する方法。
【0168】
(付記38) ヘッダ情報から獲得された零ビットプレーンの数の分布を圧縮データの一つ以上の部分に作成する手順を更に有する付記37記載の方法。
【0169】
(付記39) ヘッダ情報に基づいてエントロピー分布を作成する手順を更に有する付記37記載の方法。
【0170】
(付記40) エントロピー分布は粒状である、付記39記載の方法。
【0171】
(付記41) エントロピー分布は画像データに対するビット分布のマップを含む、付記39記載の方法。
【0172】
(付記42) エントロピー分布は符号ブロックに対する符号化データの長さである、付記39記載の方法。
【0173】
(付記43) ヘッダ情報はJPEG 2000ファイルの一部である、付記37記載の方法。
【0174】
(付記44) 一つ以上の演算のうちの一つの演算はクラシフィケーションである、付記37記載の方法。
【0175】
(付記45) 画像データを表現するマルチスケール変換に基づく圧縮データのビットストリームに対応したヘッダ情報を取得する手段と、
ヘッダ情報からビットストリームの画像記述ビットに対応する特徴ベクトルを作成する手段と、
特徴ベクトルに基づいてビットストリームの少なくとも一部分に一つ以上の演算を実行する手段と、
を有する装置。
【0176】
(付記46) ヘッダ情報から獲得された零ビットプレーンの数の分布を圧縮データの一つ以上の部分に作成する手段を更に有する付記45記載の装置。
【0177】
(付記47) ヘッダ情報に基づいてエントロピー分布を作成する手段を更に有する付記45記載の装置。
【0178】
(付記48) エントロピー分布は粒状である、付記47記載の装置。
【0179】
(付記49) エントロピー分布は画像データに対するビット分布のマップを含む、付記47記載の装置。
【0180】
(付記50) エントロピー分布は符号ブロックに対する符号化データの長さである、付記47記載の装置。
【0181】
(付記51) ヘッダ情報はJPEG 2000ファイルの一部である、付記45記載の装置。
【0182】
(付記52) 一つ以上の演算のうちの一つの演算はクラシフィケーションである、付記45記載の装置。
【0183】
(付記53) 画像データを表現するマルチスケール変換に基づく圧縮データのビットストリームに対応したヘッダ情報を取得する機能と、
ヘッダ情報からビットストリームの画像記述ビットに対応する特徴ベクトルを作成する機能と、
特徴ベクトルに基づいてビットストリームの少なくとも一部分に一つ以上の演算を実行する機能と、
をコンピュータに実現させるためのプログラム。
【0184】
(付記54) 画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを取得する手順と、
各ブロックに対し、スケールの組の中で、ブロックのヘッダを使用して計算された尤度の積を表す総尤度と事前確率との積であるコスト関数を最大化するスケールをブロックに割当てる手順と、
等価的なスケールが割当てられたブロックを一つに集めることにより画像をセグメント化する手順と、
を有する、画像をセグメント化する方法。
【0185】
(付記55) ファイルはJPEG 2000フォーマットで画像を表現する、付記54記載の方法。
【0186】
(付記56) ブロックの各尤度は、スケールの組の中の各スケールに対するスケールの重みと当該スケールでブロックを符号化するため費やされるビット数との積の総和に比例する、付記54記載の方法。
【0187】
(付記57) あるスケールでブロックを符号化するため費やされたビット数は、当該スケールにおけるブロックのマルチスケール係数のエントロピー分布を、当該スケールの4乗で割算することにより得られる、付記56記載の方法。
【0188】
(付記58) 画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを取得する手順と、
各ブロックに対し、あるスケールにおけるブロックのマルチスケール係数のエントロピーが少なくとも一つのより粗いスケールにおけるブロックのマルチスケール係数の平均エントロピーよりも大きいと判定されたときに、ブロックがそのスケールで重要性を維持することを判定する手順と、
画像を、ブロックの閾値パーセントが重要性を維持するスケールの中の最も粗いスケールにスケーリングする手順と、
を有する、画像を適応的にスケーリングする方法。
【0189】
(付記59) ファイルはJPEG 2000フォーマットで画像を表現する、付記58記載の方法。
【0190】
(付記60) 平均エントロピーは閾値パラメータが乗算された平均ビット分布である、付記58記載の方法。
【0191】
(付記61) スケールは、以下の式、
【0192】
【数27】

に基づいて選択される、付記59記載の方法。
【0193】
(付記62) 画像を自動的にスケーリングしクロッピングする方法であって、
画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを含むファイルを取得する手順と、
各ブロックとスケールの組の中の各スケールに対して、
あるスケールのブロックの累積エントロピー分布を、第1のスケールと最大スケールの範囲に含まれるスケールに対するブロックを符号化するために要するビット数の加重和に一致するように設定する手順と、
第1の最小値が、選択された幅オフセットと、選択された幅オフセットと第1のスケールでスケーリングされた表示幅の和と、からなる組のうちの最小値であり、第2の最小値が、選択された高さオフセットと、選択された高さオフセットと第1のスケールでスケーリングされた表示高さの和と、からなる組のうちの最小値であるとして、所定の画像の幅及び高さの範囲内で幅オフセット及び高さオフセットの各オフセットに関して、ブロックの幅位置が第1の最小値よりも大きくなく、かつ、ブロックの高さ位置が第2の最小値よりも大きくない、と判定された場合に、選択されたスケール並びに選択された幅オフセット及び高さオフセットでのブロックのインジケータ関数に1を設定する手順と、
ブロックのインジケータ関数とパラメータが乗算された最適スケールでのブロックに対する累積エントロピー分布の総和を最大化する位置及びスケールを計算する手順と、
画像を最適位置にクロッピングし、クロッピングされた画像を最適スケールにダウンサンプリングする手順と、を有する方法。
【0194】
(付記63) ブロックは、スケール、幅オフセット及び高さオフセットにより特徴付けられる、付記62記載の方法。
【0195】
(付記64) ファイルはJPEG 2000フォーマットで画像を表現する、付記62記載の方法。
【0196】
(付記65) マルチスケール確率分布に基づいて画像の矩形マルチスケール部分を生成する画像をセグメント化する手順と、
マルチスケール確率分布に基づいて画像の矩形マルチスケール部分を作成する手順と、を有する方法。
【0197】
(付記66) 画像の矩形マルチスケール部分を作成する手順は、矩形を、マルチスケール確率分布に基づいてセグメント化された画像に合わせる手順を含み、
矩形をセグメント化された画像に合わせる手順は、各スケールにおいて、矩形内の画像の内容が当該スケールと関連付けられた解像度で表現されるように、当該スケールより大きいスケールでの確率に類似した確率をもつスケール毎に矩形を見つける手順を含む、付記65記載の方法。
【0198】
(付記67) 矩形を記憶する手順と、
少なくとも一つの別の矩形に対してフィリング演算を繰り返す手順と、を更に有する付記65記載の方法。
【0199】
(付記68) より大きいスケールにおける矩形との確率の差が最低限に抑えられる矩形及びスケールを選択する手順を更に有する付記65記載の方法。
【0200】
(付記69) マルチスケール確率分布に基づいて画像の矩形マルチスケール部分を生成する画像をセグメント化する手段と、
マルチスケール確率分布に基づいて画像の矩形マルチスケール部分を作成する手段と、を有する装置。
【0201】
(付記70) 画像の矩形マルチスケール部分を作成する手段は、矩形を、マルチスケール確率分布に基づいてセグメント化された画像に合わせる手段を含み、
矩形をセグメント化された画像に合わせる手段は、各スケールにおいて、矩形内の画像の内容が当該スケールと関連付けられた解像度で表現されるように、当該スケールより大きいスケールでの確率に類似した確率をもつスケール毎に矩形を見つける手段を含む、
付記69記載の装置。
【0202】
(付記71) 矩形を記憶する手段と、
少なくとも一つの別の矩形に対してフィリング演算を繰り返す手段と、を更に有する付記69記載の装置。
【0203】
(付記72) より大きいスケールにおける矩形との確率の差が最低限に抑えられる矩形及びスケールを選択する手段を更に有する付記69記載の装置。
【0204】
(付記73) マルチスケール確率分布に基づいて画像の矩形マルチスケール部分を生成する画像をセグメント化する機能と、
マルチスケール確率分布に基づいて画像の矩形マルチスケール部分を作成する機能と、
をコンピュータに実現させるためのプログラム。
【0205】
(付記74) 画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを取得する機能と、
各ブロックに対し、スケールの組の中で、ブロックのヘッダを使用して計算された尤度の積を表す総尤度と事前確率との積であるコスト関数を最大化するスケールをブロックに割当てる機能と、
等価的なスケールが割当てられたブロックを一つに集めることにより画像をセグメント化する機能と、
をコンピュータに実現させるためのプログラム。
【0206】
(付記75) ファイルはJPEG 2000フォーマットで画像を表現する、付記74記載のプログラム。
【0207】
(付記76) ブロックの各尤度は、スケールの組の中の各スケールに対するスケールの重みと当該スケールでブロックを符号化するため費やされるビット数との積の総和に比例する、付記74記載のプログラム。
【0208】
(付記77) あるスケールでブロックを符号化するため費やされたビット数は、当該スケールにおけるブロックのマルチスケール係数のエントロピー分布を、当該スケールの4乗で割算することにより得られる、付記76記載のプログラム。
【0209】
(付記78) 画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを取得する機能と、
各ブロックに対し、あるスケールにおけるブロックのマルチスケール係数のエントロピーが少なくとも一つのより粗いスケールにおけるブロックのマルチスケール係数の平均エントロピーよりも大きいと判定されたときに、ブロックがそのスケールで重要性を維持することを判定する機能と、
画像を、ブロックの閾値パーセントが重要性を維持するスケールの中の最も粗いスケールにスケーリングする機能と、
をコンピュータに実現させるためのプログラム。
【0210】
(付記79) ファイルはJPEG 2000フォーマットで画像を表現する、付記78記載のプログラム。
【0211】
(付記80) 平均エントロピーは閾値パラメータが乗算された平均ビット分布である、付記78記載のプログラム。
【0212】
(付記81) 画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを含むファイルを取得する機能と、
各ブロックとスケールの組の中の各スケールに対して、第1のスケールのブロックの累積エントロピー分布を、
第1のスケールと最大スケールの範囲に含まれるスケールに対するブロックを符号化するために要するビット数の和に一致するように設定する機能と、ブロックの幅が第1の最小値よりも大きくなく、かつ、ブロックの高さが第2の最小値よりも大きくないと判定された場合に、
ブロックのインジケータ関数及び第1のスケールに1を設定し、それ以外の場合に、0を設定する機能と、
を有し、
第1の最小値は、画像の幅と、ブロックの幅に1及び第1のスケールでスケーリングされた希望高さを加えたものと、により構成される組の中の最小値であり、
第2の最小値は、画像の高さと、ブロックの高さに1及び第1のスケールでスケーリングされた希望幅を加えたものと、により構成される組の中の最小値であり、
最適位置及び最適スケールの各ブロックに対して、最適スケールでのブロックに対する累積エントロピー分布に、ブロックのインジケータ関数とパラメータ倍された最適スケールとが乗算されたものの総和を最大化する最適位置及び最適スケールを計算する機能と、
画像を最適位置にクロッピングし、クロッピングされた画像を最適スケールにダウンサンプリングする機能と、
をコンピュータに実現させるためのプログラム。
【0213】
(付記82) ファイルはJPEG 2000フォーマットで画像を表現する、付記81記載のプログラム。
【0214】
(付記83) 画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを取得する受信ユニットと、
受信ユニットに接続された処理ユニットと、
を有し、
処理ユニットは、
各ブロックに対し、スケールの組の中で、ブロックのヘッダを使用して計算された尤度の積を表す総尤度と事前確率との積であるコスト関数を最大化するスケールをブロックに割当て、
等価的なスケールが割当てられたブロックを一つに集めることにより画像をセグメント化する、
装置。
【0215】
(付記84) ファイルはJPEG 2000フォーマットで画像を表現する、付記83記載の装置。
【0216】
(付記85) ブロックの各尤度は、スケールの組の中の各スケールに対するスケールの重みと当該スケールでブロックを符号化するため費やされるビット数との積の総和に比例する、付記83記載の装置。
【0217】
(付記86) あるスケールでブロックを符号化するため費やされたビット数は、当該スケールにおけるブロックのマルチスケール係数のエントロピー分布を、当該スケールの4乗で割算することにより得られる、付記85記載の装置。
【0218】
(付記87) 画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを取得する受信ユニットと、
受信ユニットに接続された処理ユニットと、
を有し、
処理ユニットは、
各ブロックに対し、あるスケールにおけるブロックのマルチスケール係数のエントロピーが少なくとも一つのより粗いスケールにおけるブロックのマルチスケール係数の平均エントロピーよりも大きいと判定されたときに、ブロックがそのスケールで重要性を維持することを判定し、
画像を、ブロックの閾値パーセントが重要性を維持するスケールの中の最も粗いスケールにスケーリングする、
画像を適応的にスケーリングする装置。
【0219】
(付記88) ファイルはJPEG 2000フォーマットで画像を表現する、付記87記載の方法。
【0220】
(付記89) 平均エントロピーは閾値パラメータが乗算された平均ビット分布である、付記87記載の方法。
【0221】
(付記90) 画像のブロックに関するマルチスケールエントロピー分布情報を収容するヘッダを含むファイルを取得する受信ユニットと、
受信ユニットに接続された処理ユニットと、
を有し、
処理ユニットは、
各ブロックとスケールの組の中の各スケールに対して、
第1のスケールのブロックの累積エントロピー分布を、第1のスケールと最大スケールの範囲に含まれるスケールに対するブロックを符号化するために要するビット数の和に一致するように設定し、
ブロックの幅が第1の最小値よりも大きくなく、かつ、ブロックの高さが第2の最小値よりも大きくないと判定された場合に、ブロックのインジケータ関数及び第1のスケールに1を設定し、それ以外の場合に、0を設定し、
第1の最小値は、画像の幅と、ブロックの幅に1及び第1のスケールでスケーリングされた希望高さを加えたものと、により構成される組の中の最小値であり、第2の最小値は、画像の高さと、ブロックの高さに1及び第1のスケールでスケーリングされた希望幅を加えたものと、により構成される組の中の最小値であり、
処理ユニットは、
最適位置及び最適スケールの各ブロックに対して、最適スケールでのブロックに対する累積エントロピー分布に、ブロックのインジケータ関数とパラメータ倍された最適スケールとが乗算されたものの総和を最大化する最適位置及び最適スケールを計算し、
画像を最適位置にクロッピングし、クロッピングされた画像を最適スケールにダウンサンプリングする、
画像を自動的にスケーリングしクロッピングする装置。
【0222】
(付記91) ファイルはJPEG 2000フォーマットで画像を表現する、付記90記載の装置。
【0223】
(付記92) 圧縮ビットストリームのヘッダから得られた情報を用いて高ビットレート粒状エントロピー分布から低ビットレートエントロピー分布の推定値を獲得する手順と、
一つ以上の画像処理演算を適用する手順と、
を有する方法。
【0224】
(付記93) 推定値を獲得する手順は、第1の複数のレイヤから情報を抽出し、第1の複数のレイヤ以外のレイヤのパケットを無視する手順を含む、付記92記載の方法。
【0225】
(付記94) ビットが割当てられる順序を決定する手順を更に有する付記92記載の方法。
【0226】
(付記95) 高ビットレートエントロピー分布は損失の多い分布ではない、付記92記載の方法。
【0227】
(付記96) 高ビットレートエントロピー分布は損失の無い分布である、付記92記載の方法。
【図面の簡単な説明】
【0228】
【図1】画像のマルチスケールエントロピー分布の説明図である。
【図2】画像セグメンテーション処理の一実施例を説明するフローチャートである。
【図3】女性の画像例の上に重ね合わされたセグメンテーションマップの説明図である。
【図4】日本語テキストの画像例の上に重ね合わされたセグメンテーションマップの説明図である。
【図5】画像の適応スケーリング処理の一実施例のフローチャートである。
【図6】女性の画像例の適応スケーリングの説明図である。
【図7】日本語テキストの画像例の適応スケーリングの説明図である。
【図8】画像の自動スケーリング及びクロッピングのフローチャートである。
【図9】女性の画像例の自動スケーリング及びクロッピングの説明図である。
【図10】日本語テキストの画像例の自動スケーリング及びクロッピングの説明図である。
【図11A】本発明による処理を実行する装置の一実施例のブロック図である。
【図11B】本発明による処理を実行する装置の他の一実施例のブロック図である。
【図12】コンピュータシステムのブロック図である。
【符号の説明】
【0229】
1101 処理装置
1102 受信ユニット
1103 処理ユニット
1121 符号ストリーム
1122 ヘッダ抽出器
1123 セグメンテーションユニット
1124 復号器
1125 出力画像

【特許請求の範囲】
【請求項1】
符号ストリームのヘッダ情報に基づいて符号ストリームの画像解析を実行する手順と、
画像解析の出力によって指定された一つ以上の画像部分の符号化データだけを復号化する手順と、
を有する方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11A】
image rotate

【図11B】
image rotate

【図12】
image rotate


【公開番号】特開2007−181232(P2007−181232A)
【公開日】平成19年7月12日(2007.7.12)
【国際特許分類】
【出願番号】特願2007−32742(P2007−32742)
【出願日】平成19年2月13日(2007.2.13)
【分割の表示】特願2002−336772(P2002−336772)の分割
【原出願日】平成14年11月20日(2002.11.20)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】