画像分類装置
【課題】画像を形容詞に対応させて分類すること。
【解決手段】画像データに基づいて画像を分類する画像分類装置は、原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、統合された高周波帯域画像信号のヒストグラムを生成するヒストグラム生成手段と、生成されたヒストグラムの分布形状に基づいて、原画像を少なくとも2つの範疇の画像に分類する画像分類手段とを備える。
【解決手段】画像データに基づいて画像を分類する画像分類装置は、原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、統合された高周波帯域画像信号のヒストグラムを生成するヒストグラム生成手段と、生成されたヒストグラムの分布形状に基づいて、原画像を少なくとも2つの範疇の画像に分類する画像分類手段とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像分類装置に関する。
【背景技術】
【0002】
従来、一枚の写真画像全体から人間が感じる印象を「爽やかな」や「みずみずしい」といった感性的な形容詞用語と対応づける試みがなされてきた。特許文献1では、画像を3つの代表色で近似し、事前に構築された3色配色と印象語を結びつけたデータベースと照らし合わせて写真画像の印象を割り当てる方法を提案している。
【0003】
他方、非特許文献1の最近の研究では、物体表面の光沢感という知覚的要素が、同じテキスチャ・シーン画像の階調変化に対する比較実験から、画像の輝度ヒストグラムの歪度やバンドパスフィルタ出力の歪度と関連しているとの指摘がなされ始めた。
【0004】
【特許文献1】特許第3020887号公報
【非特許文献1】I. Motoyoshi, S. Nishida, L. Sharan and E. H. Adelson,"Image statistics and the perception of surface qualities,"Nature, 2007, May 10; Vol.447(7141), pp.206-209.
【発明の開示】
【発明が解決しようとする課題】
【0005】
特許文献1の方法では、色に関する特徴は3色配色モデルという形で考慮されているものの、エッジやテキスチャ、更には空間的なコントラストの分布がどのような感性的な印象を与えるのかについては全く考慮がなされてこなかった。例えば、特許文献1の方法で、「男っぽい」写真に該当する画像を検索する実験をしてみると、全体的に暗くて黒っぽい画像ばかりが選ばれて、例えば凛々しく男性的に見える強いコントラストの鮮やかな風景写真などは全く抽出されず、実際の感性と多くの部分で合わないという問題があった。
【0006】
他方、非特許文献1では物体表面のテキスチャの光沢感の測定に関して重要な指針を示しているものの、光沢感以外の感性用語や、あらゆるシーンを含む一般画像への実際の展開はまだ未解明な部分が多い。
【0007】
このような状況の中で、あらゆるシーンや情景、テキスチャ領域が混在する一般写真画像に対し、写真全体の感性的な印象を的確に表現できるような形容詞群を判別するために、普遍的にエッジ・テキスチャ、コントラストと感性用語との結びつきが高い特徴量を見出すことにより、高度な感性検索への実現に向けた基盤の整備を行なうことを目的とする。すなわち、形容詞分類に適した特徴量を、エッジ、テキスチャ、コントラストに関連した軸に関して主に探索することを目的とする。
【課題を解決するための手段】
【0008】
(1)請求項1に記載の発明は、画像データに基づいて画像を分類する画像分類装置に適用される。そして、原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、統合された高周波帯域画像信号のヒストグラムを生成するヒストグラム生成手段と、生成されたヒストグラムの分布形状に基づいて、原画像を少なくとも2つの範疇の画像に分類する画像分類手段とを備えたことを特徴とする。
(2)請求項9に記載の発明は、画像データに基づいて画像を分類する画像分類装置に適用される。そして、原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、統合された高周波帯域画像に基づき、原画像から受ける人間の感性的な印象を形容詞に分類する画像分類手段とを備えたことを特徴とする。
(3)請求項10に記載の発明は、画像データに基づいて画像を分類する画像分類装置に適用される。そして、原画像の所定の性質が投影された画像信号のヒストグラムを生成するヒストグラム生成手段と、生成されたヒストグラムの形状のうち、ある1つの形状特性を区別するための特徴量を算出する特徴量算出手段と、特徴量に基づいて、原画像から受ける人間の感性的な印象を形容詞に分類する画像分類手段とを備え、特徴量算出手段は、ある1つの形状特性を区別するための特徴量として、少なくとも2種類の異なる指標を算出することを特徴とする。
【発明の効果】
【0009】
本発明によれば、画像から感性との結びつきが高い、特にテキスチャに関する特徴量を抽出したことにより、形容詞に関する高度な画像分類を実現することができる。
【発明を実施するための最良の形態】
【0010】
以下、図面を参照して本発明を実施するための最良の形態について説明する。
<事前の説明>
実施例の具体的なアルゴリズムの説明に入る前に、そのアルゴリズムが依拠する、実験的に解明した原理的な基礎事実について、幾つか例を挙げて説明する。すなわち、写真画像と感性用語との間の何らかの法則性の存在を模索するために、評価用にそれらが対となった基礎データの収集と、同一の形容詞が割り当てられた画像の間に共通する特徴がもし見出せられたならばモデル化し、感性画像検索の手段として利用とする。
【0011】
(A)感性用語と実写真データとの間の評価用データ収集
まず、実写真データから受ける感性的な印象の基礎データを作るため、風景写真や人物写真、街中の写真や接写写真などを含む様々な自然画像の写真数百枚の各々に対し、その一枚の画像全体から受ける印象を最も的確に表していると思われる感性的な形容詞を、任意の日本語の形容詞の中から一語、ないしはそれで表し切れない場合は数語程度までの範囲で名付ける作業を行なった。
【0012】
これらの形容詞を観察してみると、写真特有の「殺風景な」といった形容詞が割り当てられたりすることがあるものの、概して色感情を表すためによく用いられる473語の形容詞に近似的に当てはまることが多かった。この473語は、以下の文献(注1)の付録に示されている。
(注1)日本色彩学会編、色彩科学講座1、「カラーサイエンス」、2004年、朝倉書店、ISBN4-254-10601-7.
【0013】
また、上記特許文献1がデータベースとして用いた引用文献(注2)には代表的な感性形容詞用語として180語が示されている。
(注2)日本カラーデザイン研究所編、小林重順著、「カラーイメージスケール」(改訂版)、2006年、講談社、ISBN4-06-210929-8.
【0014】
これらの形容詞の中で、明らかにエッジやテキスチャ構造、コントラスト強度の視点から強い影響を受けていると思われる形容詞が多々存在した。すなわち、エッジやテキスチャ、コントラストの情報は人間の感性に大きな作用を及ぼしていると考えられる。例えば、晴れやかな太陽のもとで強いコントラストをなした木立が凛と並んで立っている情景などに対しては「凛々しい」という形容詞を割り当てたり、ゴツゴツした風景に対しては「男性的な」や「荒々しい」といったものや「力強い」といった言葉を割り当てたりしていた。一方で、なんとなく平穏で落ち着きを与えるような画像に対しては「穏やかな」や「女性的な」や「和やかな」や「まろやかな」などといった言葉を割り当てたりしていた。
【0015】
(B)感性用語(形容詞)と物理量との関係、及び感性モデルの構築
人間は、エッジやテキスチャ、コントラストの情報を画像全体として捉え、1つの情報としてすばやく感性的な印象を判断していると考えられる。つまり、部分、部分の領域に分けて子細に分析するようなモデルではなく、統合的な判断モデルを構築するのが感性分類のための特徴量としては望ましい。このようなシステムと丁度符合するようなテキスチャ情報量は、多重解像度表現の仕組みをうまく利用すれば構築することができる。すなわち、多重解像度でエッジ検出を行い、各解像度のテキスチャやコントラストの情報を多重解像度統合することによって1つの統合されたコントラスト情報にまとめることができる。ここに現れた信号を分析することにより、1つの統合された全体の印象を直接的に議論することが可能になるのではないかと考えたのである。そこで、全ての評価用データを解析して、統計的にある形容詞に対して共通の特徴をもった信号がそこに現れていないかを調査した。
【0016】
まず、統合エッジ情報のどの部分にどんなふうに感性要素が現れてくる可能性があるかを大雑把につかむために、評価用データを2つに分類することから可能性を探ってみた。エッジやテキスチャ、コントラストの構造が感性に与える第一印象として、広義の意味で「男性的な」と「女性的な」という集合体があるのではないかと考えた。すなわち、エッジ、テキスチャ、コントラストに関連した特徴量ベクトルの集合体軸に沿って、その原点から離れるほど一方の領域は「男性的」要素が強く、もう一方の領域は「女性的」要素が強くなるという切り口の分類方法があるのではないかと位置づけた。そして、それらの部分集合の中でより細やかな形容詞分類が存在しうるのであろうと想定する。
【0017】
広義の意味の「男性的な」に含まれうる形容詞としては、凛々しさ、荒々しさ、力強さ、重厚さ、荘厳さ、激しさ等々を表す感情表現が考えられ、一方、広義の意味の「女性的な」に含まれうる形容詞としては、穏和さ、微笑ましさ、可愛さ、母胎が包み込むような寛容さ・受容性、清楚さ、平和さ等々が表す感情表現が想定されうる。別ないい方をすれば、「男性的な」は硬いイメージで、「女性的な」は柔らかいイメージということができるかもしれない。これらの概念の想像図を図1に示す。
【0018】
その結果、評価用データの広義の「男性的な」の分類に当てはまりそうな画像群と広義の「女性的な」の分類に当てはまりそうな画像群との間には、多重解像度統合エッジ信号のヒストグラム(確率密度関数)の分布形状に顕著な違いが現れるということが判明した。すなわち、「男性的な」と「女性的な」という切り口の分類に対しては、確率密度関数(pdf)の分布形状の非対称性の違いとなって特徴が現れる。とりわけ輝度成分のpdf分布形状の非対称性の違いの中に、この2つの形容詞間の区別は集約されている。その典型的な分布例をそれぞれ2例ずつ画像と感性語と共に示す。
【0019】
図2および図3は、「男性的な」サンプル画像に該当する図である。図2(a)および図3(a)は、それぞれ原画像を示す図である。図2(b)および図3(b)は、それぞれV(輝度)面の統合エッジ画像を示す図である。図2(c)および図3(c)は、それぞれ統合エッジ画像の確率密度関数(pdf)の分布形状を示す図である。
【0020】
図4および図5は、「女性的な」サンプル画像に該当する図である。図4(a)および図5(a)は、それぞれ原画像を示す図である。図4(b)および図5(b)は、それぞれV(輝度)面の統合エッジ画像を示す図である。図4(c)および図5(c)は、それぞれ統合エッジ画像の確率密度関数(pdf)の分布形状を示す図である。
【0021】
ここで重要なことは、通常、多重解像度変換された高周波サブバンド画像の各々のpdf分布は、メモリレス・ソースとなって対称分布し、一般にガウス分布からラプラス分布をも含むGeneralized Gaussian分布f(x)=a*exp(-|(x-m)/b|^α)で近似できるということが知られている。この事実を考え合わせれば、pdf分布が非対称になるという現象は極めて顕著な特徴をつかんでいるということができる。
【0022】
「男性的な」のpdf分布形状は、図6に例示するように、統計的に多くの画像に共通して、零を挟んで負の側に大きな三角形の裾野が現れるようにして太り、正の側には尾を引くような分布構造をしている。これは、画像内で観測される信号との関連を以下のように解釈すれば理解できる。すなわち、画像内に黒くてゴツゴツしたような締まりのある領域がいろんな解像度スケールで一定の面積を伴って存在し、それらが微小面積であるが高輝度部からなる領域と強いコントラストをなしている。そのとき、複数の解像度で同じような状況が同じような場所の空間配置域で生じていたとすると、それらの連なりが統合エッジ・コントラスト強度の度数分布の非対称性として現れるようになる。
【0023】
一方の「女性的な」のpdf分布形状は、図7に例示するように、「男性的な」とは逆の構造をとりうる。逆構造の場合の解釈は以下のようにできる。すなわち、全体的に変動率の少ない大面積の平均的な明るさを備えた部分に対し、鉛筆やチョークでレタッチするような感覚で描写するように微小面積の縁取りで小面積の構造物が表現されているような場合、このようなコントラスト構造になりやすい。したがって、例えば大きな船が画面いっぱいに大きく写るような写真は船体部や背景部が大面積領域に相当し、甲板上の細かい艦橋などの構造物が微小面積部に相当し、船が英語では「she」という代名詞で受けるような印象を与える。あるいは、風景写真などの場合は、一面の空や海や草原などが大面積部をなして、小さく写り込んだ民家などの構造物が小面積部のコントラスト構造となって穏やかに包み込むような印象を与える。
【0024】
ただし、「女性的な」はその逆構造だけに留まらず、極めて複雑で繊細な振るまいをする分布構造も存在していることが確認された。例えば、見た目はほとんど対称なpdf分布形状をしているにも関わらず、微妙な裾野の非対称性がそのような印象を与えることに貢献していたりすることがあるのである。したっがって、「女性的な」の分布形状の一般形を論ずることは概して難しく、「男性的な」でない場合が「女性的な」であると捉えるのが素直な考え方である。このような繊細さや複雑さは不思議と人間の感性と相通じるところがあるのではないかと推察される。
【0025】
以上説明してきたように、複数の解像度でのエッジ・コントラストを統合すると、テキスチャや画像構造の空間的な配置関係が複数の解像度階層間で連なって反映され、たとえ各バンド面で対象なpdf分布形状をしていても、画像のシーンに依存して統合後は非対称性を示す。すなわち、統合エッジのpdf分布形状は、異なる解像度間のコントラストの空間的な配置関係から想起される感性の特徴情報を反映している。したがって、そのpdf分布形状を表す特徴量は、テキスチャに関する特徴量の主軸をなすベクトル要素として、感性分類に適した縮約された特徴量空間を築くことができると考えられる。
【0026】
<発明の実施の形態>
上述のように感性モデルが記述できることが示されたことを念頭に、データベースの画像を感性キーワード(形容詞)に基づいて検索する画像検索装置を説明する。図8は、画像検索装置を例示する図である。画像検索装置は、パーソナルコンピュータ10により実現される。パーソナルコンピュータ10は、不図示のデジタルカメラやメモリカードデータ読取り器、他のコンピュータなどと接続され、電子画像データの提供を受けて画像データをストレージ装置(たとえば、ハードディスク装置)内に蓄積する。パーソナルコンピュータ10は、蓄積した画像データを対象にして以下に説明する画像検索を行う。
【0027】
パーソナルコンピュータ10に対するプログラムのローディングは、プログラムを格納したCD−ROMなどの記録媒体104をパーソナルコンピュータ10にセットして行ってもよいし、ネットワークなどの通信回線101を経由する方法でパーソナルコンピュータ10へローディングしてもよい。通信回線101を経由する場合は、通信回線101に接続されたサーバー(コンピュータ)102のハードディスク装置103などにプログラムを格納しておく。標題付与プログラムは、記録媒体104や通信回線101を介する提供など、種々の形態のコンピュータプログラム製品として供給することができる。パーソナルコンピュータ10は、CPU(不図示)およびその周辺回路(不図示)から構成され、CPUがインストールされたプログラムを実行する。
【0028】
以下、パーソナルコンピュータ10が実行するモデル構築処理と、構築した感性モデルを使用して行う画像検索処理について説明する。モデル構築処理は、画像検索処理を行う前に、たとえば、パーソナルコンピュータ10のストレージ装置内に保存されている画像ファイルを対象に行われる。
【0029】
図9は、パーソナルコンピュータ(以下PCとする)10が処理するモデル構築処理の流れを説明するフローチャートである。図9による処理は、たとえば、ストレージ装置内に画像ファイルが保存されるときに実行される。
【0030】
(1)RGB空間からマンセルHVC空間への変換
図9のステップS11において、PC10は画像ファイルの画像データを、人間の知覚的な均等色性が高いマンセル色空間へ変換する。マンセル色空間は、色相Hが一周100度で分割され、輝度Vが0〜10のレベルに、彩度Cが0〜25程度に分布するレベルに刻まれた色空間で、Vの色差1に対してCの色差2が同等の色差として知覚する等歩度性を満たすように設計された色空間である。
【0031】
そのうちのCの値が1以下の領域とVの値が0.5以下、及び9.5以上の領域がN(ニュートラル色相)と定義されている。RGB空間で表された色空間からHVC色空間へはXYZ空間への変換を介して近似的に数学的に変換できることが、例えば、下記文献(注3)の中で引用されている。これは、均等色空間の1つであるL*a*b*ないしはL*C*H*の定義を利用して、その均等色性の不十分であるところを修正する式を導入することによって実現されている。
(注3)Y. Gong, C.H. Chuan and G. Xiaoyi, "Image Indexing and Retrieval Based on Color Histograms," Multimedia Tools and Applications 2, 133-156 (1996).
【0032】
入力画像が例えば出力ガンマ特性の掛かったsRGB色空間で表された画像である場合、マンセルHVC空間への変換は、まず、線形階調に戻した後、XYZ空間へsRGB規格に従って変換する。後は上記文献(注3)に記載の式に沿って、立方根特性の非線形階調を導入しながらマンセルHVC空間へ変換する。変換手順はステップS11−1〜ステップS11−4の4段階で行う。
【0033】
(線形階調sRGBへの変換)
ステップS11−1では、sRGB画像のようなガンマ補正がなされた画像データのガンマ補正を解いて線形階調に戻した状態にする。変換式は式(1)による。
【数1】
【0034】
(XYZ空間への変換)
ステップS11−2では、線形階調に戻したRGB空間のデータをXYZ空間のデータへ変換する。変換式は式(2)による。
【数2】
【0035】
(M1,M2,M3空間への変換)
ステップS11−3では、XYZ空間のデータをM1,M2,M3空間のデータへ変換する。変換式は式(3)による。
【数3】
【0036】
(HVC空間への変換)
ステップS11−4では、M1,M2,M3空間のデータをHVC空間のデータへ変換する。変換式は式(4)による。
【数4】
【0037】
RGB空間におけるサンプル画像と、当該サンプル画像をマンセルHVC空間へ変換した場合の色相面H、輝度面V、彩度面Cの各画像とを図11に例示する。図11(a)はRGB画像、図11(b)は色相面画像、図11(c)は輝度面画像、図11(d)は彩度面画像である。図11(b)〜図11(d)は、上記ステップS11−1〜ステップS11−4の手順を経て生成されたものである。
【0038】
(2)V面:テキスチャ特徴量の記述
ステップS11の次に進むステップS12において、PC10は輝度(V)面においてテキスチャ特徴量を評価する。テキスチャ特徴量の評価手順はステップS12−1〜ステップS12−4の4段階で行う。
【0039】
(多重解像度変換とエッジ抽出)
ステップS12−1では、ウェーブレット変換を用いて多重解像度表現された周波数空間に射影して、輝度面の高周波のエッジ成分を抽出する。ここではエッジ成分として、ウェーブレット分解された高周波サブバンドLH,HL,HHをそのまま使うものとする。この様子を模式的に書けば、解像度M段まで分解するとき、次式(5)となる。
【数5】
【0040】
ウェーブレット変換としては、例えば以下のような5/3フィルタなどを用いる。
<ウェーブレット変換:Analysis/Decompositionプロセス>
ハイパス成分:d[n]=x[2n+1]-(x[2n+2]+x[2n])/2
ローパス成分:s[n]=x[2n]+(d[n]+d[n-1])/4
【0041】
上記定義の1次元ウェーブレット変換を、横方向と縦方向に独立に2次元分離型フィルタ処理を行うことによって、ウェーブレット分解する。係数sをL面に集め、係数dをH面に集める。
【0042】
ウェーブレット変換にはハイパスフィルタが一次微分で定義される中心に対し非対称フィルタ係数の2/6フィルタや2/10フィルタ等の偶数タップ型と、ハイパスフィルタが二次微分で定義される中心に対し対称フィルタ係数の5/3フィルタや9/7フィルタ等の奇数タップ型とが存在するが、実験によれば偶数タップの2次微分型のほうが本目的に適しているようである。
【0043】
また、エッジ成分として多重解像度変換された高周波サブバンドLHi,HLi,HHi(i=1,2,...,M)をそのまま用いる以外に、これらのサブバンドに対して再度エッジ検出フィルタであるラプラシアンを掛けた結果をエッジ成分としてもよい。前者のウェーブレット変換された高周波サブバンドが2次微分型のエッジ成分を表すのに対し、後者の更に2次微分のラプラシアン・フィルタを掛けた高周波成分は4次微分型のエッジ成分を表す。さらに多重解像度変換の別の方法として、ウェーブレット変換以外にラプラシアン・ビラミッドを使う方法もある。
【0044】
このようにハイパスフィルタを用いて抽出されたエッジ成分は、γ補正による非線形階調変換がなされた輝度面で検出しているので、局所的なコントラスト情報を表す。すなわち、階調補正の分野では線形階調における局所平均輝度と対象画素の輝度との比を、人間の視覚が局所的な領域に順応して、その部分領域のコントラストとして認識するレチネックス機構と等価な情報を抽出している。これを多重解像度で抽出したエッジ成分は、マルチスケール・レチネックス表現されたコントラスト情報ともいえる。レチネックス理論については、例えば文献(注4)に記載されている。
(注4)D.H. Brainard and B. A. Wandell, "Analysis of the retinex theory of color vision," J. Opt. Soc. Am. A, Vol.3, No.10, October 1986, pp.1651-1661.
【0045】
また、こうして多重解像度変換によって生成された高周波バンドの信号値のヒストグラム(確率密度関数と呼ばれ、上述したようにpdfと略す)が、ガウス分布やラプラス分布をすることが文献(注5)に記載されている。一般に、pdfの分布形状は対称なGeneralized Gaussianで近似できる。
(注5)Michael J. Gormish, "Source coding with channel, distortion, and complexity constraints," Doctor thesis, Stanford Univ., March 1994, Chapter 5: "Quantization and Computation-Rate- Distortion."
【0046】
多重解像度変換の段数Mの値は、各バンドのpdfのヒストグラムが荒れない程度の画素数を有するところまで分解するとよい。例えば、Quad VGAサイズ(1280×960)の画像に対しては5段程度、QVGAサイズ(320×240)の画像に対しては3段程度、2000万画素の画像に対しては7段程度にするとよい。
【0047】
図12は、4段のウェーブレット変換によるサブバンド分割の様子を示す図である。たとえば、第1段のウェーブレット変換では、実空間の画像データに対し、まず横方向にすべての行についてハイパス成分およびローパス成分のデータを抽出する。その結果、横方向に半分の画素数のハイパス成分およびローパス成分のデータが抽出される。それを、たとえば実空間の画像データがあったメモリ領域右側にハイパス成分、左側にローパス成分を格納する。
【0048】
次に、メモリ領域右側に格納されたハイパス成分および左側に格納されたローパス成分のデータに対して、それぞれ縦方向にすべての列について、ハイパス成分およびローパス成分のデータを抽出する。その結果、メモリ領域右側のハイパス成分および左側のローパス成分のそれぞれから、さらにハイパス成分およびローパス成分のデータが抽出される。それらを、それぞれのデータがあったメモリ領域下側にハイパス成分、上側にローパス成分を格納する。
【0049】
その結果、横方向にハイパス成分として抽出されたデータから縦方向にハイパス成分として抽出されたデータをHHと表し、横方向にハイパス成分として抽出されたデータから縦方向にローパス成分として抽出されたデータをHLと表し、横方向にローパス成分として抽出されたデータから縦方向にハイパス成分として抽出されたデータをLHと表し、横方向にローパス成分として抽出されたデータから縦方向にローパス成分として抽出されたデータをLLと表す。ただし、縦方向と横方向は独立であるので、抽出の順序を入れ替えても等価である。
【0050】
次に、第2段のウェーブレット変換では、第1段のウェーブレット変換で横方向にローパス成分として抽出されたデータから縦方向にローパス成分として抽出されたデータLLに対し、同様にハイパス成分及びローパス成分の抽出を行う。これを4段まで繰り返し行うと図12のようになる。
【0051】
図13は、各解像度における高周波サブバンド面と、その確率密度関数(pdf)の分布形状を示す図である。上段が各段に対応するpdf形状を表し、下段が対応するサブバンド面を表す。これらは、図2に例示したサンプル画像に対応する。
【0052】
(多重解像度統合)
上述のようにして抽出された高周波サブバンドは、各解像度スケールにおけるエッジ、テキスチャ、コントラストに関する情報を表している。ステップS12−2では、これらの情報を統括的に扱うため、高周波サブバンドのみによる多重解像度逆変換を行い、エッジ統合を行なう。すなわち、最低解像度の低周波サブバンドLLMを除外し、それらの値を全て零に設定した後に、残りの高周波サブバンドを順次逆ウェーブレット変換を行なう。この様子を模式的に書くと、入力画像と同じ解像度を持つ統合エッジ成分をEとして、次式(6)になる。
【数6】
【0053】
この統合段階において、階層の異なるエッジ、テキスチャ、コントラストの情報が空間的な位置関係を考慮して別の階層へ伝達されることになる。なお、ラプラシアン・ピラミッドを用いた場合は、最低解像度のガウシアン面を零に設定し、残りのラプラシアン面を逐次統合することになる。
【0054】
(統合エッジのヒストグラム(pdf)作成)
ステップS12−3では、統合エッジ成分のヒストグラム、すなわち確率密度関数(pdf)を作成する。pdfはエッジ強度のヒストグラムであるので、正と負に同程度の度数積分面積をもつ原点をピークとする分布になる。一般に、解像度間で無相関のメモリレス・ソースである場合、各階層で対称なpdf分布形状をしていたものは、統合してもそのまま対称なpdf分布形状となって統合される。しかしながら、解像度間で相関がある場合、その相関の様子がpdf分布の形状という形で投影されうる。「凛々しい」と名称付けられた画像、すなわち「男性的な」の分類の画像が、エッジの統合によって非対称pdf分布形状が生まれる様子を図14に示す。
【0055】
図14(a)は図13の下段の高周波サブバンドを統合した統合エッジ画像を示す図であり、図14(b)は図14(a)のpdf分布形状を示す図である。ただし、図14は表示の都合上、原点にオフセット(=100)が加えてある。このような統合エッジのpdf分布の特徴的な形状は、最低解像度からおよそ3段分ぐらいのエッジ成分を統合するとほぼその形が現れてくることが実験的に確認された。したがって、もし簡略に済ませたいような場合は、最後の実解像度まで統合しなくても、統合途中段階のpdf分布形状を評価するようにしてもよい。
【0056】
(輝度面の特徴量の算出)
pdf分布形状の特徴としてまず挙げられるのが、その非対称性である。この非対称性を表すための指標としては、数学的にはヒストグラムの3次モーメントである歪度という指標がある。しかしながら、実験的に調べたところ、この歪度は微小度数分布の裾野(tail)の特性に敏感で、中心付近の度数分布の多いところの非対称性が過小に評価されやすく、ヒストグラム全体からみた非対称性の方向の印象を反映していない場合があるということが分かった。そこで、ヒストグラムの非対称性を評価するための指標としてはもう一つ、実験学的に定めるエボシ度というものを導入する。「烏帽子(エボシ)」という言葉は、そのヒストグラムの分布形状が日本の平安時代に被られていた帽子の形に非常によく似ているからそう名付けた。
【0057】
歪度は裾野の特性に敏感な指標であり、エボシ度は鈍感な指標であるともいえる。この裾野の特性がまた細かなヒストグラム形状の分類を可能にする潜在性を秘めている。一般に、感性用語として用いられる形容詞には、幾つかの形容詞がまとまりをなして同類系に入る全体的な範疇を指す要素とその範疇の中の細かな区別を表す要素とを1つの言葉の中に兼ね備えている。例えば、「賑やかな」という形容詞群の範疇の中には「賑やかな」自身の他に、「華やかな」や「賑わしい」、「派手な」といった細かな区別が存在する。したがって、感性分類のための特徴量として、このように同じ側面の特徴を、全体的な傾向をつかむものと細かな分類をも可能にするものとの2つの視点から評価するということは、極めて合理的な方法であるといえる。
【0058】
ステップS12−4では、以下のように輝度面の非対称性を表す特徴量を算出する。
(i)エボシ度の定義
エボシ度はヒストグラムの半値幅FWHM(Full Width at Half Maximum)の中心座標の原点からのずれと、ヒストグラムがピーク点から縦軸に沿って下方向に向けて積分して面積率が95%になるところの幅FWP95(Full Width at Population 95%)の中心座標の原点からのずれとを合わせてゆがみ度を評価する。すなわち、次式(7)でエボシ度を表す。
eboshi degree=(central position of FWP95)−(central position of FWHM) (7)
【0059】
裾野が正の領域に広がっている場合はエボシ度が正の値を示し、そのゆがみが大きいほど大きな値を示す。また、度数の大きい中心付近のゆがみもFWHMを通して評価される。それが負の領域に膨れている場合は、またエボシ度が正の値を示すようになる。したがって、エボシ度が正のときは左を向いた烏帽子の形を、エボシ度が負のときは右を向いた烏帽子の形を概略表している。図15は、エボシ度の定義を例示する図である。
【0060】
(ii)歪度の定義
pdfの全積分値で規格化して、pdfを確率密度関数で表したものをp(x)、横軸のエッジ強度をxで表す。平均値aveは次式(8)で、標準偏差σは次式(9)で、歪度(skewness)は次式(10)でそれぞれ表される。
【数7】
平均値は常に零近辺の値をとるので、予め零に設定してもよい。このように定められたエボシ度と歪度を、pdfの分布形状の非対称性を表す特徴量とする。
【0061】
(3)C面:テキスチャ特徴量の記述
図9のステップS12の次に進むステップS13において、PC10は彩度(C)面においてテキスチャ特徴量を評価する。彩度C面についても輝度V面と同様にpdf分布形状に特徴が表れるので、少なくともその非対称性について同様にエボシ度と歪度で測ることが可能である。テキスチャ特徴量の評価手順は上述したステップS12−1〜ステップS12−4と同様に4段階で行えばよい。
【0062】
ステップS13の処理を終えたPC10は、ステップS11〜ステップS13の処理で算出した各特徴量を特徴量情報として当該画像のサムネイル画像データに関連づけて画像ファイル内に記述したうえで、該画像ファイルを被検索対象の登録画像としてデータストレージ装置内に記録し、モデル構築処理を終了する。
【0063】
(4)形容詞のテキスチャ特徴量に関するモデル
上記記述は、テキスチャ特徴量に基づいて「男性的な」と「女性的な」を分類する感性モデルを記述する。よって、ここではV面のみのpdf分布形状の非対称性を扱う。冒頭の「感性モデルの構築」で述べたように、「男性的な」は典型的な左方向を向いた烏帽子の形をする。これは特徴量としては単純に、非対称性を表すエボシ度と歪度が共に正の値を示す。一方の「女性的な」は、これとは反対のエボシ度と歪度が共に負の値を示す場合に留まらず、複雑で繊細な分布形状をするので、どちらか一方が負の値を示す場合であってもその性質を備えていることが、評価用データから統計的に確認された。したがって、歪度とエボシ度の二次元マップを書くと図16、図17に例示するようになる。図16は、V面pdf形状の非対称性(歪度とエボシ度)に関する2次元マップテーブルであり、図17は二次元マップを例示する図である。
【0064】
ところで、上述した分類は「男性的な」か「女性的な」の二者択一の分類であるが、pdf分布形状の非対称性がない画像はどのような特性をもっているかを考察してみる。pdf分布形状はコントラストの空間分布を反映した指標であるので、例えばエボシ度が完全に零であるような対称性のよい画像は、完全に無相関という場合も考えられるが、そのような特殊な場合よりもむしろ相関を成して対称性を保った極めてコントラスト分布のバランスがよい写真であることを示唆している。したがって、写真としての総合的な出来栄えがよく、万人受けのするスコアの高い画像である可能性が高い。ただし、写真のスコアが高くても「男性的な」と「女性的な」の何れかに所属した中での評価であることを付け加えておく。
【0065】
上述の分類は、pdf分布形状の非対称性を特徴として分類した感性モデルであるが、その他にもpdf分布形状は多くの形容詞の要素との結びつきの可能性が高いことを、「華麗な」と名付けられた画像の輝度面のpdf分布形状の例を示して指摘しておく。図18は、「華麗な」サンプル画像について例示する図である。図18(a)は、原画像を示す図である。図18(b)は、V(輝度)面の統合エッジ画像を示す図である。図18(c)は、統合エッジ画像の確率密度関数(pdf)の分布形状を示す図である。すなわち、この場合はpdf分布形状のtailnessと中心付近の痩せ細り度が大きく関与している可能性が高い。
【0066】
以上は、輝度面のpdf分布形状に基づいた感性モデルを記述する特徴量について議論したが、同様な議論は彩度面のpdf分布形状についても当てはまる。両者の特徴量を併用すれば、より複雑な多くの形容詞の判別を可能にする。また、pdf分布形状の特徴量の定義は上述に留まらず、より細やかな別の特徴量を定義してもよい。また、例えばpdf分布形状を正の領域と負の領域で別々にGeneralized Gaussian関数をフィッティングするようにして、ラプラス分布からガウス分布のどの当りに近いのかを表す冪指数パラメータと分布の広がり度を表す標準偏差で分布形状を特徴量化してもよい。
【0067】
上述したように保存されている画像ファイルの特徴量情報が、次に説明する画像検索処理のステップS40における類似性判定において用いられる。PC10は、画像検索処理プログラムが起動されると図10による処理を実行する。図10のステップS20において、PC10は、形容詞が入力されたか否かを判定する。PC10は、画像検索のための形容詞がキーボードまたはポインティングデバイスによって入力された場合にステップS20を肯定判定してステップS30へ進む。PC10は、形容詞が入力されない場合にはステップS20を否定判定してステップS20へ戻る。
【0068】
ステップS30において、PC10は、あらかじめデータストレージ装置内に記録されている上記歪度とエボシ度の二次元マップを参照し、形容詞(たとえば「男性的な」)に対応付けられている感性モデルをそれぞれデータベースから読み出してステップS40へ進む。ステップS40において、PC10は類似性判定を行う。
【0069】
類似性判定は、登録画像としてあらかじめデータストレージ装置内に登録されている画像の特徴量情報と、ステップS30で読み出した感性モデル値(特徴量)とを比較することによって行う。また、特徴量が事前に算出されていない画像が被検索対象に選ばれた場合は、その都度必要に応じて特徴量を算出するとよい。つまり、検索対象の入力画像に対してステップS11〜ステップ13の処理によってその画像を特徴量空間に射影した後に、検索キーワードの形容詞に対して構築された上記(4)の感性モデルとの類似度を、特徴量空間での距離比較を行なうことによって測り、その検索対象の形容詞の印象に合う画像か否かを判別する。
【0070】
図10のステップS50において、PC10は表示部の画面に検索結果を表示させて図10による処理を終了する。検索結果の表示は、該当するサムネイル画像を並べて表示することによって行う。つまり、データストレージ装置内に登録されている画像ファイルのうち、形容詞に合致すると判定した特徴量を有する画像ファイルのサムネイル画像が、表示画面にサムネイルリストとして表示される。
【0071】
以上説明した実施形態によれば、次の作用効果が得られる。
(1)多重解像度で抽出された高周波成分を順次統合して、1つに統合された高周波成分を作成すると、画像全体のエッジ、テキスチャ、コントラストに関する情報が空間的な配置関係の構成も踏まえた統合的な情報量として集約されて、全く異なるシーンであっても感性的な印象を人間に知覚させる因子がその高周波成分のヒストグラムの形状として統計的に現れやすいということが判明したので、そのヒストグラム形状を特徴量として採用することにより、写真の感性分類に極めて適した縮約された特徴量を提供することが可能になる。その結果、形容詞判別性の高い高度な感性分類を可能とする。
【0072】
(2)実際に「男性的な」と「女性的な」の分類で感性検索の実験をしてみた結果、事前に作成した画像と形容詞用語の対となった評価用データを「広義の意味で形容詞解釈した場合の分類」の意味でよく再現し、非常に人間の感性に近い画像検索を実現することができた。
【0073】
例えば、「女性的な」と分類された画像の中には広大で包み込むような写真が正確に分類されていた。中でも男性的な要素と女性的な要素を両方兼ね備えているような画像の場合には、そのどちらが支配的であるかを人間が印象として測るのと同じようにして判断していると推察される結果も存在した。例えば、海に沈む夕日の場合、夕日のギラギラ感が力強く男性的であってもその太陽の面積が小さい場合、周りの海や空の広大さが勝って、写真全体としては優しく包み込むような印象を受けるので、pdf分布形状としても男性的要素よりも女性的要素が強くなり、全体的には女性的であるという結論がpdf分布形状を通じて現れ、正しく判別されていた。
【0074】
(3)特許文献1の3色配色モデルに押し込める従来技術と比較してみても、特徴量の軸が全く異なるため、劇的な改善を実現する。例えば、「男性的な」という形容詞に対しては、単純な色相イメージから来る黒っぽい画像ばかりが選ばれるようなことはなく、色相イメージに左右されずにコントラストやスケールの観点から正確に感性の合う画像が選択されている。
【0075】
(4)また、暗黒の背景に可憐な花が写り込んでいるような、「可憐な」、広義の意味の「女性的な」印象の画像は、従来技術では全体的に黒っぽいので「男性的な」と判断されるが、本実施形態では、形容詞の印象通りに「女性的」に分類される結果となった。
【0076】
(5)このように多重解像度統合したエッジ成分のヒストグラム分布形状は、マルチスケールで局所的にも大局的にもコントラストを総合的視点から観察した特徴量であるので、人間の脳の知覚・認識過程と極めて相関の高い、感性が縮約された指標の物理量を提供している可能性が高いと推察される。
【0077】
(6)こうして、形容詞との連動性が高い縮約されたテキスチャ特徴量の存在を解明してそれらの特徴量空間での比較を行なえるようになったため、より高度な感性に基づく画像検索が可能となる。
【0078】
(7)PC10は、多重解像度のエッジ成分を統合した後のpdf分布形状を判別するための参照用データを画像の印象を表す形容詞に関連づけて感性モデルとしてデータストレージ装置に格納し、入力された形容詞情報に基づいて、当該形容詞に関連づけられている参照用データに類似する画像を検索するようにした。pdf分布形状を比較対象にするので、従来技術のように3色配色と印象語とを結びつけた膨大な数のモデル例との比較を行うことなく、人の感性に近い形容詞に対応するグループに画像を分類できる。
【0079】
また、形容詞と、pdf分布形状を示す特徴量(参照用データ)との対応関係を示す二次元マップとして感性モデルを構築したので、pdf分布形状そのものの比較でなく、形容詞と関連性の深い特徴量に基づいた比較を行うことができる。また、より縮約された特徴量比較を行うことができるので、検索を非常に容易にすることができる。
【0080】
(8)pdf分布形状の非対称性を歪度を用いて表すようにしたので、歪度の比較によってpdf分布形状の合致度(類似性)を判定できる。
【0081】
(9)pdf分布形状の非対称性をエボシ度を用いて表すようにしたので、エボシ度の比較によってpdf分布形状の合致度(類似性)を判定できる。
【0082】
(変形例1)その他のテキスチャ特徴量
本実施形態では、テキスチャ特徴量として、多重解像度のエッジ成分を統合した後のpdf分布形状を示したが、各々の解像度のエッジ成分のpdf分布の形状も場合によってはテキスチャ特徴量として扱うことができる。すなわち、各々の解像度ではpdf分布に非対称性が少ないと考えられるので、分布幅を指標とした特徴量を解像度について連ならせた特徴量ベクトル(1,2,...,M)を組む。また、各々の階層がラプラス分布に近いかガウス分布に近いかの情報も連ならせてもよい。ただし、この場合、解像度間の空間的な配置関係の相関情報が反映されなく、また、その情報量も冗長である。
【0083】
(変形例2)モデルの統計学習
上記実施形態では、pdf分布形状をエボシ度や歪度の特徴量に変換して、形状の分類比較をしたが、pdfのヒストグラム分布そのままを特徴量として、判別処理ではモデルと入力画像との間でヒストグラムの分布形状のパターン・マッチングを行なうようにしてもよい。
【0084】
(変形例3)
更にモデルpdfの形状に関する特徴量を統計学習することによって構築するようにしてもよい。その場合、一枚一枚の画像毎に検索対象として用意する形容詞の全てについて該当するか否かを、複数人のアンケート調査をして統計をとり、ある形容詞に対して該当度合いの高い画像に重みをつけて、pdf分布の平均をとるような操作をして、分布形状の形を教師学習させるようなことになる。あるいは分布形状に関する特徴量空間で統計平均してもよい。
【0085】
(変形例4)感性判別関数の一般化
感性に作用する特徴量として、本実施形態ではテキスチャ特徴量の解明を主として取り組んだが、その他にも感性と直接結びつきが高い、テキスチャとは独立な特徴量の軸が幾つか存在すると考えられる。例えば、色の特徴量や形の特徴量などが考えられる。色に関する特徴量は、代表色相の値やそれが占める面積率、輝度・彩度に関する特徴量など、感性と結びつきの深い特徴量として何個か、あるいは十数個程度に及ぶかもしれないベクトルが構築されうると考えられる。これらの別の軸の特徴量をテキスチャ特徴量と合わせて、色々な形容詞に対する感性判別関数を構築すれば更に判別可能な形容詞のバラエティーが増え、判別精度が向上すると考えられる。この拡張の様子を式で提示すれば、次式(11)で表せる。また、模式図を図19に例示する。
【0086】
Pi=Fi(テキスチャ特徴量;色の特徴量;形の特徴量;…) (11)
ただし、Piは形容詞iである度合いを表す確率であり、Fiは形容詞iを判別する関数である。判別関数の引数をセミコロン(;)で区切ったのは、各々の特徴量として図19に例示したように幾つかの特徴量の集合体となる特徴量ベクトルを想定しているからである。
【0087】
また、色の特徴量に対しても1つの性質を調べる際に、テキスチャ特徴量で導入したのと同じような考えに基づき、例えば色に関連する輝度や彩度のヒストグラムの分布形状を議論するときなどに鈍感指標と敏感指標を合わせて導入すると形容詞判別の分類性能が向上する可能性がある。すなわち、色の特徴についても安定的に大ぐくり分類できつつも、微妙に細やかに表現の異なる形容詞の区別がつくようになる可能性がある。
【0088】
(変形例5)
以上の説明では、あらかじめ登録した複数の登録画像の中から、入力された形容詞に合致する画像を自動検索する画像検索装置を説明した。これとは逆に、感性モデルリストをPC10のデータストレージ装置に保存しておくことにより、入力された画像が呼び起こす感性に合致する形容詞を検索する形容詞検索装置を構成することもできる。この場合には、新たに入力された画像データについて、ステップS11〜S13の処理を行うことにより、当該入力画像の特徴量情報(比較用データ)を算出する。
【0089】
そして、入力画像の特徴量(比較用データ)を上記二次元マップの中の特徴量(参照用データ)と順次比較することによって、当該画像の特徴量(比較用データ)と類似する特徴量(参照用データ)に対応する形容詞を自動検索する。
【0090】
検索した形容詞を示すタグを画像ファイルにつければ、形容詞のインデクシングを行う画像分類装置を構成することができる。この場合には、「男性的な」という形容詞と合致する画像のファイルに「男性的な」を示すタグをつけ、「女性的な」という形容詞と合致する画像のファイルに「女性的な」を示すタグをつける。また、複数の形容詞に該当する場合は複数の形容詞をタグとしてつける。
【0091】
以上の説明はあくまで一例であり、上記の実施形態の構成に何ら限定されるものではない。
【図面の簡単な説明】
【0092】
【図1】感性形容詞の模式的分布を例示する図である。
【図2】「男性的な」サンプル画像を例示する図であり、(a)原画像を示す図、(b)V(輝度)面の統合エッジ画像を示す図、(c)統合エッジ画像の確率密度関数(pdf)を示す図である。
【図3】「男性的な」サンプル画像を例示する図であり、(a)原画像を示す図、(b)V(輝度)面の統合エッジ画像を示す図、(c)統合エッジ画像の確率密度関数(pdf)を示す図である。
【図4】「女性的な」サンプル画像を例示する図であり、(a)原画像を示す図、(b)V(輝度)面の統合エッジ画像を示す図、(c)統合エッジ画像の確率密度関数(pdf)を示す図である。
【図5】「女性的な」サンプル画像を例示する図であり、(a)原画像を示す図、(b)V(輝度)面の統合エッジ画像を示す図、(c)統合エッジ画像の確率密度関数(pdf)を示す図である。
【図6】「男性的な」のpdf分布形状を例示する図である。
【図7】「女性的な」のpdf分布形状を例示する図である。
【図8】画像検索装置を例示する図である。
【図9】PCが実行するモデル構築処理のフローチャートである。
【図10】PCが実行する画像検索処理のフローチャートである。
【図11】(a)はRGB画像、(b)は色相面画像、(c)は輝度面画像、(d)は彩度面画像である。
【図12】ウェーブレット変換によるサブバンド分割の様子を示す図である。
【図13】各解像度における高周波サブバンド面と、その確率密度関数(pdf)の分布を示す図である。
【図14】(a)は統合エッジ画像を例示する図であり、(b)はそのpdf分布を示す図である。
【図15】エボシ度の定義を例示する図である。
【図16】V面pdf形状の非対称性(歪度とエボシ度)に関する2次元マップテーブルである。
【図17】二次元マップを例示する図である。
【図18】「華麗な」サンプル画像を例示する図であり、(a)は原画像を示す図、(b)はV(輝度)面の統合エッジ画像を示す図、(c)はその確率密度関数(pdf)を示す図である。
【図19】感性検索に適した特徴量空間を例示する模式図である。
【符号の説明】
【0093】
10…PC
101…通信回線
102…サーバー
103…ハードディスク装置
104…記録媒体
【技術分野】
【0001】
本発明は、画像分類装置に関する。
【背景技術】
【0002】
従来、一枚の写真画像全体から人間が感じる印象を「爽やかな」や「みずみずしい」といった感性的な形容詞用語と対応づける試みがなされてきた。特許文献1では、画像を3つの代表色で近似し、事前に構築された3色配色と印象語を結びつけたデータベースと照らし合わせて写真画像の印象を割り当てる方法を提案している。
【0003】
他方、非特許文献1の最近の研究では、物体表面の光沢感という知覚的要素が、同じテキスチャ・シーン画像の階調変化に対する比較実験から、画像の輝度ヒストグラムの歪度やバンドパスフィルタ出力の歪度と関連しているとの指摘がなされ始めた。
【0004】
【特許文献1】特許第3020887号公報
【非特許文献1】I. Motoyoshi, S. Nishida, L. Sharan and E. H. Adelson,"Image statistics and the perception of surface qualities,"Nature, 2007, May 10; Vol.447(7141), pp.206-209.
【発明の開示】
【発明が解決しようとする課題】
【0005】
特許文献1の方法では、色に関する特徴は3色配色モデルという形で考慮されているものの、エッジやテキスチャ、更には空間的なコントラストの分布がどのような感性的な印象を与えるのかについては全く考慮がなされてこなかった。例えば、特許文献1の方法で、「男っぽい」写真に該当する画像を検索する実験をしてみると、全体的に暗くて黒っぽい画像ばかりが選ばれて、例えば凛々しく男性的に見える強いコントラストの鮮やかな風景写真などは全く抽出されず、実際の感性と多くの部分で合わないという問題があった。
【0006】
他方、非特許文献1では物体表面のテキスチャの光沢感の測定に関して重要な指針を示しているものの、光沢感以外の感性用語や、あらゆるシーンを含む一般画像への実際の展開はまだ未解明な部分が多い。
【0007】
このような状況の中で、あらゆるシーンや情景、テキスチャ領域が混在する一般写真画像に対し、写真全体の感性的な印象を的確に表現できるような形容詞群を判別するために、普遍的にエッジ・テキスチャ、コントラストと感性用語との結びつきが高い特徴量を見出すことにより、高度な感性検索への実現に向けた基盤の整備を行なうことを目的とする。すなわち、形容詞分類に適した特徴量を、エッジ、テキスチャ、コントラストに関連した軸に関して主に探索することを目的とする。
【課題を解決するための手段】
【0008】
(1)請求項1に記載の発明は、画像データに基づいて画像を分類する画像分類装置に適用される。そして、原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、統合された高周波帯域画像信号のヒストグラムを生成するヒストグラム生成手段と、生成されたヒストグラムの分布形状に基づいて、原画像を少なくとも2つの範疇の画像に分類する画像分類手段とを備えたことを特徴とする。
(2)請求項9に記載の発明は、画像データに基づいて画像を分類する画像分類装置に適用される。そして、原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、統合された高周波帯域画像に基づき、原画像から受ける人間の感性的な印象を形容詞に分類する画像分類手段とを備えたことを特徴とする。
(3)請求項10に記載の発明は、画像データに基づいて画像を分類する画像分類装置に適用される。そして、原画像の所定の性質が投影された画像信号のヒストグラムを生成するヒストグラム生成手段と、生成されたヒストグラムの形状のうち、ある1つの形状特性を区別するための特徴量を算出する特徴量算出手段と、特徴量に基づいて、原画像から受ける人間の感性的な印象を形容詞に分類する画像分類手段とを備え、特徴量算出手段は、ある1つの形状特性を区別するための特徴量として、少なくとも2種類の異なる指標を算出することを特徴とする。
【発明の効果】
【0009】
本発明によれば、画像から感性との結びつきが高い、特にテキスチャに関する特徴量を抽出したことにより、形容詞に関する高度な画像分類を実現することができる。
【発明を実施するための最良の形態】
【0010】
以下、図面を参照して本発明を実施するための最良の形態について説明する。
<事前の説明>
実施例の具体的なアルゴリズムの説明に入る前に、そのアルゴリズムが依拠する、実験的に解明した原理的な基礎事実について、幾つか例を挙げて説明する。すなわち、写真画像と感性用語との間の何らかの法則性の存在を模索するために、評価用にそれらが対となった基礎データの収集と、同一の形容詞が割り当てられた画像の間に共通する特徴がもし見出せられたならばモデル化し、感性画像検索の手段として利用とする。
【0011】
(A)感性用語と実写真データとの間の評価用データ収集
まず、実写真データから受ける感性的な印象の基礎データを作るため、風景写真や人物写真、街中の写真や接写写真などを含む様々な自然画像の写真数百枚の各々に対し、その一枚の画像全体から受ける印象を最も的確に表していると思われる感性的な形容詞を、任意の日本語の形容詞の中から一語、ないしはそれで表し切れない場合は数語程度までの範囲で名付ける作業を行なった。
【0012】
これらの形容詞を観察してみると、写真特有の「殺風景な」といった形容詞が割り当てられたりすることがあるものの、概して色感情を表すためによく用いられる473語の形容詞に近似的に当てはまることが多かった。この473語は、以下の文献(注1)の付録に示されている。
(注1)日本色彩学会編、色彩科学講座1、「カラーサイエンス」、2004年、朝倉書店、ISBN4-254-10601-7.
【0013】
また、上記特許文献1がデータベースとして用いた引用文献(注2)には代表的な感性形容詞用語として180語が示されている。
(注2)日本カラーデザイン研究所編、小林重順著、「カラーイメージスケール」(改訂版)、2006年、講談社、ISBN4-06-210929-8.
【0014】
これらの形容詞の中で、明らかにエッジやテキスチャ構造、コントラスト強度の視点から強い影響を受けていると思われる形容詞が多々存在した。すなわち、エッジやテキスチャ、コントラストの情報は人間の感性に大きな作用を及ぼしていると考えられる。例えば、晴れやかな太陽のもとで強いコントラストをなした木立が凛と並んで立っている情景などに対しては「凛々しい」という形容詞を割り当てたり、ゴツゴツした風景に対しては「男性的な」や「荒々しい」といったものや「力強い」といった言葉を割り当てたりしていた。一方で、なんとなく平穏で落ち着きを与えるような画像に対しては「穏やかな」や「女性的な」や「和やかな」や「まろやかな」などといった言葉を割り当てたりしていた。
【0015】
(B)感性用語(形容詞)と物理量との関係、及び感性モデルの構築
人間は、エッジやテキスチャ、コントラストの情報を画像全体として捉え、1つの情報としてすばやく感性的な印象を判断していると考えられる。つまり、部分、部分の領域に分けて子細に分析するようなモデルではなく、統合的な判断モデルを構築するのが感性分類のための特徴量としては望ましい。このようなシステムと丁度符合するようなテキスチャ情報量は、多重解像度表現の仕組みをうまく利用すれば構築することができる。すなわち、多重解像度でエッジ検出を行い、各解像度のテキスチャやコントラストの情報を多重解像度統合することによって1つの統合されたコントラスト情報にまとめることができる。ここに現れた信号を分析することにより、1つの統合された全体の印象を直接的に議論することが可能になるのではないかと考えたのである。そこで、全ての評価用データを解析して、統計的にある形容詞に対して共通の特徴をもった信号がそこに現れていないかを調査した。
【0016】
まず、統合エッジ情報のどの部分にどんなふうに感性要素が現れてくる可能性があるかを大雑把につかむために、評価用データを2つに分類することから可能性を探ってみた。エッジやテキスチャ、コントラストの構造が感性に与える第一印象として、広義の意味で「男性的な」と「女性的な」という集合体があるのではないかと考えた。すなわち、エッジ、テキスチャ、コントラストに関連した特徴量ベクトルの集合体軸に沿って、その原点から離れるほど一方の領域は「男性的」要素が強く、もう一方の領域は「女性的」要素が強くなるという切り口の分類方法があるのではないかと位置づけた。そして、それらの部分集合の中でより細やかな形容詞分類が存在しうるのであろうと想定する。
【0017】
広義の意味の「男性的な」に含まれうる形容詞としては、凛々しさ、荒々しさ、力強さ、重厚さ、荘厳さ、激しさ等々を表す感情表現が考えられ、一方、広義の意味の「女性的な」に含まれうる形容詞としては、穏和さ、微笑ましさ、可愛さ、母胎が包み込むような寛容さ・受容性、清楚さ、平和さ等々が表す感情表現が想定されうる。別ないい方をすれば、「男性的な」は硬いイメージで、「女性的な」は柔らかいイメージということができるかもしれない。これらの概念の想像図を図1に示す。
【0018】
その結果、評価用データの広義の「男性的な」の分類に当てはまりそうな画像群と広義の「女性的な」の分類に当てはまりそうな画像群との間には、多重解像度統合エッジ信号のヒストグラム(確率密度関数)の分布形状に顕著な違いが現れるということが判明した。すなわち、「男性的な」と「女性的な」という切り口の分類に対しては、確率密度関数(pdf)の分布形状の非対称性の違いとなって特徴が現れる。とりわけ輝度成分のpdf分布形状の非対称性の違いの中に、この2つの形容詞間の区別は集約されている。その典型的な分布例をそれぞれ2例ずつ画像と感性語と共に示す。
【0019】
図2および図3は、「男性的な」サンプル画像に該当する図である。図2(a)および図3(a)は、それぞれ原画像を示す図である。図2(b)および図3(b)は、それぞれV(輝度)面の統合エッジ画像を示す図である。図2(c)および図3(c)は、それぞれ統合エッジ画像の確率密度関数(pdf)の分布形状を示す図である。
【0020】
図4および図5は、「女性的な」サンプル画像に該当する図である。図4(a)および図5(a)は、それぞれ原画像を示す図である。図4(b)および図5(b)は、それぞれV(輝度)面の統合エッジ画像を示す図である。図4(c)および図5(c)は、それぞれ統合エッジ画像の確率密度関数(pdf)の分布形状を示す図である。
【0021】
ここで重要なことは、通常、多重解像度変換された高周波サブバンド画像の各々のpdf分布は、メモリレス・ソースとなって対称分布し、一般にガウス分布からラプラス分布をも含むGeneralized Gaussian分布f(x)=a*exp(-|(x-m)/b|^α)で近似できるということが知られている。この事実を考え合わせれば、pdf分布が非対称になるという現象は極めて顕著な特徴をつかんでいるということができる。
【0022】
「男性的な」のpdf分布形状は、図6に例示するように、統計的に多くの画像に共通して、零を挟んで負の側に大きな三角形の裾野が現れるようにして太り、正の側には尾を引くような分布構造をしている。これは、画像内で観測される信号との関連を以下のように解釈すれば理解できる。すなわち、画像内に黒くてゴツゴツしたような締まりのある領域がいろんな解像度スケールで一定の面積を伴って存在し、それらが微小面積であるが高輝度部からなる領域と強いコントラストをなしている。そのとき、複数の解像度で同じような状況が同じような場所の空間配置域で生じていたとすると、それらの連なりが統合エッジ・コントラスト強度の度数分布の非対称性として現れるようになる。
【0023】
一方の「女性的な」のpdf分布形状は、図7に例示するように、「男性的な」とは逆の構造をとりうる。逆構造の場合の解釈は以下のようにできる。すなわち、全体的に変動率の少ない大面積の平均的な明るさを備えた部分に対し、鉛筆やチョークでレタッチするような感覚で描写するように微小面積の縁取りで小面積の構造物が表現されているような場合、このようなコントラスト構造になりやすい。したがって、例えば大きな船が画面いっぱいに大きく写るような写真は船体部や背景部が大面積領域に相当し、甲板上の細かい艦橋などの構造物が微小面積部に相当し、船が英語では「she」という代名詞で受けるような印象を与える。あるいは、風景写真などの場合は、一面の空や海や草原などが大面積部をなして、小さく写り込んだ民家などの構造物が小面積部のコントラスト構造となって穏やかに包み込むような印象を与える。
【0024】
ただし、「女性的な」はその逆構造だけに留まらず、極めて複雑で繊細な振るまいをする分布構造も存在していることが確認された。例えば、見た目はほとんど対称なpdf分布形状をしているにも関わらず、微妙な裾野の非対称性がそのような印象を与えることに貢献していたりすることがあるのである。したっがって、「女性的な」の分布形状の一般形を論ずることは概して難しく、「男性的な」でない場合が「女性的な」であると捉えるのが素直な考え方である。このような繊細さや複雑さは不思議と人間の感性と相通じるところがあるのではないかと推察される。
【0025】
以上説明してきたように、複数の解像度でのエッジ・コントラストを統合すると、テキスチャや画像構造の空間的な配置関係が複数の解像度階層間で連なって反映され、たとえ各バンド面で対象なpdf分布形状をしていても、画像のシーンに依存して統合後は非対称性を示す。すなわち、統合エッジのpdf分布形状は、異なる解像度間のコントラストの空間的な配置関係から想起される感性の特徴情報を反映している。したがって、そのpdf分布形状を表す特徴量は、テキスチャに関する特徴量の主軸をなすベクトル要素として、感性分類に適した縮約された特徴量空間を築くことができると考えられる。
【0026】
<発明の実施の形態>
上述のように感性モデルが記述できることが示されたことを念頭に、データベースの画像を感性キーワード(形容詞)に基づいて検索する画像検索装置を説明する。図8は、画像検索装置を例示する図である。画像検索装置は、パーソナルコンピュータ10により実現される。パーソナルコンピュータ10は、不図示のデジタルカメラやメモリカードデータ読取り器、他のコンピュータなどと接続され、電子画像データの提供を受けて画像データをストレージ装置(たとえば、ハードディスク装置)内に蓄積する。パーソナルコンピュータ10は、蓄積した画像データを対象にして以下に説明する画像検索を行う。
【0027】
パーソナルコンピュータ10に対するプログラムのローディングは、プログラムを格納したCD−ROMなどの記録媒体104をパーソナルコンピュータ10にセットして行ってもよいし、ネットワークなどの通信回線101を経由する方法でパーソナルコンピュータ10へローディングしてもよい。通信回線101を経由する場合は、通信回線101に接続されたサーバー(コンピュータ)102のハードディスク装置103などにプログラムを格納しておく。標題付与プログラムは、記録媒体104や通信回線101を介する提供など、種々の形態のコンピュータプログラム製品として供給することができる。パーソナルコンピュータ10は、CPU(不図示)およびその周辺回路(不図示)から構成され、CPUがインストールされたプログラムを実行する。
【0028】
以下、パーソナルコンピュータ10が実行するモデル構築処理と、構築した感性モデルを使用して行う画像検索処理について説明する。モデル構築処理は、画像検索処理を行う前に、たとえば、パーソナルコンピュータ10のストレージ装置内に保存されている画像ファイルを対象に行われる。
【0029】
図9は、パーソナルコンピュータ(以下PCとする)10が処理するモデル構築処理の流れを説明するフローチャートである。図9による処理は、たとえば、ストレージ装置内に画像ファイルが保存されるときに実行される。
【0030】
(1)RGB空間からマンセルHVC空間への変換
図9のステップS11において、PC10は画像ファイルの画像データを、人間の知覚的な均等色性が高いマンセル色空間へ変換する。マンセル色空間は、色相Hが一周100度で分割され、輝度Vが0〜10のレベルに、彩度Cが0〜25程度に分布するレベルに刻まれた色空間で、Vの色差1に対してCの色差2が同等の色差として知覚する等歩度性を満たすように設計された色空間である。
【0031】
そのうちのCの値が1以下の領域とVの値が0.5以下、及び9.5以上の領域がN(ニュートラル色相)と定義されている。RGB空間で表された色空間からHVC色空間へはXYZ空間への変換を介して近似的に数学的に変換できることが、例えば、下記文献(注3)の中で引用されている。これは、均等色空間の1つであるL*a*b*ないしはL*C*H*の定義を利用して、その均等色性の不十分であるところを修正する式を導入することによって実現されている。
(注3)Y. Gong, C.H. Chuan and G. Xiaoyi, "Image Indexing and Retrieval Based on Color Histograms," Multimedia Tools and Applications 2, 133-156 (1996).
【0032】
入力画像が例えば出力ガンマ特性の掛かったsRGB色空間で表された画像である場合、マンセルHVC空間への変換は、まず、線形階調に戻した後、XYZ空間へsRGB規格に従って変換する。後は上記文献(注3)に記載の式に沿って、立方根特性の非線形階調を導入しながらマンセルHVC空間へ変換する。変換手順はステップS11−1〜ステップS11−4の4段階で行う。
【0033】
(線形階調sRGBへの変換)
ステップS11−1では、sRGB画像のようなガンマ補正がなされた画像データのガンマ補正を解いて線形階調に戻した状態にする。変換式は式(1)による。
【数1】
【0034】
(XYZ空間への変換)
ステップS11−2では、線形階調に戻したRGB空間のデータをXYZ空間のデータへ変換する。変換式は式(2)による。
【数2】
【0035】
(M1,M2,M3空間への変換)
ステップS11−3では、XYZ空間のデータをM1,M2,M3空間のデータへ変換する。変換式は式(3)による。
【数3】
【0036】
(HVC空間への変換)
ステップS11−4では、M1,M2,M3空間のデータをHVC空間のデータへ変換する。変換式は式(4)による。
【数4】
【0037】
RGB空間におけるサンプル画像と、当該サンプル画像をマンセルHVC空間へ変換した場合の色相面H、輝度面V、彩度面Cの各画像とを図11に例示する。図11(a)はRGB画像、図11(b)は色相面画像、図11(c)は輝度面画像、図11(d)は彩度面画像である。図11(b)〜図11(d)は、上記ステップS11−1〜ステップS11−4の手順を経て生成されたものである。
【0038】
(2)V面:テキスチャ特徴量の記述
ステップS11の次に進むステップS12において、PC10は輝度(V)面においてテキスチャ特徴量を評価する。テキスチャ特徴量の評価手順はステップS12−1〜ステップS12−4の4段階で行う。
【0039】
(多重解像度変換とエッジ抽出)
ステップS12−1では、ウェーブレット変換を用いて多重解像度表現された周波数空間に射影して、輝度面の高周波のエッジ成分を抽出する。ここではエッジ成分として、ウェーブレット分解された高周波サブバンドLH,HL,HHをそのまま使うものとする。この様子を模式的に書けば、解像度M段まで分解するとき、次式(5)となる。
【数5】
【0040】
ウェーブレット変換としては、例えば以下のような5/3フィルタなどを用いる。
<ウェーブレット変換:Analysis/Decompositionプロセス>
ハイパス成分:d[n]=x[2n+1]-(x[2n+2]+x[2n])/2
ローパス成分:s[n]=x[2n]+(d[n]+d[n-1])/4
【0041】
上記定義の1次元ウェーブレット変換を、横方向と縦方向に独立に2次元分離型フィルタ処理を行うことによって、ウェーブレット分解する。係数sをL面に集め、係数dをH面に集める。
【0042】
ウェーブレット変換にはハイパスフィルタが一次微分で定義される中心に対し非対称フィルタ係数の2/6フィルタや2/10フィルタ等の偶数タップ型と、ハイパスフィルタが二次微分で定義される中心に対し対称フィルタ係数の5/3フィルタや9/7フィルタ等の奇数タップ型とが存在するが、実験によれば偶数タップの2次微分型のほうが本目的に適しているようである。
【0043】
また、エッジ成分として多重解像度変換された高周波サブバンドLHi,HLi,HHi(i=1,2,...,M)をそのまま用いる以外に、これらのサブバンドに対して再度エッジ検出フィルタであるラプラシアンを掛けた結果をエッジ成分としてもよい。前者のウェーブレット変換された高周波サブバンドが2次微分型のエッジ成分を表すのに対し、後者の更に2次微分のラプラシアン・フィルタを掛けた高周波成分は4次微分型のエッジ成分を表す。さらに多重解像度変換の別の方法として、ウェーブレット変換以外にラプラシアン・ビラミッドを使う方法もある。
【0044】
このようにハイパスフィルタを用いて抽出されたエッジ成分は、γ補正による非線形階調変換がなされた輝度面で検出しているので、局所的なコントラスト情報を表す。すなわち、階調補正の分野では線形階調における局所平均輝度と対象画素の輝度との比を、人間の視覚が局所的な領域に順応して、その部分領域のコントラストとして認識するレチネックス機構と等価な情報を抽出している。これを多重解像度で抽出したエッジ成分は、マルチスケール・レチネックス表現されたコントラスト情報ともいえる。レチネックス理論については、例えば文献(注4)に記載されている。
(注4)D.H. Brainard and B. A. Wandell, "Analysis of the retinex theory of color vision," J. Opt. Soc. Am. A, Vol.3, No.10, October 1986, pp.1651-1661.
【0045】
また、こうして多重解像度変換によって生成された高周波バンドの信号値のヒストグラム(確率密度関数と呼ばれ、上述したようにpdfと略す)が、ガウス分布やラプラス分布をすることが文献(注5)に記載されている。一般に、pdfの分布形状は対称なGeneralized Gaussianで近似できる。
(注5)Michael J. Gormish, "Source coding with channel, distortion, and complexity constraints," Doctor thesis, Stanford Univ., March 1994, Chapter 5: "Quantization and Computation-Rate- Distortion."
【0046】
多重解像度変換の段数Mの値は、各バンドのpdfのヒストグラムが荒れない程度の画素数を有するところまで分解するとよい。例えば、Quad VGAサイズ(1280×960)の画像に対しては5段程度、QVGAサイズ(320×240)の画像に対しては3段程度、2000万画素の画像に対しては7段程度にするとよい。
【0047】
図12は、4段のウェーブレット変換によるサブバンド分割の様子を示す図である。たとえば、第1段のウェーブレット変換では、実空間の画像データに対し、まず横方向にすべての行についてハイパス成分およびローパス成分のデータを抽出する。その結果、横方向に半分の画素数のハイパス成分およびローパス成分のデータが抽出される。それを、たとえば実空間の画像データがあったメモリ領域右側にハイパス成分、左側にローパス成分を格納する。
【0048】
次に、メモリ領域右側に格納されたハイパス成分および左側に格納されたローパス成分のデータに対して、それぞれ縦方向にすべての列について、ハイパス成分およびローパス成分のデータを抽出する。その結果、メモリ領域右側のハイパス成分および左側のローパス成分のそれぞれから、さらにハイパス成分およびローパス成分のデータが抽出される。それらを、それぞれのデータがあったメモリ領域下側にハイパス成分、上側にローパス成分を格納する。
【0049】
その結果、横方向にハイパス成分として抽出されたデータから縦方向にハイパス成分として抽出されたデータをHHと表し、横方向にハイパス成分として抽出されたデータから縦方向にローパス成分として抽出されたデータをHLと表し、横方向にローパス成分として抽出されたデータから縦方向にハイパス成分として抽出されたデータをLHと表し、横方向にローパス成分として抽出されたデータから縦方向にローパス成分として抽出されたデータをLLと表す。ただし、縦方向と横方向は独立であるので、抽出の順序を入れ替えても等価である。
【0050】
次に、第2段のウェーブレット変換では、第1段のウェーブレット変換で横方向にローパス成分として抽出されたデータから縦方向にローパス成分として抽出されたデータLLに対し、同様にハイパス成分及びローパス成分の抽出を行う。これを4段まで繰り返し行うと図12のようになる。
【0051】
図13は、各解像度における高周波サブバンド面と、その確率密度関数(pdf)の分布形状を示す図である。上段が各段に対応するpdf形状を表し、下段が対応するサブバンド面を表す。これらは、図2に例示したサンプル画像に対応する。
【0052】
(多重解像度統合)
上述のようにして抽出された高周波サブバンドは、各解像度スケールにおけるエッジ、テキスチャ、コントラストに関する情報を表している。ステップS12−2では、これらの情報を統括的に扱うため、高周波サブバンドのみによる多重解像度逆変換を行い、エッジ統合を行なう。すなわち、最低解像度の低周波サブバンドLLMを除外し、それらの値を全て零に設定した後に、残りの高周波サブバンドを順次逆ウェーブレット変換を行なう。この様子を模式的に書くと、入力画像と同じ解像度を持つ統合エッジ成分をEとして、次式(6)になる。
【数6】
【0053】
この統合段階において、階層の異なるエッジ、テキスチャ、コントラストの情報が空間的な位置関係を考慮して別の階層へ伝達されることになる。なお、ラプラシアン・ピラミッドを用いた場合は、最低解像度のガウシアン面を零に設定し、残りのラプラシアン面を逐次統合することになる。
【0054】
(統合エッジのヒストグラム(pdf)作成)
ステップS12−3では、統合エッジ成分のヒストグラム、すなわち確率密度関数(pdf)を作成する。pdfはエッジ強度のヒストグラムであるので、正と負に同程度の度数積分面積をもつ原点をピークとする分布になる。一般に、解像度間で無相関のメモリレス・ソースである場合、各階層で対称なpdf分布形状をしていたものは、統合してもそのまま対称なpdf分布形状となって統合される。しかしながら、解像度間で相関がある場合、その相関の様子がpdf分布の形状という形で投影されうる。「凛々しい」と名称付けられた画像、すなわち「男性的な」の分類の画像が、エッジの統合によって非対称pdf分布形状が生まれる様子を図14に示す。
【0055】
図14(a)は図13の下段の高周波サブバンドを統合した統合エッジ画像を示す図であり、図14(b)は図14(a)のpdf分布形状を示す図である。ただし、図14は表示の都合上、原点にオフセット(=100)が加えてある。このような統合エッジのpdf分布の特徴的な形状は、最低解像度からおよそ3段分ぐらいのエッジ成分を統合するとほぼその形が現れてくることが実験的に確認された。したがって、もし簡略に済ませたいような場合は、最後の実解像度まで統合しなくても、統合途中段階のpdf分布形状を評価するようにしてもよい。
【0056】
(輝度面の特徴量の算出)
pdf分布形状の特徴としてまず挙げられるのが、その非対称性である。この非対称性を表すための指標としては、数学的にはヒストグラムの3次モーメントである歪度という指標がある。しかしながら、実験的に調べたところ、この歪度は微小度数分布の裾野(tail)の特性に敏感で、中心付近の度数分布の多いところの非対称性が過小に評価されやすく、ヒストグラム全体からみた非対称性の方向の印象を反映していない場合があるということが分かった。そこで、ヒストグラムの非対称性を評価するための指標としてはもう一つ、実験学的に定めるエボシ度というものを導入する。「烏帽子(エボシ)」という言葉は、そのヒストグラムの分布形状が日本の平安時代に被られていた帽子の形に非常によく似ているからそう名付けた。
【0057】
歪度は裾野の特性に敏感な指標であり、エボシ度は鈍感な指標であるともいえる。この裾野の特性がまた細かなヒストグラム形状の分類を可能にする潜在性を秘めている。一般に、感性用語として用いられる形容詞には、幾つかの形容詞がまとまりをなして同類系に入る全体的な範疇を指す要素とその範疇の中の細かな区別を表す要素とを1つの言葉の中に兼ね備えている。例えば、「賑やかな」という形容詞群の範疇の中には「賑やかな」自身の他に、「華やかな」や「賑わしい」、「派手な」といった細かな区別が存在する。したがって、感性分類のための特徴量として、このように同じ側面の特徴を、全体的な傾向をつかむものと細かな分類をも可能にするものとの2つの視点から評価するということは、極めて合理的な方法であるといえる。
【0058】
ステップS12−4では、以下のように輝度面の非対称性を表す特徴量を算出する。
(i)エボシ度の定義
エボシ度はヒストグラムの半値幅FWHM(Full Width at Half Maximum)の中心座標の原点からのずれと、ヒストグラムがピーク点から縦軸に沿って下方向に向けて積分して面積率が95%になるところの幅FWP95(Full Width at Population 95%)の中心座標の原点からのずれとを合わせてゆがみ度を評価する。すなわち、次式(7)でエボシ度を表す。
eboshi degree=(central position of FWP95)−(central position of FWHM) (7)
【0059】
裾野が正の領域に広がっている場合はエボシ度が正の値を示し、そのゆがみが大きいほど大きな値を示す。また、度数の大きい中心付近のゆがみもFWHMを通して評価される。それが負の領域に膨れている場合は、またエボシ度が正の値を示すようになる。したがって、エボシ度が正のときは左を向いた烏帽子の形を、エボシ度が負のときは右を向いた烏帽子の形を概略表している。図15は、エボシ度の定義を例示する図である。
【0060】
(ii)歪度の定義
pdfの全積分値で規格化して、pdfを確率密度関数で表したものをp(x)、横軸のエッジ強度をxで表す。平均値aveは次式(8)で、標準偏差σは次式(9)で、歪度(skewness)は次式(10)でそれぞれ表される。
【数7】
平均値は常に零近辺の値をとるので、予め零に設定してもよい。このように定められたエボシ度と歪度を、pdfの分布形状の非対称性を表す特徴量とする。
【0061】
(3)C面:テキスチャ特徴量の記述
図9のステップS12の次に進むステップS13において、PC10は彩度(C)面においてテキスチャ特徴量を評価する。彩度C面についても輝度V面と同様にpdf分布形状に特徴が表れるので、少なくともその非対称性について同様にエボシ度と歪度で測ることが可能である。テキスチャ特徴量の評価手順は上述したステップS12−1〜ステップS12−4と同様に4段階で行えばよい。
【0062】
ステップS13の処理を終えたPC10は、ステップS11〜ステップS13の処理で算出した各特徴量を特徴量情報として当該画像のサムネイル画像データに関連づけて画像ファイル内に記述したうえで、該画像ファイルを被検索対象の登録画像としてデータストレージ装置内に記録し、モデル構築処理を終了する。
【0063】
(4)形容詞のテキスチャ特徴量に関するモデル
上記記述は、テキスチャ特徴量に基づいて「男性的な」と「女性的な」を分類する感性モデルを記述する。よって、ここではV面のみのpdf分布形状の非対称性を扱う。冒頭の「感性モデルの構築」で述べたように、「男性的な」は典型的な左方向を向いた烏帽子の形をする。これは特徴量としては単純に、非対称性を表すエボシ度と歪度が共に正の値を示す。一方の「女性的な」は、これとは反対のエボシ度と歪度が共に負の値を示す場合に留まらず、複雑で繊細な分布形状をするので、どちらか一方が負の値を示す場合であってもその性質を備えていることが、評価用データから統計的に確認された。したがって、歪度とエボシ度の二次元マップを書くと図16、図17に例示するようになる。図16は、V面pdf形状の非対称性(歪度とエボシ度)に関する2次元マップテーブルであり、図17は二次元マップを例示する図である。
【0064】
ところで、上述した分類は「男性的な」か「女性的な」の二者択一の分類であるが、pdf分布形状の非対称性がない画像はどのような特性をもっているかを考察してみる。pdf分布形状はコントラストの空間分布を反映した指標であるので、例えばエボシ度が完全に零であるような対称性のよい画像は、完全に無相関という場合も考えられるが、そのような特殊な場合よりもむしろ相関を成して対称性を保った極めてコントラスト分布のバランスがよい写真であることを示唆している。したがって、写真としての総合的な出来栄えがよく、万人受けのするスコアの高い画像である可能性が高い。ただし、写真のスコアが高くても「男性的な」と「女性的な」の何れかに所属した中での評価であることを付け加えておく。
【0065】
上述の分類は、pdf分布形状の非対称性を特徴として分類した感性モデルであるが、その他にもpdf分布形状は多くの形容詞の要素との結びつきの可能性が高いことを、「華麗な」と名付けられた画像の輝度面のpdf分布形状の例を示して指摘しておく。図18は、「華麗な」サンプル画像について例示する図である。図18(a)は、原画像を示す図である。図18(b)は、V(輝度)面の統合エッジ画像を示す図である。図18(c)は、統合エッジ画像の確率密度関数(pdf)の分布形状を示す図である。すなわち、この場合はpdf分布形状のtailnessと中心付近の痩せ細り度が大きく関与している可能性が高い。
【0066】
以上は、輝度面のpdf分布形状に基づいた感性モデルを記述する特徴量について議論したが、同様な議論は彩度面のpdf分布形状についても当てはまる。両者の特徴量を併用すれば、より複雑な多くの形容詞の判別を可能にする。また、pdf分布形状の特徴量の定義は上述に留まらず、より細やかな別の特徴量を定義してもよい。また、例えばpdf分布形状を正の領域と負の領域で別々にGeneralized Gaussian関数をフィッティングするようにして、ラプラス分布からガウス分布のどの当りに近いのかを表す冪指数パラメータと分布の広がり度を表す標準偏差で分布形状を特徴量化してもよい。
【0067】
上述したように保存されている画像ファイルの特徴量情報が、次に説明する画像検索処理のステップS40における類似性判定において用いられる。PC10は、画像検索処理プログラムが起動されると図10による処理を実行する。図10のステップS20において、PC10は、形容詞が入力されたか否かを判定する。PC10は、画像検索のための形容詞がキーボードまたはポインティングデバイスによって入力された場合にステップS20を肯定判定してステップS30へ進む。PC10は、形容詞が入力されない場合にはステップS20を否定判定してステップS20へ戻る。
【0068】
ステップS30において、PC10は、あらかじめデータストレージ装置内に記録されている上記歪度とエボシ度の二次元マップを参照し、形容詞(たとえば「男性的な」)に対応付けられている感性モデルをそれぞれデータベースから読み出してステップS40へ進む。ステップS40において、PC10は類似性判定を行う。
【0069】
類似性判定は、登録画像としてあらかじめデータストレージ装置内に登録されている画像の特徴量情報と、ステップS30で読み出した感性モデル値(特徴量)とを比較することによって行う。また、特徴量が事前に算出されていない画像が被検索対象に選ばれた場合は、その都度必要に応じて特徴量を算出するとよい。つまり、検索対象の入力画像に対してステップS11〜ステップ13の処理によってその画像を特徴量空間に射影した後に、検索キーワードの形容詞に対して構築された上記(4)の感性モデルとの類似度を、特徴量空間での距離比較を行なうことによって測り、その検索対象の形容詞の印象に合う画像か否かを判別する。
【0070】
図10のステップS50において、PC10は表示部の画面に検索結果を表示させて図10による処理を終了する。検索結果の表示は、該当するサムネイル画像を並べて表示することによって行う。つまり、データストレージ装置内に登録されている画像ファイルのうち、形容詞に合致すると判定した特徴量を有する画像ファイルのサムネイル画像が、表示画面にサムネイルリストとして表示される。
【0071】
以上説明した実施形態によれば、次の作用効果が得られる。
(1)多重解像度で抽出された高周波成分を順次統合して、1つに統合された高周波成分を作成すると、画像全体のエッジ、テキスチャ、コントラストに関する情報が空間的な配置関係の構成も踏まえた統合的な情報量として集約されて、全く異なるシーンであっても感性的な印象を人間に知覚させる因子がその高周波成分のヒストグラムの形状として統計的に現れやすいということが判明したので、そのヒストグラム形状を特徴量として採用することにより、写真の感性分類に極めて適した縮約された特徴量を提供することが可能になる。その結果、形容詞判別性の高い高度な感性分類を可能とする。
【0072】
(2)実際に「男性的な」と「女性的な」の分類で感性検索の実験をしてみた結果、事前に作成した画像と形容詞用語の対となった評価用データを「広義の意味で形容詞解釈した場合の分類」の意味でよく再現し、非常に人間の感性に近い画像検索を実現することができた。
【0073】
例えば、「女性的な」と分類された画像の中には広大で包み込むような写真が正確に分類されていた。中でも男性的な要素と女性的な要素を両方兼ね備えているような画像の場合には、そのどちらが支配的であるかを人間が印象として測るのと同じようにして判断していると推察される結果も存在した。例えば、海に沈む夕日の場合、夕日のギラギラ感が力強く男性的であってもその太陽の面積が小さい場合、周りの海や空の広大さが勝って、写真全体としては優しく包み込むような印象を受けるので、pdf分布形状としても男性的要素よりも女性的要素が強くなり、全体的には女性的であるという結論がpdf分布形状を通じて現れ、正しく判別されていた。
【0074】
(3)特許文献1の3色配色モデルに押し込める従来技術と比較してみても、特徴量の軸が全く異なるため、劇的な改善を実現する。例えば、「男性的な」という形容詞に対しては、単純な色相イメージから来る黒っぽい画像ばかりが選ばれるようなことはなく、色相イメージに左右されずにコントラストやスケールの観点から正確に感性の合う画像が選択されている。
【0075】
(4)また、暗黒の背景に可憐な花が写り込んでいるような、「可憐な」、広義の意味の「女性的な」印象の画像は、従来技術では全体的に黒っぽいので「男性的な」と判断されるが、本実施形態では、形容詞の印象通りに「女性的」に分類される結果となった。
【0076】
(5)このように多重解像度統合したエッジ成分のヒストグラム分布形状は、マルチスケールで局所的にも大局的にもコントラストを総合的視点から観察した特徴量であるので、人間の脳の知覚・認識過程と極めて相関の高い、感性が縮約された指標の物理量を提供している可能性が高いと推察される。
【0077】
(6)こうして、形容詞との連動性が高い縮約されたテキスチャ特徴量の存在を解明してそれらの特徴量空間での比較を行なえるようになったため、より高度な感性に基づく画像検索が可能となる。
【0078】
(7)PC10は、多重解像度のエッジ成分を統合した後のpdf分布形状を判別するための参照用データを画像の印象を表す形容詞に関連づけて感性モデルとしてデータストレージ装置に格納し、入力された形容詞情報に基づいて、当該形容詞に関連づけられている参照用データに類似する画像を検索するようにした。pdf分布形状を比較対象にするので、従来技術のように3色配色と印象語とを結びつけた膨大な数のモデル例との比較を行うことなく、人の感性に近い形容詞に対応するグループに画像を分類できる。
【0079】
また、形容詞と、pdf分布形状を示す特徴量(参照用データ)との対応関係を示す二次元マップとして感性モデルを構築したので、pdf分布形状そのものの比較でなく、形容詞と関連性の深い特徴量に基づいた比較を行うことができる。また、より縮約された特徴量比較を行うことができるので、検索を非常に容易にすることができる。
【0080】
(8)pdf分布形状の非対称性を歪度を用いて表すようにしたので、歪度の比較によってpdf分布形状の合致度(類似性)を判定できる。
【0081】
(9)pdf分布形状の非対称性をエボシ度を用いて表すようにしたので、エボシ度の比較によってpdf分布形状の合致度(類似性)を判定できる。
【0082】
(変形例1)その他のテキスチャ特徴量
本実施形態では、テキスチャ特徴量として、多重解像度のエッジ成分を統合した後のpdf分布形状を示したが、各々の解像度のエッジ成分のpdf分布の形状も場合によってはテキスチャ特徴量として扱うことができる。すなわち、各々の解像度ではpdf分布に非対称性が少ないと考えられるので、分布幅を指標とした特徴量を解像度について連ならせた特徴量ベクトル(1,2,...,M)を組む。また、各々の階層がラプラス分布に近いかガウス分布に近いかの情報も連ならせてもよい。ただし、この場合、解像度間の空間的な配置関係の相関情報が反映されなく、また、その情報量も冗長である。
【0083】
(変形例2)モデルの統計学習
上記実施形態では、pdf分布形状をエボシ度や歪度の特徴量に変換して、形状の分類比較をしたが、pdfのヒストグラム分布そのままを特徴量として、判別処理ではモデルと入力画像との間でヒストグラムの分布形状のパターン・マッチングを行なうようにしてもよい。
【0084】
(変形例3)
更にモデルpdfの形状に関する特徴量を統計学習することによって構築するようにしてもよい。その場合、一枚一枚の画像毎に検索対象として用意する形容詞の全てについて該当するか否かを、複数人のアンケート調査をして統計をとり、ある形容詞に対して該当度合いの高い画像に重みをつけて、pdf分布の平均をとるような操作をして、分布形状の形を教師学習させるようなことになる。あるいは分布形状に関する特徴量空間で統計平均してもよい。
【0085】
(変形例4)感性判別関数の一般化
感性に作用する特徴量として、本実施形態ではテキスチャ特徴量の解明を主として取り組んだが、その他にも感性と直接結びつきが高い、テキスチャとは独立な特徴量の軸が幾つか存在すると考えられる。例えば、色の特徴量や形の特徴量などが考えられる。色に関する特徴量は、代表色相の値やそれが占める面積率、輝度・彩度に関する特徴量など、感性と結びつきの深い特徴量として何個か、あるいは十数個程度に及ぶかもしれないベクトルが構築されうると考えられる。これらの別の軸の特徴量をテキスチャ特徴量と合わせて、色々な形容詞に対する感性判別関数を構築すれば更に判別可能な形容詞のバラエティーが増え、判別精度が向上すると考えられる。この拡張の様子を式で提示すれば、次式(11)で表せる。また、模式図を図19に例示する。
【0086】
Pi=Fi(テキスチャ特徴量;色の特徴量;形の特徴量;…) (11)
ただし、Piは形容詞iである度合いを表す確率であり、Fiは形容詞iを判別する関数である。判別関数の引数をセミコロン(;)で区切ったのは、各々の特徴量として図19に例示したように幾つかの特徴量の集合体となる特徴量ベクトルを想定しているからである。
【0087】
また、色の特徴量に対しても1つの性質を調べる際に、テキスチャ特徴量で導入したのと同じような考えに基づき、例えば色に関連する輝度や彩度のヒストグラムの分布形状を議論するときなどに鈍感指標と敏感指標を合わせて導入すると形容詞判別の分類性能が向上する可能性がある。すなわち、色の特徴についても安定的に大ぐくり分類できつつも、微妙に細やかに表現の異なる形容詞の区別がつくようになる可能性がある。
【0088】
(変形例5)
以上の説明では、あらかじめ登録した複数の登録画像の中から、入力された形容詞に合致する画像を自動検索する画像検索装置を説明した。これとは逆に、感性モデルリストをPC10のデータストレージ装置に保存しておくことにより、入力された画像が呼び起こす感性に合致する形容詞を検索する形容詞検索装置を構成することもできる。この場合には、新たに入力された画像データについて、ステップS11〜S13の処理を行うことにより、当該入力画像の特徴量情報(比較用データ)を算出する。
【0089】
そして、入力画像の特徴量(比較用データ)を上記二次元マップの中の特徴量(参照用データ)と順次比較することによって、当該画像の特徴量(比較用データ)と類似する特徴量(参照用データ)に対応する形容詞を自動検索する。
【0090】
検索した形容詞を示すタグを画像ファイルにつければ、形容詞のインデクシングを行う画像分類装置を構成することができる。この場合には、「男性的な」という形容詞と合致する画像のファイルに「男性的な」を示すタグをつけ、「女性的な」という形容詞と合致する画像のファイルに「女性的な」を示すタグをつける。また、複数の形容詞に該当する場合は複数の形容詞をタグとしてつける。
【0091】
以上の説明はあくまで一例であり、上記の実施形態の構成に何ら限定されるものではない。
【図面の簡単な説明】
【0092】
【図1】感性形容詞の模式的分布を例示する図である。
【図2】「男性的な」サンプル画像を例示する図であり、(a)原画像を示す図、(b)V(輝度)面の統合エッジ画像を示す図、(c)統合エッジ画像の確率密度関数(pdf)を示す図である。
【図3】「男性的な」サンプル画像を例示する図であり、(a)原画像を示す図、(b)V(輝度)面の統合エッジ画像を示す図、(c)統合エッジ画像の確率密度関数(pdf)を示す図である。
【図4】「女性的な」サンプル画像を例示する図であり、(a)原画像を示す図、(b)V(輝度)面の統合エッジ画像を示す図、(c)統合エッジ画像の確率密度関数(pdf)を示す図である。
【図5】「女性的な」サンプル画像を例示する図であり、(a)原画像を示す図、(b)V(輝度)面の統合エッジ画像を示す図、(c)統合エッジ画像の確率密度関数(pdf)を示す図である。
【図6】「男性的な」のpdf分布形状を例示する図である。
【図7】「女性的な」のpdf分布形状を例示する図である。
【図8】画像検索装置を例示する図である。
【図9】PCが実行するモデル構築処理のフローチャートである。
【図10】PCが実行する画像検索処理のフローチャートである。
【図11】(a)はRGB画像、(b)は色相面画像、(c)は輝度面画像、(d)は彩度面画像である。
【図12】ウェーブレット変換によるサブバンド分割の様子を示す図である。
【図13】各解像度における高周波サブバンド面と、その確率密度関数(pdf)の分布を示す図である。
【図14】(a)は統合エッジ画像を例示する図であり、(b)はそのpdf分布を示す図である。
【図15】エボシ度の定義を例示する図である。
【図16】V面pdf形状の非対称性(歪度とエボシ度)に関する2次元マップテーブルである。
【図17】二次元マップを例示する図である。
【図18】「華麗な」サンプル画像を例示する図であり、(a)は原画像を示す図、(b)はV(輝度)面の統合エッジ画像を示す図、(c)はその確率密度関数(pdf)を示す図である。
【図19】感性検索に適した特徴量空間を例示する模式図である。
【符号の説明】
【0093】
10…PC
101…通信回線
102…サーバー
103…ハードディスク装置
104…記録媒体
【特許請求の範囲】
【請求項1】
画像データに基づいて画像を分類する画像分類装置であって、
原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、
前記高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、
前記統合された高周波帯域画像信号のヒストグラムを生成するヒストグラム生成手段と、
前記生成されたヒストグラムの分布形状に基づいて、前記原画像を少なくとも2つの範疇の画像に分類する画像分類手段とを備えたことを特徴とする画像分類装置。
【請求項2】
請求項1に記載の画像分類装置において、
前記画像分類手段は、前記ヒストグラムの分布形状の非対称性に基づいて前記原画像を分類することを特徴とする画像分類装置。
【請求項3】
請求項2に記載の画像分類装置において、
前記画像分類手段は、前記ヒストグラムの分布形状の非対称性を、前記ヒストグラムの歪度を特徴量として表すことを特徴とする画像分類装置。
【請求項4】
請求項2に記載の画像分類装置において、
前記画像分類手段は、前記ヒストグラムの分布形状の非対称性を、ヒストグラムの中心ピークの高さに対して少なくとも2つの所定の高さにおける分布幅の中心座標のずれを特徴量として表すことを特徴とする画像分類装置。
【請求項5】
請求項1に記載の画像分類装置において、
前記画像統合手段は、前記統合された高周波帯域画像を、少なくとも3つの解像度の高周波帯域画像を統合して生成することを特徴とする画像分類装置。
【請求項6】
請求項1に記載の画像分類装置において、
前記画像分類手段は、一枚の画像全体から受ける感性的な印象を形容詞に分類することを特徴とする画像分類装置。
【請求項7】
請求項1に記載の画像分類装置において、
前記ヒストグラム生成手段は、前記統合された高周波帯域画像信号のヒストグラムを、輝度面ないしは彩度面、もしくはその両方について生成することを特徴とする画像分類装置。
【請求項8】
請求項1または7に記載の画像分類装置において、
前記多重解像度表現手段は、前記高周波帯域画像の生成を非線形階調の均等色空間で行なうことにより、前記高周波帯域画像の中に知覚的に均等なコントラスト信号を反映させることを特徴とする画像分類装置。
【請求項9】
画像データに基づいて画像を分類する画像分類装置であって、
原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、
前記高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、
前記統合された高周波帯域画像に基づき、前記原画像から受ける人間の感性的な印象を形容詞に分類する画像分類手段とを備えたことを特徴とする画像分類装置。
【請求項10】
画像データに基づいて画像を分類する画像分類装置であって、
原画像の所定の性質が投影された画像信号のヒストグラムを生成するヒストグラム生成手段と、
前記生成されたヒストグラムの形状のうち、ある1つの形状特性を区別するための特徴量を算出する特徴量算出手段と、
前記特徴量に基づいて、前記原画像から受ける人間の感性的な印象を形容詞に分類する画像分類手段とを備え、
前記特徴量算出手段は、前記ある1つの形状特性を区別するための特徴量として、少なくとも2種類の異なる指標を算出することを特徴とする画像分類装置。
【請求項11】
請求項10に記載の画像分類装置において、
前記特徴量算出手段は、前記少なくとも2種類の異なる指標として、前記ヒストグラムの一部の特性に敏感な指標と鈍感な指標とを算出することを特徴とする画像分類装置。
【請求項12】
請求項11に記載の画像分類装置において、
前記特徴量算出手段は、前記ヒストグラムの非対称性を区別する特徴量として、前記ヒストグラム形状の裾野の特性に敏感な指標と鈍感な指標の2種類の特徴量を算出することを特徴とする画像分類装置。
【請求項13】
請求項10〜12のいずれか一項に記載の画像分類装置において、
前記特徴量算出手段は、前記少なくとも2種類の異なる指標として、前記ヒストグラムの平均値に対する3次以上のモーメントに関する指標と、前記ヒストグラムのピークに対する所定の高さに於ける分布域の座標計測で定義可能な量に関する指標とを算出することを特徴とする画像分類装置。
【請求項1】
画像データに基づいて画像を分類する画像分類装置であって、
原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、
前記高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、
前記統合された高周波帯域画像信号のヒストグラムを生成するヒストグラム生成手段と、
前記生成されたヒストグラムの分布形状に基づいて、前記原画像を少なくとも2つの範疇の画像に分類する画像分類手段とを備えたことを特徴とする画像分類装置。
【請求項2】
請求項1に記載の画像分類装置において、
前記画像分類手段は、前記ヒストグラムの分布形状の非対称性に基づいて前記原画像を分類することを特徴とする画像分類装置。
【請求項3】
請求項2に記載の画像分類装置において、
前記画像分類手段は、前記ヒストグラムの分布形状の非対称性を、前記ヒストグラムの歪度を特徴量として表すことを特徴とする画像分類装置。
【請求項4】
請求項2に記載の画像分類装置において、
前記画像分類手段は、前記ヒストグラムの分布形状の非対称性を、ヒストグラムの中心ピークの高さに対して少なくとも2つの所定の高さにおける分布幅の中心座標のずれを特徴量として表すことを特徴とする画像分類装置。
【請求項5】
請求項1に記載の画像分類装置において、
前記画像統合手段は、前記統合された高周波帯域画像を、少なくとも3つの解像度の高周波帯域画像を統合して生成することを特徴とする画像分類装置。
【請求項6】
請求項1に記載の画像分類装置において、
前記画像分類手段は、一枚の画像全体から受ける感性的な印象を形容詞に分類することを特徴とする画像分類装置。
【請求項7】
請求項1に記載の画像分類装置において、
前記ヒストグラム生成手段は、前記統合された高周波帯域画像信号のヒストグラムを、輝度面ないしは彩度面、もしくはその両方について生成することを特徴とする画像分類装置。
【請求項8】
請求項1または7に記載の画像分類装置において、
前記多重解像度表現手段は、前記高周波帯域画像の生成を非線形階調の均等色空間で行なうことにより、前記高周波帯域画像の中に知覚的に均等なコントラスト信号を反映させることを特徴とする画像分類装置。
【請求項9】
画像データに基づいて画像を分類する画像分類装置であって、
原画像をフィルタリングして、逐次的に複数の解像度からなる高周波帯域画像を生成する多重解像度表現手段と、
前記高周波帯域画像を低い解像度から逐次的に統合して、1つに統合された高周波帯域画像を生成する画像統合手段と、
前記統合された高周波帯域画像に基づき、前記原画像から受ける人間の感性的な印象を形容詞に分類する画像分類手段とを備えたことを特徴とする画像分類装置。
【請求項10】
画像データに基づいて画像を分類する画像分類装置であって、
原画像の所定の性質が投影された画像信号のヒストグラムを生成するヒストグラム生成手段と、
前記生成されたヒストグラムの形状のうち、ある1つの形状特性を区別するための特徴量を算出する特徴量算出手段と、
前記特徴量に基づいて、前記原画像から受ける人間の感性的な印象を形容詞に分類する画像分類手段とを備え、
前記特徴量算出手段は、前記ある1つの形状特性を区別するための特徴量として、少なくとも2種類の異なる指標を算出することを特徴とする画像分類装置。
【請求項11】
請求項10に記載の画像分類装置において、
前記特徴量算出手段は、前記少なくとも2種類の異なる指標として、前記ヒストグラムの一部の特性に敏感な指標と鈍感な指標とを算出することを特徴とする画像分類装置。
【請求項12】
請求項11に記載の画像分類装置において、
前記特徴量算出手段は、前記ヒストグラムの非対称性を区別する特徴量として、前記ヒストグラム形状の裾野の特性に敏感な指標と鈍感な指標の2種類の特徴量を算出することを特徴とする画像分類装置。
【請求項13】
請求項10〜12のいずれか一項に記載の画像分類装置において、
前記特徴量算出手段は、前記少なくとも2種類の異なる指標として、前記ヒストグラムの平均値に対する3次以上のモーメントに関する指標と、前記ヒストグラムのピークに対する所定の高さに於ける分布域の座標計測で定義可能な量に関する指標とを算出することを特徴とする画像分類装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【公開番号】特開2010−67221(P2010−67221A)
【公開日】平成22年3月25日(2010.3.25)
【国際特許分類】
【出願番号】特願2008−235578(P2008−235578)
【出願日】平成20年9月12日(2008.9.12)
【出願人】(000004112)株式会社ニコン (12,601)
【Fターム(参考)】
【公開日】平成22年3月25日(2010.3.25)
【国際特許分類】
【出願日】平成20年9月12日(2008.9.12)
【出願人】(000004112)株式会社ニコン (12,601)
【Fターム(参考)】
[ Back to top ]