説明

画像属性判別装置、属性判別支援装置、画像属性判別方法、属性判別支援装置の制御方法、および、制御プログラム

【課題】画像データの属性を精度よく判別することを可能にする。
【解決手段】本発明の画像属性判別装置10は、画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域抽出部11aと、上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量に基づいて、上記画像データの属性を判別するシーン判別部13とを備えていることを特徴としている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、静止画または動画など、デジタル形式の画像データの属性を判別する画像属性判別処理に関するものであり、特に、画像属性判別処理の精度を向上させる画像属性判別装置、属性判別支援装置、画像属性判別方法、属性判別支援装置の制御方法、および、制御プログラムに関するものである。
【背景技術】
【0002】
近年、画像データの特徴を解析して、その属性を自動的に判別する手法の研究開発が行われている。具体的には、デジタルカメラ、デジタルビデオカメラおよびカメラ付携帯電話などにより撮像された静止画または動画、スキャナなどにより取り込まれた静止画、もしくは、DVDレコーダなどにより録画された動画またはキャプチャ画像などの、あらゆる画像データが持つ画素値から特徴量を抽出して、その画像データが表すシーン(属性)を判別することを行われている。例えば、デジタルカメラにて処理されているリアルタイムの画像データがどのようなシーン(人物、風景、夜景、夕焼け、花火、室内、スノー、ビーチ、花、料理、名刺・文書など)を写しているのかを判別することによって、デジタルカメラの撮影モードをそのシーンに応じた最適な状態に設定して撮影を行うことができる。
【0003】
このような画像属性判別処理の公知技術として、特許文献1〜4が挙げられる。特許文献1〜4に記載されている技術では、対象のデジタル画像データから特徴量を抽出し、あらかじめ用意しておいた特定シーンについてのモデル特徴量との照合処理を行い、特定シーンの特徴量との一致度に基づいて、シーンを判別している。
【0004】
より具体的には、特許文献1には、色相データのヒストグラムを用いて、画像データが夕焼けのシーンであるか否かを判定し、それに基づいて当該画像データの補正要否を判断する画像処理装置が開示されている。画像処理装置は、対象の画像データを構成する画素のうち赤から黄の範囲に属する画素について、色相と彩度の積および色相と明度の積の値をヒストグラム化し、それらの分散が一定基準より大きいものを「夕焼け」のシーンの画像であると判断している。
【0005】
特許文献2には、対象の画像データについて、人物の有無に関する情報と色ヒストグラムに関する情報の2つを共通の特徴指標として、「ポートレート」「夕焼け」「夜景」などの複数のシーンを判別する画像撮影装置が開示されている。
【0006】
特許文献3には、特定シーンに対応する特徴的部分について、画像内の配置の傾向等を考慮し、かつ、撮影枠の取り方の違いなどによるそれらの位置や面積割合の変動をも考慮して、様々な特定シーンの画像を高い精度で選別する装置が開示されている。
【0007】
特許文献4には、特定シーンとして指定されうる複数のシーンごとに、そのシーンの識別に用いる特徴量の種類と識別条件とを規定した参照データを用意しておき、上記識別条件を参照して判断することにより、シーン判別を高い精度で実施する装置が開示されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開平11−298736号公報(1999年10月29日公開)
【特許文献2】特開2002−218480号公報(2002年8月2日公開)
【特許文献3】特開2005−310123号公報(2005年11月4日公開)
【特許文献4】特開2005−122720号公報(2005年5月12日公開)
【非特許文献】
【0009】
【非特許文献1】奥富 正敏、ほか著「ディジタル画像処理」CG−ARTS協会出版、2007年3月1日(第二版二刷)、P.311〜313,17−2節「文字認識技術」、P.192〜195,11−1節「領域特徴量」
【非特許文献2】天野 敏之、ほか著「固有空間法を用いたBPLPによる画像補間」社団法人電子情報通信学会出版、電子情報通信学会論文誌 Vol.J85−D−II No.3 P.457〜465)
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、上記従来の構成では、属性判別の対象となる画像データに、該画像データの本来の属性とは異質の物、影、形など(以下、異質物)が含まれている場合に、正しく属性判別を行えないという問題がある。つまり、異質物を写している画素群(以下、異質領域)から得られる特徴は、本来の属性の特徴とは異なっている。そのため、画像データ全体の特徴量が、異質領域の特徴量が混ざった状態で抽出されると、モデル特徴量との照合がうまく行われず、結果として、その画像データに対しては、誤ったシーン判別が行われたり、確かさの低いシーン判別が行われたりするという問題が生じる。
【0011】
画像データに上記異質領域が生じる原因としては、例えば、画像編集の工程において、属性判別の対象となる画像データに対して画像編集ツールを用いて追加される、文字、イラスト、図形、スタンプ、落書きなどのオブジェクト(動画の場合はテロップなども)が考えられる。あるいは、上記画像データの撮影工程で、撮影環境、被写体の状況によって意図しない現象(スミアなどの白飛び現象)が現れたり、もしくは、指の影など意図しないものが写りこんでしまったりすることが考えられる。さらには、写真などの原稿をスキャンする工程で、(原稿が破れたり、折れ曲がったりした状態でスキャンされることにより)原稿の欠けた部分に原稿台や原稿の裏の色が写りこんでしまうことなどが考えられる。また、異質領域は、上述の例に限定されない。上記問題は、画像データに関わる条件・環境・事情などを問わず、本来の属性(シーン)とは異なる異質物を含むあらゆる画像データに対し、属性判別を行うときに共通に生じる問題である。
【0012】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、画像データの異質領域に左右されずに画像データの属性を精度よく判別することを可能にする画像属性判別装置、属性判別支援装置、画像属性判別方法、属性判別支援装置の制御方法、および、制御プログラムを実現することにある。
【課題を解決するための手段】
【0013】
本発明の画像属性判別装置は、上記課題を解決するために、画像データが写し出す内容に基づいて、該画像データの属性を判別する画像属性判別装置において、画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定手段と、上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量に基づいて、上記画像データの属性を判別する属性判別手段とを備えていることを特徴としている。
【0014】
上記構成によれば、異質領域特定手段が、処理対象の画像データ上の異質物(例えば、テロップ等の文字列)を含む領域を特定し、属性判別手段が、その特定された異質領域を除いた他の領域の画素群からのみ得られた特徴量に基づいて、上記画像データの属性を判別する。
【0015】
これにより、処理対象の画像データに異質物が含まれている場合に、異質領域から抽出されてしまう特徴量が、属性を判別する処理に与える悪影響を排除することができる。結果として、属性判別の精度を向上させることができる。
【0016】
上記異質領域特定手段は、文字を含む文字領域を異質領域として特定してもよい。
【0017】
上記構成によれば、写真などに後から加えられたテキストオブジェクト(文字)がマージされたものが処理対象の画像データであった場合でも、異質領域特定手段が、後から加えられたその文字を異質物と判断し、その文字が含まれている領域は、特徴量の抽出には用いられないようになっている。したがって、文字の編集が加えられた画像データに対しても、文字の背景にある本来の画像データの内容に基づいて、属性の判定が正しく行えるようになる。
【0018】
上記画像データの各画素のうち、特徴量の抽出の対象とならなかった対象外画素の領域に対し、対象画素と同質の画素を復元する復元手段を備えていてもよい。
【0019】
上記構成によれば、異質物(例えば、文字列など)によって隠されてしまっていた異質物の背景部分に対し、復元手段は、文字列周辺の画素の情報を使って、その周辺と同質の画素に復元する。そして、属性判別手段は、復元の画像データに基づいて、属性判別処理を行う。このため、文字列によって隠されてしまっていた部分からの特徴量も有効に活用することができ、結果として、属性判別処理の精度を向上させることが可能となる。
【0020】
上記画像属性判別装置は、さらに、上記異質領域特定手段によって特定された異質領域内の各画素につき、上記属性判別手段によって特徴量が抽出される対象画素か否かを決定する対象画素決定手段を備え、上記属性判別手段は、上記画像データの各画素のうち、上記対象画素決定手段によって対象でないと決定された対象外画素を除いた画素群より抽出された特徴量に基づいて、上記画像データの属性を判別してもよい。
【0021】
上記構成によれば、異質領域特定手段によって特定された異質領域内の各画素のうち、いずれが対象画素で、いずれが対象外画素かを対象画素決定手段が決定する。したがって、対象画素決定手段が、対象外画素として決定した画素については、属性判別手段は特徴量の抽出の際には参照せず、特徴量は対象画素のみから抽出される。
【0022】
これにより、異質領域の中でも、特徴量抽出時に対象外とすべきか否からをより詳細に設定することが出来るので、精度よく、かつ、効率よく属性判別を行う画像属性判別装置を実現する上で、設計の自由度が向上する。
【0023】
上記異質領域特定手段は、文字を含む文字領域を異質領域として特定し、画像属性判別装置は、さらに、上記異質領域特定手段が特定した文字領域内の文字を認識する文字認識手段を備え、上記対象画素決定手段は、上記文字領域内の文字が上記文字認識手段によって認識された文字であることの確からしさを示す文字認識結果の信頼度が所定値以下の場合は、上記文字領域内の画素を対象画素として決定することが好ましい。
【0024】
一般に、正確に、より正しく文字(列)が認識された場合、文字認識結果とともに出力される信頼度の数値は高く、反対に、文字(列)ではないものを誤って文字列として抽出して文字認識処理がなされた場合には、信頼度の数値は低くなる。したがって、文字領域(異質領域)であるとしてこの領域の画素を対象外とするのは、上記信頼度が一定以上高い場合に制限する。つまり、対象画素決定手段は、文字認識結果の信頼度が低い画素については、初めに文字領域と判断された場合でも、それを対象外画素としない。これにより、実際は、文字(列)を含んでいなかった領域を誤って文字領域として抽出してしまった場合に、その領域を対象外画素に設定しないようにして、特徴量を抽出し損なうことを防ぐことが可能となる。
【0025】
これにより、闇雲に対象外画素を広げることによって、逆に属性判別の処理の精度が低下するという不都合を回避することができる。
【0026】
さらに、画像属性判別装置は、上記文字認識手段が認識した文字または文字列から、キーワードを抽出するキーワード抽出手段と、上記キーワード抽出手段によって抽出される各キーワードと、上記属性判別手段によって判別される各属性との関連性を記憶するワード関連性記憶部とを備え、上記属性判別手段は、上記ワード関連性記憶部を参照し、上記画像データの文字領域から抽出されたキーワードと各属性との関連性の高さを加味して該画像データの属性を判別してもよい。
【0027】
上記構成によれば、画像データに文字領域が含まれている場合、その文字領域に含まれる文字列が文字認識手段によって抽出され、その文字列から1以上の単語(キーワード)がキーワード抽出手段によって抽出される。
【0028】
上記属性判別手段は、抽出されたキーワードと属性との関連性を、ワード関連性記憶部を参照して把握し、上記キーワードと属性との関連性の高さを、当該画像データの属性を判別する際に考慮する。
【0029】
画像データに含まれているテロップ等の文字列には、その画像データの属性を示す、あるいは、属性と関連が深い文字列が含まれている場合が多い。したがって、これを属性判別処理の指標の1つとすることで、属性判別精度を向上させることができる。例えば、属性判別手段は、キーワード「山」と、属性「風景」とは関連性が高いと判断し、山というキーワードが抽出された場合に、その画像データの属性を判別する際、「風景」に高い重み付けを加えることなどが考えられる。
【0030】
上記属性判別手段は、上記画像データの特徴量を、複数種類の属性ごとにあらかじめ定められているモデル特徴量と照合し、その類似度に応じて、上記画像データの属性がその属性であることの確からしさを示す属性判別結果の信頼度を算出することにより、上記画像データの属性を判別し、上記ワード関連性記憶部は、上記キーワードと上記属性との関連性を、上記属性判別結果の信頼度に加算するためのスコアとして記憶していることを特徴としている。
【0031】
上記構成によれば、上記関連性の高さは、属性判別結果の信頼度に加算するスコアとして記憶されている。属性判別手段は、候補となる画像データの各属性について信頼度を出力し、上記キーワードに対応付けられているスコアを、同じく対応する属性の信頼度に加算する。上記キーワードと関連性が高い属性に対しては、より多くのスコアが加算され、信頼度(画像データがその属性であることの確からしさ)が向上する。よって、属性判別手段は、画像データに含まれるキーワードを考慮して、信頼度に基づき、より精度よく画像データの属性を判別することが可能となる。
【0032】
上記画像データの各画素のうち、特徴量の抽出の対象とならなかった対象外画素の領域に対し、対象画素と同質の画素を復元する復元手段を備え、上記復元手段は、上記属性判別結果の信頼度が所定値より低い場合にのみ復元を実行することが好ましい。
【0033】
上記構成によれば、処理負荷の高い復元処理を、判別結果の確からしさ(信頼度)の高い、好ましい結果が得られた場合には省略し、信頼度が低く属性判別の精度が落ちる場合にのみに、その精度の向上を目的として復元処理を実行するように画像属性判別装置を構成することができる。
【0034】
したがって、処理効率の向上と、属性判別精度の向上とを両立させることが可能となる。
【0035】
上記属性判別手段は、上記画像データの各画素のうち、特徴量の抽出の対象とならなかった対象外画素の領域が広いほど、信頼度を低く算出してもよい。
【0036】
対象外画素の領域が広いということは、1枚の画像データのうち、属性判別のために参照された画素の割合が少ないということになり、これでは、全部の画素を参照した場合と比べて正確に属性判別ができていないという可能性がある。
【0037】
そこでこのような状況で出力された判別結果の信頼度を低く見積もることによって、ユーザの注意を喚起する、または、この信頼度を向上させるような他の措置を講じることが可能となり、結果として、属性判別精度の向上に貢献できる。
【0038】
上記対象画素決定手段は、上記画像データにおいて上記異質領域の占める面積が所定以上広い場合にのみ、上記異質領域内の各画素を対象外画素として決定してもよい。
【0039】
上記構成によれば、上記異質領域特定手段によって特定された上記異質領域が所定よりも狭い(小さい)場合には、上記対象画素決定手段は、その領域の画素を対象外画素に決定するという処理を行わない。
【0040】
一般に、異質物が含まれる領域の面積の、画像データ全体の面積に占める割合が小さい場合、その領域から得られる特徴量が、属性判別に与える影響は小さい。この場合、異質領域を対象外として除外する処理時間に対して、判別精度を向上させるというメリットが小さいと考えられる。
【0041】
そこで、上述したとおり、異質領域の、画像データ全体に占める面積の割合が所定の閾値以上の場合のみ、対象外画素の特定を行う、という制限を設けることで、判別精度に大きな影響を与えることなく、処理時間を削減することができる。
【0042】
自装置に対して、画像データと該画像データの属性の指定とが入力されたとき、上記画像データの各画素のうち、上記異質領域特定手段によって特定された上記異質領域内の各画素を除いた画素群より抽出された特徴量を用いて、指定された属性のモデル特徴量を算出するモデル特徴量算出手段を備え、上記属性判別手段は、上記画像データの特徴量を、上記モデル特徴量算出手段によって属性ごとに算出されたモデル特徴量と照合し、その類似度に応じて上記画像データの属性を判別してもよい。
【0043】
上記構成によれば、属性判別手段は、上記画像データの特徴量をモデル特徴量と照合しその類似度に応じて上記画像データの属性を判別する。したがって、精度よい属性判別を行うためには、モデル特徴量が、各属性に応じていかに正しく定められているのかが重要となる。
【0044】
そこで、異質物(例えば、テロップ等の文字列)が含まれている画像データが、学習対象の画像データとして画像属性判別装置に取り込まれた場合でも、モデル特徴量算出手段は、異質領域特定手段によって特定された異質物を排除してから上記画像データを用いるため、より正しいモデル特徴量を作成することが可能となる。属性判別手段は、より正しいモデル特徴量を参照することができるので、結果として、属性判別精度を向上させることが可能となる。
【0045】
本発明の属性判別支援装置は、上記課題を解決するために、画像データが写し出す内容に基づいて該画像データの属性を判別する画像属性判別装置が参照するモデル特徴量を、属性ごとに定める属性判別支援装置において、自装置に対して、画像データと該画像データの属性の指定とが入力されたとき、入力された画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定手段と、上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量を用いて、指定された属性のモデル特徴量を算出するモデル特徴量算出手段を備えていることを特徴としている。
【0046】
上記構成によれば、モデル特徴量を作成するために、画像データと該画像データの属性の指定とが入力されると、まず、異質領域特定手段が、入力された画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する。次に、モデル特徴量算出手段が、上記異質領域内の各画素を除いた画素群より抽出された特徴量を用いて、指定された属性のモデル特徴量を算出する。
【0047】
画像属性判別装置は、一般に、上記画像データの特徴量をモデル特徴量と照合しその類似度に応じて上記画像データの属性を判別する。したがって、精度よい属性判別を行うためには、モデル特徴量が、各属性に応じていかに正しく定められているのかが重要となる。
【0048】
そこで、異質物(例えば、テロップ等の文字列)が含まれている画像データが、学習対象の画像データとして属性判別支援装置に取り込まれた場合でも、モデル特徴量算出手段は、異質領域特定手段によって特定された異質物を排除してから上記画像データの特徴量を抽出してこれを用いるため、より正しいモデル特徴量を作成することが可能となる。属性判別手段は、より正しいモデル特徴量を参照することができるので、結果として、属性判別精度を向上させることが可能となる。
【0049】
本発明の画像属性判別方法は、上記課題を解決するために、画像データが写し出す内容に基づいて、該画像データの属性を判別する画像属性判別方法であって、画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定ステップと、上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量に基づいて、上記画像データの属性を判別する属性判別ステップとを含むことを特徴としている。
【0050】
本発明の属性判別支援装置の制御方法は、上記課題を解決するために、画像データが写し出す内容に基づいて該画像データの属性を判別する画像属性判別装置が参照するモデル特徴量を、属性ごとに定める属性判別支援装置の制御方法であって、上記属性判別支援装置に対して、画像データと該画像データの属性の指定とが入力されたとき、入力された画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定ステップと、上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量を用いて、指定された属性のモデル特徴量を算出するモデル特徴量算出ステップとを含むことを特徴としている。
【0051】
なお、上記画像属性判別装置および上記属性判別支援装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記画像属性判別装置または上記属性判別支援装置をコンピュータにて実現させる上記画像属性判別装置または上記属性判別支援装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
【発明の効果】
【0052】
本発明の画像属性判別装置は、上記課題を解決するために、画像データが写し出す内容に基づいて、該画像データの属性を判別する画像属性判別装置において、画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定手段と、上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量に基づいて、上記画像データの属性を判別する属性判別手段とを備えていることを特徴としている。
【0053】
本発明の属性判別支援装置は、上記課題を解決するために、画像データが写し出す内容に基づいて該画像データの属性を判別する画像属性判別装置が参照するモデル特徴量を、属性ごとに定める属性判別支援装置において、自装置に対して、画像データと該画像データの属性の指定とが入力されたとき、入力された画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定手段と、上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量を用いて、指定された属性のモデル特徴量を算出するモデル特徴量算出手段を備えていることを特徴としている。
【0054】
本発明の画像属性判別方法は、上記課題を解決するために、画像データが写し出す内容に基づいて、該画像データの属性を判別する画像属性判別方法であって、画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定ステップと、上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量に基づいて、上記画像データの属性を判別する属性判別ステップとを含むことを特徴としている。
【0055】
本発明の属性判別支援装置の制御方法は、上記課題を解決するために、画像データが写し出す内容に基づいて該画像データの属性を判別する画像属性判別装置が参照するモデル特徴量を、属性ごとに定める属性判別支援装置の制御方法であって、上記属性判別支援装置に対して、画像データと該画像データの属性の指定とが入力されたとき、入力された画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定ステップと、上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量を用いて、指定された属性のモデル特徴量を算出するモデル特徴量算出ステップとを含むことを特徴としている。
【0056】
したがって、画像データの異質領域に左右されずに画像データの属性を精度よく判別することが可能になるという効果を奏する。
【図面の簡単な説明】
【0057】
【図1】本発明の一実施形態におけるデジタルフォトフレームの要部構成を示すブロック図である。
【図2】本発明の一実施形態におけるデジタルフォトフレームの外観を示す図である。
【図3】図3(a)は、処理対象の元の画像データ(Fujiyama.jpg)の一例を示す図であり、図3(b)は、図3(a)の画像データから文字領域として抽出された領域の具体例を示す図である。
【図4】図4(a)は、図3(a)に示す画像データ(Fujiyama.jpg)のうち、図3(b)に示す文字領域以外の対象画素から作成された、色のヒストグラムの具体例を示す図であり、図4(b)は、図3(a)に示す画像データから、文字領域が除外されずに作成されたヒストグラム、すなわち本発明を適用しないで作成されたヒストグラムの具体例を示す図であり、図4(c)は、あらかじめ記憶されているモデル特徴量としてのモデルヒストグラムの具体例を示す図である。
【図5】異質領域に対して復元処理が実施された後の画像データの一例を示す図である。
【図6】本発明の一実施形態におけるデジタルフォトフレームのシーン判別処理の流れを示すフローチャートである。
【図7】デジタルフォトフレームの文字認識部によって出力される文字認識結果およびその信頼度の具体例を示す図である。
【図8】デジタルフォトフレームのシーン判別部によって出力されるシーン判別結果およびその信頼度の具体例を示す図である。
【図9】デジタルフォトフレームの文字スコア記憶部に記憶されている、キーワードとシーンとの関連性を表した対応表の具体例を示す図である。
【図10A】本発明の一実施形態におけるデジタルフォトフレームのシーン判別処理の流れの一例を示すフローチャートである。
【図10B】本発明の一実施形態におけるデジタルフォトフレームのシーン判別処理の流れの一例を示すフローチャートである。
【図11】図3(a)の画像データから文字領域として抽出された領域の他の具体例を示す図である。
【図12】図3(a)の画像データから文字領域として抽出された領域のさらに他の具体例を示す図である。
【図13】本発明の他の実施形態におけるデジタルフォトフレームの要部構成を示すブロック図である。
【図14】本発明の他の実施形態におけるデジタルフォトフレームのシーン学習処理の流れの一例を示すフローチャートである。
【図15】本発明の他の実施形態における、属性判別支援装置の要部構成を示すブロック図である。
【図16】異質領域としてスミアを含む画像データの一例を示す図である。
【図17】異質領域としてオブジェクトが画像編集工程でマージされた領域を含む画像データの一例を示す図である。
【図18】原稿の端が折れたままスキャンされたために、折れた部分を異質領域として含む画像データの一例を示す図である。
【図19】写真の撮影時に写り込んでしまった指の影を異質領域として含む画像データの一例を示す図である。
【発明を実施するための形態】
【0058】
≪実施形態1≫
本発明の実施形態について、図面に基づいて説明すると以下の通りである。
【0059】
以下では、一例として、本発明の画像属性判別装置を、画像データを表示する画像表示装置としてのデジタルフォトフレームに適用した場合について説明する。本実施形態におけるデジタルフォトフレームは、自装置にて判別した画像データのシーン(属性)に応じて、該画像データの表示用データを補正し、自装置の表示部に表示することができる。なお、本発明の画像属性判別装置は、デジタルフォトフレームに限定されず、デジタルカメラ、デジタルビデオカメラ、デジタルビデオレコーダー/プレーヤー、デジタルテレビ、パソコン、プリンタ、スキャナなど、画像データに対して、判別されたシーンごとに異なる処理を施すことが可能な、各種画像処理装置に好適に用いることができる。
【0060】
〔デジタルフォトフレームの外観〕
図2は、本発明の実施形態におけるデジタルフォトフレーム100の外観を示す図である。デジタルフォトフレーム100は、自装置に記憶された、あるいは、着脱可能な外部記録媒体に記録された、1または複数の静止画または動画などの画像データを読み出し、それらを表示用データとして表示部3に出力して画像を表示するものである。デジタルフォトフレーム100は、例えばデジタルカメラなどで撮影して得られた写真(画像データ)を表示部3に表示することにより、写真立ての役割を果たすことができる。さらに、デジタルフォトフレーム100は、複数の写真をスライドショーのように順次表示したり、任意のレイアウトおよびタイミングで、一度に複数枚の画像データを表示したり、大量の画像データをサムネイルで一覧表示したりすることができる。
【0061】
デジタルフォトフレーム100の操作部4は、デジタルフォトフレーム100の本体に設けられたボタンやタッチパネルなどにより実現されてもよいし、図2に示すようにリモコンを用いて実現されてもよい。
【0062】
本実施形態では、デジタルフォトフレーム100は、画像データをより美しく表示するために、画像データに対してシーン別に補正を行って表示する機能(以下、シーン別自動補正機能)を有する。こうしたデジタルフォトフレーム100の機能に関する各種設定操作についても、操作部4を用いることにより実現できる。
【0063】
例えば、デジタルフォトフレーム100は、図2に示すように、表示部3に、上記シーン別自動補正機能を有効にするか否かをユーザに設定させるための操作画面を表示してもよい。この場合、ユーザは、シーン別自動補正機能を希望する場合は、操作部4に設けられた十字ボタンや決定ボタンを操作して、シーン別自動補正機能を有効にする選択肢を選択する。
【0064】
〔デジタルフォトフレームの構成〕
図1は、本発明の実施形態におけるデジタルフォトフレーム100の要部構成を示すブロック図である。
【0065】
図1に示すとおり、本実施形態のデジタルフォトフレーム100は、制御部1、記憶部2、表示部3、操作部4、一時記憶部5、および、これらの各部でデータの送受信を行うための共通の信号線としてのバス6を備える構成となっている。
【0066】
制御部1は、記憶部2から一時記憶部5に読み出されたプログラムを実行することにより、各種の演算を行うと共に、デジタルフォトフレーム100が備える各部を、バス6を介して統括的に制御するものである。制御部1は、機能ブロックとして、少なくとも、文字領域抽出部11およびシーン判別部13を備える構成である。さらに、制御部1は、対象画素特定部12、文字認識部14および復元部15を備えていてもよい。これらの11〜15の各機能ブロックは、デジタルフォトフレーム100において、シーン判別機能を実行する画像属性判別装置10として機能する。また、本実施形態では、シーン別処理実行部16を備えており、この機能ブロックは、デジタルフォトフレーム100において、シーン別自動補正機能を実行する画像処理装置として機能する。
【0067】
上述した制御部1の各機能ブロックは、CPU(central processing unit)が、ROM(read only memory)等で実現された記憶部2に記憶されているプログラムをRAM(random access memory)等で実現された一時記憶部5に読み出して実行することで実現できる。
【0068】
記憶部2は、制御部1が実行する制御プログラムおよびOSプログラム、ならびに、制御部1が、デジタルフォトフレーム100が有する各種機能(例えば、本発明のシーン判別機能、シーン別自動補正機能など)を実行するときに読み出す各種の固定データを記憶するものである。本実施形態では、記憶部2には、例えば、画像データ記憶部30、シーン特徴量記憶部31、文字照合辞書記憶部32、文字スコア記憶部33が含まれており、各種の固定データを記憶する。記憶部2は、例えば、内容の書き換えが可能な不揮発性メモリである、EEPROM(Electrically EPROM)、フラッシュメモリなどで実現される。なお、内容の書き換えが不要な情報を記憶する記憶部(ここでは、例えば、文字照合辞書記憶部32、文字スコア記憶部33など)については、記憶部2とは別の、図示しない、読出し専用の半導体メモリであるROM(Read Only Memory)などで実現されてもよい。
【0069】
画像データ記憶部30は、デジタルフォトフレーム100が画像処理装置として処理する対象となる画像データを記憶するものである。シーン特徴量記憶部31は、シーン判別部13が画像データのシーンを判別する際に参照するモデルとなるシーンの特徴量を記憶するものである。文字照合辞書記憶部32は、文字認識部14が備わっている場合に文字認識部14が画像データに含まれる文字を認識する際に参照する文字の情報、すなわち、文字照合辞書を記憶するものである。文字スコア記憶部33は、文字認識部14によって認識された文字(列)と判別されるシーンとの関連性を数値(スコア)で表したスコア情報を記憶するものである。
【0070】
表示部3は、図2を用いて説明したとおり、画像データ記憶部30から、または、図示しない外部インターフェースを介して外部記録媒体から取り込んだ画像データを表示したり、ユーザがデジタルフォトフレーム100を操作するための操作画面をGUI(Graphical User Interface)画面として表示したりするものである。表示部3は、例えば、LCD(液晶ディスプレイ)、有機ELディスプレイなどの表示装置で構成される。
【0071】
操作部4は、ユーザがデジタルフォトフレーム100に指示信号を入力し、操作するためのものである。上述したとおり、本実施形態では、操作部4はリモコンとして構成される。操作部4に設けられたボタン(十字キー、決定キー、文字入力キーなど)に対応する信号は、そのボタンが押下されたときに、赤外線信号として操作部4の発光部から出力され、デジタルフォトフレーム100の本体に設けられた受光部を介してデジタルフォトフレーム100に入力される。
【0072】
一時記憶部5は、デジタルフォトフレーム100が実行する各種処理の過程で、演算に使用するデータおよび演算結果等を一時的に記憶するいわゆるワーキングメモリであり、RAM(Random Access Memory)などで実現される。より具体的には、制御部1は、シーン判別処理の対象となる画像データを、一時記憶部5の画像メモリ5aに展開し、画像データの画素単位で詳細な解析を行う。
【0073】
制御部1の文字領域抽出部11は、処理対象の画像データに含まれる異質領域を抽出するものである。本実施形態では、特に、文字領域抽出部11は、異質領域として、英数字、ひらがな、カタカナ、漢字、記号などの文字(列)を含む文字領域を抽出する。
【0074】
図3(a)は、処理対象の元の画像データの一例を示す図である。図3(a)に示す画像データ(ファイル名:Fujiyama.jpg)は、本来は風景を撮影した写真であるが、当該画像データは、風景写真に対してテキストオブジェクトが画像編集工程で追加されたものである。文字領域抽出部11は、周辺画素との色の違いやテクスチャなどから、文字らしき形状を特定し、その形状を含む領域を文字領域として抽出する。図3(b)は、図3(a)の画像データから文字領域抽出部11が文字領域として抽出した領域の一例を示す図である。本実施形態では、文字領域抽出部11は、例えば図3(b)に示すとおり、ある程度まとまった文字列らしき形状の外接矩形を文字領域として抽出する。図3(b)に示す例では、文字領域抽出部11は、元の画像データに含まれる、文字列「[富士山]」の外接矩形を第1文字領域Ar1、文字列「標高 3,776 m」の外接矩形を第2文字領域Ar2、文字列「日本最高峰の山」の外接矩形を第3文字領域Ar3として抽出する。
【0075】
なお、上述の文字領域抽出手法については、非特許文献1に記載されている手法など、公知の技術が適宜採用される。
【0076】
対象画素特定部12は、文字領域抽出部11が抽出した異質領域の各画素について、その画素がシーン判別処理において解析の対象となる画素か否かを特定するものである。具体的には、対象画素特定部12は、解析の対象となる画素か、対象外の画素かを示すフラグを画素ごとに確定させる。例えば、対象画素特定部12は、解析の対象となる画素に対しては解析対象であることを意味する「TRUE」のフラグを付与し、解析の対象にしない画素に対しては、解析対象外であることを意味する「FALSE」のフラグを付与する。これにより、シーン判別処理において特徴量解析の対象となる画素が画像データの中から特定される。
【0077】
なお、対象画素特定部12は、文字領域抽出部11が抽出したすべての異質領域(文字領域)のすべての画素を、解析対象外の画素として特定してもよい。すなわち、図3(b)に示す、第1文字領域Ar1、第2文字領域Ar2、および、第3文字領域Ar3の3つの文字領域を、解析対象外の画素として特定してもよい。あるいは、対象画素特定部12は、所定の条件に基づいて、文字領域抽出部11が抽出した異質領域のうち、条件を満たす画素だけを、対象画素もしくは対象外画素として特定してもよい。
【0078】
シーン判別部13は、画像データのシーンを判別するものである。特に、シーン判別部13は、画像データの全画素のうち、対象画素特定部12によって対象画素として特定された画素のみについて解析、特徴量の抽出などを実行する。そして、抽出された特徴量を、シーン特徴量記憶部31にシーンごとにあらかじめ記憶されているモデル特徴量と照合することにより、上記画像データのシーンを判別する。本実施形態では、例えば、シーン判別部13は、図3(b)に示す、第1文字領域Ar1、第2文字領域Ar2、および、第3文字領域Ar3の3つの文字領域以外の領域について画素値の解析を行い、特徴量の抽出を行う。
【0079】
本実施形態では、シーン判別部13は、対象画素の色やテクスチャなどに基づいて、対象画素のヒストグラムを画像データの全体の特徴量として作成する。そして、シーン判別部13は、シーンごとのモデル特徴量と、上記画像データから抽出した特徴量とを比較、照合して、最も類似するモデル特徴量のシーンをその画像データのシーンとして判別する。より具体的には、以下のとおりである。
【0080】
図4(a)は、本発明のシーン判別部13が、図3(a)に示す画像データ(Fujiyama.jpg)のうち、図3(b)に示す文字領域以外の対象画素から作成した、色のヒストグラムの具体例を示す図である。
【0081】
図4(b)は、図3(a)に示す画像データから、文字領域が除外されずに作成されたヒストグラム、すなわち本発明を適用しないで作成されたヒストグラムの具体例を示す図である。
【0082】
図4(c)は、シーン特徴量記憶部31に記憶されているモデル特徴量としてのモデルヒストグラムの具体例を示す図である。ここでは、例えば、シーン特徴量記憶部31には、(1)人物、(2)風景、(3)夜景、(4)夕焼け、(5)花火、(6)室内、(7)スノー、(8)ビーチ、(9)花、(10)料理、(11)名刺・文書、の11種類のシーンのそれぞれについて標準的なモデルヒストグラムがあらかじめ記憶されているものとする。図4(c)に示すモデルヒストグラムは、「(2)風景」のモデルヒストグラムの具体例を示している。図4(a)〜(c)に示すヒストグラムにおいて、横軸は、各色に対応するビンを、縦軸は、頻度(画素数)×エッジ強度を表している。
【0083】
ここで、図3(a)に示す画像データ(Fujiyama.jpg)に含まれる、「[富士山]」、「標高 3,776 m」、「日本最高峰の山」というテキストオブジェクトは、黄1色の画素から成っているものとする。
【0084】
この場合、図4(a)の本発明のヒストグラムが、図4(b)のヒストグラムと異なる点は、黄の色味の強さが特徴として含まれていない点である。これは、対象画素特定部12が、黄色の文字列を含む各文字領域を対象画素から外したためである。
【0085】
このように、「黄の色味の強さ」が混在したままの図4(b)のヒストグラムを用いた場合、シーン判別処理において、図4(c)のモデルヒストグラムとは類似しないと判断されるか、類似すると判断されても類似度は低く、信頼できる判別結果が得られないという問題がある。
【0086】
しかし、本発明の画像属性判別装置10によれば、「黄の色味の強さ」という、本来のシーン(属性)とは異なる特徴量を除外することができるため、シーン判別部13は、画像データ(Fujiyama.jpg)から得られたヒストグラム(図4(a))と、「(2)風景」のモデルヒストグラム(図4(c))とが最も類似度が高いと判断することができ、画像データ(Fujiyama.jpg)のシーンを「(2)風景」であると正しく判別することができる。
【0087】
さらに、シーン判別部13は、処理対象の画像データの特徴量と、モデル特徴量との類似度に応じて、上記画像データがそのシーンである確からしさ(そのシーンである可能性の高さ)を「信頼度」として数値化し、判別結果とともに出力してもよい。
【0088】
シーン判別結果の信頼度は、画像データから抽出された特徴量(ヒストグラム)が、シーン特徴量記憶部31に記憶されているモデル特徴量と類似しているほど高くなる。
【0089】
なお、上述の特徴量抽出手法については、非特許文献1に記載されている手法など、公知の技術が適宜採用される。
【0090】
上記構成によれば、画像データのシーンを判別する際、まず文字領域抽出部11が、画像データに異質領域(例えば、風景写真に対するテキストオブジェクトなど)が含まれていればそれを抽出する。次に対象画素特定部12が、異質領域内の画素について、シーン判別のための解析対象から外す画素を特定する。最後に、シーン判別部13は、画像データの全画素のうち、解析対象として特定された画素に対して特徴量の抽出を行い、抽出した特徴量に基づいて、画像データのシーンの判別を行う。
【0091】
これにより、画像データに本来のシーンとは異なる異質物が含まれている画像データについては、その異質領域を除いた領域のみを解析してシーン判別を行うので、画像データの異質領域に左右されずに画像データのシーンを精度よく判別することが可能になるという効果を奏する。
【0092】
上述したとおり、制御部1は、さらに、文字認識部14および復元部15を備えていても良い。
【0093】
文字認識部14は、文字領域抽出部11によって抽出された異質領域が文字(列)を含みうる文字領域である場合に、その文字領域に含まれる文字(列)を認識するものである。文字認識部14は、文字照合辞書記憶部32に記憶されている、あらゆる文字のモデル形状と、文字領域に含まれる、色やテクスチャなどから特定された文字(らしきもの)の形状とを比較し、該文字領域に含まれている文字(列)を特定する。
【0094】
図3(b)に示す例では、文字認識部14は、文字領域抽出部11が抽出した第1文字領域Ar1から文字列「[富士山]」を認識し、第2文字領域Ar2から文字列「標高 3,776 m」を認識し、第3文字領域Ar3から文字列「日本最高峰の山」を認識して、それらをテキストデータとして出力する。出力されたテキストデータは、画像データの内容と関連がある言葉である可能性が高い。そこで、シーン判別部13は、文字スコア記憶部33を参照し、上記テキストデータの言葉の意味内容とシーンとの関連性を考慮して、画像データのシーンを判別してもよい。
【0095】
さらに、文字認識部14は、文字の上記モデル形状との類似度に応じて、文字領域に含まれている文字(列)が認識された文字(列)である確からしさを「信頼度」として数値化し、認識結果とともに出力してもよい。対象画素特定部12は、文字認識結果の信頼度が低ければ、文字領域に含まれる文字らしきものは、実際は文字ではない(すなわち異質領域ではない)と判断し、対象画素の特定の際に考慮することができる。
【0096】
なお、上述の文字認識手法については、非特許文献1に記載されている手法など、公知の技術が適宜採用される。
【0097】
復元部15は、対象画素特定部12によって解析対象外の画素と特定されたために考慮されていない画素(異質領域)について、それらの対象外画素を、特徴量抽出の対象にするために、その周囲の解析対象画素の画素値に基づいて、解析対象画素と同質の画素値となるように復元するものである。
【0098】
図5は、異質領域に対して復元処理が実施された画像データの一例を示す図である。図5に示すとおり、図3(b)において、異質の文字領域として抽出された第1文字領域Ar1、第2文字領域Ar2および第3文字領域Ar3に対して、復元部15が復元処理を行うことで、各文字領域には、それ以外の領域と属性が同質の(色、テクスチャなどが富士山の風景と一致している)画素が補間される。復元された復元領域Ar1’〜Ar3’は、シーン判別部13によってシーン判別のために参照される。
【0099】
対象画素特定部12は、復元部15によって復元された画素を対象画素として特定しなおし、シーン判別部13は、新たに特定された対象画素(復元された復元画素)について解析、特徴量の抽出などを実行する。これにより、1つの画素データについて、シーン判別のために考慮する領域をより広くすることができ、シーン判別結果の精度をさらに高めることができる。
【0100】
なお、上述の復元手法については、非特許文献2に記載されている手法など、公知の技術が適宜採用される。
【0101】
シーン別処理実行部16は、シーン判別部13によって判別された画像データのシーン別に、画像データに対して異なる処理を実行するものである。本実施形態では、シーン別処理実行部16は、判別されたシーン別に、そのシーンが最も美しい状態で表示されるように、画像データの表示用データを補正する。すなわち、シーン別処理実行部16は、デジタルフォトフレーム100において、シーン別自動補正機能を実行する画像データ補正部として機能する。
【0102】
これにより、画像データを、該画像データのシーンに応じて常に最適な状態に補正して美しく表示することが可能な画像処理装置として、デジタルフォトフレーム100を構成することができる。
【0103】
具体的には、シーン別処理実行部16は、「花火」や「花」のシーンであると判別された画像データについては、表示用データの彩度を上げて色鮮やかに補正したり、「夕焼け」のシーンであると判別された画像データについては、色相を少し変えて赤みを強調する補正を行ったり、「室内(イベント・パーティー)」のシーンであると判別された画像データについては、明度を上げることで明るい雰囲気に補正したりすることなどが考えられる。
【0104】
〔シーン判別処理フロー〕
図6は、本実施形態におけるデジタルフォトフレーム100のシーン判別処理の流れを示すフローチャートである。
【0105】
まず、画像属性判別装置10は、シーン判別処理の対象となる画像データ(例えば、図3(a)に示す「Fujiyama.jpg」)を、画像データ記憶部30から一時記憶部5の画像メモリ5aに展開する(S101)。対象画素特定部12は、展開された画像データの各画素のフラグ配列を定義し、これを初期化する(S102)。例えば、画像データが、width(画像データの幅)×height(画像データの高さ)=x画素×y画素の画素からなる場合、対象画素特定部12は、特徴量抽出対象フラグ配列feat_use_flag[x][y]を定義する。ここで、対象画素特定部12は、基本的には異質領域が含まれていなければ、画像データの全画素を特徴量抽出対象とするので、まずは、全画素のフラグをTRUEで初期化する。上述したとおり、フラグが「TRUE」である場合は、その画素が、特徴量抽出対象の画素であることを意味する。
【0106】
続いて、文字領域抽出部11は、画像メモリ5a上に展開された画像データについて、異質領域としての文字領域を抽出する(S103)。上述した例では、図3(b)に示すとおり、第1文字領域Ar1〜第3文字領域Ar3の3つの文字領域を抽出する。
【0107】
次に、対象画素特定部12は、抽出された文字領域に属する各画素について、シーン判別のための特徴量抽出対象の画素となるか否かを特定する(S104)。本実施形態では、初期化によって全画素のフラグが現時点で「TRUE」になっているので、上記3つの文字領域内の画素について、フラグを「FALSE」にする。上述したとおり、フラグが「FALSE」である場合は、その画素が、特徴量抽出対象外の画素であることを意味する。
【0108】
シーン判別部13は、画像データの画素のうち、フラグが「TRUE」の条件を満たす画素のみを対象に特徴量を抽出する(S105)。具体的には、色のヒストグラムを作成する。そして、シーン判別部13は、S105で作成したヒストグラムと、シーン特徴量記憶部31に記憶されている各シーンのモデルヒストグラムとの照合を行って、画像データのシーンを判別する(S106)。例えば、シーン判別部13は、処理対象の画像データ(Fujiyama.jpg)から得られたヒストグラム(例えば、図4(a))と、シーン特徴量記憶部31に記憶されている「(2)風景」のモデルヒストグラム(例えば、図4(c))とが最も類似度が高いと判断したら、上記画像データのシーンを「(2)風景」であると判別する。
【0109】
最後に、シーン判別部13は、シーン判別結果「(2)風景」を、シーン別処理実行部16に出力する(S107)。
【0110】
これにより、例えば、シーン別処理実行部16は、シーン判別結果「(2)風景」に基づいて、風景の写真が最も美しく表示されるように、図3(a)に示す画像データの表示用データを補正して、表示部3に出力することができる。
【0111】
上記構成によれば、画像データのシーンを判別する際、まず文字領域抽出部11が、画像データに異質領域(例えば、風景写真に対するテキストオブジェクトなど)が含まれていればそれを抽出する。次に対象画素特定部12が、異質領域内の画素について、シーン判別のための解析対象から外す画素を特定する。最後に、シーン判別部13は、画像データの全画素のうち、解析対象から外された画素を除いて画像データの特徴量の抽出を行い、抽出した特徴量に基づいて、画像データのシーンの判別を行う。
【0112】
これにより、画像データに本来のシーンとは異なる異質物が含まれている画像データについては、その異質領域を除いた領域のみを解析してシーン判別を行うので、画像データの異質領域に左右されずに画像データのシーンを精度よく判別することが可能になるという効果を奏する。
【0113】
上述の例では、「[富士山]」、「標高 3,776 m」、「日本最高峰の山」というテキストオブジェクトが、富士山の写真に追加されている。このテキストオブジェクトが、例えば、黄1色の画素で成り立っている場合には、通常の富士山の風景写真には含まれない色とテクスチャの異質な領域が画像データに含まれることになる。このような異質領域を含んだまま全画素についてヒストグラムが作成されると、そのヒストグラムは、本来の風景シーンでは通常含まれない形状を含むことになる。(例えば、図4(b))。このようなヒストグラムに基づいてマッチングを行うと、誤って別のシーンであると判別されたり、判別されたとしても非常に信頼度の低い判別結果しか得られなかったりするという問題がある。
【0114】
しかし、本願発明によれば、上述の黄1色の領域を除いた残りの領域内の画素(つまり、富士山の風景の写真を構成している画素)についてのみヒストグラムを作成し、これに基づいてマッチングが行われる。よって、シーンの特徴を表現していない「黄色味が強い特徴」による悪影響を抑制して、シーン判別処理を実行することができ、上記の問題を解消することが可能となる。
【0115】
≪実施形態2≫
本実施形態では、上述の実施形態1の構成を基本構成として、シーン判別処理をより効率よく行うための、または、シーン判別処理の精度をより向上させるための追加の構成について説明する。
【0116】
〔文字領域の面積を考慮する〕
対象画素特定部12は、文字領域抽出部11によって抽出された文字領域が画像データの全体に占める割合に応じて、シーン判別処理における解析対象画素とするか否かを決定してもよい。具体的には、文字領域の広さの割合が所定の閾値以上であれば、当該文字領域が画像データのシーン判別処理に与える影響は大きいと考えて、対象画素特定部12は、文字領域を解析対象画素から除く(フラグをFALSEにする)。一方、文字領域の広さの割合が所定の閾値を下回れば、その文字領域が本来のシーンとは異質のものであっても、画像データのシーン判別処理に与える悪影響は小さいと考えて、対象画素特定部12は、画像データの全画素のフラグをTRUEのままとする。
【0117】
上記構成によれば、異質領域の悪影響が小さい場合には、対象画素特定部12において、対象画素特定処理(フラグをFALSE/TRUEにする処理)を省略することができ、シーン判別処理の精度を保ちつつ、シーン判別処理の効率化を図ることが可能となる。
【0118】
〔文字領域が文字である確からしさを考慮する〕
あるいは、対象画素特定部12は、文字認識部14が文字領域に対して文字認識処理を実行する場合に、文字認識結果の信頼度に応じて、シーン判別処理における解析対象画素とするか否かを決定してもよい。図7は、文字認識部14によって出力される文字認識結果とその信頼度との具体例を示す図である。図7は、文字認識部14が、文字領域抽出部11によって画像データ(Fujiyama.jpg)から抽出された3つの文字領域ごとに文字認識を行い、各領域の文字認識結果についてさらに信頼度を出力した結果の例を示している。
【0119】
この具体例に基づいて説明すると、対象画素特定部12は、上記信頼度が所定の閾値以上であれば、当該文字領域に含まれているのは、異質物としての文字(列)である可能性が高いと考えて、その文字領域の全画素のフラグをFALSEにする。一方、上記信頼度が所定の閾値を下回れば、その文字領域とされていた領域は、実際は文字(列)が含まれていなかったと考えて、対象画素特定部12は、その領域の画素のフラグをTRUEのままとする。例えば、閾値となる信頼度のスコアが「55」である場合、図7に示す例では、図3(b)に示す3つの文字領域についての文字認識結果の信頼度は、すべて55以上であるので、対象画素特定部12は、3つの文字領域の全画素のフラグをFALSEにする。
【0120】
上記構成によれば、文字領域抽出部11によって、一旦は文字領域として判断されたが、文字認識部14によって一定の確かさで文字として認識されなかった領域については、対象画素特定部12は、実際は、異質物が含まれた異質領域ではないと判断しなおす。そして、対象画素特定部12は、この領域を、シーン判別処理における解析対象として特定する。これにより、誤って文字領域と認識された領域を、誤って解析対象から外すことを回避することができ、したがって、シーン判別処理の精度を向上させることが可能となる。
【0121】
〔シーン判別結果の信頼度を出力する〕
シーン判別部13は、処理対象の画像データのヒストグラムと、シーン特徴量記憶部31に記憶されているモデルヒストグラムとのマッチングを行う際、その類似度に応じて、シーン判別結果の信頼度を出力してもよい。図8は、シーン判別部13によって出力されるシーン判別結果とその信頼度との具体例を示す図である。図8に示す例では、シーン判別部13がマッチングを行った結果、図3(b)に示す画像データのヒストグラムは、シーン「風景」のモデルヒストグラムとの類似度が最も高く、スコア「60」の信頼度であり、次いで、「ビーチ」、「スノー」、「料理」、「夜景」の順に、それぞれのモデルヒストグラムとの類似度に応じて信頼度が算出されている。
【0122】
そして、シーン判別部13は、上記画像データのシーンを「風景」と判別して、信頼度「60」の値とともにシーン別処理実行部16に出力する。あるいは、シーン判別部13は、信頼度が所定の閾値に満たない場合には、別の処理を実行してもよい。
【0123】
例えば、当該画像データのシーンを判別できない旨のメッセージをユーザに表示したり、シーン別処理実行部16に出力したりする。この場合、シーン別処理実行部16は、シーン別の処理ではなく、デフォルトの処理を上記画像データに施せばよい。あるいは、信頼度が低いことを明示するメッセージをユーザに表示してもよい。この場合、ユーザは判別結果を確認して、誤りがあれば訂正するなどの措置を講じることができる。上記構成によれば、シーン判別結果が正しくない場合に、それをユーザが見過ごすことを防止できる。
【0124】
なお、シーン判別部13は、文字領域として解析対象外とされた面積が、画像データ全体において占める割合を加味して、シーン判別結果の信頼度を出力してもよい。具体的には、文字領域の面積の割合が多ければ、解析対象となった画素が少なく、画像データのシーン判別精度が低下すると考えられる。そこで、シーン判別部13は、画像データにおいて文字領域が占める割合が多いほど、図8に示す各シーンの信頼度が低くなるようにスコアを調節してもよい。
【0125】
これにより、画像属性判別装置10は、シーン判別結果の信頼度をより正確に把握することが可能となり、信頼度に応じた正しい措置を実行することができる。
【0126】
〔文字領域を復元する〕
また、例えば、シーン判別結果について、一定以上の信頼度が得られなかった場合に、復元部15が、解析対象から外された異質領域に対して復元処理を行い、その復元領域の画素値も加味して画像データのシーン判別処理をやり直してもよい。このように解析対象の画素が増えれば、より信頼性の高いシーン判別処理を実行することができる。なお、復元領域は、復元を行っていない対象画素の領域と比べて、復元後の画素値が元の画素値と同じである確かさが低いので、シーン判別部13は、ヒストグラムを作成する場合に、復元された画素から抽出された特徴量に対して、0から1の間の係数を掛けるなどの重み付けをしてもよい。
【0127】
なお、復元部15による復元処理は、対象画素特定部12が解析対象外と特定した画素に対して、信頼度に関わらず必ず実行される構成であってもよい。しかしながら、上記構成は、信頼度が低い場合に絞って復元処理を実行する構成である。よって、高負荷の復元処理の機会を減らし、画像属性判別装置10全体の処理効率を向上させることができるので好ましい。
【0128】
〔文字(列)の意味内容を考慮する〕
さらに、本発明の画像属性判別装置10は、上記文字認識結果(例えば、図7に示す文字列)をシーン判別処理の指標の1つとして用いてもよい。つまり、認識された文字列がどのような意味を持つ単語を含んでいるのかを考慮して、図8に示すシーン判別結果のシーンごとの信頼度を算出してもよい。
【0129】
例えば、画像属性判別装置10は、さらに、キーワード抽出部17(図1に示す)を備えている。また、記憶部2は、文字スコア記憶部33を備えている。キーワード抽出部17は、文字認識部14が領域ごとに認識した文字列に対して、さらに形態素解析を行うなどして、意味を持つ文字(列)の最小単位としてキーワードを抽出するものである。例えば、キーワード抽出部17は、どのような構成でもよいが、文字列から名詞のキーワードを抽出する構成であってもよい。文字スコア記憶部33は、キーワードごとに、どのシーンに対する信頼度をいくつ加点するのかを示した対応表を記憶するものである。つまり、文字スコア記憶部33は、キーワードとシーン(属性)との関連性を信頼度に加算すべきスコアとして記憶するものである。
【0130】
図7に示す例では、キーワード抽出部17は、第1文字領域Ar1の文字列「[富士山]」から、キーワード「富士山」および「山」を抽出する。残りの領域の文字列についても同様にキーワードを抽出する。
【0131】
シーン判別部13は、キーワード抽出部17によって抽出されたキーワードに基づいて、文字スコア記憶部33を参照し、どのシーンに信頼度を何点追加するのかを特定する。そして特定した加点スコアを、図8に示す、シーンごとに出力した信頼度に加算する。具体的には以下のとおりである。
【0132】
図9は、文字スコア記憶部33に記憶されている、キーワードとシーンと加点スコアとの対応関係を示す対応表の具体例を示す図である。図9に示すとおり、対応表において、キーワードごとに、加点対象となるシーンと、そのときの加点スコアとが対応付けて記憶されている。
【0133】
例えば、図9に示す対応表の第1レコードは、画像データの文字領域に、キーワード「富士山」が含まれている場合には、当該画像データの判別結果(図8)におけるシーン「風景」の信頼度に対して、スコア「50」を加算することを意味している。
【0134】
より詳細には、キーワード抽出部17は、3つの文字領域の各文字列から文字認識部14が認識した、キーワード「富士山」を1個、キーワード「山」を2個など、図7に示す計7個のキーワードを抽出する。キーワード抽出部17が抽出したキーワードは、図7に示すとおり、各文字領域に対応付けて格納されてもよいし、画像データ(Fujiyama.jpg)に対応付けてまとめて格納されてもよい。
【0135】
そして、シーン判別部13は、上述の実施形態で説明したシーン判別処理によって、図8に示すシーン判別結果を出力した後、キーワード抽出部17が抽出したキーワードに基づいて、文字スコア記憶部33の対応表(図9)を参照する。
【0136】
シーン判別部13は、キーワード「富士山」の加点スコア「50点×1個=50点」をシーン「風景」の信頼度に加点する。また、キーワード「山」の加点スコア「10点×2個=20点」をシーン「風景」の信頼度に加点する。「富士山」および「山」以外の4個のキーワードについては、文字スコア記憶部33に記憶されていない場合は加点しない。つまり、図8に示すシーン「風景」の信頼度のスコア「60」に、「70」を加算して、シーン「風景」の信頼度を最終的に「130」として出力する。
【0137】
このように、画像データに含まれている文字列の意味内容を、当該画像データのシーン判別結果に加味することにより、より信頼性の高いシーン判別結果を出力することが可能となる。テロップ、写真タイトル等の文字列には、その画像データのシーンに関連が深い単語が含まれている場合が多く、したがって、これをシーン判別処理の指標の1つとすることで、シーン判別結果の精度を向上させることができる。
【0138】
〔シーン判別処理フロー〕
図10Aおよび図10Bは、本実施形態におけるデジタルフォトフレーム100のシーン判別処理の流れの一例を示すフローチャートである。
【0139】
図6のS101〜S103に示すのと同様の方法であるが、まず、画像属性判別装置10は、処理対象となる画像データ(Fujiyama.jpg)を画像データ記憶部30から読み出して、画像メモリ5aに展開する(S201)。対象画素特定部12は、展開された画像データの各画素のフラグ配列を定義し、これをTRUEに初期化する(S202)。文字領域抽出部11は、画像メモリ5a上に展開された画像データについて、異質領域としての文字領域を抽出する(S203)。ここでは、図3(b)に示すとおり、文字領域抽出部11は、第1文字領域Ar1〜第3文字領域Ar3の3つの文字領域を抽出する。
【0140】
次に、対象画素特定部12は、抽出された文字領域に属する各画素について、シーン判別のための特徴量抽出対象の画素となるか否かを特定する。詳細には、まず、対象画素特定部12は、文字領域抽出部11によって画像データから抽出された全文字領域の面積が所定の閾値以上か、未満かを判断する(S204)。各文字領域の合計面積が所定の閾値に満たない場合(S204においてNO)、その文字領域(異質領域)が、画像データのシーン判別処理に与える悪影響は少ないと考えて、対象画素特定処理を実施せずに、画像データの全画素を解析対象として、S211以降のシーン判別処理(図10B)に移行する。
【0141】
一方、各文字領域の合計面積が所定の閾値以上である場合(S204においてYES)、S205以降の対象画素特定処理に移行する。S205にて、対象画素特定部12は、変数iに初期値1を代入する。そして、i番目の文字領域の各画素について、フラグをTRUEで維持したり、FALSEに変えたりする処理が実行される。
【0142】
具体的には、まず、文字認識部14が、i番目の文字領域について、文字認識処理を実行する(S206)。文字認識部14は、図7に示すように、i番目の文字領域の文字認識結果とその信頼度とを出力する。ここで、キーワード抽出部17は、文字認識部14によって認識された文字(列)から、キーワードを抽出してもよい。あるいは、全領域について文字認識処理が完了してから最後にまとめてキーワード抽出が行われてもよい。
【0143】
対象画素特定部12は、文字認識部14によって出力された当該文字領域の文字認識結
果の信頼度を参照し、所定の閾値以上か、未満かを判断する(S207)。文字認識結果の信頼度が閾値に満たない場合(S207においてNO)、それまで文字領域とされていたi番目の領域は、実は文字領域でない(すなわち異質物を含んでいない)可能性が高いと判断し、当該領域の各画素のフラグをTRUEのまま維持する。すなわち、対象画素特定部12は、上記領域の各画素をシーン判別のための解析対象から外さないと決定する。
【0144】
一方、文字認識結果の信頼度が閾値以上である場合(S207においてYES)、当該文字領域が、シーン判別に悪影響を与える文字(列)を含んでいる可能性が高いと判断し、当該文字領域の各画素のフラグをFALSEにする(S208)。すなわち、対象画素特定部12は、上記文字領域の各画素をシーン判別のための解析対象から外すと決定する。1つの文字領域について、各画素のフラグのTRUEまたはFLASEが特定されると、対象画素特定部12は、iを1つインクリメントして(S209)、次の文字領域について、同様の手順で解析対象画素とするか否かを特定し、この処理を文字領域抽出部11によって抽出されたすべての文字領域について繰り返す。対象画素特定部12が、すべての文字領域(例えば、3つの文字領域すべて)について、対象画素特定処理を終了させると(S210)、シーン判別部13が当該画像データ(Fujiyama.jpg)についてシーン判別処理を実行する。
【0145】
シーン判別部13は、図6のS105、S106に示すのと同様の方法で、当該画像データにおいて、フラグが「TRUE」の条件を満たす画素のみを対象に特徴量を抽出(ヒストグラムを作成)し(S211)、シーンごとのモデル特徴量(モデルヒストグラム)との照合を行って、画像データのシーンを判別する(S212)。ここで、シーン判別部13は、画像データの特徴量とシーンごとのモデル特徴量との類似度、文字認識部14およびキーワード抽出部17によって取得された文字領域に含まれるキーワード、および、対象外とされた文字領域の大きさなどの各要因に基づいて、当該画像のシーンとして判別されたシーンおよび次点以下の他のシーンごとに信頼度を算出する(S213)。例えば、シーン判別部13は、シーン判別結果およびその信頼度を「(1位)シーン:風景、信頼度:130」のように出力する。
【0146】
続いて、シーン判別部13は、画像データ(Fujiyama.jpg)のシーンが判別されたシーン(例えば「風景」)であるという確かさがどの程度であるのかを判断する。例えば、上記の「信頼度:130」が、所定の閾値以上か、未満かを判断する(S214)。ここで、シーン判別結果の信頼度が所定の閾値以上であれば、シーン判別部13は、判別したシーンはほぼ確実に正しいと判断し、シーン判別結果をシーン別処理実行部16に出力する。例えば、画像データ(Fujiyama.jpg)のシーンは「風景」であるという判別結果をシーン別処理実行部16に出力する(S218)。
【0147】
一方、シーン判別結果の信頼度が所定の閾値未満であれば、画像データのシーンが本当にそのシーンであるのか疑わしいとして、画像属性判別装置10は、判別結果の精度を向上させる処理に移行する。具体的には、復元部15は、対象画素特定部12によってフラグがFALSEに設定された各画素について、異質物を取り除く復元処理を実行する(S215)。この復元処理には、公知の復元技術が適用される。
【0148】
そして、シーン判別部13は、復元部15によって復元された、フラグがFALSEである各画素を対象に、特徴量を抽出する(S216)。シーン判別部13は、S211にて作成したTRUEの各画素のヒストグラムに、上記FALSEの各画素のヒストグラムを合成し、合成後のヒストグラムを用いて、各シーンのモデルヒストグラムとのマッチングを行い、画像データのシーン判別を再度行う(S217)。これにより、画像データ(Fujiyama.jpg)のシーン判別結果と信頼度とが再び求められ、最も信頼度の高いシーンが、当該画像データのシーンであるとしてシーン別処理実行部16に出力される(S218)。
【0149】
これにより、シーン別処理実行部16は、画像データ(Fujiyama.jpg)に対して、シーン「風景」に応じた処理を施すことが可能となる。例えば、シーン別処理実行部16は、シーン別自動補正機能を有し、上記画像データに対して、風景写真が最も美しく映えるような画像処理を行って、表示部3に表示することなどが可能である。
【0150】
以上のとおり、上記方法によれば、画像属性判別装置10において、シーン判別処理の効率化と、シーン判別処理の精度向上とを、画像属性判別装置10の性能、使用環境などに応じてバランスよく構成することができる。
【0151】
本発明の画像属性判別装置10は、本実施形態で説明した追加の構成のすべてを備えていなくてもよく、画像属性判別装置10の構成は、本発明を実現する装置の情報処理能力、使用用途、使用環境などを考慮して、シーン判別処理の効率化および精度向上をバランスよく実現できるように、適宜選択的に設計される。
【0152】
〔文字領域の抽出方法〕
上述の各実施形態では、文字領域抽出部11は、図3(b)に示すとおり、画像データからある程度まとまった文字列らしき形状の外接矩形を文字領域として抽出するものとして説明したが、文字領域抽出部11の構成はこれに限定されない。
【0153】
図11および図12は、図3(a)の画像データから文字領域抽出部11が文字領域として抽出した領域の他の例を示す図である。
【0154】
例えば、図11に示すとおり、文字領域抽出部11は、文字(らしき)形状の外接矩形を1文字単位で文字領域として抽出してもよい。この場合、対象画素特定部12が対象画素特定処理を実行するときの領域数が増えて画像属性判別装置10に処理負荷がかかるという不利な点がある一方、図3(b)のように大きく3つの領域に括られてしまう場合と比較して、解析対象外として無視される画素を減らすことができ、したがって、シーン判別処理の精度を向上させることができるという有利な点がある。
【0155】
あるいは、図12に示すとおり、文字領域抽出部11は、異質物の外接矩形ではなく、色、テクスチャなどから異質物(文字など)を写した画素のみを厳格に文字領域として抽出してもよい。この場合、文字領域抽出部11、対象画素特定部12における処理負荷はさらに大きくなる一方、解析対象外として無視される画素をさらに大幅に減らすことができ、したがって、シーン判別処理の精度をさらに向上させることができる。
【0156】
≪実施形態3≫
上述の各実施形態では、画像データの異質領域に左右されずに画像データの属性(シーン)を精度よく、かつ、効率的に判別することが可能な画像属性判別装置10について説明した。この画像属性判別装置10は、シーン特徴量記憶部31においてあらかじめ学習されているモデル特徴量を、画像データの特徴量と照合することによりシーンの判別を行っている。したがって、モデル特徴量が、シーンに応じた特徴を正しく反映していることが、精度よいシーン判別のために必要である。本実施形態では、シーン特徴量記憶部31に学習させる、シーンごとのモデル特徴量をより正確に作成する属性判別支援装置20について説明する。
【0157】
本発明の属性判別支援装置20は、シーン学習機能を実行する。シーン学習機能とは、学習対象となるサンプルの画像データを指定した正解のシーンと対応付けて装置が受け付けて、画像データから特徴量を抽出して、その特徴量を、指定されたシーンのモデル特徴量の一部として学習させる機能である。例えば、シーンが「風景」にカテゴライズされる画像データをあらかじめ複数用意しておき、これらの画像データから特徴量を抽出して、例えばその平均値などを、シーン「風景」のモデル特徴量とする。
【0158】
したがって、サンプルとして入力される画像データに上述したような異質領域(テロップなどの文字列)が含まれると、モデル特徴量がそのシーンの本来の特徴とは異質の特徴を含むことになってしまう。例えば、通常、「風景」の画像データには、黄色の文字形状は含まれないが、このような異質の黄色のテキストオブジェクトが本来のモデル特徴量を正しくない方向に歪ませてしまう。このようにモデル特徴量がそのシーンに応じた特徴を正しく反映していないと、それを用いて行われるシーン判別処理の精度が低下してしまうという問題がある。
【0159】
そこで、本発明の属性判別支援装置20は、入力されたサンプルの画像データに異質領域が含まれている場合には、それを検出し取り除いた上で特徴量を求め、指定されたシーンのモデル特徴量に追加する。これにより、画像データの異質領域に左右されない、正確なモデル特徴量を作成することが可能となり、画像属性判別装置10が、異質領域に左右されずに画像データの属性を精度よく判別することが可能になる。
【0160】
属性判別支援装置20は、ユーザが使用する上述のデジタルフォトフレーム100などの各種画像処理装置に適用してもよい。あるいは、本発明の属性判別支援装置20は、上記画像処理装置の製造段階において、画像処理装置のシーン特徴量記憶部31に記憶させるモデル特徴量を、あらかじめ用意された大量のサンプル画像データに基づいて作成する情報処理装置によって実現されてもよい。
【0161】
〔デジタルフォトフレームの構成〕
図13は、本発明の実施形態におけるデジタルフォトフレーム100の要部構成を示すブロック図である。なお、図13の各構成要素に付された符号は、図1の各構成要素に付された符号に対応しており、同じ符号は、同じ構成要素を示している。したがって、上述の各実施形態ですでに説明した構成要素についての説明は繰り返さない。
【0162】
図1に示すデジタルフォトフレーム100と異なる点は、制御部1が、さらに、機能ブロックとしてのモデル特徴量算出部18を備えている点である。モデル特徴量算出部18と、他の各機能ブロック(特に、文字領域抽出部11、対象画素特定部12、さらには、文字認識部14)は、シーン学習機能を実行する属性判別支援装置20として機能する。属性判別支援装置20は、さらに、復元部15を備えていてもよい。
【0163】
属性判別支援装置20は、まず、学習対象となるサンプルの画像データを指定した正解のシーンと対応付けて受け付ける。この入力を受け付ける方法は特に限定されないが、例えば、以下のとおりである。ユーザが学習させたい画像データを記録した外部記録媒体をデジタルフォトフレーム100に装着し、デジタルフォトフレーム100が、図示しない外部インターフェースを介して上記画像データを取り込む。ユーザは、操作部4を用いてデジタルフォトフレーム100を操作し、取り込まれた上記画像データに対応付ける正解のシーンを指定し、学習を指示する。属性判別支援装置20は、受け付けた画像データに入力された正解のシーンを対応付けて画像データ記憶部30に登録する。このように登録された画像データは、シーン学習処理に用いられるとともに、表示部3に表示する画像データとして用いられてもよい。
【0164】
学習が指示されると、文字領域抽出部11は、学習対象として受け付けた画像データを処理して、異質領域(ここでは、文字領域)が含まれていればそれを抽出する。
【0165】
対象画素特定部12は、文字領域抽出部11によって抽出された文字領域内の各画素について、それを特徴量抽出の対象画素とするか否かを特定する。ここでも、上述の実施形態と同様に、対象画素特定部12は、対象画素のフラグにTRUE、対象外の画素のフラグにFALSEを設定する。
【0166】
モデル特徴量算出部18は、学習対象として受け付けた画像データの特徴量を抽出し、抽出した特徴量を用いて、指定されたシーンのモデル特徴量を算出するものである。本実施形態では、デジタルフォトフレーム100において、モデル特徴量算出部18は、すでに作成されているモデル特徴量に対して、今回新たに抽出した特徴量を含めて再度特徴量の平均値を算出しなおし、指定されたシーンのモデル特徴量を更新する。
【0167】
例えば、指定されたシーン「風景」の指定とともに、学習対象の画像データAが入力された場合、現時点でのシーン「風景」のモデル特徴量をX、Xの素になっている「風景」のサンプル画像データ(の特徴量)数をN個、新たに抽出した画像データAの特徴量をYとすると、モデル特徴量算出部18は、次式、
(X*N+Y)/(N+1)・・・(式1)
にしたがって、新たな「風景」のモデル特徴量を作成し、シーン特徴量記憶部31のモデル特徴量を更新する。これは、特徴量Yのデータ数が1の場合、すなわち、画像データAが1枚の場合の式である。なお、特徴量Xと特徴量Yとは、ベクトル量であり、例えば、ヒストグラムを示す。
【0168】
上記構成によれば、シーン学習機能を実行する際に、学習対象となる画像データに対して、前処理として、まず、文字領域抽出部11が文字領域抽出処理を行う。そして、モデル特徴量算出部18が、対象画素特定部12によって特定された処理対象外の画素を除いて得られる特徴量に基づいて、モデル特徴量を作成する。
【0169】
これにより、異質物(テロップ等の文字)が含まれている画像データが、学習対象の画像データの中に不都合にも混在している場合でも、この異質物による悪影響が排除されたモデル特徴量を得ることができる。結果として、画像属性判別装置10のシーン判別精度を向上させることができる。
【0170】
なお、対象画素特定部12によって、文字領域として特徴量抽出の対象から外された画素に対して、復元部15が復元処理を実行してもよい。例えば、復元部15は、文字列によって隠されている本来の背景を復元することなどが可能である。これにより、より信頼性の高いモデル特徴量を作成することができる。
【0171】
〔シーン学習処理フロー〕
図14は、本実施形態におけるデジタルフォトフレーム100のシーン学習処理の流れの一例を示すフローチャートである。
【0172】
まず、属性判別支援装置20は、学習対象となる画像データ(ここでも、図3(a)に示す、Fujiyama.jpgとする)の入力とともに、該画像データに対応付けられる正解のシーン(ここでは、「風景」とする)の指定を受け付ける(S301)。
【0173】
文字領域抽出部11は、画像データ(Fujiyama.jpg)に対して、異質領域(ここでは、文字領域)抽出処理を実行する(S302)。文字領域抽出処理は、上述の各実施形態と同様の手順で行われ、例えば、図3(b)に示すとおり、第1文字領域Ar1〜第3文字領域Ar3の3つの文字領域が抽出されたとする。
【0174】
次に、対象画素特定部12は、抽出された文字領域に属する各画素について、シーン学習のための特徴量抽出の対象画素となるか否かを特定する対象画素特定処理を実行する(S303)。本実施形態では、図10AのS205〜S210に示されるのと同様の手順で各文字領域の画素ごとに、特徴量抽出の対象となるか(TRUE)、否か(FALSE)が特定される。すなわち、対象画素特定部12は、文字領域が実際は文字を含んでいない可能性が高い場合には、その中の各画素を特徴量抽出の対象とし、文字を含んでいる可能性が高い文字領域については、その中の各画素を特徴量抽出の対象外とする。
【0175】
続いて、モデル特徴量算出部18は、画像データ(Fujiyama.jpg)の画素のうち、フラグがTRUEの条件を満たす画素のみを対象にして特徴量を抽出(例えば、ヒストグラムを作成)する(S304)。そして、モデル特徴量算出部18は、S301にて受け付けたシーン(ここでは「風景」)のモデル特徴量をシーン特徴量記憶部31から読み出して、
S304で抽出した特徴量に基づいて再計算し、これを更新する(S305)。例えば、モデル特徴量算出部18は、画像データ(Fujiyama.jpg)を含む風景のサンプル画像データの各々から得られる色のヒストグラムの平均値を算出し、これを、シーン「風景」の新しいモデルヒストグラムとして更新する。
【0176】
上記方法によれば、シーン学習機能を実行する際に、学習対象となる画像データに文字(列)などの異質領域が含まれている場合には、その領域を除いた画素群について得られる特徴量を、指定されたシーンのモデル特徴量に加えることができる。
【0177】
これにより、より正確なモデル特徴量を作成することでき、結果として、画像属性判別装置10が、精度よくシーン判別を行うことが可能になる。
【0178】
なお、上述した実施形態2では、シーン判別処理の効率化を目的として、抽出された文字領域が小さい場合には、対象画素特定処理(フラグがTRUEかFALSEかを決定する処理)を省略することについて説明した。しかしながら、本実施形態では、より正確なモデル特徴量を作成するという目的から、画像データから抽出された文字領域が小さい場合でも、それが異質のものである場合には、FALSEのフラグを立てて対象画素から除外することが好ましい。なぜならば、1つの画像データについて、正しいシーンを判別するような実施形態2のケースでは、小さい文字領域が与える悪影響は少ないが、多数の画像データを用いて、1つのシーンのモデル特徴量を作成する本実施形態では、小さい文字領域の積み重ねが、正確なモデル特徴量の作成の妨げになる虞があるからである。
【0179】
また、属性判別支援装置20は、さらに、復元部15を備えていてもよい。S303において対象画素特定部12によって特定されたFALSEの画素の面積(文字領域の面積)が所定の閾値よりも大きい場合には、復元部15は、文字領域に対して復元処理を実行する。対象画素特定部12は、復元された領域の画素のフラグをTRUEとし、対象画素の面積を増やす。これにより、より多くの同質の画素を特徴量抽出の対象とすることができ、作成するモデル特徴量の信頼性をより高めることが可能である。
【0180】
図15は、本発明の実施形態において、デジタルフォトフレーム100のシーン特徴量記憶部31に搭載するモデル特徴量を作成する属性判別支援装置20の要部構成を示すブロック図である。ここでは、属性判別支援装置20は、大量の画像データを処理するのに適したサーバ、パーソナルコンピュータ、スーパーコンピュータなどの各種情報処理装置で実現される。なお、図15の各構成要素に付された符号は、図1、13の各構成要素に付された符号に対応しており、同じ符号は、同じ機能を持つ構成要素を示している。したがって、上述の各実施形態ですでに説明した構成要素について、同じ説明は繰り返さない。
【0181】
表示部3は、ここでは、操作者が大量の画像データを登録したり、シーンを指定したりするための操作画面をGUI(Graphical User Interface)画面として表示する。例えば、学習対象の画像データを操作するためのアイコンを一覧表示したり、すでに、画像データ記憶部30に登録されている画像データをシーンごとにサムネイル表示したりして、操作者がシーン学習機能を実行するのに便利なGUI画面を表示する。
【0182】
操作部4は、ここでは、操作者が属性判別支援装置20を操作するためのものであり、例えば、マウス、キーボードなどで実現される。具体的には、操作者はマウスを操作して、表示部3に表示されている、新たに登録した大量のサンプルの画像データを一度に選択し、特定のシーン「風景」のフォルダにドラッグアンドドロップで格納することが可能である。これにより、操作者は、シーンを指定して一度に大量の画像データを登録することができ、簡単な操作で、属性判別支援装置20にそのシーンの特徴を学習させることが可能となる。
【0183】
制御部1は、記憶部2から一時記憶部5に読み出されたプログラムを実行することにより、各種の演算を行うと共に、属性判別支援装置20が備える各部を、バス6を介して統括的に制御するものである。制御部1は、機能ブロックとして、少なくとも、異質領域抽出部11a、対象画素特定部12およびモデル特徴量算出部18を備える構成である。さらに、制御部1は、学習対象管理部19、文字認識部14および復元部15を備えていてもよい。これらの各ブロックは、属性判別支援装置20のシーン学習機能を実行する機能ブロックである。各機能ブロックは、CPU(central processing unit)が、ROM(read only memory)等で実現された記憶部2に記憶されているプログラムをRAM(random access memory)等で実現された一時記憶部5に読み出して実行することで実現できる。
【0184】
異質領域抽出部11aは、学習対象の画像データに含まれる異質領域を抽出するものである。上述の各実施形態では、文字領域抽出部11が、異質領域として文字(列)を含む文字領域を抽出する構成であった。しかし、異質領域抽出部11aは、文字領域に限定されず、あらゆる異質物を含む異質領域を抽出する構成である。文字領域以外の異質領域の具体例については後述するが、本実施形態における属性判別支援装置20のように、モデル特徴量を作成するために大量のサンプル画像データを一度に読み込ませる装置の場合、文字(列)のみならず、サンプルには相応しくない、あらゆる異質物を含む画像データが混入する可能性がある。そこで、異質領域抽出部11aは、色やテクスチャの特徴などからあらゆる種類の異質物を検出できることが好ましい。
【0185】
学習対象管理部19は、操作者からの学習の指示を受け付けるものであり、自装置に入力された学習対象の大量の画像データを、指定されたシーンの情報とともに画像データ記憶部30に記憶し管理するものである。学習対象管理部19が記憶した画像データは、モデル特徴量算出部18によって特徴量が抽出される際に、画像メモリ5a上に1枚ずつ展開される。学習対象管理部19は、展開された画像データの正解のシーンが何であるのかをモデル特徴量算出部18に伝達する。
【0186】
モデル特徴量算出部18は、上述したのと同様の手順で、自装置に入力された1つのシーンについての複数のサンプル画像データの特徴量を抽出し、それらの特徴量に基づいて、モデル特徴量を算出するものである。
【0187】
例えば、学習の指示、および、シーン「風景」に対応付けて100枚のサンプルの画像データが入力された場合、学習対象管理部19は、100枚の画像データをシーン「風景」に対応付けて画像データ記憶部30に記憶する。そして、異質領域抽出部11aが、画像メモリ5aに展開した1枚の画像データの異質領域を検出し、対象画素特定部12が、各異質領域を除外するフラグ(FALSE)を各画素にセットする。
【0188】
モデル特徴量算出部18は、上記画像データについて、フラグがTRUEの画素についてのみ特徴量の抽出を行う。モデル特徴量算出部18は、同様にして得られた100枚全部の画像データの特徴量の平均値を、シーン「風景」のモデル特徴量として作成する。モデル特徴量算出部18が作成したモデル特徴量は、一旦シーン特徴量記憶部31に記憶され、適宜の手段を用いて、製造工程にある各デジタルフォトフレーム100に搭載される。
【0189】
上記構成によれば、モデル特徴量を作成する際に用いるサンプルの中に、異質領域を含む画像データが含まれている場合でも、これを除外し、同質の画素のみから得られる特徴に基づいてモデル特徴量が作成される。よって、指定されたシーンに合った正確なモデル特徴量をデジタルフォトフレーム100に搭載することが可能となり、結果として、デジタルフォトフレーム100は、精度よくシーン判別処理を実行することができる。
【0190】
上述したとおり、異質領域抽出部11aは、文字(列)以外にも、様々な異質物を検出し、それを含む異質領域を抽出することができる。様々な異質領域の具体例を図16〜19に示す。
【0191】
図16は、写真の撮影時の環境あるいは被写体の状態などに起因してスミア(破線枠内の白飛びした領域)が生じた画像データの一例を示す図である。図17は、落書き(タッチペンによる手書き編集)、イラスト、スタンプなどのオブジェクトが画像編集工程でマージされた画像データの一例を示す図である。図18は、原稿の端が折れたままスキャンされて得られた画像データの一例を示す図である。図19は、写真の撮影時に撮影者の指が写り込んでしまった画像データの一例を示す図である。
【0192】
異質領域抽出部11aは、色やテクスチャなど違いに基づいて、各図に示される破線枠内の領域が、他の領域とは属性の異なる領域であると検出し、この領域を異質領域として抽出する。
【0193】
上記構成によれば、モデル特徴量算出部18が特徴量を抽出するとき、シーンの判別に悪影響を与える様々な異質物に対応することができ、これを除いた状態でモデル特徴量の算出が行われる。したがって、さらに正確なモデル特徴量を得ることができ、結果として、画像属性判別装置10によるシーン判別結果の精度を向上させることが可能となる。
【0194】
なお、画像属性判別装置10が、異質領域抽出部11aを備えていてもよく、この場合、画像データに文字以外の異質物が含まれていても、それに左右されずに正しくシーン判別処理を実行することが可能となる。
【0195】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0196】
最後に、画像属性判別装置10および属性判別支援装置20の各ブロック、特に、異質領域抽出部11a、文字領域抽出部11、対象画素特定部12、シーン判別部13およびモデル特徴量算出部18は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
【0197】
すなわち、画像属性判別装置10および属性判別支援装置20は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像属性判別装置10(または属性判別支援装置20)の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記画像属性判別装置10(または属性判別支援装置20)に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0198】
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0199】
また、画像属性判別装置10(または属性判別支援装置20)を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【産業上の利用可能性】
【0200】
本発明の画像属性判別装置または属性判別支援装置によれば、画像データの属性を精度よく判別することが可能になるので、属性の判別結果に応じて、属性別の処理を画像データに施す、各種画像処理装置に好適に用いることができる。例えば、本発明を、デジタルフォトフレーム、デジタルカメラ、デジタルビデオカメラ、デジタルビデオレコーダー/プレーヤー、デジタルテレビ、パソコン、プリンタ、スキャナなどに利用することができる。
【符号の説明】
【0201】
1 制御部
2 記憶部
3 表示部
4 操作部
5 一時記憶部
5a 画像メモリ
6 バス
10 画像属性判別装置
11 文字領域抽出部(異質領域特定手段)
11a 異質領域抽出部(異質領域特定手段)
12 対象画素特定部(対象画素決定手段)
13 シーン判別部(属性判別手段)
14 文字認識部(文字認識手段)
15 復元部(復元手段)
16 シーン別処理実行部
17 キーワード抽出部(キーワード抽出手段)
18 モデル特徴量算出部(モデル特徴量算出手段)
19 学習対象管理部
20 属性判別支援装置
30 画像データ記憶部
31 シーン特徴量記憶部
32 文字照合辞書記憶部
33 文字スコア記憶部(ワード関連性記憶部)
100 デジタルフォトフレーム(画像属性判別装置/属性判別支援装置)

【特許請求の範囲】
【請求項1】
画像データが写し出す内容に基づいて、該画像データの属性を判別する画像属性判別装置において、
画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定手段と、
上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量に基づいて、上記画像データの属性を判別する属性判別手段とを備えていることを特徴とする画像属性判別装置。
【請求項2】
上記異質領域特定手段は、文字を含む文字領域を異質領域として特定することを特徴とする請求項1に記載の画像属性判別装置。
【請求項3】
上記画像データの各画素のうち、特徴量の抽出の対象とならなかった対象外画素の領域に対し、対象画素と同質の画素を復元する復元手段を備えていることを特徴とする請求項1または2に記載の画像属性判別装置。
【請求項4】
上記異質領域特定手段によって特定された異質領域内の各画素につき、上記属性判別手段によって特徴量が抽出される対象画素か否かを決定する対象画素決定手段を備え、
上記属性判別手段は、上記画像データの各画素のうち、上記対象画素決定手段によって対象でないと決定された対象外画素を除いた画素群より抽出された特徴量に基づいて、上記画像データの属性を判別することを特徴とする請求項1から3までのいずれか1項に記載の画像属性判別装置。
【請求項5】
上記異質領域特定手段は、文字を含む文字領域を異質領域として特定し、
画像属性判別装置は、さらに、
上記異質領域特定手段が特定した文字領域内の文字を認識する文字認識手段を備え、
上記対象画素決定手段は、
上記文字領域内の文字が上記文字認識手段によって認識された文字であることの確からしさを示す文字認識結果の信頼度が所定値以下の場合は、上記文字領域内の画素を対象画素として決定することを特徴とする請求項4に記載の画像属性判別装置。
【請求項6】
上記文字認識手段が認識した文字または文字列から、キーワードを抽出するキーワード抽出手段と、
上記キーワード抽出手段によって抽出される各キーワードと、上記属性判別手段によって判別される各属性との関連性を記憶するワード関連性記憶部とを備え、
上記属性判別手段は、上記ワード関連性記憶部を参照し、
上記画像データの文字領域から抽出されたキーワードと各属性との関連性の高さを加味して該画像データの属性を判別することを特徴とする請求項5に記載の画像属性判別装置。
【請求項7】
上記属性判別手段は、上記画像データの特徴量を、複数種類の属性ごとにあらかじめ定められているモデル特徴量と照合し、その類似度に応じて、上記画像データの属性がその属性であることの確からしさを示す属性判別結果の信頼度を算出することにより、上記画像データの属性を判別し、
上記ワード関連性記憶部は、上記キーワードと上記属性との関連性を、上記属性判別結果の信頼度に加算するためのスコアとして記憶していることを特徴とする請求項6に記載の画像属性判別装置。
【請求項8】
上記画像データの各画素のうち、特徴量の抽出の対象とならなかった対象外画素の領域に対し、対象画素と同質の画素を復元する復元手段を備え、
上記復元手段は、上記属性判別結果の信頼度が所定値より低い場合にのみ復元を実行することを特徴とする請求項7に記載の画像属性判別装置。
【請求項9】
上記属性判別手段は、
上記画像データの各画素のうち、特徴量の抽出の対象とならなかった対象外画素の領域が広いほど、信頼度を低く算出することを特徴とする請求項7または8に記載の画像属性判別装置。
【請求項10】
上記対象画素決定手段は、上記画像データにおいて上記異質領域の占める面積が所定以上広い場合にのみ、上記異質領域内の各画素を対象外画素として決定することを特徴とする請求項4から9までのいずれか1項に記載の画像属性判別装置。
【請求項11】
自装置に対して、画像データと該画像データの属性の指定とが入力されたとき、上記画像データの各画素のうち、上記異質領域特定手段によって特定された上記異質領域内の各画素を除いた画素群より抽出された特徴量を用いて、指定された属性のモデル特徴量を算出するモデル特徴量算出手段を備え、
上記属性判別手段は、上記画像データの特徴量を、上記モデル特徴量算出手段によって属性ごとに算出されたモデル特徴量と照合し、その類似度に応じて上記画像データの属性を判別することを特徴とする請求項1から10までのいずれか1項に記載の画像属性判別装置。
【請求項12】
画像データが写し出す内容に基づいて該画像データの属性を判別する画像属性判別装置が参照するモデル特徴量を、属性ごとに定める属性判別支援装置において、
自装置に対して、画像データと該画像データの属性の指定とが入力されたとき、入力された画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定手段と、
上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量を用いて、指定された属性のモデル特徴量を算出するモデル特徴量算出手段を備えていることを特徴とする属性判別支援装置。
【請求項13】
画像データが写し出す内容に基づいて、該画像データの属性を判別する画像属性判別方法であって、
画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定ステップと、
上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量に基づいて、上記画像データの属性を判別する属性判別ステップとを含むことを特徴とする画像属性判別方法。
【請求項14】
画像データが写し出す内容に基づいて該画像データの属性を判別する画像属性判別装置が参照するモデル特徴量を、属性ごとに定める属性判別支援装置の制御方法であって、
上記属性判別支援装置に対して、画像データと該画像データの属性の指定とが入力されたとき、入力された画像データが本来写し出している内容とは属性が異なる異質物が含まれる異質領域を該画像データから特定する異質領域特定ステップと、
上記画像データの各画素のうち、上記異質領域内の各画素を除いた画素群より抽出された特徴量を用いて、指定された属性のモデル特徴量を算出するモデル特徴量算出ステップとを含むことを特徴とする属性判別支援装置の制御方法。
【請求項15】
コンピュータに、請求項13に記載の画像属性判別方法の各ステップ、または、請求項14に記載の属性判別支援装置の制御方法の各ステップを実行させるための制御プログラム。

【図1】
image rotate

【図2】
image rotate

【図4】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10A】
image rotate

【図10B】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図3】
image rotate

【図5】
image rotate

【図11】
image rotate

【図12】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate