画像処理装置、画像処理方法及び画像処理プログラム

【課題】被写体の画像情報や画像外情報だけでは区別できない別々の被写体を区別して、主要被写体を認識できるようにすること。
【解決手段】画像処理装置は、認識対象画像から計算される画像特徴量を生成する画像特徴量算出部３１と、画像以外の情報から得られる画像外特徴量を取得する画像外特徴量算出部３２と、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識部３３と、シーン情報と該シーン情報に対して典型的な主要被写体との対応関係を蓄積しておくシーン・主要被写体対応関係蓄積部４２と、上記認識されたシーン情報と、上記蓄積された対応関係とを利用して、主要被写体候補を推定する主要被写体認識部３４と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像から主要被写体を認識する画像処理装置及び画像処理方法、並びにコンピュータにそのような画像処理装置の手順を実行させるプログラムに関する。
【背景技術】
【０００２】
種々の画像処理や画像認識に利用するため、画像中の被写体を認識する要望がある。
【０００３】
一般的には、画像と画像中に写った被写体を関連付けたもの（教師データ）を大量の画像について用意し、学習によって画像特徴量から被写体を推定する画像処理装置を構築する。
【０００４】
しかし、被写体は非常に多岐にわたるため、複数の被写体の画像特徴量が似通い、クラスタがオーバーラップしてしまうという状況が発生する。複数の被写体のクラスタがオーバーラップすると、それら複数の被写体の区別を判定することは困難である。
【０００５】
そこで、特許文献１では、顔検出処理における精度向上に関し、主要被写体から発せられる音声情報と主要被写体とを対応付け、辞書的に記録しておく手法を提案している。これは、撮影時に、主要被写体から発せられる音を集音し、画像情報だけでなく画像外情報である音声情報を併せて主要被写体検出を行うことで、主要被写体認識の精度向上を図っている。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００９−６０３９４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
上記特許文献１の方法では、画像情報に加えて画像外情報を利用することで、主要被写体認識の精度向上を図っている。しかしながら、被写体自体の画像情報と画像外情報だけを利用しているため、画像情報も画像外情報も似通った別々の被写体の区別をすることはできない。
【０００８】
本発明は、上記の点に鑑みてなされたもので、被写体の画像情報や画像外情報だけでは区別できない別々の被写体を区別して、主要被写体を認識することができる画像処理装置、画像処理方法及び画像処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００９】
本発明の画像処理装置の一態様は、認識対象画像から主要被写体を認識する画像処理装置であり、
上記認識対象画像から計算される画像特徴量を生成する画像特徴量生成手段と、
画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得手段と、
上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識手段と、
シーン情報と該シーン情報に対して典型的な主要被写体との対応関係を蓄積しておくシーン・主要被写体対応関係蓄積手段と、
上記シーン認識手段で認識された上記シーン情報と、上記シーン・主要被写体対応関係蓄積手段に蓄積された上記対応関係とを利用して、主要被写体候補を推定する主要被写体認識手段と、
を備えることを特徴とする。
また、本発明の画像処理方法の一態様は、認識対象画像から主要被写体を認識する画像処理方法であり、
上記認識対象画像から計算される画像特徴量を生成し、
画像以外の情報から得られる画像外特徴量を取得し、
上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行い、
予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記認識されたシーン情報とを利用して、主要被写体候補を推定する、
ことを特徴とする。
また、本発明の画像処理プログラムの一態様は、
主要被写体を認識する認識対象画像から計算される画像特徴量を生成する画像特徴量生成ステップと、
画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得ステップと、
上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識ステップと、
予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記シーン認識ステップで認識された上記シーン情報とを利用して、主要被写体候補を推定する主要被写体認識ステップと、
をコンピュータに発揮させることを特徴とする。
【発明の効果】
【００１０】
本発明によれば、シーン情報を用いることで、被写体の画像情報や画像外情報だけでは区別できない別々の被写体を区別して、主要被写体を認識することができる画像処理装置、画像処理方法及び画像処理プログラムを提供することができる。
【図面の簡単な説明】
【００１１】
【図１】図１は、本発明の一実施形態に係る画像処理装置の構成例を示す図である。
【００１２】
【図２】図２は、図１の画像処理装置における演算部の動作を説明するためのフローチャートを示す図である。
【発明を実施するための形態】
【００１３】
以下、本発明を実施するための形態を図面を参照して説明する。
図１に示すように、本発明の一実施形態に係る画像処理装置は、画像入力部１０、画像外情報入力部２０、演算部３０、記憶部４０、及び制御部５０を備える。
【００１４】
ここで、上記画像入力部１０は、画像を入力するものであり、本画像処理装置がデジタルカメラや内視鏡装置等の撮影機能を備えた撮影機器に組み込まれる場合には、光学系や撮像素子（ＣＭＯＳセンサやＣＣＤセンサ）並びに該撮像素子の出力信号から画像データを生成する信号処理回路等を含む撮像部とすることができる。また、本画像処理装置をそのような撮影機器とは別体の装置として構成される場合には、画像を記録媒体やネットワークを介して読み込む画像読込部として構成される。勿論、本画像処理装置を撮影機器に組み込む場合であっても、上記画像入力部１０は、当該撮影機器外から画像を読み込む画像読込部として構成しても構わない。
【００１５】
また、上記画像外情報入力部２０は、画像以外の情報を入力するものであり、本画像処理装置が撮影機器に組み込まれる場合には、該撮影機器で撮影時に取得可能な情報を画像外情報として取得する情報取得部とすることができる。また、本画像処理装置をそのような撮影機器とは別体の装置として構成される場合には、上記画像入力部１０から入力される画像に関連付けられた画像外情報を読み込む情報読込部として構成される。勿論、本画像処理装置を撮影機器に組み込む場合であっても、上記画像外情報入力部２０は、当該撮影機器外から画像外情報を読み込む情報読込部として構成しても構わない。
【００１６】
ここで、画像外情報としては、撮影パラメータ、環境情報、時空間情報、センサ情報、ｗｅｂからの二次的情報、等を含む。撮影パラメータとしては、ＩＳＯ、Ｆｌａｓｈ、シャッタスピード、焦点距離、Ｆ値、等がある。環境情報としては、音声、温度、湿度、圧力、等がある。時空間情報としては、ＧＰＳ情報、日時、等がある。センサ情報は、画像を撮影した撮影機器が備えるセンサから得られる情報であり、上記環境情報等と一部重複する。ｗｅｂからの二次的情報としては、時空間情報（位置情報）に基づいて取得される、気象情報やイベント情報等がある。上記画像外情報入力部２０が入力する画像外情報は、必ずしも、これら全ての情報を含む必要が無いことは勿論である。
【００１７】
なお、上記撮影パラメータや時空間情報は、画像ファイルにＥｘｉｆ情報として付加されている場合も有る。このような場合は、上記画像入力部１０は、その画像ファイルから画像データのみを抽出するものとし、また、上記画像外情報入力部２０は、その画像ファイルからＥｘｉｆ情報を抽出するものとなる。
【００１８】
また、上記演算部３０は、上記記憶部４０の不図示ワーク領域に上記画像入力部１０から入力された画像や上記画像外情報入力部２０から入力された画像外情報を記憶させて、それら画像及び画像外情報を使用し、また、上記記憶部４０に予め蓄積されているデータを使用して、上記画像入力部１０から入力された画像から主要被写体を認識する演算等を行う。
【００１９】
なお、記憶部４０は、特徴量とシーンとの対応関係を蓄積しておく特徴量・シーン対応関係蓄積部４１と、シーン情報と該シーン情報に対して典型的な主要被写体との対応関係を蓄積しておくシーン・主要被写体対応関係蓄積手段としてのシーン・主要被写体対応関係蓄積部４２と、特徴量と被写体との対応関係を蓄積しておく特徴量・被写体対応関係蓄積手段としての特徴量・被写体対応関係蓄積部４３と、を有する。
【００２０】
また、演算部３０は、画像特徴量算出部３１、画像外特徴量算出部３２、シーン認識部３３、主要被写体認識部３４、主要被写体検出部３５、画像分割部３６、主要被写体らしさ推定部３７、及び主要被写体領域検出部３８を有する。
【００２１】
画像特徴量算出部３１は、上記画像入力部１０によって入力された認識対象画像から計算される画像特徴量を生成する画像特徴量生成手段として機能する。画像外特徴量算出部３２は、上記画像外情報入力部２０によって入力された画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得手段として機能する。シーン認識部３３は、画像特徴量算出部３１によって取得された画像特徴量と、画像外特徴量算出部３２によって取得された画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識手段として機能する。主要被写体認識部３４は、認識されたシーン情報と、シーン・主要被写体対応関係蓄積部４２に蓄積された対応関係とを利用して、主要被写体候補を推定する主要被写体認識手段として機能する。
【００２２】
さらに、主要被写体検出部３５は、主要被写体認識部３４によって認識された主要被写体候補と、画像特徴量算出部３１によって取得された画像特徴量と、画像外特徴量算出部３２によって取得された画像外特徴量と、特徴量・被写体対応関係蓄積部４３に蓄積された対応関係とから、該画像の主要被写体を検出する主要被写体検出手段として機能する。
【００２３】
また、画像分割部３６は、上記画像入力部１０によって入力された認識対象画像を複数領域に分割する画像分割手段として機能する。主要被写体らしさ推定部３７は、画像分割部３６によって分割された各領域における上記画像特徴量算出部３１によって取得された特徴量と、上記主要被写体検出部３５によって検出された主要被写体の特徴量とから、上記領域の主要被写体らしさを推定する主要被写体らしさ推定手段として機能する。
【００２４】
主要被写体領域検出部３８は、上記主要被写体らしさ推定部３７によって推定された上記領域の上記主要被写体らしさの分布から、上記画像入力部１０によって入力された認識対象画像上の主要被写体領域を検出する主要被写体領域検出手段として機能する。
【００２５】
そして、上記制御部５０は、上記演算部３０における各部の動作を制御する。
【００２６】
以下、図２を参照して、上記演算部３０の動作を詳細に説明する。
まず、画像特徴量算出部３１は、上記画像入力部１０によって入力された画像から画像特徴量を算出する（ステップＳ１１）。ここで、画像Ｉ_ｉに関する画像特徴量をａ_ｉとする。添え字ｉは、画像を識別するための通し番号である。画像Ｉ_ｉは、画像の画素値を並べたベクトルである。画像特徴量ａ_ｉは、画像Ｉ_ｉの画素値から各種演算によって求まる値を縦に並べたベクトルであり、例えば特開２００８−１４０２３０号公報の手法を用いて求めることができる。
【００２７】
また、この画像特徴量の算出処理と並行して、画像外特徴量算出部３２は、上記画像外情報入力部２０によって入力された画像外情報から画像外特徴量を算出する（ステップＳ１２）。ここで、画像外特徴量をｂ_ｉとする。画像外特徴量ｂ_ｉは、画像に対応する各種情報を必要に応じて数値に変換または演算し、縦に並べたベクトルである。この画像外情報は、上述した通りのものである。
【００２８】
制御部５０は、これら算出された画像特徴量ａ_ｉと画像外特徴量ｂ_ｉとを縦に並べた以下のような特徴量ｆ_ｉを生成して、記憶部４０のワーク領域に記憶する。勿論、制御部５０ではなく、該演算部３０の一つの機能として、そのような特徴量ｆ_ｉの生成機能を持たせても良い。
【００２９】
【数１】

【００３０】
ここで、記憶部４０のシーン・主要被写体対応関係蓄積部４２に記憶されるシーンと主要被写体の対応関係蓄積データについて、予め説明しておく。このシーンと主要被写体の対応関係蓄積データをＲ＝［ｒ_１ｒ_２ … ｒ_ｍ］とする。また、ｒ_ｊは、以下のようにシーンｊと主要被写体の対応関係を表す縦ベクトルである。
【００３１】
【数２】

【００３２】
なお、ｊはシーンを識別するための分類番号であり、ｍは事前に用意したシーン候補の数である。例えば、「１：海水浴」、「２：ダイビング」、「３：飲み会」、…、「ｍ：スキー」、と取り決めておく。以下、上記のシーン候補例を用いて説明する。シーンと主要被写体の対応関係蓄積データとは、各シーンに対する各被写体の主要被写体らしさを確率で表したベクトルである。ｋは事前に用意した主要被写体候補の数である。例えば、「１：人」、「２：魚」、「３：料理」、…、「ｋ：花」、と取り決めておく。以下、上記の主要被写体候補例を用いて説明する。ベクトルの各次元が事前に決定した各被写体に対応し、該次元の要素が該被写体の主要被写体らしさを示す。シーンｊの各主要被写体らしさが、「人：０．６」、「魚：０．４」、「料理：０．８」、…、「花：０」、である場合、ｒ_ｊは以下のようになる。
【００３３】
【数３】

【００３４】
なお、シーンｊにおいて各被写体が主要被写体となるか否かのみで表す場合には、確率は「１」又は「０」で表すこととなる。
【００３５】
シーン認識部３３は、上記記憶部４０のワーク領域に記憶された特徴量ｆ_ｉを用いて、画像Ｉ_ｉのシーン認識を行う（ステップＳ１３）。このシーン認識方法については、特徴量・シーン対応関係蓄積部４１に蓄積された対応関係を利用した一例を後述する。画像Ｉ_ｉのシーン認識結果が各シーンについて確率として表される。例えば、「海水浴：０．９」、「ダイビング：０．１」、「飲み会：０．６」、…、「スキー：０．２」、というシーン認識結果が得られた場合、各シーンの確率を縦に並べたベクトルとして、以下のようなシーン認識結果Ｓ_ｉが得られる。
【００３６】
【数４】

【００３７】
なお、シーンを該当・非該当のみで認識する場合には、確率は「１」又は「０」で表す。
【００３８】
主要被写体認識部３４は、画像Ｉ_ｉについての上記シーン認識部３３によるシーン認識結果Ｓ_ｉと、上記シーン・主要被写体対応関係蓄積部４２に記憶されている上述したようなシーンと主要被写体の対応関係蓄積データＲとを利用して、画像Ｉ_ｉについての主要被写体確率ベクトルＯ_ｉ＝ＲＳ_ｉを算出する（ステップＳ１４）。ここで、主要被写体確率ベクトルＯ_ｉは、各主要被写体候補が主要被写体である確率を表すベクトルである。例えば、以下のようにＯ_ｉが求まった場合、各主要被写体候補が主要被写体である確率は「人：０．７」、「魚：０．１」、「料理：０．２」、…、「花：０．５」、である。
【００３９】
【数５】

【００４０】
従って、確率が最も高い被写体候補である「人」が、主要被写体であると認識することができる。なお、このように確率が最も高い被写体候補を主要被写体と認識する他に、その主要被写体と認識された被写体候補の確率に近い値を持った被写体候補がある場合には、複数の被写体候補を主要被写体と認識するようにしても良い。
【００４１】
以上のように、画像特徴量と画像外特徴量とからシーン認識を行い、認識されたシーン情報に基づいて主要被写体を認識するようにしたことにより、被写体の画像情報や画像外情報だけでは区別が困難な被写体においても、シーン情報を加味することによって被写体を区別し、主要被写体を認識することが可能となる。
【００４２】
また、このようなシーン認識結果に基づいて認識された主要被写体に対し、更に特徴量を利用した認識手法を適用することで、より認識精度を向上させることができる。
【００４３】
即ち、主要被写体検出部３５は、まず、上記記憶部４０のワーク領域に記憶された特徴量ｆ_ｉだけを利用した主要被写体の認識を行い、更に、その主要被写体認識結果と、上記のようにして主要被写体認識部３４によって認識された主要被写体候補とから画像Ｉ_ｉにおける主要被写体を検出する（ステップＳ１５）。特徴量だけを利用した主要被写体認識方法については、特徴量・被写体対応関係蓄積部４３に蓄積された対応関係を利用した一例を後述する。
【００４４】
特徴量だけを利用した主要被写体認識結果をＤ_ｉ、主要被写体候補Ｏ_ｉを利用した主要被写体認識結果をＤ’_ｉとするとき、主要被写体認識結果Ｄ’_ｉは、以下のように算出される。なお、主要被写体認識結果Ｄ_ｉ，Ｄ’_ｉは、主要被写体候補Ｏ_ｉと同じ形式のベクトルである。
【００４５】
【数６】

【００４６】
例えば、特徴量だけを利用した主要被写体認識結果Ｄ_ｉ及び主要被写体候補Ｏ_ｉが以下のようであったとする。
【００４７】
【数７】

【００４８】
この場合、特徴量だけを利用した主要被写体認識の結果Ｄ_ｉは、第１要素と第ｋ要素がともに「０．９」であり、ともに最大確率となる。つまり、被写体１が主要被写体であるのか、被写体ｋが主要被写体であるのかを区別できない。
【００４９】
これに対して、主要被写体認識結果Ｄ’_ｉは、以下のようになる。
【００５０】
【数８】

【００５１】
よって、この主要被写体認識の結果Ｄ’_ｉでは、第１要素の「０．６３」のみが最大確率となり、被写体１が主要被写体であると判定できる。
【００５２】
なお、この場合も、主要被写体と認識された被写体の確率に近い値を持った被写体がある場合には、複数の被写体を主要被写体と認識するようにしても良い。
【００５３】
また、本画像処理装置をデジタルカメラや内視鏡装置等の撮影機能を備えた撮影機器に組み込んだ場合、以上のような主要被写体の認識結果に基づいて、画像Ｉ_ｉ中の何処にその主要被写体が存在するのかを検出すれば、オートフォーカス等の機能に利用できる。
【００５４】
そこで、画像分割部３６は、上記記憶部４０のワーク領域に記憶された入力画像を、例えば格子状に複数領域に分割する（ステップＳ１６）。そして、主要被写体らしさ推定部３７は、この画像分割部３６によって格子状に分割された領域における上記画像特徴量算出部３１によって取得された特徴量と、上記主要被写体検出部３５によって検出された主要被写体の特徴量との類似度を計算して、主要被写体らしさ分布を算出する（ステップＳ１７）。ここで、画像Ｉ_ｉの分割された領域Ａ（ｔ）の特徴量をｆ_ｉ（ｔ）とする。また、主要被写体検出部３５が検出した主要被写体について求めた平均特徴量をｆ（ｃ）とする。主要被写体らしさ分布Ｊは、各領域Ａ（ｔ）についての主要被写体らしさｊ（ｔ）を並べたベクトルである。各領域Ａ（ｔ）についての主要被写体らしさｊ（ｔ）は、類似度ｊ（ｔ）＝ｓｉｍ（ｆ_ｉ（ｔ），ｆ（ｃ））として計算される。例えば、２つの特徴量ｆ_ｉ（ｔ），ｆ（ｃ）のベクトル間距離の逆数として計算される。
【００５５】
主要被写体領域検出部３８は、この主要被写体らしさ推定部３７によって推定された主要被写体らしさ分布Ｊから、画像Ｉ_ｉ上の主要被写体領域を検出する（ステップＳ１８）。ここで、主要被写体領域は、画像Ｉ_ｉの分割された領域Ａ（ｔ）の中から選択される、主要被写体領域要素Ａ_ｏ（ｔ）の集合として表される。例えば、主要被写体らしさの閾値ｐを設定し、Ａ（ｔ）＞ｐを満たすＡ（ｔ）を主要被写体領域要素Ａ_ｏ（ｔ）とする。
【００５６】
なお、主要被写体領域要素の集合が複数の連結領域に分かれていた場合、各連結領域を個別の主要被写体領域とする。
【００５７】
次に、上記シーン認識部３３によるシーン認識方法の一例を説明する。
人間が各画像に付加したシーン特徴量をｗ_ｉとする。シーン特徴量とは、その画像が各シーンであるかどうかを表すベクトルである。ベクトルの各次元が事前に決定した各シーンに対応し、該次元の要素が「１」であるときは該シーンであることを示し、該次元の要素が「０」であるときは該シーンではないことを示す。例えば、「１：海水浴」、「２：ダイビング」、「３：飲み会」、…、「ｍ：スキー」、と取り決めておき、画像Ｉ_ｉのシーンが「海水浴」と「飲み会」である場合、ｗ_ｉは以下のようになる。
【００５８】
【数９】

【００５９】
ここで、画像Ｉ_ｉについて、認識処理に用いる特徴量をｆ_ｉとする。また、全教師画像数をｎとする。特徴量・シーン対応関係蓄積部４１には、以下のような、全教師画像について、認識処理に用いる特徴量を並べた行列Ｆ及びシーン特徴量を並べた行列Ｗが、それぞれ記憶されている。
【００６０】
【数１０】

【００６１】
そして、シーン認識部３３は、この特徴量・シーン対応関係蓄積部４１に記憶されたデータより、認識処理に用いる特徴量ｆ_ｉとシーン特徴量ｗ_ｉの相関関係を学習する。具体的には、正準相関分析（ＣＣＡ）を用いて、ｆ_ｉの次元を削減するための行列Ｖを求める。正準相関分析では、２つのベクトル群ｆ_ｉとｗ_ｉがあるとき、ｕ_ｉ＝Ｖ_Ｆｆ_ｉとｖｉ＝Ｖ_Ｗｗ_ｉの相関が最も大きくなるようなＶ_Ｆ，Ｖ_Ｗを求める。ここでは、効果的に次元を削減するために、Ｖ_Ｆの１列目から所定の列数目までを切り出し、Ｖとしている。
【００６２】
この行列Ｖで特徴量ｆ_ｉを変換し、次元を削減した特徴量をｆ’_ｉとする。即ち、ｆ’_ｉ＝Ｖｆ_ｉとする。また、２枚の画像Ｉ_ａ，Ｉ_ｂが与えられたとき、Ｉ_ａ，Ｉ_ｂの次元削減特徴量間の類似度をｓｉｍ（ｆ’_ａ，ｆ’_ｂ）とする。例えば、２つの特徴量ｆ’_ａ，ｆ’_ｂのベクトル間距離の逆数をｓｉｍ（ｆ’_ａ，ｆ’_ｂ）とする。
【００６３】
シーン認識部３３は、シーン認識したい入力画像Ｉ_ｉと、全教師画像Ｉ_ｔ（ｔ＝１，…，ｎ）との間の類似度ｓｉｍ（ｆ’_ｉ，ｆ’_ｔ）を計算し、類似度の大きいほうから順に、所定の枚数（Ｌ枚）の教師画像Ｉ_ｐ（ｋ）（ｋ＝１，…，Ｌ）を抽出する。そして、抽出された教師画像のシーン特徴量ｗ_ｐ（ｋ）を積算し、抽出枚数Ｌで割って正規化する。ここで得られた行列Ｓ_ｉを、入力画像Ｉ_ｉのシーン認識結果とする。
【００６４】
なお、行列Ｖで特徴量ｆ_ｉを変換し、次元を削減した特徴量をｆ’_ｉとする処理を行わずに、特徴量ｆ_ｉを用いて類似度を計算するようにしても良い。
【００６５】
また、上記主要被写体検出部３５における特徴量だけを利用した主要被写体認識方法は、シーンの代わりに主要被写体を認識対象とするだけで、このシーン認識部３３によるシーン認識方法と同様であるので、その説明は省略する。但し、特徴量・シーン対応関係蓄積部４１の代わりに、特徴量・被写体対応関係蓄積部４３を利用することはいうまでもない。また、特徴量ｆ_ｉの代わりに、画像特徴量ａ_ｉを用いても良い。
【００６６】
以上のように、本実施形態によれば、シーン情報を用いることで、被写体の画像情報や画像外情報だけでは区別できない別々の被写体を区別して、主要被写体を認識することができる。即ち、本実施形態の画像処理装置は、画像情報より生成した画像特徴量と、画像外情報より生成した画像外特徴量とから、画像自体のシーン情報を認識する（例えは、日時が夏かつ位置が海岸かつ水圧有→ダイビング、日時が金曜夜かつ室内かつ薄暗い→飲み会）。そして、シーン情報がわかると、各シーンに対して典型的な主要被写体が限定される（例えば、ダイビング→人や魚、飲み会→人や料理や酒）。よって、画像特徴量・画像外特徴量だけでは区別できない別々の被写体であっても、シーン情報を加味して区別することができる。
【００６７】
また、このようなシーン情報を用いて認識された主要被写体に対し、更に特徴量を利用した認識手法を適用することで、より認識精度を向上させることができる。
【００６８】
そして、それら主要被写体の認識結果に基づいて、画像中の何処にその主要被写体が存在するのかを検出することができる。
【００６９】
以上、一実施形態に基づいて本発明を説明したが、本発明は上述した一実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形や応用が可能なことは勿論である。
【００７０】
例えば、上記一実施形態の画像処理装置の機能を実現するソフトウェアのプログラムをコンピュータに供給し、当該コンピュータがこのプログラムを実行することによって、上記機能を実現することも可能である。
【符号の説明】
【００７１】
１０…画像入力部、２０…画像外情報入力部、３０…演算部、３１…画像特徴量算出部、３２…画像外特徴量算出部、３３…シーン認識部、３４…主要被写体認識部、３５…主要被写体検出部、３６…画像分割部、３７…推定部、３８…主要被写体領域検出部、４０…記憶部、４１…特徴量・シーン対応関係蓄積部、４２…シーン・主要被写体対応関係蓄積部、４３…特徴量・被写体対応関係蓄積部、５０…制御部。

【特許請求の範囲】
【請求項１】
認識対象画像から主要被写体を認識する画像処理装置であり、
上記認識対象画像から計算される画像特徴量を生成する画像特徴量生成手段と、
画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得手段と、
上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識手段と、
シーン情報と該シーン情報に対して典型的な主要被写体との対応関係を蓄積しておくシーン・主要被写体対応関係蓄積手段と、
上記シーン認識手段で認識された上記シーン情報と、上記シーン・主要被写体対応関係蓄積手段に蓄積された上記対応関係とを利用して、主要被写体候補を推定する主要被写体認識手段と、
を備えることを特徴とする画像処理装置。
【請求項２】
特徴量と被写体との対応関係を蓄積しておく特徴量・被写体対応関係蓄積手段と、
上記主要被写体候補と、上記画像特徴量と、上記特徴量・被写体対応関係蓄積手段に蓄積された特徴量と被写体との対応関係とから、該画像の主要被写体を検出する主要被写体検出手段と、
を更に備えることを特徴とする請求項１に記載の画像処理装置。
【請求項３】
上記シーン・主要被写体対応関係蓄積手段は、各シーン情報に対して各被写体が主要被写体である確率を蓄積することを特徴とする請求項１に記載の画像処理装置。
【請求項４】
上記シーン認識手段は、複数のシーン情報に対して各シーンである確率を認識することを特徴とする請求項１に記載の画像処理装置。
【請求項５】
上記主要被写体認識手段は、１つの画像に対して複数種類の主要被写体を認識することを特徴とする請求項１に記載の画像処理装置。
【請求項６】
上記認識対象画像を複数領域に分割する画像分割手段と、
上記画像分割手段によって分割された領域における上記画像特徴量算出手段によって取得された特徴量と、上記主要被写体検出手段によって検出された主要被写体の特徴量とから、上記領域の主要被写体らしさを推定する主要被写体らしさ推定手段と、
上記領域の上記主要被写体らしさの分布から、上記認識対象画像上の主要被写体領域を検出する主要被写体領域検出手段と、
を更に備えることを特徴とする請求項２に記載の画像処理装置。
【請求項７】
上記主要被写体領域検出手段は、１種類の主要被写体に対して複数の主要被写体領域を検出することを特徴とする請求項６に記載の画像処理装置。
【請求項８】
認識対象画像から主要被写体を認識する画像処理方法であり、
上記認識対象画像から計算される画像特徴量を生成し、
画像以外の情報から得られる画像外特徴量を取得し、
上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行い、
予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記認識されたシーン情報とを利用して、主要被写体候補を推定する、
ことを特徴とする画像処理方法。
【請求項９】
主要被写体を認識する認識対象画像から計算される画像特徴量を生成する画像特徴量生成ステップと、
画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得ステップと、
上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識ステップと、
予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記シーン認識ステップで認識された上記シーン情報とを利用して、主要被写体候補を推定する主要被写体認識ステップと、
をコンピュータに発揮させることを特徴とする画像処理プログラム。

【図１】

【図２】

【公開番号】特開２０１２−１０３８５９（Ｐ２０１２−１０３８５９Ａ）
【公開日】平成２４年５月３１日（２０１２．５．３１）
【国際特許分類】

【出願番号】特願２０１０−２５１１１０（Ｐ２０１０−２５１１１０）
【出願日】平成２２年１１月９日（２０１０．１１．９）
【出願人】（００００００３７６）オリンパス株式会社 (11,466)
【Ｆターム（参考）】

[ Back to top ]

画像処理装置、画像処理方法及び画像処理プログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

画像処理装置、画像処理方法及び画像処理プログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク