画像識別装置、画像識別方法、画像識別プログラム及び記録媒体

【課題】対象画像を分割して得られるブロック画像の分類精度を向上させることができる画像識別装置を提供する。
【解決手段】予め設定されたカテゴリごとに予め学習済みの分離平面を用いて対象画像を分割して得られるブロック画像をカテゴリに分類する画像識別装置１であって、対象画像を入力する対象画像入力部１０と、対象画像を複数のブロックに分割して複数のブロック画像を生成するブロック画像生成部１１と、ブロック画像の特徴量を演算する特徴量演算部１２と、特徴量空間におけるブロック画像の特徴量の大きさに対応する座標位置及び分離平面を用いて、ブロック画像がカテゴリに分類されるか否かを判別するカテゴリ判別部１３と、を備え、特徴量演算部１２は、ブロック画像の特徴量として、当該ブロック画像の画像情報から算出される局所的特徴量及び対象画像全体の画像情報から算出される全体特徴量を用いる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像識別装置、画像識別方法、画像識別プログラム及び記録媒体に関するものである。
【背景技術】
【０００２】
従来、画像識別装置として、識別の対象となる対象画像をブロック状に分割してブロック画像を作成し、ブロック画像を予め設定された複数のカテゴリに分類する装置が知られている（例えば、特許文献１参照。）。特許文献１記載の装置は、教師画像を用いて画像の特徴を座標軸とする特徴量空間においてカテゴリごとに分離平面を学習し、分離平面とブロック画像の特徴量の大きさに対応する座標位置とに基づいて、ブロック画像をカテゴリに分類する。ブロック画像の特徴量は、当該ブロック画像の画像情報（色空間情報及び周波数成分）である。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２０１０−４５６１３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、特許文献１記載の画像識別装置にあっては、ブロック画像を適切なカテゴリへ分類することが困難な場合がある。例えば、ブロック画像が青色一色である場合には、当該ブロックのカテゴリが「空」であるのか、あるいは「池」であるのか判断することが困難である。
【０００５】
そこで、本発明は、このような技術課題を解決するためになされたものであって、対象画像を分割して得られるブロック画像の分類精度を向上させることができる画像識別装置、画像識別方法、画像識別プログラム及び記録媒体を提供することを目的とする。
【課題を解決するための手段】
【０００６】
すなわち本発明に係る画像識別装置は、予め設定されたカテゴリに画像を分類するために用いられる分離平面を、前記画像の特徴量を座標軸とする特徴量空間で予め学習し、前記分離平面を用いて、対象画像を分割して得られるブロック画像を前記カテゴリに分類する画像識別装置であって、前記対象画像を入力する入力部と、前記対象画像を複数のブロックに分割して複数の前記ブロック画像を生成するブロック画像生成部と、前記ブロック画像の特徴量を演算する特徴量演算部と、前記特徴量空間における前記ブロック画像の特徴量の大きさに対応する座標位置及び前記分離平面を用いて、前記ブロック画像が前記カテゴリに分類されるか否かを判別するカテゴリ判別部と、を備え、前記特徴量演算部は、前記ブロック画像の特徴量として、当該ブロック画像の画像情報から算出される局所的特徴量及び前記対象画像全体の画像情報から算出される全体特徴量を用いることを特徴として構成される。
【０００７】
本発明に係る画像識別装置によれば、ブロック画像の特徴量として、当該ブロック画像の画像情報から算出される局所的特徴量だけでなく、対象画像全体の画像情報から算出される全体特徴量を用いるため、ブロック画像そのものの情報だけでなくブロック画像と対象画像との関係を考慮してブロック画像を分類することができる。このため、ブロック画像だけではカテゴリを判断することができない場合であっても対象画像全体をみればブロック画像のカテゴリを判断することが可能となる場合がある。したがって、ブロック画像の分類精度を向上させることができる。
【０００８】
ここで、前記特徴量演算部は、前記全体特徴量として、四角形状の前記対象画像における四隅領域の画像情報から算出される特徴量を用いてもよい。このように構成することで、円形物が被写体となる場合に出現する特徴をブロック画像の特徴量として含ませることができる。
【０００９】
また、前記特徴量演算部は、前記ブロック画像の特徴量として、当該ブロック画像の周囲を取り囲む前記ブロック画像である周辺ブロック画像の画像情報から算出される近傍特徴量を用いてもよい。このように構成することで、ブロック画像とその周囲に存在するブロック画像との関係を考慮して当該ブロック画像を分類することができる。
【００１０】
また、前記特徴量演算部は、前記近傍特徴量として、前記周辺ブロック画像から選択された前記ブロック画像の画像情報から算出される特徴量を用いてもよい。このように構成することで、周辺ブロック画像の対称性をブロック画像の特徴量に含めることができるため、ブロック画像とその周囲のブロック画像との関係を一層考慮して分類することが可能となる。
【００１１】
また、前記特徴量演算部は、前記ブロック画像の前記周辺ブロック画像のうち、当該ブロック画像を中心として対称に位置する前記周辺ブロック画像を選択してもよい。このように構成することで、周辺ブロックの特徴量を各々独自に算出したものを用いるのみではなく、対称性があるブロックの組についての特徴量を算出することができるため、左右・上下方向などに形状の対称性がある被写体と、背景とを分類することができる。
【００１２】
また、前記特徴量演算部は、前記ブロック画像の特徴量として、複数の前記ブロック画像からなる部分領域であって当該ブロック画像が含まれる前記部分領域の画像情報から算出される準大域特徴量を用いてもよい。このように構成することで、ブロック画像とその周囲に存在するブロック画像との関係を考慮して当該ブロック画像を分類することができる。
【００１３】
さらに、前記特徴量演算部は、前記準大域特徴量として、当該ブロック画像が含まれる横長の領域の前記ブロック画像からなる前記部分領域の画像情報から算出される特徴量、及び当該ブロック画像が含まれる縦長の領域の前記ブロック画像からなる前記部分領域の画像情報から算出される特徴量を用いてもよい。このように構成することで、水平方向・垂直方向に特徴のある被写体・背景等を適切に識別してブロック画像を分類することができる。
【００１４】
また、本発明に係る画像識別方法は、予め設定されたカテゴリに画像を分類するために用いられる分離平面を、前記画像の特徴量を座標軸とする特徴量空間で予め学習し、前記分離平面を用いて、対象画像を分割して得られるブロック画像を前記カテゴリに分類する画像識別方法であって、前記対象画像を入力する入力ステップと、前記対象画像を複数のブロックに分割して複数の前記ブロック画像を生成するブロック画像生成ステップと、前記ブロック画像の特徴量を演算する特徴量演算ステップと、前記特徴量空間における前記ブロック画像の特徴量の大きさに対応する座標位置及び前記分離平面を用いて、前記ブロック画像が前記カテゴリに分類されるか否かを判別するカテゴリ判別ステップと、を備え、前記特徴量演算ステップでは、前記ブロック画像の特徴量として、当該ブロック画像の画像情報から算出される局所的特徴量及び前記対象画像全体の画像情報から算出される全体特徴量を用いることを特徴として構成される。
【００１５】
また、本発明に係る画像識別プログラムは、予め設定されたカテゴリに画像を分類するために用いられる分離平面を、前記画像の特徴量を座標軸とする特徴量空間で予め学習し、前記分離平面を用いて、対象画像を分割して得られるブロック画像を前記カテゴリに分類するようにコンピュータを動作させる画像識別プログラムであって、前記対象画像を入力する入力部、前記対象画像を複数のブロックに分割して複数の前記ブロック画像を生成するブロック画像生成部、前記ブロック画像の特徴量を、当該ブロック画像の画像情報から算出される局所的特徴量及び前記対象画像全体の画像情報から算出される全体特徴量を用いて演算する特徴量演算部、及び、前記特徴量空間における前記ブロック画像の特徴量の大きさに対応する座標位置及び前記分離平面を用いて、前記ブロック画像が前記カテゴリに分類されるか否かを判別するカテゴリ判別部として前記コンピュータを動作させる画像識別プログラムとして構成される。
【００１６】
また、本発明に係る記録媒体は、予め設定されたカテゴリに画像を分類するために用いられる分離平面を、前記画像の特徴量を座標軸とする特徴量空間で予め学習し、前記分離平面を用いて、対象画像を分割して得られるブロック画像を前記カテゴリに分類するようにコンピュータを動作させる画像識別プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、前記対象画像を入力する入力部、前記対象画像を複数のブロックに分割して複数の前記ブロック画像を生成するブロック画像生成部、前記ブロック画像の特徴量を、当該ブロック画像の画像情報から算出される局所的特徴量及び前記対象画像全体の画像情報から算出される全体特徴量を用いて演算する特徴量演算部、及び、前記特徴量空間における前記ブロック画像の特徴量の大きさに対応する座標位置及び前記分離平面を用いて、前記ブロック画像が前記カテゴリに分類されるか否かを判別するカテゴリ判別部として前記コンピュータを動作させる画像識別プログラムが記録された記録媒体として構成される。
【００１７】
本発明に係る画像識別方法、画像識別プログラム及び画像識別ブログラムが記録された記録媒体によれば、上述した本発明に係る画像識別装置と同様の効果を奏する。
【発明の効果】
【００１８】
本発明によれば、対象画像を分割して得られるブロック画像の分類精度を向上させることができる。
【図面の簡単な説明】
【００１９】
【図１】実施形態に係る画像識別装置を搭載した携帯端末の機能ブロック図である。
【図２】図１中の画像識別装置が搭載される携帯端末のハードウェア構成図である。
【図３】対象画像のブロック単位の画像認識を説明する概要図である。（Ａ）は対象画像、（Ｂ）はブロック分割された対象画像、（Ｃ）はブロック単位で分類された対象画像である。
【図４】ブロック単位の画像特徴量の一例である。
【図５】局所的特徴量を説明する概要図である。
【図６】輝度値及び色差値のヒストグラムの一例である。（Ａ）はＹ成分のヒストグラム、（Ｂ）はＵ成分のヒストグラム、（Ｃ）はＶ成分のヒストグラムである。
【図７】近傍特徴量を説明する概要図である。
【図８】準大域特徴量を説明する概要図である。（Ａ）は縦方向及び横方向に広がる領域、（Ｂ）は縦方向に延びる領域と横方向に延びる領域を示す概要図である。
【図９】全体特徴量を説明する概要図である。（Ａ）は全領域、（Ｂ）は四隅領域を示す概要図である。
【図１０】エッジの大きさの特徴量を説明する概要図である。
【図１１】分離超平面を学習する装置の機能ブロック図である。
【図１２】（Ａ）は教師データの一例である。（Ｂ）はブロック単位の学習を説明する概要図である。
【図１３】分離超平面を説明するための概要図である。
【図１４】図１中の画像識別装置の動作を示すフローチャートである。
【発明を実施するための形態】
【００２０】
以下、添付図面を参照して本発明の実施形態について説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明のものと必ずしも一致していない。
【００２１】
本実施形態に係る画像識別装置は、対象画像を一定サイズのブロック画像に分割し、ブロック単位で被写体を認識する装置であって、例えば、携帯電話、デジタルカメラ、ＰＤＡ（Personal Digital Assistant）又は通常のコンピュータシステム等に搭載されるものである。なお、以下では、説明理解の容易性を考慮し、本発明に係る画像識別装置の一例として、携帯端末に搭載される画像識別装置を説明する。
【００２２】
図１は、本実施形態に係る画像識別装置１を備える携帯端末３の機能ブロック図である。図１に示す携帯端末３は、例えばユーザにより携帯される移動端末であり、図２に示すハードウェア構成を有する。図２は、携帯端末３のハードウェア構成図である。図２に示すように、携帯端末３は、物理的には、ＣＰＵ（Central Processing Unit）１００、ＲＯＭ（Read Only Memory）１０１及びＲＡＭ（Random Access Memory）１０２等の主記憶装置、カメラ又はキーボード等の入力デバイス１０３、ディスプレイ等の出力デバイス１０４、ハードディスク等の補助記憶装置１０５などを含む通常のコンピュータシステムとして構成される。後述する携帯端末３及び画像識別装置１の各機能は、ＣＰＵ１００、ＲＯＭ１０１、ＲＡＭ１０２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１００の制御の元で入力デバイス１０３及び出力デバイス１０４を動作させるとともに、主記憶装置や補助記憶装置１０５におけるデータの読み出し及び書き込みを行うことで実現される。なお、上記の説明は携帯端末３のハードウェア構成として説明したが、画像識別装置１がＣＰＵ１００、ＲＯＭ１０１及びＲＡＭ１０２等の主記憶装置、入力デバイス１０３、出力デバイス１０４、補助記憶装置１０５などを含む通常のコンピュータシステムとして構成されてもよい。また、携帯端末３は、通信モジュール等を備えてもよい。
【００２３】
図１に示すように、携帯端末３は、画像識別装置１、分離超平面データ（分離平面データ）３１及びカテゴリデータ３２を備えている。
【００２４】
画像識別装置１は、対象画像入力部１０、ブロック画像生成部１１、特徴量演算部１２及びカテゴリ判別部１３を備えている。対象画像入力部１０は、識別対象の画像データとして、対象画像３０を入力する機能を有している。対象画像入力部１０は、例えば、携帯端末３に搭載されたカメラにより撮像された対象画像３０を入力してもよいし、通信を介して対象画像３０を入力してもよい。対象画像入力部１０は、例えば携帯端末３の主記憶装置又は補助記憶装置１０５に対象画像３０を記録する。
【００２５】
ブロック画像生成部１１は、入力された対象画像３０を一定領域のブロックに分割して、ブロック画像を生成する機能を有している。例えば、ブロック画像生成部１１は、図３の（Ａ）に示す対象画像Ｇ１を図３の（Ｂ）に示すように複数のブロック画像ＢＬに分割する。ブロック画像生成部１１は、例えば図中のように対象画像Ｇ１を縦４ブロック×横６ブロックに分割する。なお、ブロック画像生成部１１は、対象画像Ｇ１を縦１６ブロック×横１６ブロックに分割してもよいし、他の割合で分割してもよい。ブロック画像生成部１１は、対象画像Ｇ１の長辺が所定値以下となるようにリサイズした後に分割してもよい。ブロック画像生成部１１は、ブロック画像を特徴量演算部１２へ出力する機能を有している。
【００２６】
特徴量演算部１２は、ブロック画像ＢＬそれぞれの特徴量を算出する機能を有している。特徴量演算部１２は、ブロック画像ＢＬの輝度値又はエッジ情報等の画像情報から特徴量を算出する。すなわち、特徴量は被写体の特徴が反映されたものとなる。なお、特徴量の大きさは、特徴を座標軸とする特徴量空間において位置座標として表現することができる。例えば、ｐ次元の特徴量であれば、特徴量の大きさは（β１，β２，…，βｐ）の座標位置となる。特徴量の詳細については後述する。特徴量演算部１２は、ブロック画像ＢＬそれぞれの特徴量をカテゴリ判別部１３へ出力する機能を有している。
【００２７】
カテゴリ判別部１３は、ブロック画像ＢＬの特徴量に基づいて、ブロック画像ＢＬを予め定められたカテゴリに分類する機能を有している。予め定められたカテゴリは、例えば、「海」、「山」、「空」、「夕焼け」、「紅葉」、「桜」、「雪」、「文字・メモ」、「人」、「料理」、「砂浜」、「花」、「緑」、「犬」又は「建物」等が挙げられる。また、予め定められたカテゴリとして「空集合」を含めてもよい。「空集合」を設定しておくことにより、正解のカテゴリが存在しない場合において強制的に既存のカテゴリに属すると判断するのではなく、「空集合」に属する（すなわち、どこにも属さない）と判断することができる。このため、誤判定を少なくすることができる。分離超平面データ３１は、教師データに基づいて上記カテゴリごとに予め学習された分離超平面が含まれている。分離超平面は、ｐ次元の特徴量データをＪ＝（α１，α２，…，αｐ）とし、ベクトル＝（ｗ１，ｗ２，…，ｗｐ）、定数ｚとして以下の式１で表わされる。
【数１】

なお、分離超平面データ３１の学習処理については後述する。カテゴリ判別部１３は、分離超平面データ３１を参照し、ブロック画像Ｂを上記カテゴリに分類する。カテゴリ判別部１３は、ブロック画像Ｂが上記カテゴリに分類されるか否かを判別する。カテゴリ判別部１３は、ブロック画像ＢＬの特徴量と、あるカテゴリの分離超平面とを比較し、特徴量が分離超平面より大きい場合には、当該カテゴリに属すると判定する。他方、カテゴリ判別部１３は、特徴量が分離超平面より大きくない場合には、当該カテゴリに属さないと判定する。例えば４つのカテゴリＡ〜Ｄが予め設定されており、それぞれの分離超平面が学習済みであるとする。カテゴリ判別部１３は、図３の（Ｃ）に示すように、ブロック画像ＢＬそれぞれについて、特徴量とカテゴリＡ〜Ｄごとの分離超平面とを比較してカテゴリＡ〜Ｄに分類する。より詳細には、カテゴリ判別部１３は、上述した式１で表されるカテゴリごとの分離超平面と、特徴量演算部１２によって得られたｐ次元の特徴量データＯ＝（β１，β２，…，βｐ）とを特徴量空間において比較する。例えば、カテゴリ判別部１３は、カテゴリごとの上記１式の左辺に画像特徴量演算処理によって求めた特徴量データを代入して、分離超平面と特徴量空間における座標（β１，β２，…，βｐ）との間の符号付き距離を計算し、距離の符号を判定する。なお、カテゴリ判別部１３は、ブロック画像ＢＬの特徴量が全ての分離超平面より大きくないと判定した場合には「該当なし」とする。また、ブロック画像ＢＬが２つ以上のカテゴリに属する場合には、カテゴリ判別部１３は、予め設定された優先順位によるカテゴリに属すると判定する。カテゴリ判別部１３は、出力結果をカテゴリデータ３２へ出力する。
【００２８】
次に、特徴量の詳細について説明する。特徴量演算部１２は、図４に示すように、ブロック画像の特徴量として以下の４つの特徴量を採用する。図４は、対象画像（画像ＩＤ：○○○○）におけるブロックＮｏ．１〜Ｎｏ．２５６のブロックごとの特徴量を示すものである。
【００２９】
第１の特徴量は、局所的特徴量（local特徴量）である。局所的特徴量は、対象とするブロック画像自体の画像情報から算出される。例えば、図５に示す対象画像Ｇ１の所定の対象ブロック画像Ｂ０の画像情報を用いて算出される。局所的特徴量は、例えば、対象ブロック画像Ｂ０の輝度値（Ｙ成分）、色差値（Ｕ成分，Ｖ成分）及び彩度値（Ｓ成分）のそれぞれの平均値及び分散値、対象ブロック画像Ｂ０における横方向のエッジの大きさ及び縦方向のエッジの大きさ、対象ブロック画像Ｂ０における横方向のエッジの大きさと縦方向のエッジの大きさとの比、対象ブロック画像Ｂ０におけるＹ成分のヒストグラム、又は、対象ブロック画像Ｂ０の画素値と肌色との類似度を含む。
【００３０】
なお、対象ブロック画像Ｂ０の画素値と肌色との類似度は、カテゴリ「人」を識別するために含む特徴量であり、予め設定されたカテゴリに「人」を含まない場合には採用しなくてもよい。
【００３１】
輝度値及び色差値のヒストグラムを特徴量として含む場合を説明する。図６の（Ａ）〜（Ｃ）は、輝度値及び色差値の各成分のヒストグラムであり、横軸が輝度値成分又は色差値成分、縦軸が頻度である。図６に示すように、輝度値成分及び色差値成分は所定範囲間隔で階級に分類されている。例えば、図６の（Ａ）に示すように、Ｙ成分は０〜２５５がＸ１〜Ｘｎ（ｎは２以上の整数）の階級に分類されている。また、図６の（Ｂ）に示すように、Ｕ成分は０〜２５５がＸ１〜Ｘｍ（ｍは２以上の整数）の階級に分類されている。また、図６の（Ｃ）に示すように、Ｖ成分は０〜２５５がＸ１〜Ｘｓ（ｓは２以上の整数）の階級に分類されている。例えば、ブロック画像内において、Ｙ成分の階級Ｘ１に属する輝度値の画素が２つあれば、「２」が特徴量となる。第１の特徴量は、Ｙ成分のヒストグラムに示す階級Ｘ１〜Ｘｍそれぞれの度数を特徴量として含む。
【００３２】
第２の特徴量は、近傍的特徴量（neighbor特徴量）である。近傍的特徴量は、対象ブロック画像の周囲を取り囲むブロック画像である周辺ブロック画像の画像情報から算出される。例えば、図７に示す対象画像Ｇ１の所定の対象ブロック画像Ｂ０の周囲を取り囲む周辺ブロック画像Ｂ１〜Ｂ８の画像情報から算出される。近傍的特徴量は、例えば、周辺ブロック画像Ｂ１〜Ｂ８の局所的特徴量、周辺ブロック画像Ｂ４,Ｂ５を合わせた輝度値（Ｙ成分）、色差値（Ｕ成分，Ｖ成分）及び彩度値（Ｓ成分）の平均値及び分散値、又は、周辺ブロック画像Ｂ６,Ｂ８を合わせた輝度値（Ｙ成分）、色差値（Ｕ成分，Ｖ成分）及び彩度値（Ｓ成分）の平均値及び分散値を含む。
【００３３】
周辺ブロック画像Ｂ４,Ｂ５に関する特徴量、及び、周辺ブロック画像Ｂ６,Ｂ８に関する特徴量は、周辺ブロック画像の対称性を判定するために用いられる。例えば、カテゴリ「空」であれば平均的に均一となる傾向があり、カテゴリ「人」であればその周囲は背景で平均的に均一となる傾向となる。このように、８つの周辺ブロック画像から選択された周辺ブロック画像を用いて特徴量を算出してもよい。選択方法としては、例えば、周辺ブロック画像のうち、対象ブロック画像を中心として対称に位置する周辺ブロック画像を選択する方法が考えられる。
【００３４】
第３の特徴量は、準大域特徴量（sub-global特徴量）である。準大域特徴量は、複数のブロック画像からなる部分領域であって対象ブロック画像が含まれる部分領域の画像情報から算出される。例えば、図８の（Ａ）に示すように、対象画像Ｇ１の所定の対象ブロック画像Ｂ０が含まれる部分領域Ｒ２の画像情報から算出される。なお、対象ブロック画像を中心とした一定の大きさの円内の領域の画像情報から算出されてもよい。また、図８の（Ｂ）に示すように、対象画像Ｇ１の所定の対象ブロック画像Ｂ０が含まれる部分領域であって、縦一列のブロック画像からなる部分領域Ｒ３、又は、横一列のブロック画像からなる部分領域Ｒ４の画像情報から算出される。なお、部分領域Ｒ３，Ｒ４は、一列のみに限定されず、その上下左右の数列を含んだ縦長又は横長の領域であってもよい。また、部分領域Ｒ３，Ｒ４を二等分したうちの対象ブロック画像Ｂ０が属する部分領域の画像情報から算出してもよい。すなわち、準大域特徴量は、例えば、部分領域内の横方向及び縦方向の全画素の輝度値（Ｙ成分）、色差値（Ｕ成分，Ｖ成分）及び彩度値（Ｓ成分）の平均値及び分散値、部分領域内の横方向及び縦方向の全画素を二等分した領域のうち対象ブロック画像が属する領域の輝度値（Ｙ成分）、色差値（Ｕ成分，Ｖ成分）及び彩度値（Ｓ成分）の平均値及び分散値、又は、対象ブロック画像を含む一定の大きさの領域における画素の輝度値（Ｙ成分）、色差値（Ｕ成分，Ｖ成分）及び彩度値（Ｓ成分）の平均値及び分散値を含む。
【００３５】
縦一列のブロック画像からなる部分領域Ｒ３の画像情報や、部分領域内の縦方向の画像情報を用いることで、カテゴリごとに異なる縦方向の変化を反映させた特徴量とすることができる。また、横一列のブロック画像からなる部分領域Ｒ４の画像情報や、部分領域内の横方向の画像情報を用いることで、カテゴリ「空」等、横方向に同様の画素が配置される傾向にあるカテゴリの判別をしやすい特徴量とすることができる。
【００３６】
第４の特徴量は、全体特徴量（global特徴量）である。全体特徴量は、対象画像全体の画像情報から算出される。例えば、図９の（Ａ）に示す対象画像Ｇ１全体（全体領域Ｒ５）の画像情報から算出される。また、全体特徴量として、図９の（Ｂ）に示す四角形状の対象画像Ｇ１における四隅領域Ｒ６〜Ｒ９の画像情報から算出される。すなわち、全体特徴量は、例えば、対象画像Ｇ１の輝度値（Ｙ成分）、色差値（Ｕ成分，Ｖ成分）及び彩度値（Ｓ成分）の平均値及び分散値、対象画像Ｇ１の横方向のエッジの大きさ及び縦方向のエッジの大きさ、対象画像Ｇ１のＵ成分のヒストグラムにおける階級Ｘ１〜Ｘｍのそれぞれの度数、対象画像Ｇ１のＶ成分のヒストグラムにおける階級Ｘ１〜Ｘｓのそれぞれの度数、対象画像Ｇ１の四隅領域Ｒ６〜Ｒ９における輝度値（Ｙ成分）、色差値（Ｕ成分，Ｖ成分）及び彩度値（Ｓ成分）の平均値及び分散値、対象画像Ｇ１の四隅領域Ｒ６〜Ｒ９における横方向のエッジの大きさ及び縦方向のエッジの大きさ、又は、対象画像に含まれるブロック画像の４５度刻みの各方向でのエッジの大きさのヒストグラムにおける階級Ｘ１〜Ｘｋ（ｋは２以上の整数）のそれぞれの度数を含む。
【００３７】
対象画像Ｇ１の四隅領域Ｒ６〜Ｒ９における輝度値（Ｙ成分）、色差値（Ｕ成分，Ｖ成分）及び彩度値（Ｓ成分）、対象画像Ｇ１の四隅領域Ｒ６〜Ｒ９における横方向のエッジの大きさ及び縦方向のエッジの大きさを含むことで、対象画像Ｇ１の隅の領域に表れる特徴を用いて分類することができる。人間が食器等の円形物を撮像する際には、撮像の際の美学的思想から、四隅に食器の縁部分が割り当てられるように撮像することが多い。このため、四隅領域Ｒ６〜Ｒ９における画像情報を用いることで円形物を適切に分類することができる。対象画像に含まれるブロック画像の４５度刻み（０°，４５°，９０°，１３５°）の各方向において、図６の（Ａ）と同様に、それぞれエッジの大きさを階級Ｘ１〜Ｘｋとし、階級Ｘ１〜Ｘｋに属する画素数を特徴量とすることで、食器が複数配置された定食を上から撮像した場合等、複数の円形物の縁部分を適切に分類することができる。なお、全体画像Ｇ１を１６分割又は９分割して、分割領域の四隅のエッジのカウント値を組み合わせて特徴量としてもよい。この場合、同様に複数の円形物の縁部分を適切に分類することができる。
【００３８】
対象画像Ｇ１のＵ成分のヒストグラムにおける階級Ｘ１〜Ｘｍのそれぞれの度数、及び対象画像Ｇ１のＶ成分のヒストグラムにおける階級Ｘ１〜Ｘｓのそれぞれの度数については、図６の（Ｂ），（Ｃ）に示す内容と同様である。また、エッジの大きさについては、所定値以上となる場合には逆に低評価としてもよい。例えば、図１０に示すように、エッジの大きさと特徴量との関係は、エッジの大きさが所定の閾値Ｈｄとなるまでは特徴量が単調増加し、エッジの大きさが所定の閾値Ｈｄ以上となると単調減少するようにしてもよい。この場合、エッジの大きさが中程度のものとエッジの小さいもの及び大きいものとを区別することができる。例えば、エッジの大きさが大きい「文字」とエッジの大きさが中程度の「海」とを区別することができる。
【００３９】
次に、画像識別装置１の動作前に行われる分離超平面データ３１の学習処理について説明する。図１１は、学習装置２を有する携帯端末３の機能ブロック図である。図１１に示すように、携帯端末３は、学習装置２及び分離超平面データ３１を備えている。なお、学習装置２は、必要に応じて携帯端末３とは別のコンピュータにより実現されてもよい。
【００４０】
画像識別装置１は、教師データ入力部１５、ブロック画像生成部１１、特徴量演算部１２及び分離超平面演算部１６を備えている。教師データ入力部１５は、学習対象の画像データとして、教師画像３３を入力する機能を有している。図１２の（Ａ）は、カテゴリ「花」の正解を学習するための教師画像Ｇ２の一例である。また、図１２の（Ｂ）に示すように、教師データには、ブロックＢｔの位置に「花」が描画されているという情報も含める。すなわち、図１２の教師データは、正解のカテゴリをラベル付けした画像ブロックである。教師データとして、不正解のカテゴリをラベル付けした画像ブロックを含んでもよい。教師データは、予め定められたカテゴリごとに用意される。教師データ入力部１５は、例えば、携帯端末３に搭載されたカメラにより撮像された教師画像３３を入力してもよいし、通信を介して教師画像３３を入力してもよい。教師データ入力部１５は、例えば携帯端末３の主記憶装置又は補助記憶装置１０５に対象画像３０を記録する。
【００４１】
ブロック画像生成部１１は、上述の通り、入力された教師画像３３を一定領域のブロックに分割して、ブロック画像を生成する機能を有している。特徴量演算部１２は、上述の通り、ブロック画像それぞれの特徴量を算出する機能を有している。特徴量演算部１２は、ブロック画像それぞれの特徴量を分離超平面演算部１６へ出力する機能を有している。
【００４２】
分離超平面演算部１６は、カテゴリごとの画像特徴量を入力して、カテゴリごとに分離超平面を算出する機能を有している。分離超平面演算部１６は、例えば、学習アルゴリズムとして広く使われている線形ＳＶＭ（support vector machine）の専用ライブラリを利用して分離超平面を算出する。以下では説明理解の容易性を考慮して、二次元の画像特徴量α１，α２における特徴量平面における分離超直線を説明する。図１３に示すように、画像特徴量αを縦軸，画像特徴量α２を横軸として、正解の教師データＣ１と不正解の教師データＣ２がプロットされている。この場合、分離超平面演算部１６は、線形ＳＶＭにより、正解の教師データＣ１及び不正解の教師データＣ２を分離する直線である分離超直線Ｌ１を学習する。学習結果は、分離超平面データ３１として記録される。なお、ｄ次元（ｄ＞２：ｄは整数）の場合には、特徴量平面は特徴量空間となり、分離超直線は分離超平面となる。従って、分離超平面は、分離超直線を包含する概念であり、特徴量空間は、特徴量平面を包含する概念である。
【００４３】
次に、本実施形態に係る画像識別装置１の動作を説明する。図１４は、本実施形態に係る画像識別装置１の識別動作を示すフローチャートである。図１４に示す制御処理は、上述した学習処理を実行後であって、例えば携帯端末３に備わる処理開始ボタンがＯＮされたタイミングで実行される。
【００４４】
図１４に示すように、対象画像入力部１０が対象画像を入力する（Ｓ１０：入力ステップ）。Ｓ１０の処理が終了すると、ブロック画像生成処理へ移行する（Ｓ１２：ブロック画像生成ステップ）。Ｓ１２の処理では、ブロック画像生成部１１がＳ１０の処理で入力された対象画像を分割してブロック画像を生成する。Ｓ１２の処理が終了すると、特徴量算出処理へ移行する（Ｓ１４：特徴量演算ステップ）。Ｓ１４の処理では、特徴量演算部１２が、Ｓ１２の処理で生成されたブロック画像それぞれについて特徴量を算出する。例えば、図４に示す特徴量を各ブロック画像について算出する。Ｓ１４の処理が終了すると、分類処理へ移行する（Ｓ１６：カテゴリ判別ステップ）。Ｓ１６の処理では、カテゴリ判別部１３が、Ｓ１６の処理で演算されたブロック画像ごとの特徴量と、学習済みの分離超平面データ３１とを比較して、所定のカテゴリの分離超平面よりも大きな特徴量を有するブロック画像については当該カテゴリに属すると判定する。全てのブロック画像についてカテゴリを判定すると、図１４に示す制御処理を終了する。
【００４５】
次に、携帯端末３（コンピュータ）を画像識別装置１として機能させるための画像識別プログラムを説明する。
【００４６】
画像識別プログラムは、メインモジュール、入力モジュール及び演算処理モジュールを備えている。メインモジュールは、画像処理を統括的に制御する部分である。入力モジュールは、入力画像を取得するように携帯端末３を動作させる。演算処理モジュールは、ブロック画像分割モジュール、特徴量演算モジュール及びカテゴリ判別モジュールを備えている。メインモジュール、入力モジュール及び演算処理モジュールを実行させることにより実現される機能は、上述した画像識別装置１の対象画像入力部１０、ブロック画像生成部１１、特徴量演算部１２及びカテゴリ判別部１３の機能とそれぞれ同様である。
【００４７】
画像識別プログラムは、例えば、ＲＯＭ等の記憶媒体または半導体メモリによって提供される。また、画像識別プログラムは、データ信号としてネットワークを介して提供されてもよい。
【００４８】
以上、本実施形態に係る画像識別装置１によれば、ブロック画像Ｂ０の特徴量として、当該ブロック画像Ｂ０の画像情報から算出される局所的特徴量だけでなく、対象画像Ｇ１全体の画像情報から算出される全体特徴量を用いるため、ブロック画像Ｂ０そのものの情報だけでなくブロック画像Ｂ０と対象画像Ｇ１との関係を考慮してブロック画像Ｂ０を分類することができる。このため、ブロック画像Ｂ０だけではカテゴリを判断することができない場合であっても対象画像Ｇ１全体をみればブロック画像Ｂ０のカテゴリを判断することが可能となる場合がある。例えば、ブロック画像Ｂ０が青色の場合、ブロック画像Ｂ０の画像情報からではカテゴリが「空」なのか「海」なのか判断することが困難である。しかし、全体特徴量において「空」なのか「海」なのかを判断する特徴量を取得することができれば、ブロック画像Ｂ０のカテゴリを判断することも可能となる。したがって、ブロック画像Ｂ０の分類精度を向上させることができる。
【００４９】
また、本実施形態に係る画像識別装置１によれば、特徴量演算部１２が、全体特徴量として、四角形状の対象画像Ｇ１における四隅領域Ｒ６〜Ｒ９の画像情報から算出される特徴量を用いるため、円形物が被写体となる場合に出現する特徴をブロック画像Ｂ０の特徴量として含ませることができる。
【００５０】
また、本実施形態に係る画像識別装置１によれば、特徴量演算部１２が、ブロック画像Ｂ０の特徴量として、当該ブロック画像Ｂ０の周囲を取り囲む周辺ブロック画像Ｂ１〜Ｂ８の画像情報から算出される近傍特徴量を用いるため、ブロック画像Ｂ０とその周囲に存在する周辺ブロック画像Ｂ１〜Ｂ８との関係を考慮して当該ブロック画像Ｂ０を分類することができる。
【００５１】
また、本実施形態に係る画像識別装置１によれば、特徴量演算部１２が、近傍特徴量として、周辺ブロック画像Ｂ１〜Ｂ８から選択されたブロック画像Ｂ０の画像情報から算出される特徴量を用いるため、周辺ブロック画像Ｂ１〜Ｂ８の対称性をブロック画像Ｂ０の特徴量に含めることができる。よって、ブロック画像Ｂ０と周辺ブロック画像Ｂ１〜Ｂ８との関係を一層考慮して分類することが可能となる。
【００５２】
また、本実施形態に係る画像識別装置１によれば、特徴量演算部１２が、周辺ブロック画像Ｂ１〜Ｂ８から当該ブロック画像Ｂ０を中心として対称に位置する前記周辺ブロック画像を選択するため、周辺ブロック画像Ｂ１〜Ｂ８の特徴量を各々独自に算出したものを用いるのみではなく、対称性があるブロック画像の組についての特徴量を算出することができるため、左右・上下方向などに形状の対称性がある被写体と、背景とを分類することができる。例えば、人物や人の顔等を分類することが可能となる。
【００５３】
また、本実施形態に係る画像識別装置１によれば、特徴量演算部１２が、ブロック画像Ｂ０の特徴量として、複数のブロック画像からなる部分領域であって当該ブロック画像Ｂ０が含まれる部分領域Ｒ２〜Ｒ４の画像情報から算出される準大域特徴量を用いるため、ブロック画像Ｂ０とその周囲に存在するブロック画像との関係を考慮して当該ブロック画像を分類することができる。
【００５４】
また、本実施形態に係る画像識別装置１によれば、特徴量演算部１２が、準大域特徴量として、当該ブロック画像Ｂ０が含まれる縦一列のブロック画像からなる部分領域Ｒ３の画像情報から算出される特徴量、及び当該ブロック画像Ｂ０が含まれる横一列のブロック画像からなる部分領域Ｒ４の画像情報から算出される特徴量を用いるため、水平方向・垂直方向に特徴のある被写体・背景等を適切に識別してブロック画像を分類することができる。
【００５５】
なお、上述した実施形態は本発明に係る画像識別装置、画像識別方法、画像識別プログラム及び記録媒体の一例を示すものであり、実施形態に係る装置、方法、プログラム及び記録媒体に限られるものではなく、変形し、又は他のものに適用したものであってもよい。
【００５６】
例えば、上述した実施形態では、画像の特徴量として、局所的特徴量の他に、全体特徴量、近傍特徴量及び準大域特徴量を用いる場合を説明したが、局所的特徴量以外に全体特徴量、近傍特徴量及び準大域特徴量から選択される少なくとも１つの特徴量を用いる場合であっても、対象画像を分割して得られるブロック画像の分類精度を向上させることができる。
【符号の説明】
【００５７】
１…画像識別装置、２…学習装置、１０…対象画像入力部（入力部）、１１…ブロック画像生成部、１２…特徴量演算部、１３…カテゴリ判別部。

【特許請求の範囲】
【請求項１】
予め設定されたカテゴリに画像を分類するために用いられる分離平面を、前記画像の特徴を座標軸とする特徴量空間で予め学習し、前記分離平面を用いて、対象画像を分割して得られるブロック画像を前記カテゴリに分類する画像識別装置であって、
前記対象画像を入力する入力部と、
前記対象画像を複数のブロックに分割して複数の前記ブロック画像を生成するブロック画像生成部と、
前記ブロック画像の特徴量を演算する特徴量演算部と、
前記特徴量空間における前記ブロック画像の特徴量の大きさに対応する座標位置及び前記分離平面を用いて、前記ブロック画像が前記カテゴリに分類されるか否かを判別するカテゴリ判別部と、
を備え、
前記特徴量演算部は、前記ブロック画像の特徴量として、当該ブロック画像の画像情報から算出される局所的特徴量及び前記対象画像全体の画像情報から算出される全体特徴量を用いること、
を特徴とする画像識別装置。
【請求項２】
前記特徴量演算部は、前記全体特徴量として、四角形状の前記対象画像における四隅領域の画像情報から算出される特徴量を用いる請求項１に記載の画像識別装置。
【請求項３】
前記特徴量演算部は、前記ブロック画像の特徴量として、当該ブロック画像の周囲を取り囲む前記ブロック画像である周辺ブロック画像の画像情報から算出される近傍特徴量を用いる請求項１又は２に記載の画像識別装置。
【請求項４】
前記特徴量演算部は、前記近傍特徴量として、前記周辺ブロック画像から選択された前記ブロック画像の画像情報から算出される特徴量を用いる請求項３に記載の画像識別装置。
【請求項５】
前記特徴量演算部は、前記ブロック画像の前記周辺ブロック画像のうち、当該ブロック画像を中心として対称に位置する前記周辺ブロック画像を選択する請求項４に記載の画像識別装置。
【請求項６】
前記特徴量演算部は、前記ブロック画像の特徴量として、複数の前記ブロック画像からなる部分領域であって当該ブロック画像が含まれる前記部分領域の画像情報から算出される準大域特徴量を用いる請求項１〜５の何れか一項に記載の画像識別装置。
【請求項７】
前記特徴量演算部は、前記準大域特徴量として、当該ブロック画像が含まれる横長の領域の前記ブロック画像からなる前記部分領域の画像情報から算出される特徴量、及び当該ブロック画像が含まれる縦長の領域の前記ブロック画像からなる前記部分領域の画像情報から算出される特徴量を用いる請求項６に記載の画像識別装置。
【請求項８】
予め設定されたカテゴリに画像を分類するために用いられる分離平面を、前記画像の特徴量を座標軸とする特徴量空間で予め学習し、前記分離平面を用いて、対象画像を分割して得られるブロック画像を前記カテゴリに分類する画像識別方法であって、
前記対象画像を入力する入力ステップと、
前記対象画像を複数のブロックに分割して複数の前記ブロック画像を生成するブロック画像生成ステップと、
前記ブロック画像の特徴量を演算する特徴量演算ステップと、
前記特徴量空間における前記ブロック画像の特徴量の大きさに対応する座標位置及び前記分離平面を用いて、前記ブロック画像が前記カテゴリに分類されるか否かを判別するカテゴリ判別ステップと、
を備え、
前記特徴量演算ステップでは、前記ブロック画像の特徴量として、当該ブロック画像の画像情報から算出される局所的特徴量及び前記対象画像全体の画像情報から算出される全体特徴量を用いること、
を特徴とする画像識別方法。
【請求項９】
予め設定されたカテゴリに画像を分類するために用いられる分離平面を、前記画像の特徴量を座標軸とする特徴量空間で予め学習し、前記分離平面を用いて、対象画像を分割して得られるブロック画像を前記カテゴリに分類するようにコンピュータを動作させる画像識別プログラムであって、
前記対象画像を入力する入力部、
前記対象画像を複数のブロックに分割して複数の前記ブロック画像を生成するブロック画像生成部、
前記ブロック画像の特徴量を、当該ブロック画像の画像情報から算出される局所的特徴量及び前記対象画像全体の画像情報から算出される全体特徴量を用いて演算する特徴量演算部、及び、
前記特徴量空間における前記ブロック画像の特徴量の大きさに対応する座標位置及び前記分離平面を用いて、前記ブロック画像が前記カテゴリに分類されるか否かを判別するカテゴリ判別部
として前記コンピュータを動作させる画像識別プログラム。
【請求項１０】
予め設定されたカテゴリに画像を分類するために用いられる分離平面を、前記画像の特徴量を座標軸とする特徴量空間で予め学習し、前記分離平面を用いて、対象画像を分割して得られるブロック画像を前記カテゴリに分類するようにコンピュータを動作させる画像識別プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
前記対象画像を入力する入力部、
前記対象画像を複数のブロックに分割して複数の前記ブロック画像を生成するブロック画像生成部、
前記ブロック画像の特徴量を、当該ブロック画像の画像情報から算出される局所的特徴量及び前記対象画像全体の画像情報から算出される全体特徴量を用いて演算する特徴量演算部、及び、
前記特徴量空間における前記ブロック画像の特徴量の大きさに対応する座標位置及び前記分離平面を用いて、前記ブロック画像が前記カテゴリに分類されるか否かを判別するカテゴリ判別部
として前記コンピュータを動作させる画像識別プログラムが記録された記録媒体。

【図１】