説明

画像処理装置及び画像処理プログラム

【課題】画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理を原因とする識別誤りを減少させるようにした画像処理装置を提供する。
【解決手段】画像処理装置の画像受付手段は、画像を受け付け、複数の畳込処理手段は、画像に対して、畳込処理を行い、複数の整流処理手段は、前記畳込処理手段による処理結果に対して、整流処理を行い、複数の正規化処理手段は、前記整流処理手段による処理結果に対して、正規化処理を行い、複数の特徴抽出手段は、前記正規化処理手段による処理結果に対して、サブサンプリング処理を行うことによって、前記画像の特徴量を抽出し、識別手段は、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別し、前記正規化処理手段は、2つの前記整流処理手段による処理結果間の差を、該処理結果に基づいた値を除数として除算することによって正規化する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置及び画像処理プログラムに関する。
【背景技術】
【0002】
画像を認識する技術がある。
これに関連する技術として、例えば、特許文献1には、高精度かつ信頼性の高い光学的文字認識を行うことを目的とし、局所特徴抽出のための並列束縛特徴検出を行う層を複数個有し、次元性低減のための完全接続層を複数個有する階層的ネットワークによって実現され、文字分類も完全接続層において実行され、並列束縛特徴検出の各々の層は、複数個の束縛特徴マップ及び対応する複数個のカーネルよりなり、所定のカーネルが直接単一の束縛特徴マップに関連し、各層間でのアンダーサンプリングが実行されることが開示されている。
【0003】
また、例えば、特許文献2には、文字及び数字の識別に係る有用な決定を、ニューラルネットワーク技術を用いて行うために、多様な形態及び大きさの各々の文字あるいは数字を正確に認識することをニューラルネットワークに“学習”させることを目的とし、多くの文字及び数字の認識における正確さは、ニューラルネットワークが各々の文字あるいは数字の“不変”なカテゴリーに属する性質を識別するように学習されている場合には、ほとんど犠牲にならないということが了解され、そこで、ニューラルネットワークに対して識別された不変性に係る形態、位置、大きさ等の全ての段階を認識することを要求する代わりに、はるかに少ない数のサンプルデータ入力及び未知の文字あるいは数字に関連する情報のわずかの処理のみを要求するような、不変セグメントに係る一般化されかつ制限された記述が用いられることが開示されている。
【0004】
また、例えば、特許文献3には、2次元物体だけでなく、3次元的な回転、大きさ及び照明条件が変化する3次元物体をも認識することができるパターン認識方法を提供することを課題とし、重み配分及びプーリングステージ等の要素は先行手法と同じだが、階層ネットワークの中間ステージで最適の特徴検出ユニットを決定する新しい方法に着目した技術を提供し、また、新しい特徴検出ステージを(増分的に)学習し、複雑なパターン認識に要する手間を従来技術に比してかなり削減する、統計的手段を使用した、階層ネットワークを訓練する新しい手法を提案し、この学習は教師なし学習なので、教師信号は不要であり、特定の認識シナリオのために認識アーキテクチャを予め構成することができ、教師付き学習による訓練を要するのは最後の分類ステップのみであり、これにより認識作業への適用においてかなりの手間が削減されることが開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平05−006463号公報
【特許文献2】特開平07−064941号公報
【特許文献3】特開2002−373333号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理を原因とする識別誤りを減少させるようにした画像処理装置及び画像処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【0007】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、前記整流処理手段による処理結果に対して、正規化処理を行う複数の正規化処理手段と、前記正規化処理手段による処理結果に対して、サブサンプリング処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段を具備し、前記正規化処理手段は、2つの前記整流処理手段による処理結果間の差を、該処理結果に基づいた値を除数として除算することによって正規化することを特徴とする画像処理装置である。
【0008】
請求項2の発明は、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段を具備し、前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、2つの前記整流処理手段による処理結果に基づいた値を除数として除算することによって正規化することを特徴とする画像処理装置である。
【0009】
請求項3の発明は、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段を具備し、前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、該処理結果に基づいた値を除数として除算することによって正規化することを特徴とする画像処理装置である。
【0010】
請求項4の発明は、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段を具備し、前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、該処理結果の和を除数として除算することによって正規化することを特徴とする画像処理装置である。
【0011】
請求項5の発明は、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、複数の前記整流処理手段による処理結果を加算する複数の加算手段と、前記加算手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、前記サブサンプリング処理手段による処理結果に対して、平均化処理を行う複数の平均化処理手段と、前記平均化処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段を具備し、前記整流処理手段、前記加算手段、前記サブサンプリング処理手段、前記平均化処理手段による処理は、重み付き一般化平均処理であり、前記正規化処理手段は、2つの前記平均化処理手段による処理結果間の差を、該処理結果の和を除数として除算することによって正規化することを特徴とする画像処理装置である。
【0012】
請求項6の発明は、前記整流処理手段が行う整流処理は、入力の絶対値に対してr乗を行う処理(rは正の実数)であり、前記平均化処理手段が行う平均化処理は、r’乗を行う処理であることを特徴とする請求項5に記載の画像処理装置である。
【0013】
請求項7の発明は、コンピュータを、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、前記整流処理手段による処理結果に対して、正規化処理を行う複数の正規化処理手段と、前記正規化処理手段による処理結果に対して、サブサンプリング処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段として機能させ、前記正規化処理手段は、2つの前記整流処理手段による処理結果間の差を、該処理結果に基づいた値を除数として除算することによって正規化することを特徴とする画像処理プログラムである。
【0014】
請求項8の発明は、コンピュータを、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段として機能させ、前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、2つの前記整流処理手段による処理結果に基づいた値を除数として除算することによって正規化することを特徴とする画像処理プログラムである。
【0015】
請求項9の発明は、コンピュータを、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段として機能させ、前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、該処理結果に基づいた値を除数として除算することによって正規化することを特徴とする画像処理プログラムである。
【0016】
請求項10の発明は、コンピュータを、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段として機能させ、前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、該処理結果の和を除数として除算することによって正規化することを特徴とする画像処理プログラムである。
【0017】
請求項11の発明は、コンピュータを、画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、複数の前記整流処理手段による処理結果を加算する複数の加算手段と、前記加算手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、前記サブサンプリング処理手段による処理結果に対して、平均化処理を行う複数の平均化処理手段と、前記平均化処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段として機能させ、前記整流処理手段、前記加算手段、前記サブサンプリング処理手段、前記平均化処理手段による処理は、重み付き一般化平均処理であり、前記正規化処理手段は、2つの前記平均化処理手段による処理結果間の差を、該処理結果の和を除数として除算することによって正規化することを特徴とする画像処理プログラムである。
【発明の効果】
【0018】
請求項1の画像処理装置によれば、画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理を原因とする識別誤りを減少させることができる。
【0019】
請求項2の画像処理装置によれば、画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理における減算処理と除算処理の演算量を削減することができる。
【0020】
請求項3の画像処理装置によれば、画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理における演算量を削減することができる。
【0021】
請求項4の画像処理装置によれば、画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理における演算量を削減することができる。
【0022】
請求項5の画像処理装置によれば、画像を識別する場合にあって、本構成を有していない場合に比較して、学習時間を短縮することができる。
【0023】
請求項6の画像処理装置によれば、画像を識別する場合にあって、本構成を有していない場合に比較して、学習時間を短縮することができる。
【0024】
請求項7の画像処理プログラムによれば、画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理を原因とする識別誤りを減少させることができる。
【0025】
請求項8の画像処理プログラムによれば、画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理における減算処理と除算処理の演算量を削減することができる。
【0026】
請求項9の画像処理プログラムによれば、画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理における演算量を削減することができる。
【0027】
請求項10の画像処理プログラムによれば、画像を識別する場合にあって、本構成を有していない場合に比較して、正規化処理における演算量を削減することができる。
【0028】
請求項11の画像処理プログラムによれば、画像を識別する場合にあって、本構成を有していない場合に比較して、学習時間を短縮することができる。
【図面の簡単な説明】
【0029】
【図1】第1の実施の形態の構成例についての概念的なモジュール構成図である。
【図2】第1の実施の形態の全体的な構成例についての概念的なモジュール構成図である。
【図3】第2の実施の形態の構成例についての概念的なモジュール構成図である。
【図4】第3の実施の形態の構成例についての概念的なモジュール構成図である。
【図5】第4の実施の形態の構成例についての概念的なモジュール構成図である。
【図6】第5の実施の形態の構成例についての概念的なモジュール構成図である。
【図7】第6の実施の形態の構成例についての概念的なモジュール構成図である。
【図8】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【図9】CNN識別装置の全体的な構成例についての概念的なモジュール構成図である。
【図10】整流処理、正規化処理を行う特徴抽出層の例についての概念的なモジュール構成図である。
【図11】正規化処理の例を示す説明図である。
【図12】正規化処理の例を示す説明図である。
【図13】正規化処理の例を示す説明図である。
【発明を実施するための形態】
【0030】
まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する画像処理装置について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
画像を、複数のクラスのうちいずれかに識別する技術がある。いわゆる認識技術である。また、これらの中では、画像と正解クラスの組から識別装置を学習し、認識率を向上させるようにしているものがある。具体的には、受け付けたパターン(画像)を識別する階層ネットワークに関する技術である。
特に、階層型ニューラルネットワークの一種である畳込ニューラルネットワーク(Convolutional Neural Network、以下CNNという)を用いて、画像を識別することが可能であることが知られている。[LeCun, Yann, et al. “Gradient−Based Learning Applied to Document Recognition.” Proceedings of the IEEE 86.11 (1998): 2278−2324.]
【0031】
図9は、CNN識別装置の全体的な構成例についての概念的なモジュール構成図である。
CNN識別装置の特徴抽出層(特徴抽出層910、特徴抽出層920)は、畳込み層とサブサンプリング層で構成される。各層の入力は、複数枚の2次元空間に配置された特徴量からなる、3次元の特徴マップであり、出力は新たな特徴マップである。CNN識別装置が受け付ける画像900も特徴マップの一種とみなす。
畳込み層では、受け付けた特徴量にウェイトを畳込み(畳込み処理として、例えば、2次元デジタルフィルタが利用される)、サブサンプリング層では、その畳込みの応答をサブサンプリングすることで、受け付けた特徴量を位置の局所的な変動に対して不変な特徴量に変換する。
この特徴抽出層(特徴抽出層910、特徴抽出層920)は複数回繰り返し(図9では、2つの特徴抽出層であるが、3以上であってもよい。)、その出力を識別器930が受け付ける。
識別器930は、受け付けた特徴量から、画像900が属するクラスを識別する。識別器930は一般に、多層パーセプトロンやRBF(Radial Basis Function)で構成される。
特徴抽出層(特徴抽出層910、特徴抽出層920)の畳込みウェイトは、画像及び正解クラスの組を用いて、一般に誤差逆伝搬法にて行われる。
例えば、参考文献として、特開平5−6463号公報、特開平7−64941号公報、特開2002−373333号公報、特開2005−215988号公報、特開2010−157118号公報等が挙げられる。
【0032】
近年、さらに識別精度が高めるために、CNNの特徴抽出層に整流処理(Rectification)、正規化処理(Divisive Normalization / Contrast Normalization)が加えられている[LeCun, Yann, Koray Kavukvuoglu and Clement Farabet. “Convolutional Networks and Applications in Vision.” Proceedings of 2010 IEEE International Symposium on Circuits and Systems (2010): 253−256.]。以降、CNNといえば、この整流処理、正規化処理が加えられたものを指す。
【0033】
図10は、整流処理、正規化処理を行う特徴抽出層の例についての概念的なモジュール構成図である。図10では、畳込み処理モジュール1010等が2つである場合を例示しているが、3以上であってもよい。
この特徴抽出層は、複数の畳込み処理モジュール1010、複数の整流処理モジュール1020、正規化処理モジュール1030、複数のサブサンプリング処理モジュール1040を有している。つまり、従来のCNNに整流処理、正規化処理を付加したものである。
畳込み処理モジュール1010a、畳込み処理モジュール1010bは、それぞれ整流処理モジュール1020a、整流処理モジュール1020bと接続されており、画像又は特徴マップ1000A、1000B、1000Cを受け付け、これらに対して畳込み処理を行う。
整流処理モジュール1020aは、畳込み処理モジュール1010a、平均算出処理モジュール1032、差算出処理モジュール1034a、標準偏差算出処理モジュール1036と接続されている。従来のCNNでは、正負が混在する畳込み応答どうしをサブサンプリングすることによる特徴の打ち消しあいが発生していた。認識率を改善させるために、この整流処理を加えることによって、特徴の打ち消しあいを抑えている。具体的な整流処理としては、例えば、絶対値化処理、2乗処理等がある。
整流処理モジュール1020bは、畳込み処理モジュール1010b、平均算出処理モジュール1032、差算出処理モジュール1034b、標準偏差算出処理モジュール1036と接続されており、整流処理モジュール1020aと同等の処理を行う。
【0034】
正規化処理モジュール1030は、平均算出処理モジュール1032、差算出処理モジュール1034a、差算出処理モジュール1034b、標準偏差算出処理モジュール1036、除算処理モジュール1038a、除算処理モジュール1038bを有している。認識率を改善させるために、この正規化処理を加えることによって、畳込みが受け付ける特徴量が一様に変位した場合であっても、変動を抑えて安定した特徴量が得られるようにしている。
平均算出処理モジュール1032は、整流処理モジュール1020a、整流処理モジュール1020b、差算出処理モジュール1034a、差算出処理モジュール1034bと接続されている。平均算出処理モジュール1032は、全ての整流処理後の値の平均値を算出し、その平均値を差算出処理モジュール1034a等に渡す。
差算出処理モジュール1034aは、整流処理モジュール1020a、平均算出処理モジュール1032、除算処理モジュール1038aと接続されている。差算出処理モジュール1034aは、整流処理モジュール1020aによる処理結果から平均算出処理モジュール1032で算出された平均値を減算する処理を行う。
差算出処理モジュール1034bは、整流処理モジュール1020b、平均算出処理モジュール1032、除算処理モジュール1038bと接続されており、差算出処理モジュール1034aと同等の処理を行う。
標準偏差算出処理モジュール1036は、整流処理モジュール1020a、整流処理モジュール1020b、除算処理モジュール1038a、除算処理モジュール1038bと接続されている。標準偏差算出処理モジュール1036は、全ての整流処理後の値の標準偏差を算出し、その標準偏差を除算処理モジュール1038a等に渡す。
除算処理モジュール1038aは、差算出処理モジュール1034a、標準偏差算出処理モジュール1036、サブサンプリング処理モジュール1040aと接続されている。除算処理モジュール1038aは、差算出処理モジュール1034aによる処理結果を標準偏差算出処理モジュール1036で算出された標準偏差で除算する(つまり標準偏差を除数としている)。
除算処理モジュール1038bは、差算出処理モジュール1034b、標準偏差算出処理モジュール1036、サブサンプリング処理モジュール1040bと接続されており、除算処理モジュール1038aと同等の処理を行う。
サブサンプリング処理モジュール1040aは、除算処理モジュール1038aと接続されている。サブサンプリング処理モジュール1040aは、除算処理モジュール1038aによる処理結果をサブサンプリング処理する。そして、次の特徴抽出層へ出力するか(つまり、次の特徴抽出層にとっての画像又は特徴マップ1000A、1000B、1000C等になる)、識別器(識別層ともいわれる)への出力となる。
サブサンプリング処理モジュール1040bは、除算処理モジュール1038bと接続されており、サブサンプリング処理モジュール1040aと同等の処理を行う。
【0035】
正規化処理モジュール1030が行う正規化処理では、受け付けた特徴量は、ある範囲(例えば、[−1,1])の値をとるよう拡大縮小されて出力される。図11は、正規化処理の例を示す説明図である。図11(a)の例に示すグラフは正規化処理モジュール1030が受け付ける値であり、図11(b)の例に示すグラフは正規化処理モジュール1030が出力する値であり、この場合は拡大処理を行っている。
例えば、正規化処理モジュール1030が受け付ける値の分散が小さな値であった場合、正規化処理によって値は大きく拡大されるため、出力値は正規化の分母の符号、すなわち受け付けた値の平均値に強く依存する。
また、正規化処理モジュール1030が受け付ける値の一部が大きな値(例えば、ノイズ等の影響で大きな値となる場合がある)をとる場合に、出力値全体が大きく変化してしまう。
図12、図13は、このような場合の正規化処理の例を示す説明図である。図12(a)の例に示すグラフは正規化処理モジュール1030が受け付ける値であり、最初にノイズ等の影響で大きな値が発生している。したがって、この値の平均値は、その他の値で算出した平均値よりも高くなる。図12(b)の例に示すグラフは、この場合に正規化処理モジュール1030が出力する値である。
図13(a)の例に示すグラフは正規化処理モジュール1030が受け付ける値である。図12(a)の例に示すグラフと比較すると、ノイズ等の影響で大きな値は発生していないが、図12(a)の例の最初の部分以外は類似しているグラフである。この値の平均値は、図12(a)の例の平均値よりも低くなる。図13(b)の例に示すグラフは、この場合に正規化処理モジュール1030が出力する値である。つまり、図12(b)の例に示すグラフと図13(a)の例に示すグラフは類似しているにもかかわらず、図12(b)の例に示すグラフと図13(b)の例に示すグラフは異なっている。つまり、正規化処理の出力は、受け付けた値の平均値に依存している。
このように、CNNの特徴抽出層には、正規化処理が受け付ける値の一部(一部の畳込みフィルタ応答)の変動が、出力される特徴量全体の大きな変動を引き起こす場合がある。つまり、受け付ける画像の変動に対して安定した特徴量が得られない場合がある。
【0036】
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
【0037】
第1の実施の形態である画像処理装置は、画像を識別するために特徴を抽出するものであって、図1の例に示すように、畳込み処理モジュール110、整流処理モジュール120、正規化処理モジュール130、サブサンプリング処理モジュール140を有している。
この画像処理装置は、特徴抽出層であって、2つの畳込みフィルタの応答に整流処理を施した特徴量のペアについて、そのペアにおける差を、そのペア内の特徴量に基づいた値を除数として除算することによって正規化し、サブサンプリングしたものを出力特徴量とする。
【0038】
畳込み処理モジュール110a、畳込み処理モジュール110b、畳込み処理モジュール110c、畳込み処理モジュール110dは、それぞれ整流処理モジュール120a、整流処理モジュール120b、整流処理モジュール120c、整流処理モジュール120dと接続されている。畳込み処理モジュール110は画像又は特徴マップ100A、100B、100Cを受け付ける。1段目の特徴抽出層の場合は、画像を受け付けることとなり、2段目以降の特徴抽出層の場合は、前段の特徴抽出層における出力である特徴量を受け付ける。そして、受け付けた画像又は特徴量に対して、畳込処理を行う。前述した図10に例示した畳込み処理モジュール1010と同等の処理を行う。
整流処理モジュール120aは、畳込み処理モジュール110a、差算出処理モジュール132a、除数算出処理モジュール134aと接続されている。整流処理モジュール120aは、整流処理を行う。前述した図10に例示した整流処理モジュール1020と同等の処理を行う。もちろん、整流処理モジュール1020b等の処理も同等である。
【0039】
正規化処理モジュール130は、差算出処理モジュール132a、差算出処理モジュール132c、除数算出処理モジュール134a、除数算出処理モジュール134c、除算処理モジュール136a、除算処理モジュール136cを有している。正規化処理モジュール130は、正規化処理を行う。
差算出処理モジュール132aは、整流処理モジュール120a、整流処理モジュール120b、除算処理モジュール136aと接続されている。
除数算出処理モジュール134aは、整流処理モジュール120a、整流処理モジュール120b、除算処理モジュール136aと接続されている。
除算処理モジュール136aは、差算出処理モジュール132a、除数算出処理モジュール134a、サブサンプリング処理モジュール140aと接続されている。
正規化処理モジュール130が行う正規化処理として、2つの整流処理モジュール120(例えば、整流処理モジュール120aと整流処理モジュール120bのペア)による処理結果間の差を、その処理結果に基づいた値(例えば、平均値、標準偏差、最頻値、中央値等)を除数として除算することによって正規化する。なお、処理結果間の差とは、一方の処理結果から他方の処理結果を減算することであり、整流処理モジュール120a、整流処理モジュール120bのいずれが一方であり、他方であってもよい。
この特徴抽出層において、一部の畳込み処理モジュール110による処理結果(フィルタ応答)の変動が及ぼす出力特徴量への影響は、ペア内に限定的であり、一部のフィルタ応答が出力される特徴量全体に大きな変動を引き起こすことを抑制している。
また、ペアによる処理結果間の差をとることで、畳込み処理モジュール110が受け付ける特徴量が大きく(又は小さく)変位した場合であっても、変動を抑制した安定した特徴量が得られるというCNNの利点は保たれている。
特に、画像又は特徴マップの値が0であった場合に、特徴抽出層が出力する特徴量も0となり、したがって後段の識別器に、受け付けた画像又は特徴マップの値が0であったことを伝えられることになる。
【0040】
サブサンプリング処理モジュール140aは、除算処理モジュール136aと接続されている。正規化処理モジュール130による処理結果に対して、サブサンプリング処理を行うことによって、画像又は特徴マップ100A、100B、100Cの特徴量を抽出する。そして、次の段の特徴抽出層へ出力する。又は、識別器に出力する。識別器は、受け付けた特徴量に基づいて、画像又は特徴マップ100A、100B、100Cを識別する。
【0041】
図2は、第1の実施の形態の全体的な構成例についての概念的なモジュール構成図である。これは、図1に例示した特徴抽出層を3階層重ねたものであり、それぞれ特徴抽出層1:210、特徴抽出層2:230、特徴抽出層3:250として、それぞれの出力は特徴マップA:220、特徴マップB:240、特徴マップC:260である。もちろんのことながら、3階層に限定しているわけではなく、2階層であってもよいし、3階層以上であってもよい。なお、第2の実施の形態から第6の実施の形態の特徴抽出層(画像処理装置)も、図2に例示している特徴抽出層に適用し得る。
【0042】
図1に例示の特徴抽出層が受け付ける特徴量をx、畳込みフィルタをwとすると、畳込み処理の出力特徴量sは、
【数1】

となる。なお、iは出力特徴量マップのインデックス、pは入力特徴量マップのインデックス、j,kは特徴量マップ内の2次元座標、q、rは畳込みフィルタの2次元座標である。
【0043】
畳込み処理の入力特徴量マップのサイズをM×N、出力特徴量マップのサイズをM’×N’、畳込みフィルタのサイズをQ×Rとすると、
【数2】

の関係がある。
【0044】
図1に例示の特徴抽出層において、畳込み処理の出力特徴量をs、整流処理の出力特徴量をtとすると、
【数3】

となる。なお、iは特徴量マップのインデックス、j、kは特徴量マップ内の2次元座標である。
【0045】
図1に例示の特徴抽出層において、整流処理の出力特徴量をt、除数算出処理の出力特徴量をvとすると、
【数4】

となる。なお、iは出力特徴量マップのインデックス、pは入力特徴領マップのインデックス、j,kは特徴量マップ内の2次元座標、q、rは除数を計算する局所領域のインデックス、w及びβは予め与えられる重み付き一般化平均のパラメータである。
【0046】
図1に例示の特徴抽出層において、整流処理の出力特徴量をt、正規化処理の出力特徴量をuとすると、
【数5】

となる。なお、iは出力特徴量マップのインデックス、j、kは特徴量マップ内の2次元座標である。
【0047】
図1に例示の特徴抽出層において、正規化処理の出力特徴量をu、特徴抽出層の出力をyとすると、
【数6】

となる。なお、iは出力特徴量マップのインデックス、j、kは特徴量マップ内の2次元座標、q、rは除数を計算する局所領域のインデックス、wは予め与えられるサブサンプリングの重みである。
【0048】
図2に例示の特徴マップC:260の出力xから最終出力zを得る識別器は、
【数7】

の計算で構成される。なお、wは学習されるウェイトである。出力の添え字cは入力画像が識別されるクラスを表し、識別時にはzがもっとも大きな値となるcが識別結果となる。
ウェイトの学習は、受け付ける画像と正解識別クラスの組を用いて、誤差逆伝搬法にてクロスエントロピー誤差を最小化させて行われる。
したがって、識別器は、1層の全結合層とSoftmax関数によって構成されていてもよい。識別器は、1層の全結合層とRBF関数によって構成されていてもよい。特徴抽出層及び識別器は、画像と正解クラスの組から結合重みを学習するようにしてもよい。結合重みの学習は、誤差逆伝搬法にて行われるようにしてもよい。
【0049】
<第2の実施の形態>
図3は、第2の実施の形態の構成例についての概念的なモジュール構成図である。第1の実施の形態による処理結果は変わらず、正規化処理の減算及び除算の演算量を減らすために、第1の実施の形態において、図1に例示の特徴抽出層のサブサンプリング処理を、正規化処理の後から正規化処理の前に移動させる。
第2の実施の形態は、図3の例に示すように、畳込み処理モジュール310、整流処理モジュール320、サブサンプリング処理モジュール330、正規化処理モジュール340を有している。
畳込み処理モジュール310は、畳込み処理モジュール110と同等の処理を行う。
整流処理モジュール320は、畳込み処理モジュール310、サブサンプリング処理モジュール330、除数算出処理モジュール344と接続されており、整流処理モジュール120と同等の処理を行うが、その処理結果をサブサンプリング処理モジュール330、除数算出処理モジュール344に渡す。
サブサンプリング処理モジュール330は、整流処理モジュール320、差算出処理モジュール342と接続されている。サブサンプリング処理モジュール330は、整流処理モジュール320による処理結果に対して、サブサンプリング処理を行う。
【0050】
正規化処理モジュール340は、差算出処理モジュール342a、差算出処理モジュール342c、除数算出処理モジュール344a、除数算出処理モジュール344c、除算処理モジュール346a、除算処理モジュール346cを有している。正規化処理モジュール340は、複数のサブサンプリング処理モジュール330による処理結果に対して、正規化処理を行うことによって、画像又は特徴マップ100A、100B、100Cの特徴量を抽出する。そして、次の段の特徴抽出層へ出力する。又は、識別器に出力する。識別器は、受け付けた特徴量に基づいて、画像又は特徴マップ100A、100B、100Cを識別する。
差算出処理モジュール342aは、サブサンプリング処理モジュール330a、サブサンプリング処理モジュール330b、除算処理モジュール346aと接続されている。
除数算出処理モジュール344aは、整流処理モジュール320a、整流処理モジュール320b、除算処理モジュール346aと接続されている。
除算処理モジュール346aは、差算出処理モジュール342a、除数算出処理モジュール344aと接続されている。
正規化処理モジュール340が行う正規化処理として、2つのサブサンプリング処理モジュール330(例えば、サブサンプリング処理モジュール330aとサブサンプリング処理モジュール330bのペア)による処理結果間の差を、2つの整流処理モジュール320による処理結果に基づいた値(例えば、平均値、標準偏差、最頻値、中央値等)を除数として除算することによって正規化する。なお、処理結果間の差とは、一方の処理結果から他方の処理結果を減算することであり、サブサンプリング処理モジュール330a、サブサンプリング処理モジュール330bのいずれが一方であり、他方であってもよい。
【0051】
この場合(式4)〜(式6)は、(式8)のように書き換えられる。
【数8】

なお、tは整流処理の出力特徴量、uはサブサンプリング処理の出力、vは正規化処理の除数、yは特徴抽出層の出力、i、pは特徴量マップのインデックス、j、kは特徴量マップ内の2次元座標、q、rは畳込みフィルタの2次元座標、w及びβは予め与えられる重み付き一般化平均のパラメータである。
【0052】
<第3の実施の形態>
図4は、第3の実施の形態の構成例についての概念的なモジュール構成図である。正規化処理の除数算出処理の演算量を減らすために、第2の実施形態において、除数算出処理への入力を、サブサンプリング前の特徴量から、サブサンプリング後の特徴量に変更したものである。
第3の実施の形態は、図4の例に示すように、畳込み処理モジュール410、整流処理モジュール420、サブサンプリング処理モジュール430、正規化処理モジュール440を有している。
畳込み処理モジュール410は、畳込み処理モジュール310と同等の処理を行う。
整流処理モジュール420は、畳込み処理モジュール410、サブサンプリング処理モジュール430と接続されている。整流処理モジュール320と同等の処理を行う。
サブサンプリング処理モジュール430は、整流処理モジュール420、差算出処理モジュール442、除数算出処理モジュール444と接続されている。サブサンプリング処理モジュール330と同等の処理を行うが、その処理結果を差算出処理モジュール442、除数算出処理モジュール444に渡す。
【0053】
正規化処理モジュール440は、差算出処理モジュール442a、差算出処理モジュール442c、除数算出処理モジュール444a、除数算出処理モジュール444c、除算処理モジュール446a、除算処理モジュール446cを有している。正規化処理モジュール440は、複数のサブサンプリング処理モジュール430による処理結果に対して、正規化処理を行うことによって、画像又は特徴マップ100A、100B、100Cの特徴量を抽出する。そして、次の段の特徴抽出層へ出力する。又は、識別器に出力する。識別器は、受け付けた特徴量に基づいて、画像又は特徴マップ100A、100B、100Cを識別する。
差算出処理モジュール442aは、サブサンプリング処理モジュール430a、サブサンプリング処理モジュール430b、除算処理モジュール446aと接続されている。
除数算出処理モジュール444aは、サブサンプリング処理モジュール430a、サブサンプリング処理モジュール430b、除算処理モジュール446aと接続されている。
除算処理モジュール446aは、差算出処理モジュール442a、除数算出処理モジュール444aと接続されている。
正規化処理モジュール440が行う正規化処理として、2つのサブサンプリング処理モジュール430(例えば、サブサンプリング処理モジュール430aとサブサンプリング処理モジュール430bのペア)による処理結果間の差を、その処理結果に基づいた値(例えば、平均値、標準偏差、最頻値、中央値等)を除数として除算することによって正規化する。なお、処理結果間の差とは、一方の処理結果から他方の処理結果を減算することであり、サブサンプリング処理モジュール430a、サブサンプリング処理モジュール430bのいずれが一方であり、他方であってもよい。
【0054】
この場合(式8)は(式9)のように書き換えられる。
【数9】

なお、tは整流処理の出力特徴量、uはサブサンプリング処理の出力、vは正規化処理の除数、yは特徴抽出層の出力、i、pは特徴量マップのインデックス、j、kは特徴量マップ内の2次元座標、q、rは畳込みフィルタの2次元座標、βは予め与えられる重み付き一般化平均のパラメータである。
【0055】
<第4の実施の形態>
図5は、第4の実施の形態の構成例についての概念的なモジュール構成図である。正規化処理の演算量を減らすために、第3の実施の形態において、(式9)におけるβ=1では、β乗及び1/β乗の計算が不要となる。
第4の実施の形態は、図5の例に示すように、畳込み処理モジュール510、整流処理モジュール520、サブサンプリング処理モジュール530、正規化処理モジュール540を有している。
畳込み処理モジュール510は、畳込み処理モジュール410と同等の処理を行う。
整流処理モジュール520は、整流処理モジュール420と同等の処理を行う。
サブサンプリング処理モジュール530は、サブサンプリング処理モジュール430と同等の処理を行う。
【0056】
正規化処理モジュール540は、差算出処理モジュール542a、差算出処理モジュール542c、和算出処理モジュール544a、和算出処理モジュール544c、除算処理モジュール546a、除算処理モジュール546cを有している。正規化処理モジュール540は、複数のサブサンプリング処理モジュール530による処理結果に対して、正規化処理を行うことによって、画像又は特徴マップ100A、100B、100Cの特徴量を抽出する。そして、次の段の特徴抽出層へ出力する。又は、識別器に出力する。識別器は、受け付けた特徴量に基づいて、画像又は特徴マップ100A、100B、100Cを識別する。
差算出処理モジュール542aは、サブサンプリング処理モジュール530a、サブサンプリング処理モジュール530b、除算処理モジュール546aと接続されている。
和算出処理モジュール544aは、サブサンプリング処理モジュール530a、サブサンプリング処理モジュール530b、除算処理モジュール546aと接続されている。
除算処理モジュール546aは、差算出処理モジュール542a、和算出処理モジュール544aと接続されている。
正規化処理モジュール540が行う正規化処理として、2つのサブサンプリング処理モジュール530(例えば、サブサンプリング処理モジュール530aとサブサンプリング処理モジュール530bのペア)による処理結果間の差を、その処理結果の和を除数として除算することによって正規化する。なお、処理結果間の差とは、一方の処理結果から他方の処理結果を減算することであり、サブサンプリング処理モジュール530a、サブサンプリング処理モジュール530bのいずれが一方であり、他方であってもよい。
【0057】
この場合(式9)は(式10)のように書き換えられる。
【数10】

なお、tは整流処理の出力特徴量、uはサブサンプリング処理の出力、yは特徴抽出層の出力、i、pは特徴量マップのインデックス、j、kは特徴量マップ内の2次元座標、q、rは畳込みフィルタの2次元座標である。
【0058】
<第5の実施の形態>
図6は、第5の実施の形態の構成例についての概念的なモジュール構成図である。第3の実施の形態及び第4の実施の形態において、サブサンプリング処理は、複数の畳込み処理モジュールによる処理結果を入力とする一般化平均に拡張できる。
第5の実施の形態は、図6の例に示すように、畳込み処理モジュール610、整流+サブサンプリング処理モジュール620、正規化処理モジュール630を有している。
畳込み処理モジュール610は、畳込み処理モジュール510と同等の処理を行う。
【0059】
整流+サブサンプリング処理モジュール620は、整流処理モジュール622a、整流処理モジュール622b、整流処理モジュール622c、整流処理モジュール622d、整流処理モジュール622e、整流処理モジュール622f、和算出処理モジュール624a、和算出処理モジュール624d、サブサンプリング処理モジュール626a、サブサンプリング処理モジュール626d、平均化処理モジュール628a、平均化処理モジュール628dを有している。
整流処理モジュール622aは、畳込み処理モジュール610a、和算出処理モジュール624aと接続されている。整流処理モジュール622aは、畳込み処理モジュール610aによる処理結果に対して、整流処理を行う。例えば、畳込み処理モジュール610aによる処理結果の絶対値のr乗の算出を行う。
和算出処理モジュール624aは、整流処理モジュール622a、整流処理モジュール622b、整流処理モジュール622c、サブサンプリング処理モジュール626aと接続されている。和算出処理モジュール624aは、複数の整流処理モジュール622(r個の整流処理モジュール622a、622b、・・・、622c)による処理結果を加算する。
サブサンプリング処理モジュール626aは、和算出処理モジュール624a、平均化処理モジュール628aと接続されている。サブサンプリング処理モジュール626aは、和算出処理モジュール624aによる処理結果に対して、サブサンプリング処理を行う。
平均化処理モジュール628aは、サブサンプリング処理モジュール626a、差算出処理モジュール632、和算出処理モジュール634と接続されている。平均化処理モジュール628aは、サブサンプリング処理モジュール626aによる処理結果に対して、平均化処理を行う。例えば、サブサンプリング処理モジュール626aによる処理結果のr乗根の算出を行う。
【0060】
正規化処理モジュール630は、差算出処理モジュール632、和算出処理モジュール634、除算処理モジュール636を有している。正規化処理モジュール630は、複数の平均化処理モジュール628による処理結果に対して、正規化処理を行うことによって、画像又は特徴マップ100A、100B、100Cの特徴量を抽出する。そして、次の段の特徴抽出層へ出力する。又は、識別器に出力する。識別器は、受け付けた特徴量に基づいて、画像又は特徴マップ100A、100B、100Cを識別する。
差算出処理モジュール632は、平均化処理モジュール628a、平均化処理モジュール628d、除算処理モジュール636と接続されている。
和算出処理モジュール634は、平均化処理モジュール628a、平均化処理モジュール628d、除算処理モジュール636と接続されている。
除算処理モジュール636は、差算出処理モジュール632、和算出処理モジュール634と接続されている。
正規化処理モジュール630が行う正規化処理として、2つの平均化処理モジュール628(例えば、平均化処理モジュール628aと平均化処理モジュール628d)による処理結果間の差を、その処理結果の和を除数として除算することによって正規化する。なお、処理結果間の差とは、一方の処理結果から他方の処理結果を減算することであり、平均化処理モジュール628a、平均化処理モジュール628dのいずれが一方であり、他方であってもよい。
【0061】
この場合、(式3)及び(式10)は(式11)のように書き換えられる。
【数11】

なお、sは畳込み処理の出力特徴量、uは整流及びサブサンプリング処理の出力、yは特徴抽出層の出力、i、pは特徴量マップのインデックス、j、kは特徴量マップ内の2次元座標、q、rは畳込みフィルタの2次元座標、w及びβは予め与えられる重み付き一般化平均のパラメータである。
正規化処理は、入力の重み付き一般化平均を除数としてもよい((式11)の第1式)。
【0062】
<第6の実施の形態>
図7は、第6の実施の形態の構成例についての概念的なモジュール構成図である。画像の局所的な位相変動に対して不変な出力が得られるようにするために、第5の実施の形態において、サブサンプリング処理へ入力する畳込みフィルタ応答の数を2に、r=2にする(視覚のエネルギーモデル[Adelson, Edward H and James R Bergen. “Spatiotemporal energy models for the perception of motion.” Journal of the Optical Society of America A 2.2 (1985): 284−299.]参照)。
学習時間の短縮及び認識率を向上させるために、畳込みフィルタが学習によって得るべき局所的な不変性を、予め学習しやすい構成とする。
第6の実施の形態は、図7の例に示すように、畳込み処理モジュール710、整流+サブサンプリング処理モジュール720、正規化処理モジュール730を有している。
畳込み処理モジュール710は、畳込み処理モジュール610と同等の処理を行う。
【0063】
整流+サブサンプリング処理モジュール720は、整流処理モジュール722a、整流処理モジュール722b、整流処理モジュール722c、整流処理モジュール722d、和算出処理モジュール724a、和算出処理モジュール724d、サブサンプリング処理モジュール726a、サブサンプリング処理モジュール726d、平均化処理モジュール728a、平均化処理モジュール728dを有している。
整流処理モジュール722aは、畳込み処理モジュール710a、和算出処理モジュール724aと接続されている。整流処理モジュール722aは、畳込み処理モジュール710aによる処理結果を入力として、その入力の絶対値に対してr乗を行う処理(rは正の整数、好適には例えばr=2の場合は二乗の算出処理)による整流処理を行う。
和算出処理モジュール724aは、整流処理モジュール722a、整流処理モジュール722b、サブサンプリング処理モジュール726aと接続されている。和算出処理モジュール724aは、2個の整流処理モジュール722(整流処理モジュール722a、722b)による処理結果を加算する。
サブサンプリング処理モジュール726aは、和算出処理モジュール724a、平均化処理モジュール728aと接続されている。サブサンプリング処理モジュール726aは、和算出処理モジュール724aによる処理結果に対して、サブサンプリング処理を行う。
平均化処理モジュール728aは、サブサンプリング処理モジュール726a、差算出処理モジュール732、和算出処理モジュール734と接続されている。平均化処理モジュール728aは、サブサンプリング処理モジュール726aによる処理結果に対して、r' 乗を行う処理(好適にはr’=1/r、例えばr=2の場合は平方根処理)を行うことによって平均化処理を行う。
【0064】
正規化処理モジュール730は、差算出処理モジュール732、和算出処理モジュール734、除算処理モジュール736を有している。正規化処理モジュール730は、2個の平均化処理モジュール728による処理結果に対して、正規化処理を行うことによって、画像又は特徴マップ100A、100B、100Cの特徴量を抽出する。そして、次の段の特徴抽出層へ出力する。又は、識別器に出力する。識別器は、受け付けた特徴量に基づいて、画像又は特徴マップ100A、100B、100Cを識別する。
差算出処理モジュール732は、平均化処理モジュール728a、平均化処理モジュール728d、除算処理モジュール736と接続されている。
和算出処理モジュール734は、平均化処理モジュール728a、平均化処理モジュール728d、除算処理モジュール736と接続されている。
除算処理モジュール736は、差算出処理モジュール732、和算出処理モジュール734と接続されている。
正規化処理モジュール730が行う正規化処理として、2つの平均化処理モジュール728(例えば、平均化処理モジュール728aと平均化処理モジュール728d)による処理結果間の差を、その処理結果の和を除数として除算することによって正規化する。なお、処理結果間の差とは、一方の処理結果から他方の処理結果を減算することであり、平均化処理モジュール728a、平均化処理モジュール728dのいずれが一方であり、他方であってもよい。
【0065】
この場合、(式11)は(式12)のように書き換えられる。
【数12】

なお、sは畳込み処理の出力特徴量、uは整流及びサブサンプリング処理の出力、yは特徴抽出層の出力、i、pは特徴量マップのインデックス、j、kは特徴量マップ内の2次元座標、q、rは畳込みフィルタの2次元座標、wは予め与えられる重み付き一般化平均のパラメータである。
正規化処理は、(式12)の第2式としてもよい。
【0066】
図8を参照して、前述の実施の形態の画像処理装置のハードウェア構成例について説明する。図8に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部817と、プリンタなどのデータ出力部818を備えたハードウェア構成例を示している。
【0067】
CPU(Central Processing Unit)801は、前述の実施の形態において説明した各種のモジュール、すなわち、畳込み処理モジュール110、整流処理モジュール120、正規化処理モジュール130、サブサンプリング処理モジュール140、特徴抽出層1:210等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
【0068】
ROM(Read Only Memory)802は、CPU801が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)803は、CPU801の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス804により相互に接続されている。
【0069】
ホストバス804は、ブリッジ805を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス806に接続されている。
【0070】
キーボード808、マウス等のポインティングデバイス809は、操作者により操作される入力デバイスである。ディスプレイ810は、液晶表示装置又はCRT(Cathode Ray Tube)などがあり、各種情報をテキストやイメージ情報として表示する。
【0071】
HDD(Hard Disk Drive)811は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU801によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、対象としている画像、認識結果、学習結果などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
【0072】
ドライブ812は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体813に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース807、外部バス806、ブリッジ805、及びホストバス804を介して接続されているRAM803に供給する。リムーバブル記録媒体813も、ハードディスクと同様のデータ記録領域として利用可能である。
【0073】
接続ポート814は、外部接続機器815を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート814は、インタフェース807、及び外部バス806、ブリッジ805、ホストバス804等を介してCPU801等に接続されている。通信部816は、通信回線に接続され、外部とのデータ通信処理を実行する。データ読み取り部817は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部818は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
【0074】
なお、図8に示す画像処理装置のハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図8に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図8に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
【0075】
なお、前述の各種の実施の形態を組み合わせてもよく(例えば、ある実施の形態内のモジュールを他の実施の形態内に追加する、入れ替えをする等も含む)、また、各モジュールの処理内容として背景技術で説明した技術(「発明を実施するための形態」の説明内で参考文献として挙げたものに記載されている技術を含む)を採用してもよい。
【0076】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
【符号の説明】
【0077】
100…画像又は特徴マップ
110…畳込み処理モジュール
120…整流処理モジュール
130…正規化処理モジュール
132…差算出処理モジュール
134…除数算出処理モジュール
136…除算処理モジュール
140…サブサンプリング処理モジュール
200…画像
210…特徴抽出層1:
220…特徴マップA:
230…特徴抽出層2:
240…特徴マップB:
250…特徴抽出層3:
260…特徴マップC:
270…出力
300…画像又は特徴マップ
310…畳込み処理モジュール
320…整流処理モジュール
330…サブサンプリング処理モジュール
340…正規化処理モジュール
342…差算出処理モジュール
344…除数算出処理モジュール
346…除算処理モジュール
400…画像又は特徴マップ
410…畳込み処理モジュール
420…整流処理モジュール
430…サブサンプリング処理モジュール
440…正規化処理モジュール
442…差算出処理モジュール
444…除数算出処理モジュール
446…除算処理モジュール
500…画像又は特徴マップ
510…畳込み処理モジュール
520…整流処理モジュール
530…サブサンプリング処理モジュール
540…正規化処理モジュール
542…差算出処理モジュール
544…和算出処理モジュール
546…除算処理モジュール
600…画像又は特徴マップ
610…畳込み処理モジュール
620…整流+サブサンプリング処理モジュール
622…整流処理モジュール
624…和算出処理モジュール
626…サブサンプリング処理モジュール
628…平均化処理モジュール
630…正規化処理モジュール
632…差算出処理モジュール
634…和算出処理モジュール
636…除算処理モジュール
700…画像又は特徴マップ
710…畳込み処理モジュール
720…整流+サブサンプリング処理モジュール
722…整流処理モジュール
724…和算出処理モジュール
726…サブサンプリング処理モジュール
728…平均化処理モジュール
730…正規化処理モジュール
732…差算出処理モジュール
734…和算出処理モジュール
736…除算処理モジュール
900…画像
910…特徴抽出層
920…特徴抽出層
930…識別器
1000…画像又は特徴マップ
1010…畳込み処理モジュール
1020…整流処理モジュール
1030…正規化処理モジュール
1032…平均算出処理モジュール
1034…差算出処理モジュール
1036…標準偏差算出処理モジュール
1038…除算処理モジュール
1040…サブサンプリング処理モジュール

【特許請求の範囲】
【請求項1】
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
前記整流処理手段による処理結果に対して、正規化処理を行う複数の正規化処理手段と、
前記正規化処理手段による処理結果に対して、サブサンプリング処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
を具備し、
前記正規化処理手段は、2つの前記整流処理手段による処理結果間の差を、該処理結果に基づいた値を除数として除算することによって正規化する
ことを特徴とする画像処理装置。
【請求項2】
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、
前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
を具備し、
前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、2つの前記整流処理手段による処理結果に基づいた値を除数として除算することによって正規化する
ことを特徴とする画像処理装置。
【請求項3】
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、
前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
を具備し、
前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、該処理結果に基づいた値を除数として除算することによって正規化する
ことを特徴とする画像処理装置。
【請求項4】
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、
前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
を具備し、
前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、該処理結果の和を除数として除算することによって正規化する
ことを特徴とする画像処理装置。
【請求項5】
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
複数の前記整流処理手段による処理結果を加算する複数の加算手段と、
前記加算手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、
前記サブサンプリング処理手段による処理結果に対して、平均化処理を行う複数の平均化処理手段と、
前記平均化処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
を具備し、
前記整流処理手段、前記加算手段、前記サブサンプリング処理手段、前記平均化処理手段による処理は、重み付き一般化平均処理であり、
前記正規化処理手段は、2つの前記平均化処理手段による処理結果間の差を、該処理結果の和を除数として除算することによって正規化する
ことを特徴とする画像処理装置。
【請求項6】
前記整流処理手段が行う整流処理は、入力の絶対値に対してr乗を行う処理(rは正の実数)であり、
前記平均化処理手段が行う平均化処理は、r’乗を行う処理である
ことを特徴とする請求項5に記載の画像処理装置。
【請求項7】
コンピュータを、
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
前記整流処理手段による処理結果に対して、正規化処理を行う複数の正規化処理手段と、
前記正規化処理手段による処理結果に対して、サブサンプリング処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
として機能させ、
前記正規化処理手段は、2つの前記整流処理手段による処理結果間の差を、該処理結果に基づいた値を除数として除算することによって正規化する
ことを特徴とする画像処理プログラム。
【請求項8】
コンピュータを、
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、
前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
として機能させ、
前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、2つの前記整流処理手段による処理結果に基づいた値を除数として除算することによって正規化する
ことを特徴とする画像処理プログラム。
【請求項9】
コンピュータを、
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、
前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
として機能させ、
前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、該処理結果に基づいた値を除数として除算することによって正規化する
ことを特徴とする画像処理プログラム。
【請求項10】
コンピュータを、
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
前記整流処理手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、
前記サブサンプリング処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
として機能させ、
前記正規化処理手段は、2つの前記サブサンプリング処理手段による処理結果間の差を、該処理結果の和を除数として除算することによって正規化する
ことを特徴とする画像処理プログラム。
【請求項11】
コンピュータを、
画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像に対して、畳込処理を行う複数の畳込処理手段と、
前記畳込処理手段による処理結果に対して、整流処理を行う複数の整流処理手段と、
複数の前記整流処理手段による処理結果を加算する複数の加算手段と、
前記加算手段による処理結果に対して、サブサンプリング処理を行う複数のサブサンプリング処理手段と、
前記サブサンプリング処理手段による処理結果に対して、平均化処理を行う複数の平均化処理手段と、
前記平均化処理手段による処理結果に対して、正規化処理を行うことによって、前記画像の特徴量を抽出する複数の特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴量に基づいて、前記画像を識別する識別手段
として機能させ、
前記整流処理手段、前記加算手段、前記サブサンプリング処理手段、前記平均化処理手段による処理は、重み付き一般化平均処理であり、
前記正規化処理手段は、2つの前記平均化処理手段による処理結果間の差を、該処理結果の和を除数として除算することによって正規化する
ことを特徴とする画像処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2013−69132(P2013−69132A)
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願番号】特願2011−207382(P2011−207382)
【出願日】平成23年9月22日(2011.9.22)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】