説明

画像認識装置及び画像認識方法

【課題】 複雑な対象を認識する場合にも、計算量を増大せずに正確に対象を検出して、特徴量の抽出やパターン識別といった後続の処理を行える画像認識装置を提供する。
【解決手段】 画像認識装置1は、認識対象を撮影して認識用画像データを生成するための撮像部21と、撮像部21にて生成された認識用画像データに基づいて認識用画像を表示する表示部23と、ユーザが、認識用画像に対して、認識対象の要素の位置を指示する認識用位置入力データを入力するための入力部22と、入力部22に入力された認識用位置入力データに基づいて認識用画像データから認識用画像特徴量を抽出する認識用特徴量抽出部31と、認識用特徴量抽出部31にて抽出された認識用画像特徴量に基づいて、認識対象を認識するパターン識別部32とを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識装置及び画像認識方法に関し、特に撮影画像に写っている対象を認識する画像認識装置及び画像認識方法に関する。
【背景技術】
【0002】
従来から、デジタルカメラなどの撮像装置により撮影された画像を解析して、そこに写っている対象を認識する画像認識装置が広く知られている。例えば、QRコード読取機のようなコード読取機や、本の表紙の画像からそれが何かを認識する装置が知られている。
【0003】
これらの装置は、一般的に、画像に対して、(1)対象の検出(セグメンテーション)、(2)特徴量の抽出、(3)パターン識別(認識処理)の手順で処理を行っている。これらの一連の処理は自動化されており、入力画像が与えられると計算機のソフトウェアにより上記の手順(1)〜(3)が行われ、認識結果が出力される。ここで、コード読取機のように、認識対象の形状に規則性があり、画像認識処理を適用しやすいような場合は、上記の「対象の検出」の処理は容易である。
【0004】
これに対して、近年では、鳥、花、犬、猫、昆虫のような、より複雑な対象を認識するシステムが提案されている(例えば花の認識を行うシステムについて、非特許文献1を参照)。このようなシステムにおいて、認識精度を向上させるためには、「対象の検出」を正確に行う必要がある。
【0005】
また、対象を個別のパーツごとに検出できれば、より高い精度の認識ができる。例えば、鳥を認識する場合に、「対象の検出」の処理において、鳥の体全体だけでなく、頭部、羽根、胴体、目、くちばしの位置をそれぞれ個別に検出することができれば、後段の「特徴量の抽出」及び「パターン識別」の処理後の認識結果の精度を格段に高めることができる。従って、複雑な対象を高精度に認識するためには、まず「対象の検出」を適切に行うことが不可欠である。
本発明に関連する先行技術文献として、以下の文献がある。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Nilsback, M-E. and Zisserman, A. 「A Visual Vocabulary for Flower Classification」Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2006)
【非特許文献2】G. Csurka, C. R. Dance, L. Fan, J.Willamowski, and C. Bray. Visual categorization with bags of keypoints. In Workshop on Statistical Learning in Computer Vision, ECCV, pages 1-22, 2004.
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、例えば、鳥、花、犬、猫、昆虫のような複雑な対象を認識する場合には、以下の理由により、対象やその個別のパーツを計算機で検出することは容易ではない。
【0008】
第1の理由は、認識対象の外観の多様性である。即ち、QRコードや本の表紙等を認識する場合は、認識対象が平面であるので、それを正面から撮影することで撮影画像の外観は一様になるが、認識対象が鳥、花、犬、猫、昆虫のような立体物である場合には、撮影の際のアングルによって撮影画像における認識対象の外観は多様に変化する。また、照明条件、ズーミング等の撮影条件によっても撮影画像における認識対象の外観は多様に変化する。さらに、認識対象が鳥、花、犬、猫、昆虫のような動物又は植物である場合には、個体差があり、例えば同一種の鳥であっても形状、色等が異なる。従って、計算機のソフトウェアにより撮影画像から認識対象又はその個別のパーツを検出することは容易ではない。
【0009】
第2の理由は、画像上で認識対象又はその個別パーツとして検出すべき境界が不明確なことがあるということである。即ち、計算機で「対象の検出」を行う場合には、一般的には画像のエッジ部分を抽出することで領域を区画することにより認識対象又はその個別パーツを検出するが、認識対象を撮影した画像において、認識対象とその背景、又は認識対象の隣り合うパーツ同士の境界に色の変化が少ないことがあり、このような場合には、計算機が認識対象とその背景、又は認識対象の隣り合うパーツ同士の境界を検出することが困難になる。
【0010】
第3の理由は、鳥、花、犬、猫、昆虫のような対象については、「対象の検出」において必ずしも真の解が存在しないということである。例えば、認識対象が鳥である場合に、目やくちばしについては比較的明確に定義することができ、鳥の体においてどこからが目であるか、どこからがくちばしであるかは明確である。しかしながら、例えば羽根や胴体等については、鳥の体においてそれらの境界を一義的に定義することはできず、その解は、人によってばらつき、一意には存在しない。このように真の解が存在しないタスクは計算機には不向きである。
【0011】
第4の理由は、計算量が膨大になるということである。上記の(1)〜(3)の処理おいて、特に計算量が多くなるのが(1)「対象の検出」である。一般に、複雑な対象についての「対象の検出」には、複雑な処理を要するので、多大な計算資源を消費する。従って、鳥、花、犬、猫、昆虫のような複雑な対象についての「対象の検出」を低リソースのハードウェア上で実現することは困難である。
【0012】
そこで、本発明は、複雑な対象を認識する場合にも、計算量を増大せずに正確に対象を検出して、特徴量の抽出やパターン識別といった後続の処理を行える画像認識装置及び画像認識方法を提供する。
【課題を解決するための手段】
【0013】
本発明は、「対象の検出」を自動で行わず、入力部を介してユーザに認識対象(及びその個別のパーツ)の位置を入力させることにより、計算機が不得意とするタスクを人間に代行させ、この認識対象(及びその個別のパーツ)の検出結果を後の処理に用いて対象の認識を行う。
【0014】
本発明の一態様は、画像認識装置であって、この画像認識装置は、認識対象を撮影して認識用画像データを生成するための撮像部と、前記撮像部にて生成された認識用画像データに基づいて認識用画像を表示する表示部と、ユーザが、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力するための入力部と、前記入力部に入力された認識用位置入力データに基づいて前記認識用画像データから認識用画像特徴量を抽出する認識用特徴量抽出部と、前記認識用特徴量抽出部にて抽出された認識用画像特徴量に基づいて、前記認識対象を認識する認識部とを備えている。
【0015】
この構成によれば、認識に必要な「対象の検出」、「特徴量の抽出」、「パターン識別」の処理のうち、「対象の検出」をユーザに行わせる。ユーザの認知能力によって「対象の検出」を行うことで、対象の外観に多様性があっても、また、対象又は対象の個別のパーツの境界のエッジが不鮮明であっても、正確に対象の検出ができる。また、「対象の検出」について必ずしも真の解が存在しない場合にも、「対象の検出」を行うことができる。さらに、これらのために計算量が増大することもない。
【0016】
本発明の画像認識装置において、前記認識部は、学習用画像特徴量と正解ラベルとの関係を用いて得られる学習結果に基づいて、前記認識用特徴量抽出部にて抽出された認識用画像特徴量から前記認識対象の正解ラベルを特定することで、前記認識対象を認識する。ここで、前記学習用画像特徴量は、学習用位置入力データに基づいて、前記学習用位置入力データに対応する学習用画像データから抽出された画像特徴量である。
【0017】
この構成により、学習結果を用いることで、例えば認識対象が鳥である場合の鳥の羽根や胴体等のように、境界を一義的に定義することができず、位置入力データによって指定される位置がユーザによって異なる場合にも、学習結果に従って適切に対象を認識できる。特に、学習に基づく認識を行う場合は、学習結果を生成するための学習用画像特徴量の数が多いほど、その学習結果を用いた認識の精度が向上する。よって、事前に用意された多数の学習用画像特徴量から生成された学習結果を用いることで、一義的に境界を決定しにくい対象を適切に認識できるようになる。
【0018】
本発明の画像認識装置は、さらに、前記学習用画像データと、前記学習用位置入力データと、前記正解ラベルとが対応付けられて記憶されている学習データベースと、前記学習用位置入力データに基づいて、それに対応付けられた前記学習用画像データから前記学習用画像特徴量を抽出する学習用特徴量抽出部と、前記学習用画像特徴量と前記正解ラベルとの関係を用いて、前記学習結果を取得する学習部とを備えている。
【0019】
この構成により、画像認識装置に予め学習結果が記憶されておらず、又は画像認識装置にて予め十分な数の学習用画像特徴量に基づく学習結果が得られておらず、かつ、画像認識装置が通信機能によって外部から学習結果を得ることができないとしても、画像認識装置側で学習結果を得ることができるので、学習結果を用いて認識対象を適切に認識できる。
【0020】
本発明の画像認識装置において、一の前記学習用画像データに対して、複数の前記学習用位置入力データが入力され、前記複数の学習用位置入力データに基づいて、前記一の学習用画像データにからそれぞれ画像特徴量を抽出することで、複数の前記学習用画像特徴量が抽出され、前記認識部は、前記複数の学習用画像特徴量と前記正解ラベルとの関係を用いて得られた学習結果に基づいて、前記認識対象を認識する。
【0021】
この構成により、複数の学習結果に基づいて認識対象を認識するので、認識の精度を向上できる。
【0022】
本発明の画像認識装置において、前記複数の学習用画像特徴量は、一の前記学習用画像データに対して入力された複数の学習用位置入力データを合成して生成された合成後の学習用位置入力データに基づいて、前記合成後の学習用位置入力データに対応する学習用画像データから抽出された画像特徴量を含んでいる。
【0023】
この構成により、より多くの学習用画像特徴量から学習結果を取得でき、認識の精度をより向上できる。
【0024】
本発明の画像認識装置は、さらに、一の前記学習用画像データに対して入力された複数の前記学習用位置入力データを合成することで、前記合成後の学習用位置入力データを生成する位置入力データ合成部を備えている。
【0025】
この構成により、ユーザが被写体を撮影して学習用画像データを生成し、それに対して学習用位置入力データを入力した場合にも、そのような学習用位置入力データを元に、学習結果を得るための学習用画像特徴量を増加させることができる。
【0026】
本発明の画像認識装置において、前記入力部は、タッチパネルである。
【0027】
この構成により、ユーザは、表示部に表示された認識用画像に対して、表示部を指先等でなぞったりタッチしたりすることで、認識用位置入力データを入力できる。
【0028】
本発明の画像認識装置において、前記認識用位置入力データは、閉曲線、点、若しくは線、又はこれらの組合せにより指示されたデータである。
【0029】
この構成により、認識用位置入力データとして、領域、点、線を指定できる。
【0030】
本発明の画像認識装置において、前記認識対象の要素は、前記認識対象の全体及び前記認識対象の個別のパーツである。
【0031】
この構成により、認識対象の全体だけでなく、認識対象の個別のパーツについても、認識用位置入力データによって指定できるので、認識の精度を向上させることができる。
【0032】
本発明の画像認識装置において、前記認識用特徴量抽出部は、一の前記認識対象について、前記撮像部で複数回の撮影が行われて複数の前記認識用画像データが生成され、前記入力部にてユーザから前記複数の認識用画像データに対する複数の前記認識用位置入力データが入力されたときに、前記複数の認識用位置入力データに基づいて、複数の前記認識用画像特徴量を抽出し、前記認識部は、前記複数の認識用画像特徴量に基づいて、前記一の認識対象を認識する。
【0033】
この構成により、一回の撮影では、認識対象の特徴的な部分を撮影することができなかったとしても、複数回の撮影のいずれかで当該特徴的な部分を撮影することができれば、当該特徴的な部分に基づいて認識対象を認識できるので、認識の精度を向上させることができる。
【0034】
本発明の画像認識装置において、前記認識部は、前記複数の認識用画像特徴量を統合した一の認識用画像特徴量に基づいて、前記一の認識対象を認識する。
【0035】
この構成により、複数回の撮影による一の認識対象の認識を行うことができる。
【0036】
本発明の画像認識装置において、前記一の認識用画像特徴量は、前記複数の認識用画像特徴量を平均化したものである。
【0037】
この構成により、簡単な処理で、複数回の撮影による一の認識対象の認識を行うことができる。
【0038】
本発明の別の態様は、撮影により得た画像データから認識対象を認識する画像認識システムであって、この画像認識システムは、ユーザインターフェース装置と、認識装置とを備えている。前記ユーザインターフェース装置は、認識対象を撮影して認識用画像データを生成するための撮像部と、前記撮像部にて生成された認識用画像データに基づいて認識用画像を表示する表示部と、ユーザが、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力するための入力部と、前記撮像部にて生成された認識用画像データ及びそれに対して入力された前記認識用位置入力データを前記認識装置に送信するデータ送信部と、前記データ送信部にて送信した認識用画像データに対する前記認識装置による認識結果を受信する認識結果受信部とを備えている。前記認識装置は、前記データ送信部より送信された認識用画像データ及び認識用位置入力データを受信するデータ受信部と、前記データ受信部にて受信した認識用位置入力データに基づいて、前記データ受信部にて受信した認識用画像データから認識用画像特徴量を抽出する認識用特徴量抽出部と、前記認識用特徴量抽出部にて抽出された認識用画像特徴量に基づいて、前記認識対象を認識する認識部と、前記認識部による認識結果を前記ユーザインターフェース装置に送信する認識結果送信部とを備えている。
【0039】
この構成によっても、上記の画像認識装置と同様に、ユーザの認知能力によって「対象の検出」を行うことで、対象の外観に多様性があっても、また、対象又は対象のパーツの境界のエッジが不鮮明であっても、正確に対象の検出ができ、また、「対象の検出」について必ずしも真の解が存在しない場合にも、「対象の検出」を行うことができるとともに、これらのために計算量が増大することもない。
【0040】
本発明のさらに別の態様は、携帯端末であり、この携帯端末は、認識対象を撮影して認識用画像データを生成するための撮像部と、前記撮像部にて生成された認識用画像データに基づいて認識用画像を表示する表示部と、ユーザが、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力するための入力部と、前記撮像部にて生成された認識用画像データ及びそれに対して入力された前記認識用位置入力データを認識装置に送信するデータ送信部と、前記データ送信部にて送信した認識用画像データに対する前記認識装置による認識結果を受信する認識結果受信部とを備えている。
【0041】
この構成によっても、上記の画像認識装置と同様に、ユーザの認知能力によって「対象の検出」を行うことで、対象の外観に多様性があっても、また、対象又は対象のパーツの境界のエッジが不鮮明であっても、正確に対象の検出ができ、また、「対象の検出」について必ずしも真の解が存在しない場合にも、「対象の検出」を行うことができるとともに、これらのために計算量が増大することもない。
【0042】
本発明のさらに別の態様はプログラムであり、このプログラムは、撮像部を備えた携帯端末に、前記撮像部にて認識対象を撮影して生成された認識用画像データに基づいて認識用画像を表示する表示ステップと、ユーザに、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力させる入力ステップと、前記認識用画像データ及びそれに対して入力された前記位認識用置入力データを認識装置に送信するデータ送信ステップと、前記データ送信ステップにて送信した認識用画像データに対する前記認識装置による認識結果を受信する認識結果受信ステップとを実行させる。
【0043】
この構成によっても、上記の画像認識装置と同様に、ユーザの認知能力によって「対象の検出」を行うことで、対象の外観に多様性があっても、また、対象又は対象のパーツの境界のエッジが不鮮明であっても、正確に対象の検出ができ、また、「対象の検出」について必ずしも真の解が存在しない場合にも、「対象の検出」を行うことができるとともに、これらのために計算量が増大することもない。
【0044】
本発明のさらに別の態様は、画像認識方法であって、この画像認識方法は、認識対象を撮影して認識用画像データを生成するための撮像ステップと、前記撮像ステップにて生成された認識用画像データに基づいて認識用画像を表示する表示ステップと、ユーザが、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力する入力ステップと、前記入力ステップにて入力された認識用位置入力データに基づいて前記認識用画像データから認識用画像特徴量を抽出する認識用特徴量抽出ステップと、前記認識用特徴量抽出ステップにて抽出された認識用画像特徴量に基づいて、前記認識対象を認識する認識ステップとを有している。
【0045】
この構成によっても、上記の画像認識装置と同様に、ユーザの認知能力によって「対象の検出」を行うことで、対象の外観に多様性があっても、また、対象又は対象のパーツの境界のエッジが不鮮明であっても、正確に対象の検出ができ、また、「対象の検出」について必ずしも真の解が存在しない場合にも、「対象の検出」を行うことができるとともに、これらのために計算量が増大することもない。
【発明の効果】
【0046】
本発明によれば、画像認識に際して、「対象の検出」をユーザに行わせるので、複雑な認識対象についても正確に対象の検出ができるとともに、「対象の検出」に必要な計算量を低減させることができる。
【図面の簡単な説明】
【0047】
【図1】本発明の実施の形態の画像認識装置の全体構成を示す図
【図2A】本発明の実施の形態の画像認識装置の正面外観図
【図2B】本発明の実施の形態の画像認識装置の背面外観図
【図3】本発明の実施の形態の複数の認識用画像とそれに対する認識用位置入力データの例を説明する図
【図4】本発明の実施の形態の学習用画像とそれに対する複数の学習用位置入力データを示す図
【図5】本発明の実施の形態の学習用位置入力データの合成の例を示す図
【図6】本発明の実施の形態の学習データベースの構成を示す図
【図7】本発明の実施の形態の画像認識装置における画像認識の動作を示すフロー図
【図8】本発明の実施の形態の認識用位置入力データを入力する動作を示すフロー図
【図9A】本発明の実施の形態において撮影をする際の表示画面の例を示す図
【図9B】本発明の実施の形態において認識用位置入力データ(体全体)を入力する際の表示画面の例を示す図
【図9C】本発明の実施の形態において認識用位置入力データ(胴体)を入力する際の表示画面の例を示す図
【図9D】本発明の実施の形態において認識用位置入力データ(目)を入力する際の表示画面の例を示す図
【図9E】本発明の実施の形態において認識用位置入力データ(足)を入力する際の表示画面の例を示す図
【図9F】本発明の実施の形態において再度の撮影をするか否かを選択する際の表示画面の例を示す図
【発明を実施するための形態】
【0048】
以下、本発明の実施の形態の画像認識装置について、図面を参照しながら説明する。本実施の形態では、認識対象は鳥であり、鳥を撮影して、その鳥の種類の名称を求める画像認識装置を例として説明する。但し、本発明は、鳥以外の認識対象についても同様に適用できる。本発明の画像認識装置は、例えば、花、犬、猫、昆虫といった動植物のほか、寺院、自動車等の人工物の認識に用いても有効である。
【0049】
図1は、本実施の形態の画像認識装置の全体構成を示す図である。画像認識装置1は、ユーザインターフェース部2と学習認識部3を有している。本実施の形態では、画像認識に必要な「対象の検出」、「特徴量の抽出」、及び「パターン識別」の処理のうち、「対象の検出」をユーザインターフェース部2で行い、「特徴量の抽出」及び「パターン識別」を学習認識部3で行う。
【0050】
ユーザインターフェース部2は、撮像部21、入力部22、表示部23、画像保存部24、及び位置入力データ保存部25を有している。撮像部21は、被写体をキャプチャリングして、表示用画像データを生成して表示部23に出力する。撮像部21は、ユーザによって撮影が指示される(シャッターが押される)と、画像データを生成して画像保存部22に出力する(以下、この画像データを「認識用画像データ」といい、この認識用画像データに基づいて表示される画像を「認識用画像」という)。入力部23は、ユーザからの位置入力及びその他の入力を受け付ける。
【0051】
入力部22は、表示部23に表示された認識用画像に対してユーザが位置入力データの入力を行うと、その位置入力データを表示部23に出力する(以下、この位置入力データを「認識用位置入力データ」という)。本実施の形態の画像認識装置1では、認識用位置入力データは、鳥の体全体、胴体、2本の足、2つの目という6つの要素を有する。入力部22は、ユーザによって認識用位置入力データの終了が指示されると、認識用位置入力データを位置入力データ保存部25に出力する。表示部23は、表示用画像データ、認識用画像データ、及び入力部22に入力された位置入力に基づいて画像を表示する。表示部23はまた、各種の入力用のボタンを表示する。画像保存部24は、撮像部21で生成された認識用画像データを保存する。位置入力データ保存部25は、入力部22から受けた認識用位置入力データを保存する。
【0052】
学習認識部3は、認識用特徴量抽出部31、パターン識別部32、学習部33、学習用特徴量抽出部34、及び学習データベース35を有している。認識用特徴量抽出部31は、位置入力データ保存部25に保存された認識用位置入力データに基づいて、画像保存部24に保存された、その認識用位置入力データに対応する認識用画像データから画像特徴量を抽出する(以下、認識用画像データから抽出される画像特徴量を「認識用画像特徴量」という)。学習データベース35には、複数の学習用画像データの各々について、正解ラベルと、複数の入力者による複数の位置入力データと、モーフィングにより作成した位置入力データとが対応付けられて記憶されている(以下、学習データベース35に記憶されている位置入力データを「学習用位置入力データ」という)。
【0053】
学習用特徴量抽出部34は、学習データベース35に記憶されている学習用位置入力データに基づいて、学習用画像データに対して画像特徴量の抽出を行う(以下、学習用画像データから抽出される画像特徴量を「学習用画像特徴量」という)。学習部33は、学習用特徴量抽出部34で抽出された各学習用画像特徴量と、学習データベース35から抽出したそれに対応する正解ラベルとを対応付けて、学習結果を取得する。パターン識別部32は、学習部33にて得られた学習結果を参照して、認識用特徴量抽出部31で抽出された認識用画像特徴量に基づいて、パターン識別を行い、認識用画像特徴量に対する正解ラベルを認識結果として出力する。
【0054】
図2Aは、本実施の形態の画像認識装置1の正面外観図であり、図2Bは本実施の形態の画像認識装置1の背面外観図である。図2A及び図2Bに示すように、画像認識装置1は、携帯端末(例えば携帯電話)である。図2Aに示すように、画像認識装置1は、正面にタッチパネル101と複数のボタン102を備えている。タッチパネル101は、図1の表示部23に相当し、かつ入力部22にも相当する。また、ボタン102も入力部22に相当する。図2Bに示すように、画像認識装置1は、背面に撮像部21のレンズ103を備えている。
【0055】
図3は、複数の認識用画像及びそれに対する認識用位置入力データの例を示す図である。ユーザは、撮影部21が対象Oをキャプチャしている状態で、タッチパネル102に表示された撮影ボタン(シャッターボタン)を押すことで、対象Oを撮影する。撮影によって認識用画像データが生成されると、表示部23は認識用画像データに基づいて認識用画像を表示する。ユーザは、表示部23に表示された認識用画像に対して、指先(スタイラス等他のものでもよい。以下同じ。)で認識用位置入力データを入力する。上述のように、本実施の形態では、ユーザは、表示部23に表示された認識用画像に対して、鳥の体全体、胴体、2本の足、2つの目という6つの要素の認識用位置入力データを入力する。
【0056】
ユーザは、ある対象を認識したい場合には、その対象を複数の異なる角度から撮影することで、撮影角度が異なる複数の認識用画像データを用意できる。図3において、画像P1は対象Oを正面方向から撮影して得られた認識用画像であり、画像P2は対象Oを左斜め前方向から撮影して得られた認識用画像であり、画像P3は対象Oを左斜め後ろ方向から撮影して得られた認識用画像である。
【0057】
図3において、D1〜D3は、それぞれ認識用画像P1〜P3に対してユーザから入力された認識用位置入力データを示している。ユーザは、表示部23に表示された認識用画像に対して、鳥の体全体を一の閉曲線で囲んで指示し、胴体を一の閉曲線で囲んで指示し、2本の足をそれぞれ線で指示し、2つの目をそれぞれ点で指示する。これらの閉曲線、線、点が認識用位置入力データとなる。
【0058】
なお、認識用画像中に足や目など一部の要素が現れていない場合には、現れている要素のみについて指定をする。図3の例では、認識用画像P2及びP3には鳥の目が1つしか写っておらず、従って、認識用位置入力データD2及びD3には目の認識用位置入力データは1つしかない。但し、認識用位置入力データの各要素が、複数の認識用画像データに対する複数通りの認識用位置入力データの少なくともいずれか1つにおいて指定されているようにする。
【0059】
ユーザは、一回の撮影で対象の特徴的な部分を撮影できなかったとしても、視点を変えて複数回の撮影をすることができる。対象を複数通りの視点から撮影し、それぞれの視点で各要素の認識用位置入力データを入力することにより、後段の特徴量の抽出及びパターン識別部の精度を高めることができる。例えば、認識用位置入力データの要素にくちばしと羽が含まれる場合において、くちばしと羽の模様に非常に特徴的な画像特徴量を有する鳥を認識するときに、1つ目の認識用画像にはくちばしが写っている一方で、羽の模様がうまく写っていなかったとしても、2つ目の認識用画像で羽がよく写るように撮影をすれば、両方の特徴的な画像特徴量を獲得することができる。このように、ユーザは対象の特徴的な部分が十分に撮影できるまで、何度も撮影を繰り返すことができる。
【0060】
1つの認識用画像に対して入力部22から入力された各要素の認識用位置入力データは、その認識用画像に対する認識用位置入力データとして位置入力データ保存部25に保存される。このような認識用位置入力データの入力が複数の認識用画像の各々について行われ、位置入力データ保存部25には、複数の認識用画像データに対する複数の認識用位置入力データが保存される。複数の認識用画像に対するユーザの認識用位置入力データの入力が完了すると、ユーザインターフェース部2は、認識用画像データとその認識用位置入力データとを対応付けて、認識用特徴量抽出部31に出力する。
【0061】
認識用特徴量抽出31は、複数の認識用画像データとそれに対する認識用位置入力データを用いて、1つの認識対象に対して複数の認識用画像特徴量を求める。認識用特徴量抽出部31は、これらの複数の認識用画像特徴量の平均を取ってその認識対象の認識用画像特徴量とする。上述のように、認識用位置入力データの入力の際には、一部の要素について認識用位置入力データが入力されず、認識用位置入力データの一部が欠けていることがある。この場合には、その部分の認識用画像特徴量も欠けることになる。この場合には、その欠けている部分の認識用画像特徴量ついては平均化の際に考慮しない。
【0062】
なお、上記の説明では、複数の認識用画像特徴量を平均化して一の認識用画像特徴量を求めたが、平均化以外の方法によって複数の認識用画像特徴量を統合して一の認識用画像特徴量を求めてもよい。
【0063】
次に、学習について説明する。上記のように、本実施の形態では、認識用画像に対して、ユーザに、鳥の体全体、胴体、2本の足、2つの目という6つの要素の認識用位置入力データを入力させるが、入力させる要素によっては、ユーザ毎に様々な解釈が存在し得る。例えば、鳥の胴体(胸と腹)をユーザに入力させる場合、胴体と、頭部と、背中との境界線は曖昧であり、正確な境界は定義できない。従って、ユーザはそれぞれの解釈に従い、様々なパターンで認識用位置入力データを入力することになる。そこで、本実施の形態の画像認識装置1では、1つの学習用画像に対して、予め複数の入力者による学習用位置入力データを収集して、それらを独立した学習サンプルとして学習データベース35に保存しておく。これにより、学習用特徴量抽出部34は、バリエーションに富む学習用位置入力データを用いて、それぞれ異なる学習用画像特徴量を抽出できる。
【0064】
図4は、学習用画像とそれに対する複数の学習用位置入力データを示す図である。図4の例では、学習用画像SPに対して、入力者Aにより胴体の学習用位置入力データDAが入力され、入力者Bにより胴体の学習用位置入力データDBが入力され、入力者Cにより胴体の学習用位置入力データDCが入力されている。入力者A、B、Cは、同一の学習用画像に対して、それぞれ鳥の胴体の領域について異なった解釈をしている。このように、1つの学習用画像データに対して複数の入力者による複数の学習用位置入力データを用意することで、複数の学習用画像特徴量を取得する。
【0065】
図5は、学習用位置入力データの合成の例を示す図である。一般に、学習サンプルが多ければ多いほど認識の精度は向上する。しかしながら、学習用位置入力データを手作業で集めるのは大変な作業である。そこで、本実施の形態では、学習用位置入力データの数を増加させるために、複数の入力者によって入力された学習用位置入力データを合成して、合成後の学習用位置入力データを得る。図5の例では、1つの学習用画像データについて、入力者Aによる学習用位置入力データDAと入力者Bによる学習用位置入力データDBという2つの学習用位置入力データを合成する例が示されている。このように、複数の入力者により入力された複数の学習用位置入力データのうちの2つを合成することで、複数の合成後の学習用位置入力データを得る。
【0066】
2つの閉曲線(又は線)を合成する手法として、これらの閉曲線(又は線)の特徴的な部分を対応付け、中間的な形状を生成するモーフィング技術を採用する。2つの閉曲線の特徴的な部分を対応付ける技術は、Scott, C.; Nowak, R. “Robust Contour Matching via the Order Preserving Assignment Problem”, IEEE Transactions on Image Processing, Volume 15, Issue 7, July 2006 Page(s):1831 - 1838に紹介されている。
【0067】
図6は、学習データベース35の構成を示す図である。図6に示すように、学習データベース35には、複数の学習用画像データの各々について、複数の入力者によって入力された複数の学習用位置入力データ、及びモーフィングにより合成された複数の学習用位置入力データが予め記憶されている。さらに、学習データベース35では、各学習用画像データに対して正解ラベルが付されている。
【0068】
次に、認識用特徴量抽出部31及び学習用特徴量抽出部34における画像特徴量の抽出について説明する。認識用特徴量抽出部31は、認識用位置入力データ及び認識用画像データを入力として、特徴ベクトルを抽出して、この特徴ベクトルを認識用画像特徴量とする。学習用特徴量抽出部34も同様に、学習用位置入力データ及び学習用画像データを入力として特徴ベクトルを抽出して、この特徴ベクトルを学習用画像特徴量とする。特徴ベクトルの抽出には、画像処理の分野で用いられている任意の特徴抽出技術を採用することができる。本実施の形態では、上掲の非特許文献2で提案されているVisual Wordのヒストグラム表現を用いる。この手法を用いることで、画像上の部分領域から、領域の面積によらない一定の長さの特徴ベクトルを抽出できる。
【0069】
このとき、位置入力データに対して、Visual Wordのヒストグラム表現に変換すべき領域を次のように設定する。位置入力データが閉曲線であるときは、閉曲線で囲まれた部分領域をVisual Wordのヒストグラム表現に変換する。これにより、N次元の特徴ベクトルが得られる。位置入力データが点であるときは、点の周りの半径rの部分領域をVisual Wordのヒストグラム表現に変換する。これにより、N次元の特徴ベクトルが得られる。半径rは、固定の値を用いてもよいし、鳥の例のように、体全体を示す閉曲線が入力されている場合には、この閉曲線の大きさで正規化された値をrとしてもよい。このように正規化することより、画像中の対象のスケールに依存しない特徴ベクトルが得られる。位置入力データが線であるときは、線を中心とする幅wの部分領域をVisual Wordのヒストグラム表現に変換する。これにより、N次元の特徴ベクトルが得られる。幅wは、固定の値を用いてもよいし、鳥の例のように、体全体を示す閉曲線が入力されている場合には、この閉曲線の大きさで正規化された値をwとしてもよい。このように正規化することより、画像中の対象のスケールに依存しない特徴ベクトルが得られる。
【0070】
認識用特徴量抽出部31及び学習用特徴量抽出部34は、上記のようにして各要素の特徴ベクトルを求め、これらの特徴ベクトルを縦に並べて、高次元の特徴ベクトルを構成する。本実施の形態の鳥の認識の場合には、閉曲線が2つ、点が2つ、線が2つあるため、N = 2×N+2×N+2×N次元のベクトルを特徴ベクトルが得られる。認識用特徴量抽出部31及び学習用特徴量抽出部34は、このN次元の特徴ベクトルを画像特徴量として出力する。
【0071】
なお、位置入力データに基づいて画像特徴量を求める方法は、上記の例に限られない。例えば、Visual Wordのヒストグラム表現を用いる方法以外の方法であってもよい。また、例えば、閉曲線の形状の情報(形及び大きさ)を画像特徴量に含めてもよい。また、上記にように、位置入力データとして2つの閉曲線があるならば、それらの相対的な位置関係を表す特徴量を画像特徴量に含めてもよい。同様に、閉曲線、線、及び点の相対的な位置関係を画像特徴量として含めてもよい。
【0072】
学習部33及びパターン識別部32は、サポートベクトルマシン又はニューラルネットワークにより学習結果を得て、その学習結果を利用することで、認識用特徴量抽出部31で抽出されたN次元の特徴ベクトルに対する認識結果を得る。なお、サポートベクトルマシンを採用する場合は、学習部33による学習結果は、サポートベクトルであり、ニューラルネットワークを採用する場合は、学習部33による学習結果は、ニューラルネットワークの重みである。
【0073】
以上のように構成された画像認識装置1について、その動作を説明する。図7は、画像認識装置1における画像認識の動作を示すフロー図である。ユーザは、認識対象を撮影すると、ユーザインターフェース部2を操作して、その撮影画像の画像データを認識用画像データとして、認識用位置入力データを入力する(ステップS71)。画像認識装置1は、この認識用位置入力データに基づいて、認識用画像データから認識用画像特徴量を抽出する(ステップS72)。次に、画像認識装置1は、抽出された認識用画像特徴量を用いて、パターン識別を行い、認識対象を認識する(ステップS73)。
【0074】
図8は、認識用位置入力データを入力する動作を示すフロー図である。また、図9A〜図9Fは、認識用位置入力データを入力する際の画像認識装置1の表示画面の表示例である。まず、画像認識装置1の撮像部21が被写体をキャプチャして、表示部23が表示用画像を表示する(ステップS81)。図9Aは、このときの表示画面の例である。表示画面には、撮影ボタンB1が表示されている。画像認識装置1は、撮影ボタンB1が押されたかを判定する(ステップS82)。表示部23は、撮影ボタンB1が押されるまで、撮像部21でキャプチャされた表示用画像を表示する。撮影ボタンB1が押されると(ステップS82でYES)、撮像部21は認識用画像データを生成して画像保存部24に保存し、表示部23はこの認識用画像データに基づいて認識用画像を表示する。
【0075】
表示部23に認識用画像が表示されると、ユーザは、認識用画像に対して、認識用位置入力データを入力する。まず、ユーザは、体全体を包含する閉曲線及び胴体を包含する閉曲線を入力する(ステップS83)。図9Bは、体全体を包含する閉曲線を入力するときの表示画面の例であり、図9Cは、胴体を包含する閉曲線を入力するときの表示画面の例である。ユーザが認識用位置入力データを入力する際の表示画面には、認識用位置入力データを入力する要素を特定するためのボタンB2〜B5が表示されている。ユーザは、体全体の認識用位置入力データを入力するときには、図9Bに示すように、全体ボタンB2を押して体全体を選択し、体全体を包含する閉曲線を入力する。具体的には、全体ボタンB2が押されると、画面を指先でなぞることで線が引けるようになるので、ユーザは、鳥の体全体を線で囲む。指先を画面から離すと曲線の始点と終点が結ばれて、自動的に閉曲線となる。この閉曲線が体全体の認識用位置入力データとなる。
【0076】
ユーザが胴体の認識用位置入力データを入力するときには、図9Cに示すように、胴ボタンB3を押して胴体を選択し、胴体を包含する閉曲線を入力する。具体的には、胴ボタンB3が押されると、画面を指先でなぞることで線が引けるようになるので、ユーザは、鳥の胴体(腹と胸を含む部分)を線で囲む。指先を画面から離すと曲線の始点と終点が結ばれて、自動的に閉曲線となる。この閉曲線が胴体の認識用位置入力データとなる。
【0077】
ユーザは、目ボタンB4を押して目を選択し、鳥の2つの目をそれぞれ点で指定する(ステップS84)。図9Dは、このときの表示画面の例である。具体的には、目ボタンB4が押されると、画面を指先でタッチすることで点が描画されるようになるので、ユーザは、鳥の目を2つとも指先でタッチする。この2つの点が目の認識用位置入力データとなる。
【0078】
ユーザはさらに、足ボタンB5を押して足を選択し、鳥の2本の足をそれぞれ線で指定する(ステップS85)。図9Eは、このときの表示画面の例である。具体的には、足ボタンB5が押されると、画面を指先でなぞることで線が引けるようになるので、ユーザは、鳥の足を2本とも線でなぞる。この2本の線が足の認識用位置入力データとなる。なお、ステップS83、S84、S85における、各要素の認識用位置入力データの入力はどの順番で行ってもよい。
【0079】
認識用画像について、認識用位置入力データの入力を終了すると、再度同じ被写体を撮影するか否かを判断する(ステップS86)。図9Fは、このときの表示画面の例である。ユーザは、図9Fの表示画面に対して、再度撮影を行う場合には「はい」のボタンB6を押し、再度の撮影を行わない場合には「いいえ」のボタンB7を押す。再度の撮影が指示された場合には(ステップS86でYES)、ステップS81に戻って撮像部21は被写体をキャプチャして、撮影ボタンB1が押されるのを待つ。再度の撮影を行わない場合には(ステップS86でNO)、認識用位置入力データの入力を終了して、それまでに入力された認識用位置入力データを出力する(ステップS87)。
【0080】
以上、本発明の実施の形態を説明したが、上記の説明は例示に過ぎず、本発明は他の実施の形態でも実施される。
【0081】
例えば、上記の実施の形態では、認識用位置入力データを入力する画面で、認識用位置入力データを入力する要素を指定するボタンB2〜B5が表示されており、ユーザはいずれかのボタンを押して要素を選択して当該要素の認識用位置入力データを入力するよう構成されていたが、例えば、画像認識装置がユーザに認識用位置入力データを入力する要素を指定してもよい。この場合には、画像認識装置は、例えば、「体全体を閉曲線で囲ってください」、「胴体を閉曲線で囲ってください」、「目(2つ)をタッチしてください」、「足(2本)を線でなぞってください」等の案内を、文字で表示部23に表示するか、またはスピーカーなどの装置を用いて読み上げることにより、ユーザに対応する要素の認識用位置入力データの入力を促すことができる。また、認識用位置入力データを入力する画面では、入力内容を初期化するクリアボタンや入力作業を終了する終了ボタンなど、入力作業を補助するユーザインターフェースを備えていてもよい。
【0082】
また、上記の実施の形態では、学習認識部3が、学習データベース35及び学習に用いる学習用特徴量抽出部34を備えていたが、本発明の画像認識装置は、これらを備えていなくてもよい。即ち、上記の実施の形態では、学習データベース35に、学習用画像と学習用位置入力データと正解ラベルとを関連付けて記憶し、学習用特徴量抽出部34にて学習用位置入力データに基づいて学習用画像から画像特徴量を求め、学習部33がこの画像特徴量と正解ラベルとを対応付けて学習結果を得ていたが、これらの処理を予め画像認識装置1の外部で行い、それによって得られた学習結果を予め学習部33に記憶しておいてもよい。また、画像認識装置1がそのような学習結果を通信によって外部から取得してもよい。このような構成にすることで、画像認識装置1は学習データベース35及び学習用特徴量抽出部34を備える必要がなくなる。
【0083】
一方、上記の実施の形態では、学習データベース35には、学習用画像とそれに対して複数の入力者により入力された学習用位置入力データが予め記憶されていたが、これらのデータを画像認識装置1で生成してもよい。この場合には、ユーザインターフェース部2にて、上記と同様にして認識対象となる被写体を撮影して画像データを生成し、その画像データに対してユーザが位置入力データ及び正解ラベルを入力する。この画像データは学習用画像データとなり、この位置入力データは学習用位置入力データとなる。これらの学習用画像データと学習用位置入力データは、学習用特徴量抽出部34に入力され、又は学習データベース35に保存された後に、学習用特徴量抽出部34に入力される。学習用特徴量抽出部34では、上記と同様にして、画像特徴量を抽出する。ユーザはさらに、入力部21を介して、この学習用画像データに対して正解ラベルを付与する。正解ラベルは、学習データベース35にある正解ラベルから選択する方式で付与してもよいし、ユーザが直接入力してもよい。学習部33は、抽出された画像特徴量と正解ラベルとを対応付けて学習結果を取得する。
【0084】
学習用位置入力データの合成を画像認識装置1にて行ってもよい。この場合には、画像認識装置1は位置入力データ合成部を備える。位置入力データ合成部は、学習データベース35に保存されている、同一の学習用画像に対する複数の学習用位置入力データを上述のようにして合成し、新たな学習用位置入力データを生成する。
【0085】
また、上記の実施の形態では、ユーザインターフェース部2及び学習認識部3が何れも携帯端末に備えられて、画像認識装置1を構成する例を説明したが、本発明の実施の形態はこれに限られない。例えば、ユーザインターフェース部2が携帯端末に備えられ、学習認識部3がこの携帯端末と通信可能な他のコンピュータに備えられていてもよい。この場合には、ユーザが撮像部21を用いて撮影して得られた認識用画像データ、及びユーザが入力部22から入力した認識用位置入力データは、通信ネットワークを介して当該他のコンピュータに送信される。当該他のコンピュータは、携帯端末から送信されてきた認識用画像データ及び認識用位置入力データに基づいて、画像認識を行い、認識結果を携帯端末に送信する。携帯端末はこの認識結果を受信する。
【0086】
上記の実施の形態では、ユーザインターフェース部2において、一回の撮影について認識用位置入力データの入力をした後に、ユーザに再度の撮影を行うかを問い、ユーザ自身が再度の撮影を行うか否かを決定した。これによりユーザは、自ら十分であると思うまで、撮影及び認識用位置入力データの入力を繰り返すことができる。しかし、ユーザは、撮影及び認識用位置入力データの入力をいつまで繰り返せばよいか判断できないこともある。そこで、ユーザインターフェース部2に、十分な認識用位置入力データが得られたか否かをユーザに通知し、又は十分な認識用位置入力データが得られていない場合には強制的にユーザに再度の撮影を行わせる機能を付加してもよい。上述のように、認識用画像特徴量を求めてパターン識別を行うためには、認識対象の各要素について、少なくとも一つの認識用位置入力データが必要となる。よって、この機能においては、すべての要素について少なくとも一つの認識用位置入力データが得られたか否かをユーザに案内し、又はすべての要素について少なくとも一つの認識用位置入力データが得られるまで強制的にユーザに再度の撮影を行わせることができる。
【0087】
上記の実施の形態では、鳥の認識をする画像認識装置を例示して説明をしたが、本発明の画像認識装置は、昆虫、花、魚等の他の動植物を認識の対象としてもよい。例えば、昆虫を認識する場合は、位置入力データは、足を6本の線で指定し、頭、胸、及び腹をそれぞれ閉曲線で指定したデータとすることができる。また、認識対象が花である場合は、花びらを閉曲線で指定して、花の中心を点で指定して、茎を線で指定したデータを位置入力データとすることができる。認識対象が魚である場合は、体全体、背ビレ、尾ビレをそれぞれ閉曲線で指定し、目を点で指定したデータを位置入力データとすることができる。本発明の画像認識装置は、さらに、寺院、自動車等の人工物を認識の対象としてもよい。
【産業上の利用可能性】
【0088】
本発明は、画像認識に際して、「対象の検出」をユーザに行わせるので、複雑な認識対象についても正確に対象の検出ができるとともに、「対象の検出」に必要な計算量を低減させることができるというすぐれた効果を有し、撮影画像に写っている対象を認識する画像認識装置等に適用することができる。
【符号の説明】
【0089】
1 画像認識装置
2 ユーザインターフェース部
21 撮像部
22 入力部
23 表示部
24 画像保存部
25 位置入力データ保存部
3 学習認識部
31 認識用特徴量抽出部
32 パターン識別部
33 学習部
34 学習用特徴量抽出部
35 学習データベース
101 タッチパネル
102 ボタン
103 レンズ

【特許請求の範囲】
【請求項1】
認識対象を撮影して認識用画像データを生成するための撮像部と、
前記撮像部にて生成された認識用画像データに基づいて認識用画像を表示する表示部と、
ユーザが、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力するための入力部と、
前記入力部に入力された認識用位置入力データに基づいて前記認識用画像データから認識用画像特徴量を抽出する認識用特徴量抽出部と、
前記認識用特徴量抽出部にて抽出された認識用画像特徴量に基づいて、前記認識対象を認識する認識部と、
を備えることを特徴とする画像認識装置。
【請求項2】
前記認識部は、学習用画像特徴量と正解ラベルとの関係を用いて得られる学習結果に基づいて、前記認識用特徴量抽出部にて抽出された認識用画像特徴量から前記認識対象の正解ラベルを特定することで、前記認識対象を認識し、
前記学習用画像特徴量は、学習用位置入力データに基づいて、前記学習用位置入力データに対応する学習用画像データから抽出された画像特徴量であることを特徴とする請求項1に記載の画像認識装置。
【請求項3】
前記学習用画像データと、前記学習用位置入力データと、前記正解ラベルとが対応付けられて記憶されている学習データベースと、
前記学習用位置入力データに基づいて、それに対応付けられた前記学習用画像データから前記学習用画像特徴量を抽出する学習用特徴量抽出部と、
前記学習用画像特徴量と前記正解ラベルとの関係を用いて、前記学習結果を取得する学習部と、
をさらに備えることを特徴とする請求項2に記載の画像認識装置。
【請求項4】
一の前記学習用画像データに対して、複数の前記学習用位置入力データが入力され、前記複数の学習用位置入力データに基づいて、前記一の学習用画像データにからそれぞれ画像特徴量を抽出することで、複数の前記学習用画像特徴量が抽出され、
前記認識部は、前記複数の学習用画像特徴量と前記正解ラベルとの関係を用いて得られた学習結果に基づいて、前記認識対象を認識することを特徴とする請求項2又は3に記載の画像認識装置。
【請求項5】
前記複数の学習用画像特徴量は、一の前記学習用画像データに対して入力された複数の学習用位置入力データを合成して生成された合成後の学習用位置入力データに基づいて、前記合成後の学習用位置入力データに対応する学習用画像データから抽出された画像特徴量を含むことを特徴とする請求項4に記載の画像認識装置。
【請求項6】
一の前記学習用画像データに対して入力された複数の前記学習用位置入力データを合成することで、前記合成後の学習用位置入力データを生成する位置入力データ合成部をさらに備えることを特徴とする請求項5に記載の画像認識装置。
【請求項7】
前記入力部は、タッチパネルであることを特徴とする請求項1ないし請求項6のいずれかに記載の画像認識装置。
【請求項8】
前記認識用位置入力データは、閉曲線、点、若しくは線、又はこれらの組合せにより指示されたデータであることを特徴とする請求項1ないし請求項7のいずれかに記載の画像認識装置。
【請求項9】
前記認識対象の要素は、前記認識対象の全体及び前記認識対象の個別のパーツであることを特徴とする請求項1ないし請求項8のいずれかに記載の画像認識装置。
【請求項10】
前記認識用特徴量抽出部は、一の前記認識対象について、前記撮像部で複数回の撮影が行われて複数の前記認識用画像データが生成され、前記入力部にてユーザから前記複数の認識用画像データに対する複数の前記認識用位置入力データが入力されたときに、前記複数の認識用位置入力データに基づいて、複数の前記認識用画像特徴量を抽出し、
前記認識部は、前記複数の認識用画像特徴量に基づいて、前記一の認識対象を認識することを特徴とする請求項1に記載の画像認識装置。
【請求項11】
前記認識部は、前記複数の認識用画像特徴量を統合した一の認識用画像特徴量に基づいて、前記一の認識対象を認識することを特徴とする請求項10に記載の画像認識装置。
【請求項12】
前記一の認識用画像特徴量は、前記複数の認識用画像特徴量を平均化したものであることを特徴とする請求項11に記載の画像認識装置。
【請求項13】
ユーザインターフェース装置と、認識装置とを備え、撮影により得た画像データから認識対象を認識する画像認識システムであって、
前記ユーザインターフェース装置は、
認識対象を撮影して認識用画像データを生成するための撮像部と、
前記撮像部にて生成された認識用画像データに基づいて認識用画像を表示する表示部と、
ユーザが、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力するための入力部と、
前記撮像部にて生成された認識用画像データ及びそれに対して入力された前記認識用位置入力データを前記認識装置に送信するデータ送信部と、
前記データ送信部にて送信した認識用画像データに対する前記認識装置による認識結果を受信する認識結果受信部とを備え、
前記認識装置は、
前記データ送信部より送信された認識用画像データ及び認識用位置入力データを受信するデータ受信部と、
前記データ受信部にて受信した認識用位置入力データに基づいて、前記データ受信部にて受信した認識用画像データから認識用画像特徴量を抽出する認識用特徴量抽出部と、
前記認識用特徴量抽出部にて抽出された認識用画像特徴量に基づいて、前記認識対象を認識する認識部と、
前記認識部による認識結果を前記ユーザインターフェース装置に送信する認識結果送信部とを備える
ことを特徴とする画像認識システム。
【請求項14】
認識対象を撮影して認識用画像データを生成するための撮像部と、
前記撮像部にて生成された認識用画像データに基づいて認識用画像を表示する表示部と、
ユーザが、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力するための入力部と、
前記撮像部にて生成された認識用画像データ及びそれに対して入力された前記認識用位置入力データを認識装置に送信するデータ送信部と、
前記データ送信部にて送信した認識用画像データに対する前記認識装置による認識結果を受信する認識結果受信部とを備え、
を備えることを特徴とする携帯端末。
【請求項15】
撮像部を備えた携帯端末に、
前記撮像部にて認識対象を撮影して生成された認識用画像データに基づいて認識用画像を表示する表示ステップと、
ユーザに、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力させる入力ステップと、
前記認識用画像データ及びそれに対して入力された前記位認識用置入力データを認識装置に送信するデータ送信ステップと、
前記データ送信ステップにて送信した認識用画像データに対する前記認識装置による認識結果を受信する認識結果受信ステップと
を実行させることを特徴とするプログラム。
【請求項16】
認識対象を撮影して認識用画像データを生成するための撮像ステップと、
前記撮像ステップにて生成された認識用画像データに基づいて認識用画像を表示する表示ステップと、
ユーザが、前記認識用画像に対して、前記認識対象の要素の位置を指示する認識用位置入力データを入力する入力ステップと、
前記入力ステップにて入力された認識用位置入力データに基づいて前記認識用画像データから認識用画像特徴量を抽出する認識用特徴量抽出ステップと、
前記認識用特徴量抽出ステップにて抽出された認識用画像特徴量に基づいて、前記認識対象を認識する認識ステップと、
を有することを特徴とする画像認識方法。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9A】
image rotate

【図9B】
image rotate

【図9C】
image rotate

【図9D】
image rotate

【図9E】
image rotate

【図9F】
image rotate


【公開番号】特開2011−192178(P2011−192178A)
【公開日】平成23年9月29日(2011.9.29)
【国際特許分類】
【出願番号】特願2010−59627(P2010−59627)
【出願日】平成22年3月16日(2010.3.16)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.QRコード
【出願人】(502324066)株式会社デンソーアイティーラボラトリ (332)
【Fターム(参考)】