説明

コンテンツ識別装置

【課題】複数のコンテンツの中から任意のコンテンツを高速かつ高精度に識別することができるコンテンツ識別装置を提供すること。
【解決手段】学習処理手段10では、予め識別対象のコンテンツ(正例コンテンツ)の特徴量と識別対象外のコンテンツ(負例コンテンツ)の特徴量をもとした学習を行うことにより学習モデルを構築する。識別処理手段20では、未知のコンテンツの特徴量と学習処理手段10により構築された学習モデルに基づいて未知のコンテンツが正例コンテンツであるか否かを識別する。様々なコンテンツを含む負例コンテンツについては分類手段13でクラスタ分けを行い、クラスタごと、特徴量ごとに学習手段14〜16で学習モデルを構築し、クラスタごとに最適な特徴量と学習モデルを選定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ識別装置に関し、特に、コンテンツの特徴量を用いて高速かつ高精度にコンテンツを識別することができるコンテンツ識別装置に関する。
【背景技術】
【0002】
従来、複数のコンテンツの中から希望するコンテンツを検索するために、予め各コンテンツにそれぞれの特徴量を表すメタデータを付与しておくことが行われている。コンテンツの検索は、コンテンツそのものではなくメタデータを介して行われる。
【0003】
各コンテンツへのメタデータの付与は、原始的には、各コンテンツに対し手動で説明文を記述して付与することにより行われる。また、コンテンツの検索は、検索に際して入力されたテキストと一致する説明文が付与されたコンテンツを提示することにより行われるのが一般的である。
【0004】
一方、コンテンツに付与するメタデータの抽出を自動化する方法も提案されている。例えば、特許文献1には、色を複数の色グループに分類し、画像全体に占める各色グループの画素の割合である占有率を算出し、算出された色グループの画素の占有率とその色グループ名または色グループの代表色をメタデータとすることが記載されている。検索時にはメタデータ同士のユークリッド距離によって画像間の類似度を計算し、類似度が大である画像を検索結果として提示できる。
【0005】
また、特許文献2には、顔領域を含む濃淡画像をモザイク化し、顔領域の内外でモザイクパタンが異なることを利用して顔領域のモザイクをメタデータとして抽出することが記載され、特許文献3には、画像から罫線以外の部分を除去することにより抽出した罫線パターンを数量化したものをメタデータとすることが記載されている。これらでは、正規化したメタデータ同士の内積を距離として画像検索あるいは画像分類できる。
【0006】
また、特許文献4には、色のヒストグラムおよびエッジ画素情報と2つのフレームのエッジ画素変化情報をメタデータとし、自己組織化マップを用いて類似画像を検索することが記載され、特許文献5には、異なる解像度の画像ごとに抽出したカラーヒストグラム、ブロックごとの輝度平均、エッジ量をメタデータとして用い、クラスタ解析で類似画像を検索することが記載されている。
【0007】
さらに、特許文献6には、annealing M-estimatorで求めた代表色とその配置をメタデータとして用い、判別分析法を利用して類似画像を検索することが記載されている。
【特許文献1】特開平11−96364号公報
【特許文献2】特開平8−221547号公報
【特許文献3】特開平7−160844号公報
【特許文献4】特開平11−39325号公報
【特許文献5】特開2003−256427号公報
【特許文献6】特開2003−67764号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、上記原始的な方法では、個々のコンテンツに手動でメタデータを付与しなければならず、コンテンツが膨大な量に達している場合にはメタデータ付与の作業負荷が発散し現実的でない。また、各コンテンツに付与する説明文は客観的なものである必要があるが、主観的な判断が入り込まざるを得ず、異なるコンテンツに同じような説明文が付与されたり、同じようなコンテンツに異なる説明文が付与されたりする恐れがあるという課題がある。
【0009】
特許文献1〜6に記載された方法によれば、客観的なメタデータを自動的に抽出できるので上記の問題点は解消される。しかし、特許文献1に記載された方法で抽出される各色グループの画素の占有率という単純なヒストグラムは、コンテンツの特徴を的確に捉えているとは言い切れず、コンテンツの識別精度の低下をもたらすという課題を抱える。また、識別には個々のメタデータのユークリッド距離を測る必要があるため、コンテンツの数が増えるに従って処理時間が問題となってくる。
【0010】
また、特許文献2,3に記載された方法は、画像の特徴量を特に顔領域のモザイクパタンや罫線パタンとするものであるため、処理対象が画像の中の更に顔画像や文書画像に限定され、汎用性が乏しいという課題がある。
【0011】
さらに、特許文献4〜6の方法は、それぞれ大量のメタデータを算出により抽出する必要があるため、処理時間が掛かるという課題がある。また、識別に際してはカラーヒストグラムやエッジなどの異なる種類のメタデータを一括して用いるため、相互のメタデータを考慮したパラメータの設定が困難であるという課題もある。
【0012】
本発明の目的は、上記課題を解決し、任意の未知のコンテンツが識別対象のコンテンツ(正例コンテンツ)であるか識別対象外のコンテンツ(負例コンテンツ)であるかを高速かつ高精度に識別することができるコンテンツ識別装置を提供することにある。
【課題を解決するための手段】
【0013】
上記課題を解決するために、本発明は、未知のコンテンツが正例コンテンツであるか否かを識別するコンテンツ識別装置において、予め正例コンテンツの特徴量と負例コンテンツの特徴量をもとした学習を行うことにより学習モデルを構築する学習処理手段と、前記未知のコンテンツの特徴量と前記学習処理手段により構築された学習モデルに基づいて前記未知のコンテンツが正例コンテンツであるか否かを識別する識別処理手段とを備えたことを基本的特徴としている。
【0014】
また、本発明は、正例コンテンツに属する正例教師コンテンツおよび負例コンテンツに属する負例教師コンテンツを予め用意し、前記正例教師コンテンツから抽出した特徴量を正例コンテンツの特徴量とし、前記負例教師コンテンツから抽出した特徴量を負例コンテンツの特徴量とすることを特徴としている。
【0015】
また、本発明は、負例教師コンテンツをその特徴量に応じて分類し、この分類ごと、特徴量ごとに学習モデルを構築すること、未知のコンテンツを識別するのに最適な特徴量の学習モデルを適応的に選択することを特徴としている。
【0016】
さらに、本発明は、負例教師コンテンツの分類に対応する複数の識別手段を設け、該複数の識別手段を連結させて識別処理を行わせること、負例教師コンテンツの分類に従うコンテンツの未知のコンテンツ中での出現頻度あるいは複数の識別手段の識別精度に応じて複数の識別手段の適用順序が変更可能であることを特徴としている。
【発明の効果】
【0017】
本発明によれば、未知のコンテンツが正例コンテンツであるか負例コンテンツであるかの識別を高精度に行うことができる。また、分類された負例教師コンテンツごとに識別に使用する特徴量を適応的に選択することにより、識別時に未知のコンテンツから抽出する特徴量を必要最小限に抑えることができる。また、特徴量間の距離が最大化されるように階層的に識別処理を配置し、識別処理ごとに必要な特徴量を抽出して段階的な識別処理を行うことにより、識別の精度を損なうことなく処理の高速化を実現できる。
【発明を実施するための最良の形態】
【0018】
以下、図面を参照して本発明を説明する。図1は、本発明に係るコンテンツ識別装置の一実施形態を示す機能ブロック図である。以下では、コンテンツが静止画像であり、静止画像のメタデータとしての特徴量が主に色合い、色の分布・構図・模様などの静止画像の色情報および形状情報であるとして説明するが、本発明はこれらに限定されるものではなく、音声や動画像など任意のコンテンツを処理対象とし、任意の特徴量をメタデータとして実施できる。
【0019】
本発明は、教師コンテンツを用いて学習を行うことにより学習モデルを構築する学習処理手段10と未知コンテンツに対する識別処理手段20を基本的構成として備える。これらの処理手段はソフトウエアで構成できるがハードウエアで構成してもよい。
(1)学習処理手段10
【0020】
まず、学習処理手段10について説明する。学習処理に際しては、予め識別対象内であることが分かっている画像と識別対象外であることが分かっている画像を教師コンテンツとして用意する。本明細書では、識別対象の画像を正例教師コンテンツと称し、識別対象外の画像を負例教師コンテンツと称する。例えば、未知の画像が人物の画像であるか否かを識別したい場合、人物の画像は正例教師コンテンツであり、人物の画像以外の画像は全て負例教師コンテンツとなる。
【0021】
次に、正例教師コンテンツ、負例教師コンテンツをそれぞれ抽出手段11、12に入力し、それぞれの教師コンテンツから特徴量を抽出してメタデータとする。メタデータは任意の特徴量でよいが、国際標準規格であるMPEG-7で規定されたデスクリプタ、つまりColor Layout、Scalable Color、Domiant Color、Color StructureやEdge Histgramを利用するとメタデータに互換性を持たせることができ、汎用性に富んだ装置を実現できるので都合がよい。
【0022】
負例教師コンテンツは、例えば人物の画像が正例コンテンツである場合、人物の画像以外の様々な種類の画像を含んでいるので、負例教師コンテンツのメタデータについては分類手段13でメタデータの距離に応じてクラスタ分けを行う。このクラスタ分けには、K-mean法や自己組織化マップなどを利用することができる。また、学習処理で用意される負例教師コンテンツの種類は予め分かっているので、ここで用意された負例教師コンテンツとそれから抽出されたメタデータの対応をとるなどして手動操作によってクラスタ分けすることもできる。
【0023】
分類手段13でのクラスタ分けにより負例教師コンテンツの中から、例えば海の画像のメタデータはクラスタAとして分類され、山の画像のメタデータはクラスタBとして分類される。
【0024】
学習手段(1)〜(3)14〜16は、抽出手段11で抽出された正例教師コンテンツのメタデータと分類手段12でクラスタ分けされた個々の負例教師コンテンツのメタデータを使用して正例教師コンテンツと負例教師コンテンツの2群に最適に分離する分離超平面を算出する。例えば、学習手段(1)は、抽出手段11により抽出された人物の画像のメタデータと抽出手段12で抽出され分類手段13で分類された海の画像のメタデータを使用して、正例コンテンツである人物の画像と負例コンテンツである海の画像を分離する分離超平面を算出する。メタデータが複数ある場合には、メタデータごとに分離超平面を算出する。分離超平面の算出には、例えばサポートベクタマシン(SVM)あるいは判別分析を利用することができる。
【0025】
サポートベクタマシン(SVM)については、例えば「Vapnik:Statistical learning theory, A Wiley-Interscience Publication, 1998」や「C-C.CHANG, C-W.IISU AND C-J LIN, The analysis of decomposition methods for support vector machines, IEEE Transaction on Neural Networks, 11(4) pp.1003-1008」に記載されている。
【0026】
図2は、SVMの概念を示す説明図であり、同図に示すように、あるメタデータにおける異なる要素a、bの量をそれぞれ縦軸、横軸に取り、各画像から抽出したメタデータの位置をプロットする。例えばメタデータがScalable Color(HSV色ヒストグラムのスケーラブル表現)である場合、赤、青をそれぞれ縦軸、横軸にとると、人物の各画像のメタデータは「○」の位置にプロットされ、海の各画像のメタデータは「×」の位置にプロットされる。なお、図2は、あるメタデータにおける要素が2種a,bの場合であるが、それ以上の場合にはそれに対応した次元位置でのプロットとなる。
【0027】
図2に示すように、SVMは分離の閾値となる分離超平面hを有する。分離超平面hは、上述したように、正例教師コンテンツと負例教師コンテンツのメタデータをSVMに与え、各メタデータについて学習を行わせ、この学習結果に基づいて正例教師コンテンツと負例教師コンテンツが最適に分離されるように設定される。学習モデルの識別精度は、種々の正例教師コンテンツおよび負例教師コンテンツのメタデータをSVMに与えたときに得られる分離超平面hとそれに最接近するプロット位置との間の離間距離に依存する。
【0028】
以上により、正例コンテンツか負例コンテンツかを分類するための学習モデルが、クラスタごと、メタデータごとに構築される。例えば、分類手段13によりクラスタA(海の画像)と分類された負例教師コンテンツについて、人物の画像(正例コンテンツ)か海の画像(負例コンテンツ)かを識別するColor Layoutの学習モデル、Scalable Colorの学習モデル、Domiant Colorの学習モデル、Color Structureの学習モデル、Edge Histgramの学習モデルなどが構築される。同様に、クラスタB(山の画像)と分類された負例教師コンテンツについても、人物の画像(正例コンテンツ)か山の画像(負例コンテンツ)かを識別するColor Layoutの学習モデル、Scalable Colorの学習モデル、Domiant Colorの学習モデル、Color Structureの学習モデル、Edge Histgramの学習モデルなどが構築される。
【0029】
選定手段(1)〜(3)17〜19は、正例教師コンテンツおよび負例教師コンテンツから抽出された複数のメタデータ対して、負例教師コンテンツの種類に応じてメタデータを適応的に利用するため、クラスタごとに正例教師コンテンツとの識別性能が最適なメタデータおよびその学習モデルを選定する。例えばクラスタA(海の画像)についてはColor Layoutのメタデータおよびその学習モデルを選定し、クラスタB(山の画像)についてはEdge Histgramのメタデータおよびその学習モデルを選定する。
【0030】
各選定手段(1)〜(3)17〜19により選定された各クラスタごとのメタデータおよびその学習モデルは、識別処理手段20の対応する識別手段(1)〜(3)21〜23にそれぞれ与えられる。
【0031】
なお、あるクラスタにおける最適なメタデータが予め分かっている場合、例えば海の画像を負例コンテンツとして識別するのに最適なメタデータがScalable Colorであることが予め、あるいは先の海の画像での学習から分かっている場合、その後の学習に供される海の画像についてはメタデータとしてScalable Colorのみを抽出し、海の画像全体に対する学習モデルを生成あるいは修正するようにすることができる。
(2)識別処理手段20
【0032】
次に、識別処理手段20について説明する。識別処理手段20は、選定手段(1)〜(3)17〜19、つまりクラスタと同数の複数の識別手段(1)〜(3)21〜23を有する。未知コンテンツは識別処理手段20に与えられ、正例コンテンツか負例コンテンツかが識別される。
【0033】
ここで、識別手段(1)〜(3)21〜23での識別処理を独立して行うことも考えられるが、識別手段(1)〜(3)21〜23を互いに連結させて、例えば、後述するように、未知コンテンツに対して段階的な識別処理が行われるようにするのがよい。未知コンテンツは、全ての識別手段(1)〜(3)21〜23で正例コンテンツと識別されれたとき正例コンテンツと判断される。また、識別手段(1)〜(3)21〜23の1つにおいてでも負例コンテンツと識別されれば負例コンテンツと判断され、その段階で識別処理は中断されてそれ以上の処理は行われない。
【0034】
図3は、識別処理手段20での識別処理の手順の一例を示すフローチャートである。識別処理手段20における個々の識別手段(1)〜(3)21〜23は、選定手段(1)〜(3)17〜19によって選定されたそれぞれのクラスタごとの最適なメタデータだけを未知コンテンツから抽出する。なお、このメタデータが他の識別手段で既に抽出されていればそのメタデータを再利用でき、新たにメタデータを抽出する処理は不要である。
【0035】
各識別手段(1)〜(3)21〜23は、学習手段(1)〜(3)14〜16によってクラスタごとに導かれた学習モデルをもとに、SVMあるいは判別分析などによって未知コンテンツが正例コンテンツに属するか負例コンテンツに属するかを識別する。各識別手段(1)〜(3)21〜23での識別処理は、正例コンテンツか負例コンテンツかを分離する学習モデルによるものであるので、教師コンテンツの数に依存せず高速に行うことができる。
【0036】
図3は、未知コンテンツを正例コンテンツであるクラスタX、負例コンテンツであるクラスタA,B,Cに識別する例を示している。未知コンテンツは、まず、識別手段(1)21に与えられてクラスタAとクラスタA以外に識別される。ここでクラスタAと識別されたコンテンツは負例コンテンツと判断される。クラスタA以外と識別されたコンテンツは、識別手段(2)22に与えられてクラスタBとクラスタB以外に識別される。ここでクラスタBと識別されたコンテンツは負例コンテンツと判断される。次に、クラスタB以外と識別されたコンテンツは、識別手段(3)23に与えられてクラスタXとクラスタCに識別される。クラスタXと識別されたコンテンツは正例コンテンツと判断され、クラスタCと識別されたコンテンツは負例コンテンツと判断される。
【0037】
未知コンテンツ中での各クラスタの出現頻度に応じて識別手段の適用順序を設定したり、学習モデルごとの識別精度に応じて識別手段の適用順序を設定したりすることにより、識別処理の負担低減や高速化、高精度化を図ることができる。
【0038】
例えば未知コンテンツ中で出現頻度が大きいことが分かっているクラスタを負例コンテンツとして識別する識別処理を優先させるより、未知コンテンツ中の多くのクラスタを早い段階で負例コンテンツと識別し、後段処理の対象から除くことができる。早い段階の識別で除かれたコンテンツは後段での処理対象外となり、それからのメタデータの抽出を省略することができるので、全体的に見て未知コンテンツから最小限のメタデータを抽出することで識別が可能になり、高速の識別処理を実現できる。また、例えば識別精度が高い学習モデルによる識別処理を優先させることにより、負例コンテンツに含まれるコンテンツをクラスタごとに高精度に識別できる。
【0039】
未知コンテンツの識別結果を再学習に利用することもできる。例えば未知コンテンツが負例コンテンツであるにも拘わらず正例コンテンツであると識別された場合、該未知コンテンツをそのクラスタに対する学習手段あるいは抽出手段に与え、該未知コンテンツが負例コンテンツと識別されるように再学習を行わせる。この場合、未知コンテンツのクラスタやそれに最適なメタデータは識別処理において既知であるので、メタデータが保存されていればそのメタデータを再学習に利用できるし、保存されていなくても未知コンテンツに最適なメタデータのみを抽出すればよいので、抽出するメタデータは必要最小限に抑えることができる。
【図面の簡単な説明】
【0040】
【図1】本発明に係るコンテンツ識別装置の一実施形態を示す機能ブロック図である。
【図2】サポートベクタマシン(SVM)の概念を示す説明図である。
【図3】識別処理手段での識別処理の手順の一例を示すフローチャートである。
【符号の説明】
【0041】
10・・・学習処理手段、11,12・・・抽出手段、13・・・分類手段、14,15,16・・・学習手段、17,18,19・・・選定手段、20・・・識別処理手段、21,22,23・・・識別手段

【特許請求の範囲】
【請求項1】
未知のコンテンツが識別対象のコンテンツであるか否かを識別するコンテンツ識別装置において、
予め識別対象のコンテンツ(以下、正例コンテンツと記す。)の特徴量と識別対象外のコンテンツ(以下、負例コンテンツと記す。)の特徴量をもとした学習を行うことにより学習モデルを構築する学習処理手段と、
前記未知のコンテンツの特徴量と前記学習処理手段により構築された学習モデルに基づいて前記未知のコンテンツが正例コンテンツであるか否かを識別する識別処理手段とを備えたことを特徴とするコンテンツ識別装置。
【請求項2】
正例コンテンツに属する正例教師コンテンツおよび負例コンテンツに属する負例教師コンテンツを予め用意し、前記学習処理手段は、前記正例教師コンテンツから抽出した特徴量を正例コンテンツの特徴量とし、前記負例教師コンテンツから抽出した特徴量を負例コンテンツの特徴量とすることを特徴とする請求項1に記載のコンテンツ識別装置。
【請求項3】
前記学習処理手段は、MPEG-7で規定されたデスクリプタを前記特徴量とすることを特徴とする請求項2に記載のコンテンツ識別装置。
【請求項4】
前記学習処理手段は、前記負例教師コンテンツをその特徴量に応じて分類する分類手段を有することを特徴とする請求項1に記載のコンテンツ識別装置。
【請求項5】
前記分類手段は、K-mean法あるいは自己組織マップを利用して前記負例教師コンテンツをその特徴量に応じて分類する、あるいは手動操作によって分類可能なように構成されていることを特徴とする請求項4に記載のコンテンツ識別装置。
【請求項6】
前記学習処理手段は、前記分類手段により分類された負例教師コンテンツごとに学習するように構成されていることを特徴とする請求項4に記載のコンテンツ識別装置。
【請求項7】
前記学習処理手段は、複数の特徴量を個別に用いて学習するように構成されていることを特徴とする請求項6に記載のコンテンツ識別装置。
【請求項8】
前記学習処理手段は、前記分類手段により分類された負例教師コンテンツごとに正例教師コンテンツとの分離を最適に行う分離超平面を設定するように構成されていることを特徴とする請求項6に記載のコンテンツ識別装置。
【請求項9】
前記分離超平面は、サポートベクタマシンあるいは判別分析を用いて設定されることを特徴とする請求項8に記載のコンテンツ識別装置。
【請求項10】
前記学習処理手段は、前記分類手段により分類された負例教師コンテンツに応じて最適な特徴量および学習モデルを選定する選定手段を有することを特徴とする請求項7に記載のコンテンツ識別装置。
【請求項11】
前記識別処理手段は、前記分類手段での分類に対応する複数の識別手段を有し、前記複数の識別手段は連結されていることを特徴とする請求項10に記載のコンテンツ識別装置。
【請求項12】
前記識別手段の各々は、未知のコンテンツを、前記分類手段による分類に応じた負例コンテンツとそれ以外のコンテンツの2群に識別することを特徴とする請求項4に記載のコンテンツ識別装置。
【請求項13】
前記識別処理手段は、前記分類手段による分類に従うコンテンツの未知のコンテンツ中での出現頻度あるいは前記複数の識別手段の識別精度に応じて前記複数の識別手段の適用順序が変更可能に構成されていることを特徴とする請求項11に記載のコンテンツ識別装置。
【請求項14】
前記識別処理手段は、未知のコンテンツを前記複数の識別手段の全てが正例コンテンツと識別したときに該未知のコンテンツを正例コンテンツと識別することを特徴とする請求項11に記載のコンテンツ識別装置。
【請求項15】
前記識別処理手段は、未知のコンテンツを前記複数の識別手段のうちの1つでも負例コンテンツと識別したときには該未知のコンテンツを負例コンテンツと識別するとともに処理を中断することを特徴とする請求項11に記載のコンテンツ識別装置。
【請求項16】
前記識別処理手段は、各識別手段での学習モデルの特徴量を個々の識別手段が必要とする段階で抽出することを特徴とする請求項11に記載のコンテンツ識別装置。
【請求項17】
前記識別処理手段は、個々の識別手段が必要とする特徴量が他の識別手段で既に抽出済みであればそれを再利用することを特徴とする請求項11に記載のコンテンツ識別装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2006−99565(P2006−99565A)
【公開日】平成18年4月13日(2006.4.13)
【国際特許分類】
【出願番号】特願2004−286620(P2004−286620)
【出願日】平成16年9月30日(2004.9.30)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】