画像分類装置、画像分類装置の制御方法及びプログラム
【課題】 写真画像を適切なグループに分類することを目的とする。
【解決手段】 属性毎に属性値を有する複数の画像を、該属性値に基づいて定義された複数のグループ条件により複数のグループにグループ化し、画像の内容に関する内容情報を抽出し(S308)、抽出された画像の内容情報と、該画像が分類されたグループ以外のグループのグループ条件との関連を評価し(S312)、評価の結果、抽出された内容情報と関連があると評価されたグループ条件のグループに、該内容情報が抽出された画像のグループを補正する(S314)。
【解決手段】 属性毎に属性値を有する複数の画像を、該属性値に基づいて定義された複数のグループ条件により複数のグループにグループ化し、画像の内容に関する内容情報を抽出し(S308)、抽出された画像の内容情報と、該画像が分類されたグループ以外のグループのグループ条件との関連を評価し(S312)、評価の結果、抽出された内容情報と関連があると評価されたグループ条件のグループに、該内容情報が抽出された画像のグループを補正する(S314)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像を分類するための分類装置、分類装置の制御方法及びプログラムに関する。
【背景技術】
【0002】
近年、電子化された写真データの増加に伴い、検索・整理や鑑賞といった再利用時の手間が増大する中で、写真画像を自動でグループ化する技術に対する期待が高まっている。現在、撮影装置のGPSセンサや時計を利用して、撮影位置や撮影日時等の撮影時の情報を写真画像に付与しておき、これらの情報から写真画像をグループ化する技術が提案されている。
これにより、旅行や結婚式等といったイベントや、それらのイベント中に起きたさらに細かいイベント毎に写真画像をまとめることができる。このような技術においては、時間順に並べた画像に対して、位置情報を含む写真画像の特徴量や撮影時間間隔の変化の大きいところをイベントの切れ目としてセグメンテーションし、グループ化する、といった処理を行うことが知られている。(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−317077号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
このような時間や場所をベースにしたグループ化処理は、実際に起きたイベントの流れに沿って行われるため、各写真画像はその流れの中で撮影されている必要がある。一方で、旅行や結婚式と言ったイベントで得た切符やパンフレットやお土産等のような撮影対象によっては、イベントの流れの中では撮影されないケースも多い。イベントが終了し、しばらく経ってから自宅で撮影されるといったことも少なくない。
【0005】
このような場合、写真画像に付与される撮影日時や撮影場所は、本来撮影対象が含まれていたイベントにおける時間や場所とはズレが生じてしまう。その結果、グループ化処理によって正しいグループに配置されない問題が生じてしまう。
【0006】
このようなグループ化の誤りがあると、例えば、フォトフレームでの自動スライドショー再生やフォトアルバム作成時の自動配置などで、ユーザが意図していないところで画像が出現することがある。また逆に意図しているところで出現しないといったことが起こりえる。
【0007】
そこで本発明は、画像を適切なグループに分類することを目的とする。
【課題を解決するための手段】
【0008】
上記の目的を達成するための本発明の一態様による画像分類装置は以下の構成を備える。すなわち、属性毎に属性値を有する複数の画像を、該属性値に基づいて定義された複数のグループ条件により複数のグループにグループ化する分類手段と、前記画像の内容に関する内容情報を抽出する抽出手段と、前記抽出された画像の内容情報と、該画像が前記分類手段によって分類されたグループ以外のグループのグループ条件との関連を評価する評価手段と、前記評価手段による評価の結果、前記抽出手段によって抽出された内容情報と関連があると評価されたグループ条件のグループに、該内容情報が抽出された画像のグループを補正する補正手段とを備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、画像を適切なグループに分類することが可能となる。
【図面の簡単な説明】
【0010】
【図1】実施形態における画像分類装置のハードウェア構成を示すブロック図である。
【図2】実施形態における画像分類装置の基本構成を示すブロック図である。
【図3】実施形態における、画像分類装置の処理の手順を示すフローチャートである。
【図4】実施形態における、画像分類装置のグループ化結果情報示す図である。
【図5】実施形態における、画像分類装置のグループ化方法ごとに着目した情報を管理する場合の保持の仕方の例を示した図である。
【図6】実施形態における、画像分類装置のグループ特徴情報の抽出例を示した図である。
【図7】実施形態における、画像分類装置の文字の認識により内容情報を抽出できる写真画像の例を示した図である。
【図8】実施形態における、画像分類装置の内容情報およびグループ特徴情報の例を示した図である。
【図9】実施形態における、画像分類装置の駅名およびその所在地の緯度経度を含む、地理情報に関する知識の例を示した図である。
【図10】実施形態2における、内容情報およびグループ特徴情報の例を示した図である。
【図11】実施形態2における、キャラクターに関する知識、地理情報に関する知識、イベント情報に関する知識の例を示した図である。
【図12】実施形態2における、知識を利用して関連評価をする場合の基本構成を示すブロック図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下で説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施形態の1つである。
【0012】
(実施形態1)
本実施形態の画像分類装置に適用するコンピュータ装置のハードウェア構成について、図1のブロック図を参照して説明する。本実施形態においては、構成は単一のコンピュータ装置で実現してもよいし、必要に応じた複数のコンピュータ装置に各機能を分散して実現するようにしてもよい。複数のコンピュータ装置で構成される場合は、例えば、図1に示す構成にネットワークインタフェースを追加し、互いに通信可能なようにLocal Area Network(LAN)などで接続するものとする。
【0013】
図1において、101はコンピュータ装置100全体を制御するCentral Processing Unit(CPU)である。後述するフローチャートの処理もCPU101が行う。102は変更を必要としないプログラムやパラメータを格納するRead Only Memory(ROM)である。本実施形態の処理プログラムもROM102に格納される。103は外部装置などから供給されるプログラムやデータを一時記憶するRandom Access Memory(RAM)である。
【0014】
104はコンピュータ装置100に固定して設置されたハードディスクやメモリカード、あるいはコンピュータ装置100から着脱可能なフレキシブルディスク(FD)やCompact Disk(CD)等の光ディスク、磁気や光カード、ICカード、メモリカードなどを含む外部記憶装置である。本実施形態においては、外部記憶装置104に、写真画像や該写真画像のメタデータ、グループ化結果情報、RAM103での保持に向かないような大きなサイズの処理中の情報、知識情報などが保存されるものとする。
【0015】
105は、ユーザの操作を受けるポインティングデバイスやキーボードなどの入力デバイス109とのインタフェースである。106はプログラムの実行結果を出力するためのモニタなどの出力デバイス110とのインタフェースである。107は101〜106の各ユニットを通信可能に接続するシステムバスである。
【0016】
次に、本実施形態の画像分類装置の基本構成について、図2のブロック図を参照して説明する。
【0017】
201は、写真画像のグループ化結果を管理するグループ化情報管理部である。ここでは、グループ化の方法ごとに、グループ化結果を管理する。例えば、図4のようなグループ化結果情報を管理する。すなわち、グループ化方法の識別子401、当該グループ化方法に含まれるグループの識別子402、および、各グループに所属する画像の識別子403を管理する。
【0018】
それぞれの画像は例えば、撮影日時や撮影場所等の属性毎に属性値を有し、属性値に基づいて定義されるグループ条件毎にグループ化される。なお、以後、属性値をメタデータとも呼ぶ。
【0019】
また、グループ化の方法は、写真画像の撮影日時および撮影場所によるグループ条件に基づいてグループ化する方法がある。例えば,撮影日時の間隔および撮影場所の距離を評価して,近傍同士をまとめるようにクラスタリングする。また、撮影日時のみ利用したグループ条件に基づくグループ化や、撮影場所のみ利用あるいは、画像特徴の類似度によるグループ条件に基づくグループ化等様々存在する。ここでは、それらのグループ化方法ごとに区別して管理できるものとする。なお、本実施形態では、撮影日時および撮影場所を用いてグループ化した結果情報を管理対象とする。
【0020】
202は、写真画像を、該写真画像本体と付与された撮影情報のメタデータと共に管理する写真画像管理部である。撮影情報のメタデータは、デジタルスチルカメラなどの撮影機器が、撮影時の機器の状態や、重力センサやGPSといった各種センサから得た撮影時の状況についての情報を示す。
【0021】
なお、これらのメタデータは、写真画像に埋め込まれていても、写真画像と紐づけて別データとして管理しても構わない。また、ここでの写真画像の管理は、一意に紐づけられた画像識別子によって管理するものとし、該画像識別子は、グループ化結果情報管理部201で画像を特定するために使用している識別子と同じものである。
【0022】
203は、各グループに所属する各画像に付与された撮影情報のメタデータから、該グループを特徴付ける情報を抽出するグループ特徴情報抽出部である。グループを特徴づける情報は、グループ化方法によって異なる。
【0023】
本実施形態におけるグループ化では、属性として撮影日時および撮影場所を利用しているので、各グループに所属する写真画像に付与されたそれらのメタデータを利用する。このメタデータを集計し、これらの属性の値、すなわち属性値に基づいてグループ特徴情報とする。グループ特徴情報は、一意の値であっても、幅をもたせてもよい。
【0024】
図6は、グループ特徴情報の抽出例を示した図である。例えば、図6を用いて説明すると、601はグループであり、602はグループに所属する先頭の画像であり、603はグループに所属する最後の画像である。604は時間軸を表現しており、画像は時系列順に並んでいる様子を示す。605、606は、それぞれ601および602の撮影日時、撮影場所のメタデータである。
【0025】
607が、グループ601の特徴情報である。このとき、グループ601に所属する写真画像のうち、最初に撮影された画像602の撮影日時が2010年8月3日10時15分であり、最後に撮影された画像の撮影日時が2010年8月3日11時30分であったとする。その場合は、グループ特徴情報は、属性「撮影日時」とその値の範囲「2010年8月3日10時15分〜2010年8月3日11時30分」というように範囲毎に区切った情報になる(607)。
【0026】
時間のように連続値の場合は上記のような所定の範囲情報の表現で良いが、撮影場所のような場合については上記のような表現はできないため、範囲の表現を変える必要がある。例えば、グループに所属する写真画像の撮影場所の座標情報を集計し、分布範囲を包含するような近似円を設定し、該円の中心座標と半径とを値の範囲としてグループ特徴情報とする等すれば良い。すなわち、607の「撮影場所」に記載したような情報となる。
【0027】
他にも、例えば、離散的な値などであれば、それらの値の集合で表現しても構わない。被写体となっている人物の範囲などがそれに該当する。家族構成が父、母、姉、妹のようなケースで、人物情報を利用して家族単位でグループ化したようなケースにおいては、属性「被写体人物」について、値の範囲は「父」「母」「姉」「妹」となる。
【0028】
なお、いずれの情報を利用すべきかどうかは、次のようにして決めれば良い。すなわち、グループ化情報管理部201で、グループ化処理を実行する時点で、当該グループ化処理において着目した情報について、図5のように登録しておき、それを取得するようにすれば良い。ただし、これに限るものではない。
【0029】
例えば、特徴が近いもの同士がグループ化されるので、グループに所属する写真画像のいくつかのメタデータについては、値の分布範囲が絞られる可能性が高い。よって、あらかじめ設定しておいた閾値の範囲に値が含まれるものや、値が共通であるものを探索し、これらを着目情報として推定しても良い。
【0030】
あるいは、グループ化処理時に着目した情報として管理されている情報と、値の分布が閾値の範囲内である情報の両方を特徴情報としても構わない。なお、本実施形態では、グループ化情報管理部201からグループ化に利用した情報を取得するものとする。
【0031】
204は、写真画像を認識・解析処理することによって、当該写真の内容に関する情報を抽出する内容情報抽出部である。例えば、写真画像から画像特徴量を抽出して、人物、人体、オブジェクト、文字等といった部位を識別し、それらに対する認識処理の認識結果から内容情報を獲得する。
【0032】
図7は、文字の認識により内容情報を抽出できる写真画像の例を示した図である。例えば、図7は切符を撮影した写真画像であるが、印字された文字情報を認識した結果から、「A駅」「B駅」といった駅名の情報701と、「2010.8.3」といった切符の購入年月日情報702等が画像に対応する内容情報として獲得できる。なお、駅名のような単語や上記の日付フォーマットに沿った文字列として獲得するには、一般的な形態素解析などの自然言語解析処理を利用すれば良い。
【0033】
205は、グループ特徴情報抽出部203で抽出したグループ特徴情報と、内容情報抽出部204で抽出した内容情報との間の関連を評価する関連評価部である。グループ化は、主にユーザにとって理解しやすいグループになるように、ある観点で行われるが、一般的にはその観点との相関の高い情報を利用してグループ化される。
【0034】
例えば、イベントごとといった観点でのグループ化であれば、時間および場所でイベントは区別できることから、それらの情報を利用してグループ化される。本実施形態においては、ある観点でグループ化した時に、所属する写真画像の内容が適しているか否かを評価するのが目的であることから、グループ化で利用した情報で評価するようにする。
【0035】
本実施形態では、撮影日時と撮影場所によってグループ化されるとしたので、それらの情報で関連の評価を実施する。なお、本実施形態においては、各グループ特徴情報に対して、矛盾が無い内容情報があるか否かによって関連を評価する。各グループ特徴情報に対して、少なくとも一つは矛盾が無い内容情報があれば、「矛盾していない」と評価する。一つも矛盾が無い内容情報がなければ、「矛盾している」と評価する。
【0036】
図8は、内容情報およびグループ特徴情報の例を示した図である。以下、図8を利用して本実施形態における関連の評価について説明する。803が処理対象の写真画像であり、この画像が分類される所属グループが802であるとする。他にも、グループ801、804などが存在している。ここで、805、807、808は各グループの特徴情報である。
【0037】
また、806は、803から得られた内容情報であるとする。なお、803は、図7の例で示した画像であったとして説明する。ここで、803の内容情報としては、上述の例で述べたように、「A駅」「B駅」といった駅名の情報と「2010.8.3」といった日付の情報が得られている。これらを、グループ特徴情報と比較可能な情報へと変換する。
【0038】
例えば、地名と緯度経度を相互に変換可能な辞書情報等をあらかじめ関連評価部205に保持しておき、当該知識を参照することで、駅名を緯度経度に変換する。変換辞書情報は図9の901のようなものである。これによって、グループ特徴情報の撮影場所については、緯度経度の比較により距離を求めることができる。実際の距離が求まることから、撮影場所の特徴情報の範囲と比較して十分近い場合には、当該グループとして矛盾していないと判定する。
【0039】
この例では、所属グループの特徴情報の撮影場所は、「N35.40、E139.53を中心とした半径100mの範囲」である。これに対し、内容情報は、N34.68、E135.81(A駅)あるいはN34.98、E135.76(B駅)であり、どちらも直線距離にして概ね300kmをゆうに超える距離があるため、ここでは矛盾していると判定する。
【0040】
また、内容情報として日付の情報も得られている。時・分・秒の部分の情報が欠けているため、日付部分について、グループ特徴情報の撮影日時と矛盾が無いか否かを評価する。所属グループの特徴情報の撮影日時は2010/12/25であるため、これについても矛盾がある。
【0041】
以上より、写真画像803とグループ802の間には、撮影日時、撮影場所ともに矛盾があることになるため、両者の関連の評価結果は「矛盾している」となる。
【0042】
206は、グループ毎に、該グループに所属する各写真画像の関連を関連評価部205によって評価し、該評価結果によって所属グループを補正する所属グループ補正部である。ここでは、写真画像から内容情報が取得できた場合に、関連評価部205によって該写真画像と所属グループの関連を評価する。
【0043】
さらに、その際評価結果が、設定された条件に満たない場合に、グループを見直す判断をし、所属グループ以外のグループとの関連を関連評価部205によって評価する。その結果、設定された条件を満たすグループがあれば、当該グループへと所属するように、所属先を補正する。
【0044】
なお、本実施形態では、条件は、関連評価部205による関連評価結果が「矛盾していない」こととする。図8、図9の例でいえば、所属グループである802とは、撮影場所、撮影日時ともに内容情報と矛盾があるので、関連評価部205によって「矛盾している」と評価された。よって、条件を満たさないことになり、補正する処理を行う。
【0045】
他のグループである801、804との評価では、内容情報の「A駅」の緯度経度から、撮影場所だけみればどちらのグループも矛盾が無い情報を含んでいると言える。しかし、撮影日時については、グループ801のみが矛盾が無いので、撮影日時・撮影場所ともに矛盾が無いグループ801が、補正先となる。
【0046】
この時、条件を満たすグループが複数あるような場合には、補正先が一意に決まらない場合も考えられる。その際は、例えば、本実施形態のように距離が測定できるようであれば、最も近いグループへと所属するようにしても良い。あるいは、グループの所属情報を単純に入れ替えるのではなく、条件を満たした複数グループに所属するように管理しても構わない。
【0047】
なお、これらのグループ化結果の補正情報は、グループ化情報管理部201で管理するものとする。このとき、グループ化補正後の写真画像の撮影日時や撮影場所のメタデータは、補正先のグループ特徴情報からは外れることになる。よって、当該グループの特徴情報を抽出する際にはノイズになるため、補正した結果所属することになった写真画像については区別して管理しておく。そして、それらは、補正後の所属グループの特徴情報を抽出する際には利用しないようにする。
【0048】
次に、本実施形態の画像分類装置における処理の手順について、図3のフローチャートを参照して説明する。なお、以下の各ステップは、前述した所属グループ補正部206が、201〜205の各部を呼び出すことにより処理される。
【0049】
なお、本実施形態では、写真画像管理部202の全ての写真画像についてグループ化が済んだ状態を前提とし、該すべての写真画像について所属グループの補正処理を実施する場合について述べる。この場合、当該グループ化処理が実施された直後に、以下のフローを実施しても良いし、リソースの空き状況によって別のタイミングで実施しても構わない。
【0050】
まず、S301では、グループ化情報管理部201から、グループ化方法毎に、グループ化結果情報の一覧を取得する。本実施形態では、グループ化方法として、撮影日時と撮影場所によって行った結果のみ管理するとしたので、該一つのグループ化方法における結果一覧が取得できる。
【0051】
S302では、S301で取得したグループ化結果一覧のうち、本フローで未処理のグループがあるか否かを判定し、ある場合はS303へ移行する。全てのグループが処理済みの場合は本フローを終了する。
【0052】
S303では、未処理のグループを一つ選択する。なお、本実施形態では、選択の順番は問わない。例えば、撮影日時がグループ化処理で利用されているのであれば、時間順などで処理を行えば良い。
【0053】
S304では、S303で選択したグループに所属する写真画像を写真画像管理部202から取得する。本実施形態では、所属する写真画像の本体および各写真画像のメタデータを全て取得する。ただし、所属グループ補正部206の説明で上述した通り、すでに補正した結果として所属するようになった画像については、処理の対象とはしない。
【0054】
S305では、グループ特徴情報抽出部203が、S303で取得した写真画像のメタデータを解析し、S303で選択したグループの特徴情報を抽出する。本実施形態では、グループ特徴情報抽出部203の説明で上述したとおり、得られた撮影日時と撮影場所のメタデータの値の範囲をそれぞれ特徴情報として抽出する。
【0055】
S306では、S304で取得した写真画像のなかで、本フローで未処理の写真画像があるか否かを判定し、ある場合はS307へ移行する。S303で取得した写真画像全てを処理済みの場合は、S302へ戻る。
【0056】
S307では、未処理の写真画像を一つ選択する。本実施形態では選択の順番は問わない。例えば、時間順や名前順などで処理を行えば良い。S308では、内容情報抽出部204が、選択した写真画像から、内容情報の抽出処理を実施する。
【0057】
S309では、S308での処理の結果、S307で選択した写真画像から内容情報が抽出できたか否かを判定する。抽出できた場合は、S310へ移行する。抽出できなかった場合は、S306へ戻る。
【0058】
S310では、関連評価部205が、S305で抽出したグループ特徴情報とS308で抽出した内容情報とから、グループと写真画像との関連を評価する。
【0059】
S311では、S310での評価結果が、あらかじめ設定された条件を満たすか否かを判定する。条件を満たさない場合には、S312へ移行する。条件を満たした場合は、当該写真画像については補正を実施する必要はないと判断し、S306へ戻る。
【0060】
S312では、所属グループ以外のグループとの関連を評価する。ここでは、所属グループ以外のグループ結果情報を、グループ化情報管理部201から取得し、すべてのグループについて、各グループの特徴情報を本フローのS303からS305を繰り返すことによって獲得する。その後、全てのグループの特徴情報と当該写真画像の内容情報との関連を、関連評価部205によって評価し、各評価結果を得る。
【0061】
S313では、S312で獲得した評価結果のうち、条件を満たすものがあるか否かを判定する。ある場合は、S314へ移行する。ない場合は、本実施形態では、補正先となるグループが見つからなかったと判断し、S306へ戻る。
【0062】
S314では、当該写真画像の所属先のグループを、S313で条件を満たしたグループへと補正する。グループの補正結果については、グループ化情報管理部201に反映させる。その後、S306へ戻り、すべてのグループの写真画像について本フローを繰り返す。
【0063】
なお、本フローにおいては、一つのグループ化方法でのみグループ化されていることを前提としたが、複数のグループ化方法でグループ化した情報が管理されている場合は、グループ化方法毎に本フローを実施すればよい。
【0064】
また、本実施形態では、すべての画像について補正処理を実施する場合について述べたが、これについても限定するものではない。例えば、グループ単位で表示を実施するようなアプリケーションで利用される場合が考えられる。この場合、ある一つのグループについてのみ補正をするので、S301で獲得するグループ化結果一覧が、指示された一つのグループ化結果のみであるとみなせば良い。
【0065】
他にも、ある指定された写真画像について補正処理を実施する場合も考えられる。この場合は、当該写真画像が所属するグループを、グループ化情報管理部201を参照して特定し、当該グループの該写真画像に限定して、本フローを実施するようにすれば良い。これについては、新しく写真画像を登録した際に、それらの写真画像を、登録済みの写真画像と同様にグループ化した後、該追加分の写真画像に限定して補正を実施する場合などに行われる。
【0066】
以上述べた通り、本実施形態によれば、写真画像を適切なグループに分類することが可能となる。
【0067】
また、グループに所属する写真画像の内容が、当該グループの特徴と相違・矛盾が多い場合は、より相違・矛盾が少ないグループに所属するように補正される。これにより、ユーザが意図していないグループに含まれたり、逆に意図しているところに含まれなかったりといったことを抑制できる効果が得られる。
【0068】
(実施形態2)
実施形態1では、内容情報として、文字の認識により駅名や日付が得られた場合の例を述べた。しかし、内容情報として抽出できる情報は、これに限るものではない。例えば、観光地のPR用キャラクターの認識により、キャラクター名が得られる場合などが考えられる。この場合の動作について、図10、図11を用いて説明する。なお、基本的な構成は実施形態1と同じである。
【0069】
図10の1001は、当該キャラクターを撮影した写真画像であり、キャラクターの認識により内容情報として1002のようにキャラクター名aちゃんが得られている。この写真画像1001は、初期の所属グループは、実施形態1で説明した図8のグループ802であるものとする。
【0070】
なお、他の801、804、805、807、808についても、図8に記載の内容と同じであるとする。この状態では、本実施形態におけるようなグループ特徴情報、すなわち「撮影日時」「撮影場所」とは単純には比較ができない。このような場合は、既知のキャラクターに関する知識を参照し、当該知識上から知識を辿ることで、場所や時間に関する情報を獲得する。
【0071】
知識を辿る例については図11に示す。図11において、1101は、キャラクターに関する知識が記載された知識情報である。1102は、少なくとも市の情報についての情報を含む、地理情報に関する知識情報である。
【0072】
1103は、イベント情報に関する知識情報である。このとき、キャラクターに関する知識1101には、キャラクターごとに、活動地域や活動イベントといった情報が記述されている。ここでは、「αちゃん」の活動地域は「α市」であり、活動イベントは「α市市制施行50周年イベント」であったとする。前者は地理情報に関するものであるため、地理情報に関する知識1102のα市に関する記述部分へ「同値」である関係が結ばれている(1104)。
【0073】
同様に、活動イベントについても、イベント情報に関する知識1103の当該記述部分へ「同値」である関係が結ばれている(1104)。さらに、地理情報に関する知識1102からは、「α市」の緯度経度情報(N34.70、 E135.80)が獲得でき、イベント情報に関する知識1103からは、「α市市制施行50周年イベント」の開催時期(2008年)の情報が獲得できる。
【0074】
このように、内容情報として獲得したキャラクター名をきっかけにして、既知の知識を辿ることで、グループ特徴情報と比較可能な場所・時間に関する情報が入手できた。これらの情報から、グループ802とは場所・時間ともに矛盾しているが,グループ801、804については、撮影場所としては矛盾が無いことがわかる。
【0075】
しかし、グループ804については、撮影日時の範囲は2005年であり、キャラクターの活動時期として得られた時間情報と矛盾する。一方で、グループ801は2008年より後であり、矛盾はしていない。このことから、写真画像1001の所属グループは、グループ801となるように補正する。
【0076】
なお、このような既知の知識である既知情報を利用した場合の構成は、図12のようなブロック図になる。図2に示した基本構成に、既知情報のデータベースであるオントロジデータベース1201を追加する。オントロジデータベース1201には、概念の持つ属性やその値、および概念間の抽象化・具体化・同値といった関係を定義した知識情報が格納してある。そして、それらの概念に含まれる事物の情報,すなわち本実施例ではキャラクター「aちゃん」の情報が,概念の定義に沿って格納されているものとする。
【0077】
関連評価部205は、このオントロジデータベース1201を利用して知識情報を使った評価を行う。知識情報は、World Wide Web Consortium (W3C)で標準化されている知識を記述する形式であるResource Description Framework Schema(RDFS)/OWL等の形式で記述されていれば良い。図11は知識記述を概念的に示したものであるが、同図に記載したような表現が可能な形式であれば良い。
【0078】
なお、オントロジデータベース1201は、上述したような標準化された技術を利用する汎用的な実装によるもので構わない。なお、実施形態1では、関連評価部205が、図9に示したような変換辞書情報を保持している例を述べたが、これついてもオントロジデータベース1201に存在するようにしても良いことは言うまでもない。
【0079】
上記例以外にも、旅行やイベントで購入したお土産等を撮影した写真画像でも適用できる場合がある。例えば、お土産の包み紙に印刷されているロゴによって、場所や、日時、商品名等がわかる場合がある。
【0080】
以上述べた通り、本実施形態により、内容情報として得られた情報をきっかけに、既知の知識を参照することで、グループ特徴情報と比較可能な情報が抽出できた場合は、様々な内容情報からの補正処理が実現できるようになる。
【0081】
(実施形態3)
上記実施形態では、関連評価部205において、グループ特徴情報全てに対して、矛盾しない内容情報が一つでも存在する場合のみ「矛盾していない」と評価した。また、所属グループ補正部206では、評価結果が「矛盾していない」場合に、写真画像がグループに所属するように判定した。
【0082】
しかし、これに限るものではない。例えば、関連評価部205については、特徴情報の数に対して、矛盾しなかった数で評価するようにしても良い。実施形態1の例で言えば、「撮影日時」「撮影場所」二つの特徴情報のうち、一つと矛盾しないのであれば、矛盾しなかった数が1なので「1/2」などを評価結果とすれば良い。この場合は、所属グループ補正部206では、グループに所属するための条件を、「評価結果が1/2以下であること」等とすれば良い。上の例では評価結果が「1/2」であるので、条件を満たすため、写真画像は当該グループへ所属するものとみなす。
【0083】
このように、関連評価部205、所属グループ補正部206については、特徴情報と内容情報との矛盾の有無による評価と該評価結果による補正のための条件が設定されていれば、いずれの形式であっても構わない。尚、基本的な構成は実施形態1と同様である。
本実施形態により、評価結果を数値的に表現する場合など、特徴情報の内容や数に応じた様々な形式の評価を許容できるようになる。
【0084】
(実施形態4)
上記実施形態では、所属グループとの関連の評価結果が条件を満たさない場合に、他のグループとの関連を評価する処理へと移行するようにしたが、これに限る必要はない。リソースや処理時間に余裕がある場合については、すべての写真画像について、すべてのグループとの関連を評価し、最も高いものに補正するように処理を実施しても構わない。尚、基本的な構成は実施形態1と同様である。
【0085】
本実施形態により、所属グループよりもより良い補正先のグループがある場合に、見逃さないで済むようにできる。
【0086】
(実施形態5)
上記実施形態において、グループ内に所属する写真画像が少ない場合などは、グループ特徴情報が抽出できない、あるいは精度が低くなる。このような場合は、当該グループに所属する写真画像については、グループ特徴情報との関連の評価を実施せずに、他のグループとの関連を評価して構わない。
【0087】
すなわち、図3のフローのS310、S311に示したような、写真画像の内容情報と、該写真画像が所属するグループの特徴情報との関連の評価を実施しないでも構わない。
【0088】
また、補正先を探す際に実施する、所属グループ以外との関連評価についても、グループに所属する写真画像が少ない場合には処理を飛ばしても構わない。すなわち、図3のフローのS312に示した処理のうち、所属する写真画像が少ないグループとの関連評価は実施しないでも構わない。尚、基本的な構成は実施形態1と同様である。
本実施形態により、無駄な処理を省き、かつ、精度の悪いグループの補正を抑制できるようになる。
【0089】
(実施形態6)
上記実施形態では、画像特徴量を利用した認識処理によって内容情報を抽出する例を示したが、これに限るものではない。例えば、撮影時に、RFIDや2次元バーコードから内容情報を獲得しても構わない。
【0090】
あるいは、人手によって写真画像に対してタグやキーワードが設定されている場合には、これらは内容を表す情報である可能性が高いので、これらの情報を内容情報として扱うようにしても構わない。尚、基本的な構成は実施形態1と同様である。
【0091】
本実施形態により、様々な内容情報の獲得の仕方を許容することで、補正を実施できるようになる。
【0092】
(実施形態7)
上記実施形態では、内容情報として、「撮影日時」や「撮影場所」の情報についてそれぞれ一つ程度獲得できる例で説明したが、実際には複数の情報が取得できる可能性がある。それらが矛盾しないのであれば、いずれを利用しても良い。矛盾するのであれば、認識処理の実施時の確信度情報等を利用して、より認識精度の高い方を内容情報として利用するなどすれば良い。あるいは、どちらも内容情報として正しいこともあり得るので、いずれか一方で矛盾しないか否かを判定するのでも構わない。
【0093】
図7に示した切符の例であれば、二つの駅名が出現する。このような場合は、いずれか一方と矛盾がないグループが候補であって良い。すなわち、本実施形態ではA駅で矛盾が無いことから図8のグループ801に所属先を補正する例を述べたが、他のグループでB駅と矛盾しないような場合は、そちらのグループをも補正先とみなして構わない。なお、このように複数の補正先がありえる場合については、実施形態1に述べた通りである。尚、基本的な構成は実施形態1と同様である。
【0094】
本実施形態により、「撮影場所」などの情報が複数取得できた場合に、所属グループが補正できる。また、それらの複数得られた情報が矛盾していた場合であっても、所属グループの補正が可能になる。
【0095】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【符号の説明】
【0096】
201 グループ化情報管理部
202 写真画像管理部
203 グループ特徴情報抽出部
204 内容情報抽出部
205 関連評価部
206 所属グループ補正部
【技術分野】
【0001】
本発明は、画像を分類するための分類装置、分類装置の制御方法及びプログラムに関する。
【背景技術】
【0002】
近年、電子化された写真データの増加に伴い、検索・整理や鑑賞といった再利用時の手間が増大する中で、写真画像を自動でグループ化する技術に対する期待が高まっている。現在、撮影装置のGPSセンサや時計を利用して、撮影位置や撮影日時等の撮影時の情報を写真画像に付与しておき、これらの情報から写真画像をグループ化する技術が提案されている。
これにより、旅行や結婚式等といったイベントや、それらのイベント中に起きたさらに細かいイベント毎に写真画像をまとめることができる。このような技術においては、時間順に並べた画像に対して、位置情報を含む写真画像の特徴量や撮影時間間隔の変化の大きいところをイベントの切れ目としてセグメンテーションし、グループ化する、といった処理を行うことが知られている。(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−317077号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
このような時間や場所をベースにしたグループ化処理は、実際に起きたイベントの流れに沿って行われるため、各写真画像はその流れの中で撮影されている必要がある。一方で、旅行や結婚式と言ったイベントで得た切符やパンフレットやお土産等のような撮影対象によっては、イベントの流れの中では撮影されないケースも多い。イベントが終了し、しばらく経ってから自宅で撮影されるといったことも少なくない。
【0005】
このような場合、写真画像に付与される撮影日時や撮影場所は、本来撮影対象が含まれていたイベントにおける時間や場所とはズレが生じてしまう。その結果、グループ化処理によって正しいグループに配置されない問題が生じてしまう。
【0006】
このようなグループ化の誤りがあると、例えば、フォトフレームでの自動スライドショー再生やフォトアルバム作成時の自動配置などで、ユーザが意図していないところで画像が出現することがある。また逆に意図しているところで出現しないといったことが起こりえる。
【0007】
そこで本発明は、画像を適切なグループに分類することを目的とする。
【課題を解決するための手段】
【0008】
上記の目的を達成するための本発明の一態様による画像分類装置は以下の構成を備える。すなわち、属性毎に属性値を有する複数の画像を、該属性値に基づいて定義された複数のグループ条件により複数のグループにグループ化する分類手段と、前記画像の内容に関する内容情報を抽出する抽出手段と、前記抽出された画像の内容情報と、該画像が前記分類手段によって分類されたグループ以外のグループのグループ条件との関連を評価する評価手段と、前記評価手段による評価の結果、前記抽出手段によって抽出された内容情報と関連があると評価されたグループ条件のグループに、該内容情報が抽出された画像のグループを補正する補正手段とを備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、画像を適切なグループに分類することが可能となる。
【図面の簡単な説明】
【0010】
【図1】実施形態における画像分類装置のハードウェア構成を示すブロック図である。
【図2】実施形態における画像分類装置の基本構成を示すブロック図である。
【図3】実施形態における、画像分類装置の処理の手順を示すフローチャートである。
【図4】実施形態における、画像分類装置のグループ化結果情報示す図である。
【図5】実施形態における、画像分類装置のグループ化方法ごとに着目した情報を管理する場合の保持の仕方の例を示した図である。
【図6】実施形態における、画像分類装置のグループ特徴情報の抽出例を示した図である。
【図7】実施形態における、画像分類装置の文字の認識により内容情報を抽出できる写真画像の例を示した図である。
【図8】実施形態における、画像分類装置の内容情報およびグループ特徴情報の例を示した図である。
【図9】実施形態における、画像分類装置の駅名およびその所在地の緯度経度を含む、地理情報に関する知識の例を示した図である。
【図10】実施形態2における、内容情報およびグループ特徴情報の例を示した図である。
【図11】実施形態2における、キャラクターに関する知識、地理情報に関する知識、イベント情報に関する知識の例を示した図である。
【図12】実施形態2における、知識を利用して関連評価をする場合の基本構成を示すブロック図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下で説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施形態の1つである。
【0012】
(実施形態1)
本実施形態の画像分類装置に適用するコンピュータ装置のハードウェア構成について、図1のブロック図を参照して説明する。本実施形態においては、構成は単一のコンピュータ装置で実現してもよいし、必要に応じた複数のコンピュータ装置に各機能を分散して実現するようにしてもよい。複数のコンピュータ装置で構成される場合は、例えば、図1に示す構成にネットワークインタフェースを追加し、互いに通信可能なようにLocal Area Network(LAN)などで接続するものとする。
【0013】
図1において、101はコンピュータ装置100全体を制御するCentral Processing Unit(CPU)である。後述するフローチャートの処理もCPU101が行う。102は変更を必要としないプログラムやパラメータを格納するRead Only Memory(ROM)である。本実施形態の処理プログラムもROM102に格納される。103は外部装置などから供給されるプログラムやデータを一時記憶するRandom Access Memory(RAM)である。
【0014】
104はコンピュータ装置100に固定して設置されたハードディスクやメモリカード、あるいはコンピュータ装置100から着脱可能なフレキシブルディスク(FD)やCompact Disk(CD)等の光ディスク、磁気や光カード、ICカード、メモリカードなどを含む外部記憶装置である。本実施形態においては、外部記憶装置104に、写真画像や該写真画像のメタデータ、グループ化結果情報、RAM103での保持に向かないような大きなサイズの処理中の情報、知識情報などが保存されるものとする。
【0015】
105は、ユーザの操作を受けるポインティングデバイスやキーボードなどの入力デバイス109とのインタフェースである。106はプログラムの実行結果を出力するためのモニタなどの出力デバイス110とのインタフェースである。107は101〜106の各ユニットを通信可能に接続するシステムバスである。
【0016】
次に、本実施形態の画像分類装置の基本構成について、図2のブロック図を参照して説明する。
【0017】
201は、写真画像のグループ化結果を管理するグループ化情報管理部である。ここでは、グループ化の方法ごとに、グループ化結果を管理する。例えば、図4のようなグループ化結果情報を管理する。すなわち、グループ化方法の識別子401、当該グループ化方法に含まれるグループの識別子402、および、各グループに所属する画像の識別子403を管理する。
【0018】
それぞれの画像は例えば、撮影日時や撮影場所等の属性毎に属性値を有し、属性値に基づいて定義されるグループ条件毎にグループ化される。なお、以後、属性値をメタデータとも呼ぶ。
【0019】
また、グループ化の方法は、写真画像の撮影日時および撮影場所によるグループ条件に基づいてグループ化する方法がある。例えば,撮影日時の間隔および撮影場所の距離を評価して,近傍同士をまとめるようにクラスタリングする。また、撮影日時のみ利用したグループ条件に基づくグループ化や、撮影場所のみ利用あるいは、画像特徴の類似度によるグループ条件に基づくグループ化等様々存在する。ここでは、それらのグループ化方法ごとに区別して管理できるものとする。なお、本実施形態では、撮影日時および撮影場所を用いてグループ化した結果情報を管理対象とする。
【0020】
202は、写真画像を、該写真画像本体と付与された撮影情報のメタデータと共に管理する写真画像管理部である。撮影情報のメタデータは、デジタルスチルカメラなどの撮影機器が、撮影時の機器の状態や、重力センサやGPSといった各種センサから得た撮影時の状況についての情報を示す。
【0021】
なお、これらのメタデータは、写真画像に埋め込まれていても、写真画像と紐づけて別データとして管理しても構わない。また、ここでの写真画像の管理は、一意に紐づけられた画像識別子によって管理するものとし、該画像識別子は、グループ化結果情報管理部201で画像を特定するために使用している識別子と同じものである。
【0022】
203は、各グループに所属する各画像に付与された撮影情報のメタデータから、該グループを特徴付ける情報を抽出するグループ特徴情報抽出部である。グループを特徴づける情報は、グループ化方法によって異なる。
【0023】
本実施形態におけるグループ化では、属性として撮影日時および撮影場所を利用しているので、各グループに所属する写真画像に付与されたそれらのメタデータを利用する。このメタデータを集計し、これらの属性の値、すなわち属性値に基づいてグループ特徴情報とする。グループ特徴情報は、一意の値であっても、幅をもたせてもよい。
【0024】
図6は、グループ特徴情報の抽出例を示した図である。例えば、図6を用いて説明すると、601はグループであり、602はグループに所属する先頭の画像であり、603はグループに所属する最後の画像である。604は時間軸を表現しており、画像は時系列順に並んでいる様子を示す。605、606は、それぞれ601および602の撮影日時、撮影場所のメタデータである。
【0025】
607が、グループ601の特徴情報である。このとき、グループ601に所属する写真画像のうち、最初に撮影された画像602の撮影日時が2010年8月3日10時15分であり、最後に撮影された画像の撮影日時が2010年8月3日11時30分であったとする。その場合は、グループ特徴情報は、属性「撮影日時」とその値の範囲「2010年8月3日10時15分〜2010年8月3日11時30分」というように範囲毎に区切った情報になる(607)。
【0026】
時間のように連続値の場合は上記のような所定の範囲情報の表現で良いが、撮影場所のような場合については上記のような表現はできないため、範囲の表現を変える必要がある。例えば、グループに所属する写真画像の撮影場所の座標情報を集計し、分布範囲を包含するような近似円を設定し、該円の中心座標と半径とを値の範囲としてグループ特徴情報とする等すれば良い。すなわち、607の「撮影場所」に記載したような情報となる。
【0027】
他にも、例えば、離散的な値などであれば、それらの値の集合で表現しても構わない。被写体となっている人物の範囲などがそれに該当する。家族構成が父、母、姉、妹のようなケースで、人物情報を利用して家族単位でグループ化したようなケースにおいては、属性「被写体人物」について、値の範囲は「父」「母」「姉」「妹」となる。
【0028】
なお、いずれの情報を利用すべきかどうかは、次のようにして決めれば良い。すなわち、グループ化情報管理部201で、グループ化処理を実行する時点で、当該グループ化処理において着目した情報について、図5のように登録しておき、それを取得するようにすれば良い。ただし、これに限るものではない。
【0029】
例えば、特徴が近いもの同士がグループ化されるので、グループに所属する写真画像のいくつかのメタデータについては、値の分布範囲が絞られる可能性が高い。よって、あらかじめ設定しておいた閾値の範囲に値が含まれるものや、値が共通であるものを探索し、これらを着目情報として推定しても良い。
【0030】
あるいは、グループ化処理時に着目した情報として管理されている情報と、値の分布が閾値の範囲内である情報の両方を特徴情報としても構わない。なお、本実施形態では、グループ化情報管理部201からグループ化に利用した情報を取得するものとする。
【0031】
204は、写真画像を認識・解析処理することによって、当該写真の内容に関する情報を抽出する内容情報抽出部である。例えば、写真画像から画像特徴量を抽出して、人物、人体、オブジェクト、文字等といった部位を識別し、それらに対する認識処理の認識結果から内容情報を獲得する。
【0032】
図7は、文字の認識により内容情報を抽出できる写真画像の例を示した図である。例えば、図7は切符を撮影した写真画像であるが、印字された文字情報を認識した結果から、「A駅」「B駅」といった駅名の情報701と、「2010.8.3」といった切符の購入年月日情報702等が画像に対応する内容情報として獲得できる。なお、駅名のような単語や上記の日付フォーマットに沿った文字列として獲得するには、一般的な形態素解析などの自然言語解析処理を利用すれば良い。
【0033】
205は、グループ特徴情報抽出部203で抽出したグループ特徴情報と、内容情報抽出部204で抽出した内容情報との間の関連を評価する関連評価部である。グループ化は、主にユーザにとって理解しやすいグループになるように、ある観点で行われるが、一般的にはその観点との相関の高い情報を利用してグループ化される。
【0034】
例えば、イベントごとといった観点でのグループ化であれば、時間および場所でイベントは区別できることから、それらの情報を利用してグループ化される。本実施形態においては、ある観点でグループ化した時に、所属する写真画像の内容が適しているか否かを評価するのが目的であることから、グループ化で利用した情報で評価するようにする。
【0035】
本実施形態では、撮影日時と撮影場所によってグループ化されるとしたので、それらの情報で関連の評価を実施する。なお、本実施形態においては、各グループ特徴情報に対して、矛盾が無い内容情報があるか否かによって関連を評価する。各グループ特徴情報に対して、少なくとも一つは矛盾が無い内容情報があれば、「矛盾していない」と評価する。一つも矛盾が無い内容情報がなければ、「矛盾している」と評価する。
【0036】
図8は、内容情報およびグループ特徴情報の例を示した図である。以下、図8を利用して本実施形態における関連の評価について説明する。803が処理対象の写真画像であり、この画像が分類される所属グループが802であるとする。他にも、グループ801、804などが存在している。ここで、805、807、808は各グループの特徴情報である。
【0037】
また、806は、803から得られた内容情報であるとする。なお、803は、図7の例で示した画像であったとして説明する。ここで、803の内容情報としては、上述の例で述べたように、「A駅」「B駅」といった駅名の情報と「2010.8.3」といった日付の情報が得られている。これらを、グループ特徴情報と比較可能な情報へと変換する。
【0038】
例えば、地名と緯度経度を相互に変換可能な辞書情報等をあらかじめ関連評価部205に保持しておき、当該知識を参照することで、駅名を緯度経度に変換する。変換辞書情報は図9の901のようなものである。これによって、グループ特徴情報の撮影場所については、緯度経度の比較により距離を求めることができる。実際の距離が求まることから、撮影場所の特徴情報の範囲と比較して十分近い場合には、当該グループとして矛盾していないと判定する。
【0039】
この例では、所属グループの特徴情報の撮影場所は、「N35.40、E139.53を中心とした半径100mの範囲」である。これに対し、内容情報は、N34.68、E135.81(A駅)あるいはN34.98、E135.76(B駅)であり、どちらも直線距離にして概ね300kmをゆうに超える距離があるため、ここでは矛盾していると判定する。
【0040】
また、内容情報として日付の情報も得られている。時・分・秒の部分の情報が欠けているため、日付部分について、グループ特徴情報の撮影日時と矛盾が無いか否かを評価する。所属グループの特徴情報の撮影日時は2010/12/25であるため、これについても矛盾がある。
【0041】
以上より、写真画像803とグループ802の間には、撮影日時、撮影場所ともに矛盾があることになるため、両者の関連の評価結果は「矛盾している」となる。
【0042】
206は、グループ毎に、該グループに所属する各写真画像の関連を関連評価部205によって評価し、該評価結果によって所属グループを補正する所属グループ補正部である。ここでは、写真画像から内容情報が取得できた場合に、関連評価部205によって該写真画像と所属グループの関連を評価する。
【0043】
さらに、その際評価結果が、設定された条件に満たない場合に、グループを見直す判断をし、所属グループ以外のグループとの関連を関連評価部205によって評価する。その結果、設定された条件を満たすグループがあれば、当該グループへと所属するように、所属先を補正する。
【0044】
なお、本実施形態では、条件は、関連評価部205による関連評価結果が「矛盾していない」こととする。図8、図9の例でいえば、所属グループである802とは、撮影場所、撮影日時ともに内容情報と矛盾があるので、関連評価部205によって「矛盾している」と評価された。よって、条件を満たさないことになり、補正する処理を行う。
【0045】
他のグループである801、804との評価では、内容情報の「A駅」の緯度経度から、撮影場所だけみればどちらのグループも矛盾が無い情報を含んでいると言える。しかし、撮影日時については、グループ801のみが矛盾が無いので、撮影日時・撮影場所ともに矛盾が無いグループ801が、補正先となる。
【0046】
この時、条件を満たすグループが複数あるような場合には、補正先が一意に決まらない場合も考えられる。その際は、例えば、本実施形態のように距離が測定できるようであれば、最も近いグループへと所属するようにしても良い。あるいは、グループの所属情報を単純に入れ替えるのではなく、条件を満たした複数グループに所属するように管理しても構わない。
【0047】
なお、これらのグループ化結果の補正情報は、グループ化情報管理部201で管理するものとする。このとき、グループ化補正後の写真画像の撮影日時や撮影場所のメタデータは、補正先のグループ特徴情報からは外れることになる。よって、当該グループの特徴情報を抽出する際にはノイズになるため、補正した結果所属することになった写真画像については区別して管理しておく。そして、それらは、補正後の所属グループの特徴情報を抽出する際には利用しないようにする。
【0048】
次に、本実施形態の画像分類装置における処理の手順について、図3のフローチャートを参照して説明する。なお、以下の各ステップは、前述した所属グループ補正部206が、201〜205の各部を呼び出すことにより処理される。
【0049】
なお、本実施形態では、写真画像管理部202の全ての写真画像についてグループ化が済んだ状態を前提とし、該すべての写真画像について所属グループの補正処理を実施する場合について述べる。この場合、当該グループ化処理が実施された直後に、以下のフローを実施しても良いし、リソースの空き状況によって別のタイミングで実施しても構わない。
【0050】
まず、S301では、グループ化情報管理部201から、グループ化方法毎に、グループ化結果情報の一覧を取得する。本実施形態では、グループ化方法として、撮影日時と撮影場所によって行った結果のみ管理するとしたので、該一つのグループ化方法における結果一覧が取得できる。
【0051】
S302では、S301で取得したグループ化結果一覧のうち、本フローで未処理のグループがあるか否かを判定し、ある場合はS303へ移行する。全てのグループが処理済みの場合は本フローを終了する。
【0052】
S303では、未処理のグループを一つ選択する。なお、本実施形態では、選択の順番は問わない。例えば、撮影日時がグループ化処理で利用されているのであれば、時間順などで処理を行えば良い。
【0053】
S304では、S303で選択したグループに所属する写真画像を写真画像管理部202から取得する。本実施形態では、所属する写真画像の本体および各写真画像のメタデータを全て取得する。ただし、所属グループ補正部206の説明で上述した通り、すでに補正した結果として所属するようになった画像については、処理の対象とはしない。
【0054】
S305では、グループ特徴情報抽出部203が、S303で取得した写真画像のメタデータを解析し、S303で選択したグループの特徴情報を抽出する。本実施形態では、グループ特徴情報抽出部203の説明で上述したとおり、得られた撮影日時と撮影場所のメタデータの値の範囲をそれぞれ特徴情報として抽出する。
【0055】
S306では、S304で取得した写真画像のなかで、本フローで未処理の写真画像があるか否かを判定し、ある場合はS307へ移行する。S303で取得した写真画像全てを処理済みの場合は、S302へ戻る。
【0056】
S307では、未処理の写真画像を一つ選択する。本実施形態では選択の順番は問わない。例えば、時間順や名前順などで処理を行えば良い。S308では、内容情報抽出部204が、選択した写真画像から、内容情報の抽出処理を実施する。
【0057】
S309では、S308での処理の結果、S307で選択した写真画像から内容情報が抽出できたか否かを判定する。抽出できた場合は、S310へ移行する。抽出できなかった場合は、S306へ戻る。
【0058】
S310では、関連評価部205が、S305で抽出したグループ特徴情報とS308で抽出した内容情報とから、グループと写真画像との関連を評価する。
【0059】
S311では、S310での評価結果が、あらかじめ設定された条件を満たすか否かを判定する。条件を満たさない場合には、S312へ移行する。条件を満たした場合は、当該写真画像については補正を実施する必要はないと判断し、S306へ戻る。
【0060】
S312では、所属グループ以外のグループとの関連を評価する。ここでは、所属グループ以外のグループ結果情報を、グループ化情報管理部201から取得し、すべてのグループについて、各グループの特徴情報を本フローのS303からS305を繰り返すことによって獲得する。その後、全てのグループの特徴情報と当該写真画像の内容情報との関連を、関連評価部205によって評価し、各評価結果を得る。
【0061】
S313では、S312で獲得した評価結果のうち、条件を満たすものがあるか否かを判定する。ある場合は、S314へ移行する。ない場合は、本実施形態では、補正先となるグループが見つからなかったと判断し、S306へ戻る。
【0062】
S314では、当該写真画像の所属先のグループを、S313で条件を満たしたグループへと補正する。グループの補正結果については、グループ化情報管理部201に反映させる。その後、S306へ戻り、すべてのグループの写真画像について本フローを繰り返す。
【0063】
なお、本フローにおいては、一つのグループ化方法でのみグループ化されていることを前提としたが、複数のグループ化方法でグループ化した情報が管理されている場合は、グループ化方法毎に本フローを実施すればよい。
【0064】
また、本実施形態では、すべての画像について補正処理を実施する場合について述べたが、これについても限定するものではない。例えば、グループ単位で表示を実施するようなアプリケーションで利用される場合が考えられる。この場合、ある一つのグループについてのみ補正をするので、S301で獲得するグループ化結果一覧が、指示された一つのグループ化結果のみであるとみなせば良い。
【0065】
他にも、ある指定された写真画像について補正処理を実施する場合も考えられる。この場合は、当該写真画像が所属するグループを、グループ化情報管理部201を参照して特定し、当該グループの該写真画像に限定して、本フローを実施するようにすれば良い。これについては、新しく写真画像を登録した際に、それらの写真画像を、登録済みの写真画像と同様にグループ化した後、該追加分の写真画像に限定して補正を実施する場合などに行われる。
【0066】
以上述べた通り、本実施形態によれば、写真画像を適切なグループに分類することが可能となる。
【0067】
また、グループに所属する写真画像の内容が、当該グループの特徴と相違・矛盾が多い場合は、より相違・矛盾が少ないグループに所属するように補正される。これにより、ユーザが意図していないグループに含まれたり、逆に意図しているところに含まれなかったりといったことを抑制できる効果が得られる。
【0068】
(実施形態2)
実施形態1では、内容情報として、文字の認識により駅名や日付が得られた場合の例を述べた。しかし、内容情報として抽出できる情報は、これに限るものではない。例えば、観光地のPR用キャラクターの認識により、キャラクター名が得られる場合などが考えられる。この場合の動作について、図10、図11を用いて説明する。なお、基本的な構成は実施形態1と同じである。
【0069】
図10の1001は、当該キャラクターを撮影した写真画像であり、キャラクターの認識により内容情報として1002のようにキャラクター名aちゃんが得られている。この写真画像1001は、初期の所属グループは、実施形態1で説明した図8のグループ802であるものとする。
【0070】
なお、他の801、804、805、807、808についても、図8に記載の内容と同じであるとする。この状態では、本実施形態におけるようなグループ特徴情報、すなわち「撮影日時」「撮影場所」とは単純には比較ができない。このような場合は、既知のキャラクターに関する知識を参照し、当該知識上から知識を辿ることで、場所や時間に関する情報を獲得する。
【0071】
知識を辿る例については図11に示す。図11において、1101は、キャラクターに関する知識が記載された知識情報である。1102は、少なくとも市の情報についての情報を含む、地理情報に関する知識情報である。
【0072】
1103は、イベント情報に関する知識情報である。このとき、キャラクターに関する知識1101には、キャラクターごとに、活動地域や活動イベントといった情報が記述されている。ここでは、「αちゃん」の活動地域は「α市」であり、活動イベントは「α市市制施行50周年イベント」であったとする。前者は地理情報に関するものであるため、地理情報に関する知識1102のα市に関する記述部分へ「同値」である関係が結ばれている(1104)。
【0073】
同様に、活動イベントについても、イベント情報に関する知識1103の当該記述部分へ「同値」である関係が結ばれている(1104)。さらに、地理情報に関する知識1102からは、「α市」の緯度経度情報(N34.70、 E135.80)が獲得でき、イベント情報に関する知識1103からは、「α市市制施行50周年イベント」の開催時期(2008年)の情報が獲得できる。
【0074】
このように、内容情報として獲得したキャラクター名をきっかけにして、既知の知識を辿ることで、グループ特徴情報と比較可能な場所・時間に関する情報が入手できた。これらの情報から、グループ802とは場所・時間ともに矛盾しているが,グループ801、804については、撮影場所としては矛盾が無いことがわかる。
【0075】
しかし、グループ804については、撮影日時の範囲は2005年であり、キャラクターの活動時期として得られた時間情報と矛盾する。一方で、グループ801は2008年より後であり、矛盾はしていない。このことから、写真画像1001の所属グループは、グループ801となるように補正する。
【0076】
なお、このような既知の知識である既知情報を利用した場合の構成は、図12のようなブロック図になる。図2に示した基本構成に、既知情報のデータベースであるオントロジデータベース1201を追加する。オントロジデータベース1201には、概念の持つ属性やその値、および概念間の抽象化・具体化・同値といった関係を定義した知識情報が格納してある。そして、それらの概念に含まれる事物の情報,すなわち本実施例ではキャラクター「aちゃん」の情報が,概念の定義に沿って格納されているものとする。
【0077】
関連評価部205は、このオントロジデータベース1201を利用して知識情報を使った評価を行う。知識情報は、World Wide Web Consortium (W3C)で標準化されている知識を記述する形式であるResource Description Framework Schema(RDFS)/OWL等の形式で記述されていれば良い。図11は知識記述を概念的に示したものであるが、同図に記載したような表現が可能な形式であれば良い。
【0078】
なお、オントロジデータベース1201は、上述したような標準化された技術を利用する汎用的な実装によるもので構わない。なお、実施形態1では、関連評価部205が、図9に示したような変換辞書情報を保持している例を述べたが、これついてもオントロジデータベース1201に存在するようにしても良いことは言うまでもない。
【0079】
上記例以外にも、旅行やイベントで購入したお土産等を撮影した写真画像でも適用できる場合がある。例えば、お土産の包み紙に印刷されているロゴによって、場所や、日時、商品名等がわかる場合がある。
【0080】
以上述べた通り、本実施形態により、内容情報として得られた情報をきっかけに、既知の知識を参照することで、グループ特徴情報と比較可能な情報が抽出できた場合は、様々な内容情報からの補正処理が実現できるようになる。
【0081】
(実施形態3)
上記実施形態では、関連評価部205において、グループ特徴情報全てに対して、矛盾しない内容情報が一つでも存在する場合のみ「矛盾していない」と評価した。また、所属グループ補正部206では、評価結果が「矛盾していない」場合に、写真画像がグループに所属するように判定した。
【0082】
しかし、これに限るものではない。例えば、関連評価部205については、特徴情報の数に対して、矛盾しなかった数で評価するようにしても良い。実施形態1の例で言えば、「撮影日時」「撮影場所」二つの特徴情報のうち、一つと矛盾しないのであれば、矛盾しなかった数が1なので「1/2」などを評価結果とすれば良い。この場合は、所属グループ補正部206では、グループに所属するための条件を、「評価結果が1/2以下であること」等とすれば良い。上の例では評価結果が「1/2」であるので、条件を満たすため、写真画像は当該グループへ所属するものとみなす。
【0083】
このように、関連評価部205、所属グループ補正部206については、特徴情報と内容情報との矛盾の有無による評価と該評価結果による補正のための条件が設定されていれば、いずれの形式であっても構わない。尚、基本的な構成は実施形態1と同様である。
本実施形態により、評価結果を数値的に表現する場合など、特徴情報の内容や数に応じた様々な形式の評価を許容できるようになる。
【0084】
(実施形態4)
上記実施形態では、所属グループとの関連の評価結果が条件を満たさない場合に、他のグループとの関連を評価する処理へと移行するようにしたが、これに限る必要はない。リソースや処理時間に余裕がある場合については、すべての写真画像について、すべてのグループとの関連を評価し、最も高いものに補正するように処理を実施しても構わない。尚、基本的な構成は実施形態1と同様である。
【0085】
本実施形態により、所属グループよりもより良い補正先のグループがある場合に、見逃さないで済むようにできる。
【0086】
(実施形態5)
上記実施形態において、グループ内に所属する写真画像が少ない場合などは、グループ特徴情報が抽出できない、あるいは精度が低くなる。このような場合は、当該グループに所属する写真画像については、グループ特徴情報との関連の評価を実施せずに、他のグループとの関連を評価して構わない。
【0087】
すなわち、図3のフローのS310、S311に示したような、写真画像の内容情報と、該写真画像が所属するグループの特徴情報との関連の評価を実施しないでも構わない。
【0088】
また、補正先を探す際に実施する、所属グループ以外との関連評価についても、グループに所属する写真画像が少ない場合には処理を飛ばしても構わない。すなわち、図3のフローのS312に示した処理のうち、所属する写真画像が少ないグループとの関連評価は実施しないでも構わない。尚、基本的な構成は実施形態1と同様である。
本実施形態により、無駄な処理を省き、かつ、精度の悪いグループの補正を抑制できるようになる。
【0089】
(実施形態6)
上記実施形態では、画像特徴量を利用した認識処理によって内容情報を抽出する例を示したが、これに限るものではない。例えば、撮影時に、RFIDや2次元バーコードから内容情報を獲得しても構わない。
【0090】
あるいは、人手によって写真画像に対してタグやキーワードが設定されている場合には、これらは内容を表す情報である可能性が高いので、これらの情報を内容情報として扱うようにしても構わない。尚、基本的な構成は実施形態1と同様である。
【0091】
本実施形態により、様々な内容情報の獲得の仕方を許容することで、補正を実施できるようになる。
【0092】
(実施形態7)
上記実施形態では、内容情報として、「撮影日時」や「撮影場所」の情報についてそれぞれ一つ程度獲得できる例で説明したが、実際には複数の情報が取得できる可能性がある。それらが矛盾しないのであれば、いずれを利用しても良い。矛盾するのであれば、認識処理の実施時の確信度情報等を利用して、より認識精度の高い方を内容情報として利用するなどすれば良い。あるいは、どちらも内容情報として正しいこともあり得るので、いずれか一方で矛盾しないか否かを判定するのでも構わない。
【0093】
図7に示した切符の例であれば、二つの駅名が出現する。このような場合は、いずれか一方と矛盾がないグループが候補であって良い。すなわち、本実施形態ではA駅で矛盾が無いことから図8のグループ801に所属先を補正する例を述べたが、他のグループでB駅と矛盾しないような場合は、そちらのグループをも補正先とみなして構わない。なお、このように複数の補正先がありえる場合については、実施形態1に述べた通りである。尚、基本的な構成は実施形態1と同様である。
【0094】
本実施形態により、「撮影場所」などの情報が複数取得できた場合に、所属グループが補正できる。また、それらの複数得られた情報が矛盾していた場合であっても、所属グループの補正が可能になる。
【0095】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【符号の説明】
【0096】
201 グループ化情報管理部
202 写真画像管理部
203 グループ特徴情報抽出部
204 内容情報抽出部
205 関連評価部
206 所属グループ補正部
【特許請求の範囲】
【請求項1】
属性毎に属性値を有する複数の画像を、該属性値に基づいて定義された複数のグループ条件によりに複数のグループにグループ化する分類手段と、
前記画像から該画像の内容に関する内容情報を抽出する抽出手段と、
前記抽出された画像の内容情報と、前記分類手段によって該画像が分類されたグループ以外のグループのグループ条件との関連を評価する評価手段と、
前記評価手段による評価の結果、前記抽出手段によって抽出された内容情報と関連があると評価されたグループ条件のグループに、該内容情報が抽出された画像のグループを補正する補正手段と
を備えることを特徴とする画像分類装置。
【請求項2】
前記評価手段は、前記画像から抽出された内容情報が含む情報が、前記グループ条件を満たす場合に関連があると評価し、前記変更手段は、該内容情報が抽出された画像を、該条件のグループに補正することを特徴とする請求項1に記載の画像分類装置。
【請求項3】
前記抽出手段は、更に認識手段を有し、抽出された画像を認識することによって得られた認識結果を内容情報とすることを特徴とする請求項1に記載の画像分類装置。
【請求項4】
前記属性とは、撮影場所及び撮影日時であり、前記分類手段は、前記撮影場所及び撮影日時を所定の範囲毎のグループに分類する請求項1に記載の画像分類装置。
【請求項5】
前記評価手段は、既知情報を用いて、前記内容情報と前記条件との関連を評価することを特徴とする請求項1に記載の画像分類装置。
【請求項6】
前記分類手段は、複数のグループ化方法によるグループ化を可能とし、グループ化方法毎に、各画像に対する前記評価手段及び前記補正手段による処理を行うことを特徴とする請求項1に記載の画像分類装置。
【請求項7】
前記内容情報は、少なくとも場所、日付、キャラクター、ロゴのいずれかであることを特徴とする請求項1に記載の画像分類装置。
【請求項8】
前記分類手段で分類されたグループ条件を抽出するグループ特徴情報抽出手段を更に有し、
前記評価手段は、前記抽出された内容情報と、前記グループ特徴情報抽出手段で抽出されたグループ条件との関連を評価することを特徴とする請求項1に記載の画像分類装置。
【請求項9】
属性毎に属性値を有する複数の画像を、該属性値に基づいて定義された複数のグループ条件により複数のグループに分類手段がグループ化する分類工程と、
前記画像から該画像の内容に関する内容情報を抽出手段が抽出する抽出工程と、
前記抽出された画像の内容情報と、該画像が前記分類工程で分類されたグループ以外のグループのグループ条件との関連を評価手段が評価する評価工程と、
前記評価工程による評価の結果、前記抽出工程で抽出された内容情報が関連があると評価されたグループ条件のグループに、該内容情報が抽出された画像のグループを補正手段が補正する補正工程と
を備えることを特徴とする画像分類装置の制御方法。
【請求項10】
請求項9に記載された画像分類装置の制御方法の各工程をコンピュータに実行させるためのプログラム。
【請求項1】
属性毎に属性値を有する複数の画像を、該属性値に基づいて定義された複数のグループ条件によりに複数のグループにグループ化する分類手段と、
前記画像から該画像の内容に関する内容情報を抽出する抽出手段と、
前記抽出された画像の内容情報と、前記分類手段によって該画像が分類されたグループ以外のグループのグループ条件との関連を評価する評価手段と、
前記評価手段による評価の結果、前記抽出手段によって抽出された内容情報と関連があると評価されたグループ条件のグループに、該内容情報が抽出された画像のグループを補正する補正手段と
を備えることを特徴とする画像分類装置。
【請求項2】
前記評価手段は、前記画像から抽出された内容情報が含む情報が、前記グループ条件を満たす場合に関連があると評価し、前記変更手段は、該内容情報が抽出された画像を、該条件のグループに補正することを特徴とする請求項1に記載の画像分類装置。
【請求項3】
前記抽出手段は、更に認識手段を有し、抽出された画像を認識することによって得られた認識結果を内容情報とすることを特徴とする請求項1に記載の画像分類装置。
【請求項4】
前記属性とは、撮影場所及び撮影日時であり、前記分類手段は、前記撮影場所及び撮影日時を所定の範囲毎のグループに分類する請求項1に記載の画像分類装置。
【請求項5】
前記評価手段は、既知情報を用いて、前記内容情報と前記条件との関連を評価することを特徴とする請求項1に記載の画像分類装置。
【請求項6】
前記分類手段は、複数のグループ化方法によるグループ化を可能とし、グループ化方法毎に、各画像に対する前記評価手段及び前記補正手段による処理を行うことを特徴とする請求項1に記載の画像分類装置。
【請求項7】
前記内容情報は、少なくとも場所、日付、キャラクター、ロゴのいずれかであることを特徴とする請求項1に記載の画像分類装置。
【請求項8】
前記分類手段で分類されたグループ条件を抽出するグループ特徴情報抽出手段を更に有し、
前記評価手段は、前記抽出された内容情報と、前記グループ特徴情報抽出手段で抽出されたグループ条件との関連を評価することを特徴とする請求項1に記載の画像分類装置。
【請求項9】
属性毎に属性値を有する複数の画像を、該属性値に基づいて定義された複数のグループ条件により複数のグループに分類手段がグループ化する分類工程と、
前記画像から該画像の内容に関する内容情報を抽出手段が抽出する抽出工程と、
前記抽出された画像の内容情報と、該画像が前記分類工程で分類されたグループ以外のグループのグループ条件との関連を評価手段が評価する評価工程と、
前記評価工程による評価の結果、前記抽出工程で抽出された内容情報が関連があると評価されたグループ条件のグループに、該内容情報が抽出された画像のグループを補正手段が補正する補正工程と
を備えることを特徴とする画像分類装置の制御方法。
【請求項10】
請求項9に記載された画像分類装置の制御方法の各工程をコンピュータに実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2013−15907(P2013−15907A)
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願番号】特願2011−146506(P2011−146506)
【出願日】平成23年6月30日(2011.6.30)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願日】平成23年6月30日(2011.6.30)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]