画像情報配置装置
【課題】蓄積された文書を複数人で共有し、目的とする文書を探索する際に、検索効率を高めることによって、利便性を向上させた画像情報配置装置を提供すること。
【解決手段】複数の画像情報が擬似空間内に配置され、擬似空間内での視点の移動により、複数の画像情報を提示する画像情報配置装置において、画像情報から画像の視覚的な特徴を示すベクトルを算出する手段と、画像情報から得られた特徴量ベクトルに基づいて特徴量の近い画像情報同士を近接させて配置する手段と、画像情報の背景位置に設けられ、特定の分類に分ける複数の区分を備えた背景画像を具備し、特徴量の近い一群の画像情報を、背景画像の一区分の領域上に配置する。
【解決手段】複数の画像情報が擬似空間内に配置され、擬似空間内での視点の移動により、複数の画像情報を提示する画像情報配置装置において、画像情報から画像の視覚的な特徴を示すベクトルを算出する手段と、画像情報から得られた特徴量ベクトルに基づいて特徴量の近い画像情報同士を近接させて配置する手段と、画像情報の背景位置に設けられ、特定の分類に分ける複数の区分を備えた背景画像を具備し、特徴量の近い一群の画像情報を、背景画像の一区分の領域上に配置する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データベース等に蓄積された画像データに対して、サムネイル一覧等の複数画像の一覧表示画面を生成する機能を備えた画像情報配置装置に関するものであり、特に、複写機でスキャンした画像を複数人で共有することのできる画像情報配置装置に関するものである。
【背景技術】
【0002】
近年、スキャナの低価格化やe−文書法の法制化等により、紙文書をスキャンして電子化してデータベース化する機会が増加している。またネットワーク技術の普及により電子化した文書を共有することができるようになったため、取り扱う電子化データは膨大になっている。非常に便利ではあるが、電子化した文書が多くなると必要なものを探し出すのが困難となり、検索性を向上させるためにタイトルを付けたり、分類したり、何らかのアノテーションを付加したりするなど作業付加が増加してしまうため、問題であった。
また、帳票画像をサムネイルにて探索することを考えると、特定フォーマットの中に含まれる文字のみが異なるため、縮小画像における見た目は全て同じになってしまうことがある。この場合、ユーザは以下の1枚1枚の画像に対し、画像を閲覧アプリケーションなどで開き(step1)、文字が確認できる大きさまで画像を拡大した(step2)後確認して(step3)アプリケーションを閉じる(step4)といった4つの動作を画像が見つかるまでの枚数回行わなければならない事になるため、確認作業が煩雑となるため問題であった。
【0003】
また、本発明者らはこれまで特許文献2を出願している。この技術では、マップ状にサムネイルではなく画像そのものを配置したうえで、それらをユーザの操作に応じて同時に拡大縮小したり移動させたりするといった発明が成されている。図11は特許文献2で提供される表示画面の一例を示したものである。個々の矩形(例えばIc)は一つの文書画像を表現しており、それらを包括する最も大きい矩形は画像の配される疑似空間である。又、矩形fはディスプレイに表示される領域である。矩形fの大きさや位置を変えながら所望のファイルを探索することが出来る。
【0004】
これにより、特許文献1の効果に加え、上記探索に要する4つの動作のうちstep2とstep4を行う必要が無くなるため、ユーザはより快適に文書を探索することができる。
【特許文献1】特許第3614235号公報
【特許文献2】特開2006−304012号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上記らの技術では文書を探索する際に、マップ内のどこに文書があるかを曖昧な記憶を頼りにしなければならなかった。したがって、複数人で文書を共有したい文書のマップ内の位置を伝えたり、過去に閲覧した文書の位置を再び特定したりすることには困難が伴った。例えば、文書の位置を「左上の方」や「真ん中あたり」若しくは「犬の頭に似た領域の右下」と極めて曖昧な示し方をとらざるをえず、利便性に欠ける状況であった。すなわち、従来技術においては文書画像をグループごとに分けることは可能であったが、文書グループ自身の情報や配置が明確ではないため目的とする文書画像を探す際にすぐに辿りつけないため、利便性の向上にはならないという問題があり、解決に至らないものであった。
【0006】
本発明は上記した問題点に鑑みてなされたもので、本発明が解決しようとする課題は、疑似空間内に配置された複数の画像情報から目的の画像情報を探す場合に、検索効率を高めることによって利便性を向上させた画像情報配置装置を提供することにある。
【課題を解決するための手段】
【0007】
すなわち、本発明は、複数の画像情報が擬似空間内に配置され、前記擬似空間内での視点の移動により、前記複数の画像情報を提示する画像情報配置装置において、前記画像情報から画像の視覚的な特徴を示すベクトルを算出する特徴量ベクトル算出手段と、前記画像情報から得られた特徴量ベクトルに基づいて特徴量の近い画像情報同士を近接させて配置する配置手段と、前記画像情報の背景位置に設けられ、特定の分類に分ける複数の区分を備えた背景画像を具備し、前記特徴量の近い一群の画像情報を、前記背景画像の一区分の領域上に配置することを特徴とする画像情報配置装置である。
これにより、疑似空間内にて画像情報を探し出すときに、目的の画像情報がどこにあるかを明確に把握でき、文書画像を共有する他のユーザに配置されている位置を伝えたり、過去に利用した文書の位置を特定したりすることが容易になるため、利便性が向上する。
【0008】
また、本発明は、前記画像情報配置装置は、前記画像情報から得られた特徴量ベクトルに基づいて、画像情報を所望のカテゴリに分類する分類手段を備えることを特徴とする画像情報配置装置である。
これにより、画像の分類をより詳細に決められ、所望の分類が行えるようになる。
【0009】
また、本発明は、前記画像情報配置装置における背景画像は、画像情報を配置できる配置可能領域と、画像情報を配置できない配置禁止領域とを有することを特徴とする画像情報配置装置である。
これにより、背景画像にそった形で画像情報を分類できるようになる。
【0010】
前記画像情報配置装置における背景画像の複数の区分は、個別に名称が付され、前記名称が検索されることで、前記擬似空間内での視点を、検索された区分へと移動することを特徴とする画像情報配置装置である。
これにより、背景画像の区分が多くても、目的とする区分を迅速に検索することができる。
【0011】
前記画像情報配置装置における背景画像は地図であり、前記背景画像の区分は、前記地図内の地区区分又は地方区分であることを特徴とする画像情報配置装置である。
これにより、複数人で画像情報を利用する場合にも、誰にでも知られている名称を用いることができ、迅速に区分を検索することができる。
【0012】
前記画像情報配置装置における配置手段は、自己組織化マップにより配置されることを特徴とする画像情報配置装置。
これにより、所望の配置対応が可能となり、背景画像にそった形で画像情報を分類でき、複数人で画像情報を利用する場合にも、誰にでも知られている名称を用いることができ、迅速に区分を検索することができる。
【発明の効果】
【0013】
疑似空間内にて画像情報を探し出すときに、あらかじめ背景画像が分類ごとに区分わけされており、画像情報が特徴量ベクトルにより類似性により群に分類されており、それらの画像情報が背景画像の区分に対応付けられているため、目的の画像情報がどこにあるかを明確に把握でき、文書画像を共有する他のユーザに配置されている位置を伝えたり、過去に利用した文書の位置を特定したりすることが容易になるため、利便性が向上させることができる効果を奏する。
【発明を実施するための最良の形態】
【0014】
以下、発明の実施の形態について、図面を使用すると共により詳細に説明する。
【0015】
(第一の実施形態)
本発明に係る第一の実施形態について説明する。また、以下に記載の実施形態は、専用のファイル管理ソフトウェアのインストールにより、本発明を適用した画像情報配置装置としてパーソナルコンピュータ(以下、パソコンという)を機能させた場合を例として挙げて説明する。
【0016】
実施形態に係る画像情報配置装置1は、近年、一般家庭への普及が急速に進んでいるスキャナ搭載型のMFP(Multi Function Printer)のハードディスク内に記録された画像データファイルに基づいて、画像一覧イメージを生成することが可能になっている。
図1は、実施形態に係る画像情報配置装置1と、その周辺機器とを示すブロック図である。画像情報配置装置1には処理装置101を含み、入力手段たるキーボード103やマウス104が接続されており、これらがユーザによって操作されることで、ユーザからの指示を受け付ける。また、画像情報配置装置1には、画像表示手段たる表示装置102や、スキャナ搭載型のMFP100なども接続されている。なお、MFP100は、図示しない記録媒体としてのハードディスクを内蔵しており、スキャナによって読み込んだ画像データをビットマップ形式、JPEG形式、GIF形式などの画像データファイルとしてハードディスク内に記録する。
【0017】
ユーザがキーボード103やマウス104を操作して上述のソフトウェアを起動すると、画像情報配置装置1は、ネットワークケーブルを介してMFP100に対してハードディスク内にアクセスして、そのファイル格納状況の情報を取得する。そして、表示装置102に、そのファイル格納状況を表示させる。ユーザは、表示装置102の表示を参照しながら、MFP100のハードディスク内において、所望のファイルが格納されているディレクトリ(フォルダ)を指定する。ディレクトリが指定されると、画像情報配置装置1はネットワークケーブルを介してMFP100に対して指定ディレクトリ内に格納されている画像データファイルの送信要求信号を送る。MFP100は、その送信要求信号に基づいて、指定ディレクトリ内に格納されている全ての画像データファイルを画像情報配置装置1に送る。
【0018】
画像情報配置装置1は、MFP100から送られてきた全ての画像データファイルを、自らのハードディスク内のテンポラリファイル格納領域に記録する。そして、それらの画像データファイルにそれぞれ基づく画像情報を展開及び加工しながら、それぞれの画像情報をマトリクス状に並べた画像情報一覧イメージを構築する。そして、その画像情報一覧イメージの一部の領域を表示装置102に表示させる。
【0019】
図2は、画像情報配置装置1によって構築される画像情報一覧イメージを示す模式図である。同図において、小さな矩形は、それぞれ個別の写真や文書などの画像を複合機などによりスキャンした画像情報Icを示している。また、図中の太線fで囲まれた領域は、画像情報が配置されている疑似空間全領域のうち、表示装置102に表示される表示領域を示している。同図の例では、画像情報の一部を表示しているが、ユーザの操作により、マップ全体を俯瞰することも可能である。勿論、表示領域の大きさは変わらないので、太線fが大きくなる程、表示領域内の画像情報はより低い解像度、且つより低い倍率で表示される。
【0020】
ここで、画像配置される疑似空間には背景画像として区分を備えた地図が描かれているものとする。また、背景画像の区分は、地図内の地区区分又は地方区分であり、地区区分の名称としては日本地図の場合、例えば東京都や神奈川県等があり、地方区分の名称としては例えば、東北地方等がある。
【0021】
ユーザは、キーボード103やマウス104を用いて、表示領域を縦方向や横方向に移動させたり、表示領域(太線f)内の画像情報表示数を増減したり(画像の表示倍率を増減)する。具体的には、ユーザは、マウス104を動かすことで表示装置102の画面中に表示されるマウスポインタを画面中で移動させることができる。また、マウス104を用いた周知のドラッグ操作(切替操作)により、表示領域を縦方向や横方向にずらす、即ち、縦方向や横方向のスクロールを行うことができる。また、マウス104のホイールを回転させることで(切替操作)、画像情報の表示倍率を増減(これに伴って画像の表示個数が増減)することができる。
【0022】
また、前記疑似空間における座標と地図で示されている区分の名称とが関連づけられているものとする。これにより以下の操作を行うことで、ユーザは区分の名称で画像ファイルを検索できる。ユーザがキーボード103を用いて文字列の入力を行い始めると、つまりアルファベット文字が一文字入力されると、画面に図3に示す様なポップアップウィンドウが現れる。該ポップアップウィンドウにおいて、ユーザがキーボード103で入力した文字列は、文字列入力領域へ表示されるものとする。更にユーザが検索開始ボタンをマウス104によりクリックすると、ユーザが現在閲覧している解像度で注目領域(図2における太線f内の領域)の中心となる位置が、入力された文字列の地名の位置へと移動する。
【0023】
続いて処理装置101で作成され、表示装置102で表示されるマップに関して、全体図の作り方について説明する。図4は、画像情報配置装置1によって発揮される各機能を、各種の機器として捉えた場合における機器の接続状態を示すブロック図である。なお、画像情報配置装置1は、実際には、画像表示データを生成するための専用の装置として製造されているのではなく、パソコンが専用のソフトウェアを起動することで画像情報配置装置としての機能を発揮している。このため、実際には、パソコンのCPU(Central Processing Unit)、RAM(Random Access Memory)、ハードディスクなどが、同図に示される各種の機器の役割を担っている。
【0024】
同図において、MFP100から送られてきた複数の画像データファイルは、順次、特徴量ベクトル算出手段201に入力される。特徴量ベクトル算出手段201の詳細な動作については後述する。
【0025】
配置手段202は、予め2次元のベクトルマップを保持するものとする。ここで言うベクトルマップとは2次元の空間を縦横それぞれ、特定の大きさで区切り、各区切り(以下ノードと呼ぶ)に対して、特徴量ベクトル算出手段201から算出される特徴量ベクトルの次元と同じ次元のベクトルが対応づけられたものである。更に、ノードに対応づけられるベクトルで類似したベクトル同士は、2次元空間上の近い位置に対応づけられるようにマップが作成されているものとする。尚、類似の判定方法としては非特許文献1に挙げたような距離算出方法など、様々な手段が考案されているが、本発明に於いては本題でないので、単純にベクトル間のユークリッド距離を持って類似度とした。また、配置手段202に保持されるベクトルマップを作成する方法については後述する。
【0026】
(非特許文献1)
Y. Rubner, C. Tomasi, and L. J. Guibas. : A Metric for Distributions with Applications to Image Databases. Proceedings of the 1998 IEEE International Conference on Computer Vision, Bombay, India, January 1998, pp. 59-66.
【0027】
配置手段202は、画像情報から算出された特徴量ベクトルと、各ノードに対応付けられたベクトルとを比較し、画像情報の特徴量ベクトルと最も類似するベクトルを持つノードに画像情報を配置する。以上の動作を行うことにより、2次元空間上で類似した画像情報が近い位置に配置されることになる。
【0028】
更に本発明では、画像情報の配置される2次元空間は所定の画像情報(本実施例では近畿地方の地図)と対応づけられており、地図上で海に対応する領域には画像情報が配置されないようにベクトルのマップが作成されているものとする。海領域に画像情報が配置されないための工夫については配置手段202の詳細に併せて後述する。
【0029】
以上のような処理により類似した画像情報が2次元空間上で近い位置に配置されることになり、図2で示したような画像配置情報を得ることが出来る。
【0030】
(特徴量ベクトル算出手段201の説明)
特徴量ベクトル算出手段201は、入力された個々の画像データについて、画像の特徴を示すN次元の特徴量ベクトルを算出するものである。1例としては、画像の色情報、エッジ情報、及びテクスチャ情報の3つの特徴を3次元のベクトルとして算出する。
画像内の各画素の色情報は、R(レッド)、G(グリーン)、B(ブルー)の3原色の階調をそれぞれ0〜255の256階調で示している。3原色の階調が何れも0である場合には、その画素の色は黒となる。また、3原色の階調が何れも255である場合には、その画素の色は白となる。このように、各画素には、sRGB表色系の3次元の色情報が割り当てられている。
【0031】
特徴量ベクトル算出手段201によるエッジ特徴量の算出は、次のようにして行われる。即ち、まず、画像内の画素マトリクスの各画素に対して、図5に示されるような3画素×3画素のフィルタリングマトリクスを用いて、たたみ込み積分を施す。画像内の注目画素に対して、図示のフィルタリングマトリクスにおける中心画素の値(4)を割り当てるとともに、その注目画素の周囲に存在する画素に対して、フィルタリングマトリクスの中心画素の周囲に存在する画素の値を割り当てるのである。このようなたたみ込み積分を画像全体に施して、エッジ画像を得る。その後、所定の閾値(例えば128)を用いて2値化する。次に画像全体を10×10の同サイズのブロックに等分して、それぞれの中で2値化の閾値を超えていた画素をカウントする、最後にブロックに含まれる全ての画素で除算することで正規化する。以上の処理により100次元のベクトルが得られ、ベクトルの各要素の値は0〜1に正規化される。
【0032】
特徴量ベクトル算出手段201による色特徴量の算出は、次のようにして行われる。即ち、まず画像に含まれる画素を全て255で除算し、正規化しておく。画像を数式1〜数式7に基づいてsRGB表色系からLab表色系の色表現に変換する。
【0033】
【数1】
【0034】
【数2】
【0035】
【数3】
【0036】
【数4】
【0037】
【数5】
【0038】
【数6】
【0039】
【数7】
【0040】
D65光源を想定した場合、この式では、Xn=0.95、Yn=1.00、Zn=1.09となる。このようにしてLab表色系に変換したら、次に、エッジ特徴量の算出と同様にして、画像を10×10のブロックに等分し、それぞれのブロックで平均Labを得る。更に得られたLabは以下の式で0〜1の間の値に正規化したL'a’b'に変換しておく。
【0041】
【数8】
【0042】
【数9】
【0043】
【数10】
【0044】
この結果、100×3=300次元のベクトルが得られる。
【0045】
特徴量ベクトル算出手段201によるテクスチャ特徴量の算出には、周知の濃度共起行列が用いられる。濃度共起行列は、ある小領域において、図6に示すように、濃淡画像の明るさがkの画素からδ(r,θ)で示される相対位置に1の画素が出現する頻度をpδ(r,θ)とする。sRGB表色系の画像をグレー画像に変換し、その後、各画素を16で割って余りを捨てることで16の階調に量子化する。その後、16の階調数をmとして、数式11に基づいて16×16次元の濃度共起行列を得る。尚、得られたマトリクスの値を画像に含まれる画素数で割り、0〜1の値に正規化しておく。
【0046】
【数11】
【0047】
本実施形態では、δ(1,0)、δ(1,45)、及びδ(1,90)の3種類の濃度共起行列を得ているため、最終的に256×3=768次元の特徴量ベクトルが得られる。
濃度共起行列は画像の周波数情報の概略を示す特徴量であるため、テクスチャ特徴量の算出に用いることが可能である。なお、周波数情報の取得にはフーリエ変換を用いることが可能である。また、MFPに記憶されている画像データファイルがJPEG方式で圧縮されているものであればDiscrete Cosine Transformを用いることで、容易に周波数情報を得ることができる。以上のようにして、最終的には100+300+768=1168次元の特徴量ベクトルが得られる。
【0048】
(第1の配置手段202保持されるマップの作成方法)
次に、第1の配置手段202に保持されるマップの作成方法ついて述べる。マップの作成方法としては、自己組織化マップを利用するものとする。自己組織化マップは複数の多値ベクトルを視覚的に理解しやすいようにマッピングする手法である。詳細は以下の非特許文献2に記載の公知技術を適応させ、ここではその概略を説明する。まず出力空間となる2次元の空間を特定の大きさで区切りノードを作成する。
【0049】
また、様々な画像を入力し、それぞれ前記特徴量ベクトル算出手段201で行う処理と同様に特徴量を算出しておく。各ノードには入力ベクトルと同じ次元のベクトルWxiを割り当てる。以下これをノードの重みベクトルと呼ぶ。尚Wxiの添え字xはノードの番号及びIはベクトルの添え字である。次に各重みベクトルにはランダムな値を入れておく。前記画像から得られたベクトルに最も近い重みベクトルを持つノードを探す(step1)。このとき、前述と同様、距離の取り方には様々な手段が有るが、今回は単純にユークリッド距離を用いた。ここでO番目の入力ベクトルに対してX番目のノードが最も近かった場合。各ノードの重みベクトルに対して数式9、数式10の計算を行い、重みベクトルを更新する(step2)。尚、以上の式においてαは学習率を示す変数であり、今回の実施例ではα=100を用いた。
【0050】
【数12】
【0051】
【数13】
【0052】
通常の自己組織化マップでは以降、step1とstep2を繰り返し収束するまで繰り返す。但し、本発明では画像情報を配置できる配置可能領域と、画像情報を配置できない配置禁止領域を設け、海の領域には画像を配置したくないので、step2の後に、海領域に存在するノードの値を特徴量ベクトルが取り得ない様な値に設定しておく(step3)。言い換えると、ベクトルマップに地図の形のマスクを書けることになる。尚、本実施例に於いては、特徴量ベクトルの各要素の値は0〜1に正規化してあるので、配置禁止領域である海領域に相当するノードの特徴量ベクトルを全て-1にしておけば、step1の画像から得られた特徴量ベクトルに最も近いマップ上のベクトル探索において、海領域のノードが選択される可能性はなくなる。また、Step2のベクトルマップ更新時には、更新の中心となるノードが陸の領域に存在することになるため、全ての画像がベクトルマップの更新に影響することになる。これらの計算により、図3で示した様な地図の形に画像を配置しつつ、類似した画像を近くに配置するといった処理を行えることになる。
尚、この手法を利用すれば、自己組織化マップを利用して、画像群が成す形を自由に成形できる。例えば、区分境付近に有るノードをマスクしてやることで、区分境付近には画像が配置されないといった画像配置も可能であるし、詳細な地名がついていない領域に画像を配置しないことも可能である。
【0053】
(非特許文献2)
Kohonen, T: Self-organized formation of topologically correct feature maps, Biological Cybernetics, 43:59-69, 1982
【0054】
以上、本実施例で述べた構成により、図3で示した様な画像(本実施例では地図)を背景として、疑似空間上に、複数の画像を、類似画像同士が近くに配される様に配置することが可能である。言い換えると、疑似空間上の座標と、背景となる画像の部位を対応づけることが出来る。このように疑似空間を作成することによって、マップ型探索によって画像データベースから所望の文書画像を発見したユーザは、文書の所在位置を極めて具体的な画像の部位とともに記憶することが出来る。一般に日本人のユーザは日本地図において様々な県がどこに配置されているかをある程度把握している。つまり、画像の存在していた位置を〜県のあたりといった具体的な地名で記憶できることになる。それにより、文書を発見したユーザは次回の探索時に前記発見したファイルを迅速に再発見できる。
【0055】
また、それだけでなく、同画像データベースを他者と共有している場合、発見した画像ファイルの位置を第2のユーザへ具体的に伝えることが出来る。本実施例では背景画像として日本地図を用いたが、データベースの性質を鑑みて、世界地図を利用しても良い。更に言えば、例えば人間の絵のように、背景となる画像の部位がユーザにとって具体的に表現できるものであればどのような背景画像であっても、本発明の効果は変わらない。
また、本実施例では、地名の検索が行えるようになっているため、もし第2のユーザが伝えられた地名を知らなくても、伝えられた位置へ容易にアクセスできる。また、本実施例では海の領域等、具体的な地名が就いていない領域については画像を配さないため、全ての画像は地名と対応づけて配置されることになるため、地名が対応付いていないために、画像の所在位置を他者に伝えられないといった事態も発生しない。
【0056】
本実施例の構成を用いない場合、例えば、疑似空間上での座標をユーザへ提示するといった手段も考えられるが、一般に人間は数字の羅列を記憶する事は得意でないため、言葉や地名になっている方が望ましい。また、本実施例は、疑似空間を地図と対応づけたが、前述したとおり、疑似空間で画像が配置される位置を任意の図形に限定できるので、地図で無い他の画像と対応づけることも可能である。更に言えば、今回疑似空間内での配置位置決定には自己組織化マップを用いたため、ベクトルマップ作成は容易に3次元へ拡張できる。例えば、3次元マップを人間の内臓と対応づければ、「胃の上の方」や「十二指腸の入り口あたり」といったように文書画像の位置を具体的に表現できる様になる。尚、自己組織化マップを3次元に拡張するためには、前記マップ作成方法に於いて、数式12と数式13を以下の数式14、数式15の様に3次元に拡張することで容易に実現できる。
【0057】
【数14】
【0058】
【数15】
【0059】
(第二の実施形態)
本発明に係る第二の実施形態(以下、実施例2)について説明する。実施例2は前記実施例1とほぼ構成を同じくするものであるが、全体図作成方法及び、ベクトルマップ作成方法に関して異なる。
【0060】
図7は第1の実施例において図4で示した全体図の作り方に相当する。特徴量ベクトル算出手段301は図4における特徴量ベクトル算出手段201と同様の動作を行うものとする。分類手段302は特徴量ベクトル算出手段301により得られた特徴量ベクトルを用いて画像を文書と、写真に分類する。尚、分類手段302の詳細については後述する。次に配置手段303は分類手段302により得られた分類結果と特徴量ベクトル算出手段301により得られた特徴量を用いて疑似空間に画像を配置する。
【0061】
続いて、図8は配置手段303の動作を示すブロック図である。図8の様に配置手段303は第1の配置手段402と第2の配置手段403という二つの配置手段を持っているものとする。特徴量ベクトル算出手段301により得られた特徴量ベクトルと分類手段302により得られた分類結果をセレクタ401に入力し、分類結果が写真である場合には、特徴量ベクトルを第1の配置手段402へ入力し、入力画像の配置される位置が決定される。また分類結果が文書画像である場合には、特徴量ベクトルを第2の配置手段403へと入力し、入力画像の配置される位置が決定される。両者によって配置が決められた後、各画像の位置が統合され、表示装置102へと送られる。
【0062】
ここで第1の配置手段402では、図9の様に北海道及び東北地方をといった地方区分を含む地図に於いて、写真と判定された画像情報を背景画像である地図内の地方区分のうち名称が北海道である位置に配置する。北海道の形に画像を配置する手段については前述したとおりであり、自己組織化マップによるベクトルマップの更新を行う際に北海道以外の領域をマスクしてやることにより、実現できる。
同様に、第2の配置手段402では画像情報を東北地域に配置する。ここで、北海道地域と東北地域は画像情報を配置できる配置可能領域であり、海は画像情報を配置できない配置禁止領域である。
【0063】
(画像分類方法に関する説明)
次に分類手段302について説明する。前述の通り、画像情報が入力されると、分類手段302では該入力画像が写真画像であるか文書画像であるかを判定する。分類は画像全体をアスペクト比を保ったまま600×600画素の矩形に収まる様に縮小した後、各画素の値を事前に学習させたSupport Vector Machine(SVM:非特許文献3参照)に入力することによって行う。
【0064】
(非特許文献3)
C. Cortes and V.N. Vapnik, "Support vector Networks," Machine Learning, vol.20, pp.273-297, 1995
【0065】
SVMは数式16で示すように入力ベクトルと重みベクトルωの内積が特定の閾値を超えていればy=1を超えていなければy=-1を出力する識別器であり、出力y=1のとき入力画像は文書画像であり、出力y=-1のとき、入力画像が写真画像であると判定するものとする。つまり、SVMの学習とは前記重みベクトルω、及び閾値hを決定する作業である。尚、SVMの学習についての詳細な説明は文献1に譲るが、その概要を以下で説明する。
【0066】
【数16】
【0067】
図10はSVMの動作の概要を示したものである。まず前提条件として、図の左に示すように○×で表される二つの種類のベクトル群が存在するものとする。SVMはこれら二つのクラスを最適に分離するための超平面(図の右参照)を決定するためのアルゴリズムといえる。SVMにおいて、二つのベクトル群を最適に分割するとは、未知のベクトルが入力されたときの対応能力、つまり汎化能力を最大とするということと等価である。これを実現するために、二つのベクトル群の境界位置に存在するベクトル(Support Vector)を見つけて、Support Vectorと超平面との距離が最大となるように超平面を設定する。
【0068】
ここで、実動作上、間違いの教師データも存在するため、間違いの許容量(ソフトマージン)を設定するパラメータを決める必要がある。以上は、線形SVMについての説明であるが、実際の教師データは線形判別できるベクトル群とは限らない。しかし、特徴量ベクトルを、より高次の空間に射影し(カーネルトリック)、その空間上で超平面を求めることで、非線形な問題にも対応できる。
【0069】
以上を実現するには、結果的に、教師データ(xi,yi)を用いて数式17の条件下で数式18を最大化するラグランジェ乗数ベクトルαiを求めることになる。その後ラグランジェ乗数ベクトルの要素のうち0でない要素に対応する教師データ群S(これがサポートベクタとなる)と、そのうち、任意の一つの教師データ(x0,y0)を用いて超平面のパラメータω,hを求める。(数式19,数式20)
【0070】
【数17】
【0071】
【数18】
【0072】
【数19】
【0073】
【数20】
【0074】
尚、上記数式に於いてK(x,y)はカーネルトリックを実現するためのカーネル関数を示す。カーネル関数には様々なものが考案されているが、今回の実施例ではRadial Basis Function(RBF)を用いた。RBFは数式21で示される関数でCは任意の数字である。以上述べたように、SVMを用いて学習を行うにはソフトマージンの許容量を設定するパラメータγとカーネル関数であるRBFを決定するためのCを設定する必要があるが、今回の実施例では、γ=1,C=1000を用いた。
【0075】
【数21】
【0076】
以上の様に、本実施例で説明した構成を用いれば、画像の画像の特徴によってカテゴライズし、カテゴライズした画像を地図上で明らかに異なる領域(本実施例では北海道と東北地方)に配することが可能である。このように画像を配することで、マップ型探索方法を用いて画像を探索するユーザは所望する画像が、マップにおいてどの付近に存在することを瞬時に判断可能である。そのため、ユーザはより効率的に所望の画像を探索することが出来る。尚、本実施例では画像を文書と写真の2クラスに分類したが、非特許文献4に示す様にマルチクラスに対応したサポートベクタマシンが提案されており、これを利用すれば、クラスの数は2に限定されるものではない。例えば4つのクラスに分けて、日本地図の北海道、本州、四国、九州に対応させることも容易に達成できる。また、画像の種類に応じて重要度を設定し、重要度の高い順に、面積の広い領域へと対応させることも可能である。
【0077】
(非特許文献4)
Jing Yang,et.al… A Parallel Multi-Class Classification Support Vector Machine Based on Sequential Minimal Optimization: First International Multi-Symposiums on Computer and Computational Sciences - Volume 1 (IMSCCS'06) pp. 443-446
【0078】
以上、本発明を、MFPに搭載されるコンピュータプログラムとして実施例を記載してきたが、表示装置等の画像表示手段に画像を表示させるための画像表示データを生成する画像表示データ生成手段として、コンピュータを機能させるための、次のようなプログラムを記録した機械読み取り可能な記録媒体にも適用が可能である。
【0079】
即ち、複数の画像データファイルにそれぞれ基づく複数の画像を並べて配設した画像一覧イメージを構築するイメージ構築処理と、該画像一覧イメージの全領域又は1部領域を画像表示手段に表示させるための表示データを出力した後、該画像表示手段の画面での該画像一覧イメージの表示領域や表示倍率を切り替えるための切り替え操作がユーザによってなされたことに基づいて、該画像一覧イメージの全領域のうち、該切り替え操作に応じた領域だけを画像表示手段に表示させるための表示データを出力する表示データ出力処理とを行う手段として、コンピュータを機能させるためのプログラムを記録している記録媒体である。
【図面の簡単な説明】
【0080】
【図1】実施形態に係る画像情報配置装置と、その周辺機器とを示すブロック図である。
【図2】画像情報配置装置によって構築される画像情報一覧イメージ図である。
【図3】検索形態となるポップアップウィンドウを示す図である。
【図4】第一の実施形態を示す概略フロー図である。
【図5】3画素×3画素のフィルタリングマトリクスを示す図である。
【図6】特徴量ベクトル算出手段によるテクスチャ特徴量の算出の説明図である。
【図7】第二の実施形態を示す概略フロー図である。
【図8】配置手段の動作を示す図である。
【図9】配置手段と地方区分の例を示す図である。
【図10】SVMの動作の概要を示した図である。
【図11】従来技術を示す図である。
【符号の説明】
【0081】
1 画像情報配置装置
100 MFP
101 処理装置
102 表示装置
103 キーボード
104 マウス
201,301 特徴量ベクトル算出手段
202,303,402,403 配置手段
302 分類手段
401 セレクタ
Ic 画像情報
【技術分野】
【0001】
本発明は、画像データベース等に蓄積された画像データに対して、サムネイル一覧等の複数画像の一覧表示画面を生成する機能を備えた画像情報配置装置に関するものであり、特に、複写機でスキャンした画像を複数人で共有することのできる画像情報配置装置に関するものである。
【背景技術】
【0002】
近年、スキャナの低価格化やe−文書法の法制化等により、紙文書をスキャンして電子化してデータベース化する機会が増加している。またネットワーク技術の普及により電子化した文書を共有することができるようになったため、取り扱う電子化データは膨大になっている。非常に便利ではあるが、電子化した文書が多くなると必要なものを探し出すのが困難となり、検索性を向上させるためにタイトルを付けたり、分類したり、何らかのアノテーションを付加したりするなど作業付加が増加してしまうため、問題であった。
また、帳票画像をサムネイルにて探索することを考えると、特定フォーマットの中に含まれる文字のみが異なるため、縮小画像における見た目は全て同じになってしまうことがある。この場合、ユーザは以下の1枚1枚の画像に対し、画像を閲覧アプリケーションなどで開き(step1)、文字が確認できる大きさまで画像を拡大した(step2)後確認して(step3)アプリケーションを閉じる(step4)といった4つの動作を画像が見つかるまでの枚数回行わなければならない事になるため、確認作業が煩雑となるため問題であった。
【0003】
また、本発明者らはこれまで特許文献2を出願している。この技術では、マップ状にサムネイルではなく画像そのものを配置したうえで、それらをユーザの操作に応じて同時に拡大縮小したり移動させたりするといった発明が成されている。図11は特許文献2で提供される表示画面の一例を示したものである。個々の矩形(例えばIc)は一つの文書画像を表現しており、それらを包括する最も大きい矩形は画像の配される疑似空間である。又、矩形fはディスプレイに表示される領域である。矩形fの大きさや位置を変えながら所望のファイルを探索することが出来る。
【0004】
これにより、特許文献1の効果に加え、上記探索に要する4つの動作のうちstep2とstep4を行う必要が無くなるため、ユーザはより快適に文書を探索することができる。
【特許文献1】特許第3614235号公報
【特許文献2】特開2006−304012号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上記らの技術では文書を探索する際に、マップ内のどこに文書があるかを曖昧な記憶を頼りにしなければならなかった。したがって、複数人で文書を共有したい文書のマップ内の位置を伝えたり、過去に閲覧した文書の位置を再び特定したりすることには困難が伴った。例えば、文書の位置を「左上の方」や「真ん中あたり」若しくは「犬の頭に似た領域の右下」と極めて曖昧な示し方をとらざるをえず、利便性に欠ける状況であった。すなわち、従来技術においては文書画像をグループごとに分けることは可能であったが、文書グループ自身の情報や配置が明確ではないため目的とする文書画像を探す際にすぐに辿りつけないため、利便性の向上にはならないという問題があり、解決に至らないものであった。
【0006】
本発明は上記した問題点に鑑みてなされたもので、本発明が解決しようとする課題は、疑似空間内に配置された複数の画像情報から目的の画像情報を探す場合に、検索効率を高めることによって利便性を向上させた画像情報配置装置を提供することにある。
【課題を解決するための手段】
【0007】
すなわち、本発明は、複数の画像情報が擬似空間内に配置され、前記擬似空間内での視点の移動により、前記複数の画像情報を提示する画像情報配置装置において、前記画像情報から画像の視覚的な特徴を示すベクトルを算出する特徴量ベクトル算出手段と、前記画像情報から得られた特徴量ベクトルに基づいて特徴量の近い画像情報同士を近接させて配置する配置手段と、前記画像情報の背景位置に設けられ、特定の分類に分ける複数の区分を備えた背景画像を具備し、前記特徴量の近い一群の画像情報を、前記背景画像の一区分の領域上に配置することを特徴とする画像情報配置装置である。
これにより、疑似空間内にて画像情報を探し出すときに、目的の画像情報がどこにあるかを明確に把握でき、文書画像を共有する他のユーザに配置されている位置を伝えたり、過去に利用した文書の位置を特定したりすることが容易になるため、利便性が向上する。
【0008】
また、本発明は、前記画像情報配置装置は、前記画像情報から得られた特徴量ベクトルに基づいて、画像情報を所望のカテゴリに分類する分類手段を備えることを特徴とする画像情報配置装置である。
これにより、画像の分類をより詳細に決められ、所望の分類が行えるようになる。
【0009】
また、本発明は、前記画像情報配置装置における背景画像は、画像情報を配置できる配置可能領域と、画像情報を配置できない配置禁止領域とを有することを特徴とする画像情報配置装置である。
これにより、背景画像にそった形で画像情報を分類できるようになる。
【0010】
前記画像情報配置装置における背景画像の複数の区分は、個別に名称が付され、前記名称が検索されることで、前記擬似空間内での視点を、検索された区分へと移動することを特徴とする画像情報配置装置である。
これにより、背景画像の区分が多くても、目的とする区分を迅速に検索することができる。
【0011】
前記画像情報配置装置における背景画像は地図であり、前記背景画像の区分は、前記地図内の地区区分又は地方区分であることを特徴とする画像情報配置装置である。
これにより、複数人で画像情報を利用する場合にも、誰にでも知られている名称を用いることができ、迅速に区分を検索することができる。
【0012】
前記画像情報配置装置における配置手段は、自己組織化マップにより配置されることを特徴とする画像情報配置装置。
これにより、所望の配置対応が可能となり、背景画像にそった形で画像情報を分類でき、複数人で画像情報を利用する場合にも、誰にでも知られている名称を用いることができ、迅速に区分を検索することができる。
【発明の効果】
【0013】
疑似空間内にて画像情報を探し出すときに、あらかじめ背景画像が分類ごとに区分わけされており、画像情報が特徴量ベクトルにより類似性により群に分類されており、それらの画像情報が背景画像の区分に対応付けられているため、目的の画像情報がどこにあるかを明確に把握でき、文書画像を共有する他のユーザに配置されている位置を伝えたり、過去に利用した文書の位置を特定したりすることが容易になるため、利便性が向上させることができる効果を奏する。
【発明を実施するための最良の形態】
【0014】
以下、発明の実施の形態について、図面を使用すると共により詳細に説明する。
【0015】
(第一の実施形態)
本発明に係る第一の実施形態について説明する。また、以下に記載の実施形態は、専用のファイル管理ソフトウェアのインストールにより、本発明を適用した画像情報配置装置としてパーソナルコンピュータ(以下、パソコンという)を機能させた場合を例として挙げて説明する。
【0016】
実施形態に係る画像情報配置装置1は、近年、一般家庭への普及が急速に進んでいるスキャナ搭載型のMFP(Multi Function Printer)のハードディスク内に記録された画像データファイルに基づいて、画像一覧イメージを生成することが可能になっている。
図1は、実施形態に係る画像情報配置装置1と、その周辺機器とを示すブロック図である。画像情報配置装置1には処理装置101を含み、入力手段たるキーボード103やマウス104が接続されており、これらがユーザによって操作されることで、ユーザからの指示を受け付ける。また、画像情報配置装置1には、画像表示手段たる表示装置102や、スキャナ搭載型のMFP100なども接続されている。なお、MFP100は、図示しない記録媒体としてのハードディスクを内蔵しており、スキャナによって読み込んだ画像データをビットマップ形式、JPEG形式、GIF形式などの画像データファイルとしてハードディスク内に記録する。
【0017】
ユーザがキーボード103やマウス104を操作して上述のソフトウェアを起動すると、画像情報配置装置1は、ネットワークケーブルを介してMFP100に対してハードディスク内にアクセスして、そのファイル格納状況の情報を取得する。そして、表示装置102に、そのファイル格納状況を表示させる。ユーザは、表示装置102の表示を参照しながら、MFP100のハードディスク内において、所望のファイルが格納されているディレクトリ(フォルダ)を指定する。ディレクトリが指定されると、画像情報配置装置1はネットワークケーブルを介してMFP100に対して指定ディレクトリ内に格納されている画像データファイルの送信要求信号を送る。MFP100は、その送信要求信号に基づいて、指定ディレクトリ内に格納されている全ての画像データファイルを画像情報配置装置1に送る。
【0018】
画像情報配置装置1は、MFP100から送られてきた全ての画像データファイルを、自らのハードディスク内のテンポラリファイル格納領域に記録する。そして、それらの画像データファイルにそれぞれ基づく画像情報を展開及び加工しながら、それぞれの画像情報をマトリクス状に並べた画像情報一覧イメージを構築する。そして、その画像情報一覧イメージの一部の領域を表示装置102に表示させる。
【0019】
図2は、画像情報配置装置1によって構築される画像情報一覧イメージを示す模式図である。同図において、小さな矩形は、それぞれ個別の写真や文書などの画像を複合機などによりスキャンした画像情報Icを示している。また、図中の太線fで囲まれた領域は、画像情報が配置されている疑似空間全領域のうち、表示装置102に表示される表示領域を示している。同図の例では、画像情報の一部を表示しているが、ユーザの操作により、マップ全体を俯瞰することも可能である。勿論、表示領域の大きさは変わらないので、太線fが大きくなる程、表示領域内の画像情報はより低い解像度、且つより低い倍率で表示される。
【0020】
ここで、画像配置される疑似空間には背景画像として区分を備えた地図が描かれているものとする。また、背景画像の区分は、地図内の地区区分又は地方区分であり、地区区分の名称としては日本地図の場合、例えば東京都や神奈川県等があり、地方区分の名称としては例えば、東北地方等がある。
【0021】
ユーザは、キーボード103やマウス104を用いて、表示領域を縦方向や横方向に移動させたり、表示領域(太線f)内の画像情報表示数を増減したり(画像の表示倍率を増減)する。具体的には、ユーザは、マウス104を動かすことで表示装置102の画面中に表示されるマウスポインタを画面中で移動させることができる。また、マウス104を用いた周知のドラッグ操作(切替操作)により、表示領域を縦方向や横方向にずらす、即ち、縦方向や横方向のスクロールを行うことができる。また、マウス104のホイールを回転させることで(切替操作)、画像情報の表示倍率を増減(これに伴って画像の表示個数が増減)することができる。
【0022】
また、前記疑似空間における座標と地図で示されている区分の名称とが関連づけられているものとする。これにより以下の操作を行うことで、ユーザは区分の名称で画像ファイルを検索できる。ユーザがキーボード103を用いて文字列の入力を行い始めると、つまりアルファベット文字が一文字入力されると、画面に図3に示す様なポップアップウィンドウが現れる。該ポップアップウィンドウにおいて、ユーザがキーボード103で入力した文字列は、文字列入力領域へ表示されるものとする。更にユーザが検索開始ボタンをマウス104によりクリックすると、ユーザが現在閲覧している解像度で注目領域(図2における太線f内の領域)の中心となる位置が、入力された文字列の地名の位置へと移動する。
【0023】
続いて処理装置101で作成され、表示装置102で表示されるマップに関して、全体図の作り方について説明する。図4は、画像情報配置装置1によって発揮される各機能を、各種の機器として捉えた場合における機器の接続状態を示すブロック図である。なお、画像情報配置装置1は、実際には、画像表示データを生成するための専用の装置として製造されているのではなく、パソコンが専用のソフトウェアを起動することで画像情報配置装置としての機能を発揮している。このため、実際には、パソコンのCPU(Central Processing Unit)、RAM(Random Access Memory)、ハードディスクなどが、同図に示される各種の機器の役割を担っている。
【0024】
同図において、MFP100から送られてきた複数の画像データファイルは、順次、特徴量ベクトル算出手段201に入力される。特徴量ベクトル算出手段201の詳細な動作については後述する。
【0025】
配置手段202は、予め2次元のベクトルマップを保持するものとする。ここで言うベクトルマップとは2次元の空間を縦横それぞれ、特定の大きさで区切り、各区切り(以下ノードと呼ぶ)に対して、特徴量ベクトル算出手段201から算出される特徴量ベクトルの次元と同じ次元のベクトルが対応づけられたものである。更に、ノードに対応づけられるベクトルで類似したベクトル同士は、2次元空間上の近い位置に対応づけられるようにマップが作成されているものとする。尚、類似の判定方法としては非特許文献1に挙げたような距離算出方法など、様々な手段が考案されているが、本発明に於いては本題でないので、単純にベクトル間のユークリッド距離を持って類似度とした。また、配置手段202に保持されるベクトルマップを作成する方法については後述する。
【0026】
(非特許文献1)
Y. Rubner, C. Tomasi, and L. J. Guibas. : A Metric for Distributions with Applications to Image Databases. Proceedings of the 1998 IEEE International Conference on Computer Vision, Bombay, India, January 1998, pp. 59-66.
【0027】
配置手段202は、画像情報から算出された特徴量ベクトルと、各ノードに対応付けられたベクトルとを比較し、画像情報の特徴量ベクトルと最も類似するベクトルを持つノードに画像情報を配置する。以上の動作を行うことにより、2次元空間上で類似した画像情報が近い位置に配置されることになる。
【0028】
更に本発明では、画像情報の配置される2次元空間は所定の画像情報(本実施例では近畿地方の地図)と対応づけられており、地図上で海に対応する領域には画像情報が配置されないようにベクトルのマップが作成されているものとする。海領域に画像情報が配置されないための工夫については配置手段202の詳細に併せて後述する。
【0029】
以上のような処理により類似した画像情報が2次元空間上で近い位置に配置されることになり、図2で示したような画像配置情報を得ることが出来る。
【0030】
(特徴量ベクトル算出手段201の説明)
特徴量ベクトル算出手段201は、入力された個々の画像データについて、画像の特徴を示すN次元の特徴量ベクトルを算出するものである。1例としては、画像の色情報、エッジ情報、及びテクスチャ情報の3つの特徴を3次元のベクトルとして算出する。
画像内の各画素の色情報は、R(レッド)、G(グリーン)、B(ブルー)の3原色の階調をそれぞれ0〜255の256階調で示している。3原色の階調が何れも0である場合には、その画素の色は黒となる。また、3原色の階調が何れも255である場合には、その画素の色は白となる。このように、各画素には、sRGB表色系の3次元の色情報が割り当てられている。
【0031】
特徴量ベクトル算出手段201によるエッジ特徴量の算出は、次のようにして行われる。即ち、まず、画像内の画素マトリクスの各画素に対して、図5に示されるような3画素×3画素のフィルタリングマトリクスを用いて、たたみ込み積分を施す。画像内の注目画素に対して、図示のフィルタリングマトリクスにおける中心画素の値(4)を割り当てるとともに、その注目画素の周囲に存在する画素に対して、フィルタリングマトリクスの中心画素の周囲に存在する画素の値を割り当てるのである。このようなたたみ込み積分を画像全体に施して、エッジ画像を得る。その後、所定の閾値(例えば128)を用いて2値化する。次に画像全体を10×10の同サイズのブロックに等分して、それぞれの中で2値化の閾値を超えていた画素をカウントする、最後にブロックに含まれる全ての画素で除算することで正規化する。以上の処理により100次元のベクトルが得られ、ベクトルの各要素の値は0〜1に正規化される。
【0032】
特徴量ベクトル算出手段201による色特徴量の算出は、次のようにして行われる。即ち、まず画像に含まれる画素を全て255で除算し、正規化しておく。画像を数式1〜数式7に基づいてsRGB表色系からLab表色系の色表現に変換する。
【0033】
【数1】
【0034】
【数2】
【0035】
【数3】
【0036】
【数4】
【0037】
【数5】
【0038】
【数6】
【0039】
【数7】
【0040】
D65光源を想定した場合、この式では、Xn=0.95、Yn=1.00、Zn=1.09となる。このようにしてLab表色系に変換したら、次に、エッジ特徴量の算出と同様にして、画像を10×10のブロックに等分し、それぞれのブロックで平均Labを得る。更に得られたLabは以下の式で0〜1の間の値に正規化したL'a’b'に変換しておく。
【0041】
【数8】
【0042】
【数9】
【0043】
【数10】
【0044】
この結果、100×3=300次元のベクトルが得られる。
【0045】
特徴量ベクトル算出手段201によるテクスチャ特徴量の算出には、周知の濃度共起行列が用いられる。濃度共起行列は、ある小領域において、図6に示すように、濃淡画像の明るさがkの画素からδ(r,θ)で示される相対位置に1の画素が出現する頻度をpδ(r,θ)とする。sRGB表色系の画像をグレー画像に変換し、その後、各画素を16で割って余りを捨てることで16の階調に量子化する。その後、16の階調数をmとして、数式11に基づいて16×16次元の濃度共起行列を得る。尚、得られたマトリクスの値を画像に含まれる画素数で割り、0〜1の値に正規化しておく。
【0046】
【数11】
【0047】
本実施形態では、δ(1,0)、δ(1,45)、及びδ(1,90)の3種類の濃度共起行列を得ているため、最終的に256×3=768次元の特徴量ベクトルが得られる。
濃度共起行列は画像の周波数情報の概略を示す特徴量であるため、テクスチャ特徴量の算出に用いることが可能である。なお、周波数情報の取得にはフーリエ変換を用いることが可能である。また、MFPに記憶されている画像データファイルがJPEG方式で圧縮されているものであればDiscrete Cosine Transformを用いることで、容易に周波数情報を得ることができる。以上のようにして、最終的には100+300+768=1168次元の特徴量ベクトルが得られる。
【0048】
(第1の配置手段202保持されるマップの作成方法)
次に、第1の配置手段202に保持されるマップの作成方法ついて述べる。マップの作成方法としては、自己組織化マップを利用するものとする。自己組織化マップは複数の多値ベクトルを視覚的に理解しやすいようにマッピングする手法である。詳細は以下の非特許文献2に記載の公知技術を適応させ、ここではその概略を説明する。まず出力空間となる2次元の空間を特定の大きさで区切りノードを作成する。
【0049】
また、様々な画像を入力し、それぞれ前記特徴量ベクトル算出手段201で行う処理と同様に特徴量を算出しておく。各ノードには入力ベクトルと同じ次元のベクトルWxiを割り当てる。以下これをノードの重みベクトルと呼ぶ。尚Wxiの添え字xはノードの番号及びIはベクトルの添え字である。次に各重みベクトルにはランダムな値を入れておく。前記画像から得られたベクトルに最も近い重みベクトルを持つノードを探す(step1)。このとき、前述と同様、距離の取り方には様々な手段が有るが、今回は単純にユークリッド距離を用いた。ここでO番目の入力ベクトルに対してX番目のノードが最も近かった場合。各ノードの重みベクトルに対して数式9、数式10の計算を行い、重みベクトルを更新する(step2)。尚、以上の式においてαは学習率を示す変数であり、今回の実施例ではα=100を用いた。
【0050】
【数12】
【0051】
【数13】
【0052】
通常の自己組織化マップでは以降、step1とstep2を繰り返し収束するまで繰り返す。但し、本発明では画像情報を配置できる配置可能領域と、画像情報を配置できない配置禁止領域を設け、海の領域には画像を配置したくないので、step2の後に、海領域に存在するノードの値を特徴量ベクトルが取り得ない様な値に設定しておく(step3)。言い換えると、ベクトルマップに地図の形のマスクを書けることになる。尚、本実施例に於いては、特徴量ベクトルの各要素の値は0〜1に正規化してあるので、配置禁止領域である海領域に相当するノードの特徴量ベクトルを全て-1にしておけば、step1の画像から得られた特徴量ベクトルに最も近いマップ上のベクトル探索において、海領域のノードが選択される可能性はなくなる。また、Step2のベクトルマップ更新時には、更新の中心となるノードが陸の領域に存在することになるため、全ての画像がベクトルマップの更新に影響することになる。これらの計算により、図3で示した様な地図の形に画像を配置しつつ、類似した画像を近くに配置するといった処理を行えることになる。
尚、この手法を利用すれば、自己組織化マップを利用して、画像群が成す形を自由に成形できる。例えば、区分境付近に有るノードをマスクしてやることで、区分境付近には画像が配置されないといった画像配置も可能であるし、詳細な地名がついていない領域に画像を配置しないことも可能である。
【0053】
(非特許文献2)
Kohonen, T: Self-organized formation of topologically correct feature maps, Biological Cybernetics, 43:59-69, 1982
【0054】
以上、本実施例で述べた構成により、図3で示した様な画像(本実施例では地図)を背景として、疑似空間上に、複数の画像を、類似画像同士が近くに配される様に配置することが可能である。言い換えると、疑似空間上の座標と、背景となる画像の部位を対応づけることが出来る。このように疑似空間を作成することによって、マップ型探索によって画像データベースから所望の文書画像を発見したユーザは、文書の所在位置を極めて具体的な画像の部位とともに記憶することが出来る。一般に日本人のユーザは日本地図において様々な県がどこに配置されているかをある程度把握している。つまり、画像の存在していた位置を〜県のあたりといった具体的な地名で記憶できることになる。それにより、文書を発見したユーザは次回の探索時に前記発見したファイルを迅速に再発見できる。
【0055】
また、それだけでなく、同画像データベースを他者と共有している場合、発見した画像ファイルの位置を第2のユーザへ具体的に伝えることが出来る。本実施例では背景画像として日本地図を用いたが、データベースの性質を鑑みて、世界地図を利用しても良い。更に言えば、例えば人間の絵のように、背景となる画像の部位がユーザにとって具体的に表現できるものであればどのような背景画像であっても、本発明の効果は変わらない。
また、本実施例では、地名の検索が行えるようになっているため、もし第2のユーザが伝えられた地名を知らなくても、伝えられた位置へ容易にアクセスできる。また、本実施例では海の領域等、具体的な地名が就いていない領域については画像を配さないため、全ての画像は地名と対応づけて配置されることになるため、地名が対応付いていないために、画像の所在位置を他者に伝えられないといった事態も発生しない。
【0056】
本実施例の構成を用いない場合、例えば、疑似空間上での座標をユーザへ提示するといった手段も考えられるが、一般に人間は数字の羅列を記憶する事は得意でないため、言葉や地名になっている方が望ましい。また、本実施例は、疑似空間を地図と対応づけたが、前述したとおり、疑似空間で画像が配置される位置を任意の図形に限定できるので、地図で無い他の画像と対応づけることも可能である。更に言えば、今回疑似空間内での配置位置決定には自己組織化マップを用いたため、ベクトルマップ作成は容易に3次元へ拡張できる。例えば、3次元マップを人間の内臓と対応づければ、「胃の上の方」や「十二指腸の入り口あたり」といったように文書画像の位置を具体的に表現できる様になる。尚、自己組織化マップを3次元に拡張するためには、前記マップ作成方法に於いて、数式12と数式13を以下の数式14、数式15の様に3次元に拡張することで容易に実現できる。
【0057】
【数14】
【0058】
【数15】
【0059】
(第二の実施形態)
本発明に係る第二の実施形態(以下、実施例2)について説明する。実施例2は前記実施例1とほぼ構成を同じくするものであるが、全体図作成方法及び、ベクトルマップ作成方法に関して異なる。
【0060】
図7は第1の実施例において図4で示した全体図の作り方に相当する。特徴量ベクトル算出手段301は図4における特徴量ベクトル算出手段201と同様の動作を行うものとする。分類手段302は特徴量ベクトル算出手段301により得られた特徴量ベクトルを用いて画像を文書と、写真に分類する。尚、分類手段302の詳細については後述する。次に配置手段303は分類手段302により得られた分類結果と特徴量ベクトル算出手段301により得られた特徴量を用いて疑似空間に画像を配置する。
【0061】
続いて、図8は配置手段303の動作を示すブロック図である。図8の様に配置手段303は第1の配置手段402と第2の配置手段403という二つの配置手段を持っているものとする。特徴量ベクトル算出手段301により得られた特徴量ベクトルと分類手段302により得られた分類結果をセレクタ401に入力し、分類結果が写真である場合には、特徴量ベクトルを第1の配置手段402へ入力し、入力画像の配置される位置が決定される。また分類結果が文書画像である場合には、特徴量ベクトルを第2の配置手段403へと入力し、入力画像の配置される位置が決定される。両者によって配置が決められた後、各画像の位置が統合され、表示装置102へと送られる。
【0062】
ここで第1の配置手段402では、図9の様に北海道及び東北地方をといった地方区分を含む地図に於いて、写真と判定された画像情報を背景画像である地図内の地方区分のうち名称が北海道である位置に配置する。北海道の形に画像を配置する手段については前述したとおりであり、自己組織化マップによるベクトルマップの更新を行う際に北海道以外の領域をマスクしてやることにより、実現できる。
同様に、第2の配置手段402では画像情報を東北地域に配置する。ここで、北海道地域と東北地域は画像情報を配置できる配置可能領域であり、海は画像情報を配置できない配置禁止領域である。
【0063】
(画像分類方法に関する説明)
次に分類手段302について説明する。前述の通り、画像情報が入力されると、分類手段302では該入力画像が写真画像であるか文書画像であるかを判定する。分類は画像全体をアスペクト比を保ったまま600×600画素の矩形に収まる様に縮小した後、各画素の値を事前に学習させたSupport Vector Machine(SVM:非特許文献3参照)に入力することによって行う。
【0064】
(非特許文献3)
C. Cortes and V.N. Vapnik, "Support vector Networks," Machine Learning, vol.20, pp.273-297, 1995
【0065】
SVMは数式16で示すように入力ベクトルと重みベクトルωの内積が特定の閾値を超えていればy=1を超えていなければy=-1を出力する識別器であり、出力y=1のとき入力画像は文書画像であり、出力y=-1のとき、入力画像が写真画像であると判定するものとする。つまり、SVMの学習とは前記重みベクトルω、及び閾値hを決定する作業である。尚、SVMの学習についての詳細な説明は文献1に譲るが、その概要を以下で説明する。
【0066】
【数16】
【0067】
図10はSVMの動作の概要を示したものである。まず前提条件として、図の左に示すように○×で表される二つの種類のベクトル群が存在するものとする。SVMはこれら二つのクラスを最適に分離するための超平面(図の右参照)を決定するためのアルゴリズムといえる。SVMにおいて、二つのベクトル群を最適に分割するとは、未知のベクトルが入力されたときの対応能力、つまり汎化能力を最大とするということと等価である。これを実現するために、二つのベクトル群の境界位置に存在するベクトル(Support Vector)を見つけて、Support Vectorと超平面との距離が最大となるように超平面を設定する。
【0068】
ここで、実動作上、間違いの教師データも存在するため、間違いの許容量(ソフトマージン)を設定するパラメータを決める必要がある。以上は、線形SVMについての説明であるが、実際の教師データは線形判別できるベクトル群とは限らない。しかし、特徴量ベクトルを、より高次の空間に射影し(カーネルトリック)、その空間上で超平面を求めることで、非線形な問題にも対応できる。
【0069】
以上を実現するには、結果的に、教師データ(xi,yi)を用いて数式17の条件下で数式18を最大化するラグランジェ乗数ベクトルαiを求めることになる。その後ラグランジェ乗数ベクトルの要素のうち0でない要素に対応する教師データ群S(これがサポートベクタとなる)と、そのうち、任意の一つの教師データ(x0,y0)を用いて超平面のパラメータω,hを求める。(数式19,数式20)
【0070】
【数17】
【0071】
【数18】
【0072】
【数19】
【0073】
【数20】
【0074】
尚、上記数式に於いてK(x,y)はカーネルトリックを実現するためのカーネル関数を示す。カーネル関数には様々なものが考案されているが、今回の実施例ではRadial Basis Function(RBF)を用いた。RBFは数式21で示される関数でCは任意の数字である。以上述べたように、SVMを用いて学習を行うにはソフトマージンの許容量を設定するパラメータγとカーネル関数であるRBFを決定するためのCを設定する必要があるが、今回の実施例では、γ=1,C=1000を用いた。
【0075】
【数21】
【0076】
以上の様に、本実施例で説明した構成を用いれば、画像の画像の特徴によってカテゴライズし、カテゴライズした画像を地図上で明らかに異なる領域(本実施例では北海道と東北地方)に配することが可能である。このように画像を配することで、マップ型探索方法を用いて画像を探索するユーザは所望する画像が、マップにおいてどの付近に存在することを瞬時に判断可能である。そのため、ユーザはより効率的に所望の画像を探索することが出来る。尚、本実施例では画像を文書と写真の2クラスに分類したが、非特許文献4に示す様にマルチクラスに対応したサポートベクタマシンが提案されており、これを利用すれば、クラスの数は2に限定されるものではない。例えば4つのクラスに分けて、日本地図の北海道、本州、四国、九州に対応させることも容易に達成できる。また、画像の種類に応じて重要度を設定し、重要度の高い順に、面積の広い領域へと対応させることも可能である。
【0077】
(非特許文献4)
Jing Yang,et.al… A Parallel Multi-Class Classification Support Vector Machine Based on Sequential Minimal Optimization: First International Multi-Symposiums on Computer and Computational Sciences - Volume 1 (IMSCCS'06) pp. 443-446
【0078】
以上、本発明を、MFPに搭載されるコンピュータプログラムとして実施例を記載してきたが、表示装置等の画像表示手段に画像を表示させるための画像表示データを生成する画像表示データ生成手段として、コンピュータを機能させるための、次のようなプログラムを記録した機械読み取り可能な記録媒体にも適用が可能である。
【0079】
即ち、複数の画像データファイルにそれぞれ基づく複数の画像を並べて配設した画像一覧イメージを構築するイメージ構築処理と、該画像一覧イメージの全領域又は1部領域を画像表示手段に表示させるための表示データを出力した後、該画像表示手段の画面での該画像一覧イメージの表示領域や表示倍率を切り替えるための切り替え操作がユーザによってなされたことに基づいて、該画像一覧イメージの全領域のうち、該切り替え操作に応じた領域だけを画像表示手段に表示させるための表示データを出力する表示データ出力処理とを行う手段として、コンピュータを機能させるためのプログラムを記録している記録媒体である。
【図面の簡単な説明】
【0080】
【図1】実施形態に係る画像情報配置装置と、その周辺機器とを示すブロック図である。
【図2】画像情報配置装置によって構築される画像情報一覧イメージ図である。
【図3】検索形態となるポップアップウィンドウを示す図である。
【図4】第一の実施形態を示す概略フロー図である。
【図5】3画素×3画素のフィルタリングマトリクスを示す図である。
【図6】特徴量ベクトル算出手段によるテクスチャ特徴量の算出の説明図である。
【図7】第二の実施形態を示す概略フロー図である。
【図8】配置手段の動作を示す図である。
【図9】配置手段と地方区分の例を示す図である。
【図10】SVMの動作の概要を示した図である。
【図11】従来技術を示す図である。
【符号の説明】
【0081】
1 画像情報配置装置
100 MFP
101 処理装置
102 表示装置
103 キーボード
104 マウス
201,301 特徴量ベクトル算出手段
202,303,402,403 配置手段
302 分類手段
401 セレクタ
Ic 画像情報
【特許請求の範囲】
【請求項1】
複数の画像情報が擬似空間内に配置され、前記擬似空間内での視点の移動により、前記複数の画像情報を提示する画像情報配置装置において、前記画像情報から画像の視覚的な特徴を示すベクトルを算出する特徴量ベクトル算出手段と、前記画像情報から得られた特徴量ベクトルに基づいて特徴量の近い画像情報同士を近接させて配置する配置手段と、前記画像情報の背景位置に設けられ、特定の分類に分ける複数の区分を備えた背景画像を具備し、前記特徴量の近い一群の画像情報を、前記背景画像の一区分の領域上に配置することを特徴とする画像情報配置装置。
【請求項2】
前記画像情報配置装置は、前記画像情報から得られた特徴量ベクトルに基づいて、画像情報を所望のカテゴリに分類する分類手段を備えることを特徴とする請求項1記載の画像情報配置装置。
【請求項3】
前記画像情報配置装置における背景画像は、画像情報を配置できる配置可能領域と、画像情報を配置できない配置禁止領域とを有することを特徴とする請求項1または2記載の画像情報配置装置。
【請求項4】
前記画像情報配置装置における背景画像の複数の区分は、個別に名称が付され、前記名称が検索されることで、前記擬似空間内での視点を、検索された区分へと移動することを特徴とする請求項1から3のいずれか1項に記載の画像情報配置装置。
【請求項5】
前記画像情報配置装置における背景画像は地図であり、前記背景画像の区分は、前記地図内の地区区分又は地方区分であることを特徴とする請求項1から4のいずれか1項に記載の画像情報配置装置。
【請求項6】
前記画像情報配置装置における配置手段は、自己組織化マップにより配置されることを特徴とする請求項1記載の画像情報配置装置。
【請求項1】
複数の画像情報が擬似空間内に配置され、前記擬似空間内での視点の移動により、前記複数の画像情報を提示する画像情報配置装置において、前記画像情報から画像の視覚的な特徴を示すベクトルを算出する特徴量ベクトル算出手段と、前記画像情報から得られた特徴量ベクトルに基づいて特徴量の近い画像情報同士を近接させて配置する配置手段と、前記画像情報の背景位置に設けられ、特定の分類に分ける複数の区分を備えた背景画像を具備し、前記特徴量の近い一群の画像情報を、前記背景画像の一区分の領域上に配置することを特徴とする画像情報配置装置。
【請求項2】
前記画像情報配置装置は、前記画像情報から得られた特徴量ベクトルに基づいて、画像情報を所望のカテゴリに分類する分類手段を備えることを特徴とする請求項1記載の画像情報配置装置。
【請求項3】
前記画像情報配置装置における背景画像は、画像情報を配置できる配置可能領域と、画像情報を配置できない配置禁止領域とを有することを特徴とする請求項1または2記載の画像情報配置装置。
【請求項4】
前記画像情報配置装置における背景画像の複数の区分は、個別に名称が付され、前記名称が検索されることで、前記擬似空間内での視点を、検索された区分へと移動することを特徴とする請求項1から3のいずれか1項に記載の画像情報配置装置。
【請求項5】
前記画像情報配置装置における背景画像は地図であり、前記背景画像の区分は、前記地図内の地区区分又は地方区分であることを特徴とする請求項1から4のいずれか1項に記載の画像情報配置装置。
【請求項6】
前記画像情報配置装置における配置手段は、自己組織化マップにより配置されることを特徴とする請求項1記載の画像情報配置装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2009−230502(P2009−230502A)
【公開日】平成21年10月8日(2009.10.8)
【国際特許分類】
【出願番号】特願2008−75614(P2008−75614)
【出願日】平成20年3月24日(2008.3.24)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
【公開日】平成21年10月8日(2009.10.8)
【国際特許分類】
【出願日】平成20年3月24日(2008.3.24)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】
[ Back to top ]