説明

メタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法

【課題】ファイルに保存された文書情報からは抽出できない情報によりファイルの探索を行うことを課題とする。
【解決手段】メタデータ付与部140は、イントラネットウェブサイト10からウェブページ(HTMLファイル)を取得する。そして、メタデータ付与部140は、ウェブページ(HTMLファイル)にハイパーリンクが埋め込まれている場合には、ハイパーリンクのリンク先となるファイルを取得し、HTMLファイルとともにメタデータ抽出部150に送信する。メタデータ抽出部150は、ハイパーリンクのリンク先となるファイルと、ハイパーリンクのリンク元であるHTMLファイルとを用いて、リンク先のファイルに関するメタデータを抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法に関する。
【背景技術】
【0002】
昨今、企業や個人の活動においてIT(Infomation Technology)を活用することで、所定のアプリケーションを用いて作成された電子情報は、いわゆるファイルという形式で管理されている。これらのファイルは、相当数が日々作成され、その蓄積数も増加し続けている。このように、膨大な数に膨れ上がった様々なファイルの中から、企業や個人の活動にとって有益な情報を最小限の手間で的確に取得するための情報の分類方法や発見方法が求められている。
【0003】
例えば、情報分類の一手法として、メタデータによる情報分類方法が注目されている。ここで、メタデータとは、例えば、あるデータに関する情報が所定の形式で表現されたデータであり、属性名および属性値の2つの要素の組合せで構成される。例えば、あるファイルAがあり、このファイルAの作成者が太郎である場合には、「属性名(著者):属性値(太郎)」の組がファイルAのメタデータとなる。つまり、このメタデータは、ファイルAに関する情報として、ファイルAの作成者の情報を所定の形式で表現したものとなっている。このメタデータによる情報分類方法を利用すれば、膨大な数のファイルを様々な観点から探索することができる。
【0004】
ここで、例えば、文書情報が保存されているファイルからキーワードを自動抽出する方法がある。この方法は、まず、ファイルに保存されている文書情報の頻出語を取り出し、取り出した頻出語と他の各語との共起頻度を求める。続いて、この方法は、共起頻度の偏り方を頻出語の重要度を表す指標として用いることにより、文書情報からキーワードを抽出する。文書情報から抽出されたキーワードは、この文書情報を保存するファイルに関するデータであるので上述したメタデータとなり得る。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】松尾豊、石塚満著 「語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム」、人工知能学会論文誌、17巻3号D、p.217〜223、2002年
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、上述したキーワードの自動抽出方法により抽出されたキーワードをメタデータとしてファイルに付与し、このキーワードをファイルの探索に用いることも考えられる。しかしながら、上述したキーワードの自動抽出方法は、ファイルに保存された文書情報からキーワードを抽出するものである。よって、ファイルに保存されている文書本文から抽出できない情報は、メタデータとしてファイルに付与することができない。例えば、ファイル作成者の氏名、ファイル作成者の所属する組織名、ファイル作成者の連絡先、ファイル作成者の技術分野などの情報は、文書本文から抽出することが難しいものと考えられる。よって、上述したキーワードの自動抽出方法により抽出したキーワードをファイルの探索に用いた場合には、文書本文から抽出できない情報によりファイルの探索を行うことができないという問題がある。
【0007】
なお、上述したキーワードの自動抽出方法により、例えば、文書本文から人名がキーワードとして抽出される場合もある。よって、ファイル作成者の氏名を用いたファイルの探索は可能なようにも思える。しかしながら、抽出された人名がファイル作成者を示すものであるかどうかを判別することは困難であるので、上述したキーワードの自動抽出方法を用いても、ファイル作成者の情報によるファイルの探索が難しいことには変わりはない。
【0008】
本発明は、上記に鑑みてなされたものであって、ファイルに保存された文書情報からは抽出できない情報によりファイルの探索を行うことが可能なメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決し、目的を達成するために、本発明は、複数の構造化データを有するウェブサイトおよび複数のファイルが保存されるファイル共有装置にアクセス可能なメタデータ付与装置であって、前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出部と、前記リンク先のファイルに対して、前記抽出部により抽出されたメタデータを付与する付与部とを有することを特徴とする。
【0010】
また、本発明は、複数の構造化データを有するウェブサイトおよび複数のファイルを保存するファイル共有装置にアクセス可能なメタデータ付与装置で実行されるメタデータ付与方法であって、前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出工程と、前記リンク先のファイルに対して、前記抽出工程により抽出されたメタデータを付与する付与工程とを含んだことを特徴とする。
【0011】
また、本発明は、複数の構造化データを有するウェブサイトおよび複数のファイルを保存するファイル共有装置にアクセス可能なメタデータ付与装置としてのコンピュータに実行させるメタデータ付与プログラムであって、前記コンピュータに、前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出ステップと、前記リンク先のファイルに対して、前記抽出ステップにより抽出されたメタデータを付与する付与ステップとを実行させることを特徴とする。
【発明の効果】
【0012】
本発明によれば、ファイルに保存された文書情報からは抽出できない情報によりファイルの探索を行うことができるという効果を奏する。
【図面の簡単な説明】
【0013】
【図1】図1は、実施例1の全体構成例を示す図である。
【図2】図2は、実施例1に係るメタデータ付与装置の構成を示す機能ブロック図である。
【図3】図3は、実施例1に係る名簿・周辺情報DB110に記憶される情報の一例を示す図である。
【図4】図4は、実施例1に係るメタデータ判定ルールDB120に記憶される情報の一例を示す図である。
【図5】図5は、メタデータの一例を示す図である。
【図6】図6は、実施例1に係るメタデータの構造モデルを示す図である。
【図7】図7は、実施例1に係るメタデータの表現形式の一例を示す図である。
【図8】図8は、実施例1に係るメタデータの記憶形式の一例を示す図である。
【図9】図9は、実施例1に係るHTMLファイルを用いたメタデータの抽出方法の説明に用いる図である。
【図10】図10は、実施例1に係るHTMLファイルを用いたメタデータの抽出方法の説明に用いる図である。
【図11】図11は、実施例1に係るファイルFの内容および名簿・周辺情報を用いたメタデータの抽出方法の説明に用いる図である。
【図12】図12は、実施例1に係るファイル間の類似度に応じたメタデータの付与の説明に用いる図である。
【図13】図13は、実施例1に係るメタデータ付与装置による処理の流れを示す図である。
【図14】図14は、メタデータ付与プログラムを実行する電子機器の一例を示す図である。
【発明を実施するための形態】
【0014】
以下に、図面を参照しつつ、本願が開示するメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法の一実施形態について詳細に説明する。後述する各実施例は一実施形態にすぎず、本願の開示するメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法を限定するものではない。また、後述する各実施例は処理内容に矛盾を生じさせない範囲で適宜組み合わせることもできる。
【実施例1】
【0015】
図1は、実施例1の全体構成例を示す図である。図1に示すように、実施例1に係るメタデータ付与装置100は、企業内ネットワークとして利用するイントラネット1を介して、イントラネットウェブサイト10、第1ファイル共有システム20および第2ファイル共有システム30に接続する。なお、例えば、LAN(Local Area Network)やVPN(Virtual Private Network)など、企業内ネットワークとして使用可能なネットワークをイントラネット1の代わりに利用することもできる。
【0016】
イントラネットウェブサイト10は、例えば、ある企業内において、技術報告資料などをまとめたポータルサイトに該当する。イントラネットウェブサイト10は、イントラネット1に接続されたコンピュータのブラウザで閲覧可能なウェブページで、たとえば技術報告資料などを公開する。また、イントラネットウェブサイト10により公開されるウェブページは、例えば、HTML(Hyper Text Markup Language)形式のテキストファイルのような構造化データである。なお、ウェブページの形式は、HTMLのような構造化データに限られるものではなく、XML(Extensible Markup Language)形式のような構造化データを用いることもできる。
【0017】
第1ファイル共有システム20は、イントラネットウェブサイト10がウェブページとして提供するHTMLファイルとハイパーリンクで関連付けられたファイルを保存する。なお、第1ファイル共有システム20に保存されるファイルは、技術報告資料などの文章ファイルである。第2ファイル共有システム30は、イントラネットウェブサイト10がウェブページとして提供するHTMLファイルとはハイパーリンクで関連付けられていないファイルを保存する。
【0018】
[メタデータ付与装置の構成(実施例1)]
図2は、実施例1に係るメタデータ付与装置の構成を示す機能ブロック図である。図2に示すように、メタデータ付与装置100は、名簿・周辺情報DB110と、メタデータ判定ルールDB120と、メタデータDB130と、メタデータ付与部140と、メタデータ抽出部150と、類似度計算部160とを有する。
【0019】
名簿・周辺情報DB110は、作成ファイルの保存やファイルの探索など、第1ファイル共有システム20および第2ファイル共有システム30を利用する企業内の利用者の属性情報を記憶する。ここで、利用者の属性情報とは、例えば、利用者の氏名、所属する組織名、連絡先および技術分野などの利用者に関する情報である。例えば、名簿・周辺情報DB110は、利用者を特定するIDごとに、利用者の名前、電話番号、所属、技術分野、所属期間を利用者の属性情報として記憶する。
【0020】
図3は、実施例1に係る名簿・周辺情報DB110に記憶される情報の一例を示す図である。図3に示すように、名簿・周辺情報DB110は、例えば、ID「101」、名前「A」に対応付けて、電話「928」、所属「○○」、技術分野「Webサービス,SOA」および所属機関「4年3ヶ月」を記憶する。なお、SOAとは、サービス指向アーキテクチャ(Service Oriented Architecture)と呼称され、大規模なシステムを大きなサービスの集まりとして設計する手法のことである。
【0021】
メタデータ判定ルールDB120は、第2ファイル共有システム30に保存されたファイルのうち、第1ファイル共有システム20に保存されたファイルに類似するファイルに対してメタデータを付与するためのルールを記憶する。メタデータ判定ルールDB120は、属性名ごとに閾値を記憶する。なお、メタデータDB130で詳述するが、属性名はメタデータの構成要素であり、対応する属性値との間で1つの組合せを構成する。
【0022】
図4は、実施例1に係るメタデータ判定ルールDB120に記憶される情報の一例を示す図である。例えば、メタデータ判定ルールDB120は、図4に示すように、属性名「著書or作者・・・」に対応付けて閾値「0.8」を記憶し、属性名「題名orタイトル・・・」に対応付けて閾値「0.9」を記憶する。また、メタデータ判定ルールDB120は、図4に示すように、属性名「技術分野」に対応付けて閾値「0.6」を記憶し、属性名「所属」に対応付けて閾値「0.8」を記憶する。
【0023】
なお、図4に示すメタデータ判定ルールDB120に記憶されるルールは、後述するメタデータ付与部140により参照されるが、閾値の取り扱いについて説明する。例えば、第1ファイル共有システム20に保存されたファイルと第2ファイル共有システム30に保存されたファイルとの類似度が「0.7」であるとする。この場合、属性名「技術分野」に対応付けられている閾値「0.6」は、類似度「0.7」よりも小さいので、第1ファイル共有システム20に保存されたファイルの属性値を第2ファイル共有システム30に保存されたファイルに付与することが許容される。
【0024】
メタデータDB130は、第1ファイル共有システム20に保存されたファイルや第2ファイル共有システム30に保存されたファイルに関するメタデータを記憶する。メタデータは、ファイルに関する情報が所定の形式で表現されたデータであり、例えば、属性名および属性値の組合せで構成される。
【0025】
図5は、メタデータの一例を示す図である。例えば、図5に示す「タイトル」、「著者」、「技術用語」、「更新日時」、「報告年月日」は属性名に該当する。そして、図5に示す「Webサービス動向調査」は、属性名「タイトル」の属性値である。また、図5に示す「特許一郎、意匠太郎」は、属性名「著者」の属性値である。また、図5に示す「Webサービス」は、属性名「技術用語」の属性値である。また、図5に示す「2006年4月22日」は、属性名「更新日時」の属性値である。また、図5に示す「2006年7月11日」は、属性名「報告年月日」の属性値である。なお、図6に、図5に示すメタデータの構造モデルを示し、図7に、図5に示すメタデータの表現形式の一例を示す。図6は、実施例1に係るメタデータの構造モデルを示す図である。図7は、実施例1に係るメタデータの表現形式の一例を示す図である。
【0026】
そして、メタデータDB130は、例えば、図8に示すように、属性名と属性値との組合せにより、図5に示すメタデータを記憶する。図8は、実施例1に係るメタデータの記憶形式の一例を示す図である。図8に示すように、メタデータDB130は、第1ファイル共有システム20や第2ファイル共有システム30に保存されるファイルに一意に付与される資料IDに対応付けて、属性名および属性値を記憶する。例えば、メタデータDB130は、ID「#1」に対応付けて、属性名「タイトル」および属性値「Webサービス動向調査」を記憶する。同様にして、メタデータDB130は、図8に示すように、図5に示すメタデータを記憶する。なお、メタデータDB130へのメタデータの格納は、ファイルへのメタデータの付与を意味する。
【0027】
上述してきた名簿・周辺情報DB110、メタデータ判定ルールDB120およびメタデータDB130は、例えば、所定の操作言語を用いて操作可能なリレーショナルデータベースとしてデータを管理することができる。また、上述してきた名簿・周辺情報DB110、メタデータ判定ルールDB120およびメタデータDB130は、サーバやストレージ、パーソナルコンピュータなどの汎用のハードウェアにより実装できる。また、名簿・周辺情報DB110、メタデータ判定ルールDB120およびメタデータDB130は、上述した汎用のハードウェアではなく、大容量のハードディスクなどの記憶媒体により実現することもできる。
【0028】
メタデータ付与部140はメタデータを付与する。メタデータ抽出部150はメタデータを抽出する。類似度計算部160はファイル間の類似度を計算する。以下、適宜図面を参照しつつ、メタデータ付与部140、メタデータ抽出部150および類似度計算部160の動作について説明する。
【0029】
例えば、メタデータ付与部140は、イントラネットウェブサイト10からウェブページを1つ取得する。そして、メタデータ付与部140は、取得したウェブページ、つまりHTMLファイルにハイパーリンクが埋め込まれているかどうかを判定する。判定の結果、ハイパーリンクが埋め込まれている場合には、メタデータ付与部140は、ハイパーリンクのリンク先となるファイルを第1ファイル共有システム20から取得する。なお、以下では、説明の便宜上、第1ファイル共有システム20から取得したファイルをファイルFと表記して説明する。続いて、メタデータ付与部140は、ファイルFおよびHTMLファイルをメタデータ抽出部150に送信する。
【0030】
メタデータ抽出部150は、メタデータ付与部140からファイルFおよびHTMLファイルを受信すると、まず、HTMLファイルを用いてファイルFに関するメタデータを抽出する。以下、図9および図10を参照しつつ、HTMLファイルを用いたメタデータの抽出について説明する。図9および図10は、実施例1に係るHTMLファイルを用いたメタデータの抽出方法の説明に用いる図である。
【0031】
例えば、メタデータ抽出部150は、HTMLファイルの文書構造、たとえば表構造に基づいて、HTMLファイルに記述されたソースコードからメタデータを抽出することができる。すなわち、メタデータ抽出部150は、HTMLファイルのテーブルタグ内の1行目の各セルの情報を属性名として抽出し、テーブルタグ内の各列の情報を属性値として抽出する。
【0032】
図9は、HTMLファイルの表構造に基づいてメタデータを抽出する方法を示す。例えば、図9に示すように、メタデータ抽出部150は、テーブルタグの1行目に対応する各セルのデータの中から「資料番号」を属性名としてソースコードから抽出する。そして、メタデータ抽出部150は、図9に示すように、テーブルタグの1列目に対応するデータ「1」を、属性名「資料番号」に対応する属性値としてソースコードから抽出する。同様に、メタデータ抽出部150は、図9に示すように、テーブルタグの1行目に対応する各セルのデータの中から「資料種別」を属性名として抽出する。そして、メタデータ抽出部150は、図9に示すように、テーブルタグの2列目に対応する「一般誌」を、属性名「資料種別」に対応する属性値として抽出する。同様に、メタデータ抽出部150は、図9に示すように、テーブルタグの1行目に対応する各セルのデータの中から「筆頭著者」を属性名として抽出する。そして、メタデータ抽出部150は、図9に示すように、テーブルタグの3列目に対応する「A」を、属性名「筆頭著者」に対応する属性値として抽出する。同様に、メタデータ抽出部150は、図9に示すように、テーブルタグの1行目に対応する各セルのデータの中から「所属」を属性名として抽出する。そして、メタデータ抽出部150は、図9に示すように、テーブルタグの4列目に対応する「○○」を、属性名「所属」に対応する属性値として抽出する。同様に、メタデータ抽出部150は、図9に示すように、テーブルタグの1行目に対応する各セルのデータの中から「登録年月日」を属性名として抽出する。そして、メタデータ抽出部150は、図9に示すように、テーブルタグの5列目に対応する「20060422」を、属性名「登録年月日」に対応する属性値として抽出する。同様に、メタデータ抽出部150は、図9に示すように、テーブルタグの1行目に対応する各セルのデータの中から「題名」を属性名として抽出する。そして、メタデータ抽出部150は、図9に示すように、テーブルタグの6列目に対応する「〜についての検討」を、属性名「題名」に対応する属性値として抽出する。
【0033】
そして、メタデータ抽出部150は、抽出した属性名と属性値との組合せを統合して、HTMLファイルを用いたメタデータの抽出を完了する。例えば、図9に示すように、メタデータ抽出部150は、「資料番号:1、資料種別:一般誌、筆頭著者:A、所属:○○、登録年月日:20060422、題名:〜についての検討」をメタデータとして抽出し、抽出を完了する。
【0034】
また、メタデータ抽出部150は、HTMLファイルの文書構造、たとえば見出し構造に基づいて、HTMLファイルに記述されたソースコードからメタデータを抽出することもできる。すなわち、メタデータ抽出部150は、HTMLファイルの見出し構造に基づいて、見出しタグに対応する親要素を属性名として抽出し、親要素に対応する子要素を属性値として抽出する。図10は、HTMLファイルの見出し構造に基づいてメタデータを抽出する方法を示す。例えば、図10に示すように、メタデータ抽出部150は、HTMLファイルのソースコード内で親要素および子要素の組合せをそれぞれ特定し、特定した各組合せをツリー構造で表現する。そして、メタデータ抽出部150は、ツリー構造の親要素を属性名として抽出し、子要素を属性値として抽出する。例えば、図10に示すように、メタデータ抽出部150は、親要素である「資料番号」を属性名として抽出し、親要素に対応する子要素である「1」を属性値として抽出する。
【0035】
そして、メタデータ抽出部150は、図10に示すように、抽出した属性名と属性値との組合せを統合して、HTMLファイルを用いたメタデータの抽出を完了する。例えば、図10に示すように、メタデータ抽出部150は、「資料番号:1、資料種別:一般誌、著者:A,B、所属:○○、登録年月日:20060422、題名:〜についての検討」をメタデータとして抽出し、抽出を完了する。
【0036】
以上、HTMLファイルを用いたメタデータの抽出について説明してきた。続いて、メタデータ抽出部150は、ファイルFの内容(文書の内容)および名簿・周辺情報DB110に記憶されている名簿・周辺情報を用いて、ファイルFに関するメタデータを抽出する。以下、図11を参照しつつ、ファイルFの内容および名簿・周辺情報を用いたメタデータの抽出について説明する。図11は、実施例1に係るファイルFの内容および名簿・周辺情報を用いたメタデータの抽出方法の説明に用いる図である。
【0037】
メタデータ抽出部150は、名簿・周辺情報DB110に記憶されている名簿・周辺情報を取得する。続いて、メタデータ抽出部150は、既存の方法により、ファイルFの文書から所定の基準で単語や熟語などを抽出する。続いて、メタデータ抽出部150は、ファイルFからの抽出語と、ファイルFの作成者(筆頭著者など)に対応する名簿・周辺情報の技術分野とを比較する。比較の結果、メタデータ抽出部150は、ファイルFからの抽出語と、名簿・周辺情報の技術分野との間で一致する語があれば、名簿・周辺情報の技術分野の情報をメタデータとして抽出する。例えば、メタデータ抽出部150は、図11に示すように、「Webサービス、パターン、ログ」の3語をファイルFから抽出したとする。このとき、名簿・周辺情報の技術分野「Webサービス,SOA」と抽出後「Webサービス、パターン、ログ」との間で「Webサービス」が一致する。よって、メタデータ抽出部150は、名簿・周辺情報の技術分野「Webサービス,SOA」を全てメタデータとして抽出する。つまり、メタデータ抽出部150は、属性名「技術分野」と属性値「Webサービス,SOA」の組合せをメタデータとして抽出する。なお、メタデータ抽出部150は、ファイルFからの抽出語と、名簿・周辺情報の技術分野との間で一致する語がない場合には、メタデータの抽出を行わない。
【0038】
図9から図11を参照しつつ説明してきたように、メタデータ抽出部150は、ウェブページ(HTMLファイル)とハイパーリンクで関連付けられたファイルFに関するメタデータを抽出する。そして、メタデータ抽出部150は、抽出したメタデータをメタデータ付与部140に送信する。
【0039】
メタデータ付与部140は、メタデータ抽出部150からメタデータを受信すると、受信したメタデータを、第1ファイル共有システム20から取得したファイルに対応付けてメタデータDB130に格納する。つまり、メタデータ付与部140は、HTMLファイル(ウェブページ)とハイパーリンクで関連付けられたファイルにメタデータを付与する。
【0040】
次に、メタデータ付与部140は、第2ファイル共有システム30からファイルを1つ取得し、ファイルFとともに類似度計算部160に送信する。なお、以下では、説明の便宜上、第2ファイル共有システム30から取得したファイルをファイルFと表記して説明する。
【0041】
類似度計算部160は、メタデータ付与部140からファイルFとファイルFを受信すると、既存のベクトル空間モデルに基づいて、ファイルFとファイルFとの間のファイル間の類似度を計算する。類似度計算部160は、tf/idf法を用いて、ファイルFの文書情報からファイルFの特徴ベクトルを生成するとともに、ファイルFの文書情報からファイルFの特徴ベクトルを生成する。類似度計算部160は、以下の手順で特徴ベクトルを生成する。
【0042】
まず、類似度計算部160は、ファイルにおけるタームの出現頻度およびタームが出現するファイル数に基づいて、ファイルにおけるタームの重みを計算する。例えば、ファイルFにおけるタームtの重みは、以下の式(1)により表すことができる。
【0043】
【数1】

【0044】
続いて、類似度計算部160は、ファイルにおけるタームの重みの和からファイルの特徴ベクトルを生成する。例えば、ファイルFの特徴ベクトルは以下の式(2)で表すことができ、ファイルFの特徴ベクトルは以下の式(3)で表すことができる。
【0045】
【数2】

【0046】
【数3】

【0047】
ファイルFおよびファイルFの特徴ベクトルをそれぞれ計算した後、類似度計算部160は、ファイルFの特徴ベクトルとファイルFの特徴ベクトルとのコサイン相関値(内積)を求める。なお、コサイン相関値は、以下の式(4)で表される。
【0048】
【数4】

【0049】
そして、類似度計算部160は、このコサイン相関値をファイルFとファイルFとの間の類似度として、メタデータ付与部140に送信する。
【0050】
メタデータ付与部140は、ファイルFとファイルFとの間の類似度を類似度計算部160から受信すると、ファイルFとファイルFとの間の類似度に応じて、ファイルFに対してメタデータを付与する。以下、図12を参照しつつ、ファイル間の類似度に応じたメタデータの付与について説明する。図12は、実施例1に係るファイル間の類似度に応じたメタデータの付与の説明に用いる図である。
【0051】
まず、メタデータ付与部140は、メタデータ判定ルールDB120から判定ルールを取得する。次に、メタデータ付与部140は、判定ルールを参照して、ファイルFとファイルFとの間の類似度が閾値を越えている属性名を特定する。続いて、メタデータ付与部140は、メタデータDB130に格納したファイルFの属性値のうち、ファイルFとファイルFとの間の類似度が閾値を越えているものと特定した属性名に対応する属性値をメタデータDB130から取得する。例えば、図12に示すように、ファイルFとファイルFとの間の類似度が閾値を越えているものと特定された属性名が「技術分野」であるとする。この場合には、メタデータ付与部140は、ファイルFの属性値のうち、属性名「技術分野」に対応する属性値「Webサービス,SOA」をメタデータDB130から取得する。そして、メタデータ付与部140は、図12に示すように、属性名「技術分野」と属性値「Webサービス,SOA」との組合せで構成されたメタデータを、ファイルFのメタデータとしてメタデータDB130に格納する。
【0052】
ファイルFへのメタデータの付与が完了すると、メタデータ付与部140は、第2ファイル共有システム30から全てのファイルを取得したか否かを判定する。判定の結果、全てのファイルを取得していない場合には、メタデータ付与部140は、第2ファイル共有システム30から、また1つファイルを取得して、ファイルFとの類似度を計算し、メタデータの付与を行う。一方、判定の結果、全てのファイルを取得済みである場合には、メタデータ付与部140は、イントラネットウェブサイト10のHTMLファイル(ウェブページ)を全て取得したか否かを判定する。判定の結果、HTMLファイルを全て取得していない場合には、メタデータ付与部140は、イントラネットウェブサイト10から、また1つHTMLファイルを取得し、ハイパーリンクが埋め込まれているかどうかの判定を行う。一方、判定の結果、HTMLファイルを全て取得している場合には、メタデータ付与部140は、処理を終了する。
【0053】
上述してきたメタデータ付与部140、メタデータ抽出部150および類似度計算部160は、例えば、電子回路や集積回路により実装できる。電子回路としては、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)がある。また、集積回路としては、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などがある。
【0054】
[メタデータ付与装置による処理(実施例1)]
図13を用いて、実施例1に係るメタデータ付与装置による処理の流れを説明する。図13は、実施例1に係るメタデータ付与装置による処理の流れを示す図である。
【0055】
図13に示すように、メタデータ付与部140は、イントラネットウェブサイト10のHTMLファイル(ウェブページ)を1つ取得する(ステップS101)。そして、メタデータ付与部140は、取得したHTMLファイルにハイパーリンクが埋め込まれているかどうかを判定する(ステップS102)。
【0056】
判定の結果、ハイパーリンクが埋め込まれていない場合には(ステップS102,No)、メタデータ付与部140は、上述したステップS101に戻り、イントラネットウェブサイト10のHTMLファイル(ウェブページ)をまた1つ取得する。
【0057】
一方、判定の結果、ハイパーリンクが埋め込まれている場合には(ステップS102,Yes)、メタデータ付与部140は、第1ファイル共有システム20からリンク先のファイルFを取得する(ステップS103)。続いて、メタデータ付与部140は、S103で取得したリンク先のファイルF、およびS101で取得したHTMLファイルをメタデータ抽出部150に送信する(ステップS104)。
【0058】
メタデータ抽出部150は、メタデータ付与部140からファイルFおよびHTMLファイルを受信すると、HTMLファイルを用いてメタデータを抽出する(ステップS105)。次に、メタデータ抽出部150は、名簿・周辺情報DB110に記憶されている名簿・周辺情報を取得する(ステップS106)。続いて、メタデータ抽出部150は、S103で取得したファイルF、および名簿・周辺情報を用いてメタデータを抽出する(ステップS107)。そして、メタデータ抽出部150は、S105およびS107で抽出したメタデータをメタデータ付与部140に送信する(ステップS108)。
【0059】
メタデータ付与部140は、メタデータ抽出部150からメタデータを受信すると、受信したメタデータを、S103で取得したリンク先のファイルFに対応付けてメタデータDB130に格納する(ステップS109)。続いて、メタデータ付与部140は、第2ファイル共有システム30からファイルFを1つ取得する(ステップS110)。そして、メタデータ付与部140は、S103で取得したファイルFおよびS110で取得したファイルFを類似度計算部160に送信する(ステップS111)。
【0060】
類似度計算部160は、メタデータ付与部140からファイルFとファイルFを受信すると、既存のベクトル空間モデルに基づいて、ファイルFとファイルFとの間のファイル間の類似度を計算し、メタデータ付与部140に送信する(ステップS112)。
【0061】
メタデータ付与部140は、ファイルFとファイルFとの間の類似度を類似度計算部160から受信すると、メタデータ判定ルールDB120から判定ルールを取得する(ステップS113)。次に、メタデータ付与部140は、判定ルールを参照して、ファイルFとファイルFとの間の類似度が閾値を越えている属性名を特定する(ステップS114)。続いて、メタデータ付与部140は、メタデータDB130に格納したファイルFの属性値のうち、ファイルFとファイルFとの間の類似度が閾値を越えているものと特定した属性名に対応する属性値をメタデータDB130から取得する(ステップS115)。そして、メタデータ付与部140は、S115で取得した属性値をファイルFのメタデータとしてメタデータDB130に格納する(ステップS116)。
【0062】
ファイルFへのメタデータの付与が完了すると、メタデータ付与部140は、第2ファイル共有システム30から全てのファイルを取得したか否かを判定する(ステップS117)。判定の結果、全てのファイルを取得していない場合には(ステップS117,No)、メタデータ付与部140は、上述したステップS110に戻り、第2ファイル共有システム30から、また1つファイルを取得する。
【0063】
一方、判定の結果、全てのファイルを取得済みである場合には(ステップS117,Yes)、メタデータ付与部140は、イントラネットウェブサイト10のHTMLファイル(ウェブページ)を全て取得したか否かを判定する(ステップS118)。判定の結果、HTMLファイルを全て取得していない場合には(ステップS118、No)、メタデータ付与部140は、上述したステップS101に戻り、イントラネットウェブサイト10から、また1つHTMLファイルを取得する。一方、判定の結果、HTMLファイルを全て取得している場合には(ステップS118、Yes)、メタデータ付与部140は、処理を終了する。
【0064】
[実施例1による効果]
上述してきたように、メタデータ付与装置100は、ウェブサイトで公開されているHTMLファイルに埋め込まれたハイパーリンクのリンク先のファイルについて、ハイパーリンクのリンク元であるHTMLファイルからメタデータを抽出する。そして、メタデータ付与装置100は、抽出したメタデータを、ハイパーリンクのリンク先のファイルに付与する。このように、メタデータ付与装置100は、例えば、HTMLファイルのリンク先となるファイルに保存されている文書情報からは抽出できない情報を、リンク元であるHTMLファイルから抽出してメタデータとして付与することができる。このため、実施例1によれば、ファイルに保存されている文書情報からは抽出できない情報によりファイルの探索を行うことができる。
【0065】
また、メタデータ付与装置100は、HTMLファイルに埋め込まれたハイパーリンクのリンク先のファイルに保存されている文書情報と、名簿・周辺情報DB110に記憶された名簿・周辺情報とに基づいてメタデータを抽出する。このため、実施例1によれば、リンク元であるHTMLファイルから抽出できる情報に加えて、ファイルの作成者の名前、電話番号、所属、技術分野、所属期間など複数の情報を簡易かつ効率的に抽出できる。
【0066】
また、メタデータ付与装置100は、HTMLファイルの文書構造を解析し、その文書構造に従ってHTMLファイルに記述された情報を、HTMLファイルの埋め込まれたハイパーリンクのリンク先となるファイルに関するメタデータとして抽出する。このため、実施例1によれば、HTMLファイルのリンク先となるファイルに関するメタデータを、リンク元であるHTMLファイルから簡易かつ効率的に抽出できる。
【0067】
また、メタデータ付与装置100は、HTMLファイルとリンクされたファイルと、HTMLファイルとはリンクされていないファイルとの類似度を計算する。そして、メタデータ付与装置100は、ファイル間の類似度に応じて、HTMLファイルとリンクされたファイルに対して付与したメタデータを、HTMLファイルとリンクされていないファイルに付与する。このため、HTMLファイルとリンクされていないファイルに対しても、ファイルに保存されている文書情報からは抽出できない情報をメタデータとして付与することができる。
【0068】
また、メタデータ付与装置100は、HTMLファイルとリンクされたファイルの特徴ベクトルと、HTMLファイルとはリンクされていないファイルの特徴ベクトルとの相関から類似度を計算する。このため、実施例1によれば、簡易な方法によりファイル間の類似度を計算できる。
【0069】
また、上述した実施例1では、HTMLファイルとリンクされたファイルについて、リンク元であるHTMLファイルから抽出した情報、リンク先となるファイルの文書情報および名簿・周辺情報に基づいて抽出した情報をメタデータとして付与する。しかし、必ずしも、双方の抽出をシリアルに実行する必要はなく、ハイパーリンクのリンク元であるHTMLファイルからの情報の抽出のみを行い、リンク先となるファイルにメタデータとして付与することもできる。このようにすれば、ファイルの数が膨大となった場合でも、極力処理負担を減らしつつ、HTMLファイルのリンク先となるファイルについて、このファイルに保存されている文章情報からは抽出できない情報を、少なからずメタデータとして付与することができる。
【0070】
また、例えば、HTMLファイルに埋め込まれた複数のハイパーリンクが埋め込まれており、各ハイパーリンクについてリンク先となるファイルがある場合も考えられる。このような場合には、実施例1のメタデータ付与装置100は、リンク先となる各ファイルについて、実施例1で説明した方法(例えば、図13参照)によりメタデータの付与を行うことができる。
【0071】
また、上記の実施例1では、イントラネットウェブサイト10にて公開されているウェブページとリンクされたファイルについて、リンク元のウェブページであるHTMLファイルからメタデータ抽出する場合を説明した。実施例1は、企業内で公開されているウェブサイトと、ファイル共有装置に保存されているファイルとを関連付けて運用されていることが一般的であるという企業の特殊性を鑑みたものである。ここで、実施例1のメタデータ付与装置100による処理は、企業内の特殊性に合わせた形態以外にも適用することができる。例えば、あるファイルサーバに保存されているファイルと、他のファイルサーバに保存されているファイルがハイパーリンク等で関連付けられているような場合を考える。このような場合にも、実施例1で説明したメタデータ付与装置100の処理により、ハイパーリンク等で関連付けられているファイル間でメタデータの抽出を行うことができる。
【実施例2】
【0072】
以下、本発明にかかるメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法の他の実施形態として実施例2を説明する。
【0073】
(1)装置構成等
図1に示した実施例1の全体構成は、必ずしも物理的に図示の如く構成されていることを要しない。例えば、第1ファイル共有システム20および第2ファイル共有システム30が物理的に統合された1つのシステムであってもよい。また、図2に示したメタデータ付与装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、メタデータ付与装置100の分散または統合の具体的形態は図示のものに限られず、例えば、メタデータ付与部140とメタデータ抽出部150とが機能的または物理的に統合されていてもよい。このように、メタデータ付与装置100の各構成要素の全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0074】
(2)メタデータ付与プログラム
また、実施例1で説明したメタデータ付与装置100の各種の処理(例えば、図13等参照)は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどの電子機器で実行することによって実現することができる。そこで、以下では、図14を用いて、実施例1で説明したメタデータ付与装置100と同様の機能を有するメタデータ付与プログラムを実行する電子機器の一例を説明する。図14は、メタデータ付与プログラムを実行する電子機器の一例を示す図である。
【0075】
図14に示すように、メタデータ付与装置100が有する機能と同様の機能を有する電子機器200は、CPU(Central Processing Unit)210、通信インターフェース220、ハードディスク装置230およびメモリ240を有する。そして、CPU210、通信インターフェース220、ハードディスク装置230およびメモリ240は、バス250を介して接続される。
【0076】
CPU210は、各種演算処理を実行する。なお、電子機器200は、CPU210の代わりに、例えば、MPU(Micro Processing Unit)などの電子回路、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路を用いることもできる。
【0077】
通信インターフェース220は、外部との各種情報のやり取りに関する通信を制御する。また、ハードディスク装置230は、CPU210による各種処理の実行に必要な情報を記憶する。また、メモリ240は、各種情報を一時的に記憶する。なお、メモリ240は、例えば、RAM(Random Access Memory)やフラッシュメモリ(flash memory)などの半導体メモリ素子を用いて実装できる。
【0078】
ハードディスク装置230には、メタデータ付与装置100が有する機能と同様の機能を発揮するメタデータ付与プログラム231およびメタデータ付与用データ232が記憶されている。なお、このメタデータ付与プログラム231を適宜分散させて、ネットワークを介して通信可能に接続された他のコンピュータの記憶部に記憶させておくこともできる。
【0079】
そして、CPU210が、メタデータ付与プログラム231をハードディスク装置230から読み出してメモリ240に展開することにより、図14に示すように、メタデータ付与プログラム231はメタデータ付与プロセス241として機能する。メタデータ付与プロセス241は、ハードディスク装置230から読み出したメタデータ付与用データ232等の各種データを適宜メモリ240上の自身に割当てられた領域に展開し、この展開した各種データに基づいて各種処理を実行する。
【0080】
なお、メタデータ付与プロセス241は、例えば、上述したメタデータ付与装置100のメタデータ付与部140、メタデータ抽出部150および類似度計算部160などにより実行される処理、例えば、図13などを用いて説明した処理を含む。
【0081】
なお、上述したメタデータ付与プログラム231については、必ずしも最初からハードディスク装置230に記憶させておく必要はない。例えば、電子機器200が、フレキシブルディスク、CD−ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に予め記憶されたメタデータ付与プログラム231を読み出して実行するようにしてもよい。
【0082】
さらには、電子機器200が、公衆回線、インターネット、LAN、WANなどを介して接続可能な「他のコンピュータ(またはサーバ)」などに格納されたメタデータ付与プログラム231を読み出して実行するようにしてもよい。
【0083】
(3)メタデータ付与方法
実施例1で説明したメタデータ付与装置100により、以下のようなメタデータ付与方法が実現される。
【0084】
すなわち、ファイル共有システムに保存されている複数のファイルのうち、ウェブサイトにて公開されているHTMLファイルに埋め込まれたハイパーリンクのリンク先となるファイルについて、ハイパーリンクのリンク元であるHTMLファイルに関する情報から、リンク先のファイルに関するメタデータを抽出する抽出工程と(例えば、図13のステップS105等)、リンク先のファイルに対して抽出工程により抽出されたメタデータを付与する付与工程と(例えば、図13のステップS109)、を含んだメタデータ付与方法が実現される。
【符号の説明】
【0085】
1 イントラネット
10 イントラネットウェブサイト
20 第1ファイル共有システム
30 第2ファイル共有システム
100 メタデータ付与装置
110 名簿・周辺情報DB
120 メタデータ判定ルールDB
130 メタデータDB
140 メタデータ付与部
150 メタデータ抽出部
160 類似度計算部
200 電子機器
210 CPU
220 通信インターフェース
230 ハードディスク装置
240 メモリ
250 バス

【特許請求の範囲】
【請求項1】
複数の構造化データを有するウェブサイトおよび複数のファイルが保存されるファイル共有装置にアクセス可能なメタデータ付与装置であって、
前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出部と、
前記リンク先のファイルに対して、前記抽出部により抽出されたメタデータを付与する付与部と
を有することを特徴とするメタデータ付与装置。
【請求項2】
前記ファイル共有装置を利用する利用者に関する属性情報を記憶する記憶部をさらに有し、
前記抽出部は、さらに、前記リンク先のファイルに保存されている文書情報と前記記憶部に記憶されている属性情報とに基づいて前記メタデータを抽出することを特徴とする請求項1に記載のメタデータ付与装置。
【請求項3】
前記抽出部は、前記構造化データの文書構造に従って該構造化データに記述された情報を前記メタデータとして抽出することを特徴とする請求項1または2に記載のメタデータ付与装置。
【請求項4】
前記ウェブサイトは、前記構造化データとして、複数の異なるHTMLファイルをそれぞれ公開し、
前記ファイル共有装置は、複数のHTMLファイルのいずれか一つまたは複数に埋め込まれているハイパーリンクのリンク先となるファイルをそれぞれ保存する第一のファイル共有装置と、前記ハイパーリンクのリンク先ではないファイルをそれぞれ保存する第二のファイル共有装置とで構成され、
前記第一のファイル共有装置に保存されているファイルと前記第二のファイル共有装置に保存されているファイルとの類似度に応じて、前記第二のファイル共有装置に保存されているファイルに対し、前記第一のファイル共有装置に保存されているファイルに関するメタデータを付与するためのルールを記憶するルール記憶部と、
前記第一のファイル共有装置に保存されているファイルと前記第二のファイル共有装置に保存されているファイルとの類似度を計算する計算部と
をさらに有し、
前記抽出部は、前記ハイパーリンクのリンク先となるファイルを前記第一のファイル共有装置から取得し、取得した前記リンク先となるファイルについて、前記ハイパーリンクのリンク元であるHTMLファイルに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出し、
前記付与部は、前記抽出部により前記リンク先のファイルに関するメタデータとして抽出された情報を、前記ルール記憶部に記憶されているルールおよび前記計算部により計算された前記類似度を相互参照して、前記第二のファイル共有装置に保存されているファイルに関するメタデータとして付与することを特徴とする請求項1〜3のいずれか一つに記載のメタデータ付与装置。
【請求項5】
前記計算部は、前記第一のファイル共有装置に保存されているファイルの文書情報に基づいて生成した特徴ベクトルと、前記第二のファイル共有装置に保存されているファイルの文書情報に基づいて生成した特徴ベクトルとの相関値を前記類似度として計算することを特徴とする請求項4に記載のメタデータ付与装置。
【請求項6】
複数の構造化データを有するウェブサイトおよび複数のファイルを保存するファイル共有装置にアクセス可能なメタデータ付与装置で実行されるメタデータ付与方法であって、
前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出工程と、
前記リンク先のファイルに対して、前記抽出工程により抽出されたメタデータを付与する付与工程と
を含んだことを特徴とするメタデータ付与方法。
【請求項7】
複数の構造化データを有するウェブサイトおよび複数のファイルを保存するファイル共有装置にアクセス可能なメタデータ付与装置としてのコンピュータに実行させるメタデータ付与プログラムであって、
前記コンピュータに、
前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出ステップと、
前記リンク先のファイルに対して、前記抽出ステップにより抽出されたメタデータを付与する付与ステップと
を実行させることを特徴とするメタデータ付与プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate