メタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法

【課題】ファイルに保存された文書情報からは抽出できない情報によりファイルの探索を行うことを課題とする。
【解決手段】メタデータ付与部１４０は、イントラネットウェブサイト１０からウェブページ（ＨＴＭＬファイル）を取得する。そして、メタデータ付与部１４０は、ウェブページ（ＨＴＭＬファイル）にハイパーリンクが埋め込まれている場合には、ハイパーリンクのリンク先となるファイルを取得し、ＨＴＭＬファイルとともにメタデータ抽出部１５０に送信する。メタデータ抽出部１５０は、ハイパーリンクのリンク先となるファイルと、ハイパーリンクのリンク元であるＨＴＭＬファイルとを用いて、リンク先のファイルに関するメタデータを抽出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、メタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法に関する。
【背景技術】
【０００２】
昨今、企業や個人の活動においてＩＴ（ＩｎｆｏｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ）を活用することで、所定のアプリケーションを用いて作成された電子情報は、いわゆるファイルという形式で管理されている。これらのファイルは、相当数が日々作成され、その蓄積数も増加し続けている。このように、膨大な数に膨れ上がった様々なファイルの中から、企業や個人の活動にとって有益な情報を最小限の手間で的確に取得するための情報の分類方法や発見方法が求められている。
【０００３】
例えば、情報分類の一手法として、メタデータによる情報分類方法が注目されている。ここで、メタデータとは、例えば、あるデータに関する情報が所定の形式で表現されたデータであり、属性名および属性値の２つの要素の組合せで構成される。例えば、あるファイルＡがあり、このファイルＡの作成者が太郎である場合には、「属性名（著者）：属性値（太郎）」の組がファイルＡのメタデータとなる。つまり、このメタデータは、ファイルＡに関する情報として、ファイルＡの作成者の情報を所定の形式で表現したものとなっている。このメタデータによる情報分類方法を利用すれば、膨大な数のファイルを様々な観点から探索することができる。
【０００４】
ここで、例えば、文書情報が保存されているファイルからキーワードを自動抽出する方法がある。この方法は、まず、ファイルに保存されている文書情報の頻出語を取り出し、取り出した頻出語と他の各語との共起頻度を求める。続いて、この方法は、共起頻度の偏り方を頻出語の重要度を表す指標として用いることにより、文書情報からキーワードを抽出する。文書情報から抽出されたキーワードは、この文書情報を保存するファイルに関するデータであるので上述したメタデータとなり得る。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】松尾豊、石塚満著「語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム」、人工知能学会論文誌、１７巻３号Ｄ、ｐ．２１７〜２２３、２００２年
【発明の概要】
【発明が解決しようとする課題】
【０００６】
ところで、上述したキーワードの自動抽出方法により抽出されたキーワードをメタデータとしてファイルに付与し、このキーワードをファイルの探索に用いることも考えられる。しかしながら、上述したキーワードの自動抽出方法は、ファイルに保存された文書情報からキーワードを抽出するものである。よって、ファイルに保存されている文書本文から抽出できない情報は、メタデータとしてファイルに付与することができない。例えば、ファイル作成者の氏名、ファイル作成者の所属する組織名、ファイル作成者の連絡先、ファイル作成者の技術分野などの情報は、文書本文から抽出することが難しいものと考えられる。よって、上述したキーワードの自動抽出方法により抽出したキーワードをファイルの探索に用いた場合には、文書本文から抽出できない情報によりファイルの探索を行うことができないという問題がある。
【０００７】
なお、上述したキーワードの自動抽出方法により、例えば、文書本文から人名がキーワードとして抽出される場合もある。よって、ファイル作成者の氏名を用いたファイルの探索は可能なようにも思える。しかしながら、抽出された人名がファイル作成者を示すものであるかどうかを判別することは困難であるので、上述したキーワードの自動抽出方法を用いても、ファイル作成者の情報によるファイルの探索が難しいことには変わりはない。
【０００８】
本発明は、上記に鑑みてなされたものであって、ファイルに保存された文書情報からは抽出できない情報によりファイルの探索を行うことが可能なメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法を提供することを目的とする。
【課題を解決するための手段】
【０００９】
上述した課題を解決し、目的を達成するために、本発明は、複数の構造化データを有するウェブサイトおよび複数のファイルが保存されるファイル共有装置にアクセス可能なメタデータ付与装置であって、前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出部と、前記リンク先のファイルに対して、前記抽出部により抽出されたメタデータを付与する付与部とを有することを特徴とする。
【００１０】
また、本発明は、複数の構造化データを有するウェブサイトおよび複数のファイルを保存するファイル共有装置にアクセス可能なメタデータ付与装置で実行されるメタデータ付与方法であって、前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出工程と、前記リンク先のファイルに対して、前記抽出工程により抽出されたメタデータを付与する付与工程とを含んだことを特徴とする。
【００１１】
また、本発明は、複数の構造化データを有するウェブサイトおよび複数のファイルを保存するファイル共有装置にアクセス可能なメタデータ付与装置としてのコンピュータに実行させるメタデータ付与プログラムであって、前記コンピュータに、前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出ステップと、前記リンク先のファイルに対して、前記抽出ステップにより抽出されたメタデータを付与する付与ステップとを実行させることを特徴とする。
【発明の効果】
【００１２】
本発明によれば、ファイルに保存された文書情報からは抽出できない情報によりファイルの探索を行うことができるという効果を奏する。
【図面の簡単な説明】
【００１３】
【図１】図１は、実施例１の全体構成例を示す図である。
【図２】図２は、実施例１に係るメタデータ付与装置の構成を示す機能ブロック図である。
【図３】図３は、実施例１に係る名簿・周辺情報ＤＢ１１０に記憶される情報の一例を示す図である。
【図４】図４は、実施例１に係るメタデータ判定ルールＤＢ１２０に記憶される情報の一例を示す図である。
【図５】図５は、メタデータの一例を示す図である。
【図６】図６は、実施例１に係るメタデータの構造モデルを示す図である。
【図７】図７は、実施例１に係るメタデータの表現形式の一例を示す図である。
【図８】図８は、実施例１に係るメタデータの記憶形式の一例を示す図である。
【図９】図９は、実施例１に係るＨＴＭＬファイルを用いたメタデータの抽出方法の説明に用いる図である。
【図１０】図１０は、実施例１に係るＨＴＭＬファイルを用いたメタデータの抽出方法の説明に用いる図である。
【図１１】図１１は、実施例１に係るファイルＦ_ｉの内容および名簿・周辺情報を用いたメタデータの抽出方法の説明に用いる図である。
【図１２】図１２は、実施例１に係るファイル間の類似度に応じたメタデータの付与の説明に用いる図である。
【図１３】図１３は、実施例１に係るメタデータ付与装置による処理の流れを示す図である。
【図１４】図１４は、メタデータ付与プログラムを実行する電子機器の一例を示す図である。
【発明を実施するための形態】
【００１４】
以下に、図面を参照しつつ、本願が開示するメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法の一実施形態について詳細に説明する。後述する各実施例は一実施形態にすぎず、本願の開示するメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法を限定するものではない。また、後述する各実施例は処理内容に矛盾を生じさせない範囲で適宜組み合わせることもできる。
【実施例１】
【００１５】
図１は、実施例１の全体構成例を示す図である。図１に示すように、実施例１に係るメタデータ付与装置１００は、企業内ネットワークとして利用するイントラネット１を介して、イントラネットウェブサイト１０、第１ファイル共有システム２０および第２ファイル共有システム３０に接続する。なお、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やＶＰＮ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）など、企業内ネットワークとして使用可能なネットワークをイントラネット１の代わりに利用することもできる。
【００１６】
イントラネットウェブサイト１０は、例えば、ある企業内において、技術報告資料などをまとめたポータルサイトに該当する。イントラネットウェブサイト１０は、イントラネット１に接続されたコンピュータのブラウザで閲覧可能なウェブページで、たとえば技術報告資料などを公開する。また、イントラネットウェブサイト１０により公開されるウェブページは、例えば、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）形式のテキストファイルのような構造化データである。なお、ウェブページの形式は、ＨＴＭＬのような構造化データに限られるものではなく、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）形式のような構造化データを用いることもできる。
【００１７】
第１ファイル共有システム２０は、イントラネットウェブサイト１０がウェブページとして提供するＨＴＭＬファイルとハイパーリンクで関連付けられたファイルを保存する。なお、第１ファイル共有システム２０に保存されるファイルは、技術報告資料などの文章ファイルである。第２ファイル共有システム３０は、イントラネットウェブサイト１０がウェブページとして提供するＨＴＭＬファイルとはハイパーリンクで関連付けられていないファイルを保存する。
【００１８】
［メタデータ付与装置の構成（実施例１）］
図２は、実施例１に係るメタデータ付与装置の構成を示す機能ブロック図である。図２に示すように、メタデータ付与装置１００は、名簿・周辺情報ＤＢ１１０と、メタデータ判定ルールＤＢ１２０と、メタデータＤＢ１３０と、メタデータ付与部１４０と、メタデータ抽出部１５０と、類似度計算部１６０とを有する。
【００１９】
名簿・周辺情報ＤＢ１１０は、作成ファイルの保存やファイルの探索など、第１ファイル共有システム２０および第２ファイル共有システム３０を利用する企業内の利用者の属性情報を記憶する。ここで、利用者の属性情報とは、例えば、利用者の氏名、所属する組織名、連絡先および技術分野などの利用者に関する情報である。例えば、名簿・周辺情報ＤＢ１１０は、利用者を特定するＩＤごとに、利用者の名前、電話番号、所属、技術分野、所属期間を利用者の属性情報として記憶する。
【００２０】
図３は、実施例１に係る名簿・周辺情報ＤＢ１１０に記憶される情報の一例を示す図である。図３に示すように、名簿・周辺情報ＤＢ１１０は、例えば、ＩＤ「１０１」、名前「Ａ」に対応付けて、電話「９２８」、所属「○○」、技術分野「Ｗｅｂサービス，ＳＯＡ」および所属機関「４年３ヶ月」を記憶する。なお、ＳＯＡとは、サービス指向アーキテクチャ（ＳｅｒｖｉｃｅＯｒｉｅｎｔｅｄＡｒｃｈｉｔｅｃｔｕｒｅ）と呼称され、大規模なシステムを大きなサービスの集まりとして設計する手法のことである。
【００２１】
メタデータ判定ルールＤＢ１２０は、第２ファイル共有システム３０に保存されたファイルのうち、第１ファイル共有システム２０に保存されたファイルに類似するファイルに対してメタデータを付与するためのルールを記憶する。メタデータ判定ルールＤＢ１２０は、属性名ごとに閾値を記憶する。なお、メタデータＤＢ１３０で詳述するが、属性名はメタデータの構成要素であり、対応する属性値との間で１つの組合せを構成する。
【００２２】
図４は、実施例１に係るメタデータ判定ルールＤＢ１２０に記憶される情報の一例を示す図である。例えば、メタデータ判定ルールＤＢ１２０は、図４に示すように、属性名「著書ｏｒ作者・・・」に対応付けて閾値「０．８」を記憶し、属性名「題名ｏｒタイトル・・・」に対応付けて閾値「０．９」を記憶する。また、メタデータ判定ルールＤＢ１２０は、図４に示すように、属性名「技術分野」に対応付けて閾値「０．６」を記憶し、属性名「所属」に対応付けて閾値「０．８」を記憶する。
【００２３】
なお、図４に示すメタデータ判定ルールＤＢ１２０に記憶されるルールは、後述するメタデータ付与部１４０により参照されるが、閾値の取り扱いについて説明する。例えば、第１ファイル共有システム２０に保存されたファイルと第２ファイル共有システム３０に保存されたファイルとの類似度が「０．７」であるとする。この場合、属性名「技術分野」に対応付けられている閾値「０．６」は、類似度「０．７」よりも小さいので、第１ファイル共有システム２０に保存されたファイルの属性値を第２ファイル共有システム３０に保存されたファイルに付与することが許容される。
【００２４】
メタデータＤＢ１３０は、第１ファイル共有システム２０に保存されたファイルや第２ファイル共有システム３０に保存されたファイルに関するメタデータを記憶する。メタデータは、ファイルに関する情報が所定の形式で表現されたデータであり、例えば、属性名および属性値の組合せで構成される。
【００２５】
図５は、メタデータの一例を示す図である。例えば、図５に示す「タイトル」、「著者」、「技術用語」、「更新日時」、「報告年月日」は属性名に該当する。そして、図５に示す「Ｗｅｂサービス動向調査」は、属性名「タイトル」の属性値である。また、図５に示す「特許一郎、意匠太郎」は、属性名「著者」の属性値である。また、図５に示す「Ｗｅｂサービス」は、属性名「技術用語」の属性値である。また、図５に示す「２００６年４月２２日」は、属性名「更新日時」の属性値である。また、図５に示す「２００６年７月１１日」は、属性名「報告年月日」の属性値である。なお、図６に、図５に示すメタデータの構造モデルを示し、図７に、図５に示すメタデータの表現形式の一例を示す。図６は、実施例１に係るメタデータの構造モデルを示す図である。図７は、実施例１に係るメタデータの表現形式の一例を示す図である。
【００２６】
そして、メタデータＤＢ１３０は、例えば、図８に示すように、属性名と属性値との組合せにより、図５に示すメタデータを記憶する。図８は、実施例１に係るメタデータの記憶形式の一例を示す図である。図８に示すように、メタデータＤＢ１３０は、第１ファイル共有システム２０や第２ファイル共有システム３０に保存されるファイルに一意に付与される資料ＩＤに対応付けて、属性名および属性値を記憶する。例えば、メタデータＤＢ１３０は、ＩＤ「＃１」に対応付けて、属性名「タイトル」および属性値「Ｗｅｂサービス動向調査」を記憶する。同様にして、メタデータＤＢ１３０は、図８に示すように、図５に示すメタデータを記憶する。なお、メタデータＤＢ１３０へのメタデータの格納は、ファイルへのメタデータの付与を意味する。
【００２７】
上述してきた名簿・周辺情報ＤＢ１１０、メタデータ判定ルールＤＢ１２０およびメタデータＤＢ１３０は、例えば、所定の操作言語を用いて操作可能なリレーショナルデータベースとしてデータを管理することができる。また、上述してきた名簿・周辺情報ＤＢ１１０、メタデータ判定ルールＤＢ１２０およびメタデータＤＢ１３０は、サーバやストレージ、パーソナルコンピュータなどの汎用のハードウェアにより実装できる。また、名簿・周辺情報ＤＢ１１０、メタデータ判定ルールＤＢ１２０およびメタデータＤＢ１３０は、上述した汎用のハードウェアではなく、大容量のハードディスクなどの記憶媒体により実現することもできる。
【００２８】
メタデータ付与部１４０はメタデータを付与する。メタデータ抽出部１５０はメタデータを抽出する。類似度計算部１６０はファイル間の類似度を計算する。以下、適宜図面を参照しつつ、メタデータ付与部１４０、メタデータ抽出部１５０および類似度計算部１６０の動作について説明する。
【００２９】
例えば、メタデータ付与部１４０は、イントラネットウェブサイト１０からウェブページを１つ取得する。そして、メタデータ付与部１４０は、取得したウェブページ、つまりＨＴＭＬファイルにハイパーリンクが埋め込まれているかどうかを判定する。判定の結果、ハイパーリンクが埋め込まれている場合には、メタデータ付与部１４０は、ハイパーリンクのリンク先となるファイルを第１ファイル共有システム２０から取得する。なお、以下では、説明の便宜上、第１ファイル共有システム２０から取得したファイルをファイルＦ_ｉと表記して説明する。続いて、メタデータ付与部１４０は、ファイルＦ_ｉおよびＨＴＭＬファイルをメタデータ抽出部１５０に送信する。
【００３０】
メタデータ抽出部１５０は、メタデータ付与部１４０からファイルＦ_ｉおよびＨＴＭＬファイルを受信すると、まず、ＨＴＭＬファイルを用いてファイルＦ_ｉに関するメタデータを抽出する。以下、図９および図１０を参照しつつ、ＨＴＭＬファイルを用いたメタデータの抽出について説明する。図９および図１０は、実施例１に係るＨＴＭＬファイルを用いたメタデータの抽出方法の説明に用いる図である。
【００３１】
例えば、メタデータ抽出部１５０は、ＨＴＭＬファイルの文書構造、たとえば表構造に基づいて、ＨＴＭＬファイルに記述されたソースコードからメタデータを抽出することができる。すなわち、メタデータ抽出部１５０は、ＨＴＭＬファイルのテーブルタグ内の１行目の各セルの情報を属性名として抽出し、テーブルタグ内の各列の情報を属性値として抽出する。
【００３２】
図９は、ＨＴＭＬファイルの表構造に基づいてメタデータを抽出する方法を示す。例えば、図９に示すように、メタデータ抽出部１５０は、テーブルタグの１行目に対応する各セルのデータの中から「資料番号」を属性名としてソースコードから抽出する。そして、メタデータ抽出部１５０は、図９に示すように、テーブルタグの１列目に対応するデータ「１」を、属性名「資料番号」に対応する属性値としてソースコードから抽出する。同様に、メタデータ抽出部１５０は、図９に示すように、テーブルタグの１行目に対応する各セルのデータの中から「資料種別」を属性名として抽出する。そして、メタデータ抽出部１５０は、図９に示すように、テーブルタグの２列目に対応する「一般誌」を、属性名「資料種別」に対応する属性値として抽出する。同様に、メタデータ抽出部１５０は、図９に示すように、テーブルタグの１行目に対応する各セルのデータの中から「筆頭著者」を属性名として抽出する。そして、メタデータ抽出部１５０は、図９に示すように、テーブルタグの３列目に対応する「Ａ」を、属性名「筆頭著者」に対応する属性値として抽出する。同様に、メタデータ抽出部１５０は、図９に示すように、テーブルタグの１行目に対応する各セルのデータの中から「所属」を属性名として抽出する。そして、メタデータ抽出部１５０は、図９に示すように、テーブルタグの４列目に対応する「○○」を、属性名「所属」に対応する属性値として抽出する。同様に、メタデータ抽出部１５０は、図９に示すように、テーブルタグの１行目に対応する各セルのデータの中から「登録年月日」を属性名として抽出する。そして、メタデータ抽出部１５０は、図９に示すように、テーブルタグの５列目に対応する「２００６０４２２」を、属性名「登録年月日」に対応する属性値として抽出する。同様に、メタデータ抽出部１５０は、図９に示すように、テーブルタグの１行目に対応する各セルのデータの中から「題名」を属性名として抽出する。そして、メタデータ抽出部１５０は、図９に示すように、テーブルタグの６列目に対応する「〜についての検討」を、属性名「題名」に対応する属性値として抽出する。
【００３３】
そして、メタデータ抽出部１５０は、抽出した属性名と属性値との組合せを統合して、ＨＴＭＬファイルを用いたメタデータの抽出を完了する。例えば、図９に示すように、メタデータ抽出部１５０は、「資料番号：１、資料種別：一般誌、筆頭著者：Ａ、所属：○○、登録年月日：２００６０４２２、題名：〜についての検討」をメタデータとして抽出し、抽出を完了する。
【００３４】
また、メタデータ抽出部１５０は、ＨＴＭＬファイルの文書構造、たとえば見出し構造に基づいて、ＨＴＭＬファイルに記述されたソースコードからメタデータを抽出することもできる。すなわち、メタデータ抽出部１５０は、ＨＴＭＬファイルの見出し構造に基づいて、見出しタグに対応する親要素を属性名として抽出し、親要素に対応する子要素を属性値として抽出する。図１０は、ＨＴＭＬファイルの見出し構造に基づいてメタデータを抽出する方法を示す。例えば、図１０に示すように、メタデータ抽出部１５０は、ＨＴＭＬファイルのソースコード内で親要素および子要素の組合せをそれぞれ特定し、特定した各組合せをツリー構造で表現する。そして、メタデータ抽出部１５０は、ツリー構造の親要素を属性名として抽出し、子要素を属性値として抽出する。例えば、図１０に示すように、メタデータ抽出部１５０は、親要素である「資料番号」を属性名として抽出し、親要素に対応する子要素である「１」を属性値として抽出する。
【００３５】
そして、メタデータ抽出部１５０は、図１０に示すように、抽出した属性名と属性値との組合せを統合して、ＨＴＭＬファイルを用いたメタデータの抽出を完了する。例えば、図１０に示すように、メタデータ抽出部１５０は、「資料番号：１、資料種別：一般誌、著者：Ａ，Ｂ、所属：○○、登録年月日：２００６０４２２、題名：〜についての検討」をメタデータとして抽出し、抽出を完了する。
【００３６】
以上、ＨＴＭＬファイルを用いたメタデータの抽出について説明してきた。続いて、メタデータ抽出部１５０は、ファイルＦ_ｉの内容（文書の内容）および名簿・周辺情報ＤＢ１１０に記憶されている名簿・周辺情報を用いて、ファイルＦ_ｉに関するメタデータを抽出する。以下、図１１を参照しつつ、ファイルＦ_ｉの内容および名簿・周辺情報を用いたメタデータの抽出について説明する。図１１は、実施例１に係るファイルＦ_ｉの内容および名簿・周辺情報を用いたメタデータの抽出方法の説明に用いる図である。
【００３７】
メタデータ抽出部１５０は、名簿・周辺情報ＤＢ１１０に記憶されている名簿・周辺情報を取得する。続いて、メタデータ抽出部１５０は、既存の方法により、ファイルＦ_ｉの文書から所定の基準で単語や熟語などを抽出する。続いて、メタデータ抽出部１５０は、ファイルＦ_ｉからの抽出語と、ファイルＦ_ｉの作成者（筆頭著者など）に対応する名簿・周辺情報の技術分野とを比較する。比較の結果、メタデータ抽出部１５０は、ファイルＦ_ｉからの抽出語と、名簿・周辺情報の技術分野との間で一致する語があれば、名簿・周辺情報の技術分野の情報をメタデータとして抽出する。例えば、メタデータ抽出部１５０は、図１１に示すように、「Ｗｅｂサービス、パターン、ログ」の３語をファイルＦ_ｉから抽出したとする。このとき、名簿・周辺情報の技術分野「Ｗｅｂサービス，ＳＯＡ」と抽出後「Ｗｅｂサービス、パターン、ログ」との間で「Ｗｅｂサービス」が一致する。よって、メタデータ抽出部１５０は、名簿・周辺情報の技術分野「Ｗｅｂサービス，ＳＯＡ」を全てメタデータとして抽出する。つまり、メタデータ抽出部１５０は、属性名「技術分野」と属性値「Ｗｅｂサービス，ＳＯＡ」の組合せをメタデータとして抽出する。なお、メタデータ抽出部１５０は、ファイルＦ_ｉからの抽出語と、名簿・周辺情報の技術分野との間で一致する語がない場合には、メタデータの抽出を行わない。
【００３８】
図９から図１１を参照しつつ説明してきたように、メタデータ抽出部１５０は、ウェブページ（ＨＴＭＬファイル）とハイパーリンクで関連付けられたファイルＦ_ｉに関するメタデータを抽出する。そして、メタデータ抽出部１５０は、抽出したメタデータをメタデータ付与部１４０に送信する。
【００３９】
メタデータ付与部１４０は、メタデータ抽出部１５０からメタデータを受信すると、受信したメタデータを、第１ファイル共有システム２０から取得したファイルに対応付けてメタデータＤＢ１３０に格納する。つまり、メタデータ付与部１４０は、ＨＴＭＬファイル（ウェブページ）とハイパーリンクで関連付けられたファイルにメタデータを付与する。
【００４０】
次に、メタデータ付与部１４０は、第２ファイル共有システム３０からファイルを１つ取得し、ファイルＦ_ｉとともに類似度計算部１６０に送信する。なお、以下では、説明の便宜上、第２ファイル共有システム３０から取得したファイルをファイルＦ_ｊと表記して説明する。
【００４１】
類似度計算部１６０は、メタデータ付与部１４０からファイルＦ_ｉとファイルＦ_ｊを受信すると、既存のベクトル空間モデルに基づいて、ファイルＦ_ｉとファイルＦ_ｊとの間のファイル間の類似度を計算する。類似度計算部１６０は、ｔｆ／ｉｄｆ法を用いて、ファイルＦ_ｉの文書情報からファイルＦ_ｉの特徴ベクトルを生成するとともに、ファイルＦ_ｊの文書情報からファイルＦ_ｊの特徴ベクトルを生成する。類似度計算部１６０は、以下の手順で特徴ベクトルを生成する。
【００４２】
まず、類似度計算部１６０は、ファイルにおけるタームの出現頻度およびタームが出現するファイル数に基づいて、ファイルにおけるタームの重みを計算する。例えば、ファイルＦ_ｉにおけるタームｔ_ｊの重みは、以下の式（１）により表すことができる。
【００４３】
【数１】

【００４４】
続いて、類似度計算部１６０は、ファイルにおけるタームの重みの和からファイルの特徴ベクトルを生成する。例えば、ファイルＦ_ｉの特徴ベクトルは以下の式（２）で表すことができ、ファイルＦ_ｊの特徴ベクトルは以下の式（３）で表すことができる。
【００４５】
【数２】

【００４６】
【数３】

【００４７】
ファイルＦ_ｉおよびファイルＦ_ｊの特徴ベクトルをそれぞれ計算した後、類似度計算部１６０は、ファイルＦ_ｉの特徴ベクトルとファイルＦ_ｊの特徴ベクトルとのコサイン相関値（内積）を求める。なお、コサイン相関値は、以下の式（４）で表される。
【００４８】
【数４】

【００４９】
そして、類似度計算部１６０は、このコサイン相関値をファイルＦ_ｉとファイルＦ_ｊとの間の類似度として、メタデータ付与部１４０に送信する。
【００５０】
メタデータ付与部１４０は、ファイルＦ_ｉとファイルＦ_ｊとの間の類似度を類似度計算部１６０から受信すると、ファイルＦ_ｉとファイルＦ_ｊとの間の類似度に応じて、ファイルＦ_ｊに対してメタデータを付与する。以下、図１２を参照しつつ、ファイル間の類似度に応じたメタデータの付与について説明する。図１２は、実施例１に係るファイル間の類似度に応じたメタデータの付与の説明に用いる図である。
【００５１】
まず、メタデータ付与部１４０は、メタデータ判定ルールＤＢ１２０から判定ルールを取得する。次に、メタデータ付与部１４０は、判定ルールを参照して、ファイルＦ_ｉとファイルＦ_ｊとの間の類似度が閾値を越えている属性名を特定する。続いて、メタデータ付与部１４０は、メタデータＤＢ１３０に格納したファイルＦ_ｉの属性値のうち、ファイルＦ_ｉとファイルＦ_ｊとの間の類似度が閾値を越えているものと特定した属性名に対応する属性値をメタデータＤＢ１３０から取得する。例えば、図１２に示すように、ファイルＦ_ｉとファイルＦ_ｊとの間の類似度が閾値を越えているものと特定された属性名が「技術分野」であるとする。この場合には、メタデータ付与部１４０は、ファイルＦ_ｉの属性値のうち、属性名「技術分野」に対応する属性値「Ｗｅｂサービス，ＳＯＡ」をメタデータＤＢ１３０から取得する。そして、メタデータ付与部１４０は、図１２に示すように、属性名「技術分野」と属性値「Ｗｅｂサービス，ＳＯＡ」との組合せで構成されたメタデータを、ファイルＦ_ｊのメタデータとしてメタデータＤＢ１３０に格納する。
【００５２】
ファイルＦ_ｊへのメタデータの付与が完了すると、メタデータ付与部１４０は、第２ファイル共有システム３０から全てのファイルを取得したか否かを判定する。判定の結果、全てのファイルを取得していない場合には、メタデータ付与部１４０は、第２ファイル共有システム３０から、また１つファイルを取得して、ファイルＦ_ｉとの類似度を計算し、メタデータの付与を行う。一方、判定の結果、全てのファイルを取得済みである場合には、メタデータ付与部１４０は、イントラネットウェブサイト１０のＨＴＭＬファイル（ウェブページ）を全て取得したか否かを判定する。判定の結果、ＨＴＭＬファイルを全て取得していない場合には、メタデータ付与部１４０は、イントラネットウェブサイト１０から、また１つＨＴＭＬファイルを取得し、ハイパーリンクが埋め込まれているかどうかの判定を行う。一方、判定の結果、ＨＴＭＬファイルを全て取得している場合には、メタデータ付与部１４０は、処理を終了する。
【００５３】
上述してきたメタデータ付与部１４０、メタデータ抽出部１５０および類似度計算部１６０は、例えば、電子回路や集積回路により実装できる。電子回路としては、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）がある。また、集積回路としては、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array)などがある。
【００５４】
［メタデータ付与装置による処理（実施例１）］
図１３を用いて、実施例１に係るメタデータ付与装置による処理の流れを説明する。図１３は、実施例１に係るメタデータ付与装置による処理の流れを示す図である。
【００５５】
図１３に示すように、メタデータ付与部１４０は、イントラネットウェブサイト１０のＨＴＭＬファイル（ウェブページ）を１つ取得する（ステップＳ１０１）。そして、メタデータ付与部１４０は、取得したＨＴＭＬファイルにハイパーリンクが埋め込まれているかどうかを判定する（ステップＳ１０２）。
【００５６】
判定の結果、ハイパーリンクが埋め込まれていない場合には（ステップＳ１０２，Ｎｏ）、メタデータ付与部１４０は、上述したステップＳ１０１に戻り、イントラネットウェブサイト１０のＨＴＭＬファイル（ウェブページ）をまた１つ取得する。
【００５７】
一方、判定の結果、ハイパーリンクが埋め込まれている場合には（ステップＳ１０２，Ｙｅｓ）、メタデータ付与部１４０は、第１ファイル共有システム２０からリンク先のファイルＦ_ｉを取得する（ステップＳ１０３）。続いて、メタデータ付与部１４０は、Ｓ１０３で取得したリンク先のファイルＦ_ｉ、およびＳ１０１で取得したＨＴＭＬファイルをメタデータ抽出部１５０に送信する（ステップＳ１０４）。
【００５８】
メタデータ抽出部１５０は、メタデータ付与部１４０からファイルＦ_ｉおよびＨＴＭＬファイルを受信すると、ＨＴＭＬファイルを用いてメタデータを抽出する（ステップＳ１０５）。次に、メタデータ抽出部１５０は、名簿・周辺情報ＤＢ１１０に記憶されている名簿・周辺情報を取得する（ステップＳ１０６）。続いて、メタデータ抽出部１５０は、Ｓ１０３で取得したファイルＦ_ｉ、および名簿・周辺情報を用いてメタデータを抽出する（ステップＳ１０７）。そして、メタデータ抽出部１５０は、Ｓ１０５およびＳ１０７で抽出したメタデータをメタデータ付与部１４０に送信する（ステップＳ１０８）。
【００５９】
メタデータ付与部１４０は、メタデータ抽出部１５０からメタデータを受信すると、受信したメタデータを、Ｓ１０３で取得したリンク先のファイルＦ_ｉに対応付けてメタデータＤＢ１３０に格納する（ステップＳ１０９）。続いて、メタデータ付与部１４０は、第２ファイル共有システム３０からファイルＦ_ｊを１つ取得する（ステップＳ１１０）。そして、メタデータ付与部１４０は、Ｓ１０３で取得したファイルＦ_ｉおよびＳ１１０で取得したファイルＦ_ｊを類似度計算部１６０に送信する（ステップＳ１１１）。
【００６０】
類似度計算部１６０は、メタデータ付与部１４０からファイルＦ_ｉとファイルＦ_ｊを受信すると、既存のベクトル空間モデルに基づいて、ファイルＦ_ｉとファイルＦ_ｊとの間のファイル間の類似度を計算し、メタデータ付与部１４０に送信する（ステップＳ１１２）。
【００６１】
メタデータ付与部１４０は、ファイルＦ_ｉとファイルＦ_ｊとの間の類似度を類似度計算部１６０から受信すると、メタデータ判定ルールＤＢ１２０から判定ルールを取得する（ステップＳ１１３）。次に、メタデータ付与部１４０は、判定ルールを参照して、ファイルＦ_ｉとファイルＦ_ｊとの間の類似度が閾値を越えている属性名を特定する（ステップＳ１１４）。続いて、メタデータ付与部１４０は、メタデータＤＢ１３０に格納したファイルＦ_ｉの属性値のうち、ファイルＦ_ｉとファイルＦ_ｊとの間の類似度が閾値を越えているものと特定した属性名に対応する属性値をメタデータＤＢ１３０から取得する（ステップＳ１１５）。そして、メタデータ付与部１４０は、Ｓ１１５で取得した属性値をファイルＦ_ｊのメタデータとしてメタデータＤＢ１３０に格納する（ステップＳ１１６）。
【００６２】
ファイルＦ_ｊへのメタデータの付与が完了すると、メタデータ付与部１４０は、第２ファイル共有システム３０から全てのファイルを取得したか否かを判定する（ステップＳ１１７）。判定の結果、全てのファイルを取得していない場合には（ステップＳ１１７，Ｎｏ）、メタデータ付与部１４０は、上述したステップＳ１１０に戻り、第２ファイル共有システム３０から、また１つファイルを取得する。
【００６３】
一方、判定の結果、全てのファイルを取得済みである場合には（ステップＳ１１７，Ｙｅｓ）、メタデータ付与部１４０は、イントラネットウェブサイト１０のＨＴＭＬファイル（ウェブページ）を全て取得したか否かを判定する（ステップＳ１１８）。判定の結果、ＨＴＭＬファイルを全て取得していない場合には（ステップＳ１１８、Ｎｏ）、メタデータ付与部１４０は、上述したステップＳ１０１に戻り、イントラネットウェブサイト１０から、また１つＨＴＭＬファイルを取得する。一方、判定の結果、ＨＴＭＬファイルを全て取得している場合には（ステップＳ１１８、Ｙｅｓ）、メタデータ付与部１４０は、処理を終了する。
【００６４】
［実施例１による効果］
上述してきたように、メタデータ付与装置１００は、ウェブサイトで公開されているＨＴＭＬファイルに埋め込まれたハイパーリンクのリンク先のファイルについて、ハイパーリンクのリンク元であるＨＴＭＬファイルからメタデータを抽出する。そして、メタデータ付与装置１００は、抽出したメタデータを、ハイパーリンクのリンク先のファイルに付与する。このように、メタデータ付与装置１００は、例えば、ＨＴＭＬファイルのリンク先となるファイルに保存されている文書情報からは抽出できない情報を、リンク元であるＨＴＭＬファイルから抽出してメタデータとして付与することができる。このため、実施例１によれば、ファイルに保存されている文書情報からは抽出できない情報によりファイルの探索を行うことができる。
【００６５】
また、メタデータ付与装置１００は、ＨＴＭＬファイルに埋め込まれたハイパーリンクのリンク先のファイルに保存されている文書情報と、名簿・周辺情報ＤＢ１１０に記憶された名簿・周辺情報とに基づいてメタデータを抽出する。このため、実施例１によれば、リンク元であるＨＴＭＬファイルから抽出できる情報に加えて、ファイルの作成者の名前、電話番号、所属、技術分野、所属期間など複数の情報を簡易かつ効率的に抽出できる。
【００６６】
また、メタデータ付与装置１００は、ＨＴＭＬファイルの文書構造を解析し、その文書構造に従ってＨＴＭＬファイルに記述された情報を、ＨＴＭＬファイルの埋め込まれたハイパーリンクのリンク先となるファイルに関するメタデータとして抽出する。このため、実施例１によれば、ＨＴＭＬファイルのリンク先となるファイルに関するメタデータを、リンク元であるＨＴＭＬファイルから簡易かつ効率的に抽出できる。
【００６７】
また、メタデータ付与装置１００は、ＨＴＭＬファイルとリンクされたファイルと、ＨＴＭＬファイルとはリンクされていないファイルとの類似度を計算する。そして、メタデータ付与装置１００は、ファイル間の類似度に応じて、ＨＴＭＬファイルとリンクされたファイルに対して付与したメタデータを、ＨＴＭＬファイルとリンクされていないファイルに付与する。このため、ＨＴＭＬファイルとリンクされていないファイルに対しても、ファイルに保存されている文書情報からは抽出できない情報をメタデータとして付与することができる。
【００６８】
また、メタデータ付与装置１００は、ＨＴＭＬファイルとリンクされたファイルの特徴ベクトルと、ＨＴＭＬファイルとはリンクされていないファイルの特徴ベクトルとの相関から類似度を計算する。このため、実施例１によれば、簡易な方法によりファイル間の類似度を計算できる。
【００６９】
また、上述した実施例１では、ＨＴＭＬファイルとリンクされたファイルについて、リンク元であるＨＴＭＬファイルから抽出した情報、リンク先となるファイルの文書情報および名簿・周辺情報に基づいて抽出した情報をメタデータとして付与する。しかし、必ずしも、双方の抽出をシリアルに実行する必要はなく、ハイパーリンクのリンク元であるＨＴＭＬファイルからの情報の抽出のみを行い、リンク先となるファイルにメタデータとして付与することもできる。このようにすれば、ファイルの数が膨大となった場合でも、極力処理負担を減らしつつ、ＨＴＭＬファイルのリンク先となるファイルについて、このファイルに保存されている文章情報からは抽出できない情報を、少なからずメタデータとして付与することができる。
【００７０】
また、例えば、ＨＴＭＬファイルに埋め込まれた複数のハイパーリンクが埋め込まれており、各ハイパーリンクについてリンク先となるファイルがある場合も考えられる。このような場合には、実施例１のメタデータ付与装置１００は、リンク先となる各ファイルについて、実施例１で説明した方法（例えば、図１３参照）によりメタデータの付与を行うことができる。
【００７１】
また、上記の実施例１では、イントラネットウェブサイト１０にて公開されているウェブページとリンクされたファイルについて、リンク元のウェブページであるＨＴＭＬファイルからメタデータ抽出する場合を説明した。実施例１は、企業内で公開されているウェブサイトと、ファイル共有装置に保存されているファイルとを関連付けて運用されていることが一般的であるという企業の特殊性を鑑みたものである。ここで、実施例１のメタデータ付与装置１００による処理は、企業内の特殊性に合わせた形態以外にも適用することができる。例えば、あるファイルサーバに保存されているファイルと、他のファイルサーバに保存されているファイルがハイパーリンク等で関連付けられているような場合を考える。このような場合にも、実施例１で説明したメタデータ付与装置１００の処理により、ハイパーリンク等で関連付けられているファイル間でメタデータの抽出を行うことができる。
【実施例２】
【００７２】
以下、本発明にかかるメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法の他の実施形態として実施例２を説明する。
【００７３】
（１）装置構成等
図１に示した実施例１の全体構成は、必ずしも物理的に図示の如く構成されていることを要しない。例えば、第１ファイル共有システム２０および第２ファイル共有システム３０が物理的に統合された１つのシステムであってもよい。また、図２に示したメタデータ付与装置１００の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、メタデータ付与装置１００の分散または統合の具体的形態は図示のものに限られず、例えば、メタデータ付与部１４０とメタデータ抽出部１５０とが機能的または物理的に統合されていてもよい。このように、メタデータ付与装置１００の各構成要素の全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【００７４】
（２）メタデータ付与プログラム
また、実施例１で説明したメタデータ付与装置１００の各種の処理（例えば、図１３等参照）は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどの電子機器で実行することによって実現することができる。そこで、以下では、図１４を用いて、実施例１で説明したメタデータ付与装置１００と同様の機能を有するメタデータ付与プログラムを実行する電子機器の一例を説明する。図１４は、メタデータ付与プログラムを実行する電子機器の一例を示す図である。
【００７５】
図１４に示すように、メタデータ付与装置１００が有する機能と同様の機能を有する電子機器２００は、ＣＰＵ（Central Processing Unit）２１０、通信インターフェース２２０、ハードディスク装置２３０およびメモリ２４０を有する。そして、ＣＰＵ２１０、通信インターフェース２２０、ハードディスク装置２３０およびメモリ２４０は、バス２５０を介して接続される。
【００７６】
ＣＰＵ２１０は、各種演算処理を実行する。なお、電子機器２００は、ＣＰＵ２１０の代わりに、例えば、ＭＰＵ（Micro Processing Unit）などの電子回路、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ(Field Programmable Gate Array)などの集積回路を用いることもできる。
【００７７】
通信インターフェース２２０は、外部との各種情報のやり取りに関する通信を制御する。また、ハードディスク装置２３０は、ＣＰＵ２１０による各種処理の実行に必要な情報を記憶する。また、メモリ２４０は、各種情報を一時的に記憶する。なお、メモリ２４０は、例えば、ＲＡＭ（Random Access Memory）やフラッシュメモリ(flash memory)などの半導体メモリ素子を用いて実装できる。
【００７８】
ハードディスク装置２３０には、メタデータ付与装置１００が有する機能と同様の機能を発揮するメタデータ付与プログラム２３１およびメタデータ付与用データ２３２が記憶されている。なお、このメタデータ付与プログラム２３１を適宜分散させて、ネットワークを介して通信可能に接続された他のコンピュータの記憶部に記憶させておくこともできる。
【００７９】
そして、ＣＰＵ２１０が、メタデータ付与プログラム２３１をハードディスク装置２３０から読み出してメモリ２４０に展開することにより、図１４に示すように、メタデータ付与プログラム２３１はメタデータ付与プロセス２４１として機能する。メタデータ付与プロセス２４１は、ハードディスク装置２３０から読み出したメタデータ付与用データ２３２等の各種データを適宜メモリ２４０上の自身に割当てられた領域に展開し、この展開した各種データに基づいて各種処理を実行する。
【００８０】
なお、メタデータ付与プロセス２４１は、例えば、上述したメタデータ付与装置１００のメタデータ付与部１４０、メタデータ抽出部１５０および類似度計算部１６０などにより実行される処理、例えば、図１３などを用いて説明した処理を含む。
【００８１】
なお、上述したメタデータ付与プログラム２３１については、必ずしも最初からハードディスク装置２３０に記憶させておく必要はない。例えば、電子機器２００が、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に予め記憶されたメタデータ付与プログラム２３１を読み出して実行するようにしてもよい。
【００８２】
さらには、電子機器２００が、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介して接続可能な「他のコンピュータ（またはサーバ）」などに格納されたメタデータ付与プログラム２３１を読み出して実行するようにしてもよい。
【００８３】
（３）メタデータ付与方法
実施例１で説明したメタデータ付与装置１００により、以下のようなメタデータ付与方法が実現される。
【００８４】
すなわち、ファイル共有システムに保存されている複数のファイルのうち、ウェブサイトにて公開されているＨＴＭＬファイルに埋め込まれたハイパーリンクのリンク先となるファイルについて、ハイパーリンクのリンク元であるＨＴＭＬファイルに関する情報から、リンク先のファイルに関するメタデータを抽出する抽出工程と（例えば、図１３のステップＳ１０５等）、リンク先のファイルに対して抽出工程により抽出されたメタデータを付与する付与工程と（例えば、図１３のステップＳ１０９）、を含んだメタデータ付与方法が実現される。
【符号の説明】
【００８５】
１イントラネット
１０イントラネットウェブサイト
２０第１ファイル共有システム
３０第２ファイル共有システム
１００メタデータ付与装置
１１０名簿・周辺情報ＤＢ
１２０メタデータ判定ルールＤＢ
１３０メタデータＤＢ
１４０メタデータ付与部
１５０メタデータ抽出部
１６０類似度計算部
２００電子機器
２１０ＣＰＵ
２２０通信インターフェース
２３０ハードディスク装置
２４０メモリ
２５０バス

【特許請求の範囲】
【請求項１】
複数の構造化データを有するウェブサイトおよび複数のファイルが保存されるファイル共有装置にアクセス可能なメタデータ付与装置であって、
前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出部と、
前記リンク先のファイルに対して、前記抽出部により抽出されたメタデータを付与する付与部と
を有することを特徴とするメタデータ付与装置。
【請求項２】
前記ファイル共有装置を利用する利用者に関する属性情報を記憶する記憶部をさらに有し、
前記抽出部は、さらに、前記リンク先のファイルに保存されている文書情報と前記記憶部に記憶されている属性情報とに基づいて前記メタデータを抽出することを特徴とする請求項１に記載のメタデータ付与装置。
【請求項３】
前記抽出部は、前記構造化データの文書構造に従って該構造化データに記述された情報を前記メタデータとして抽出することを特徴とする請求項１または２に記載のメタデータ付与装置。
【請求項４】
前記ウェブサイトは、前記構造化データとして、複数の異なるＨＴＭＬファイルをそれぞれ公開し、
前記ファイル共有装置は、複数のＨＴＭＬファイルのいずれか一つまたは複数に埋め込まれているハイパーリンクのリンク先となるファイルをそれぞれ保存する第一のファイル共有装置と、前記ハイパーリンクのリンク先ではないファイルをそれぞれ保存する第二のファイル共有装置とで構成され、
前記第一のファイル共有装置に保存されているファイルと前記第二のファイル共有装置に保存されているファイルとの類似度に応じて、前記第二のファイル共有装置に保存されているファイルに対し、前記第一のファイル共有装置に保存されているファイルに関するメタデータを付与するためのルールを記憶するルール記憶部と、
前記第一のファイル共有装置に保存されているファイルと前記第二のファイル共有装置に保存されているファイルとの類似度を計算する計算部と
をさらに有し、
前記抽出部は、前記ハイパーリンクのリンク先となるファイルを前記第一のファイル共有装置から取得し、取得した前記リンク先となるファイルについて、前記ハイパーリンクのリンク元であるＨＴＭＬファイルに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出し、
前記付与部は、前記抽出部により前記リンク先のファイルに関するメタデータとして抽出された情報を、前記ルール記憶部に記憶されているルールおよび前記計算部により計算された前記類似度を相互参照して、前記第二のファイル共有装置に保存されているファイルに関するメタデータとして付与することを特徴とする請求項１〜３のいずれか一つに記載のメタデータ付与装置。
【請求項５】
前記計算部は、前記第一のファイル共有装置に保存されているファイルの文書情報に基づいて生成した特徴ベクトルと、前記第二のファイル共有装置に保存されているファイルの文書情報に基づいて生成した特徴ベクトルとの相関値を前記類似度として計算することを特徴とする請求項４に記載のメタデータ付与装置。
【請求項６】
複数の構造化データを有するウェブサイトおよび複数のファイルを保存するファイル共有装置にアクセス可能なメタデータ付与装置で実行されるメタデータ付与方法であって、
前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出工程と、
前記リンク先のファイルに対して、前記抽出工程により抽出されたメタデータを付与する付与工程と
を含んだことを特徴とするメタデータ付与方法。
【請求項７】
複数の構造化データを有するウェブサイトおよび複数のファイルを保存するファイル共有装置にアクセス可能なメタデータ付与装置としてのコンピュータに実行させるメタデータ付与プログラムであって、
前記コンピュータに、
前記ファイル共有装置に保存されている複数のファイルのうち、前記構造化データに埋め込まれたハイパーリンクのリンク先となるファイルについて、前記ハイパーリンクのリンク元である構造化データに記述された情報を、前記リンク先のファイルに関するメタデータとして抽出する抽出ステップと、
前記リンク先のファイルに対して、前記抽出ステップにより抽出されたメタデータを付与する付与ステップと
を実行させることを特徴とするメタデータ付与プログラム。

【図１】