メタデータ付与装置、メタデータ付与方法およびメタデータ付与プログラム

【課題】ユーザに負担を掛けることなく、精度の高いタスク情報の検索を行うことを課題とする。
【解決手段】メタデータ付与装置１０は、属性情報を用いて、複数のファイルの中からタスクに関連するファイルを特定する。そして、メタデータ付与装置１０は、特定されたタスクに関連するファイルのアクセス履歴に関する情報を用いて、該タスクに関連するファイルと関係のあるファイルの候補を抽出する。そして、メタデータ付与装置１０は、抽出されたファイルの候補について、アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該タスクの関係者からのアクセス回数に応じて、ファイルの候補からタスクに関連するファイルを選択する。そして、メタデータ付与装置１０は、選択されたタスクに関連するファイルに対して、タスクに関する情報をメタ情報として付与する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、メタデータ付与装置、メタデータ付与方法およびメタデータ付与プログラムに関する。
【背景技術】
【０００２】
近年、企業の管理する情報が増加しており、業務（タスク）において情報探索に割かれる時間は非常に大きいと言われていることから、大量の企業内情報から必要な情報を適切に見つけ出すことが求められている。また、企業内の情報検索は既に企業内にあることが分かっている情報を検索する場面が多く、過去のあるタスクにおいて利用した情報を検索できるようにすることは非常に重要だと考えられている。
【０００３】
このように、膨大な数に膨れ上がった様々なファイルの中から、企業や個人の活動にとって有益な情報を最小限の手間で的確に取得するための情報の分類方法として、あるタスクに関連する情報やファイルを、ユーザが作業している時点で区別して管理する手法が知られている。この手法では、あるタスクに関連する情報やファイルについて、誰が、いつ、どのファイルを、何のタスクのためにアクセスしたかが分かるため、タスクの情報に基づいた検索を行うことができる。
【０００４】
また、過去のあるタスクにおいて利用した情報を検索できるようにする技術として、協調フィルタリングとコンテンツベースフィルタリングの統合手法を応用することが考えられる。例えば、コンテンツの内容と、コンテンツに対するユーザの評価値とを利用してファイルをモデル化し、ユーザに関連コンテンツを推薦する手法が知られている。ここで、ユーザの評価値として、例えば、ユーザのコンテンツに対するアクセス履歴から得られる情報（閲覧回数、閲覧時間など）を用いる。このような技術を利用して、文書の内容（例えば、単語頻度など）と、文書に対するユーザのアクセス頻度を利用してファイルをモデル化し、同一タスクに関連するファイルを抽出する手法が考えられる。
【先行技術文献】
【特許文献】
【０００５】
【非特許文献１】坂上秀和、本橋洋介、坂口基彦、内藤圭三著、「情報間の関係性管理に基づく企業内情報構造化方式：情報シナプスの構想」、情報処理学会研究報告、２００９−ＧＮ−７０、ｐ．４３−４８、２００９年
【非特許文献２】神嶌敏弘著、「推薦システムのアルゴリズム（３）」人工知能学会誌、ｖｏｌ．２３、ｐ．２４８−２６３、２００８年
【非特許文献３】土方嘉徳著、「嗜好抽出と情報推薦技術」ｖｏｌ．４８、９５７−９６５、２００７年
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、あるタスクに関連する情報やファイルを、ユーザが作業している時点で区別して管理する手法では、ユーザは自身が行っているタスクを意識してタスクが変更する度に作業領域を切り替える必要があり、タスク毎にファイルを分類する手間が生じるため、ユーザの負荷が高くなるという課題があった。
【０００７】
また、上記した文書の内容と文書に対するユーザのアクセス頻度とを利用してファイルをモデル化する方法では、精度の高い検索を行うことができないという課題があった。具体的には、途中でアクセスするユーザが変化するタスクの場合には、タスクと関連しているファイル同士を関連していないと判別してしまうという課題があった。例えば、あるタスクにおいて、同じファイルをある時はＡさんが作成・編集し、その後Ｂさんが引き継いで編集した場合には、タスクの途中でアクセスするユーザが変化することとなり、タスクと関連しているファイルをタスクと関連していないと誤判別する可能性がある。
【０００８】
また、上記した文書の内容と文書に対するユーザのアクセス頻度とを利用してファイルをモデル化する方法では、ファイルの内容が関連し、かつアクセス履歴も類似している別々のタスクのファイルがあった場合には、違うタスクのファイル同士を同じタスクのファイルと判別するという課題があった。例えば、別チームで同じ製品に関する別タスクを並行して行っている場合には、内容は関連しているため、進捗確認でお互いのチームのファイルを参照するなどの理由でアクセス履歴が類似した場合に、別々のタスクのファイル同士を同じタスクのファイルと誤判別する可能性がある。
【０００９】
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、ユーザに負担を掛けることなく、精度の高いタスク情報の検索を行うことを目的とする。
【課題を解決するための手段】
【００１０】
上述した課題を解決し、目的を達成するために、本発明は、業務に関する情報を複数のユーザがアクセス可能なコラボレーションシステムから、該コラボレーションシステムが記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得部と、前記取得部によって取得された前記属性情報を用いて、前記複数のファイルの中から業務に関連するファイルを特定する特定部と、前記特定部によって特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出部と、前記抽出部によって抽出されたファイルの候補について、前記アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、前記ファイルの候補から業務に関連するファイルを選択する選択部と、前記選択部によって選択された業務に関連するファイルに対して、前記業務に関する情報をメタ情報として付与する付与部とを有することを特徴とする。
【発明の効果】
【００１１】
本発明によれば、ユーザに負担を掛けることなく、精度の高いタスク情報の検索を行うことができるという効果を奏する。
【図面の簡単な説明】
【００１２】
【図１】図１は、実施例１に係るメタデータ付与装置の構成を示すブロック図である。
【図２】図２は、コラボレーションシステムについて説明する図である。
【図３】図３は、名簿・周辺情報ＤＢに記憶される情報の一例を示す図である。
【図４】図４は、アクセス履歴ＤＢに記憶される情報の一例を示す図である。
【図５】図５は、タスクＤＢに記憶される情報の一例を示す図である。
【図６】図６は、ファイルベクトルＤＢに記憶される情報の一例を示す図である。
【図７】図７は、メタデータＤＢに記憶される情報の一例を示す図である。
【図８】図８は、タスク名の候補データを取得する処理を説明する図である。
【図９】図９は、ファイル共有システムの情報を用いて、タスクＤＢにおける「期間」および「関係者ＩＤ」のカラムを埋める処理を説明する図である。
【図１０】図１０は、企業内Ｗｅｂサイトの情報を用いて、タスクＤＢにおける「期間」および「関係者ＩＤ」のカラムを埋める処理を説明する図である。
【図１１】図１１は、スケジューラの情報を用いて、タスクＤＢにおける「期間」および「関係者ＩＤ」のカラムを埋める処理を説明する図である。
【図１２】図１２は、分類候補ファイルを取得する処理を説明する図である。
【図１３】図１３は、アクセスベクトルを作成する処理を説明する図である。
【図１４】図１４は、タスク関連ファイルを抽出する処理を説明する図である。
【図１５】図１５は、分類候補ファイルを関連ファイルとする処理を説明する図である。
【図１６】図１６は、メタデータを付与する処理を説明する図である。
【図１７】図１７は、実施例１に係るメタデータ付与装置のメタデータ付与処理の動作を説明する図である。
【図１８】図１８は、実施例１に係るメタデータ付与装置の処理動作を示すフローチャートである。
【図１９】図１９は、メタデータ付与装置と同様の機能を有するプログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【００１３】
以下に添付図面を参照して、この発明に係るメタデータ付与装置、メタデータ付与方法およびメタデータ付与プログラムの実施例を詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例１】
【００１４】
以下の実施例では、実施例１に係るメタデータ付与装置の構成および処理の流れを順に説明し、最後に実施例１による効果を説明する。
【００１５】
［メタデータ付与装置の構成］
最初に、図１を用いて、メタデータ付与装置１０の構成を説明する。図１は、実施例１に係るメタデータ付与装置１０の構成を示すブロック図である。図１に示すように、このメタデータ付与装置１０は、アクセス履歴ＤＢ（Date Base）１３、タスク関連ＤＢ１４、タスク名判定ルールＤＢ１５、タスクＤＢ１６、ファイルベクトルＤＢ１７、タスク関連情報判定ルールＤＢ１８、メタデータ付与部２０、タスク名判定部２１、および機械学習部２２を有し、図示しないネットワーク等を介してコラボレーションシステム１１と、名簿・周辺情報ＤＢ１２と、メタデータＤＢ１９と接続される。以下にこれらの各部の処理を説明する。
【００１６】
コラボレーションシステム１１は、ネットワーク上での共同作業を支援するシステムであり、タスクの名称、タスクの期間、タスクの関係者などのタスクに関するタスク情報が含まれている。ここで、図２を用いて、コラボレーションシステム１１に含まれるウェブサイト、複数のファイルおよびスケジューラなどの情報群について説明する。図２は、コラボレーションシステム１１について説明する図である。例えば、コラボレーションシステム１１は、図２に例示するように、企業内Ｗｅｂサイト１１ａ、ファイル共有システム１１ｂ、スケジューラ１１ｃを有する。ここで、企業内Ｗｅｂサイト１１ａとは、例えば、ある企業内において、技術報告資料などをまとめたサイトや掲示板、ブログに該当する。また、ファイル共有システム１１ｂとは、例えば、タスクに関係するユーザが自由にアクセスできる文書、マルチメディアなどの様々なファイルを記憶するシステムに該当する。また、スケジューラ１１ｃとは、例えば、ユーザの予定や、予定に関係する関係者などに関するスケジュール情報を記憶するシステムに該当する。
【００１７】
名簿・周辺情報ＤＢ１２は、企業内のユーザに関する情報を記憶する。ここで、図３を用いて、名簿・周辺情報ＤＢ１２に記憶される情報例について説明する。図３は、名簿・周辺情報ＤＢ１２に記憶される情報の一例を示す図である。図３に例示するように、名簿・周辺情報ＤＢ１２は、企業内のユーザを一意に識別する「ＩＤ」と、ユーザの「名前」と、ユーザの電話番号である「電話」と、ユーザの企業における「所属」と、ユーザが属する「技術分野」と、ユーザが使用するパソコンなどの「ＩＰアドレス」と対応付けて記憶する。
【００１８】
アクセス履歴ＤＢ１３は、ユーザのファイルに対するアクセスの履歴に関する情報（例えば、アクセス日時、ユーザのＩＰアドレス、アクセス種別）を記憶する。ここで、アクセスとは、ユーザが様々なファイルに対して行う基本的な操作のことをいい、例えば、作成、閲覧、編集などの操作のことをいう。また、アクセス履歴ＤＢ１３は、コラボレーションシステム１１の中でユーザからのアクセス履歴が取得可能な企業Ｗｅｂサイト１１ａおよびファイル共有システム１１ｂと、企業内ユーザのＩＤ、名前、ＩＰアドレスの関係を保持する名簿・周辺情報ＤＢ１２から構築されるもので、時系列順に並べたアクセスのレコードを保持する。
【００１９】
ここで、図４を用いて、アクセス履歴ＤＢ１３に記憶される情報例について説明する。図４は、アクセス履歴ＤＢ１３に記憶される情報の一例を示す図である。図４に例示するように、アクセス履歴ＤＢ１３は、アクセスを一意に識別する「アクセスＩＤ」と、ファイルのタイトルである「ファイルタイトル」と、ファイルにアクセスするためのＵＲＩを示す「ファイルへのＵＲＩ」と、アクセス者のＩＤを示す「アクセス者ＩＤ」と、アクセスの種別を示す「アクセス種別」と、アクセスされた日時を示す「アクセス日時」とを対応付けて記憶する。
【００２０】
タスク関連単語ＤＢ１４は、タスクに関連する単語を記憶する。例えば、タスク関連単語ＤＢ１４は、作業項目名に含まれそうな候補語として、「作業委託」、「共同研究」、「検討」、「検証」、「リリース」、「外部投稿」を記憶する。また、タスク関連単語ＤＢ１４は、会議系の単語として、会議系の語「定例」、「議論」、「部議」、「所議」、「打ち合わせ」、社名「Ａ社」、「Ｂ社」、説明系の語「説明」、「課長説明」、「部長説明」、「社長説明」、「提案」、事務作業系の語「検収」、「契約」、「発注」、「納品」、催し系の語「講演会」、「委員会」、「発表会」、「学会」、「展示会」、「内覧会」などを記憶する。
【００２１】
タスク名判定ルールＤＢ１５は、名称がタスク名か否かを判定するためのルールであるタスク名判定ルールを記憶する。例えば、タスク名判定ルールＤＢ１５は、タスク名判定ルールとして、「タスク名候補にタスク関連単語ＤＢ１４に記憶された単語が含まれていた場合、タスク名と判定する」というルールを記憶する。
【００２２】
タスクＤＢ１６は、タスクに関する情報を記憶する。ここで、タスクとは、作業項目とイベントを含むものである。また、作業項目とは、定まると期間や関係者が一意に定まるものを指し、例えば、「Ａ社作業委託→期間：２０１１／９／１−９／１４、関係者：Ａ、Ｂ、Ｃ」などのことを指す。また、イベントとは、作業項目に共通して出現する作業のことであり、例えば、「打ち合わせ」、「議論」、「部長説明」などのことを指す。また、作業項目とは、作業項目とイベントの系列を持つ項目であり、例えば、「プロダクトＡ試作発注｛作業項目議論→Ｂ社作業委託課長説明→Ｂ社作業委託部長説明→Ｂ社打ち合わせ｝」などのことを指す。
【００２３】
ファイルベクトルＤＢ１７は、各ファイルについて、単語ベクトルおよびアクセスベクトルを記憶する。ここで、図６を用いて、ファイルベクトルＤＢ１７に記憶される情報例について説明する。図６は、ファイルベクトルＤＢ１７に記憶される情報の一例を示す図である。図６に例示するように、ファイルベクトルＤＢ１７は、ファイルを一意に識別する「ファイルＩＤ」と、単語頻度ベクトルを示す「単語ベクトル」と、タスク名が含まれるデータの関係者がアクセスしたことを重要視する重み付けを行ったアクセスベクトルを示す「アクセスベクトル」と、ファイルがタスクに関連するファイルであるか否かを示す「タスク関連フラグ」とを対応付けて記憶する。
【００２４】
タスク関連情報判定ルールＤＢ１８は、ＵＲＩの種別ごとに、タスク名の候補データを取得するためのルールを記憶する。例えば、アクセス履歴ＤＢ１３の「ファイルへのＵＲＩ」の種別がファイル共有システム１１ｂへのＵＲＩである場合には、上位のフォルダのＵＲＩをタスクＤＢ１６の「元データＵＲＩ」に追加し、フォルダ名をタスクＤＢ１６の「名称」に追加するというルールを記憶する。また、タスク関連情報判定ルールＤＢ１８は、タスクに関連するファイルである分類候補ファイルを取得するためのタスク関連情報判定ルールを記憶する。例えば、タスク関連情報判定ルールＤＢ１８は、タスク関連情報判定ルールとして、予め設定された期間（例えば、１週間）を記憶する。
【００２５】
メタデータＤＢ１９は、ファイルに対応付けて、タスクに関する情報をメタデータとして記憶する。ここで、図７の例を用いて、メタデータＤＢ１９に記憶された情報例について説明する。図７は、メタデータＤＢ１９に記憶される情報の一例を示す図である。図７に例示するように、メタデータＤＢ１９は、「ファイルＩＤ」と、「ファイルＵＲＩ」と、「ファイル名」と、「タスク候補ＩＤ」と、タスクの名称である「タスク名称」と、タスクの期間である「タスク期間」と、タスクの関係者である「タスク関係者」とを記憶する。なお、メタデータＤＢ１９に記憶される情報をどのように付与しているかについては、後に図１６などを用いて詳述する。
【００２６】
メタデータ付与部２０は、タスクの期間周辺のファイルを候補ファイルとして取得し、タスクの関係者のアクセスに関する情報を用いて、ファイルの候補からタスクに関連するファイルを抽出し、該タスクに関連するファイルの情報をメタ情報として付与する。また、メタデータ付与部２０は、取得部２０ａ、抽出部２０ｂ、選択部２０ｃ、付与部２０ｄを有する。
【００２７】
メタデータ付与部２０の取得部２０ａは、タスクに関する情報を複数のユーザがアクセス可能なコラボレーションシステム１１から、該コラボレーションシステム１１が記憶する各ファイルの属性を示す属性情報（例えば、ファイルの名称やＵＲＩ）と各ファイルに対するアクセス履歴に関する情報（例えば、アクセスされた期間やアクセスしたユーザのユーザＩＤ）とを取得する。
【００２８】
具体的には、取得部２０ａは、タスク関連情報判定ルールＤＢ１８に記憶されたタスク関連情報判定ルールを参照し、アクセス履歴ＤＢ１３やコラボレーションシステム１１から、タスク名の候補データを取得して、タスクＤＢ１６に格納する。例えば、取得部２０ａは、アクセス履歴ＤＢ１３上のレコードから、それぞれのＵＲＩの種別に応じたタスク関連情報判定ルールに従って、ファイルの情報を取得し、タスクＤＢ１６にタスク候補として格納する。
【００２９】
まず、取得部２０ａは、タスク関連情報判定ルールを参照し、タスクＤＢ１６の「タスク候補ＩＤ」、「名称」、「元データＵＲＩ」の項目に情報を追加する。具体例を挙げて説明すると、取得部２０ａは、アクセス履歴ＤＢ１３の「ファイルへのＵＲＩ」がファイル共有システム１１ｂへのＵＲＩである場合には、上位のフォルダのＵＲＩをタスクＤＢ１６の「元データＵＲＩ」に追加し、フォルダ名をタスクＤＢ１６の「名称」に追加する。また、企業内Ｗｅｂサイト１１ａへのＵＲＩならば、ＵＲＩをそのままタスクＤＢ１６の「元データＵＲＩ」に追加し、記事名を「名称」に追加する。また、ユーザが付与したタグが記事に存在した場合には、別のレコードに対してＵＲＩをそのまま「元データＵＲＩ」、タグ名を「名称」に追加する。
【００３０】
また、取得部２０ａは、図８に示すように、スケジューラ１１ｃのようなアクセス履歴ＤＢ１３にアクセス履歴が残らないコラボレーションシステム１１については、アクセス履歴ＤＢ１３のアクセス日時が存在する期間の予定を抽出し、その予定へのＵＲＩを「元データＵＲＩ」に追加し、予定件名を「名称」に追加する。
【００３１】
次に、取得部２０ａは、タスク関連情報判定ルールを参照し、タスクＤＢ１６の「期間」、「関係者ＩＤ」および「関連ファイルＵＲＩ」の項目に情報を追加する。具体例を挙げて説明すると、図９に示すように、取得部２０ａは、タスクＤＢ１６の「元データＵＲＩ」がファイル共有システム１１ｂへのＵＲＩである場合には、「期間」として、直下のファイルがアクセスされた期間を追加する。また、取得部２０ａは、「関係者ＩＤ」として、フォルダ作成者、直下のファイルを作成・ペーストした者のユーザＩＤを追加する。例えば、図９の例では、Ｄさんが「課長説明」のフォルダを作成し、Ｄさん、Ｅさん、Ｆさんが「課長説明」フォルダ直下にファイルを作成したので、「関係者ＩＤ」として、Ｄさん、Ｅさん、ＦさんのユーザＩＤを追加する。また、取得部２０ａは、「関連ファイルＵＲＩ」として、フォルダ直下のファイルのＵＲＩを追加する。なお、「期間」として、アクセス日時の平均と標準偏差を用いてもよく、例えば、平均から±標準偏差の定数倍の範囲を期間としてもよい。
【００３２】
また、図１０に示すように、取得部２０ａは、タスクＤＢ１６の「元データＵＲＩ」が企業内Ｗｅｂサイト１１ａへのＵＲＩである場合には、「期間」として、記事の作成日時を開始日時（図１０の例では、９／２１３：１５）、記事への最終アクセス日時、記事への最終コメントの作成日（図１０の例では、９／３１４：２０）などを最終日時として追加し、「関係者ＩＤ」として、作成者とコメント者のユーザＩＤを追加する。また、取得部２０ａは、記事とコメントを含めて一つの文章とみなし、「元データＵＲＩ」をそのまま「関連ファイルＵＲＩ」にコピーし、添付ファイルがある場合には、そのファイルへのＵＲＩを「関連ファイルＵＲＩ」に追加する。
【００３３】
また、図１１に示すように、取得部２０ａは、タスクＤＢ１６の「元データＵＲＩ」がスケジューラ１１ｃへのＵＲＩである場合には、「期間」として、予定の開始日時（図１１の例では、９／４１５：４５）から終了日時（図１１の例では、９／４１６：３０）の期間を追加し、「関係者ＩＤ」として、予定の作成者と予定への出席者のユーザＩＤを追加する。また、取得部２０ａは、添付ファイルがある場合には、そのファイルへのＵＲＩを「関連ファイルＵＲＩ」に追加する。
【００３４】
次に、取得部２０ａは、タスクＤＢ１６からタスク候補ＩＤ順に一つレコードを取得し、タスクＤＢ１６の「名称」がタスク名であるかタスク名判定部２１に判定させる。この結果、タスク名と判定された場合には、取得部２０ａは、タスク候補ＩＤのタスクフラグを立てる。具体的には、取得部２０ａは、タスク名と判定された場合には、タスクＤＢ１６の「タスクフラグ」の項目に「１」を記憶させる。
【００３５】
図１の説明に戻って、メタデータ付与部２０の抽出部２０ｂは、特定されたタスクに関連するファイルのアクセス履歴に関する情報を用いて、該タスクに関連するファイルと関係のあるファイルの候補を抽出する。具体的には、抽出部２０ｂは、取得されたアクセス日時を含む所定の期間内にアクセスが行われたファイルを、業務に関連するファイルと関係のある分類候補ファイルとして抽出する分類候補ファイルの取得処理を行う。
【００３６】
ここで、図１２を用いて、分類候補ファイルの取得処理について説明する。図１２は、分類候補ファイルを取得する処理を説明する図である。抽出部２０ｂは、取得したタスクの期間と、その前後の予め設定した期間（例えば、１週間）にアクセス履歴の存在するファイルをアクセス日時順に取得し、そのＵＲＩを「分類候補ファイル」カラムに追加する。図１２の例を用いて説明すると、抽出部２０ｂは、タスク名「課長候補」のファイルについて、タスク期間「９／１５１３：１５〜９／２０１４：２０」の前後一週間「９／８１３：１５〜９／２７１４：２０」にアクセス履歴が存在するファイルを企業内Ｗｅｂサイト１１ａやファイル共有システム１１ｂから取得し、そのファイルのＵＲＩをタスクＤＢ１６の「分類候補ファイル」カラムに追加する。
【００３７】
図１の説明に戻って、メタデータ付与部２０の選択部２０ｃは、抽出されたファイルの候補について、アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、ファイルの候補から業務に関連するファイルを選択する。具体的には、選択部２０ｃは、事前に用意した重みに従って、関係者のアクセス回数を重視するようにファイルのモデル化を行っている。
【００３８】
まず、選択部２０ｃは、分類候補ファイルまたは関連ファイルを一つ取得し、特徴ベクトルを作成する。ここで、選択部２０ｃは、特徴ベクトルとして、ファイル中に出現する単語の出現頻度に基づいて単語頻度ベクトルを作成するとともに、ファイルの候補に対する業務の関係者のアクセス回数に基づいてアクセスベクトルを作成する。
【００３９】
まず、単語頻度ベクトルの作成処理について説明する。選択部２０ｃは、文書に対してのみ、ｔｆ−ｉｄｆのような既存の技術を利用して、単語頻度ベクトルを作成する。例えば、ファイルＤ_ｉにおけるタームｔ_ｊの出現頻度をｔｆ_ｉｊ＝ｆｒｅｑ（ｉ，ｊ）とする。ここで、ｉとは、ファイルＩＤのことを示す。また、タームｔ_ｊが出現するファイル数をｄｆ_ｊとする。そして、選択部２０ｃは、下記（１）式を用いて、ｉｄｆ（inverse document frequency）値を算出する。
【００４０】
【数１】

【００４１】
そして、選択部２０ｃは、下記（２）式を用いて、ファイルＦ_ｉのタームｔ_ｊの重みｗ_ｉｊを算出する。
【００４２】
【数２】

【００４３】
そして、選択部２０ｃは、全てのファイル、全てのタームについて、重みｗ_ｉｊを算出することで、下記（３）式に示すように、単語頻度ベクトルを求める。
【００４４】
【数３】

【００４５】
次に、アクセスベクトルの作成処理について図１３を用いて説明する。図１３は、アクセスベクトルを作成する処理を説明する図である。図１３に示すように、選択部２０ｃは、選択したファイルに対して、各サーバのファイル取得期間（図１３の例では、タスク期間「９／４１５：４５〜９／４１６：３０」の前後一週間の期間）におけるアクセス回数を算出する。図１３の例では、ユーザＡがアクセス回数３回、ユーザＢがアクセス回数２回、ユーザＣがアクセス回数１回、ユーザＤがアクセス回数２回である。
【００４６】
そして、選択部２０ｃは、タスク関係者のアクセス回数が、実際のアクセス回数に事前に設定した重み係数（図１３の例では、「２」）を掛けたものである。図１３の例では、ユーザＡ、Ｂ、Ｃがタスク関係者であり、ユーザＡ、Ｂ、Ｃのアクセス回数に２を乗算している。そして、選択部２０ｃは、算出したアクセス回数をユーザＩＤ順に並べたものをアクセスベクトルとする。図１３の例では、選択部２０ｃは、ユーザＡ、Ｂ、Ｃ、Ｄの順にアクセス回数を並べたアクセスベクトルＦ_ｉ＝（６，４，２，２）を作成する。
【００４７】
そして、選択部２０ｃは、「関連ファイルＵＲＩ」カラム、「分類候補ファイル」カラムのどちらかからＵＲＩを一つずつ取得し、取得した順番を番号として、ファイルベクトルＤＢ１７の「ファイルＩＤ」カラムにファイルＩＤを記憶させる。そして、選択部２０ｃは、取得したファイルが関連ファイルだった場合には、タスク関連フラグに「１」を記憶させ、取得したファイルが分類候補ファイルだった場合には、タスク関連フラグに「０」を記憶させる。
【００４８】
そして、選択部２０ｃは、関連ファイルの数が所定の閾値以上であるか判定する。この結果、選択部２０ｃは、関連ファイルの数が所定の閾値以上で無い場合には、予め記憶されたルールに従って、関連ファイルを追加するタスク関連ファイル判定処理を行う。例えば、選択部２０ｃは、各ファイルへのユーザのアクセス頻度が高いファイルをタスク関連ファイルとして抽出する。具体的には、アクセスベクトルのユークリッドノルムを算出した上位のファイル３つを関連ファイルとして、そのＵＲＩを「分類候補ファイル」カラムから「関連ファイルＵＲＩ」カラムに移動する。
【００４９】
例えば、図１４の例では、５つのファイルのアクセスベクトルのユークリッドノルムが、「１２」、「５」、「６」、「１５」、「１４」であり、このうちユークリッドノルムが上位の「１２」、「１５」、「１４」のファイル３つ（図１４では、線で囲われた３つのファイル）を関連ファイルとして抽出する。
【００５０】
また、分類候補ファイルの中で、ファイル名にタスクの名称が含まれているものを関連ファイルとし、そのＵＲＩを「分類候補ファイル」カラムから「関係ファイルＵＲＩ」カラムに移動するようにしてもよい。例えば、図１５の例では、タスク候補ＩＤ「＃１」について、ファイル名に、タスクの名称「課長説明」が含まれているものを関連ファイルとし、そのＵＲＩを「分類候補ファイル」カラムから「関係ファイルＵＲＩ」カラムに移動する。
【００５１】
そして、選択部２０ｃは、関連ファイルの数が所定の閾値以上である場合には、アクセスベクトルおよび単語頻度ベクトルを用いて、ファイルの分類を行う旨の指示を機械学習部２２に通知する。そして、選択部２０ｃは、ファイルベクトルＤＢ１７において、タスク関連フラグが立っているファイルのＵＲＩを、分類候補ファイルのカラムから、関連ファイルのカラムに移動した後、ファイルベクトルＤＢ１７を初期化し、全てのタスクを取得したか否かを判定する。この結果、全てのタスクを取得した場合には、タスクフラグが立っているレコードの関連ファイルに対して、当該レコードのタスク情報をメタデータとして付与する処理を付与部２０ｄに指示する。
【００５２】
図１の説明に戻って、メタデータ付与部２０の付与部２０ｄは、選択部２０ｃによって選択された業務に関連するファイルに対して、業務に関する情報をメタ情報として付与する。ここで、図１６を用いて、メタデータを付与する処理について説明する。図１６に示すように、付与部２０ｄは、タスクに関連しているファイルに対して、タスクに関する情報をメタデータとして付与する。具体的には、付与部２０ｄは、タスクＤＢ１６を元にして、ファイルをタスク情報で検索し易い形式に変換して、メタデータＤＢ１９に格納する。
【００５３】
図１６に示すように、付与部２０ｄは、タスクフラグの立っているレコードの「関連ファイルＵＲＩ」カラムに格納されているＵＲＩを取得し、そのＵＲＩを「ファイルＵＲＩ」、ファイル名を「ファイル名」に格納する。また、図１６に示すように、付与部２０ｄは、当該タスクのタスク候補ＩＤ、名称、期間、関係者ＩＤをそれぞれ「タスクＩＤ」、「タスク名称」、「タスク期間」、「タスク関係者ＩＤ」に格納する。
【００５４】
図１の説明に戻って、タスク名判定部２１は、取得された属性情報を用いて、複数のファイルの中から業務に関連するファイルを特定する。タスク名判定部２１は、取得されたファイルの名称が業務に関連する単語であるか判定し、名称が業務に関連する単語であるファイルを、業務に関連するファイルとして特定する。
【００５５】
例えば、タスク名判定部２１は、タスクＤＢ１６のタスク候補のレコード一つ一つの「名称」に対して、タスク名判定ルールＤＢ１５に記憶されたタスク名判定ルールに基づいて「名称」がタスク名か否かを判定し、タスク名であれば「タスクフラグ」カラムに「１」を、タスク名でなければ「タスクフラグ」カラムに「０」を格納する。「名称」がタスク名か否かを判定する処理として、例えば、タスク名判定部２１は、タスクＤＢ１６の「名称」に、タスク関連単語ＤＢ１４に記憶されたタスクに関連する単語に該当する単語が含まれているか判定し、含まれている場合には、タスク名と判定し、タスクＤＢ１６のタスクフラグ「１」を格納する。
【００５６】
機械学習部２２は、ファイルベクトルＤＢ１７から単語頻度ベクトルがあるもののみを対象として、ファイルがタスクに関連しているか否か判別する２値分類問題を解く。具体的には、「ｃ」を潜在変数としてアクセスベクトルと単語頻度ベクトルの同時確率モデルを構築する。ここで、「ｃ」は、クラスを表す変数であり、文書がタスクと関連しているなら＋１、関連していないなら−１の値を取る。また、タスク関連フラグが「１」のファイルは、既にタスクに関連していることが分かっているため、ｃには＋１が代入される。下記（４）式に示すモデルに対して、既存の半教師あり学習アルゴリズムを適用する。
【００５７】
【数４】

【００５８】
例えば、ＥＭアルゴリズムを適用して、右の同時確率の値を推定し、推定した値が事前に設定した閾値を超えていたら、そのファイルはタスクに関連があると分類し、ｃに＋１を代入する。全てのファイルに対して、上記の処理を行うと、ｃに＋１を代入したファイルをタスク関連データとして、上記の処理を繰り返す。そして、収束したら終了し、ｃに＋１が代入されたファイルはタスク関連フラグを「１」とする。
【００５９】
なお、機械学習部２２は、アクセスベクトルのみを用いて、上記の処理を行ってもよい。この場合には、機械学習部２２は、ファイルベクトルＤＢ１７を対象として、ファイルがタスクに関連しているか否かを判別する２値分類問題を解く。具体的には、「ｃ」を潜在変数としてアクセスベクトルの同時確率モデルを構築する。ここで、「ｃ」は、クラスを表す変数であり、文書がタスクと関連しているなら＋１、関連していないなら−１の値を取る。また、タスク関連フラグが「１」のファイルは、既にタスクに関連していることが分かっているため、ｃには＋１が代入される。下記（５）式に示すモデルに対して、既存の半教師あり学習アルゴリズムを適用する。
【００６０】
【数５】

【００６１】
このように、メタデータ付与部２０は、タスクに関連しているファイルに対して、タスクに関する情報をメタデータとして付与することで、タスクに関する情報をキーとして検索が可能となる。つまり、図１７に示すように、メタデータ付与部２０は、既存のコラボレーションシステム１１から自動的にタスクに関連するデータ（タスク名、タスク期間、タスク関係者）を取得する。そして、メタデータ付与部２０は、タスクの期間周辺のファイルを候補として、タスクの関係者のアクセスを重視するようなファイルのモデル化を行う。そして、メタデータ付与部２０は、タスクに関連しているファイルを出力し、出力したファイルに対して、タスクに関する情報をメタデータとして付与する。これにより、例えば、タスクに関連しているファイルに付与されたメタデータをキーとして、タスク名によるファイル検索、指定期間におけるタスクの検索、関係者指定による関連タスクの検索を行うことができる。
【００６２】
［メタデータ付与装置による処理］
次に、図１８を用いて、実施例１に係るメタデータ付与装置１０による処理を説明する。図１８は、実施例１に係るメタデータ付与装置の処理動作を示すフローチャートである。
【００６３】
図１８に示すように、メタデータ付与装置１０の取得部２０ａは、メタデータ付与部２０は、タスク関連情報判定ルールＤＢ１８に記憶されたタスク関連情報判定ルールを参照し、アクセス履歴ＤＢ１３やコラボレーションシステム１１から、タスク名の候補データを取得し（ステップＳ１０１）、タスクＤＢ１６に格納する。
【００６４】
そして、取得部２０ａは、タスクＤＢ１６からタスク候補ＩＤ順に一つレコードを取得する（ステップＳ１０２）。そして、タスク名判定部２１は、タスクＤＢ１６の名称とタスク関連単語ＤＢ１４とを照合し、タスク名か判定する（ステップＳ１０３）。この結果、取得部２０ａは、タスク名と判定された場合には、タスク候補ＩＤのタスクフラグを立てる（ステップＳ１０４）。
【００６５】
そして、抽出部２０ｂは、全てのタスク候補について取得したか判定する（ステップＳ１０５）。つまり、抽出部２０ｂは、全てのタスク候補について取得しタスク候補ＩＤのタスクフラグに「１」または「０」を記憶させたかを判定する。この結果、抽出部２０ｂは、全てのタスク候補について取得していないと判定した場合には（ステップＳ１０５否定）、ステップＳ１０２に戻って、上記の処理を繰り返す。
【００６６】
また、抽出部２０ｂは、全てのタスク候補について取得したと判定した場合には（ステップＳ１０５肯定）、タスクＤＢ１６からタスクフラグが立っているタスクを一つ取得し（ステップＳ１０６）、分類候補ファイルの取得処理を行う（ステップＳ１０７）。具体的には、抽出部２０ｂは、取得したタスクの期間と、その前後の予め設定した期間（例えば、１週間）にアクセス履歴の存在するファイルをアクセス日時順に取得し、そのＵＲＩを「分類候補ファイル」カラムに追加する。
【００６７】
その後、選択部２０ｃは、分類候補ファイルまたは関連ファイルを一つ取得し（ステップＳ１０８）、特徴ベクトルとして、アクセスベクトルおよび単語頻度ベクトルを作成する（ステップＳ１０９）。そして、選択部２０ｃは、全ての分類候補ファイル、または関連ファイルを取得したか判定する（ステップＳ１１０）。つまり、選択部２０ｃは、全ての分類候補ファイル、または関連ファイルについて、特徴ベクトルを作成したか否かを判定する。
【００６８】
この結果、選択部２０ｃは、全ての分類候補ファイル、または関連ファイルを取得していないと判定した場合には（ステップＳ１１０否定）、ステップＳ１０８に戻って、上記の処理を繰り返す。また、選択部２０ｃは、全ての分類候補ファイル、または関連ファイルを取得したと判定した場合には（ステップＳ１１０肯定）、関連ファイルの数が十分であるか判定する（ステップＳ１１１）。つまり、選択部２０ｃは、関連ファイルの数が所定の閾値以上であるか判定する。この結果、選択部２０ｃは、関連ファイルの数が所定の閾値以上で無い場合には（ステップＳ１１１否定）、予め記憶されたルールに従って、関連ファイルを追加するタスク関連ファイル判定処理を行い（ステップＳ１１３）、ステップＳ１０８に戻って、上記の処理を繰り返す。
【００６９】
また、関連ファイルの数が所定の閾値以上である場合には（ステップＳ１１１肯定）、機械学習部２２は、半教師あり分類処理を行う（ステップＳ１１２）。ここで、機械学習部２２は、ファイルベクトルＤＢ１７において、関連ファイルと分類されたファイルのレコードのタスク関連フラグを立てる。
【００７０】
そして、選択部２０ｃは、ファイルベクトルＤＢ１７において、タスク関連フラグが立っているファイルのＵＲＩを、分類候補ファイルのカラムから関連ファイルのカラムに移動するタスク関連ファイルの更新処理を行う（ステップＳ１１４）。そして、選択部２０ｃは、ファイルベクトルＤＢ１７を初期化し（ステップＳ１１５）、全てのタスクを取得したか否かを判定する（ステップＳ１１６）。
【００７１】
この結果、選択部２０ｃは、全てのタスクを取得していないと判定した場合には（ステップＳ１１６否定）、ステップＳ１０６に戻って、上記の処理を繰り返す。また、付与部２０ｄは、全てのタスクを取得した場合には（ステップＳ１１６肯定）、タスクフラグが立っているレコードの関連ファイルに対して、当該レコードのタスク情報をメタデータとして付与する（ステップＳ１１７）。
【００７２】
[実施例１の効果]
上述してきたように、メタデータ付与装置１０は、タスクに関する情報を複数のユーザがアクセス可能なコラボレーションシステム１１から、該コラボレーションシステム１１が記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する。そして、メタデータ付与装置１０は、取得された属性情報を用いて、複数のファイルの中からタスクに関連するファイルを特定する。そして、メタデータ付与装置１０は、特定されたタスクに関連するファイルのアクセス履歴に関する情報を用いて、該タスクに関連するファイルと関係のあるファイルの候補を抽出する。そして、メタデータ付与装置１０は、抽出されたファイルの候補について、アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該タスクの関係者からのアクセス回数に応じて、ファイルの候補からタスクに関連するファイルを選択する。そして、メタデータ付与装置１０は、選択されたタスクに関連するファイルに対して、タスクに関する情報をメタ情報として付与する。このため、ユーザに負荷を掛けることなく、精度の高いタスク情報の検索を行うことが可能である。
【００７３】
つまり、メタデータ付与装置１０では、ユーザが普段業務を行っているコラボレーションシステムユーザが普段業務を行っているコラボレーションシステム１１から自動的にタスク情報と関連ファイルを抽出するルールを定めており、ユーザが業務プロセスを変更する必要がないため、ユーザの業務プロセスを変更することなく、タスク名称、タスク期間、タスク関係者などのタスク情報をキーとした検索を可能にする。
【００７４】
また、メタデータ付与装置１０では、タスクの期間を抽出して、タスクの期間を分類候補ファイルの取得に用いており、途中でアクセスするユーザが変化するタスクの場合でも、タスクと関連しているファイル同士を関連していないと判別する検索漏れを低減することができる。また、メタデータ付与装置１０では、タスクの期間と関係者を抽出し、当該タスクの関係者のアクセスを重視するようなファイルのモデル化を行うことで、内容が関連して、かつアクセス履歴も類似している別々のタスクのファイルがあった場合でも、違うタスクのファイル同士を同じタスクのファイルと判別してしまう誤りを低減することを可能にする。
【００７５】
また、実施例１によれば、メタデータ付与装置１０は、属性情報として、各ファイルの名称に関する情報を取得し、取得されたファイルの名称がタスクに関連する単語であるか判定し、名称がタスクに関連する単語であるファイルを、タスクに関連するファイルとして特定する。このため、タスクに関連するファイルを精度よく特定することが可能である。
【００７６】
また、実施例１によれば、メタデータ付与装置１０は、アクセス履歴に関する情報として、各ファイルに対してアクセスが行われたアクセス日時を取得し、取得されたアクセス日時を含む所定の期間内にアクセスが行われたファイルを、タスクに関連するファイルと関係のあるファイルの候補として抽出する。このため、タスクの期間を抽出して、タスクの期間を分類候補ファイルの取得に用いており、途中でアクセスするユーザが変化するタスクの場合でも、タスクと関連しているファイル同士を関連していないと判別する検索漏れを低減することが可能である。
【００７７】
また、実施例１によれば、抽出されたファイルの候補に対するタスクの関係者のアクセス回数に基づいてアクセスベクトルを作成し、該アクセスベクトルを用いて、ファイルの候補からタスクに関連するファイルを選択する。このため、内容が関連している別のタスクで関係者が異なる場合に、単なる頻度では類似する可能性があるアクセス頻度のベクトルにタスク毎で差を付けることができ、違うタスクのファイルを同じタスクのファイルとみなす誤判別を防いでいるため、内容が関連して、かつアクセス履歴も類似している別々のタスクのファイルがあった場合でも、違うタスクのファイル同士を同じタスクのファイルと判別してしまう誤りを低減することが可能となる。
【００７８】
また、実施例１によれば、アクセスベクトルとともに、抽出されたファイルの候補において、ファイル中に出現する単語の出現頻度に基づいて単語頻度ベクトルを作成し、アクセスベクトルおよび単語頻度ベクトルを用いて、ファイルの候補からタスクに関連するファイルを選択する。このため、内容が関連して、かつアクセス履歴も類似している別々のタスクのファイルがあった場合でも、違うタスクのファイル同士を同じタスクのファイルと判別してしまう誤りを低減することが可能となる。
【実施例２】
【００７９】
以下、本発明にかかるメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法の他の実施形態として実施例２を説明する。
【００８０】
（１）装置構成等
図１に示したメタデータ付与装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、メタデータ付与装置１０の分散または統合の具体的形態は図示のものに限られず、例えば、メタデータ付与部２０とタスク名判定部２１とが機能的または物理的に統合されていてもよい。このように、メタデータ付与装置１０の各構成要素の全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【００８１】
（２）メタデータ付与プログラム
図１９は、メタデータ付与装置と同様の機能を有するプログラムを実行するコンピュータの一例を示す図である。図１９に例示するように、コンピュータ３０００は、例えば、メモリ３０１０と、ＣＰＵ（Central Processing Unit）３０２０と、ネットワークインタフェース３０７０とを有する。コンピュータ３０００の各部はバス３１００によって接続される。
【００８２】
メモリ３０１０は、図１９に例示するように、ＲＯＭ３０１１及びＲＡＭ３０１２を含む。ＲＯＭ３０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。
【００８３】
ここで、図１９に例示するように、ハードディスクドライブ３０８０は、例えば、ＯＳ３０８１、アプリケーションプログラム３０８２、プログラムモジュール３０８３、プログラムデータ３０８４を記憶する。すなわち、開示の技術に係るメタデータ付与プログラムは、コンピュータによって実行される指令が記述されたプログラムモジュール３０８３として、例えばハードディスクドライブ３０８０に記憶される。具体的には、上記実施例で説明したメタデータ付与部２０、タスク名判定部２１、機械学習部２２と同様の情報処理を実行する手順各々が記述されたプログラムモジュールが、ハードディスクドライブ３０８０に記憶される。
【００８４】
また、上記実施例で説明したメタデータ付与装置１０に記憶されるデータのように、メタデータ付与プログラムによる情報処理に用いられるデータは、プログラムデータ３０８４として、例えばハードディスクドライブ３０８０に記憶される。そして、ＣＰＵ３０２０が、ハードディスクドライブ３０８０に記憶されたプログラムモジュール３０８３やプログラムデータ３０８４を必要に応じてＲＡＭ３０１２に読み出し、各種の手順を実行する。
【００８５】
なお、メタデータ付与プログラムに係るプログラムモジュール３０８３やプログラムデータ３０８４は、ハードディスクドライブ３０８０に記憶される場合に限られない。例えば、プログラムモジュール３０８３やプログラムデータ３０８４は、着脱可能な記憶媒体に記憶されても良い。この場合、ＣＰＵ３０２０は、ディスクドライブなどの着脱可能な記憶媒体を介してデータを読み出す。また、同様に、メタデータ付与プログラムに係るプログラムモジュール３０８３やプログラムデータ３０８４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されても良い。この場合、ＣＰＵ３０２０は、ネットワークインタフェースを介して他のコンピュータにアクセスすることで各種データを読み出す。
【００８６】
（３）メタデータ付与方法
実施例１で説明したメタデータ付与装置１０により、以下のようなメタデータ付与方法が実現される。
【００８７】
すなわち、ファイルシステムが保持する複数のファイルについて、各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得工程と、取得された属性情報を用いて、複数のファイルのなかから業務に関連するファイルを特定し、特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出工程と、抽出されたファイルの候補に対する業務の関係者からのアクセス回数に応じて、ファイルの候補から業務に関連するファイルを選択する選択工程と、選択された業務に関連するファイルに対して、業務に関する情報をメタ情報として付与する付与工程と、を含んだメタデータ付与方法が実現される。
【符号の説明】
【００８８】
１０メタデータ付与装置
１１コラボレーションシステム
１２名簿・周辺情報ＤＢ
１３アクセス履歴ＤＢ
１４タスク関連単語ＤＢ
１５タスク名判定ルールＤＢ
１６タスクＤＢ
１７ファイルベクトルＤＢ
１８タスク関連情報判定ルールＤＢ
１９メタデータＤＢ
２０メタデータ付与部
２１タスク名判定部
２２機械学習部

【特許請求の範囲】
【請求項１】
業務に関する情報を複数のユーザがアクセス可能なコラボレーションシステムから、該コラボレーションシステムが記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得部と、
前記取得部によって取得された前記属性情報を用いて、前記複数のファイルの中から業務に関連するファイルを特定する特定部と、
前記特定部によって特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出部と、
前記抽出部によって抽出されたファイルの候補について、前記アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、前記ファイルの候補から業務に関連するファイルを選択する選択部と、
前記選択部によって選択された業務に関連するファイルに対して、前記業務に関する情報をメタ情報として付与する付与部と
を有することを特徴とするメタデータ付与装置。
【請求項２】
前記取得部は、前記属性情報として、各ファイルの名称に関する情報を取得し、
前記特定部は、前記取得部によって取得されたファイルの名称が業務に関連する単語であるか判定し、名称が業務に関連する単語であるファイルを、業務に関連するファイルとして特定することを特徴とする請求項１に記載のメタデータ付与装置。
【請求項３】
前記取得部は、前記アクセス履歴に関する情報として、各ファイルに対してアクセスが行われたアクセス日時を取得し、
前記抽出部は、前記取得部によって取得されたアクセス日時を含む所定の期間内にアクセスが行われたファイルを、前記業務に関連するファイルと関係のあるファイルの候補として抽出することを特徴とする請求項１または２に記載のメタデータ付与装置。
【請求項４】
前記選択部は、前記抽出部によって抽出されたファイルの候補に対する業務の関係者のアクセス回数に基づいてアクセスベクトルを作成し、該アクセスベクトルを用いて、前記ファイルの候補から業務に関連するファイルを選択することを特徴とする請求項１〜３のいずれか一つに記載のメタデータ付与装置。
【請求項５】
前記選択部は、前記アクセスベクトルとともに、前記抽出部によって抽出されたファイルの候補において、ファイル中に出現する単語の出現頻度に基づいて単語頻度ベクトルを作成し、前記アクセスベクトルおよび前記単語頻度ベクトルを用いて、前記ファイルの候補から業務に関連するファイルを選択することを特徴とする請求項４に記載のメタデータ付与装置。
【請求項６】
メタデータ付与装置で実行されるメタデータ付与方法であって、
業務に関する情報を複数のユーザがアクセス可能なコラボレーションシステムから、該コラボレーションシステムが記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得工程と、
前記取得工程によって取得された前記属性情報を用いて、前記複数のファイルの中から業務に関連するファイルを特定する特定工程と、
前記特定工程によって特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出工程と、
前記抽出工程によって抽出されたファイルの候補について、前記アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、前記ファイルの候補から業務に関連するファイルを選択する選択工程と、
前記選択工程によって選択された業務に関連するファイルに対して、前記業務に関する情報をメタ情報として付与する付与工程と
を含んだことを特徴とするメタデータ付与方法。
【請求項７】
業務に関する情報を複数のユーザがアクセス可能なコラボレーションシステムから、該コラボレーションシステムが記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得ステップと、
前記取得ステップによって取得された前記属性情報を用いて、前記複数のファイルの中から業務に関連するファイルを特定する特定ステップと、
前記特定ステップによって特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出ステップと、
前記抽出ステップによって抽出されたファイルの候補について、前記アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、前記ファイルの候補から業務に関連するファイルを選択する選択ステップと、
前記選択ステップによって選択された業務に関連するファイルに対して、前記業務に関する情報をメタ情報として付与する付与ステップと
をコンピュータに実行させるためのメタデータ付与プログラム。

【図１】