説明

メタデータ付与装置、メタデータ付与方法およびメタデータ付与プログラム

【課題】ユーザに負担を掛けることなく、精度の高いタスク情報の検索を行うことを課題とする。
【解決手段】メタデータ付与装置10は、属性情報を用いて、複数のファイルの中からタスクに関連するファイルを特定する。そして、メタデータ付与装置10は、特定されたタスクに関連するファイルのアクセス履歴に関する情報を用いて、該タスクに関連するファイルと関係のあるファイルの候補を抽出する。そして、メタデータ付与装置10は、抽出されたファイルの候補について、アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該タスクの関係者からのアクセス回数に応じて、ファイルの候補からタスクに関連するファイルを選択する。そして、メタデータ付与装置10は、選択されたタスクに関連するファイルに対して、タスクに関する情報をメタ情報として付与する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メタデータ付与装置、メタデータ付与方法およびメタデータ付与プログラムに関する。
【背景技術】
【0002】
近年、企業の管理する情報が増加しており、業務(タスク)において情報探索に割かれる時間は非常に大きいと言われていることから、大量の企業内情報から必要な情報を適切に見つけ出すことが求められている。また、企業内の情報検索は既に企業内にあることが分かっている情報を検索する場面が多く、過去のあるタスクにおいて利用した情報を検索できるようにすることは非常に重要だと考えられている。
【0003】
このように、膨大な数に膨れ上がった様々なファイルの中から、企業や個人の活動にとって有益な情報を最小限の手間で的確に取得するための情報の分類方法として、あるタスクに関連する情報やファイルを、ユーザが作業している時点で区別して管理する手法が知られている。この手法では、あるタスクに関連する情報やファイルについて、誰が、いつ、どのファイルを、何のタスクのためにアクセスしたかが分かるため、タスクの情報に基づいた検索を行うことができる。
【0004】
また、過去のあるタスクにおいて利用した情報を検索できるようにする技術として、協調フィルタリングとコンテンツベースフィルタリングの統合手法を応用することが考えられる。例えば、コンテンツの内容と、コンテンツに対するユーザの評価値とを利用してファイルをモデル化し、ユーザに関連コンテンツを推薦する手法が知られている。ここで、ユーザの評価値として、例えば、ユーザのコンテンツに対するアクセス履歴から得られる情報(閲覧回数、閲覧時間など)を用いる。このような技術を利用して、文書の内容(例えば、単語頻度など)と、文書に対するユーザのアクセス頻度を利用してファイルをモデル化し、同一タスクに関連するファイルを抽出する手法が考えられる。
【先行技術文献】
【特許文献】
【0005】
【非特許文献1】坂上秀和、本橋洋介、坂口基彦、内藤圭三著、「情報間の関係性管理に基づく企業内情報構造化方式:情報シナプスの構想」、情報処理学会研究報告、2009−GN−70、p.43−48、2009年
【非特許文献2】神嶌敏弘著、「推薦システムのアルゴリズム(3)」人工知能学会誌、vol.23、p.248−263、2008年
【非特許文献3】土方嘉徳著、「嗜好抽出と情報推薦技術」vol.48、957−965、2007年
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、あるタスクに関連する情報やファイルを、ユーザが作業している時点で区別して管理する手法では、ユーザは自身が行っているタスクを意識してタスクが変更する度に作業領域を切り替える必要があり、タスク毎にファイルを分類する手間が生じるため、ユーザの負荷が高くなるという課題があった。
【0007】
また、上記した文書の内容と文書に対するユーザのアクセス頻度とを利用してファイルをモデル化する方法では、精度の高い検索を行うことができないという課題があった。具体的には、途中でアクセスするユーザが変化するタスクの場合には、タスクと関連しているファイル同士を関連していないと判別してしまうという課題があった。例えば、あるタスクにおいて、同じファイルをある時はAさんが作成・編集し、その後Bさんが引き継いで編集した場合には、タスクの途中でアクセスするユーザが変化することとなり、タスクと関連しているファイルをタスクと関連していないと誤判別する可能性がある。
【0008】
また、上記した文書の内容と文書に対するユーザのアクセス頻度とを利用してファイルをモデル化する方法では、ファイルの内容が関連し、かつアクセス履歴も類似している別々のタスクのファイルがあった場合には、違うタスクのファイル同士を同じタスクのファイルと判別するという課題があった。例えば、別チームで同じ製品に関する別タスクを並行して行っている場合には、内容は関連しているため、進捗確認でお互いのチームのファイルを参照するなどの理由でアクセス履歴が類似した場合に、別々のタスクのファイル同士を同じタスクのファイルと誤判別する可能性がある。
【0009】
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、ユーザに負担を掛けることなく、精度の高いタスク情報の検索を行うことを目的とする。
【課題を解決するための手段】
【0010】
上述した課題を解決し、目的を達成するために、本発明は、業務に関する情報を複数のユーザがアクセス可能なコラボレーションシステムから、該コラボレーションシステムが記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得部と、前記取得部によって取得された前記属性情報を用いて、前記複数のファイルの中から業務に関連するファイルを特定する特定部と、前記特定部によって特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出部と、前記抽出部によって抽出されたファイルの候補について、前記アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、前記ファイルの候補から業務に関連するファイルを選択する選択部と、前記選択部によって選択された業務に関連するファイルに対して、前記業務に関する情報をメタ情報として付与する付与部とを有することを特徴とする。
【発明の効果】
【0011】
本発明によれば、ユーザに負担を掛けることなく、精度の高いタスク情報の検索を行うことができるという効果を奏する。
【図面の簡単な説明】
【0012】
【図1】図1は、実施例1に係るメタデータ付与装置の構成を示すブロック図である。
【図2】図2は、コラボレーションシステムについて説明する図である。
【図3】図3は、名簿・周辺情報DBに記憶される情報の一例を示す図である。
【図4】図4は、アクセス履歴DBに記憶される情報の一例を示す図である。
【図5】図5は、タスクDBに記憶される情報の一例を示す図である。
【図6】図6は、ファイルベクトルDBに記憶される情報の一例を示す図である。
【図7】図7は、メタデータDBに記憶される情報の一例を示す図である。
【図8】図8は、タスク名の候補データを取得する処理を説明する図である。
【図9】図9は、ファイル共有システムの情報を用いて、タスクDBにおける「期間」および「関係者ID」のカラムを埋める処理を説明する図である。
【図10】図10は、企業内Webサイトの情報を用いて、タスクDBにおける「期間」および「関係者ID」のカラムを埋める処理を説明する図である。
【図11】図11は、スケジューラの情報を用いて、タスクDBにおける「期間」および「関係者ID」のカラムを埋める処理を説明する図である。
【図12】図12は、分類候補ファイルを取得する処理を説明する図である。
【図13】図13は、アクセスベクトルを作成する処理を説明する図である。
【図14】図14は、タスク関連ファイルを抽出する処理を説明する図である。
【図15】図15は、分類候補ファイルを関連ファイルとする処理を説明する図である。
【図16】図16は、メタデータを付与する処理を説明する図である。
【図17】図17は、実施例1に係るメタデータ付与装置のメタデータ付与処理の動作を説明する図である。
【図18】図18は、実施例1に係るメタデータ付与装置の処理動作を示すフローチャートである。
【図19】図19は、メタデータ付与装置と同様の機能を有するプログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0013】
以下に添付図面を参照して、この発明に係るメタデータ付与装置、メタデータ付与方法およびメタデータ付与プログラムの実施例を詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例1】
【0014】
以下の実施例では、実施例1に係るメタデータ付与装置の構成および処理の流れを順に説明し、最後に実施例1による効果を説明する。
【0015】
[メタデータ付与装置の構成]
最初に、図1を用いて、メタデータ付与装置10の構成を説明する。図1は、実施例1に係るメタデータ付与装置10の構成を示すブロック図である。図1に示すように、このメタデータ付与装置10は、アクセス履歴DB(Date Base)13、タスク関連DB14、タスク名判定ルールDB15、タスクDB16、ファイルベクトルDB17、タスク関連情報判定ルールDB18、メタデータ付与部20、タスク名判定部21、および機械学習部22を有し、図示しないネットワーク等を介してコラボレーションシステム11と、名簿・周辺情報DB12と、メタデータDB19と接続される。以下にこれらの各部の処理を説明する。
【0016】
コラボレーションシステム11は、ネットワーク上での共同作業を支援するシステムであり、タスクの名称、タスクの期間、タスクの関係者などのタスクに関するタスク情報が含まれている。ここで、図2を用いて、コラボレーションシステム11に含まれるウェブサイト、複数のファイルおよびスケジューラなどの情報群について説明する。図2は、コラボレーションシステム11について説明する図である。例えば、コラボレーションシステム11は、図2に例示するように、企業内Webサイト11a、ファイル共有システム11b、スケジューラ11cを有する。ここで、企業内Webサイト11aとは、例えば、ある企業内において、技術報告資料などをまとめたサイトや掲示板、ブログに該当する。また、ファイル共有システム11bとは、例えば、タスクに関係するユーザが自由にアクセスできる文書、マルチメディアなどの様々なファイルを記憶するシステムに該当する。また、スケジューラ11cとは、例えば、ユーザの予定や、予定に関係する関係者などに関するスケジュール情報を記憶するシステムに該当する。
【0017】
名簿・周辺情報DB12は、企業内のユーザに関する情報を記憶する。ここで、図3を用いて、名簿・周辺情報DB12に記憶される情報例について説明する。図3は、名簿・周辺情報DB12に記憶される情報の一例を示す図である。図3に例示するように、名簿・周辺情報DB12は、企業内のユーザを一意に識別する「ID」と、ユーザの「名前」と、ユーザの電話番号である「電話」と、ユーザの企業における「所属」と、ユーザが属する「技術分野」と、ユーザが使用するパソコンなどの「IPアドレス」と対応付けて記憶する。
【0018】
アクセス履歴DB13は、ユーザのファイルに対するアクセスの履歴に関する情報(例えば、アクセス日時、ユーザのIPアドレス、アクセス種別)を記憶する。ここで、アクセスとは、ユーザが様々なファイルに対して行う基本的な操作のことをいい、例えば、作成、閲覧、編集などの操作のことをいう。また、アクセス履歴DB13は、コラボレーションシステム11の中でユーザからのアクセス履歴が取得可能な企業Webサイト11aおよびファイル共有システム11bと、企業内ユーザのID、名前、IPアドレスの関係を保持する名簿・周辺情報DB12から構築されるもので、時系列順に並べたアクセスのレコードを保持する。
【0019】
ここで、図4を用いて、アクセス履歴DB13に記憶される情報例について説明する。図4は、アクセス履歴DB13に記憶される情報の一例を示す図である。図4に例示するように、アクセス履歴DB13は、アクセスを一意に識別する「アクセスID」と、ファイルのタイトルである「ファイルタイトル」と、ファイルにアクセスするためのURIを示す「ファイルへのURI」と、アクセス者のIDを示す「アクセス者ID」と、アクセスの種別を示す「アクセス種別」と、アクセスされた日時を示す「アクセス日時」とを対応付けて記憶する。
【0020】
タスク関連単語DB14は、タスクに関連する単語を記憶する。例えば、タスク関連単語DB14は、作業項目名に含まれそうな候補語として、「作業委託」、「共同研究」、「検討」、「検証」、「リリース」、「外部投稿」を記憶する。また、タスク関連単語DB14は、会議系の単語として、会議系の語「定例」、「議論」、「部議」、「所議」、「打ち合わせ」、社名「A社」、「B社」、説明系の語「説明」、「課長説明」、「部長説明」、「社長説明」、「提案」、事務作業系の語「検収」、「契約」、「発注」、「納品」、催し系の語「講演会」、「委員会」、「発表会」、「学会」、「展示会」、「内覧会」などを記憶する。
【0021】
タスク名判定ルールDB15は、名称がタスク名か否かを判定するためのルールであるタスク名判定ルールを記憶する。例えば、タスク名判定ルールDB15は、タスク名判定ルールとして、「タスク名候補にタスク関連単語DB14に記憶された単語が含まれていた場合、タスク名と判定する」というルールを記憶する。
【0022】
タスクDB16は、タスクに関する情報を記憶する。ここで、タスクとは、作業項目とイベントを含むものである。また、作業項目とは、定まると期間や関係者が一意に定まるものを指し、例えば、「A社作業委託→期間:2011/9/1−9/14、関係者:A、B、C」などのことを指す。また、イベントとは、作業項目に共通して出現する作業のことであり、例えば、「打ち合わせ」、「議論」、「部長説明」などのことを指す。また、作業項目とは、作業項目とイベントの系列を持つ項目であり、例えば、「プロダクトA試作発注{作業項目議論→B社作業委託課長説明→B社作業委託部長説明→B社打ち合わせ}」などのことを指す。
【0023】
ファイルベクトルDB17は、各ファイルについて、単語ベクトルおよびアクセスベクトルを記憶する。ここで、図6を用いて、ファイルベクトルDB17に記憶される情報例について説明する。図6は、ファイルベクトルDB17に記憶される情報の一例を示す図である。図6に例示するように、ファイルベクトルDB17は、ファイルを一意に識別する「ファイルID」と、単語頻度ベクトルを示す「単語ベクトル」と、タスク名が含まれるデータの関係者がアクセスしたことを重要視する重み付けを行ったアクセスベクトルを示す「アクセスベクトル」と、ファイルがタスクに関連するファイルであるか否かを示す「タスク関連フラグ」とを対応付けて記憶する。
【0024】
タスク関連情報判定ルールDB18は、URIの種別ごとに、タスク名の候補データを取得するためのルールを記憶する。例えば、アクセス履歴DB13の「ファイルへのURI」の種別がファイル共有システム11bへのURIである場合には、上位のフォルダのURIをタスクDB16の「元データURI」に追加し、フォルダ名をタスクDB16の「名称」に追加するというルールを記憶する。また、タスク関連情報判定ルールDB18は、タスクに関連するファイルである分類候補ファイルを取得するためのタスク関連情報判定ルールを記憶する。例えば、タスク関連情報判定ルールDB18は、タスク関連情報判定ルールとして、予め設定された期間(例えば、1週間)を記憶する。
【0025】
メタデータDB19は、ファイルに対応付けて、タスクに関する情報をメタデータとして記憶する。ここで、図7の例を用いて、メタデータDB19に記憶された情報例について説明する。図7は、メタデータDB19に記憶される情報の一例を示す図である。図7に例示するように、メタデータDB19は、「ファイルID」と、「ファイルURI」と、「ファイル名」と、「タスク候補ID」と、タスクの名称である「タスク名称」と、タスクの期間である「タスク期間」と、タスクの関係者である「タスク関係者」とを記憶する。なお、メタデータDB19に記憶される情報をどのように付与しているかについては、後に図16などを用いて詳述する。
【0026】
メタデータ付与部20は、タスクの期間周辺のファイルを候補ファイルとして取得し、タスクの関係者のアクセスに関する情報を用いて、ファイルの候補からタスクに関連するファイルを抽出し、該タスクに関連するファイルの情報をメタ情報として付与する。また、メタデータ付与部20は、取得部20a、抽出部20b、選択部20c、付与部20dを有する。
【0027】
メタデータ付与部20の取得部20aは、タスクに関する情報を複数のユーザがアクセス可能なコラボレーションシステム11から、該コラボレーションシステム11が記憶する各ファイルの属性を示す属性情報(例えば、ファイルの名称やURI)と各ファイルに対するアクセス履歴に関する情報(例えば、アクセスされた期間やアクセスしたユーザのユーザID)とを取得する。
【0028】
具体的には、取得部20aは、タスク関連情報判定ルールDB18に記憶されたタスク関連情報判定ルールを参照し、アクセス履歴DB13やコラボレーションシステム11から、タスク名の候補データを取得して、タスクDB16に格納する。例えば、取得部20aは、アクセス履歴DB13上のレコードから、それぞれのURIの種別に応じたタスク関連情報判定ルールに従って、ファイルの情報を取得し、タスクDB16にタスク候補として格納する。
【0029】
まず、取得部20aは、タスク関連情報判定ルールを参照し、タスクDB16の「タスク候補ID」、「名称」、「元データURI」の項目に情報を追加する。具体例を挙げて説明すると、取得部20aは、アクセス履歴DB13の「ファイルへのURI」がファイル共有システム11bへのURIである場合には、上位のフォルダのURIをタスクDB16の「元データURI」に追加し、フォルダ名をタスクDB16の「名称」に追加する。また、企業内Webサイト11aへのURIならば、URIをそのままタスクDB16の「元データURI」に追加し、記事名を「名称」に追加する。また、ユーザが付与したタグが記事に存在した場合には、別のレコードに対してURIをそのまま「元データURI」、タグ名を「名称」に追加する。
【0030】
また、取得部20aは、図8に示すように、スケジューラ11cのようなアクセス履歴DB13にアクセス履歴が残らないコラボレーションシステム11については、アクセス履歴DB13のアクセス日時が存在する期間の予定を抽出し、その予定へのURIを「元データURI」に追加し、予定件名を「名称」に追加する。
【0031】
次に、取得部20aは、タスク関連情報判定ルールを参照し、タスクDB16の「期間」、「関係者ID」および「関連ファイルURI」の項目に情報を追加する。具体例を挙げて説明すると、図9に示すように、取得部20aは、タスクDB16の「元データURI」がファイル共有システム11bへのURIである場合には、「期間」として、直下のファイルがアクセスされた期間を追加する。また、取得部20aは、「関係者ID」として、フォルダ作成者、直下のファイルを作成・ペーストした者のユーザIDを追加する。例えば、図9の例では、Dさんが「課長説明」のフォルダを作成し、Dさん、Eさん、Fさんが「課長説明」フォルダ直下にファイルを作成したので、「関係者ID」として、Dさん、Eさん、FさんのユーザIDを追加する。また、取得部20aは、「関連ファイルURI」として、フォルダ直下のファイルのURIを追加する。なお、「期間」として、アクセス日時の平均と標準偏差を用いてもよく、例えば、平均から±標準偏差の定数倍の範囲を期間としてもよい。
【0032】
また、図10に示すように、取得部20aは、タスクDB16の「元データURI」が企業内Webサイト11aへのURIである場合には、「期間」として、記事の作成日時を開始日時(図10の例では、9/2 13:15)、記事への最終アクセス日時、記事への最終コメントの作成日(図10の例では、9/3 14:20)などを最終日時として追加し、「関係者ID」として、作成者とコメント者のユーザIDを追加する。また、取得部20aは、記事とコメントを含めて一つの文章とみなし、「元データURI」をそのまま「関連ファイルURI」にコピーし、添付ファイルがある場合には、そのファイルへのURIを「関連ファイルURI」に追加する。
【0033】
また、図11に示すように、取得部20aは、タスクDB16の「元データURI」がスケジューラ11cへのURIである場合には、「期間」として、予定の開始日時(図11の例では、9/4 15:45)から終了日時(図11の例では、9/4 16:30)の期間を追加し、「関係者ID」として、予定の作成者と予定への出席者のユーザIDを追加する。また、取得部20aは、添付ファイルがある場合には、そのファイルへのURIを「関連ファイルURI」に追加する。
【0034】
次に、取得部20aは、タスクDB16からタスク候補ID順に一つレコードを取得し、タスクDB16の「名称」がタスク名であるかタスク名判定部21に判定させる。この結果、タスク名と判定された場合には、取得部20aは、タスク候補IDのタスクフラグを立てる。具体的には、取得部20aは、タスク名と判定された場合には、タスクDB16の「タスクフラグ」の項目に「1」を記憶させる。
【0035】
図1の説明に戻って、メタデータ付与部20の抽出部20bは、特定されたタスクに関連するファイルのアクセス履歴に関する情報を用いて、該タスクに関連するファイルと関係のあるファイルの候補を抽出する。具体的には、抽出部20bは、取得されたアクセス日時を含む所定の期間内にアクセスが行われたファイルを、業務に関連するファイルと関係のある分類候補ファイルとして抽出する分類候補ファイルの取得処理を行う。
【0036】
ここで、図12を用いて、分類候補ファイルの取得処理について説明する。図12は、分類候補ファイルを取得する処理を説明する図である。抽出部20bは、取得したタスクの期間と、その前後の予め設定した期間(例えば、1週間)にアクセス履歴の存在するファイルをアクセス日時順に取得し、そのURIを「分類候補ファイル」カラムに追加する。図12の例を用いて説明すると、抽出部20bは、タスク名「課長候補」のファイルについて、タスク期間「9/15 13:15〜9/20 14:20」の前後一週間「9/8 13:15〜9/27 14:20」にアクセス履歴が存在するファイルを企業内Webサイト11aやファイル共有システム11bから取得し、そのファイルのURIをタスクDB16の「分類候補ファイル」カラムに追加する。
【0037】
図1の説明に戻って、メタデータ付与部20の選択部20cは、抽出されたファイルの候補について、アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、ファイルの候補から業務に関連するファイルを選択する。具体的には、選択部20cは、事前に用意した重みに従って、関係者のアクセス回数を重視するようにファイルのモデル化を行っている。
【0038】
まず、選択部20cは、分類候補ファイルまたは関連ファイルを一つ取得し、特徴ベクトルを作成する。ここで、選択部20cは、特徴ベクトルとして、ファイル中に出現する単語の出現頻度に基づいて単語頻度ベクトルを作成するとともに、ファイルの候補に対する業務の関係者のアクセス回数に基づいてアクセスベクトルを作成する。
【0039】
まず、単語頻度ベクトルの作成処理について説明する。選択部20cは、文書に対してのみ、tf−idfのような既存の技術を利用して、単語頻度ベクトルを作成する。例えば、ファイルDにおけるタームtの出現頻度をtfij=freq(i,j)とする。ここで、iとは、ファイルIDのことを示す。また、タームtが出現するファイル数をdfとする。そして、選択部20cは、下記(1)式を用いて、idf(inverse document frequency)値を算出する。
【0040】
【数1】

【0041】
そして、選択部20cは、下記(2)式を用いて、ファイルFのタームtの重みwijを算出する。
【0042】
【数2】

【0043】
そして、選択部20cは、全てのファイル、全てのタームについて、重みwijを算出することで、下記(3)式に示すように、単語頻度ベクトルを求める。
【0044】
【数3】

【0045】
次に、アクセスベクトルの作成処理について図13を用いて説明する。図13は、アクセスベクトルを作成する処理を説明する図である。図13に示すように、選択部20cは、選択したファイルに対して、各サーバのファイル取得期間(図13の例では、タスク期間「9/4 15:45〜9/4 16:30」の前後一週間の期間)におけるアクセス回数を算出する。図13の例では、ユーザAがアクセス回数3回、ユーザBがアクセス回数2回、ユーザCがアクセス回数1回、ユーザDがアクセス回数2回である。
【0046】
そして、選択部20cは、タスク関係者のアクセス回数が、実際のアクセス回数に事前に設定した重み係数(図13の例では、「2」)を掛けたものである。図13の例では、ユーザA、B、Cがタスク関係者であり、ユーザA、B、Cのアクセス回数に2を乗算している。そして、選択部20cは、算出したアクセス回数をユーザID順に並べたものをアクセスベクトルとする。図13の例では、選択部20cは、ユーザA、B、C、Dの順にアクセス回数を並べたアクセスベクトルF=(6,4,2,2)を作成する。
【0047】
そして、選択部20cは、「関連ファイルURI」カラム、「分類候補ファイル」カラムのどちらかからURIを一つずつ取得し、取得した順番を番号として、ファイルベクトルDB17の「ファイルID」カラムにファイルIDを記憶させる。そして、選択部20cは、取得したファイルが関連ファイルだった場合には、タスク関連フラグに「1」を記憶させ、取得したファイルが分類候補ファイルだった場合には、タスク関連フラグに「0」を記憶させる。
【0048】
そして、選択部20cは、関連ファイルの数が所定の閾値以上であるか判定する。この結果、選択部20cは、関連ファイルの数が所定の閾値以上で無い場合には、予め記憶されたルールに従って、関連ファイルを追加するタスク関連ファイル判定処理を行う。例えば、選択部20cは、各ファイルへのユーザのアクセス頻度が高いファイルをタスク関連ファイルとして抽出する。具体的には、アクセスベクトルのユークリッドノルムを算出した上位のファイル3つを関連ファイルとして、そのURIを「分類候補ファイル」カラムから「関連ファイルURI」カラムに移動する。
【0049】
例えば、図14の例では、5つのファイルのアクセスベクトルのユークリッドノルムが、「12」、「5」、「6」、「15」、「14」であり、このうちユークリッドノルムが上位の「12」、「15」、「14」のファイル3つ(図14では、線で囲われた3つのファイル)を関連ファイルとして抽出する。
【0050】
また、分類候補ファイルの中で、ファイル名にタスクの名称が含まれているものを関連ファイルとし、そのURIを「分類候補ファイル」カラムから「関係ファイルURI」カラムに移動するようにしてもよい。例えば、図15の例では、タスク候補ID「#1」について、ファイル名に、タスクの名称「課長説明」が含まれているものを関連ファイルとし、そのURIを「分類候補ファイル」カラムから「関係ファイルURI」カラムに移動する。
【0051】
そして、選択部20cは、関連ファイルの数が所定の閾値以上である場合には、アクセスベクトルおよび単語頻度ベクトルを用いて、ファイルの分類を行う旨の指示を機械学習部22に通知する。そして、選択部20cは、ファイルベクトルDB17において、タスク関連フラグが立っているファイルのURIを、分類候補ファイルのカラムから、関連ファイルのカラムに移動した後、ファイルベクトルDB17を初期化し、全てのタスクを取得したか否かを判定する。この結果、全てのタスクを取得した場合には、タスクフラグが立っているレコードの関連ファイルに対して、当該レコードのタスク情報をメタデータとして付与する処理を付与部20dに指示する。
【0052】
図1の説明に戻って、メタデータ付与部20の付与部20dは、選択部20cによって選択された業務に関連するファイルに対して、業務に関する情報をメタ情報として付与する。ここで、図16を用いて、メタデータを付与する処理について説明する。図16に示すように、付与部20dは、タスクに関連しているファイルに対して、タスクに関する情報をメタデータとして付与する。具体的には、付与部20dは、タスクDB16を元にして、ファイルをタスク情報で検索し易い形式に変換して、メタデータDB19に格納する。
【0053】
図16に示すように、付与部20dは、タスクフラグの立っているレコードの「関連ファイルURI」カラムに格納されているURIを取得し、そのURIを「ファイルURI」、ファイル名を「ファイル名」に格納する。また、図16に示すように、付与部20dは、当該タスクのタスク候補ID、名称、期間、関係者IDをそれぞれ「タスクID」、「タスク名称」、「タスク期間」、「タスク関係者ID」に格納する。
【0054】
図1の説明に戻って、タスク名判定部21は、取得された属性情報を用いて、複数のファイルの中から業務に関連するファイルを特定する。タスク名判定部21は、取得されたファイルの名称が業務に関連する単語であるか判定し、名称が業務に関連する単語であるファイルを、業務に関連するファイルとして特定する。
【0055】
例えば、タスク名判定部21は、タスクDB16のタスク候補のレコード一つ一つの「名称」に対して、タスク名判定ルールDB15に記憶されたタスク名判定ルールに基づいて「名称」がタスク名か否かを判定し、タスク名であれば「タスクフラグ」カラムに「1」を、タスク名でなければ「タスクフラグ」カラムに「0」を格納する。「名称」がタスク名か否かを判定する処理として、例えば、タスク名判定部21は、タスクDB16の「名称」に、タスク関連単語DB14に記憶されたタスクに関連する単語に該当する単語が含まれているか判定し、含まれている場合には、タスク名と判定し、タスクDB16のタスクフラグ「1」を格納する。
【0056】
機械学習部22は、ファイルベクトルDB17から単語頻度ベクトルがあるもののみを対象として、ファイルがタスクに関連しているか否か判別する2値分類問題を解く。具体的には、「c」を潜在変数としてアクセスベクトルと単語頻度ベクトルの同時確率モデルを構築する。ここで、「c」は、クラスを表す変数であり、文書がタスクと関連しているなら+1、関連していないなら−1の値を取る。また、タスク関連フラグが「1」のファイルは、既にタスクに関連していることが分かっているため、cには+1が代入される。下記(4)式に示すモデルに対して、既存の半教師あり学習アルゴリズムを適用する。
【0057】
【数4】

【0058】
例えば、EMアルゴリズムを適用して、右の同時確率の値を推定し、推定した値が事前に設定した閾値を超えていたら、そのファイルはタスクに関連があると分類し、cに+1を代入する。全てのファイルに対して、上記の処理を行うと、cに+1を代入したファイルをタスク関連データとして、上記の処理を繰り返す。そして、収束したら終了し、cに+1が代入されたファイルはタスク関連フラグを「1」とする。
【0059】
なお、機械学習部22は、アクセスベクトルのみを用いて、上記の処理を行ってもよい。この場合には、機械学習部22は、ファイルベクトルDB17を対象として、ファイルがタスクに関連しているか否かを判別する2値分類問題を解く。具体的には、「c」を潜在変数としてアクセスベクトルの同時確率モデルを構築する。ここで、「c」は、クラスを表す変数であり、文書がタスクと関連しているなら+1、関連していないなら−1の値を取る。また、タスク関連フラグが「1」のファイルは、既にタスクに関連していることが分かっているため、cには+1が代入される。下記(5)式に示すモデルに対して、既存の半教師あり学習アルゴリズムを適用する。
【0060】
【数5】

【0061】
このように、メタデータ付与部20は、タスクに関連しているファイルに対して、タスクに関する情報をメタデータとして付与することで、タスクに関する情報をキーとして検索が可能となる。つまり、図17に示すように、メタデータ付与部20は、既存のコラボレーションシステム11から自動的にタスクに関連するデータ(タスク名、タスク期間、タスク関係者)を取得する。そして、メタデータ付与部20は、タスクの期間周辺のファイルを候補として、タスクの関係者のアクセスを重視するようなファイルのモデル化を行う。そして、メタデータ付与部20は、タスクに関連しているファイルを出力し、出力したファイルに対して、タスクに関する情報をメタデータとして付与する。これにより、例えば、タスクに関連しているファイルに付与されたメタデータをキーとして、タスク名によるファイル検索、指定期間におけるタスクの検索、関係者指定による関連タスクの検索を行うことができる。
【0062】
[メタデータ付与装置による処理]
次に、図18を用いて、実施例1に係るメタデータ付与装置10による処理を説明する。図18は、実施例1に係るメタデータ付与装置の処理動作を示すフローチャートである。
【0063】
図18に示すように、メタデータ付与装置10の取得部20aは、メタデータ付与部20は、タスク関連情報判定ルールDB18に記憶されたタスク関連情報判定ルールを参照し、アクセス履歴DB13やコラボレーションシステム11から、タスク名の候補データを取得し(ステップS101)、タスクDB16に格納する。
【0064】
そして、取得部20aは、タスクDB16からタスク候補ID順に一つレコードを取得する(ステップS102)。そして、タスク名判定部21は、タスクDB16の名称とタスク関連単語DB14とを照合し、タスク名か判定する(ステップS103)。この結果、取得部20aは、タスク名と判定された場合には、タスク候補IDのタスクフラグを立てる(ステップS104)。
【0065】
そして、抽出部20bは、全てのタスク候補について取得したか判定する(ステップS105)。つまり、抽出部20bは、全てのタスク候補について取得しタスク候補IDのタスクフラグに「1」または「0」を記憶させたかを判定する。この結果、抽出部20bは、全てのタスク候補について取得していないと判定した場合には(ステップS105否定)、ステップS102に戻って、上記の処理を繰り返す。
【0066】
また、抽出部20bは、全てのタスク候補について取得したと判定した場合には(ステップS105肯定)、タスクDB16からタスクフラグが立っているタスクを一つ取得し(ステップS106)、分類候補ファイルの取得処理を行う(ステップS107)。具体的には、抽出部20bは、取得したタスクの期間と、その前後の予め設定した期間(例えば、1週間)にアクセス履歴の存在するファイルをアクセス日時順に取得し、そのURIを「分類候補ファイル」カラムに追加する。
【0067】
その後、選択部20cは、分類候補ファイルまたは関連ファイルを一つ取得し(ステップS108)、特徴ベクトルとして、アクセスベクトルおよび単語頻度ベクトルを作成する(ステップS109)。そして、選択部20cは、全ての分類候補ファイル、または関連ファイルを取得したか判定する(ステップS110)。つまり、選択部20cは、全ての分類候補ファイル、または関連ファイルについて、特徴ベクトルを作成したか否かを判定する。
【0068】
この結果、選択部20cは、全ての分類候補ファイル、または関連ファイルを取得していないと判定した場合には(ステップS110否定)、ステップS108に戻って、上記の処理を繰り返す。また、選択部20cは、全ての分類候補ファイル、または関連ファイルを取得したと判定した場合には(ステップS110肯定)、関連ファイルの数が十分であるか判定する(ステップS111)。つまり、選択部20cは、関連ファイルの数が所定の閾値以上であるか判定する。この結果、選択部20cは、関連ファイルの数が所定の閾値以上で無い場合には(ステップS111否定)、予め記憶されたルールに従って、関連ファイルを追加するタスク関連ファイル判定処理を行い(ステップS113)、ステップS108に戻って、上記の処理を繰り返す。
【0069】
また、関連ファイルの数が所定の閾値以上である場合には(ステップS111肯定)、機械学習部22は、半教師あり分類処理を行う(ステップS112)。ここで、機械学習部22は、ファイルベクトルDB17において、関連ファイルと分類されたファイルのレコードのタスク関連フラグを立てる。
【0070】
そして、選択部20cは、ファイルベクトルDB17において、タスク関連フラグが立っているファイルのURIを、分類候補ファイルのカラムから関連ファイルのカラムに移動するタスク関連ファイルの更新処理を行う(ステップS114)。そして、選択部20cは、ファイルベクトルDB17を初期化し(ステップS115)、全てのタスクを取得したか否かを判定する(ステップS116)。
【0071】
この結果、選択部20cは、全てのタスクを取得していないと判定した場合には(ステップS116否定)、ステップS106に戻って、上記の処理を繰り返す。また、付与部20dは、全てのタスクを取得した場合には(ステップS116肯定)、タスクフラグが立っているレコードの関連ファイルに対して、当該レコードのタスク情報をメタデータとして付与する(ステップS117)。
【0072】
[実施例1の効果]
上述してきたように、メタデータ付与装置10は、タスクに関する情報を複数のユーザがアクセス可能なコラボレーションシステム11から、該コラボレーションシステム11が記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する。そして、メタデータ付与装置10は、取得された属性情報を用いて、複数のファイルの中からタスクに関連するファイルを特定する。そして、メタデータ付与装置10は、特定されたタスクに関連するファイルのアクセス履歴に関する情報を用いて、該タスクに関連するファイルと関係のあるファイルの候補を抽出する。そして、メタデータ付与装置10は、抽出されたファイルの候補について、アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該タスクの関係者からのアクセス回数に応じて、ファイルの候補からタスクに関連するファイルを選択する。そして、メタデータ付与装置10は、選択されたタスクに関連するファイルに対して、タスクに関する情報をメタ情報として付与する。このため、ユーザに負荷を掛けることなく、精度の高いタスク情報の検索を行うことが可能である。
【0073】
つまり、メタデータ付与装置10では、ユーザが普段業務を行っているコラボレーションシステムユーザが普段業務を行っているコラボレーションシステム11から自動的にタスク情報と関連ファイルを抽出するルールを定めており、ユーザが業務プロセスを変更する必要がないため、ユーザの業務プロセスを変更することなく、タスク名称、タスク期間、タスク関係者などのタスク情報をキーとした検索を可能にする。
【0074】
また、メタデータ付与装置10では、タスクの期間を抽出して、タスクの期間を分類候補ファイルの取得に用いており、途中でアクセスするユーザが変化するタスクの場合でも、タスクと関連しているファイル同士を関連していないと判別する検索漏れを低減することができる。また、メタデータ付与装置10では、タスクの期間と関係者を抽出し、当該タスクの関係者のアクセスを重視するようなファイルのモデル化を行うことで、内容が関連して、かつアクセス履歴も類似している別々のタスクのファイルがあった場合でも、違うタスクのファイル同士を同じタスクのファイルと判別してしまう誤りを低減することを可能にする。
【0075】
また、実施例1によれば、メタデータ付与装置10は、属性情報として、各ファイルの名称に関する情報を取得し、取得されたファイルの名称がタスクに関連する単語であるか判定し、名称がタスクに関連する単語であるファイルを、タスクに関連するファイルとして特定する。このため、タスクに関連するファイルを精度よく特定することが可能である。
【0076】
また、実施例1によれば、メタデータ付与装置10は、アクセス履歴に関する情報として、各ファイルに対してアクセスが行われたアクセス日時を取得し、取得されたアクセス日時を含む所定の期間内にアクセスが行われたファイルを、タスクに関連するファイルと関係のあるファイルの候補として抽出する。このため、タスクの期間を抽出して、タスクの期間を分類候補ファイルの取得に用いており、途中でアクセスするユーザが変化するタスクの場合でも、タスクと関連しているファイル同士を関連していないと判別する検索漏れを低減することが可能である。
【0077】
また、実施例1によれば、抽出されたファイルの候補に対するタスクの関係者のアクセス回数に基づいてアクセスベクトルを作成し、該アクセスベクトルを用いて、ファイルの候補からタスクに関連するファイルを選択する。このため、内容が関連している別のタスクで関係者が異なる場合に、単なる頻度では類似する可能性があるアクセス頻度のベクトルにタスク毎で差を付けることができ、違うタスクのファイルを同じタスクのファイルとみなす誤判別を防いでいるため、内容が関連して、かつアクセス履歴も類似している別々のタスクのファイルがあった場合でも、違うタスクのファイル同士を同じタスクのファイルと判別してしまう誤りを低減することが可能となる。
【0078】
また、実施例1によれば、アクセスベクトルとともに、抽出されたファイルの候補において、ファイル中に出現する単語の出現頻度に基づいて単語頻度ベクトルを作成し、アクセスベクトルおよび単語頻度ベクトルを用いて、ファイルの候補からタスクに関連するファイルを選択する。このため、内容が関連して、かつアクセス履歴も類似している別々のタスクのファイルがあった場合でも、違うタスクのファイル同士を同じタスクのファイルと判別してしまう誤りを低減することが可能となる。
【実施例2】
【0079】
以下、本発明にかかるメタデータ付与装置、メタデータ付与プログラムおよびメタデータ付与方法の他の実施形態として実施例2を説明する。
【0080】
(1)装置構成等
図1に示したメタデータ付与装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、メタデータ付与装置10の分散または統合の具体的形態は図示のものに限られず、例えば、メタデータ付与部20とタスク名判定部21とが機能的または物理的に統合されていてもよい。このように、メタデータ付与装置10の各構成要素の全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0081】
(2)メタデータ付与プログラム
図19は、メタデータ付与装置と同様の機能を有するプログラムを実行するコンピュータの一例を示す図である。図19に例示するように、コンピュータ3000は、例えば、メモリ3010と、CPU(Central Processing Unit)3020と、ネットワークインタフェース3070とを有する。コンピュータ3000の各部はバス3100によって接続される。
【0082】
メモリ3010は、図19に例示するように、ROM3011及びRAM3012を含む。ROM3011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。
【0083】
ここで、図19に例示するように、ハードディスクドライブ3080は、例えば、OS3081、アプリケーションプログラム3082、プログラムモジュール3083、プログラムデータ3084を記憶する。すなわち、開示の技術に係るメタデータ付与プログラムは、コンピュータによって実行される指令が記述されたプログラムモジュール3083として、例えばハードディスクドライブ3080に記憶される。具体的には、上記実施例で説明したメタデータ付与部20、タスク名判定部21、機械学習部22と同様の情報処理を実行する手順各々が記述されたプログラムモジュールが、ハードディスクドライブ3080に記憶される。
【0084】
また、上記実施例で説明したメタデータ付与装置10に記憶されるデータのように、メタデータ付与プログラムによる情報処理に用いられるデータは、プログラムデータ3084として、例えばハードディスクドライブ3080に記憶される。そして、CPU3020が、ハードディスクドライブ3080に記憶されたプログラムモジュール3083やプログラムデータ3084を必要に応じてRAM3012に読み出し、各種の手順を実行する。
【0085】
なお、メタデータ付与プログラムに係るプログラムモジュール3083やプログラムデータ3084は、ハードディスクドライブ3080に記憶される場合に限られない。例えば、プログラムモジュール3083やプログラムデータ3084は、着脱可能な記憶媒体に記憶されても良い。この場合、CPU3020は、ディスクドライブなどの着脱可能な記憶媒体を介してデータを読み出す。また、同様に、メタデータ付与プログラムに係るプログラムモジュール3083やプログラムデータ3084は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されても良い。この場合、CPU3020は、ネットワークインタフェースを介して他のコンピュータにアクセスすることで各種データを読み出す。
【0086】
(3)メタデータ付与方法
実施例1で説明したメタデータ付与装置10により、以下のようなメタデータ付与方法が実現される。
【0087】
すなわち、ファイルシステムが保持する複数のファイルについて、各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得工程と、取得された属性情報を用いて、複数のファイルのなかから業務に関連するファイルを特定し、特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出工程と、抽出されたファイルの候補に対する業務の関係者からのアクセス回数に応じて、ファイルの候補から業務に関連するファイルを選択する選択工程と、選択された業務に関連するファイルに対して、業務に関する情報をメタ情報として付与する付与工程と、を含んだメタデータ付与方法が実現される。
【符号の説明】
【0088】
10 メタデータ付与装置
11 コラボレーションシステム
12 名簿・周辺情報DB
13 アクセス履歴DB
14 タスク関連単語DB
15 タスク名判定ルールDB
16 タスクDB
17 ファイルベクトルDB
18 タスク関連情報判定ルールDB
19 メタデータDB
20 メタデータ付与部
21 タスク名判定部
22 機械学習部

【特許請求の範囲】
【請求項1】
業務に関する情報を複数のユーザがアクセス可能なコラボレーションシステムから、該コラボレーションシステムが記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得部と、
前記取得部によって取得された前記属性情報を用いて、前記複数のファイルの中から業務に関連するファイルを特定する特定部と、
前記特定部によって特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出部と、
前記抽出部によって抽出されたファイルの候補について、前記アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、前記ファイルの候補から業務に関連するファイルを選択する選択部と、
前記選択部によって選択された業務に関連するファイルに対して、前記業務に関する情報をメタ情報として付与する付与部と
を有することを特徴とするメタデータ付与装置。
【請求項2】
前記取得部は、前記属性情報として、各ファイルの名称に関する情報を取得し、
前記特定部は、前記取得部によって取得されたファイルの名称が業務に関連する単語であるか判定し、名称が業務に関連する単語であるファイルを、業務に関連するファイルとして特定することを特徴とする請求項1に記載のメタデータ付与装置。
【請求項3】
前記取得部は、前記アクセス履歴に関する情報として、各ファイルに対してアクセスが行われたアクセス日時を取得し、
前記抽出部は、前記取得部によって取得されたアクセス日時を含む所定の期間内にアクセスが行われたファイルを、前記業務に関連するファイルと関係のあるファイルの候補として抽出することを特徴とする請求項1または2に記載のメタデータ付与装置。
【請求項4】
前記選択部は、前記抽出部によって抽出されたファイルの候補に対する業務の関係者のアクセス回数に基づいてアクセスベクトルを作成し、該アクセスベクトルを用いて、前記ファイルの候補から業務に関連するファイルを選択することを特徴とする請求項1〜3のいずれか一つに記載のメタデータ付与装置。
【請求項5】
前記選択部は、前記アクセスベクトルとともに、前記抽出部によって抽出されたファイルの候補において、ファイル中に出現する単語の出現頻度に基づいて単語頻度ベクトルを作成し、前記アクセスベクトルおよび前記単語頻度ベクトルを用いて、前記ファイルの候補から業務に関連するファイルを選択することを特徴とする請求項4に記載のメタデータ付与装置。
【請求項6】
メタデータ付与装置で実行されるメタデータ付与方法であって、
業務に関する情報を複数のユーザがアクセス可能なコラボレーションシステムから、該コラボレーションシステムが記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得工程と、
前記取得工程によって取得された前記属性情報を用いて、前記複数のファイルの中から業務に関連するファイルを特定する特定工程と、
前記特定工程によって特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出工程と、
前記抽出工程によって抽出されたファイルの候補について、前記アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、前記ファイルの候補から業務に関連するファイルを選択する選択工程と、
前記選択工程によって選択された業務に関連するファイルに対して、前記業務に関する情報をメタ情報として付与する付与工程と
を含んだことを特徴とするメタデータ付与方法。
【請求項7】
業務に関する情報を複数のユーザがアクセス可能なコラボレーションシステムから、該コラボレーションシステムが記憶する各ファイルの属性を示す属性情報と各ファイルに対するアクセス履歴に関する情報とを取得する取得ステップと、
前記取得ステップによって取得された前記属性情報を用いて、前記複数のファイルの中から業務に関連するファイルを特定する特定ステップと、
前記特定ステップによって特定された業務に関連するファイルのアクセス履歴に関する情報を用いて、該業務に関連するファイルと関係のあるファイルの候補を抽出する抽出ステップと、
前記抽出ステップによって抽出されたファイルの候補について、前記アクセス履歴に関する情報を用いてユーザからのアクセス回数を算出し、該業務の関係者からのアクセス回数に応じて、前記ファイルの候補から業務に関連するファイルを選択する選択ステップと、
前記選択ステップによって選択された業務に関連するファイルに対して、前記業務に関する情報をメタ情報として付与する付与ステップと
をコンピュータに実行させるためのメタデータ付与プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2013−114588(P2013−114588A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−262453(P2011−262453)
【出願日】平成23年11月30日(2011.11.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)