ファイル検索システム

【課題】リンク関係を持たないファイル群から、作業に関連するファイルを検索するファイル検索システムを提供する。
【解決手段】ファイル間相互の関連度の演算処理は、まず、アクセスログを取得し（ステップＳ２０１）、ユーザが作業を行っている時間を定義して活動時間を演算し、ファイル名ごとにアクセスログを分類し、すぐにロックを離す拡張子を抽出する（ステップＳ２０２〜Ｓ２０４）。そして、それらの結果を用いて、前処理Ａ，Ｂ，Ｃによって、アクセスログの修正を行う（ステップＳ２０５〜２０７）。次に、修正されたアクセスログから、ファイルごとにファイル使用時間を集計する（ステップＳ２０８）。そして、ファイル同士のファイル使用時間の重複する区間を求めて、その重複する区間に係るパラメータを所定の式に入力して関連度を演算する（ステップＳ２０９）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、キーワードなどによるリンク関係を持たないファイル群から、作業に関連するファイルを検索するファイル検索システムに関する。
【背景技術】
【０００２】
近年のサーバにおけるファイルシステムでは、ファイルの数と種類がともに爆発的に増加している。そのため、ファイルシステムは、ディレクトリの階層構造を提供して、ファイルが格納された論理的な配置を管理する構成を採っている。しかし、取り扱うファイル数が増えることによって、利用したいファイルを容易に見つけ出すことが困難になってきている。このような問題点の解決策として、キーワードを含むファイルを見つけ出すファイル検索システムが提供されている。
【０００３】
ファイル検索システムは、キーワードを含むファイル名（ディレクトリパス名を含む）やファイル中にそのキーワードを含む文字列を有するファイルを対象として、検索を行う。例えば、特許文献１には、キーワード検索されたリンク関係を有するファイル間に対して、リンク重要度を定義して、リンク重要度の大きいファイルが抽出され易いように構成した発明が開示されている。
【０００４】
また、非特許文献１には、ユーザがＷｅｂページを閲覧していた場面を再現できるように画像を記憶しておき、ユーザが再生場面を見て、過去の記憶を想起させる記憶想起支援ツールについて記載されている。この記憶想起支援ツールにおける検索機能として、ユーザが思い出したキーワードを含むＷｅｂページをアクティブに何ページも表示していた期間に表示していたＷｅｂページがキーワードとの関連度が大きいとして、検索結果の上位にランク付けることが開示されている。
【特許文献１】特開２００１−２９０８４３号公報（段落［００１９］〜［００３３］）
【非特許文献１】森田哲之、日高哲雄、田中明通、加藤泰久著、「記憶想起支援ツール『Memory-Retriever』」、INTERACTION2007、２００７年３月１５日
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、特許文献１と非特許文献１は、キーワードを用いた検索が前提となっている。したがって、キーワードに関連のある内容を含むファイルであっても、ファイル名やファイル中にそのキーワードを含まない画像ファイルやデータファイルなどを検出することが困難である。
【０００６】
そこで、本発明は前記した従来技術の問題点に鑑みて、キーワードなどによるリンク関係を持たないファイル群から、作業に関連するファイルを検索するファイル検索システムを提供することにある。
【課題を解決するための手段】
【０００７】
前記課題を解決するために、ファイル検索システムは、サーバに蓄積されたファイル群から作業に関連するファイルを検索するものであって、ファイルにアクセスした履歴からファイル間の関連度を導出する関連度導出手段と、キーワード検索された検索ファイルに対してこの検索ファイルと所定以上の関連度を有するファイル群を出力する出力手段と、を備え、前記関連度導出手段が、前記履歴を参照して、作業を行っていた活動時間区間を算出し、前記活動時間区間の範囲内で定められるファイルを使用していたファイル使用時間を算出し、前記ファイル使用時間の重複に基づいて前記関連度を算出することを特徴とする。
【０００８】
かかる構成によれば、キーワードなどによるリンク関係を持たないファイルであっても、サーバにアクセスした履歴を用いて、活動時間区間（作業していた時間帯）を推定し、その活動時間区間と重複して使用していたファイル同士が相互に関連すると判定することが可能となる。
【０００９】
また、前記ファイル検索システムにおいて、前記活動時間区間は、前記履歴に記録されているアクセス時刻とファイル名を読み出して、所定時間幅内に前記アクセス時刻の記録がある場合に、当該所定時間幅内で作業を行っていたと判定して算出されること、を特徴とする。
【００１０】
かかる構成によれば、作業していた時間（活動時間区間）を別途特別なアプリケーションを用いて割り出す必要がなく、アクセス時刻の記録から、容易に活動時間区間を算出することが可能となる。
【００１１】
また、前記ファイル検索システムにおいて、前記ファイル使用時間は、前記履歴に記録されているファイルをオープンした時刻からファイルをクローズした時刻までと、前記活動時間区間とが重複する時間として算出されること、を特徴とする。
【００１２】
かかる構成によれば、ファイルをオープンしている時間に対して、活動時間区間との重複を調べることによって、作業実態に基づいてファイルを使用していた時間を精度よく推定することが可能となる。
【００１３】
また、前記ファイル検索システムにおいて、前記関連度の導出手段は、前記ファイル群の全てのファイルから選択された一のファイルと他のファイルに対して、前記ファイル使用時間が重複する場合に、重複している時間を共起時間とし、この共起時間が複数存在する場合に、その個数を共起回数とし、先の前記共起時間の終了から次の前記共起時間の開始までを共起間隔とし、前記一のファイルのファイル使用時間の開始時間または前記他のファイルのファイル使用時間の開始時間と前記共起時間の開始時間との差を使用開始パターンとしたとき、前記共起時間と前記共起回数と前記共起間隔と前記使用開始パターンの少なくとも一つの情報に基づく演算を行って、前記選択された一のファイルと他のファイルとの関連度を演算すること、を特徴とする。
そして、前記演算は、前記共起時間のみが情報となる場合には、前記共起時間の累積が底となり、前記共起回数のみが情報となる場合には、前記共起回数が底となり、前記共起間隔のみが情報となる場合には、前記共起間隔を累積したものの逆数が底となり、前記使用開始パターンのみが情報となる場合には、前記使用開始パターンの累積が底となって、それぞれの所定の値が指数となる関連度算出式を用いること、さらに、前記関連度算出式を組み合わせて、２またはそれ以上の式を乗算する関連度算出式を用いることを特徴とする。
【００１４】
かかる構成によれば、関連度は、前記共起時間、前記共起回数、前記共起間隔および前記開始時間パターンの少なくとも一つを情報とする関連度算出式を用いて算出される。そして、関連度を算出されるファイル同士は、キーワードなどによるリンク関係を持たないものであっても構わない。
【００１５】
また、前記ファイル検索システムにおいて、前記関連度の算出は、前記オープンに対応するクローズの履歴が欠けている場合には、前記履歴から削除する第１の処理、前記オープンされたままになっているファイルに対して、先の前記活動時間区間の終了から次の前記活動時間区間の開始までの間が所定時間以上離れている場合は、前記先の活動時間区間までの前記活動時間区間と重複する時間を、前記ファイル使用時間と判定する第２の処理、ファイルをオープンした時刻と当該ファイルをクローズした時刻との間隔が所定値以下になるファイルの種類に対しては、前記活動時間区間において、最初にオープンした時刻から最後にクローズした時刻までを前記ファイル使用時間と判定する第３の処理、の少なくとも一つを行うこと、を特徴とする。
【００１６】
かかる構成によれば、第１の処理は、ファイルにアクセスした履歴（アクセスログ）において、クローズの履歴が欠けてしまう場合に関連度を算出可能とする処理である。そのような履歴を用いると、ファイル検索システムは、ファイルがずっとオープンされたままだと認識して関連度を分析してしまう。そこで、前処理として、オープンとクローズとの対応がとれるように、オープンを削除することによって、関連度の演算における擾乱を低減することが可能となる。
第２の処理は、履歴では、オープンとクローズの対応がとれてはいるが、例えば、ずっとファイルがオープンしたままとなっており、使用していないと思われる時間にも対処する処理である。すなわち、ファイルがオープンされた状態のまま、先の前記活動時間区間の終了から次の前記活動時間区間の開始までの間が所定時間以上離れている場合は、当該ファイルを作業に用いていないと推測されて、ファイルを使用していないものとしている。そして、活動時間区間の間が所定時間以上離れる前までの活動時間区間と、ファイルがオープンしている時間とが重複するときを、ファイルの使用時間と判定し、関連度の演算における擾乱を低減することが可能となる。
第３の処理は、オープンするとすぐにクローズしてしまう（ロックを離してしまう）性質のファイルのように、オープンとクローズが所定値以下に記録される場合に対処する処理である。この場合には、活動時間区間内で、最初にオープンした時刻から最後にクローズした時刻まで、ずっと、そのファイルを使用していたとみなす。このことによって、より実態に近いファイルの使用時間を推定することが可能となる。
【発明の効果】
【００１７】
本発明によれば、キーワードなどによるリンク関係を持たないファイル群から、作業に関連するファイルを検索することが可能となる。
【発明を実施するための最良の形態】
【００１８】
次に、本発明を実施するための最良の形態（以降、「実施形態」と称す）について、適宜図面を参照しながら詳細に説明する。
【００１９】
（実施形態）
本発明の実施形態に係るファイル検索システム１の構成について図１を用いて説明する。図１は、ファイル検索システム１の構成を示す図である。
ファイル検索システム１は、サーバ１１，１２と端末２１，２２とファイル関連度管理装置１００とがネットワーク３０を介して接続され、通信可能に構成される。
【００２０】
サーバ１１，１２は、大量のファイルを蓄積していて、どのファイルに誰がアクセスしたかについて履歴（アクセスログ）を記録する。現在のほとんどのファイルシステムでは、ディレクトリの階層構造が提供されており、ファイルには、ディレクトリパス名を付して、履歴が管理されている。
端末２１，２２は、文書作成やファイル検索などの作業を行うユーザが使用するものである。端末の種類は、ＰＣ（Personal Computer）であっても、サーバに接続される専用の端末であっても構わない。
ファイル関連度管理装置１００は、サーバ１１，１２から履歴を取得して、ユーザに同時に利用されるファイルの関連度を算出する。そして、端末２１，２２によってキーワード検索が実行されたときに、検出されたキーワードを含むファイル情報（ファイル名）を取得して、ファイルの関連度を参照して、取得したファイル名との関連度を検出して、関連度の大きいファイル名を、端末２１，２２に表示する。
なお、サーバ１１，１２や端末２１，２２の台数は、１台であっても、３以上であっても構わない。
【００２１】
次に、ファイル関連度管理装置１００のハードウェア構成について図２を用いて説明する。図２は、ファイル関連度管理装置１００のハードウェア構成を示す図である。
ファイル関連度管理装置１００は、図２に示すように、処理部１１０、入出力部１２０、記憶部１３０および通信制御部１４０がバスを介して接続され、相互に通信可能なように構成される。
【００２２】
処理部１１０は、演算処理を実行するＣＰＵ（Central Processing Unit）１１１と、このＣＰＵ１１１が演算処理に用いる記憶部であるメインメモリ１１２とを備える。メインメモリ１１２は、ＲＡＭ（Random Access Memory）などにより実現される。そして、記憶部１３０に格納されたアプリケーションプログラムがメインメモリ１１２に展開され、ＣＰＵ１１１が、それを実行することにより種々の処理を具現化する。
【００２３】
入出力部１２０は、ファイル関連度管理装置１００に接続されるキーボードやマウスなどの入力装置（不図示）と、処理部１１０によって演算処理された結果などの各種データを表示するディスプレイなどの表示装置（不図示）によって構成される。
【００２４】
記憶部１３０は、ＣＰＵ１１１が演算処理に用いる各種データや演算結果、または、入出力部１２０によって送受信されるデータを記憶する。記憶部１３０は、図示しないＲＯＭ（Read Only Memory）やハードディスク装置などにより実現される。
【００２５】
通信制御部１４０は、通信インタフェース（不図示）を備え、処理部１１０によって演算処理された情報を、ネットワーク３０（図１参照）を介して、他の装置に送信し、他の装置から情報を受信する制御を行う。
【００２６】
次に、ファイル関連度管理装置１００の機能について、図３を用いて説明する（適宜図１参照）。図３は、ファイル関連度管理装置１００の機能を示す図である。
【００２７】
ファイル関連度管理装置１００の処理部１１０は、アクセスログ収集部１１３、アクセスログ解析部１１４、アクセスログ前処理部１１５、活動時間演算部１１６、ファイル使用時間演算部１１７および関連度演算部１１８を備える。
【００２８】
アクセスログ収集部１１３は、サーバ１１、１２からアクセスログ（履歴）を取得する。履歴を取得するタイミングは、定期的でも、必要があるときでも随時であっても構わない。
アクセスログ解析部１１４は、取得したアクセスログ（履歴）をファイル名ごとに分類したり、後記するように、すぐにロックを離す拡張子を抽出する。
アクセスログ前処理部１１５は、関連度を算出する前に、アクセスログ（履歴）の生データに対して、予め定めた条件に沿って補足や修正を行う。予め定めた条件とは、例えば、オープンに対するクローズが欠けている履歴を削除することや、長時間オープン状態のファイルに対してファイルの使用時間を定めること、などである。
活動時間演算部１１６は、ユーザが作業をしている時間区間（活動時間区間）を算出する。すなわち、活動時間区間以外は、ファイルがオープンしていても、使用しているとはみなさない。
ファイル使用時間演算部１１７は、活動時間演算部１１６によって算出された活動時間区間とファイルがオープンされている時間とが重複する時間（ファイル使用時間）を算出する。なお、この処理では、アクセスログ解析部１１４およびアクセスログ前処理部１１５によって補正された履歴が使用される。そして、ファイルごとに、ファイル使用時間が算出される。
関連度演算部１１８は、ファイル使用時間演算部１１７が算出したファイル使用時間を、ファイル名ごとに突き合わせて、ファイル使用時間が重複する時間（共起時間）を算出する。そして、その共起時間と共起回数などを変数とする所定の数式によって関連度を算出する。なお、この所定の数式については後記する。算出した関連度は、ファイル名ごとに関連度ＤＢ（Data Base）１３１に記憶される。
【００２９】
なお、請求項に記載の関連度導出手段は、アクセスログ収集部１１３、アクセスログ解析部１１４、アクセスログ前処理部１１５、活動時間演算部１１６、ファイル使用時間演算部１１７および関連度演算部１１８の機能を総称したものである。
【００３０】
また、入出力部１２０は、ファイル関連度管理装置１００を起動させるなどの操作を行うための操作入力部１２１と、各種データを表示する表示部１２２とを備える。
記憶部１３０は、処理部１１０によって算出された関連度を関連度ＤＢ１３１に記憶する。そして、通信制御部１４０や操作入力部１２１からファイル名が取得された場合に、関連度ＤＢ１３１が参照されて、取得されたファイル名に対して関連度を有するファイル群が抽出される。
通信制御部１４０は、端末２１，２２から、ファイル検索された結果であるファイル名（ファイル集合Ｆ）を受信したり、抽出された前記の関連度を有するファイル名を端末２１，２２に送信したりする。
【００３１】
ここで、アクセスログ収集部１１３が取得する履歴について、図４を用いて説明する（適宜図３参照）。図４は、履歴の一例を示す図である。
【００３２】
図４において、履歴は、アクセス時刻、アクセス種別、アクセスＩＤおよびファイル名を要素とする。なお、図４に示した履歴は、関連度を算出するために必要な要素のみを示したものである。
アクセス時刻は、ファイルにアクセスのあった時刻を表す。番号１について説明すると、２００７年５月２日の１６時５１分９秒にアクセスがあったことを表している。
アクセス種別は、open（オープン）またはclose（クローズ）を表す。すなわち、openは、ファイルがオープンされた（使用できるように開かれた）ことを表し、closeは、ファイルがクローズされた（使用を止めるために閉じられた）ことを表す。
アクセスＩＤは、誰がアクセスしたのか、あるいは、どの端末からアクセスされたのかなどを識別する表示である。例えば、アクセスＩＤは、サーバ１１，１２（図１参照）へのログイン名または端末に付されたＩＰアドレスや名前などである。
ファイル名は、ファイルに付された名前である。サーバ１１，１２がディレクトリの階層構造を提供しているファイルシステムを有している場合には、ディレクトリパス名を含めたファイル名となっている。
なお、図４は、アクセスＩＤがＡ１１の場合について抽出した場合の履歴を示しているが、複数のアクセスＩＤが混在していても、特定のアクセスＩＤについて抽出することが可能である。
【００３３】
次に、履歴に対する補正処理と関連度算出の流れについて、図５を用いて説明する（適宜図１，４参照）。図５は、履歴に対する補正処理と関連度算出の流れを示す図である。
【００３４】
以下、取得した履歴が、図４に示すようなデータであったものとして説明する。
まず、ファイル関連度管理装置１００は、サーバ１１，１２からアクセスログ（履歴）を取得する（ステップＳ２０１）。
次に、特定のアクセスＩＤ（図４においてはＡ１１）に対して、作業を行っている時間、すなわち、活動時間（活動時間区間）を演算する（ステップＳ２０２）。
【００３５】
ここで、ステップ２０２における、活動時間の演算について、図６を用いて、より詳細に説明する。図６の（ａ）は、活動時間の算出の処理の概念を示す図、（ｂ）は、活動時間の算出の処理の流れを示す図、（ｃ）は、活動時間の算出の処理結果の一例を示す図である。
【００３６】
活動時間は、所定時間幅の範囲内にアクセス時刻の履歴が存在すれば、その所定時間幅の区間を、作業とみなすことと決めている。例えば、所定時間幅を３０分に設定すると、図６の（ａ）に、図４のopenに係るアクセス時刻をプロットして示したように、活動時間の区間（活動時間区間）は、１６時３０分から１７時３０分と、１８時３０分から１９時となる。
【００３７】
図６の（ｂ）は、一つの所定時間幅について活動時間を算出する処理の流れを示している。まず、ステップＳ２０１において取得されたアクセスログの中から、処理対象となるアクセスＩＤのアクセスログ（履歴）を取得する（ステップＳ３０１）。そして、予め設定した所定時間幅にアクセスログ（履歴）が存在するか否かを判定する（ステップＳ３０２）。すなわち、アクセスした時刻が所定時間幅の範囲内に入っているか否かを判定する。そして、所定時間幅にアクセスログが存在する場合には（ステップＳ３０２でＹｅｓ）、その所定時間幅の時間帯を活動時間とみなして、活動フラグを１に設定する（ステップＳ３０３）。一方、所定時間幅にアクセスログが存在しない場合には（ステップＳ３０２でＮｏ）、その所定時間幅については処理を終了する。その後、次の所定時間幅について、ステップＳ３０２に戻って処理を実行する。
【００３８】
図６の（ｃ）は、処理結果の一例を示している。活動フラグが１となっている時間帯が、活動時間区間を表している。この処理結果は、記憶部１３０に記憶される（図３参照）。そして、ステップＳ２０２の処理結果は、ステップＳ２０６，Ｓ２０７に引き渡される。
なお、活動フラグは１でなくてもよく、識別可能な符号であれば他の符号であっても構わない。
【００３９】
図５に戻って、ステップＳ２０３では、ステップＳ２０１において取得されたアクセスログの中から、ファイル名ごとにアクセスログ（履歴）を分類する。この処理は、ファイル名ごとにファイル使用時間を算出するために必要となる処理である。そして、ステップＳ２０３の処理結果は、ステップＳ２０５，Ｓ２０６，Ｓ２０７に引き渡される。
【００４０】
次に、ステップＳ２０４では、ステップＳ２０１において取得されたアクセスログに対して統計処理を施して、すぐにロックを離す拡張子を抽出する。「すぐにロックを離す」とは、openとcloseに係るアクセスログ（履歴）が、ほぼ同時刻として記録されてしまうようなケースを指している。これは、ファイルをオープンするとメモリに読み込んでロックを開放してしまうためである。そうすると、実際にはファイルを使用していても、履歴上は、ほぼ０秒しかオープンされていないので、あたかも使用されなかったかのように認識されてしまう。これを防ぐために、ファイル名の種別を表す拡張子（例えば、doc、txtなど）ごとに、ファイルがオープンされている時間区間（openからcloseまでの時間区間）を集計して平均値を求め、その平均値が所定値以下の場合には、その拡張子に対して、補正を行うことにする。そして、補正の対象となった拡張子がステップＳ２０７に引き渡される。
【００４１】
次に、前処理Ａ（ステップＳ２０５）について説明する。この前処理Ａへの入力は、ステップＳ２０３の出力であり、openに対応するcloseが欠けている場合の処理である。図４の履歴では、番号３が、このケースに該当する。closeが欠けていることは、openされたファイル名に対応するcloseがあるか否かを照合することによって、見つけ出すことが可能である。そして、そのようなopenに係る履歴を削除して、履歴全体の中で、openとcloseとの対応がとれるように補正する。
【００４２】
前処理Ｂ（ステップＳ２０６）は、実際には使用していないのに、ファイルがオープンされたままになっている場合に対応して、ファイル使用時間を求める処理である。この前処理Ｂへの入力は、ステップＳ２０２，Ｓ２０３の出力である。なお、前処理Ａとの違いは、openされたファイル名に対応するcloseが存在する点である。
図４の履歴では、番号４，１３がこのケースに相当する。２００７年５月２日１６時５４分１５秒にオープンして、２００７年５月３日８時３７分５６秒にクローズしている。しかも、番号１２と番号１３との間は１４時間６分３４秒であって、この間にはアクセスが無い。
このように長時間アクセスが無い場合には、ファイルは使用されていなかったと判断することとした。
【００４３】
この前処理Ｂについて、図７を用いて、より詳細に説明する。図７の（ａ）は、前処理Ｂにおける処理の概念を示す図、（ｂ）は、前処理Ｂにおける処理の流れを示す図、（ｃ）は、前処理Ｂにおける処理結果の一例を示す図である。
【００４４】
まず、前処理Ｂでは、ファイル使用時間を算出するために、（１）ファイルがオープンしている時間と活動時間（活動時間区間）とが重複している区間であること、かつ、（２）活動時間（活動時間区間）でない時間が所定時間以上となる場合には、その活動時間でない区間より前の活動時間区間までの履歴を用いること、
を条件として設定した。
前記したように、図４の履歴では、番号４，１３のファイル名DDD.docが対象となる。
図７の（ａ）において、ドットを付した横棒４００で示したように、活動時間（活動時間区間）と重複する区間が、ファイルを使用した状態、すなわち、ファイル使用時間であると決定される。それにともなって、openやcloseの履歴が追加される。
【００４５】
図７の（ｂ）は、前処理Ｂの処理の流れを示している。まず、処理対象となるアクセスＩＤのアクセスログ（履歴）を取得し（ステップＳ４０１）、活動時間でない時間区間が所定時間より小さいか否かを判定する（ステップＳ４０２）。そして、活動時間でない時間区間が所定時間より小さい場合には（ステップＳ４０２でＹｅｓ）、活動時間区間にファイルを使用したとみなして、アクセスログ（履歴）のopenやcloseを補正する（ステップＳ４０３）。そして、ステップＳ４０２へ戻って、処理を繰り返す。一方、活動時間でない時間区間（先の活動時間区間の終了から次の活動時間区間の開始までの間）が所定時間以上である場合には（ステップＳ４０２でＮｏ）、当該アクセスＩＤに対応するそれ以降（所定時間以上となった時刻以降）のアクセスログを削除し（ステップＳ４０４）、処理を終了する。
【００４６】
図７の（ｃ）は、処理結果の一例を示している。番号３−１，３−２，３−３は、補正されたアクセスログであって、活動時間と重複するように補正されている。また、番号１２と番号１３との間には、１４時間以上ものアクセスの無い時間帯が存在しているため、番号１３は削除される。ただし、本発明の実施形態では、所定時間を５時間と設定しているが、これに限られない。
【００４７】
次に、図５に戻って、前処理Ｃ（ステップＳ２０７）について説明する。前処理Ｃへの入力は、ステップＳ２０２、ステップＳ２０３、ステップＳ２０４の出力である。
【００４８】
この前処理Ｃについて、図８を用いて、より詳細に説明する。図８の（ａ）は、前処理Ｃにおける処理の概念を示す図、（ｂ）は、前処理Ｃにおける処理の流れを示す図、（ｃ）は、前処理Ｃにおける処理結果の一例を示す図である。
【００４９】
まず、前処理Ｃでは、ファイル使用時間を算出するために、ステップＳ２０４から取得したファイルの拡張子（html, texなど）が付されたファイルを対象として、活動時間区間で最初のopenに係る履歴と、最後のcloseに係る履歴のみを残して、それ以外の履歴を削除する条件を設定した。
例えば、図４の履歴では、番号５，６，８，９，１１，１２のファイル名CCC.htmlが対象となる。
図８の（ａ）において、ドットを付した横棒５００で示したように、活動時間区間において、最初のopenに係る履歴と最後のcloseに係る履歴との間の区間が、ファイルを使用した状態であると決定される。それにともなって、openとcloseの履歴が削除される。
【００５０】
図８の（ｂ）は、一つの活動時間区間についての前処理Ｃの処理の流れを示している。まず、処理対象となるアクセスＩＤのアクセスログ（履歴）を取得し（ステップＳ５０１）、活動時間区間の最後のアクセスか否かを判定する（ステップＳ５０２）。そして、最後のアクセスである場合には（ステップＳ５０２でＹｅｓ）、活動時間区間の最初のopenと最後のcloseを残して、それ以外を削除し（ステップＳ５０３）、他の活動時間区間についても、同様にステップＳ５０２，Ｓ５０３を繰り返し実行する。一方、最後のアクセスでない場合には（ステップＳ５０２でＮｏ）、ステップＳ５０２へ戻って処理を続ける。
【００５１】
図８の（ｃ）は、処理結果の一例を示している。すなわち、図４の履歴では、最初のopenと最後のcloseではない番号６，８が削除される。
【００５２】
図５に戻って、前処理Ａ、前処理Ｂおよび前処理Ｃによって履歴に補正がなされた後、ファイル名ごとに、ファイル使用時間が集計される（ステップＳ２０８）。
ここで、ファイル使用時間について、図９を用いて説明する。図９の（ａ）は、特定のファイル名についてのファイル使用時間表の一例を示す説明図、（ｂ）は、別のファイル名についてのファイル使用時間表の一例を示す説明図、（ｃ）は、両方のファイルが重複して使用されている共起時間表の一例を示す説明図である。
なお、図９は、同じアクセスＩＤに対して取得された履歴としている。ここで、図９（ａ）と（ｂ）に示すファイル使用時間表は、ファイル使用開始時刻（ファイルの開始時刻）と、ファイル使用時間長とが関連づけられて構成される。また、図９（ｃ）に示す共起時間表は、二つのファイル使用時間表を突合してファイル使用時間が重複するファイル共起開始時刻（共起時間の開始時刻）とファイル共起時間長とを算出した結果である。
【００５３】
再び、図５に戻って、次に、関連度の演算（ステップＳ２０９）について説明する。
まず、関連を調べようとする二つのファイル名のファイル使用時間表から、ファイル使用開始時刻とファイル使用時間とを取得して突合し、図９の（ｃ）に示すように、共起（重複）している時間帯のファイル共起開始時刻とファイル共起時間長を算出する。そして、ファイル共起時間の累積Ｔと、ファイル共起時間の回数Ｋと、ファイル使用開始パターンの類似度Ｐと、共起の間隔度Ｄとを求めて、関連度算出式Ｒ＝Ｔ^αＫ^βＰ^γＤ^δによって、関連度Ｒを算出する（０≦α，β，γ，δ≦１）。なお、α，β，γ，δは、それぞれ、Ｔ，Ｋ，Ｐ，Ｄに対する重み付けを行う指数である。
なお、関連度の数式は、前記の式に限られるものではなく、後記する変数Ｔ，Ｋ，Ｐ，Ｄのいずれかひとつ、または、それらの組み合わせであっても構わない。
【００５４】
ここで、ファイル共起時間の累積Ｔと、ファイル共起時間の回数Ｋと、ファイル使用開始パターンの類似度Ｐと、共起の間隔度Ｄについて、図１０を用いて詳しく説明する。図１０は、関連度算出式の変数について示す図である。
【００５５】
図１０において、横軸は時間を示す。そして、ファイルＸとファイルＹについてのファイル使用時間表のデータがプロットされているものとする。これらファイルＸとファイルＹとの共起時間表が、最上段にプロットされている。
ファイル共起時間（共起時間）の累積Ｔは、Ｔ＝Σｔ_i（ただし、ｉ＝１〜ｎ）である。なお、図１０では、ｎは４である。なお、ｔ_iがファイル共起時間長である。
また、ファイル共起時間の回数（共起回数）Ｋは、Ｋ＝ｎである。
ファイル使用開始パターンの類似度Ｐは、Ｐ＝１／Σｐ_i（ただし、ｉ＝１〜ｎ）であって、ｐ_iが０の場合には、Ｐ＝１である。なお、ｐ_iがファイル使用開始時刻と共起開始時刻との差である。
共起の間隔度Ｄは、Ｄ＝Σｄ_i(i+1)（ただし、ｉ＝１〜ｎ-1）であって、ｎ＝１の場合にはＤ＝１である。なお、ｄ_i(i+1)が共起間隔である。
【００５６】
変数Ｔ，Ｋ，ＰおよびＤは、以下の考えを表現可能な式としている。すなわち、
（１）共起時間の累積が長いほど関連度が大きい。
（２）共起回数が多いほど関連度が大きい。
（３）ファイル使用開始パターンが類似しているほど関連度が大きい。
（４）共起の間隔が離れているほど関連度が大きい。
そして、（１）〜（３）は、使用実態に基づく使用者の直感に合致させている。また、（４）は、先の共起と次の共起との間に長い間隔があっても、再び共起するということは、より密接に関連していると思われる。
【００５７】
そして、関連度Ｒは、図１１に示すように、それぞれ２つのファイル間の関連度を示すデータベースとして、記憶部１３０の関連度ＤＢ１３１（図３参照）に記憶される。
なお、関連度ＤＢ１３１は、定期的に新しい履歴を加えて、図５に示す処理（ステップＳ２０１〜ステップＳ２１０）を行うことによって、更新してもよい。また、必要があるときに、随時更新しても構わない。
【００５８】
次に、ファイル関連度管理装置１００における関連度の算出処理および検索処理の流れについて、図１２を用いて説明する。図１２は、ファイル関連度管理装置１００における関連度の算出処理および検索処理の流れを示す図である。
【００５９】
まず、関連度の算出処理では、ファイル関連度管理装置１００は、アクセスログ（履歴）をサーバ１１，１２から取得するために、アクセスログ要求を送信する（ステップＳ６０１）。サーバ１１，１２は、アクセスログ要求を受信すると、アクセスログを送信する（ステップＳ６０２）。ファイル関連度管理装置１００は、アクセスログを取得し（ステップ６０３）、関連度の算出、記憶、更新を行う（ステップＳ６０４）。
このステップＳ６０１〜ステップＳ６０４は、定期的に行ってもよく、また、適宜必要が生じたときに行っても構わない。また、ファイル関連度管理装置１００の機能が、サーバ１１，１２に備えられている場合には、ステップＳ６０１，Ｓ６０２の処理は不要であり、直接、アクセスログを取得（ステップＳ６０３）するところから開始される。
【００６０】
次に、検索処理においては、端末２１，２２がキーワード検索の実行を指示して（ステップＳ６０５）、キーワードを含むファイル（ファイル集合Ｆ）を取得する（ステップＳ６０６）。そして、端末２１，２２は、キーワードを含むファイル集合Ｆをファイル関連度管理装置１００に送信する（ステップＳ６０７）。一方、ファイル関連度管理装置１００は、ファイル集合Ｆの情報を受け付けて、ファイル集合Ｆに含まれるファイル名を用いて関連度ＤＢ１３１（図３参照）を参照して、ファイル集合Ｆに含まれるファイル名に関連するファイル名の関連度を抽出する（ステップＳ６０８）。そして、ファイル関連度管理装置１００は、関連度の高い（大きい）ファイル名を端末２１，２２に送信する（ステップＳ６０９）。そして、端末２１，２２は、送信されてきた関連度の高い（大きい）ファイル名を表示する（ステップＳ６１０）。
なお、ステップＳ６０５〜ステップＳ６０７は、サーバ１１，１２が行っても構わない。
【００６１】
なお、請求項に記載の出力手段は、ファイル関連度管理装置１００の処理部１１０（図２参照）がステップＳ６０８〜Ｓ６０９を実行するものである。
【００６２】
なお、ステップＳ６０８においては、関連度に予め設定した閾値以上のファイル名についてのみ検索を実行することも、検索時間の短縮のために有効である。
そのために、閾値Ｒ_thを以下のようにして算出する。
まず、学習セット用のファイルの集合をＨとする。各ファイルｈ（ただし、ｈ∈Ｈ）に関して、学習データを収集する実験に参加した被験者から、共起時間に対して関連のあるものと判断したか否かの情報が収集される。
ここで、ファイルｈと共起しているファイルの集合をＱ（ｈ）とする。次に、ファイル集合Ｑ（ｈ）の各要素ｑ_iに対して、被験者が関連のあるものと判断した場合を正解、関連がないものと判断した場合を不正解として関連付ける。
次に、Ｑ（ｈ）の要素の中で、正解と判断され、かつ、最もｈとの関連度が小さい要素ｑ_kを求めて、ｈに対する閾値Ｒ（ｈ，ｑ_k）を求める。そして、ファイル集合Ｈに含まれる全てのｈに対して、閾値Ｒ（ｈ，ｑ_k）を算出し、それらの平均値をＲ_thとする。
すなわち、
Ｒ_th＝Σ_h∈HＲ（ｈ，ｑ_k）／｜Ｈ｜
によって、閾値Ｒ_thを算出する。ただし、｜Ｈ｜は、ファイル集合Ｈに含まれるファイルの個数である。
【００６３】
（評価実験例）
次に、本発明の実施形態に関して、事前に行った評価実験について説明する。
【００６４】
（実験環境）
アクセスログの採取には，現在広く用いられているWindows（登録商標）互換ファイルサーバのSamba を用いた。評価実験では，ユーザの環境に特別なアプリケーションをインストールしなくても，ファイルの使用時間を抽出することが出来るためSambaを用いたが，Samba 以外のファイルサーバであっても，ファイルのオープン／クローズ情報が取得出来るものなら同様に提案手法を適用することが出来る。
評価実験では，ファイルサーバSamba2.2.3a をログレベル２で起動し，二人の被験者が、そのファイルサーバを端末から約4ヶ月間使用した。この期間に被験者は学会発表の準備などがあり，それに向けての論文のテキストファイル，画像ファイル，実験のデータファイルなどに対するアクセスログが採取された。システムファイル等のアクセスは無視するように，解析対象の拡張子はbib，doc，gif，htm，html，jpg，mpg，mpeg，pdf，ppt，tex，txt，xls とした．また、活動時間幅は３０分、前処理Ｂにおける活動時間でない時間に係る所定値は５時間、ステップＳ２０４におけるオープンされている時間の平均値に係る所定値は１０秒とした。
【００６５】
（評価指標）
評価結果の評価指標として、情報検索システムの分野では一般的に用いられている、再現率(Recall)と適合率(Precision)とを用いた。
再現率は検索対象としているファイル群の中で適合しているファイル（正解ファイル）に対してどれだけの適合したファイルを検索できているかという網羅性の指標である。また、適合率は検索結果として得られたファイル群の中にどれだけ適合したファイルを含んでいるかという正確性の指標である。
再現率＝検索された適合したファイルの数／全対象文書中の正解ファイルの数
適合率＝検索された適合したファイルの数／検索されたファイルの数
【００６６】
（評価結果）
まず、それぞれの被験者のアクセスログからファイル使用時間表を作成した。次に、全ファイルの中からランダムに選択されたファイルに対して共起時間を算出した。そして、被験者は、共起時間に対して、作業に関連があると判断した場合を正解、作業に関連がないと判断した場合を不正解として、評価した。
評価したファイル数と全ファイル数を、表１に示す。
【００６７】
【表１】

【００６８】
次に、表１に示す評価したファイルの集合の中からランダムに半分のファイルを選択し、学習セットとした。関連度Ｒは、Ｒ＝Ｔ^αＫ^βＰ^γＤ^δによって算出した。このとき、関連度Ｒの指数（α，β，γ，δ）は、学習セットに含まれる全てのファイルの再現率の平均値が最大となるときの値とした。そして、関連度の閾値Ｇ_thも算出した。その結果を表２に示す。
【００６９】
【表２】

【００７０】
表２に示した指数を用いて、評価セットの各ファイルに対して、再現率と適合率を求めた。その結果を表３に示す。
【００７１】
【表３】

【００７２】
表３に示す結果は、実用上問題ないと考える。そして、キーワードなどによるリンク関係を持たないファイル群から、作業に関連するファイルを検索することが可能となる。
【図面の簡単な説明】
【００７３】
【図１】ファイル検索システムの構成を示す図である。
【図２】ファイル関連度管理装置のハードウェア構成を示す図である。
【図３】ファイル関連度管理装置の機能を示す図である。
【図４】履歴の一例を示す図である。
【図５】履歴に対する補正処理と関連度算出の流れを示す図である。
【図６】（ａ）は、活動時間の算出の処理の概念を示す図、（ｂ）は、活動時間の算出の処理の流れを示す図、（ｃ）は、活動時間の算出の処理結果の一例を示す図である。
【図７】（ａ）は、前処理Ｂにおける処理の概念を示す図、（ｂ）は、前処理Ｂにおける処理の流れを示す図、（ｃ）は、前処理Ｂにおける処理結果の一例を示す図である。
【図８】（ａ）は、前処理Ｃにおける処理の概念を示す図、（ｂ）は、前処理Ｃにおける処理の流れを示す図、（ｃ）は、前処理Ｃにおける処理結果の一例を示す図である。
【図９】（ａ）は、特定のファイル名についてのファイル使用時間表の一例を示す説明図、（ｂ）は、別のファイル名についてのファイル使用時間表の一例を示す説明図、（ｃ）は、両方のファイルが重複して使用されている共起時間表の一例を示す説明図である。
【図１０】関連度算出式の変数について示す図である。
【図１１】ファイル間の関連度を示す図である。
【図１２】ファイル関連度管理装置における関連度の算出処理および検索処理の流れを示す図である。
【符号の説明】
【００７４】
１ファイル検索システム
１１，１２サーバ
２１，２２端末
３０ネットワーク
１００ファイル関連度管理装置
１１０処理部
１１３アクセスログ収集部
１１４アクセスログ解析部
１１５アクセスログ前処理部
１１６活動時間演算部
１１７ファイル使用時間演算部
１１８関連度演算部
１２０入出力部
１３０記憶部
１３１関連度ＤＢ
１４０通信制御部

【特許請求の範囲】
【請求項１】
サーバに蓄積されたファイル群から作業に関連するファイルを検索するファイル検索システムであって、
ファイルにアクセスした履歴からファイル間の関連度を導出する関連度導出手段と、
キーワード検索された検索ファイルに対してこの検索ファイルと所定以上の関連度を有するファイル群を出力する出力手段と、を備え、
前記関連度導出手段は、前記履歴を参照して、作業を行っていた活動時間区間を算出し、前記活動時間区間の範囲内で定められるファイルを使用していたファイル使用時間を算出し、前記ファイル使用時間の重複に基づいて前記関連度を算出することを特徴とするファイル検索システム。
【請求項２】
前記活動時間区間は、
前記履歴に記録されているアクセス時刻とファイル名を読み出して、所定時間幅内に前記アクセス時刻の記録がある場合に、当該所定時間幅内で作業を行っていたと判定して算出されること、
を特徴とする請求項１に記載のファイル検索システム。
【請求項３】
前記ファイル使用時間は、
前記履歴に記録されているファイルをオープンした時刻からファイルをクローズした時刻までと、前記活動時間区間とが重複する時間として算出されること、
を特徴とする請求項１または請求項２に記載のファイル検索システム。
【請求項４】
前記関連度導出手段は、
前記サーバに蓄積されたファイル群の全てのファイルから選択された一のファイルと他のファイルに対して、
前記ファイル使用時間が重複する場合は、重複している時間を共起時間とし、
この共起時間が複数存在する場合は、その個数を共起回数とし、
先の前記共起時間の終了から次の前記共起時間の開始までを共起間隔とし、
前記一のファイルのファイル使用時間の開始時刻または前記他のファイルのファイル使用時間の開始時刻と前記共起時間の開始時刻との差を使用開始パターンとしたとき、
前記共起時間と前記共起回数と前記共起間隔と前記使用開始パターンの少なくとも一つの情報に基づく演算を行って、前記選択された一のファイルと他のファイルとの関連度を演算すること、
を特徴とする請求項１乃至請求項３のいずれか一項に記載のファイル検索システム。
【請求項５】
前記演算は、前記共起時間のみが情報となる場合には、前記共起時間の累積が底となり、所定の値が指数となる関連度算出式を用いることを特徴とする請求項４に記載のファイル検索システム。
【請求項６】
前記演算は、前記共起回数のみが情報となる場合には、前記共起回数が底となり、所定の値が指数となる関連度算出式を用いることを特徴とする請求項４に記載のファイル検索システム。
【請求項７】
前記演算は、前記共起間隔のみが情報となる場合には、前記共起間隔を累積したものの逆数が底となり、所定の値が指数となる関連度算出式を用いることを特徴とする請求項４に記載のファイル検索システム。
【請求項８】
前記演算は、前記使用開始パターンのみが情報となる場合には、前記使用開始パターンの累積が底となり、所定の値が指数となる関連度算出式を用いることを特徴とする請求項４に記載のファイル検索システム。
【請求項９】
前記演算は、請求項５に記載の式と、請求項６に記載の式と、請求項７に記載の式と、請求項８に記載の式と、の組み合わせにおいて、２またはそれ以上の式を乗算する関連度算出式を用いることを特徴とする請求項４に記載のファイル検索システム。
【請求項１０】
前記関連度の算出は、
前記オープンに対応するクローズの履歴が欠けている場合には、前記履歴から削除する第１の処理、
前記オープンされたままになっているファイルに対して、先の前記活動時間区間の終了から次の前記活動時間区間の開始までの間が所定時間以上離れている場合は、前記先の活動時間区間までの前記活動時間区間と重複する時間を、前記ファイル使用時間と判定する第２の処理、
ファイルをオープンした時刻と当該ファイルをクローズした時刻との間隔が所定値以下になるファイルの種類に対しては、前記活動時間区間において、最初にオープンした時刻から最後にクローズした時刻までを前記ファイル使用時間と判定する第３の処理、
の少なくとも一つを行うこと、
を特徴とする請求項１に記載のファイル検索システム。

【図１】