説明

データベース運用管理支援機能を有する情報検索システム及びデータベース運用管理方法

【課題】管理者が各データベース内の全ての情報の有用度を個々にチェックしなくても、有効に利用されているデータベースを容易に判別できるようにする。
【解決手段】統計・評価ログデータベース16には、検索サーバ14による検索の履歴を含む、データベース11A,11B各々の利用状況の履歴が保存される。統計・評価モジュール15は、統計・評価ログデータベース16に保存されている、データベース11A,11B各々の利用状況の履歴に基づいて、当該データベース11A,11B各々の利用状況の統計情報を生成する。統計・評価モジュール15は、このデータベース11A,11B各々の利用状況の統計情報に基づいて、当該データベース11A,11B各々の利用状況を評価する。この評価結果は、データベース情報提示モジュール17によって管理者に提示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、異なるデータソースから収集された情報が登録された複数のデータベースを対象とする情報検索が可能な情報検索システムに係り、特に当該データベースの運用管理に好適なデータベース運用管理支援機能を有する情報検索システム及びデータベース運用管理方法に関する。
【背景技術】
【0002】
近年、知識情報の共有支援を図るための知識共有システムが開発されている。この知識共有システムは、個人のノウハウなどの知識情報をデータベース(知識データベース)に蓄積して管理するためのものである。また、知識共有システムと自然言語検索などの検索機能とを組み合わせることで、データベースに蓄積された知識情報の効率的な活用を実現する情報検索システムも開発されている。
【0003】
知識共有システムを含む情報検索システムでは、知識情報をいかに効率よく収集するかが重要なポイントとなる。そこで最近の情報検索システムでは、収集モジュールが、外部データソース(インターネット上や社内のイントラネット上にある情報など)を収集し、収集した情報をデータベースに蓄積するのが一般的である(例えば、特許文献1参照)。
【0004】
また、この種の情報検索システムでは、データソースが多岐に渡る場合には、データソース毎に、それぞれ1つのデータベースを割り当てる運用が適用されることが多い。このような運用は、管理者(管理ユーザ)の操作に基づいて運用管理クライアント(運用管理クライアント端末)によって行われる。また、情報検索システムは、データベースに蓄積された情報をユーザから利用可能なように検索サーバを有している。検索サーバは、ユーザの操作に従って検索クライアント(検索クライアント端末)から指定されたデータベースに対して検索条件に従って検索を行い、検索結果を検索クライアントを介してユーザに提示する。ユーザは、検索サーバからの検索結果を参照する。
【0005】
ところで、データソースが多岐に渡るということは、様々な知識情報を収集できる反面、運用管理クライアントを介しての管理者によるシステムの運用管理という観点からは、管理対象となるデータベースの個数の増加を招くことを意味する。この場合、これらのデータベースを管理者が効率的に管理することは困難となる。
【0006】
また、収集モジュールによって自動的に大量に収集されてくるデータの中には、ユーザにとって不要なものも大量に含まれる。しかし、管理者が、ユーザにとって不要なものを判別することは困難となる。
【0007】
一方、検索結果である情報(検索結果一覧から選択された情報)を検索クライアントを介してユーザに提示した際に、その情報に対するユーザの評価を入力させることで、その情報に対するユーザの評価を取得して、データベース内の情報毎に対応するユーザ評価情報を保存することが提案されている(例えば、特許文献2参照)。この特許文献2には、検索結果一覧、或は検索結果一覧から選択された情報をユーザに提示する際に、その情報に対応するユーザ評価情報を併せて提示することが記載されている。また特許文献2には、検索された情報の順位付けに対応するユーザ評価情報を用いることも記載されている。
【特許文献1】特開2003−303197号公報(段落0008、段落0010)
【非特許文献1】特開2002−41524号公報(段落0009乃至0012、段落0033,段落0034、段落0040、段落0041、図8)
【発明の開示】
【発明が解決しようとする課題】
【0008】
上述した情報検索システムにおいて、複数のデータソースを対象に、そのデータソースから対応するデータベースに知識情報を収集する処理が頻繁に行われる場合には、管理者が有用性を管理しなければならない情報の件数が膨大となる。この場合、これらのデータベースを運用管理クライアントが効率的に管理することは困難であり、またユーザにとって不要なデータベースを判別することも困難である。
【0009】
そこで、この判別に、特許文献2に記載された、各データベース内の登録情報毎のユーザ評価情報を利用することが考えられる。しかし、この情報毎のユーザ評価情報を利用するには、管理者は各データベース内の全ての登録情報をチェックしなければならず、運用管理のコストが増加するという問題がある。しかも、データベース内の登録情報が多くなると、ユーザから参照される回数の少ない情報も増加する。このような情報については、ユーザの評価の回数も少なくなるため、ユーザ評価情報自体の信頼性の点で問題がある。したがって管理者が、データベース内の登録情報毎のユーザ評価情報を単に利用して、登録情報毎に有用性を評価するだけでは、対応するデータベースがユーザにとって不要であるかを判別することは困難である。
【0010】
本発明は上記事情を考慮してなされたものでその目的は、管理者が各データベース内の全ての情報の有用度を個々にチェックしなくても、有効に利用されているデータベースを容易に判別できる、データベース運用管理支援機能を有する情報検索システム及びデータベース運用管理方法を提供することにある。
【課題を解決するための手段】
【0011】
本発明の1つの観点に係るデータベース運用管理支援機能を有する情報検索システムは、異なるデータソースから収集された情報が登録された複数のデータベースと、ユーザからの検索要求で指定された検索条件に従って上記複数のデータベースの少なくとも1つから当該検索条件に合致するデータを検索して、その検索結果を上記ユーザに提示する検索サーバと、この検索サーバによる検索の履歴を含む、上記複数のデータベース各々の利用状況の履歴を保存するログ保存手段と、このログ保存手段に保存されている上記複数のデータベース各々の利用状況の履歴に基づいて、上記複数のデータベース各々の利用状況の統計情報を生成し、当該統計情報に基づいて上記複数のデータベース各々の利用状況を評価する統計・評価手段と、この統計・評価手段による上記複数のデータベース各々の利用状況の評価結果を管理者に提示するデータベース情報提示手段とを備えることを特徴とする。
【0012】
このような構成においては、検索サーバによる検索の履歴を含む、複数のデータベース各々の利用状況の履歴がログ保存手段に保存される。統計・評価手段は、このログ保存手段に保存されている、複数のデータベース各々の利用状況の履歴に基づいて、当該複数のデータベース各々の利用状況の統計情報を生成する。統計・評価手段は、この複数のデータベース各々の利用状況の統計情報に基づいて、当該複数のデータベース各々の利用状況を評価する。この評価結果は、データベース情報提示手段によって管理者に提示される。これにより管理者は、複数のデータベース各々における全ての登録情報をチェックしなくても、提示された複数のデータベース各々の利用状況の評価結果から、当該複数のデータベースのいずれが有効に利用されており、いずれが有効に利用されていないか容易に判別できる。よって、運用管理コストを削減することが可能となる。ここで、評価結果は、有効に利用されているデータベースの順、或は有効に利用されていないデータベースの順など、順位付けされた一覧として提示される構成とすると良い。この際、評価値を付すと良い。
【0013】
また、ログ保存手段に保存される上記複数のデータベース各々の利用状況の履歴が、当該複数のデータベース各々における登録情報毎の履歴であって、検索条件に合致したか否かを示す検索ヒット有無情報、更新の有無を示す更新有無情報、検索条件に合致する程度を表すスコア、検索された情報がユーザによって選択されて参照されたか否かを示すアクセス有無情報、及びユーザによって参照された情報に対する当該ユーザの評価を示す評価情報のうちから選択された複数の履歴を含む構成を適用すると良い。この構成において、上記検索ヒット有無情報に対応する検索頻度、上記更新有無情報に対応する更新頻度、上記スコア、上記アクセス有無情報に対応するアクセス頻度、及び上記評価情報に対応するユーザ評価を含む複数の評価項目のうち、上記選択された複数の履歴に対応する評価項目の中から、管理者によって選択指定された少なくとも1つの評価項目を上記統計・評価手段が受け付けて、ログ保存手段に保存されている上記複数のデータベース各々の利用状況の履歴のうち、当該指定された評価項目に対応する情報に基づいて、当該指定された評価項目に関する上記複数のデータベース各々の利用状況の統計情報を生成し、当該統計情報に基づいて上記複数のデータベース各々の利用状況を評価するならば、検索頻度が高いデータベース、更新頻度が高い情報が多く登録されているデータベース、検索で高いスコアとなる情報が多く登録されているデータベース、評価の高い情報が多く登録されているデータベースなど、管理者の意図した評価項目に沿ったデータベース利用状況の評価結果を提示することが可能となる。
【0014】
また、上記複数のデータベース各々の利用状況の評価結果が時間軸方向の変化の傾向を表すように、当該複数のデータベース各々の利用状況が評価される構成とするならば、例えばアクセス頻度が高くなっている、或はアクセス頻度が低くなっているなど、データベース各々の利用状況の評価結果に、時系列的な変化を反映させることができる。
【発明の効果】
【0015】
本発明によれば、検索の履歴を含む、複数のデータベース各々の利用状況の履歴に基づいて、当該複数のデータベース各々の利用状況の統計情報を生成し、その複数のデータベース各々の利用状況の統計情報に基づいて、当該複数のデータベース各々の利用状況を評価して、その評価結果を管理者に提示することにより、管理者が各データベース内の全ての情報の有用度を個々にチェックしなくても、有効に利用されているデータベースを容易に判別でき、運用管理のコストを削減することができる。
【発明を実施するための最良の形態】
【0016】
以下、本発明の実施の形態につき図面を参照して説明する。
[第1の実施形態]
図1は本発明の第1の実施形態に係る情報検索システムの構成を示すブロック図である。図1に示す情報検索システムは、複数のデータベース、例えば2つのデータベース11A(#A),11B(#B)と、収集モジュール12A,12Bと、複数の検索クライアント(検索クライアント端末)13と、検索サーバ14と、統計・評価モジュール15と、統計・評価ログデータベース16と、データベース情報提示モジュール17と、運用管理クライアント(運用管理クライアント端末)18とから構成される。収集モジュール12A,12B、検索サーバ14、統計・評価モジュール15、及びデータベース情報提示モジュール17は、専用のプログラムを計算機(サーバ計算機)が読み取り実行することにより実現される。このプログラムは、計算機で読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラムが、ネットワークを介してダウンロード(頒布)されても構わない。
【0017】
以下、図1の情報検索システムにおける動作を、図2のシーケンスチャートを参照して説明する。データベース11A,11Bは、それぞれ異なる外部データソース21A,21B(インターネット上や社内のイントラネット上にある情報のソース)に対応して設けられ、対応する外部データソースから収集された情報を蓄積するのに用いられる。外部データソース21Aは例えばインターネット上に存在し、外部データソース21Bは例えば社内のイントラネット上に存在するものとする。また、インターネット上の予め定められた複数のWebサーバをそれぞれ外部データソースとして、当該Webサーバ毎にデータベースが用意される構成とすることも可能である。なお、説明を簡略化するために、外部データソース21A,21Bから収集される情報が文書情報であるものとする。
【0018】
収集モジュール12i(i=A,B)は、外部データソース21iから文書情報を収集して、その収集された文書情報をデータベース11iに登録する(ステップS1)。収集モジュール12iは、既にデータベース11iに登録済みの文書情報に対応する文書情報を収集した場合、新たに収集された文書情報が、登録済みの文書情報の更新された情報(つまり更新文書)であるかを判定する。この判定は、文書情報のサイズまたは更新日時を比較することで行われる。収集モジュール12iは、新たに収集された文書情報が、更新された情報である場合、既登録の文書情報を当該新たに収集された文書情報で更新する。また、収集モジュール12iは、データベース11i内の既登録の文書情報が更新されたことを検索サーバ14に通知する(ステップS2)。また、既にデータベース11iに登録済みの文書情報が、外部データソース21iに存在しない場合、収集モジュール12iは、当該登録済みの文書情報をデータベース11iから削除する。
【0019】
検索サーバ14は、収集モジュール12iによるデータベース11iへの文書情報収集が完了すると、当該データベース11iの文書毎の更新の有無を示す情報をデータベース11iのデータベース名と共に統計・評価モジュール15に通知する(ステップS3)。統計・評価モジュール15は、検索サーバ14から通知された更新の有無を示す情報をログ情報として、その時点における日時を示す日時情報を付して、統計・評価ログデータベース16内の後述するログ情報テーブル160に保存する(ステップS4)。
【0020】
検索クライアント13は、ユーザの操作に応じて検索サーバ14に対して検索を要求する(ステップS5)。検索サーバ14は、検索クライアント13からの検索要求に応じ、当該検索要求で指定されたデータベース11i(iはAまたはB)を対象に当該検索要求で指定された検索条件に従う検索処理を行う(ステップS6)。この検索処理では、検索サーバ14は、データベース11iに登録されている文書毎に、検索条件に合致する程度を表すスコアを算出する。検索サーバ14は、算出された文書毎のスコアを、以下に述べる検索結果テーブル140内の当該文書に対応するスコアフィールドに保持する。
【0021】
図3は、検索結果テーブル140のデータ構造例を示す。検索結果テーブル140は、データベース11A,11B毎で、且つ当該データベース11A,11Bに登録されている各文書毎に、検索でのヒットの有無を保持する検索ヒットフィールド、検索条件に合致する程度を表すスコア(検索条件に対して検索した文書の適合率)を保持するスコアフィールド及びアクセス(参照)の有無を保持するアクセスフィールドを有する。検索ヒットフィールドは、対応する文書が検索された場合に検索有りを示す状態に設定される。また、スコアフィールドには、ユーザからの検索要求に応じて実行される検索処理で算出された対応する文書のスコアが保持される。また、アクセスフィールドは、対応する文書がアクセス(参照)された場合にアクセス有りを示す状態に設定される。
【0022】
検索結果テーブル140はまた、データベース11A,11B毎で、且つ当該データベース11A,11Bに登録されている各文書毎に、ユーザ評価結果を保持するための「役に立つ」評価フィールド及び「役に立たない」評価フィールドを有する。「役に立つ」評価フィールドは、対応する文書が役に立つとユーザに評価された場合に、その旨を示す状態に設定される。同様に、「役に立たない」評価フィールドは、対応する文書が役に立たないとユーザに評価された場合に、その旨を示す状態に設定される。なお、検索結果テーブル140の枠組みは、データベースの増減、データベース内の文書の増減に応じて変化する。
【0023】
検索サーバ14は、データベース11iに登録されている文書毎にスコアを算出すると、検索条件に合致(ヒット)した文書、例えば予め定められた閾値を超えるスコアの文書について、検索結果テーブル140内の当該文書に対応する検索ヒットフィールドを、検索有りを示す状態に設定する。
【0024】
検索サーバ14は、検索条件に合致(ヒット)した文書の一覧(検索文書一覧)を含む検索結果を検索クライアント13に送信する(ステップS7)。この検索文書一覧は、検索条件に合致した各文書の文書名(タイトル名)と文書の要約とを含む。検索文書一覧中の文書(文書名)の並び順は対応するスコアの大きい順となっている。
【0025】
検索サーバ14から検索クライアント13に検索結果が送信されると、当該検索クライアント13の表示モニタに、上記検索文書一覧を含む検索結果画面が表示される。この検索文書一覧から、ユーザが所望の文書の文書名を選択する操作を行うと、検索クライアント13から検索サーバ14に文書の参照要求(アクセス要求)が送信される(ステップS8)。この参照要求に応じて、検索サーバ14は、選択された文書名の文書情報をデータベース11iから取り出して検索クライアント13に送信する(ステップS9)。すると、検索クライアント13の表示モニタに、ユーザが選択した文書情報を含む文書閲覧画面が表示される。これによりユーザは、この文書閲覧画面上で自身が選択した文書情報を参照することができる。
【0026】
検索サーバ14は、ユーザによって検索結果文書一覧から選択された文書を検索クライアント13に送信すると、検索結果テーブル140内の当該文書に対応するアクセスフィールドを、アクセス(参照)有りを示す状態に設定する。
【0027】
検索クライアント13の表示モニタに表示される文書閲覧画面には、前記特許文献2に記載されているように、ユーザの評価を入力するための評価入力領域が確保されている。この評価入力領域には、評価種類入力用のラジオボタンが配置されている。ここでは、説明を簡略化するために、評価種類入力用のラジオボタンが、文書閲覧画面に表示された文書情報(つまりユーザによって参照された文書情報)が役に立つことを入力するのに用いられるラジオボタンと、当該文書情報が役に立たないことを入力するのに用いられるラジオボタンとの2種であるものとする。この例は、2段階の評価値の中から、1つをユーザに選択させる構成と等価である。なお、3段階以上の評価値の中から、1つをユーザに選択させる構成であっても構わない。
【0028】
さてユーザは、文書閲覧画面が表示されると、当該文書閲覧画面の評価入力領域に配置された2種のラジオボタンのいずれか一方を選択することで、当該文書閲覧画面に表示された文書情報(つまりユーザが参照した文書情報)に対して、そのラジオボタンに固有の評価を付けることができる。この評価付けの結果、つまり「役に立つ」ことを示す評価が入力されたか、或は「役に立たない」ことを示す評価が入力されたかは、検索クライアント13から検索サーバ14に通知される(ステップS10)。なお、2種のラジオボタンのいずれも選択しないことで、上記文書情報に対して、「役に立つ」または「役に立たない」のいずれでもないとの評価を付けることもできる。
【0029】
検索サーバ14は、「役に立つ」ことを示す評価が入力された場合であれば、検索結果テーブル140内の、「役に立つ」と評価された文書情報に対応する「役に立つ」評価フィールドを、「役に立つ」と評価された旨を示す状態に設定する。同様に、「役に立たない」ことを示す評価が入力された場合であれば、検索サーバ14は、検索結果テーブル140内の、「役に立たない」と評価された文書情報に対応する「役に立たない」評価フィールドを、「役に立たない」と評価された旨を示す状態に設定する。
【0030】
検索サーバ14は、例えば1つの検索条件に対応する一連の検索処理が終了する毎に、その時点における検索結果テーブル140の情報を統計・評価モジュール15に送信する(ステップS11)。そして、統計・評価モジュール15が検索結果テーブル140の情報を正常に受信すると、検索サーバ14は当該検索サーバ14内の検索結果テーブル140の各フィールドの状態を初期化する。
【0031】
統計・評価モジュール15は、検索サーバ14から送信された検索結果テーブル140の情報を受信すると、その情報をログ情報として、その時点における日時を示す日時情報を付して、統計・評価ログデータベース16内の以下に述べるログ情報テーブル160に保存する(ステップS12)。
【0032】
図4は、ログ情報テーブル160のデータ構造例を示す。ログ情報テーブル160のデータ構造は、図3の検索結果テーブル140とほぼ同様である。ここでは、説明を簡略化するために、検索サーバ14から統計・評価ログデータベース16に、データベース11iの文書毎の更新の有無を示す情報、または検索結果テーブル140の情報が送信される毎に、ログ情報テーブル160が統計・評価ログデータベース16内に生成されるものとする。つまり、本実施形態では、ログ情報テーブル160の列が時系列順に統計・評価ログデータベース16に蓄積される。ログ情報テーブル160が検索結果テーブル140と相違するのは、更新の有無を保持する更新フィールドを有する点である。
【0033】
さて運用管理クライアント18は、管理者の操作によりデータベース評価情報の提示が要求されると、データベース情報提示モジュール17に対して、データベース評価情報の提示要求を通知する(ステップS13)。ここでは、運用管理クライアント18は、管理者からデータベース評価情報の提示が要求された場合に、管理者に対して、評価項目と、評価期間(評価の対象期間)の指定を促すメッセージを表示する。これにより管理者は、評価項目と、評価期間を指定することが可能である。
【0034】
データベース情報提示モジュール17は、運用管理クライアント18からの提示要求を受け付けると、統計・評価モジュール15に対してデータベース評価要求を通知する(ステップS14)。このデータベース評価要求は、指定された評価項目と評価期間の情報を含むものとする。統計・評価モジュール15は、データベース情報提示モジュール17からのデータベース評価要求を受け付けると、当該評価要求で指定された評価項目について、その評価項目毎の評価ポイントを用いて、データベース11i毎の評価値Riを算出する(ステップS15)。本実施形態で適用される評価項目は、「役に立つ」、「役に立たない」、「検索頻度が高い」、「検索頻度が低い」、「更新頻度が高い」、「更新頻度が低い」、「スコアが高い」、「スコアが低い」、「アクセス頻度が高い」及び「アクセス頻度が低い」の10項目であり、この中から1つまたは複数の項目を選択的に指定することが可能である。なお、以上の10項目の一部は必ずしも用意されていなくても良い。逆に、データベース11iに対する情報の「登録頻度が高い」及び「登録頻度が低い」と、データベース11iからの情報の「削除頻度が高い」及び「削除頻度が低い」の各評価項目を加えることも可能である。そのためには、収集モジュール12iによる情報収集時において、上述の文書毎の更新の有無を示す情報の他に、データベース11iに新たに登録された文書の情報、或はデータベース11iから削除された文書の情報を、統計・評価モジュール15に通知する必要がある。
【0035】
以下、データベース11i毎の評価値Riの算出について説明する。まず統計・評価モジュール15は、指定評価期間におけるログ情報であるログ情報テーブル160の列を先頭から順に読み込む。もし、指定評価項目が「役に立つ」であるならば、統計・評価モジュール15は、ログ情報テーブル160の「役に立つ」評価フィールドを参照して、各データベース11iの文書毎に、指定の評価期間において当該文書が「役に立つ」と評価された回数をカウントする。このカウント値を、データベース11iの全文書について累計すると、評価項目「役に立つ」に関する当該データベース11iの評価ポイント(統計情報)を取得できる。
【0036】
同様に、指定評価項目が「役に立たない」であるならば、統計・評価モジュール15は、ログ情報テーブル160の「役に立たない」評価フィールドを参照して、各データベース11iの文書毎に、指定の評価期間において当該文書が「役に立たない」と評価された回数をカウントする。このカウント値を、データベース11iの全文書について累計すると、評価項目「役に立たない」に関する当該データベース11iの評価ポイントを取得できる。
【0037】
次に、指定評価項目が「検索頻度が高い」または「検索頻度が低い」であるならば、統計・評価モジュール15は、ログ情報テーブル160の検索ヒットフィールドを参照して、1回の検索毎に、各データベース11iについて、検索頻度が高いか、または検索頻度が低いかを判定する。ここでは、データベース11i内の総文書数に対する1回の検索でのヒット文書の割合が第1の閾値以上であるならば、データベース11iの検索頻度が高いと判定される。また、ヒット文書の割合が第1の閾値未満であるならば、データベース11iの検索頻度が低いと判定される。そして、データベース11iの検索頻度が高いと判定される毎に、「検索頻度が高い」評価ポイントを1インクリメントする動作を、指定評価期間におけるログ情報テーブル160の列について実行する。これにより、評価項目「検索頻度が高い」に関する当該データベース11iの評価ポイントを取得できる。同様に、データベース11iの検索頻度が低いと判定される毎に、「検索頻度が低い」評価ポイントを1インクリメントする動作を、指定評価期間におけるログ情報テーブル160の列について実行する。これにより、評価項目「検索頻度が低い」に関する当該データベース11iの評価ポイントを取得できる。
【0038】
次に、指定評価項目が「更新頻度が高い」または「更新頻度が低い」であるならば、統計・評価モジュール15は、情報収集が行われた際のログ情報テーブル160の更新フィールドを参照して、各データベース11iの文書毎に、指定の評価期間において当該文書が更新された回数(更新回数)をカウントする。そして統計・評価モジュール15は、指定の評価期間における更新回数が平均更新回数以上である文書を検出する毎に、対応するデータベース11iの「更新頻度が高い」ことを示す評価ポイントを1インクリメントする。これにより、評価項目「更新頻度が高い」に関する当該データベース11iの評価ポイントを取得できる。平均更新回数には、データベース11i内の文書毎の更新回数の総和を、データベース11i内で1度でも更新された文書の総数で除した値が用いられる。また統計・評価モジュール15は、指定の評価期間における更新回数が平均更新回数未満である文書を検出する毎に、対応するデータベース11iの「更新頻度が低い」ことを示す評価ポイントを1インクリメントする。これにより、評価項目「更新頻度が低い」に関する当該データベース11iの評価ポイントを取得できる。
【0039】
次に、指定評価項目が「スコアが高い」または「スコアが低い」であるならば、統計・評価モジュール15は、ログ情報テーブル160のスコアフィールドを参照して、各データベース11iの文書毎に、指定の評価期間において当該文書が第2の閾値以上のスコアとなった回数または第2の閾値未満のスコアとなった回数をカウントする。このカウント値を、データベース11iの全文書について累計すると、評価項目「スコアが高い」または「スコアが低い」に関する当該データベース11iの評価ポイントを取得できる。
【0040】
次に、指定評価項目が「アクセス頻度が高い」または「アクセス頻度が低い」であるならば、統計・評価モジュール15は、情報収集が行われた際のログ情報テーブル160のアクセスフィールドを参照して、各データベース11iの文書毎に、指定の評価期間において当該文書がアクセス(参照)された回数(アクセス回数)をカウントする。そして統計・評価モジュール15は、指定の評価期間におけるアクセス回数が平均アクセス回数以上である文書を検出する毎に、対応するデータベース11iの「アクセス頻度が高い」ことを示す評価ポイントを1インクリメントする。これにより、評価項目「アクセス頻度が高い」に関する当該データベース11iの評価ポイントを取得できる。平均アクセス回数には、データベース11i内の文書毎のアクセス回数の総和を、データベース11i内で1度でもアクセスされた文書の総数で除した値が用いられる。また統計・評価モジュール15は、指定の評価期間におけるアクセス回数が平均アクセス回数未満である文書を検出する毎に、対応するデータベース11iの「アクセス頻度が低い」ことを示す評価ポイントを1インクリメントする。これにより、評価項目「アクセス頻度が低い」に関する当該データベース11iの評価ポイントを取得できる。
【0041】
統計・評価モジュール15は、データベース11i(i=A,B)毎に、指定の評価項目について評価ポイントを取得すると、その評価ポイントに基づいて、データベース11i毎の評価値(統計評価値)Riを算出する。この評価値Riは、次式(1)
Ri=W1f1+W2f2+W3f3…+Wnfn (1)
で表される。ここで、nは適用する評価項目の個数である。本実施例において、n=4であり、W1f1、W2f2、W3f3及びWnfn(=W4f4)は、それぞれ、「アクセス頻度が高い」、「アクセス頻度が低い」、「役に立つ」及び「役に立たない」の各評価項目毎の評価値を表し、W1,W2,W3,W4は、それぞれ対応する評価項目の重みを表す。
【0042】
式(1)において、fnは、
fn=データベース11iの文書数×log(全データベースの平均文書数) (2)
で表される。また、重みW1,W2,W3,W4をWで代表させると、重みWは
W=(評価ポイント×評価係数)/f(x) (3)
で表される。ここでf(x)は全データベースに対して正規化した文書数、例えば1データベースの平均文書数を表す。また、評価係数は、評価項目に固有の値である。
【0043】
図5は、本実施形態で適用される10種類の評価項目と、その評価項目毎に予め定められた評価係数の一例を示す。
【0044】
統計・評価モジュール15は、上述のようにして算出されたデータベース11i毎の評価値Riをデータベース情報提示モジュール17に送信する(ステップS16)。データベース情報提示モジュール17は、統計・評価モジュール15によって送信されたデータベース11i毎の評価値Riを受信すると、当該データベース11i毎の評価値Riを運用管理クライアント18を介して管理者に提示する(ステップS17)。このとき、データベース11i毎の評価値Riを、評価値の高い順または低い順にソートして提示するならば、管理者は各データベース11iが有効に利用されている順位または有効に利用されていない順位を簡単に視認できる。また、評価値の高い順または低い順のいずれで提示するかは、管理者から指定可能とすると良い。このデータベース11i毎の評価値Ri、つまりデータベース11i毎の利用状況の統計的な評価結果から、運用管理クライアント18のユーザである管理者は、有効に利用されているデータベース、或は有効に利用されていないデータベースを判別することができる。データベース11i毎の評価値Riは、有効に利用されていないデータベースを削除するときの目安となる。これにより、運用管理のコストを削減できる。
【0045】
勿論、データベース情報提示モジュール17または運用管理クライアント18がデータベース11i毎の評価値Riを閾値と比較することで、有効に利用されているデータベース、或は有効に利用されていないデータベースを自動判別することも可能である。
【0046】
明らかなように、上述の例では、「アクセス頻度が高い」評価値及び「役に立つ」評価値がより高く、「アクセス頻度が低い」評価値及び「役に立たない」評価値の絶対値がより低いデータベース11iほど、評価値Riは高くなる。
【0047】
上記第1の実施形態では、データベース11iの評価値Riの算出に、評価項目として、「アクセス頻度が高い」、「アクセス頻度が低い」、「役に立つ」及び「役に立たない」の4種が適用されている。しかし、図4に示す任意の評価項目を単独で、或は複数組み合わせて用いることもできる。例えば、運用管理クライアント18から、評価項目として「スコアが高い」が指定された場合、つまり「スコアが高いデータが多いデータベース」に対する評価順の提示が指定された場合、統計・評価モジュール15では、「スコアが高い」のみに着目して、データベース11i毎の評価値Riが算出される。このデータベース11i毎の評価値Riは、統計・評価ログデータベース16によって運用管理クライアント18に提示される。これにより管理者は、「スコアが高いデータが多いデータベース」の観点で評価された、データベース11i毎の評価結果(評価値Ri)から、有効に利用されているデータベースを判別することができる。また、評価項目として、例えば「アクセス頻度が高い」、「アクセス頻度が低い」、「更新頻度が高い」及び「更新頻度が低い」を適用して、データベース11i毎の評価値Riを算出するならば、アクセス頻度が低く、且つ更新頻度が低い(つまり古い文書が多い)データベースを削除するときの目安とすることができる。
【0048】
また上記第1の実施形態では、運用管理クライアント18からの要求に応じて、データベース情報提示モジュール17から運用管理クライアント18に、データベース11i毎の評価値Riが送信される構成を適用している。しかし、予め運用管理クライアント18から指定された評価項目を適用して、予め定められたタイミング毎に、例えば一定期間毎に、各データベース11iの評価値Riを統計・評価モジュール15が算出することにより、データベース情報提示モジュール17から運用管理クライアント18に、データベース11i毎の評価値Riが定期的に送信される構成とすることもできる。
【0049】
また上記第1の実施形態では、評価値Riの算出に用いられるログ情報の期間(評価期間)が運用管理クライアント18から指定可能なようになっている。この評価期間の指定の意義について以下に説明する。例えば、データベース11iが構築されてから現在までの「全期間」におけるログ情報に基づく評価値Riと、当該全期間内の「ある特定の期間」におけるログ情報に基づく評価値Riとは異なる。
【0050】
そこで上記第1の実施形態では、ログ情報の時間軸方向の変化の傾向を考慮して評価値Riが算出される。ここでは、あるデータベース11iに対して「役に立つ」に対する評価値Riを算出することを想定する。
【0051】
まず、データベース11iが作成されてから現在までのX年間(Xは例えば2以上の整数)に「役に立つ」と評価された文書数が3000件であり、X年間のうちの最近の1年間で「役に立つ」と評価された文書数が2000件、全データベースに対して正規化した文書数(例えば1データベースの平均文書数)が2000であったものとする。
【0052】
この場合、時間軸方向の変化の傾向を考慮しないと、評価値Riは
Ri =(「役に立つ」と評価された文書数3000×「役に立つ」の評価係数3)
/全データベースに対して正規化した文書数2000
=4.5
となる。
【0053】
一方、時間軸方向の変化の傾向を考慮して、X年間のうちの最近の1年間に着目すると、
Ri =(「役に立つ」と評価された文書数2000×「役に立つ」の評価係数3)
/全データベースに対して正規化した文書数2000
=3
となる。
【0054】
この違いは、最近の1年間は、データベース11iに登録された文書は、「役に立つ」と評価される度合いが、それ以前に比べて減少する傾向にあることを表している。
【0055】
ここで、時間軸方向の変化の傾向を考慮して、評価期間を「ある特定の期間」に限定することの利点について述べる。
まず、図1中のデータベース11A,11Bに登録されている文書の数が同一であり、アクセス頻度に関し、それぞれ
データベース11A:過去1年前まではアクセス頻度が高い
データベース11B:過去1年前まではアクセス頻度が低いが、最近の1年間はアクセス頻度が高い
のような傾向があるものとする。
【0056】
ここで、時間軸方向の変化の傾向を考慮しないで、データベース11A,11Bが作成されてから現在までの期間における当該データベース11A,11Bの評価値RA,RBを算出した結果、
データベース11Aの評価値RA =5
データベース11Bの評価値RB =4
が取得されたものとする。この場合、評価値RA>評価値RBのため、データベース11Aの方が有効なデータベースとして判断されることになる。
【0057】
しかし、管理者によっては、データベース11A,11Bが作成されてから現在までの期間の評価値よりも、最近1年間の評価値からアクセス頻度が高いデータベースを判別した方が有効であると考えられる。そこで、最近の1年間を評価期間として評価値RA及びRBを算出した結果、上述の傾向から、例えば
データベース11Aの評価値RA =4.2
データベース11Bの評価値RB =4.8
となったものとする。この場合、最近の1年間に絞って評価した場合には、データベース11Bの方が有効であるという結果が得られる。このように、管理者の操作に応じて運用管理クライアント18から評価期間を指定可能とすることで、管理者毎に、より有効なデータベースを使い分けることができるようになる。なお、1年単位、或は半年単位など、一定期間毎の評価値を算出して、その評価値の変化の傾向を管理者に提示することも可能である。
【0058】
[第2の実施形態]
上記第1の実施形態では、データベース11i毎の評価値Riがデータベース情報提示モジュール17によって運用管理クライアント18を介して管理者に提示される。管理者は、提示されたデータベース11i毎の評価値Riを、有効に利用されていないデータベースを削除するときの目安とすることができる。しかし、データベース11i毎の評価値Riを管理者に提示する代わりに、データベース11i毎の評価値Riから、データベースの自動更新頻度を変更する構成とすることも可能である。
【0059】
そこで、データベースの自動更新を実現する本発明の第2の実施形態について図面を参照して説明する。図6は本発明の第2の実施形態に係る情報検索システムの構成を示すブロック図である。図6において、図1と等価な構成要素には同一符号を付してある。
【0060】
図6のシステムが、図1のシステムと異なる主要な点は、データベース情報提示モジュール17及び運用管理クライアント18に代えて、自動更新モジュール19が用いられている点にある。この自動更新モジュール19は、統計・評価モジュール15によって算出されるデータベース11i毎の評価値Riから、当該データベース11i毎の収集モジュール12iによる情報の自動収集条件、例えば自動更新頻度(自動収集頻度)を決定(変更)する。そのために自動更新モジュール19は、データベース11i毎の評価値Riを統計・評価モジュール15から受信する。そして自動更新モジュール19は、データベース11i毎の評価値Riから、例えばアクセス頻度が低いデータベースに対しては自動更新頻度を減らし、アクセス頻度の高いデータベースに対しては自動更新頻度を増やすように、収集モジュール12A及び12Bを制御する。これにより、検索クライアント13のユーザは常に最新の有効なデータを検索することができ、運用管理のコストをより一層削減できる。この他に、アクセス頻度の高低に応じて、収集対象(収集範囲)を広げる、或は収集対象を狭めるように、収集モジュール12A及び12Bを制御することも可能である。
【0061】
また、図6のシステムに、図1に示したデータベース情報提示モジュール17及び運用管理クライアント18を追加して、データベース11i毎の評価値Riをデータベース情報提示モジュール17によって運用管理クライアント18を介して管理者に提示するようにしても構わない。
【0062】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【図面の簡単な説明】
【0063】
【図1】本発明の第1の実施形態に係る情報検索システムの構成を示すブロック図。
【図2】同実施形態における動作の手順を示すシーケンスチャート。
【図3】図1中の検索結果テーブル140のデータ構造例を示す図。
【図4】図1中のログ情報テーブル160のデータ構造例を示す図。
【図5】同実施形態で適用される10種類の評価項目と、その評価項目毎に予め定められた評価係数の一例を示す図。
【図6】本発明の第2の実施形態に係る情報検索システムの構成を示すブロック図。
【符号の説明】
【0064】
11A,11B…データベース、12A,12B…収集モジュール、13…検索クライアント、14…検索サーバ、15…統計・評価モジュール、16…統計・評価ログデータベース(ログ保存手段)、17…データベース情報提示モジュール、18…運用管理クライアント、19…自動更新モジュール、21A,21B…外部データソース、140…検索結果テーブル、160…ログ情報テーブル。

【特許請求の範囲】
【請求項1】
異なるデータソースから収集された情報が登録された複数のデータベースと、
ユーザからの検索要求で指定された検索条件に従って前記複数のデータベースの少なくとも1つから当該検索条件に合致するデータを検索して、その検索結果を前記ユーザに提示する検索サーバと、
前記検索サーバによる検索の履歴を含む、前記複数のデータベース各々の利用状況の履歴を保存するログ保存手段と、
前記ログ保存手段に保存されている前記複数のデータベース各々の利用状況の履歴に基づいて、前記複数のデータベース各々の利用状況の統計情報を生成し、当該統計情報に基づいて前記複数のデータベース各々の利用状況を評価する統計・評価手段と、
前記統計・評価手段による前記複数のデータベース各々の利用状況の評価結果を管理者に提示するデータベース情報提示手段と
を具備することを特徴とするデータベース運用管理支援機能を有する情報検索システム。
【請求項2】
前記ログ保存手段に保存される前記複数のデータベース各々の利用状況の履歴は、当該複数のデータベース各々における登録情報毎の履歴であって、検索条件に合致したか否かを示す検索ヒット有無情報、更新の有無を示す更新有無情報、検索条件に合致する程度を表すスコア、検索された情報がユーザによって選択されて参照されたか否かを示すアクセス有無情報、及びユーザによって参照された情報に対する当該ユーザの評価を示す評価情報のうちから選択された複数の履歴を含み、
前記統計・評価手段は、前記検索ヒット有無情報に対応する検索頻度、前記更新有無情報に対応する更新頻度、前記スコア、前記アクセス有無情報に対応するアクセス頻度、及び前記評価情報に対応するユーザ評価を含む複数の評価項目のうち、前記選択された複数の履歴に対応する評価項目の中から、管理者によって選択指定された少なくとも1つの評価項目を受け付けて、前記複数のデータベース各々の利用状況の履歴のうち、当該指定された評価項目に対応する情報に基づいて、当該指定された評価項目に関する前記複数のデータベース各々の利用状況の統計情報を生成し、当該統計情報に基づいて前記複数のデータベース各々の利用状況を評価する
ことを特徴とする請求項1記載のデータベース運用管理支援機能を有する情報検索システム。
【請求項3】
前記統計・評価手段は、前記複数のデータベース各々の利用状況の評価結果が時間軸方向の変化の傾向を表すように、前記複数のデータベース各々の利用状況を評価することを特徴とする請求項1記載のデータベース運用管理支援機能を有する情報検索システム。
【請求項4】
前記統計・評価手段による前記複数のデータベース各々の利用状況の評価結果に基づいて、前記複数のデータベースのうち評価の低いデータベースを自動的に削除する自動削除手段を更に具備することを特徴とする請求項1記載のデータベース運用管理支援機能を有する情報検索システム。
【請求項5】
前記統計・評価手段による前記複数のデータベース各々の利用状況の評価結果に基づいて、前記複数のデータベースのうち評価の低いデータベースを削除することを管理者に促す手段を更に具備することを特徴とする請求1項記載のデータベース運用管理支援機能を有する情報検索システム。
【請求項6】
設定された情報収集条件に従って、前記異なるデータソースから情報を収集し、その収集された情報を当該データソースに対応する前記データベースに登録する情報収集手段と、
前記統計・評価手段による前記複数のデータベース各々の利用状況の評価結果に基づいて、前記情報収集条件を変更する自動更新手段と
を更に具備することを特徴とする請求1項記載のデータベース運用管理支援機能を有する情報検索システム。
【請求項7】
設定された情報収集条件に従って、前記異なるデータソースから情報を収集し、その収集された情報を当該データソースに対応する前記データベースに登録する情報収集手段と、
前記統計・評価手段による前記複数のデータベース各々の利用状況の評価結果に基づいて、前記情報収集条件の変更を管理者に促す手段と
を具備することを特徴とする請求1項記載のデータベース運用管理支援機能を有する情報検索システム。
【請求項8】
異なるデータソースから収集された情報が登録された複数のデータベースと、
ユーザからの検索要求で指定された検索条件に従って前記複数のデータベースの少なくとも1つから当該検索条件に合致するデータを検索して、その検索結果を前記ユーザに提示する検索サーバと、
前記検索サーバによる検索の履歴を含む、前記複数のデータベース各々の利用状況の履歴を保存するログ保存手段と、
前記ログ保存手段に保存されている前記複数のデータベース各々の利用状況の履歴に基づいて、前記複数のデータベース各々の利用状況の統計情報を生成し、当該統計情報に基づいて前記複数のデータベース各々の利用状況を評価する統計・評価手段と、
設定された情報収集条件に従って、前記異なるデータソースから情報を収集し、その収集された情報を当該データソースに対応する前記データベースに登録する情報収集手段と、
前記統計・評価手段による前記複数のデータベース各々の利用状況の評価結果に基づいて、前記情報収集条件を変更する自動更新手段と
を具備することを特徴とするデータベース運用管理支援機能を有する情報検索システム。
【請求項9】
ユーザからの検索要求で指定された検索条件に従って、異なるデータソースから収集された情報が登録された複数のデータベースの少なくとも1つから当該検索条件に合致するデータを検索して、その検索結果を前記ユーザに提示する情報検索システムにおいて、前記複数のデータベースの運用を管理するデータベース運用管理方法であって、
前記ユーザからの検索要求で指定された検索条件に従う検索の都度、当該検索で取得される情報を当該検索の対象となった前記データベースの利用状況の履歴の一部としてログ保存手段に保存するステップと、
前記ログ保存手段に保存されている前記複数のデータベース各々の利用状況の履歴に基づいて、前記複数のデータベース各々の利用状況の統計情報を生成するステップと、
生成された前記複数のデータベース各々の利用状況の統計情報に基づいて前記複数のデータベース各々の利用状況を評価するステップと、
前記複数のデータベース各々の利用状況の評価結果を管理者に提示するステップと
を具備することを特徴とするデータベース運用管理方法。
【請求項10】
前記複数のデータベース各々の利用状況の履歴は、当該複数のデータベース各々における登録情報毎の履歴であって、検索条件に合致したか否かを示す検索ヒット有無情報、検索条件に合致する程度を表すスコア、検索された情報がユーザによって選択されて参照されたか否かを示すアクセス有無情報、及びユーザによって参照された情報に対する当該ユーザの評価を示す評価情報のうちから選択された複数の履歴を含み、
前記検索ヒット有無情報に対応する検索頻度、前記スコア、前記アクセス有無情報に対応するアクセス頻度、及び前記評価情報に対応するユーザ評価を含む複数の評価項目のうち、前記選択された複数の履歴に対応する評価項目の中から、少なくとも1つの評価項目が管理者によって選択指定された場合に、当該指定された評価項目に対応する情報に基づいて、当該指定された評価項目に関する前記複数のデータベース各々の利用状況の統計情報が生成されて、当該統計情報に基づいて前記複数のデータベース各々の利用状況が評価される
ことを特徴とする請求項9記載のデータベース運用管理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−99426(P2006−99426A)
【公開日】平成18年4月13日(2006.4.13)
【国際特許分類】
【出願番号】特願2004−284672(P2004−284672)
【出願日】平成16年9月29日(2004.9.29)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】