説明

知識情報収集システム、知識情報収集方法及びプログラム

【課題】ユーザにとって有用な情報だけを収集できるようにする。
【解決手段】設定ファイル13には、起点URLと、情報収集の対象となるリンクの段数と、不要語を表すキーワードとが設定される。リンクラベル抽出モジュール113は、ネットワーク(インターネット/イントラネット)20から収集されたページ情報からリンク文字列を抽出する。リンク判定モジュール114は、抽出されたリンク文字列と設定された不要語を表すキーワードとから、リンク先のページ情報が無用であるかを判定する。収集制御モジュール111は、起点URLからリンクを辿ることによりネットワーク20からの情報収集を制御する。収集制御モジュール111は、リンク判定モジュール114によって無用であると判定されたリンクの先のページ情報は、設定された段数の範囲内であっても収集の対象外とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ナレッジマネジメントシステムで用いられる知識データベースに登録すべき情報をネットワーク上から収集するのに好適な知識情報収集システム、知識情報収集方法及びプログラムに関する。
【背景技術】
【0002】
近年、知識情報の共有支援を図るためのナレッジマネジメントシステムが開発されている。このナレッジマネジメントシステムは、個人のノウハウなどの知識情報を知識データベースに蓄積して管理するためのものであり、自然言語検索などの検索機能と組み合わせることにより、蓄積された知識情報の効率的な活用を実現する。
【0003】
このようなナレッジマネジメントシステムでは、知識情報をいかに効率よく収集するかが重要なポイントとなる。そこで最近は、ネットワーク、例えばインターネットから、ファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集するための知識情報収集システムが開発されている(例えば、特許文献1参照)。この特許文献1に記載された知識情報収集システムにおいては、設定ファイルに設定された知識情報収集のための条件(知識情報収集条件)に従って、インターネットから、文書情報が次のように収集される。
【0004】
まず、知識情報収集システムは、設定ファイルとWeb収集モジュールとを有する。設定ファイルには、ユーザ(例えば管理者である管理ユーザ)の操作によって、情報収集の対象となるリンクの段数及びリンク毎の収集ファイル個数の少なくとも一方が、起点URL(Uniform Resource Locator)と共に設定される。Web収集モジュールは、起点URL及びリンクの段数が設定ファイルに設定されている場合、当該起点URLから設定されたリンクの段数の上限を超えない範囲で、全てのリンクを辿ってインターネットから文書情報(ページ情報)を収集する。また、起点URL及びリンクの段数に加えて、リンク毎の収集ファイル個数が設定されている場合、Web収集モジュールは、起点URLから設定されたリンクの段数の上限を超えず、かつ設定されたリンク毎の収集ファイル個数を超えない範囲で、全てのリンクを辿ってインターネットから文書情報を収集する。
【特許文献1】特開2003−303197号公報(段落0008,0010,0086乃至0089)
【発明の開示】
【発明が解決しようとする課題】
【0005】
上記したように、特許文献1に記載された知識情報収集技術(以下、先行技術と称する)によれば、設定ファイルを用いて、ネットワーク上からの情報収集の対象となるリンクの段数等を任意に指定することで、起点URLから指定のリンクの段数の上限を超えない範囲で、全てのリンクを辿って文書情報が収集される。
【0006】
しかし、上記先行技術においては、収集する文書情報(ページ情報)の内容に無関係に、指定のURLから、指定のリンクの段数の範囲で全ての情報を収集することから、ユーザにとって無用(不要)な情報が多数含まれる虞がある。また、上記先行技術においては、指定の段数よりより先のリンクにユーザにとって有用(重要)な情報があっても、その情報は収集されないという問題もある。
【0007】
本発明は上記事情を考慮してなされたものでその目的は、ユーザにとって有用な情報だけを効率よく収集することができる知識情報収集システム、知識情報収集方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
本発明の1つの観点によれば、知識データベースに登録すべき情報をネットワーク上から収集する知識情報収集システムが提供される。このシステムは、ネットワーク上からの情報収集の起点となるページ情報の所在を示す起点ロケーション情報及びネットワーク上からの情報収集の対象となるリンクの段数を設定すると共に、ネットワーク上からの情報収集の対象外とすべきリンクに関係する語句を、不要語を表すキーワードとして設定する設定手段と、ネットワーク上から収集されたページ情報からリンク文字列を抽出するリンク文字列抽出手段と、抽出されたリンク文字列と設定された不要語を表すキーワードとから、リンク先のページ情報が無用であるかを判定するリンク判定手段と、設定された起点ロケーション情報からリンクを辿ることによりネットワーク上からの情報収集を制御する情報収集制御手段であって、上記リンク判定手段によって無用であると判定されたリンク先のページ情報は、設定されたリンクの段数の範囲内であっても収集の対象外とする情報収集制御手段とを備える。
【0009】
上記の構成においては、ページ内のリンク文字列と設定された不要語を表すキーワードとから、リンク先のページが無用であるかが判定されて、無用であると判定されたページは、予め設定されたリンクの段数の範囲内であっても収集の対象外とされる。これにより、予め設定されたリンクの段数の範囲内であるために、知識データベースに登録すべきでない無用な情報までも収集されるのを防止でき、知識データベースに登録すべき有用な情報だけをより効率よく収集できる。
【0010】
ここで、上記設定手段に、ネットワーク上からの情報収集の対象外とすべきリンクに関係する語句を、不要語を表すキーワードとして設定する代わりに、ネットワーク上からの情報収集の対象とすべきリンクに関係する語句を、重要語を表すキーワードとして設定する機能を持たせると共に、上記リンク判定手段に、リンク先のページ情報が無用であるかを判定する代わりに、抽出されたリンク文字列と設定された重要語を表すキーワードとから、リンク先のページ情報が有用であるかを判定する機能を持たせると良い。この場合、情報収集制御手段には、有用であると判定されたリンク先のページ情報を、設定された段数の範囲を超えていても収集の対象とする機能を持たせると良い。
【0011】
このような構成においては、ページ内のリンク文字列と設定された重要語を表すキーワードとから、リンク先のページが有用であるかが判定され、有用であると判定されたページは、予め設定されたリンクの段数を超えていても収集の対象とされる。これにより、予め設定されたリンクの段数の範囲外であるために、知識データベースに登録すべき有用な情報までも収集されなくなるのを防止でき、知識データベースに登録すべき有用な情報だけをより効率よく収集できる。
【0012】
また、上記システムに、上記知識データベースに収集された情報を与えられた検索式に従って検索し、その検索結果をユーザに提示する検索手段と、この検索手段による検索結果に応じて参照された情報の有用性または無用性をユーザにより評価させる手段と、上記検索手段による検索に用いられた検索式と、上記知識データベースに収集された情報毎の当該情報が参照される参照回数と、当該情報毎の当該情報に対するユーザの評価結果とを、検索ログとして蓄積する検索ログ蓄積手段と、この検索ログ蓄積手段に蓄積された検索式に出現する語句と、情報毎の参照回数と、情報毎の評価結果とを分析して、検索式に出現する語句毎に、当該語句がユーザにとって重要または不要である程度を表す評価値を生成するログ統計生成手段と、生成された語句毎の評価値をもとに、上記設定手段によって設定可能な重要語または不要語を表すキーワードを生成するキーワード生成手段とが追加された構成とすると良い。
【0013】
このような構成においては、過去の検索で用いられた検索式に出現する語句と、情報毎の参照回数と、情報毎の評価結果とから、検索式に出現する語句毎に、当該語句がユーザにとって重要または不要である程度を表す評価値が求められ、その語句毎の評価値から、つまり、検索システムの利用状況(検索ログ)に関する評価結果から、重要語または不要語を表すキーワードとして用いられる語句が自動抽出される。これにより、重要語を表すキーワードが自動抽出される構成であれば、ユーザが重要なキーワードを設定する手間が省ける。また、不要語を表すキーワードが自動抽出される構成であれば、ユーザにとって情報収集の対象外とすべきリンクに関係するキーワードを設定する手間が省ける。しかも、情報収集の対象外とすべきリンクに関係するキーワード(不要なキーワード)は、情報収集の対象とすべきリンクに関係するキーワード(重要なキーワード)と異なって、一度収集された情報をユーザが実際に参照してみないと判明しにくい。したがって、不要語を表すキーワードが自動抽出されることは、ユーザにとって極めて有用である。
【0014】
ここで、自動抽出された重要語または不要語を表すキーワードが、上記設定手段により無条件に設定される構成とする代わりに、自動抽出された重要語または不要語を表すキーワードの一覧をユーザに提示して、その一覧から、上記設定手段により設定されるキーワードをユーザに選択させる構成としても良い。
【0015】
このような構成においては、自動的に抽出された重要語または不要語を表すキーワードが本当に重要または不要であるかを、ユーザ自身が判断できる。
【発明の効果】
【0016】
本発明によれば、ページ内のリンク文字列と設定された不要語を表すキーワードとから、リンク先のページが無用であるかを判定し、無用であると判定されたページは、予め設定されたリンクの段数の範囲内であっても収集の対象外とするようにしたので、予め設定されたリンクの段数の範囲内であるために、知識データベースに登録すべきでない無用な情報までも収集されるのを防止することができる。
【0017】
また本発明によれば、ページ内のリンク文字列と設定された重要語を表すキーワードとから、リンク先のページが有用であるかを判定し、有用であると判定されたページは、予め設定されたリンクの段数を超えていても収集の対象とするようにしたので、予め設定されたリンクの段数の範囲外であるために、知識データベースに登録すべき有用な情報までも収集されなくなるのを防止することができる。
【0018】
よって本発明によれば、ユーザにとってより有用な情報だけを効率よく収集することができる。
【発明を実施するための最良の形態】
【0019】
以下、本発明の一実施形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る知識情報収集システムを実現するナレッジマネジメントシステムの構成を示すブロック図である。このナレッジマネジメントシステムは、知識情報の収集、分析及び検索等のサービスを提供する。ナレッジマネジメントシステムは、Web情報収集システム11、知識検索システム12、設定ファイル13、キーワード生成モジュール14及び同義語辞書15を含む。これらWeb情報収集システム11、知識検索システム12、設定ファイル13、キーワード生成モジュール14及び同義語辞書15は、ナレッジマネジメントシステムが提供するサービスの1つである知識情報の収集を行うための知識情報収集システムを構築する。
【0020】
Web情報収集システム11は、ネットワーク、例えばインターネット/イントラネット20上のWebサーバー21からユーザに有用なWeb情報(ページ情報)を収集してテキスト部分を抽出し、そのテキスト部分を後述する知識データベース(知識DB)121に格納する。Web情報収集システム11は、収集制御モジュール111、テキスト抽出モジュール112、リンクラベル抽出モジュール113及びリンク判定モジュール114の各モジュールから構成される。
【0021】
収集制御モジュール111は、設定ファイル13の設定内容に従って、インターネット/イントラネット20からの有用なページ情報の収集を制御する。テキスト抽出モジュール112は、収集制御モジュール111の制御によって収集されたページ情報からテキストを抽出して知識DB121に格納する。リンクラベル抽出モジュール113は、収集されたページ情報からページ内のリンク文字列であるリンクのラベルを抽出する。リンク判定モジュール114は、抽出されたリンクのラベルと設定ファイル13の設定内容とから、リンク先のページを収集するかを判定する。この判定結果は収集制御モジュール111に渡されて、当該収集制御モジュール111による、ページ情報収集の制御に用いられる。
【0022】
知識検索システム12は、知識DB121、検索エンジン122、検索ログ123及びログ統計生成モジュール124から構成される。知識DB121は、Web情報収集システム11内の収集制御モジュール111によって収集されたページ情報から、テキスト抽出モジュール112によって抽出された文書情報(テキスト)を蓄積しておくのに用いられる。検索エンジン122は、ユーザ101の操作に応じてWebブラウザ16から入力された検索要求の示す検索式(検索文、検索条件)に従って、当該検索式に合致する文書情報(テキスト)を知識DB121から検索し、その検索結果をWebブラウザ16を介してユーザ101に提示する。検索エンジン122はまた、ユーザ101に提示された検索結果から選択された文書情報をユーザ101に提示する。これによりユーザ101は、目的の文書情報を参照することができる。検索ログ123は、検索エンジン122による情報検索・参照の履歴(ログ)、例えば検索に用いられた検索式、検索結果の参照回数及び参照された文書情報毎のユーザによる評価結果を、検索に関する統計情報として蓄積するのに用いられる。ログ統計生成モジュール124は、検索ログ123に従い、検索式に出現する語句、検索結果の参照回数、参照された各情報に対するユーザの評価結果を統計的に分析することにより、検索式に出現する各語句について、当該語句が、ユーザにとって重要であるか、不要であるか、そのどちらでもないかを判定するのに必要な情報(ログ統計情報)を生成する。
【0023】
設定ファイル13は、起点URL、インターネット/イントラネット20上からの情報収集の対象となるリンクの段数(初期段数)n、収集ページ数の上限、重要語及び不要語等、Web情報収集のための条件(知識情報収集条件)を設定・保持する。本実施形態では、設定ファイル13に設定される重要語及び不要語には、同義語辞書15に登録されている代表語が用いられる。設定ファイル13は、ユーザ、例えば管理ユーザ(管理者)102の操作に応じてWebブラウザ17から入力された設定要求に従って生成される。図1では、1つの設定ファイル13が示されている。しかし、複数の設定ファイル13が生成され、その中から任意の設定ファイル13がユーザの操作によって指定されることで、その指定された設定ファイル13に設定されている条件に従うWeb情報収集が行われる構成であっても構わない。
【0024】
起点URLは、収集制御モジュール111によってインターネット/イントラネット20上からの情報収集が制御される際の起点となるページ情報の所在を示すロケーション情報である。重要語及び不要語は、ページ情報内のリンクラベル(リンク文字列)から、リンク先のページ情報が有用であるか無用であるかを判定するのに用いられるキーワードである。キーワード生成モジュール14は、ログ統計生成モジュール124によって生成された検索に関する統計情報(ログ統計情報)をもとに、重要語及び不要語をそれぞれキーワードとして生成する。キーワード生成モジュール14によるキーワード生成には同義語辞書15が利用される。同義語辞書15には、意味が類似した語句の集合が同義語として予め登録されている。各同義語の集合は、それぞれ代表語に対応付けられている。例えば、「価格」「値段」「定価」「料金」は、「価格」を代表語とする同義語グループの要素として同義語辞書15に登録されている。
【0025】
Web情報収集システム11内の各モジュール、知識検索システム12内の検索エンジン122及びログ統計生成モジュール124、そしてキーワード生成モジュール14は、
コンピュータにインストールされた特別のソフトウェアプログラム(ナレッジマネジメントプログラム)を当該コンピュータ(内のCPU)が読み取って実行することにより実現される。このプログラムは、コンピュータで読み取り可能な記憶媒体(フロッピー(登録商標)ディスクに代表される磁気ディスク、CD−ROM、DVDに代表される光ディスク、フラッシュメモリに代表される半導体メモリ等)に予め格納して頒布可能である。また、このプログラムが、ネットワークを介してダウンロード(頒布)されても構わない。
【0026】
次に、図1のナレッジマネジメントシステムにおけるWeb情報収集処理について、図2及び図3のフローチャートを参照して説明する。
まず管理ユーザ102は、図1のナレッジマネジメントシステム(内のWeb情報収集システム11)により、インターネット/イントラネット20上のWebサーバーから知識DB121に登録すべきWeb情報(ページ情報)を収集したいものとする。この場合、管理ユーザ102は、キーボード等の図示せぬ入力手段を操作して、Web情報収集システム11を呼び出す。すると、Web情報収集システム11内の収集制御モジュール111は、管理ユーザ102に対し、設定ファイル13を指定するための入力操作を要求する。収集制御モジュール111は、管理ユーザ102の入力操作によって任意の設定ファイル13が指定されると、当該指定された設定ファイル13の設定内容をWeb情報収集条件として用いて、インターネット/イントラネット20から対応するWeb情報を次のように収集する、
まず、Web情報収集システム11内の収集制御モジュール111は、起点ページから始まる情報収集の対象となるリンクの段数Zを、初期値(初期段数)nに設定する(ステップS1)。本実施形態において、初期値nは2であるものとする。起点ページのURL(起点URL)、及び段数Zの初期値nは、管理ユーザ102により指定された設定ファイル13に設定されている。次に収集制御モジュール111は、起点ページ(のページ情報)を、例えばHTTP(Hyper Text Transfer Protocol)を用いて収集する(ステップS2)。
【0027】
次に収集制御モジュール111は、未処理の収集済みページが存在するかを調べる(ステップS3)。もし、未処理の収集済みページが存在するならば、その未処理の収集済みページを1つ選択する(ステップS4)。テキスト抽出モジュール112は、収集制御モジュール111によって選択されたページ(のページ情報)からテキストを抽出する(ステップS5)。
【0028】
リンクラベル抽出モジュール113は、テキスト抽出モジュール112によって抽出されたテキスト中に、未処理のリンクが存在するかを調べる(ステップS6)。もし、未処理のリンクが存在するならば、リンクラベル抽出モジュール113は未処理のリンクを1つ選択する(ステップS7)。
【0029】
リンクラベル抽出モジュール113は、選択されたリンクの種類を判定する(ステップS8)。もし、リンクの種類が文字リンクであるならば、リンクラベル抽出モジュール113は、文字リンク(タグ<A>及び</A>)で囲まれた文字列(リンク文字列)をリンクラベルとして抽出する(ステップS9)。一方、リンクの種類が画像リンクであるならば、リンクラベル抽出モジュール113は、タグ<A>及び</A>内のaltプロパティの文字列(リンク文字列)をリンクラベルとして抽出する(ステップS10)。
【0030】
リンクラベル抽出モジュール113は、ステップS4で選択されたページに含まれている全てのリンクについて、上記リンク文字列(リンクラベル)を抽出する動作(ステップS7,S8,S9またはステップS7,S8,S10)を繰り返す(ステップS6)。そして、リンク文字列(リンクラベル)を抽出する動作が、選択されたページ内の全リンクについて実行されると、リンクラベル抽出モジュール113からリンク判定モジュール114に制御が渡される。
【0031】
すると、リンク判定モジュール114は、ステップS4で選択されたページから抽出された全てのリンク文字列の中に、設定ファイル13に設定されている重要語を含むリンク文字列が存在するかを判定する(ステップS11)。このステップS11の判定では、同義語辞書15が参照され、設定ファイル13に設定されている重要語の同義語も重要語として扱われる。例えば、設定ファイル13に設定されている重要語が上述の「価格」の場合であれば、「価格」の同義語である「値段」「定価」「料金」も設定ファイル13に重要語として設定されているものとして扱われる。なお、設定ファイル13の生成時に、「値段」「定価」「料金」も「価格」と共に、重要語として設定される構成としても構わない。この場合には、ステップS11の判定において同義語辞書15を参照する必要はなくなる。
【0032】
もし、重要語を含むリンク文字列が存在するならば(ステップS11)、リンク判定モジュール114は対応するリンク列に関して現在設定されているリンク収集の段数Zはn(初期段数)を超えているかを判定する(ステップS12)。もし、Zがnを超えていないならば、即ちZがnに一致するならば、リンク判定モジュール114は、ZをZ+m、つまり初期段数nよりmだけ多い段数n+mに更新する(ステップS13)。これに対し、Zがnを超えているならば、リンク判定モジュール114は、起点ページからリンク先までのリンクの段数が現在設定されているリンク収集の段数Z以内であるかを判定する(ステップS14)。もし、リンク先までのリンクの段数がZを超えているならば、Zを現在の段数より1だけ多い段数Z+1に更新する(ステップS15)。
【0033】
リンク判定モジュール114は、ステップS13またはS15を実行すると、ステップS16に進む。これに対し、リンク先までのリンク収集の段数がZ以内であるならば(ステップS14)、リンク判定モジュール114はZを更新することなく、そのままステップS16に進む。ステップS16において、キーワード生成モジュール14は、ステップS4で選択されたページから抽出されたリンク文字列の中に、未処理のリンク文字列が存在するかを調べる。この例のように、未処理のリンク文字列が存在するならば、リンク判定モジュール114は、未処理のリンク文字列を1つ選択する(ステップS17)
リンク判定モジュール114は、ステップS17で選択されたリンクの文字列(リンクラベル)が、設定ファイル13に設定されている重要語を含むかを判定する(ステップS18)。このステップS18の判定では、同義語辞書15が参照され、設定ファイル13に設定されている重要語の同義語も重要語として扱われる。
【0034】
もし、リンク文字列が重要語を含むならば(ステップS18)、リンク判定モジュール114は、対応するページ(ステップS4で選択されたページ)を含むリンク列に関するリンク収集の現在の段数Zに無関係にリンク先ページを収集することを判定(決定)する。すると収集制御モジュール111は、リンク先のページを収集する(ステップS21)。収集制御モジュール111によって収集された「ページ」(のページ情報)は、「リンク元のラベル(リンク文字列)」と組にして、知識DB121に格納される。
【0035】
これに対し、リンク文字列が重要語を含まないならば(ステップS18)、リンク判定モジュール114は、当該文字列が、設定ファイル13に設定されている不要語を含むかを判定する(ステップS19)。このステップS19の判定でも、上記ステップS11またはS18と同様に同義語辞書15が参照され、設定ファイル13に設定されている不要語の同義語も不要語として扱われる。ここで、リンク文字列が不要語を含むならば(ステップS19)、リンク判定モジュール114は対応するページを含むリンク列に関するリンク収集の現在の段数Zに無関係にリンク先ページを収集しないことを判定(決定)する。この場合、収集制御モジュール111は、リンク先ページを収集することを控える(ステップS23)。なお、本実施形態では、1つのリンクに重要語と不要語の両方が存在する場合には、図3のフローチャートから明らかなように重要語が優先され(ステップS18)、「重要語を含むリンク」として扱われる。
【0036】
一方、リンク文字列が不要語を含まないならば(ステップS19)、つまりリンク文字列が重要語も不要語も含まないならば(ステップS18,S19)、リンク判定モジュール114は起点ページからリンク先までのリンクの段数は現在の設定段数Z以内かを判定する(ス20)。リンク判定モジュール114は、リンク文字列が重要語も不要語も含まない場合には(ステップS18,S19)、起点ページからリンク先までのリンクの段数が現在の設定段数Z以内である場合に限って(ステップS20)、収集制御モジュール111に対してリンク先ページの収集を要求する。収集制御モジュール111は、リンク判定モジュール114からの要求に応じてリンク先のページを収集する(ステップS21)。これに対し、リンク文字列が重要語も不要語も含まず(ステップS18,S19)、しかも起点ページからリンク先までのリンクの段数が現在の設定段数Zを超えているならば(ステップS20)、リンク判定モジュール114は収集制御モジュール111に対してリンク先ページを収集しないことを要求する。これにより収集制御モジュール111は、リンク先ページの収集を控える(ステップS23)。この場合、収集制御モジュール111からリンク判定モジュール114に制御が渡されて、上記ステップS16の判定が行われる。
【0037】
収集制御モジュール111は、上記ステップS21によりリンク先ページ(のページ情報)を収集すると、対応するリンクの収集ページ数の総数が設定された収集ページ数の上限を超えたかを判定する(ステップS22)。もし、収集ページ数の総数が設定された収集ページ数の上限を超えていないならば、収集制御モジュール111からリンク判定モジュール114に制御が渡されて、上記ステップS16の判定が行われる。
【0038】
このようにして、ステップS4で選択されたページから抽出された全てのリンク文字列について、重要語、不要語またはそれ以外が含まれているかのリンク判定処理と、その判定結果等に基づいてリンク先ページを収集する、または収集しない収集制御とが実行されると、収集ページ数の総数が設定された収集ページ数の上限を超えていない限り、収集制御モジュール111は再びステップS3の判定を行う。そして、未処理の収集済みページが残っている場合、そのページについて、上記ステップS4から始まる処理が行われる。即ち、収集ページ数の総数が収集ページ数の上限を超えるか(ステップS22)、収集されたページ上の全てのリンクについて処理し終えるまで(ステップS3)、ステップS4から始まる処理が繰り返される。
【0039】
このように本実施形態においては、ページ中のリンク文字列(リンクラベル)が不要語を含む場合(ステップS19)、リンク先のページはユーザにとって無用である可能性が高いことから、その時点における設定段数Zとリンク先までのリンクの段数とに拘わらずに(つまり、リンク先が設定段数Zの範囲内であったとしても)、リンク先のページの収集が抑止される(ステップS23)。
【0040】
また、リンク収集の現在の段数Zが初期段数nである状態で、対応するリンク列中のページ(つまりn段までのページ)に重要語を含むリンクが存在する場合(ステップS11,S12)、そのページにつながるリンク収集の段数ZがZ=nからZ=Z+m=n+mに増加される(ステップS13)。同様に、リンク収集の現在の段数Zが初期段数nを超えている状態で、対応するリンク列中のZ段目のページに重要語を含むリンクが存在する場合、つまりリンク先までの段数がZを超える場合(ステップS11,S12,S14)、そのZ段目のページにつながるリンク収集の段数Zが1だけ増加される(ステップS15)。これにより、ページ中のリンク文字列(リンクラベル)が不要語を含む場合(ステップS18)、リンク先のページはユーザにとって有用である可能性が高いことから、リンク先がリンク収集の初期段数nを超えていても、リンク先のページの収集が抑止される(ステップS21)。
【0041】
また、本実施形態においては、ページから抽出されたリンクラベルが重要語及び不要語のいずれのキーワードも含まない場合には(ステップS18,S19)、リンク先までのリンクの段数がその時点における対応するリンク収集の設定段数Z以内である場合に限り(ステップS20)、リンク先のページが収集される(ステップS21)。換言すれば、リンクラベルが重要語及び不要語のいずれも含まず(ステップS18,S19)、且つリンク先までのリンクの段数がその時点における対応するリンク収集の設定段数Z以内でない場合には(ステップS20)、リンク先のページは収集されない(ステップS23)。
【0042】
次に、上述のWeb情報収集処理の具体例について、図4のリンク判定/ページ収集の一例を示す図を参照して説明する。図4には、設定ファイル13に設定された起点URLで指定される起点ページPsが示されている。このページPsには、当該ページPsを起点とする1段目のページP11,P12,P13へのリンクが存在する。このページP11,P12,P13へのリンク(のラベル)は、それぞれ記号○、△、×で示される語句を含む。設定ファイル13には、記号○、×で示される語句が、それぞれ重要語、不要語として設定されている。以後の説明では、簡略化のために○、×をそれぞれ重要語、不要語であるとする。また、△を○、×どちらでもない語句であるとする。この場合、1段目のページP11,P12,P13のうち、×を含むリンクの先のページP13は、その時点におけるリンク収集の設定段数Z=2(n=2)の範囲内であるにも拘わらずに、収集の対象外となる。一方、△を含むリンクの先のページP12は、リンク収集の設定段数Z=2(n=2)の範囲内であることから、収集される。また、○を含むリンクの先のページP11は、リンク収集の設定段数Zに無関係に収集される。
【0043】
ページP11は、○、△に対応する2段目のページP210、P211にリンクしている。この場合、ページPsを起点とし、且つページP11を含むリンク列に関する、収集するリンクの段数Zが2(n)から2+2(n+m)に増やされる。これにより、2段目のページP210と、当該ページP210にリンクした3段目のページP310には、いずれも△を含むリンクしか存在しないにも拘わらず、そのリンクの先の3段目のページP310及び4段目のページP410は収集される。このページP410には、△を含むリンクしか存在しない。このリンクの先の5段目のページP510は、その時点における収集するリンクの段数Z=4を超える。このため、ページP510は収集の対象外となる。なお、本実施形態では、ページP11を含むリンク列に関する、収集するリンクの段数が増やされるのは1回だけである。
【0044】
一方、ページP211にリンクした3段目のページP311には、△を含むリンクと○を含むリンクとが存在し、そのリンクの先の4段目のページP411,P412は共に収集される。ページP411には、△を含むリンクしか存在しない。このリンクの先の5段目のページP511は、その時点における収集するリンクの段数Z=4を超えている。このため、ページP511は収集の対象外となる。
【0045】
これに対し、ページP412には△を含むリンクと○’を含むリンクとが存在する。○’は○の同義語である。つまり、ページP412には、重要語を含むリンクが存在する。ここで、ページP412は起点ページPsから4段目であり、ページP412のリンク先までの段数は収集するリンクの段数Z=4を超える。しかし、ページP412には重要語を含むリンクが存在するため、Zが1増やされてZ=5となり、ページP412にリンクしている5段目のページP513,P514が収集される。ページP513には、△を含むリンクしか存在しない。このリンクの先の6段目のページP613は、その時点における収集するリンクの段数Z=5を超える。このため、ページP613は収集の対象外となる。一方、ページP514には、○を含むリンクが存在する。そこで、このリンクの先の6段目のページP614は収集される。
【0046】
なお、上記実施形態では、起点ページからn(=2)段までのページに重要語を含むリンクが存在し、そのリンクを含むリンク列に関するリンク収集の設定段数Zがnを超えていない場合(Zが初期段数nの場合)、当該Zがm(=2)だけ増やされる。しかし、任意の段のページに重要語を含むリンクが存在し、そのリンクを含むリンク列に関するリンク収集の設定段数Zがn以上の場合に、当該Zが1だけ増やされる構成であっても構わない。
【0047】
次に、ログ統計生成モジュール124を中心とする知識検索システム12の動作について説明する。
知識検索システム12内の検索エンジン122は、ユーザ101の操作に従う検索要求をWebブラウザ16を介して受け取ると、その検索要求の示す検索式に合致する文書情報(ページ情報)を知識DB121から検索する。このとき検索エンジン122は、検索式を検索ログ123に保存する。
【0048】
検索エンジン122は、検索式に合致する文書情報を検索すると、その検索結果の一覧の画像情報を生成して、Webブラウザ16を介してユーザ101に提示する。この検索結果の一覧は、検索要求の示す検索式に合致する各文書情報の例えばID(情報ID)を含む。また、検索結果の一覧に、検索された各文書情報の要約を含めることも可能である。ユーザ101は、検索結果の一覧から、自身が参照したい文書情報の情報IDを選択する。検索エンジン122は、検索結果の一覧から情報IDが選択されたことを検出すると、選択されたIDにより示される文書情報を知識DB121から読み出し、その文書情報をWebブラウザ16を介してユーザ101に提示する。
【0049】
検索ログ123は、図5に示すデータ構造のログテーブル123aを含む。ログテーブル123aの各エントリは、知識DB121に格納されている文書情報(ページ情報)毎に、その文書情報のID(情報ID)と、その文書情報と組にして知識DB121に格納されているリンク元のラベル(リンク文字列)と、その文書情報がユーザにより参照された回数(参照回数)と、その文書情報に関するユーザの評価結果とがそれぞれ設定される項目を有する。評価結果の項目は、文書情報が重要(有用)であった場合に1加点される重要評価回数と、不要(無用)であった場合に1加点される不要評価回数の各項目からなる。
【0050】
本実施形態では、文書情報(ページ情報)が知識DB121に格納された際に、その文書情報のIDと、その文書情報(ページ情報)と組をなして当該知識DB121に格納されるリンク元のラベル(リンク文字列)とを含むエントリ情報が生成されて、ログテーブル123aに格納される。このとき、エントリ情報中の参照回数、重要評価回数及び不要評価回数は、いずれも0に初期化されている。
【0051】
ログテーブル123aのエントリ情報中の参照回数は、検索結果の一覧から、ユーザ101によって対応する文書情報のIDが選択され、その選択されたIDの示す文書情報がユーザ101によって参照された場合に、検索エンジン122によって1だけインクリメントされる。また、文書情報が参照された場合、検索エンジン122はユーザ101に対して、その文書情報が重要(有用)であったか、或は不要(無用)であったかの評価結果の入力を要求する。もし、評価結果として「重要」が入力(選択)された場合、ログテーブル123aの対応するエントリ情報中の重要評価回数が1だけインクリメントされる。これに対し、評価結果として「不要」が入力(選択)された場合、ログテーブル123aの対応するエントリ情報中の不要評価回数が1だけインクリメントされる。
【0052】
検索ログ123はまた、図6に示すデータ構造のログ統計テーブル123bを含む。ログ統計テーブル123bの各エントリは、検索ログ123に保存されている、文書情報の検索に用いられた検索式に出現する単語(語句)毎に、検索式出現回数と、重要評価割合と、不要評価割合と、出現回数順位と、重要評価順位と、不要評価順位と、重要度と、判定結果との各項目からなる。検索式出現回数は、対応する単語が検索式に出現する回数を示す。重要評価割合及び不要評価割合は、それぞれ対応する単語の参照回数に対する重要評価回数及び不要評価回数の割合を示す。出現回数順位は、検索式出現回数の順位を示す。重要評価順位及び不要評価順位は、それぞれ「重要」評価割合及び「不要」評価割合の順位を示す。重要度は、対応する単語の重要度を示す。判定結果は、対応する単語の重要度から判定される、当該単語が「重要語」であるか、或は「不要語」であるか、或はそのいずれでもないかを示す。
【0053】
本実施形態では、ログ統計テーブル123bが、ログ統計生成モジュール124によって定期的に生成される。以下、ログ統計生成モジュール124によるログ統計テーブル生成処理について、図7及び図8のフローチャートを参照して説明する。
【0054】
まずログ統計生成モジュール124は、検索ログ123に保存されている検索式の中から未処理の検索式を1つ取り出す(ステップS31)。次にログ統計生成モジュール124は、取り出された検索式から、その検索式に出現する未処理の単語(語句)を抽出する(ステップS32)。もし、ログ統計テーブル123bに格納されていない単語が抽出された場合(ステップS33)、ログ統計生成モジュール124は、その単語を含むログ統計テーブル123bのエントリ情報を生成する(ステップS34)。このとき、エントリ情報中の検索式出現回数は1に初期化され、それ以外の項目は空欄となっている。また、検索式から抽出された単語を含むエントリ情報が既にログ統計テーブル123bに格納されている場合(ステップS33)、ログ統計生成モジュール124は、当該エントリ情報中の検索式出現回数を1インクリメントする(ステップS35)。このログ統計テーブル123bの各エントリ情報の検索式出現回数は、検索に用いられた検索式に出現する単語を分析して得られる頻度情報(統計情報)である。
【0055】
次にログ統計生成モジュール124は、ステップS31で取り出された検索式に未処理の単語が存在するかを判定する(ステップS36)。もし、未処理の単語が存在するならば、ログ統計生成モジュール124は上記ステップS32の処理に戻る。これに対し、未処理の単語が存在しないならば、ログ統計生成モジュール124は検索ログ123内に未処理の検索式が存在するかを判定する(ステップS37)。もし、未処理の検索式が存在するならば、ログ統計生成モジュール124は上記ステップS31の処理に戻る。
【0056】
ログ統計生成モジュール124は、検索ログ123に保存されている全ての検索式について処理し終えると(ステップS37)、ログ統計テーブル123b内の各エントリ情報中の、重要評価割合と、不要評価割合と、出現回数順位と、重要評価順位と、不要評価順位と、重要度と、判定結果とを、次のように決定する。
【0057】
まずログ統計生成モジュール124は、ログ統計テーブル123bから未処理のエントリ情報を1つ選択する(ステップS38)。次にログ統計生成モジュール124は、選択されたエントリ情報中の単語を読み出す(ステップS39)。次にログ統計生成モジュール124は、ログテーブル123aから、ステップS39で読み出された単語を含むリンク文字列が設定されているエントリ情報を検索して、参照回数、重要評価回数及び不要評価回数を参照する(ステップS40,S41)。そしてログ統計生成モジュール124は、参照回数に対する重要評価回数及び不要評価回数各々の割合(%)を算出し、ログ統計テーブル123b内の対応するエントリ情報に設定する(ステップS42)。ここで、異なるリンク文字列に共通に含まれる単語(図4の例では「価格」)については、全ての参照回数と評価回数(重要評価回数及び不要評価回数)を、それぞれ合計して、参照回数に対する重要評価回数及び不要評価回数各々の割合(%)を算出する。ログ統計生成モジュール124は、上述したステップS38乃至S43の処理を、ログ統計テーブル123b内の全てのエントリ情報について繰り返す(ステップS44)。
【0058】
次に、ログ統計生成モジュール124は、ログ統計テーブル123b内の全てのエントリ情報について、検索式出現回数の降順となるように検索式出現回数の順位付けを行い、当該全てのエントリ情報中の出現回数順位を設定する(ステップS45)。同様に、ログ統計生成モジュール124は、ログ統計テーブル123b内の全てのエントリ情報の重要評価割合の降順となるように重要評価割合の順位付けを行い、当該全てのエントリ情報中の重要評価順位を設定する(ステップS46)。この場合、順位が高いほど、重要評価割合が高いことを示す。同様に、ログ統計生成モジュール124は、ログ統計テーブル123b内の全てのエントリ情報の不要評価割合の昇順となるように不要評価割合の順位付けを行い、当該全てのエントリ情報中の不要評価順位を設定する(ステップS47)。この場合、順位が低いほど、不要評価割合が高いことを示す。
【0059】
ログ統計生成モジュール124は、上記ステップS45乃至S46を実行すると、ログ統計テーブル123b内の各エントリ情報毎に、出現回数順位と重要評価順位と不要評価順位との合計を算出し、その合計値を当該エントリ情報中の「重要度」として設定する(ステップS48)。つまりログ統計生成モジュール124は、出現回数順位と重要評価順位と不要評価順位とを総合的に評価して、対応する単語の「重要度」を決定する。ここでは、対応する単語が検索式に出現する回数が多いほど、また重要評価順位が高いほど、そして不要評価順位が低いほど、「重要度」は高くなる(つまり「不要度」は低くなる)。同様に、対応する単語が検索式に出現する回数が少ないほど、また重要評価順位が低いほど、そして不要評価順位が高いほど、「重要度」は低くなる(つまり「不要度」は高くなる)。このように、「重要度」は、見方を変えれば、「不要度」を表すことと等価である。
【0060】
次にログ統計生成モジュール124は、ログ統計テーブル123b内の各単語毎のエントリ情報中の「重要度」を判定し、上位X%(例えば20%)に属する単語を「重要語」の候補とし、下位Y%(例えば20%)に属する単語を「不要語」の候補とする(ステップS49)。なお、この「重要語」及び「不要語」の候補を決定する処理(ステップS49)、更には単語毎の「重要度」を算出する処理(ステップS48)が、キーワード生成モジュール14によって実行される構成であっても構わない。
【0061】
このように本実施形態においては、(1)検索式に出現する語句、(2)検索結果の参照回数、(3)参照された各情報に対するユーザの評価を統計的に分析し処理することにより、「重要語」の候補及び「不要語」の候補が自動的に決定される。ここでは、検索式に出現する頻度が高く、参照回数の多い、または評価の高い情報に含まれる語句が、ユーザが必要とする情報を収集するためのキーワードとしての「重要語」の候補とされる。また、検索式に出現する頻度が低く、参照回数の少ない、または評価の低い情報に含まれる語句が、ユーザが必要としない情報が収集されるのを抑止するためのキーワードとしての「不要語」の候補とされる。なお、ログ統計テーブル123bを生成する際に、同義語辞書15を利用することで同義語を例えば代表語に置き換えて、1つのエントリ情報にマージすると良い。
【0062】
キーワード生成モジュール14は、ログ統計生成モジュール124によって決定された、「重要度」の候補の一覧及び「不要語」の候補の一覧を、定期的に、或は管理ユーザ102から設定ファイル13の生成が要求された場合に、当該管理ユーザ102にWebブラウザ17を介して提示して、その一覧から、それぞれ「重要度」及び「不要語」を管理ユーザ102に選択させることで、「重要度」及び「不要語」を決定する。キーワード生成モジュール14は、選択された「重要度」及び「不要語」が設定された設定ファイル13を生成する。勿論、「重要度」の候補及び「不要語」の候補を、それぞれ「重要度」及び「不要語」として自動的に決定する構成であっても構わない。
【0063】
図1には、知識DB121が1つだけ示されている。しかし、知識検索システム12が有する知識DB121は複数であることが多い。この場合、設定ファイル13に、情報収集先の知識DB121を指定する情報を含めると良い。また設定ファイル13に、上記特許文献1に記載されている「収集するURLの文字列パターン」と「収集しないURLの文字列パターン」とを設定し、URL単位で収集するページと収集しないページとを指定するようにしても構わない。
【0064】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
【図面の簡単な説明】
【0065】
【図1】本発明の一実施形態に係る知識情報収集システムを実現するナレッジマネジメントシステムの構成を示すブロック図。
【図2】同実施形態におけるWeb情報収集処理を説明するためのフローチャートの一部を示す図。
【図3】同実施形態におけるWeb情報収集処理を説明するためのフローチャートの残りを示す図。
【図4】Web情報収集処理におけるリンク判定/ページ収集の一例を示す図。
【図5】ログテーブル123aのデータ構造例を示す図。
【図6】ログ統計テーブル123bのデータ構造例を示す図。
【図7】同実施形態におけるログ統計テーブル生成処理を説明するためのフローチャートの一部を示す図。
【図8】同実施形態におけるログ統計テーブル生成処理を説明するためのフローチャートの残りを示す図。
【符号の説明】
【0066】
11…Web情報収集システム、12…知識検索システム、13…設定ファイル(設定手段)、14…キーワード生成モジュール、15…同義語辞書、20…インターネット/イントラネット(ネットワーク)、111…収集制御モジュール(情報収集制御手段)、112…テキスト抽出モジュール、113…リンクラベル抽出モジュール(リンク文字列抽出手段)、114…リンク判定モジュール、122…検索エンジン(検索手段、評価させる手段)、123…検索ログ(検索ログ蓄積手段)、123a…ログテーブル、123b…ログ統計テーブル、124…ログ統計生成モジュール。

【特許請求の範囲】
【請求項1】
知識データベースに登録すべき情報をネットワーク上から収集する知識情報収集システムにおいて、
前記ネットワーク上からの情報収集の起点となるページ情報の所在を示す起点ロケーション情報及び前記ネットワーク上からの情報収集の対象となるリンクの段数を設定すると共に、前記ネットワーク上からの情報収集の対象外とすべきリンクに関係する語句を、不要語を表すキーワードとして設定する設定手段と、
前記ネットワーク上から収集されたページ情報からリンク文字列を抽出するリンク文字列抽出手段と、
前記抽出されたリンク文字列と前記設定された不要語を表すキーワードとから、リンク先のページ情報が無用であるかを判定するリンク判定手段と、
前記設定された起点ロケーション情報からリンクを辿ることにより前記ネットワーク上からの情報収集を制御する情報収集制御手段であって、前記リンク判定手段によって無用であると判定されたリンク先のページ情報は、前記設定されたリンクの段数の範囲内であっても収集の対象外とする情報収集制御手段と
を具備することを特徴とする知識情報収集システム。
【請求項2】
知識データベースに登録すべき情報をネットワーク上から収集する知識情報収集システムにおいて、
前記ネットワーク上からの情報収集の起点となるページ情報の所在を示す起点ロケーション情報及び前記ネットワーク上からの情報収集の対象となるリンクの段数を設定すると共に、前記ネットワーク上からの情報収集の対象とすべきリンクに関係する語句を、重要語を表すキーワードとして設定する設定手段と、
前記ネットワーク上から収集されたページ情報からリンク文字列を抽出するリンク文字列抽出手段と、
前記抽出されたリンク文字列と前記設定された重要語を表すキーワードとから、リンク先のページ情報が有用であるかを判定するリンク判定手段と、
前記設定された起点ロケーション情報からリンクを辿ることにより前記ネットワーク上からの情報収集を制御する情報収集制御手段であって、前記リンク判定手段によって有用であると判定されたリンク先のページ情報は、前記設定された段数の範囲を超えていても収集の対象とする情報収集制御手段と
を具備することを特徴とする知識情報収集システム。
【請求項3】
知識データベースに登録すべき情報をネットワーク上から収集する知識情報収集システムにおいて、
前記ネットワーク上からの情報収集の起点となるページ情報の所在を示す起点ロケーション情報及び前記ネットワーク上からの情報収集の対象となるリンクの段数を設定すると共に、前記ネットワーク上からの情報収集の対象とすべきリンクに関係する語句を、重要語を表すキーワードとして、前記ネットワーク上からの情報収集の対象外とすべきリンクに関係する語句を、不要語を表すキーワードとして、それぞれ設定する設定手段と、
前記ネットワーク上から収集されたページ情報からリンク文字列を抽出するリンク文字列抽出手段と、
前記抽出されたリンク文字列と前記設定された重要語を表すキーワードとから、リンク先のページ情報が有用であるかを判定すると共に、前記抽出されたリンク文字列と前記設定された不要語を表すキーワードとから、リンク先のページ情報が無用であるかを判定するリンク判定手段と、
前記設定された起点ロケーション情報からリンクを辿ることにより前記ネットワーク上からの情報収集を制御する情報収集制御手段であって、前記リンク判定手段によって有用であると判定されたリンク先のページ情報は、前記設定された段数の範囲を超えていても収集の対象とし、前記リンク判定手段によって無用であると判定されたリンク先のページ情報は、前記設定された段数の範囲内であっても収集の対象外とする情報収集制御手段と
を具備することを特徴とする知識情報収集システム。
【請求項4】
前記知識データベースに収集された情報を与えられた検索式に従って検索し、その検索結果をユーザに提示する検索手段と、
前記検索手段による検索結果に応じて参照された前記知識データベースに収集された情報の有用性または無用性をユーザにより評価させる手段と、
前記検索手段による検索に用いられた検索式と、前記知識データベースに収集された情報毎の当該情報が参照される参照回数と、前記知識データベースに収集された情報毎の当該情報に対するユーザの評価結果とを、検索ログとして蓄積する検索ログ蓄積手段と、
前記検索ログ蓄積手段に蓄積された検索式に出現する語句と、前記検索ログ蓄積手段に蓄積された情報毎の参照回数と、前記検索ログ蓄積手段に蓄積された情報毎の評価結果とを分析して、前記検索式に出現する語句毎に、当該語句がユーザにとって重要または不要である程度を表す評価値を生成するログ統計生成手段と、
前記ログ統計生成手段によって生成された前記語句毎の評価値をもとに、前記設定手段によって設定可能な不要語を表すキーワードを生成するキーワード生成手段と
を更に具備することを特徴とする請求項1または3に記載の知識情報収集システム。
【請求項5】
前記キーワード生成手段によって生成された不要語を表すキーワードの一覧をユーザに提示することにより、当該一覧から、前記設定手段によって設定される不要語を表すキーワードをユーザに選択させる手段を更に具備することを特徴とする請求項4記載の知識情報収集システム。
【請求項6】
前記知識データベースに収集された情報を与えられた検索式に従って検索し、その検索結果をユーザに提示する検索手段と、
前記検索手段による検索結果に応じて参照された前記知識データベースに収集された情報の有用性または無用性をユーザにより評価させる手段と、
前記検索手段による検索に用いられた検索式と、前記知識データベースに収集された情報毎の当該情報が参照される参照回数と、前記知識データベースに収集された情報毎の当該情報に対するユーザの評価結果とを、検索ログとして蓄積する検索ログ蓄積手段と、
前記検索ログ蓄積手段に蓄積された検索式に出現する語句と、前記検索ログ蓄積手段に蓄積された情報毎の参照回数と、前記検索ログ蓄積手段に蓄積された情報毎の評価結果とを分析して、前記検索式に出現する語句毎に、当該語句がユーザにとって重要または不要である程度を表す評価値を生成するログ統計生成手段と、
前記ログ統計生成手段によって生成された前記語句毎の評価値をもとに、前記設定手段によって設定可能な重要語を表すキーワードを生成するキーワード生成手段と
を更に具備することを特徴とする請求項2または3に記載の知識情報収集システム。
【請求項7】
前記キーワード生成手段によって生成された重要語を表すキーワードの一覧をユーザに提示することにより、当該一覧から、前記設定手段によって設定される重要語を表すキーワードをユーザに選択させる手段を更に具備することを特徴とする請求項6記載の知識情報収集システム。
【請求項8】
知識データベースに登録すべき情報をネットワーク上から収集する知識情報収集システムに適用される知識情報収集方法であって、
前記ネットワーク上からの情報収集の起点となるページ情報の所在を示す起点ロケーション情報と、前記ネットワーク上からの情報収集の対象となるリンクの段数と、前記ネットワーク上からの情報収集の対象外とすべきリンクに関係する不要語を表すキーワードとが設定された設定ファイルを生成するステップと、
前記設定された起点ロケーション情報からリンクを辿ることにより前記ネットワーク上から情報を収集するステップと、
前記ネットワーク上から収集されたページ情報からリンク文字列を抽出するステップと、
前記抽出されたリンク文字列と前記設定ファイルに設定された不要語を表すキーワードとから、リンク先のページ情報が無用であるかを判定するステップとを具備し、
前記情報を収集するステップは、リンク先のページ情報が無用であると判定されたリンク先のページ情報は、前記設定された段数の範囲内であっても収集の対象外とするステップを含むことを特徴とする知識情報収集方法。
【請求項9】
知識データベースに登録すべき情報をネットワーク上から収集する知識情報収集システムに適用される知識情報収集方法であって、
前記ネットワーク上からの情報収集の起点となるページ情報の所在を示す起点ロケーション情報と、前記ネットワーク上からの情報収集の対象となるリンクの段数と、前記ネットワーク上からの情報収集の対象とすべきリンクに関係する重要語を表すキーワードとが設定された設定ファイルを生成するステップと、
前記設定された起点ロケーション情報からリンクを辿ることにより前記ネットワーク上から情報を収集するステップと、
前記ネットワーク上から収集されたページ情報からリンク文字列を抽出するステップと、
前記抽出されたリンク文字列と前記設定ファイルに設定された重要語を表すキーワードとから、リンク先のページ情報が有用であるかを判定するステップとを具備し、
前記情報を収集するステップは、リンク先のページ情報が有用であると判定されたリンク先のページ情報は、前記設定された段数の範囲を超えていても収集の対象とするステップを含むことを特徴とする知識情報収集方法。
【請求項10】
知識データベースに登録すべき情報をネットワーク上から収集する知識情報収集システムで実行されるプログラムであって、
コンピュータに、
前記ネットワーク上からの情報収集の起点となるページ情報の所在を示す起点ロケーション情報と、前記ネットワーク上からの情報収集の対象となるリンクの段数と、前記ネットワーク上からの情報収集の対象外とすべきリンクに関係する不要語を表すキーワードとが設定された設定ファイルを生成するステップと、
前記設定された起点ロケーション情報からリンクを辿ることにより前記ネットワーク上から収集されたページ情報からリンク文字列を抽出するステップと、
前記抽出されたリンク文字列と前記設定ファイルに設定された不要語を表すキーワードとから、リンク先のページ情報が無用であるかを判定するステップと、
前記設定された起点ロケーション情報からリンクを辿ることにより前記ネットワーク上から情報を収集するステップであって、リンク先のページ情報が無用であると判定されたリンク先のページ情報は、前記設定された段数の範囲内であっても収集の対象外とするステップと
を実行させるためのプログラム。
【請求項11】
知識データベースに登録すべき情報をネットワーク上から収集する知識情報収集システムで実行されるプログラムであって、
コンピュータに、
前記ネットワーク上からの情報収集の起点となるページ情報の所在を示す起点ロケーション情報と、前記ネットワーク上からの情報収集の対象となるリンクの段数と、前記ネットワーク上からの情報収集の対象とすべきリンクに関係する重要語を表すキーワードとが設定された設定ファイルを生成するステップと、
前記設定された起点ロケーション情報からリンクを辿ることにより前記ネットワーク上から収集されたページ情報からリンク文字列を抽出するステップと、
前記抽出されたリンク文字列と前記設定ファイルに設定された重要語を表すキーワードとから、リンク先のページ情報が有用であるかを判定するステップと、
前記設定された起点ロケーション情報からリンクを辿ることにより前記ネットワーク上から情報を収集するステップであって、リンク先のページ情報が有用であると判定されたリンク先のページ情報は、前記設定された段数の範囲を超えていても収集の対象とするステップと
を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−106911(P2006−106911A)
【公開日】平成18年4月20日(2006.4.20)
【国際特許分類】
【出願番号】特願2004−289447(P2004−289447)
【出願日】平成16年9月30日(2004.9.30)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】