インデックス更新装置及びその方法
【課題】リンク先のWebページ及びリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することができるインデックス更新装置及びその方法を提供すること。
【解決手段】インデックス更新装置1は、リンクDB21に基づいて、インデックスの更新の対象となる更新対象Webページのリンク先URL又は更新対象Webページのリンク元URLを抽出するURL抽出部11と、抽出したリンク先又はリンク元のURLに基づいて、インデックスDB22を参照し、リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出部12と、抽出された補充用テキスト情報に基づいて、更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充してインデックスDB22を更新する第2インデックス更新部14と、を備える。
【解決手段】インデックス更新装置1は、リンクDB21に基づいて、インデックスの更新の対象となる更新対象Webページのリンク先URL又は更新対象Webページのリンク元URLを抽出するURL抽出部11と、抽出したリンク先又はリンク元のURLに基づいて、インデックスDB22を参照し、リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出部12と、抽出された補充用テキスト情報に基づいて、更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充してインデックスDB22を更新する第2インデックス更新部14と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インデックス更新装置及びその方法に関する。より詳細には、検索エンジンのインデックスを更新するインデックス更新装置及びその方法に関する。
【背景技術】
【0002】
従来、検索エンジンでは、ユーザからの検索キーワードの入力に応じて、適切な検索結果を出力するために、検索対象のWebページから、適切な特徴語等をキーワードとして抽出して、インデックスを生成している。
【0003】
例えば、特許文献1には、Webページに含まれる個別の単語及び単語数が多いフレーズを自動的にインデックス化する方法が示されている。また、特許文献2には、Webページのリンク先を示すURL(Uniform Resource Locator)と、このURLに対応したアンカーテキストに基づいてインデックスを生成する方法が示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−048684号公報
【特許文献2】特開2003−067419号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、Webページの中には、例えば、リンク集のWebページのように、リンク先のWebページの内容を適切に紹介することを目的として作成されたものもある。一方で、そのリンク先のWebページが動画ページの場合等において、当該Webページ自体にはインデックス作成の参考となるテキスト情報が極端に少ないこともある。また、ニュース記事の拡大写真のWebページにおいて、当該Webページ自体にはインデックス作成の参考となるテキスト情報がほとんど含まれず、「この写真の記事へ」というアンカーフレーズで誘導するリンク先の記事本文のWebページに、当該拡大写真のWebページのインデックス作成の参考となるテキスト情報が豊富に含まれていることもある。このような場合、特許文献1及び特許文献2に示される方法では、リンク先のWebページ及びリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することはできない。
【0006】
そこで本発明は、リンク先のWebページ及びリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することができるインデックス更新装置及びその方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
(1)検索エンジンのインデックスを更新するインデックス更新装置であって、WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出手段と、当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出手段と、前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新手段と、前記補充用テキスト情報抽出手段により抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新手段と、を備えるインデックス更新装置。
【0008】
(1)のインデックス更新装置は、補充用テキスト情報抽出手段により、URL抽出手段が抽出したリンク先又はリンク元のURLに基づいて、インデックス情報記憶手段を参照し、既にインデックスとして記憶している当該リンク先又はリンク元のテキスト情報を補充用テキスト情報として抽出し、第2インデックス更新手段により、リンク先URLに対応するインデックスとしてのテキスト情報又はリンク元URLに対応するインデックスとしてのテキスト情報に基づいて、更新対象WebページのURLに関連付けられているインデックスを生成し、当該生成したインデックスを補充してインデックス情報記憶手段を更新する。
【0009】
このようにすることで、(1)のインデックス更新装置は、リンク元URLに対応するインデックスとしてのテキスト情報又はリンク先URLに対応するインデックスとしてのテキスト情報に基づいて、対象Webページのインデックスを生成して、当該生成したインデックスを補充することができる。よって、(1)のインデックス更新装置は、更新対象Webページ自身に含まれるテキスト情報に限らずにインデックスを生成するので、更新対象Webページに含まれるテキスト情報が少ない場合であっても、そのリンク先のWebページ又はリンク元のWebページのインデックスを補充してインデックスを更新することができる。その結果、(1)のインデックス更新装置は、リンク先のWebページ又はリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することができる。
【0010】
(2)前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段の順に前記補充するインデックスがなくなるまで繰り返し実行させる実行制御手段を更に備える(1)に記載のインデックス更新装置。
【0011】
(2)のインデックス更新装置は、実行制御手段により、一連の処理、すなわち、URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段の順に補充するインデックスがなくなるまで繰り返し実行させるので以下の効果が期待できる。
【0012】
すなわち、一連の処理をインデックスの更新の対象とする複数のWebページについて1回実行しただけでは、インデックスの更新の対象とするWebページの順序によってはリンク先及びリンク元のインデックスとしてのテキスト情報の全てが補充しきれない場合も想定されるのに対し、(2)のインデックス更新装置は、上述の一連の処理を補充するインデックスがなくなるまで繰り返し実行するので、その時点で補充可能なテキスト情報の全てを補充することができる。
【0013】
(3)前記Webページの前記コンテンツ情報を受け付け、当該コンテンツ情報をコンテンツ情報記憶手段に記憶させる受付手段と、前記コンテンツ情報記憶手段に前記コンテンツ情報が記憶されたことに応じて、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる実行制御手段を更に備える(1)に記載のインデックス更新装置。
【0014】
(3)のインデックス更新装置は、実行制御手段により、コンテンツ情報記憶手段にコンテンツ情報が記憶されたことに応じて、URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる。よって、(3)のインデックス更新装置は、コンテンツ情報記憶手段に、インデックスを生成する元となるコンテンツ情報が記憶される毎にインデックスを更新するので、迅速にインデックスの更新を行うことができる。
【0015】
(4)前記補充用テキスト情報抽出手段は、前記インデックス情報記憶手段及び前記コンテンツ情報記憶手段に基づいて、前記リンク元URLに対応するテキスト情報のうち、前記更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出する(1)から(3)のいずれかに記載のインデックス更新装置。
【0016】
(4)のインデックス更新装置は、補充用テキスト情報抽出手段により、リンク元URLに対応するテキスト情報のうち、更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出する。
一般的に、リンク先ページの説明は、リンク先へのアンカーテキストとして付されることにより行われるか、リンク先へのアンカータグから所定の範囲内に配置されることが多い。よって、(4)のインデックス更新装置は、リンク元ページにおいて更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報を抽出するので、適切に補充用テキスト情報を抽出することができる。
【0017】
(5)検索エンジンのインデックスを更新するインデックス更新装置が実行する方法であって、前記インデックス更新装置は、WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、を備え、前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出ステップと、当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出ステップと、前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新ステップと、前記補充用テキスト情報抽出ステップにおいて抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新ステップと、を備える方法。
【0018】
(5)に記載の方法によれば、(1)の装置と同様の効果を奏する。
【発明の効果】
【0019】
本発明によれば、リンク先のWebページ及びリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することができるインデックス更新装置及びその方法を提供することができる。
【図面の簡単な説明】
【0020】
【図1】本実施形態に係るインデックス更新装置の機能概要を示す図である。
【図2】本実施形態に係るリンクDBを示す図である。
【図3】本実施形態に係るインデックスDBを示す図である。
【図4】本実施形態に係るコンテンツDBを示す図である。
【図5】本実施形態に係るインデックス更新装置の制御部における処理を示すフローチャートである。
【図6】本実施形態に係るインデックス更新装置の制御部におけるインデックス更新処理を示すフローチャートである。
【図7】図6に続くフローチャートである。
【図8】本実施形態に係るインデックス更新装置の制御部における処理の変形例を示すフローチャートである。
【図9】図8に続くフローチャートである。
【図10】本実施形態に係る更新対象Webページとリンク先URLに対応するWebページを示す図である。
【図11】本実施形態に係る更新対象Webページとリンク元URLに対応するWebページを示す図である。
【図12】本実施形態に係るリンクDBの別の一例を示す図である。
【図13】本実施形態に係るインデックスDBが更新される状況を示す図(その1)である。
【図14】本実施形態に係るインデックスDBが更新される状況を示す図(その2)である。
【図15】本実施形態に係るインデックスDBが更新される状況を示す図(その3)である。
【図16】本実施形態に係るインデックスDBが更新される状況を示す図(その4)である。
【図17】本実施形態に係るインデックス更新装置の機能概要の別の例(その1)を示す図である。
【図18】本実施形態に係るインデックス更新装置の機能概要の別の例(その2)を示す図である。
【発明を実施するための形態】
【0021】
以下、本実施形態について図を参照しながら説明する。
【0022】
[機能構成]
図1は、本実施形態に係るインデックス更新装置1の機能概要を示す図である。インデックス更新装置1は、検索エンジンのインデックスを更新するサーバである。
【0023】
本実施形態は、コンピュータ(インデックス更新装置1)及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備えるハードウェア並びにこのハードウェアを制御するソフトウェアによって構成される。
【0024】
上記ハードウェアには、制御部10としてのCPUの他、記憶部20、通信部、表示部及び入力部が含まれる。記憶部20としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)及び光ディスク(CD、DVD等)ドライブが挙げられる。通信部としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示部としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力部としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。
【0025】
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部20により記憶され、制御部10により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信ネットワークを介して配布することも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布することも可能である。
【0026】
インデックス更新装置1の制御部10は、URL抽出部11(URL抽出手段)と、補充用テキスト情報抽出部12(補充用テキスト情報抽出手段)と、第1インデックス更新部13(第1インデックス更新手段)と、第2インデックス更新部14(第2インデックス更新手段)と、実行制御部15(実行制御手段)と、を備える。また、インデックス更新装置1の記憶部20は、リンクDB(データベース)21(リンク情報記憶手段)と、インデックスDB22(インデックス情報記憶手段)と、コンテンツDB23(コンテンツ情報記憶手段)とを備える。
【0027】
本実施形態では、インデックス更新装置1によるインデックスDB22の更新は、例えば、インデックス更新装置1のユーザが、入力部により所定の操作を行ったことにより、URL抽出部11により開始される。そして、実行制御部15により、インデックスDB22にインデックスの更新(補充処理)が繰り返し実行され、インデックスDB22のインデックスの補充が行われなくなった場合に、インデックスDB22の更新を終了する。詳細については、後述で説明する。
【0028】
URL抽出部11は、リンクDB21(後述の図2参照)に基づいて、インデックスの更新対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出する。
【0029】
具体的には、URL抽出部11は、リンクDB21を参照して、更新対象WebページのURLに関連付けられているリンク先URLを抽出する。また、URL抽出部11は、リンクDB21を参照して、更新対象WebページのURLと一致するリンク先URLに関連付けられているURLをリンク元URLとして抽出する。
【0030】
ここで、更新対象Webページは、インデックスDB22に記憶されているインデックスに対応するWebページである。また、更新対象Webページは、インデックスDB22に記憶されているインデックスの情報量が所定値よりも少ないWebページ(例えば、後述の図10(1)に示される記事へのリンクを有する拡大写真ページや、図11(1)に示される動画まとめページにリンクされている動画ページ)であってもよいし、インデックス更新装置1のユーザから入力部により指定されたものであってもよい。
【0031】
補充用テキスト情報抽出部12は、抽出したリンク先又はリンク元のURLに基づいて、インデックスDB22(後述の図3参照)を参照し、既にインデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する。
【0032】
具体的には、補充用テキスト情報抽出部12は、インデックスDB22を参照して、URL抽出部11により抽出されたリンク先URLに対応するインデックスとしてのテキスト情報を補充用テキスト情報として抽出する。ここで、補充用テキスト情報抽出部12は、リンク先URLに対応するテキスト情報が、更新対象WebページのインデックスとしてインデックスDB22に既に記憶されている場合、当該テキスト情報の抽出を行わない。
【0033】
また、補充用テキスト情報抽出部12は、インデックスDB22を参照して、URL抽出部11により抽出されたリンク元URLに対応するインデックスとしてのテキスト情報を補充用テキスト情報として抽出する。ここで、補充用テキスト情報抽出部12は、リンク元URLに対応するテキスト情報が、更新対象WebページのインデックスとしてインデックスDB22に既に記憶されている場合、当該テキスト情報の抽出を行わない。
【0034】
補充用テキスト情報抽出部12の処理について、図10、図11を用いて説明を行う。
図10は、更新対象Webページとリンク先URLに対応するWebページとを示す図である。図10(1)は、端末でニュースページを閲覧した場合に、端末のブラウザ50に対して、更新対象Webページとしてのニュースページに、拡大写真50Aが表示されている例を示す図である。図10(2)は、ブラウザ50に対して、更新対象Webページのリンク先URLに対応するWebページとして、拡大写真50Aに対応するニュース記事が表示されている例を示す図である。
【0035】
図10(1)では、拡大写真50Aや、「この写真の記事へ」と表示されているリンク50Bが表示されている他に、テキスト情報がほとんど表示されていないことが確認できる。一方、図10(2)では、拡大写真50Aの縮小写真50Cの他に、記事50Dが表示されていることが確認できる。すなわち、リンク先URLに対応するWebページには、更新対象Webページのインデックスに適したテキスト情報が含まれていることが確認できる。このため、インデックスDB22に、リンク先URLに対応するWebページのインデックスが記憶されている場合、このインデックス(テキスト情報)は、更新対象Webページに対応するインデックス(テキスト情報)となり得る。
【0036】
そして、補充用テキスト情報抽出部12は、インデックスDB22を参照して、URL抽出部11により抽出されたリンク先URLに対応するインデックスとしてのテキスト情報を補充用テキスト情報として抽出する。よって、図10に示すように、インデックス更新装置1は、更新対象Webページにインデックスに適したテキスト情報が含まれていなくても、有用なテキスト情報を補充用テキスト情報として抽出することができる。
【0037】
図11は、更新対象Webページとリンク元URLに対応するWebページとを示す図である。図11(1)は、端末のブラウザ50に対して、更新対象Webページとしての動画ページに動画50Eが表示されている例を示す図である。図11(2)は、ブラウザ50に対して、更新対象Webページのリンク元URLに対応するWebページとして、動画ページ50Eのリンク50Fに含む動画まとめページが表示されている例を示す図である。
【0038】
図11(1)では、テキスト情報がほとんど表示されていないことが確認できる。一方、図11(2)では、リンク50Fの他に、要約50Gや、各動画に対応する説明文50H、50I、50Jが表示されていることが確認できる。すなわち、リンク元URLに対応するWebページには、更新対象Webページのインデックスに適したテキスト情報が含まれていることが確認できる。このため、インデックスDB22に、リンク元URLに対応するWebページのインデックスが記憶されている場合、このインデックス(テキスト情報)は、更新対象Webページに対応するインデックス(テキスト情報)となり得る。
【0039】
そして、補充用テキスト情報抽出部12は、インデックスDB22を参照して、URL抽出部11により抽出されたリンク元URLに対応するインデックスとしてのテキスト情報を補充用テキスト情報として抽出する。よって、図11に示すように、インデックス更新装置1は、更新対象Webページにインデックスに適したテキスト情報が含まれていなくても、有用なテキスト情報を補充用テキスト情報として抽出することができる。
【0040】
なお、補充用テキスト情報抽出部12は、抽出したリンク先又はリンク元のURLに基づいて、インデックスDB22を参照し、既にインデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出することとしたが、これに限らない。例えば、補充用テキスト情報抽出部12は、抽出したリンク先のURLと、リンク元のURLとの少なくともいずれかに基づいて、インデックスDB22を参照し、既にインデックスとして記憶している当該リンク先URLと当該リンク元URLとの少なくともいずれかのテキスト情報を補充用テキスト情報として抽出することとしてもよい。
【0041】
また、本実施形態において補充用テキスト情報抽出部12は、図17に示すように、インデックスDB22及びコンテンツDB23に基づいて、リンク元URLに対応するテキスト情報のうち、リンク元ページにおいて更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出するようにしてもよい。
【0042】
すなわち、補充用テキスト情報抽出部12は、コンテンツDB23を参照して、更新対象Webページに対応するリンク元URLのテキスト情報を抽出し、このリンク元URLに対応するWebページのタグの解析を行い、更新対象Webページへのアンカータグから所定の範囲内に位置するコンテンツ内容に対応するテキスト情報を抽出する。続いて、補充用テキスト情報抽出部12は、抽出したテキスト情報のうち、インデックスDB22のリンク元URLに対応するインデックスとして記憶されているものを補充用テキスト情報として抽出する。
【0043】
この場合の補充用テキスト情報抽出部12の処理について、図11を用いて説明を行う。上述で説明するように、図11(1)は、端末のブラウザ50に対して、更新対象Webページとしての動画ページに、動画50Eが表示されている例を示す図である。図11(2)は、ブラウザ50に対して、更新対象Webページのリンク元URLに対応するページとして、動画ページ50Eのリンク50Fに含む動画まとめページが表示されている例を示す図である。
【0044】
図11(2)では、リンク50Fの他に、要約50Gや、各動画に対応する説明文50H、50I、50Jが表示されていることが確認できる。ここで、リンク50Fに直接対応する説明は、説明文50Hであり、この説明文50Hに含まれるテキスト情報であって、インデックスDB22に記憶されているインデックス(テキスト情報)であることが好ましい。
【0045】
これに対して、補充用テキスト情報抽出部12は、コンテンツDB23を参照して、更新対象Webページとしての動画ページに対応するリンク元URLのテキスト情報として、動画まとめページのHTMLテキスト情報を抽出し、このHTMLテキスト情報のタグの解析を行い、動画ページへのアンカータグから所定の範囲内に位置するコンテンツ内容に対応するテキスト情報として、説明文50Hを抽出する。
【0046】
一般的に、リンク先ページの説明は、リンク元ページにおいて、リンク先へのアンカーテキストとして付されることにより行われるか、リンク先へのアンカータグから所定の範囲内に配置されることが多い。よって、この場合、インデックス更新装置1は、インデックス情報のうち、リンク元ページにおいて更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報を抽出するので、適切に補充用テキスト情報を抽出することができる。
【0047】
第1インデックス更新部13は、コンテンツDB23(後述の図4参照)に記憶されているコンテンツ情報に基づいて、更新対象WebページのURLに対応するインデックスを生成し、インデックスDB22を更新する。
【0048】
具体的には、第1インデックス更新部13は、コンテンツDB23に記憶されているコンテンツ情報(テキスト情報、画像情報、リンク情報)に基づいて、更新対象Webページに対応するテキスト情報をインデックスとして生成する。続いて、第1インデックス更新部13は、生成したインデックスとしてのテキスト情報をインデックスDB22に記憶させることにより、インデックスDB22を更新する。なお、第1インデックス更新部13は、生成したインデックスが、更新対象WebページのインデックスとしてインデックスDB22に既に更新されている場合、生成したインデックスによるインデックスDB22の更新を行わない。
【0049】
第2インデックス更新部14は、補充用テキスト情報抽出部12により抽出された補充用テキスト情報に基づいて、更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充してインデックスDB22を更新する。
【0050】
具体的には、第2インデックス更新部14は、補充用テキスト情報抽出部12により抽出された補充用テキスト情報、すなわち、更新対象Webページのリンク先のURLに対応するテキスト情報とリンク元のURLに対応するテキスト情報に基づいて、更新対象WebページのURLに対応するインデックスを生成する。続いて、第2インデックス更新部14は、生成したインデックスを、更新対象WebページのインデックスとしてインデックスDB22に記憶させる。
【0051】
実行制御部15は、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14を、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14の順に、補充するインデックスがなくなるまで、繰り返し実行させる。すなわち、実行制御部15は、更新対象WebページのURLに対応するインデックスが新たに生成されなくなるまで、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14を実行させる。
【0052】
なお、本実施形態において、実行制御部15は、補充するインデックスがなくなるまで、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14を繰り返し実行させることとしたが、入力部を介して所定の操作を受け付けることにより、繰り返し実行回数を指定してもよい。
【0053】
また、図18に示すように、インデックス更新装置1に、Webページのコンテンツ情報を受け付け、当該コンテンツ情報をコンテンツDB23に記憶させるとともに、Webページのリンク情報を受け付け、当該リンク情報をリンクDB21に記憶させるクロール部16(受付手段)を設けておく。そして、クロール部16により、コンテンツDB23にコンテンツ情報が記憶された場合又はリンクDB21にリンク情報が記憶された場合に、実行制御部15は、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14を実行させるようにしてもよい。
【0054】
このようにすることで、インデックス更新装置1は、コンテンツDB23に、インデックスを生成する元となるコンテンツ情報が記憶される毎にインデックスを更新するので、迅速にインデックスの更新を行うことができる。
【0055】
図2は、本実施形態に係るリンクDB21を示す図である。リンクDB21は、WebページのURLと、当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶する。具体的には、リンクDB21は、図2に示されるように、WebページのURLを示すURLと、当該Webページに含まれるリンク先のWebページのURLを示すリンク先URLと、を関連付けて記憶する。
【0056】
図3は、本実施形態に係るインデックスDB22を示す図である。インデックスDB22は、WebページのURLと、当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶する。テキスト情報としては、Webページに含まれる特徴語や、Webページを端的に表す単語等が含まれる。
【0057】
ここで、インデックスDB22は、Webページのインデックスとしてのテキスト情報について、図3(a)に示すように、自身のコンテンツ内容に基づいて得られたテキスト情報と、リンク先又はリンク元のWebページに基づいて得られたテキスト情報を、区別せずに記憶させてもよい。また、インデックスDB22は、図3(b)に示すように、自身のコンテンツ内容に基づいて得られたテキスト情報を原始インデックスとして記憶し、リンク先又はリンク元のWebページに基づいて得られたテキスト情報を付加インデックスとして記憶してもよい。すなわち、インデックスDB22は、自身のコンテンツ内容に基づいて得られたテキスト情報と、リンク先又はリンク元のWebページに基づいて得られたテキスト情報とを区別して記憶してもよい。
【0058】
図4は、本実施形態に係るコンテンツDB23を示す図である。コンテンツDB23は、WebページのURLと、当該Webページのコンテンツ情報とを関連付けて記憶する。ここで、Webページのコンテンツ情報は、このWebページのコンテンツの内容を示すテキスト情報、画像情報、映像情報や、このWebページに含まれるリンク先URLのアンカー等のリンク情報が含まれる。
【0059】
[フローチャート]
図5は、本実施形態に係るインデックス更新装置1の制御部10における処理を示すフローチャートである。ここでは、更新対象Webページそれぞれについて、1つずつ順番に処理が行われるものとする。
【0060】
ステップS1では、制御部10は、インデックス更新処理を行う。このインデックス処理については、図6、図7において説明する。
【0061】
ステップS2において、制御部10(実行制御部15)は、全ての更新対象Webページのインデックスが補充されなかったか否かについて判定する。制御部10(実行制御部15)は、この判定がYESの場合、処理を終了し、この判定がNOの場合、処理をステップS1に移し、インデックスの更新に係る一連の処理を再び実行させる。
【0062】
図6及び図7は、本実施形態に係るインデックス更新装置1の制御部10におけるインデックス更新処理を示すフローチャートである。
【0063】
ステップS101(URL抽出ステップ)において、制御部10(URL抽出部11)は、リンクDB21に基づいて、リンク先URL又はリンク元URLを抽出する。
【0064】
ステップS102(補充用テキスト情報抽出ステップ)において、制御部10(補充用テキスト情報抽出部12)は、インデックスDB22を参照し、更新対象Webページのインデックスを抽出する。
【0065】
ステップS103(補充用テキスト情報抽出ステップ)において、制御部10(補充用テキスト情報抽出部12)は、インデックスDB22を参照して、更新対象Webページのリンク先又はリンク元のテキスト情報が、既に記憶されているか否かを判定する。具体的には、制御部10(補充用テキスト情報抽出部12)は、更新対象Webページのリンク先又はリンク元のURLに対応するインデックス(テキスト情報)が、ステップS102において抽出された更新対象Webページのインデックスと一致するか否かを判定する。制御部10(補充用テキスト情報抽出部12)は、この判定がYESの場合、処理をステップS105に移し、この判定がNOの場合、処理をステップS104に移す。
【0066】
ステップS104(補充用テキスト情報抽出ステップ)において、制御部10(補充用テキスト情報抽出部12)は、ステップS101において抽出したリンク先URL又はリンク元URLに基づいて、インデックスDB22を参照し、リンク先URL又はリンク元URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出する。
【0067】
ステップS105(第1インデックス更新ステップ)において、制御部10(第1インデックス更新部13)は、コンテンツDB23に基づいて、更新対象WebページのURLに対応するインデックスを生成する。
【0068】
ステップS106(第1インデックス更新ステップ)において、制御部10(第1インデックス更新部13)は、ステップS105において生成されたインデックスが、インデックスDB22の更新対象Webページのインデックスとして既に記憶されているものと一致するか否かを判定する。制御部10(第1インデックス更新部13)は、この判定がYESの場合、処理を図7のステップS108に移し、この判定がNOの場合、処理をステップS107に移す。
【0069】
ステップS107(第1インデックス更新ステップ)において、制御部10(第1インデックス更新部13)は、ステップS105において生成されたインデックスを、インデックスDB22の更新対象Webページのインデックスに補充することにより、更新対象Webページのインデックスを更新する。
【0070】
図7に移り、ステップS108(第2インデックス更新ステップ)において、制御部10(第2インデックス更新部14)は、ステップS104において更新対象Webページについて補充用テキスト情報が抽出されたか否かを判定する。制御部10(第2インデックス更新部14)は、この判定がYESの場合、処理をステップS109に移し、この判定がNOの場合、処理をステップS111に移す。
【0071】
ステップS109(第2インデックス更新ステップ)において、制御部10(第2インデックス更新部14)は、ステップS104において抽出された補充用テキスト情報に基づいて、更新対象WebページのURLに対応するインデックスを生成する。
【0072】
ステップS110(第2インデックス更新ステップ)において、制御部10(第2インデックス更新部14)は、ステップS109において生成されたインデックスを、インデックスDB22の更新対象Webページのインデックスに補充することにより、更新対象Webページのインデックスを更新する。
【0073】
ステップS111において、制御部10(実行制御部15)は、全ての更新対象Webページに対する処理が行われたか否かについて判定する。制御部10(実行制御部15)は、この判定がYESの場合、インデックス更新処理を終了し、この判定がNOの場合、処理を図6のステップS101に移し、インデックス更新処理を再び実行させる。
【0074】
図8及び図9は、本実施形態に係るインデックス更新装置1の制御部10における処理の変形例を示すフローチャートである。ここでは、全ての更新対象Webページに対して同時に処理が行われるものとする。
【0075】
ステップS201からステップS210までの処理は、図6、図7に示されるステップS101からステップS110までの処理と同様の処理を行うので、説明を省略する。
【0076】
ステップS211において、制御部10(実行制御部15)は、更新対象Webページのインデックスが補充されなかったか否かについて判定する。制御部10(実行制御部15)は、この判定がYESの場合、処理を終了し、この判定がNOの場合、処理を図8のステップS201に移し、インデックスの更新に係る一連の処理を再び実行させる。
【0077】
続いて、図12及び図13を参照して、本実施形態のインデックスDB22が更新される状況について説明する。ここでは、補充用テキスト情報抽出部12が、リンク元URLに基づいて、インデックスDB22を参照し、リンク元URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出してリンク先(更新対象Webページ)のインデックスを補充するものとして説明を行う。
【0078】
図12は、本実施形態に係るリンクDB21の別の一例を示す図である。図12では、URL「http://#1」のリンク元URLが「http://#3」であり、URL「http://#2」のリンク元URLが「http://#1」であることが確認できる。なお、図12では、他のURLも記憶されているが、ここでは、説明を簡易にするため、上記のリンク情報のみ扱うこととする。
【0079】
図13は、本実施形態に係るインデックスDB22が更新される状況を示す図である。ここでは、インデックスDB22に記憶されている複数の更新対象Webページのインデックスを同時に更新する場合について説明する。図13では、説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
【0080】
図13(1)は、インデックスDB22に対して、上述の3つのURLに対応するインデックスが更新される前の状態を示す図である。図13(1)に示す状態では、インデックスDB22のURL「http://#1」のインデックスに対して、インデックス「text#1」、URL「http://#2」のインデックスに対して、インデックス「text#2」、URL「http://#3」のインデックスに対して、インデックス「text#3」が記憶されていることが確認できる。
【0081】
続いて、実行制御部15は、一連の処理を実行(1回目の実行)させる。すると、インデックスDB22は、図13(2)に示す状態となる。
【0082】
図13(2)では、インデックスDB22のURL「http://#1」のインデックスに対して、リンク元URLに対応するインデックス「text#3」が補充されていることが確認できる。また、インデックスDB22のURL「http://#2」のインデックスに対して、リンク元URLに対応するインデックス「text#1」が補充されていることが確認できる。
【0083】
続いて、実行制御部15は、一連の処理を実行(2回目の実行)させる。すると、インデックスDB22は、図13(3)に示す状態となる。
【0084】
図13(3)では、インデックスDB22のURL「http://#1」のインデックスが更新されていないことが確認できる。また、インデックスDB22のURL「http://#2」のインデックスに対して、リンク元URLに対応し、2回目の一連の処理の実行で補充されたインデックス「text#3」が補充されていることが確認できる。
【0085】
続いて、実行制御部15は、一連の処理を実行(3回目の実行)させる。この場合、3つのURLのインデックスに対して補充するインデックスがなくなるので、インデックスDB22の更新が行われず、図13(3)に示す状態のままとなる。
【0086】
続いて、図12及び図14を参照して、本実施形態のインデックスDB22が更新される別の状況について説明する。ここでは、補充用テキスト情報抽出部12が、リンク先URLに基づいて、インデックスDB22を参照し、リンク先URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出して、リンク元(更新対象Webページ)のインデックスを補充するものとして説明を行う。
【0087】
図12については、既に上述で説明しているので、説明を省略する。
図14は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図14では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
【0088】
図14(1)は、インデックスDB22に対して、上述の3つのURLに対応するインデックスが更新される前の状態を示す図である。図14(1)に示す状態では、インデックスDB22のURL「http://#1」のインデックスに対して、インデックス「text#1」、URL「http://#2」のインデックスに対して、インデックス「text#2」、URL「http://#3」のインデックスに対して、インデックス「text#3」が記憶されていることが確認できる。
【0089】
続いて、実行制御部15は、一連の処理を実行(1回目の実行)させる。すると、インデックスDB22は、図14(2)に示す状態となる。
【0090】
図14(2)では、インデックスDB22のURL「http://#1」のインデックスに対して、リンク先URLに対応するインデックス「text#2」が補充されていることが確認できる。また、インデックスDB22のURL「http://#3」のインデックスに対して、リンク先URLに対応するインデックス「text#1」が補充されていることが確認できる。
【0091】
続いて、実行制御部15は、一連の処理を実行(2回目の実行)させる。すると、インデックスDB22は、図14(3)に示す状態となる。
【0092】
図14(3)では、インデックスDB22のURL「http://#1」のインデックスが更新されていないことが確認できる。また、インデックスDB22のURL「http://#3」のインデックスに対して、リンク先URLに対応し、2回目の一連の処理の実行で補充されたインデックス「text#1」が補充されていることが確認できる。
【0093】
続いて、実行制御部15は、一連の処理を実行(3回目の実行)させる。この場合、3つのURLのインデックスに対して補充するインデックスがなくなるので、インデックスDB22の更新が行われず、図14(3)に示す状態のままとなる。
【0094】
以上、図13、図14に示されるように、実行制御部15により、一連の処理が1回実行された場合には、更新対象のWebページのインデックスとして、更新対象のWebページのリンク先URLに対応するインデックス又はリンク元URLに対応するインデックスが記憶される。よって、インデックス更新装置1は、一連の処理を1回実行した場合、更新対象のWebページに直接関連するWebページのテキスト情報、すなわち、リンク先URL又はリンク元URLに対応するテキスト情報を記憶することで、インデックス情報を更新することができる。
【0095】
また、インデックス更新装置1が、一連の処理を2回実行した場合には、インデックスDB22に記憶されている更新対象のWebページのインデックスには、既に、更新対象のWebページのリンク先URLに対応するインデックス又はリンク元URLに対応するインデックスが記憶されている。このため、インデックスDB22には、更新対象のWebページに直接関連しないWebページのインデックスも補充される。よって、インデックス更新装置1は、一連の処理を2回以上実行した場合、直接関連しないWebページのインデックスを補充することができ、柔軟にインデックス情報のリッチ化が実現できる。
【0096】
続いて、図12及び図15を参照して、本実施形態のインデックスDB22が更新される別の状況について説明する。上述の説明では、インデックスDB22に記憶されている複数の更新対象Webページのインデックスを同時に更新する場合について説明したが、図15では、インデックスDB22に記憶されている複数の更新対象Webページそれぞれのインデックスを1つづつ順に更新する場合について説明する。
【0097】
また、ここでは、補充用テキスト情報抽出部12が、リンク先URLに基づいて、インデックスDB22を参照し、リンク先URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出して、リンク元(更新対象Webページ)のインデックスを補充するものとして説明を行う。
【0098】
図12については、既に上述で説明しているので、説明を省略する。
図15は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図15では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
【0099】
まず、実行制御部15は、「http://#1」について、一連の処理を実行させる。すると、インデックスDB22は、図15(2)に示す状態となる。図15(2)では、インデックスDB22のURL「http://#1」のインデックスに対して、リンク先URLに対応するインデックス「text#2」が補充されていることが確認できる。
【0100】
続いて、実行制御部15は、「http://#2」について、一連の処理を実行させる。この場合、「http://#2」に対してリンク先URLのテキスト情報は存在しないので、図15(2)に示す状態のままとなる。
【0101】
続いて、実行制御部15は、「http://#3」について、一連の処理を実行させる。すると、インデックスDB22は、図15(3)に示す状態となる。図15(3)では、インデックスDB22のURL「http://#3」のインデックスに対して、リンク先URLに対応するインデックス「text#1」が補充されていることが確認できる。
【0102】
続いて、実行制御部15は、「http://#1」について、一連の処理を再実行させる。この場合、「http://#2」に対して新たに補充されるリンク先URLのテキスト情報は存在しないので、図15(3)に示す状態のままとなる。続いて、実行制御部15は、「http://#2」、「http://#3」について、一連の処理を再実行させる。この場合も、新たに補充されるリンク先URLのテキスト情報は存在しないので、図15(3)に示す状態のままとなる。続いて、実行制御部15は、3つのURLのインデックスに対して補充するインデックスがなくなるので、処理を終了させる。最終的に、インデックスDB22は、図15(3)に示す状態となる。
【0103】
続いて、図12及び図16を参照して、本実施形態のインデックスDB22が更新される別の状況について説明する。ここでは、インデックスDB22が、原始インデックスと、第2インデックス更新部14により補充されるインデックスを記憶する付加インデックスを備え、原始インデックスの内容に基づいて、インデックスが更新される場合について説明を行う。
【0104】
また、ここでは、補充用テキスト情報抽出部12が、リンク先URLに基づいて、インデックスDB22を参照し、リンク先URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出して、リンク先(更新対象Webページ)のインデックスを補充するものとして説明を行う。
【0105】
図12については、既に上述で説明しているので、説明を省略する。
図16は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図16では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
【0106】
まず、実行制御部15は、「http://#1」、「http://#2」、「http://#3」について、この順番に一連の処理を実行させる。すると、インデックスDB22は、図16(2)に示す状態となる。図16(2)では、インデックスDB22のURL「http://#1」の付加インデックスに対して、リンク先URLに対応するインデックス「text#2」が補充されていることが確認できる。また、インデックスDB22のURL「http://#2」の原始インデックスに対して、リンク先URLに対応するインデックス「text#2_1」に更新されていることが確認できる。また、インデックスDB22のURL「http://#3」の付加インデックスに対して、リンク先URLに対応するインデックス「text#1」が補充されていることが確認できる。
【0107】
すなわち、図16(2)に示す状態では、「http://#1」の付加インデックスが「text#2」に更新された後に、「http://#2」の原始インデックスが「text#2_1」に更新されたので、「http://#1」の付加インデックスと、「http://#2」の原始インデックスが異なっている状態となっていることが確認できる。
【0108】
続いて、実行制御部15は、図16(2)に示す状態において、「http://#1」、「http://#2」、「http://#3」について、この順番に一連の処理を再実行させる。すると、インデックスDB22は、図16(3)に示す状態となる。図16(3)では、図16(2)の状態から、インデックスDB22のURL「http://#1」の付加インデックスのみ「text#2_1」に更新されていることが確認できる。すなわち、実行制御部15により、一連の処理を2回実行させることで、原始インデックス及び付加インデックスを確実に更新することができる。
【0109】
なお、実行制御部15は、上述のように処理を行うことに加えて、一連の処理を2回実行させた後に、付加インデックスに記憶されているインデックスを原始インデックスに移動させて、再度、原始インデックスに基づいて、インデックスの更新を行うようにしてもよい。このようにすることで、一連の処理を3回実行することにより、更新対象のWebページに直接関連しないWebページのインデックスも補充することができる。よって、インデックス更新装置1は、上述の方法により一連の処理を3回実行した場合、直接関連しないWebページのインデックスを補充することができ、柔軟にインデックス情報のリッチ化が実現できる。
【0110】
また、インデックスDB22の付加インデックスについて、1回目の実行により補充されるインデックスを記憶させる第1付加インデックス、2回目の実行により補充されるインデックスを記憶させる第2付加インデックスといったように、補充される回数に応じた付加インデックスを設けておき、例えば、第1付加インデックスに補充されたインデックスに基づいて、第2付加インデックスに、インデックスを補充させてもよい。つまり、付加インデックスのインデックスを、補充するインデックスの情報とすることとしてもよい。このようにすることで、直接関連しないWebページのインデックスを補充することができ、柔軟にインデックス情報のリッチ化が実現できる。
【0111】
以上のように、本実施形態によれば、補充用テキスト情報抽出部12により、リンク先URLに対応するテキスト情報又はリンク元URLに対応するテキスト情報を補充用テキスト情報として抽出し、第2インデックス更新部14により、リンク先URLに対応するインデックスとしてのテキスト情報及びリンク元URLに対応するインデックスとしてのテキスト情報に基づいて、更新対象WebページのURLに関連付けられているインデックスを生成し、当該生成したインデックスを補充してインデックスDB22を更新する。
【0112】
このようにすることで、インデックス更新装置1は、リンク元URLに対応するインデックスとしてのテキスト情報又はリンク先URLに対応するインデックスとしてのテキスト情報に基づいて、対象Webページのインデックスを生成して、当該生成したインデックスを補充することができる。よって、インデックス更新装置1は、更新対象Webページ自身に含まれるテキスト情報に限らずにインデックスを生成するので、更新対象Webページに含まれるテキスト情報が少ない場合であっても、そのリンク先のWebページ又はリンク元のWebページのインデックスを補充してインデックスを更新することができる。その結果、インデックス更新装置1は、リンク先のWebページ及びリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することができる。
【0113】
また、本実施形態によれば、実行制御部15により、一連の処理、すなわち、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14の順に補充するインデックスがなくなるまで繰り返し実行させるので以下の効果が期待できる。
【0114】
すなわち、一連の処理をインデックスの更新の対象とする複数のWebページについて1回実行しただけでは、インデックスの更新の対象とするWebページの順序によってはリンク先及びリンク元のインデックスとしてのテキスト情報の全てが補充しきれない場合も想定されるのに対し、インデックス更新装置1は、上述の一連の処理を補充するインデックスがなくなるまで繰り返し実行するので、その時点で補充可能なテキスト情報の全てを補充することができる。
【0115】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0116】
1 インデックス更新装置
10 制御部
11 URL抽出部
12 補充用テキスト情報抽出部
13 第1インデックス更新部
14 第2インデックス更新部
15 実行制御部
16 クロール部
20 記憶部
21 リンクDB
22 インデックスDB
23 コンテンツDB
【技術分野】
【0001】
本発明は、インデックス更新装置及びその方法に関する。より詳細には、検索エンジンのインデックスを更新するインデックス更新装置及びその方法に関する。
【背景技術】
【0002】
従来、検索エンジンでは、ユーザからの検索キーワードの入力に応じて、適切な検索結果を出力するために、検索対象のWebページから、適切な特徴語等をキーワードとして抽出して、インデックスを生成している。
【0003】
例えば、特許文献1には、Webページに含まれる個別の単語及び単語数が多いフレーズを自動的にインデックス化する方法が示されている。また、特許文献2には、Webページのリンク先を示すURL(Uniform Resource Locator)と、このURLに対応したアンカーテキストに基づいてインデックスを生成する方法が示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−048684号公報
【特許文献2】特開2003−067419号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、Webページの中には、例えば、リンク集のWebページのように、リンク先のWebページの内容を適切に紹介することを目的として作成されたものもある。一方で、そのリンク先のWebページが動画ページの場合等において、当該Webページ自体にはインデックス作成の参考となるテキスト情報が極端に少ないこともある。また、ニュース記事の拡大写真のWebページにおいて、当該Webページ自体にはインデックス作成の参考となるテキスト情報がほとんど含まれず、「この写真の記事へ」というアンカーフレーズで誘導するリンク先の記事本文のWebページに、当該拡大写真のWebページのインデックス作成の参考となるテキスト情報が豊富に含まれていることもある。このような場合、特許文献1及び特許文献2に示される方法では、リンク先のWebページ及びリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することはできない。
【0006】
そこで本発明は、リンク先のWebページ及びリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することができるインデックス更新装置及びその方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
(1)検索エンジンのインデックスを更新するインデックス更新装置であって、WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出手段と、当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出手段と、前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新手段と、前記補充用テキスト情報抽出手段により抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新手段と、を備えるインデックス更新装置。
【0008】
(1)のインデックス更新装置は、補充用テキスト情報抽出手段により、URL抽出手段が抽出したリンク先又はリンク元のURLに基づいて、インデックス情報記憶手段を参照し、既にインデックスとして記憶している当該リンク先又はリンク元のテキスト情報を補充用テキスト情報として抽出し、第2インデックス更新手段により、リンク先URLに対応するインデックスとしてのテキスト情報又はリンク元URLに対応するインデックスとしてのテキスト情報に基づいて、更新対象WebページのURLに関連付けられているインデックスを生成し、当該生成したインデックスを補充してインデックス情報記憶手段を更新する。
【0009】
このようにすることで、(1)のインデックス更新装置は、リンク元URLに対応するインデックスとしてのテキスト情報又はリンク先URLに対応するインデックスとしてのテキスト情報に基づいて、対象Webページのインデックスを生成して、当該生成したインデックスを補充することができる。よって、(1)のインデックス更新装置は、更新対象Webページ自身に含まれるテキスト情報に限らずにインデックスを生成するので、更新対象Webページに含まれるテキスト情報が少ない場合であっても、そのリンク先のWebページ又はリンク元のWebページのインデックスを補充してインデックスを更新することができる。その結果、(1)のインデックス更新装置は、リンク先のWebページ又はリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することができる。
【0010】
(2)前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段の順に前記補充するインデックスがなくなるまで繰り返し実行させる実行制御手段を更に備える(1)に記載のインデックス更新装置。
【0011】
(2)のインデックス更新装置は、実行制御手段により、一連の処理、すなわち、URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段の順に補充するインデックスがなくなるまで繰り返し実行させるので以下の効果が期待できる。
【0012】
すなわち、一連の処理をインデックスの更新の対象とする複数のWebページについて1回実行しただけでは、インデックスの更新の対象とするWebページの順序によってはリンク先及びリンク元のインデックスとしてのテキスト情報の全てが補充しきれない場合も想定されるのに対し、(2)のインデックス更新装置は、上述の一連の処理を補充するインデックスがなくなるまで繰り返し実行するので、その時点で補充可能なテキスト情報の全てを補充することができる。
【0013】
(3)前記Webページの前記コンテンツ情報を受け付け、当該コンテンツ情報をコンテンツ情報記憶手段に記憶させる受付手段と、前記コンテンツ情報記憶手段に前記コンテンツ情報が記憶されたことに応じて、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる実行制御手段を更に備える(1)に記載のインデックス更新装置。
【0014】
(3)のインデックス更新装置は、実行制御手段により、コンテンツ情報記憶手段にコンテンツ情報が記憶されたことに応じて、URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる。よって、(3)のインデックス更新装置は、コンテンツ情報記憶手段に、インデックスを生成する元となるコンテンツ情報が記憶される毎にインデックスを更新するので、迅速にインデックスの更新を行うことができる。
【0015】
(4)前記補充用テキスト情報抽出手段は、前記インデックス情報記憶手段及び前記コンテンツ情報記憶手段に基づいて、前記リンク元URLに対応するテキスト情報のうち、前記更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出する(1)から(3)のいずれかに記載のインデックス更新装置。
【0016】
(4)のインデックス更新装置は、補充用テキスト情報抽出手段により、リンク元URLに対応するテキスト情報のうち、更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出する。
一般的に、リンク先ページの説明は、リンク先へのアンカーテキストとして付されることにより行われるか、リンク先へのアンカータグから所定の範囲内に配置されることが多い。よって、(4)のインデックス更新装置は、リンク元ページにおいて更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報を抽出するので、適切に補充用テキスト情報を抽出することができる。
【0017】
(5)検索エンジンのインデックスを更新するインデックス更新装置が実行する方法であって、前記インデックス更新装置は、WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、を備え、前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出ステップと、当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出ステップと、前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新ステップと、前記補充用テキスト情報抽出ステップにおいて抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新ステップと、を備える方法。
【0018】
(5)に記載の方法によれば、(1)の装置と同様の効果を奏する。
【発明の効果】
【0019】
本発明によれば、リンク先のWebページ及びリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することができるインデックス更新装置及びその方法を提供することができる。
【図面の簡単な説明】
【0020】
【図1】本実施形態に係るインデックス更新装置の機能概要を示す図である。
【図2】本実施形態に係るリンクDBを示す図である。
【図3】本実施形態に係るインデックスDBを示す図である。
【図4】本実施形態に係るコンテンツDBを示す図である。
【図5】本実施形態に係るインデックス更新装置の制御部における処理を示すフローチャートである。
【図6】本実施形態に係るインデックス更新装置の制御部におけるインデックス更新処理を示すフローチャートである。
【図7】図6に続くフローチャートである。
【図8】本実施形態に係るインデックス更新装置の制御部における処理の変形例を示すフローチャートである。
【図9】図8に続くフローチャートである。
【図10】本実施形態に係る更新対象Webページとリンク先URLに対応するWebページを示す図である。
【図11】本実施形態に係る更新対象Webページとリンク元URLに対応するWebページを示す図である。
【図12】本実施形態に係るリンクDBの別の一例を示す図である。
【図13】本実施形態に係るインデックスDBが更新される状況を示す図(その1)である。
【図14】本実施形態に係るインデックスDBが更新される状況を示す図(その2)である。
【図15】本実施形態に係るインデックスDBが更新される状況を示す図(その3)である。
【図16】本実施形態に係るインデックスDBが更新される状況を示す図(その4)である。
【図17】本実施形態に係るインデックス更新装置の機能概要の別の例(その1)を示す図である。
【図18】本実施形態に係るインデックス更新装置の機能概要の別の例(その2)を示す図である。
【発明を実施するための形態】
【0021】
以下、本実施形態について図を参照しながら説明する。
【0022】
[機能構成]
図1は、本実施形態に係るインデックス更新装置1の機能概要を示す図である。インデックス更新装置1は、検索エンジンのインデックスを更新するサーバである。
【0023】
本実施形態は、コンピュータ(インデックス更新装置1)及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備えるハードウェア並びにこのハードウェアを制御するソフトウェアによって構成される。
【0024】
上記ハードウェアには、制御部10としてのCPUの他、記憶部20、通信部、表示部及び入力部が含まれる。記憶部20としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)及び光ディスク(CD、DVD等)ドライブが挙げられる。通信部としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示部としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力部としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。
【0025】
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部20により記憶され、制御部10により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信ネットワークを介して配布することも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布することも可能である。
【0026】
インデックス更新装置1の制御部10は、URL抽出部11(URL抽出手段)と、補充用テキスト情報抽出部12(補充用テキスト情報抽出手段)と、第1インデックス更新部13(第1インデックス更新手段)と、第2インデックス更新部14(第2インデックス更新手段)と、実行制御部15(実行制御手段)と、を備える。また、インデックス更新装置1の記憶部20は、リンクDB(データベース)21(リンク情報記憶手段)と、インデックスDB22(インデックス情報記憶手段)と、コンテンツDB23(コンテンツ情報記憶手段)とを備える。
【0027】
本実施形態では、インデックス更新装置1によるインデックスDB22の更新は、例えば、インデックス更新装置1のユーザが、入力部により所定の操作を行ったことにより、URL抽出部11により開始される。そして、実行制御部15により、インデックスDB22にインデックスの更新(補充処理)が繰り返し実行され、インデックスDB22のインデックスの補充が行われなくなった場合に、インデックスDB22の更新を終了する。詳細については、後述で説明する。
【0028】
URL抽出部11は、リンクDB21(後述の図2参照)に基づいて、インデックスの更新対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出する。
【0029】
具体的には、URL抽出部11は、リンクDB21を参照して、更新対象WebページのURLに関連付けられているリンク先URLを抽出する。また、URL抽出部11は、リンクDB21を参照して、更新対象WebページのURLと一致するリンク先URLに関連付けられているURLをリンク元URLとして抽出する。
【0030】
ここで、更新対象Webページは、インデックスDB22に記憶されているインデックスに対応するWebページである。また、更新対象Webページは、インデックスDB22に記憶されているインデックスの情報量が所定値よりも少ないWebページ(例えば、後述の図10(1)に示される記事へのリンクを有する拡大写真ページや、図11(1)に示される動画まとめページにリンクされている動画ページ)であってもよいし、インデックス更新装置1のユーザから入力部により指定されたものであってもよい。
【0031】
補充用テキスト情報抽出部12は、抽出したリンク先又はリンク元のURLに基づいて、インデックスDB22(後述の図3参照)を参照し、既にインデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する。
【0032】
具体的には、補充用テキスト情報抽出部12は、インデックスDB22を参照して、URL抽出部11により抽出されたリンク先URLに対応するインデックスとしてのテキスト情報を補充用テキスト情報として抽出する。ここで、補充用テキスト情報抽出部12は、リンク先URLに対応するテキスト情報が、更新対象WebページのインデックスとしてインデックスDB22に既に記憶されている場合、当該テキスト情報の抽出を行わない。
【0033】
また、補充用テキスト情報抽出部12は、インデックスDB22を参照して、URL抽出部11により抽出されたリンク元URLに対応するインデックスとしてのテキスト情報を補充用テキスト情報として抽出する。ここで、補充用テキスト情報抽出部12は、リンク元URLに対応するテキスト情報が、更新対象WebページのインデックスとしてインデックスDB22に既に記憶されている場合、当該テキスト情報の抽出を行わない。
【0034】
補充用テキスト情報抽出部12の処理について、図10、図11を用いて説明を行う。
図10は、更新対象Webページとリンク先URLに対応するWebページとを示す図である。図10(1)は、端末でニュースページを閲覧した場合に、端末のブラウザ50に対して、更新対象Webページとしてのニュースページに、拡大写真50Aが表示されている例を示す図である。図10(2)は、ブラウザ50に対して、更新対象Webページのリンク先URLに対応するWebページとして、拡大写真50Aに対応するニュース記事が表示されている例を示す図である。
【0035】
図10(1)では、拡大写真50Aや、「この写真の記事へ」と表示されているリンク50Bが表示されている他に、テキスト情報がほとんど表示されていないことが確認できる。一方、図10(2)では、拡大写真50Aの縮小写真50Cの他に、記事50Dが表示されていることが確認できる。すなわち、リンク先URLに対応するWebページには、更新対象Webページのインデックスに適したテキスト情報が含まれていることが確認できる。このため、インデックスDB22に、リンク先URLに対応するWebページのインデックスが記憶されている場合、このインデックス(テキスト情報)は、更新対象Webページに対応するインデックス(テキスト情報)となり得る。
【0036】
そして、補充用テキスト情報抽出部12は、インデックスDB22を参照して、URL抽出部11により抽出されたリンク先URLに対応するインデックスとしてのテキスト情報を補充用テキスト情報として抽出する。よって、図10に示すように、インデックス更新装置1は、更新対象Webページにインデックスに適したテキスト情報が含まれていなくても、有用なテキスト情報を補充用テキスト情報として抽出することができる。
【0037】
図11は、更新対象Webページとリンク元URLに対応するWebページとを示す図である。図11(1)は、端末のブラウザ50に対して、更新対象Webページとしての動画ページに動画50Eが表示されている例を示す図である。図11(2)は、ブラウザ50に対して、更新対象Webページのリンク元URLに対応するWebページとして、動画ページ50Eのリンク50Fに含む動画まとめページが表示されている例を示す図である。
【0038】
図11(1)では、テキスト情報がほとんど表示されていないことが確認できる。一方、図11(2)では、リンク50Fの他に、要約50Gや、各動画に対応する説明文50H、50I、50Jが表示されていることが確認できる。すなわち、リンク元URLに対応するWebページには、更新対象Webページのインデックスに適したテキスト情報が含まれていることが確認できる。このため、インデックスDB22に、リンク元URLに対応するWebページのインデックスが記憶されている場合、このインデックス(テキスト情報)は、更新対象Webページに対応するインデックス(テキスト情報)となり得る。
【0039】
そして、補充用テキスト情報抽出部12は、インデックスDB22を参照して、URL抽出部11により抽出されたリンク元URLに対応するインデックスとしてのテキスト情報を補充用テキスト情報として抽出する。よって、図11に示すように、インデックス更新装置1は、更新対象Webページにインデックスに適したテキスト情報が含まれていなくても、有用なテキスト情報を補充用テキスト情報として抽出することができる。
【0040】
なお、補充用テキスト情報抽出部12は、抽出したリンク先又はリンク元のURLに基づいて、インデックスDB22を参照し、既にインデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出することとしたが、これに限らない。例えば、補充用テキスト情報抽出部12は、抽出したリンク先のURLと、リンク元のURLとの少なくともいずれかに基づいて、インデックスDB22を参照し、既にインデックスとして記憶している当該リンク先URLと当該リンク元URLとの少なくともいずれかのテキスト情報を補充用テキスト情報として抽出することとしてもよい。
【0041】
また、本実施形態において補充用テキスト情報抽出部12は、図17に示すように、インデックスDB22及びコンテンツDB23に基づいて、リンク元URLに対応するテキスト情報のうち、リンク元ページにおいて更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出するようにしてもよい。
【0042】
すなわち、補充用テキスト情報抽出部12は、コンテンツDB23を参照して、更新対象Webページに対応するリンク元URLのテキスト情報を抽出し、このリンク元URLに対応するWebページのタグの解析を行い、更新対象Webページへのアンカータグから所定の範囲内に位置するコンテンツ内容に対応するテキスト情報を抽出する。続いて、補充用テキスト情報抽出部12は、抽出したテキスト情報のうち、インデックスDB22のリンク元URLに対応するインデックスとして記憶されているものを補充用テキスト情報として抽出する。
【0043】
この場合の補充用テキスト情報抽出部12の処理について、図11を用いて説明を行う。上述で説明するように、図11(1)は、端末のブラウザ50に対して、更新対象Webページとしての動画ページに、動画50Eが表示されている例を示す図である。図11(2)は、ブラウザ50に対して、更新対象Webページのリンク元URLに対応するページとして、動画ページ50Eのリンク50Fに含む動画まとめページが表示されている例を示す図である。
【0044】
図11(2)では、リンク50Fの他に、要約50Gや、各動画に対応する説明文50H、50I、50Jが表示されていることが確認できる。ここで、リンク50Fに直接対応する説明は、説明文50Hであり、この説明文50Hに含まれるテキスト情報であって、インデックスDB22に記憶されているインデックス(テキスト情報)であることが好ましい。
【0045】
これに対して、補充用テキスト情報抽出部12は、コンテンツDB23を参照して、更新対象Webページとしての動画ページに対応するリンク元URLのテキスト情報として、動画まとめページのHTMLテキスト情報を抽出し、このHTMLテキスト情報のタグの解析を行い、動画ページへのアンカータグから所定の範囲内に位置するコンテンツ内容に対応するテキスト情報として、説明文50Hを抽出する。
【0046】
一般的に、リンク先ページの説明は、リンク元ページにおいて、リンク先へのアンカーテキストとして付されることにより行われるか、リンク先へのアンカータグから所定の範囲内に配置されることが多い。よって、この場合、インデックス更新装置1は、インデックス情報のうち、リンク元ページにおいて更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報を抽出するので、適切に補充用テキスト情報を抽出することができる。
【0047】
第1インデックス更新部13は、コンテンツDB23(後述の図4参照)に記憶されているコンテンツ情報に基づいて、更新対象WebページのURLに対応するインデックスを生成し、インデックスDB22を更新する。
【0048】
具体的には、第1インデックス更新部13は、コンテンツDB23に記憶されているコンテンツ情報(テキスト情報、画像情報、リンク情報)に基づいて、更新対象Webページに対応するテキスト情報をインデックスとして生成する。続いて、第1インデックス更新部13は、生成したインデックスとしてのテキスト情報をインデックスDB22に記憶させることにより、インデックスDB22を更新する。なお、第1インデックス更新部13は、生成したインデックスが、更新対象WebページのインデックスとしてインデックスDB22に既に更新されている場合、生成したインデックスによるインデックスDB22の更新を行わない。
【0049】
第2インデックス更新部14は、補充用テキスト情報抽出部12により抽出された補充用テキスト情報に基づいて、更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充してインデックスDB22を更新する。
【0050】
具体的には、第2インデックス更新部14は、補充用テキスト情報抽出部12により抽出された補充用テキスト情報、すなわち、更新対象Webページのリンク先のURLに対応するテキスト情報とリンク元のURLに対応するテキスト情報に基づいて、更新対象WebページのURLに対応するインデックスを生成する。続いて、第2インデックス更新部14は、生成したインデックスを、更新対象WebページのインデックスとしてインデックスDB22に記憶させる。
【0051】
実行制御部15は、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14を、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14の順に、補充するインデックスがなくなるまで、繰り返し実行させる。すなわち、実行制御部15は、更新対象WebページのURLに対応するインデックスが新たに生成されなくなるまで、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14を実行させる。
【0052】
なお、本実施形態において、実行制御部15は、補充するインデックスがなくなるまで、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14を繰り返し実行させることとしたが、入力部を介して所定の操作を受け付けることにより、繰り返し実行回数を指定してもよい。
【0053】
また、図18に示すように、インデックス更新装置1に、Webページのコンテンツ情報を受け付け、当該コンテンツ情報をコンテンツDB23に記憶させるとともに、Webページのリンク情報を受け付け、当該リンク情報をリンクDB21に記憶させるクロール部16(受付手段)を設けておく。そして、クロール部16により、コンテンツDB23にコンテンツ情報が記憶された場合又はリンクDB21にリンク情報が記憶された場合に、実行制御部15は、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14を実行させるようにしてもよい。
【0054】
このようにすることで、インデックス更新装置1は、コンテンツDB23に、インデックスを生成する元となるコンテンツ情報が記憶される毎にインデックスを更新するので、迅速にインデックスの更新を行うことができる。
【0055】
図2は、本実施形態に係るリンクDB21を示す図である。リンクDB21は、WebページのURLと、当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶する。具体的には、リンクDB21は、図2に示されるように、WebページのURLを示すURLと、当該Webページに含まれるリンク先のWebページのURLを示すリンク先URLと、を関連付けて記憶する。
【0056】
図3は、本実施形態に係るインデックスDB22を示す図である。インデックスDB22は、WebページのURLと、当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶する。テキスト情報としては、Webページに含まれる特徴語や、Webページを端的に表す単語等が含まれる。
【0057】
ここで、インデックスDB22は、Webページのインデックスとしてのテキスト情報について、図3(a)に示すように、自身のコンテンツ内容に基づいて得られたテキスト情報と、リンク先又はリンク元のWebページに基づいて得られたテキスト情報を、区別せずに記憶させてもよい。また、インデックスDB22は、図3(b)に示すように、自身のコンテンツ内容に基づいて得られたテキスト情報を原始インデックスとして記憶し、リンク先又はリンク元のWebページに基づいて得られたテキスト情報を付加インデックスとして記憶してもよい。すなわち、インデックスDB22は、自身のコンテンツ内容に基づいて得られたテキスト情報と、リンク先又はリンク元のWebページに基づいて得られたテキスト情報とを区別して記憶してもよい。
【0058】
図4は、本実施形態に係るコンテンツDB23を示す図である。コンテンツDB23は、WebページのURLと、当該Webページのコンテンツ情報とを関連付けて記憶する。ここで、Webページのコンテンツ情報は、このWebページのコンテンツの内容を示すテキスト情報、画像情報、映像情報や、このWebページに含まれるリンク先URLのアンカー等のリンク情報が含まれる。
【0059】
[フローチャート]
図5は、本実施形態に係るインデックス更新装置1の制御部10における処理を示すフローチャートである。ここでは、更新対象Webページそれぞれについて、1つずつ順番に処理が行われるものとする。
【0060】
ステップS1では、制御部10は、インデックス更新処理を行う。このインデックス処理については、図6、図7において説明する。
【0061】
ステップS2において、制御部10(実行制御部15)は、全ての更新対象Webページのインデックスが補充されなかったか否かについて判定する。制御部10(実行制御部15)は、この判定がYESの場合、処理を終了し、この判定がNOの場合、処理をステップS1に移し、インデックスの更新に係る一連の処理を再び実行させる。
【0062】
図6及び図7は、本実施形態に係るインデックス更新装置1の制御部10におけるインデックス更新処理を示すフローチャートである。
【0063】
ステップS101(URL抽出ステップ)において、制御部10(URL抽出部11)は、リンクDB21に基づいて、リンク先URL又はリンク元URLを抽出する。
【0064】
ステップS102(補充用テキスト情報抽出ステップ)において、制御部10(補充用テキスト情報抽出部12)は、インデックスDB22を参照し、更新対象Webページのインデックスを抽出する。
【0065】
ステップS103(補充用テキスト情報抽出ステップ)において、制御部10(補充用テキスト情報抽出部12)は、インデックスDB22を参照して、更新対象Webページのリンク先又はリンク元のテキスト情報が、既に記憶されているか否かを判定する。具体的には、制御部10(補充用テキスト情報抽出部12)は、更新対象Webページのリンク先又はリンク元のURLに対応するインデックス(テキスト情報)が、ステップS102において抽出された更新対象Webページのインデックスと一致するか否かを判定する。制御部10(補充用テキスト情報抽出部12)は、この判定がYESの場合、処理をステップS105に移し、この判定がNOの場合、処理をステップS104に移す。
【0066】
ステップS104(補充用テキスト情報抽出ステップ)において、制御部10(補充用テキスト情報抽出部12)は、ステップS101において抽出したリンク先URL又はリンク元URLに基づいて、インデックスDB22を参照し、リンク先URL又はリンク元URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出する。
【0067】
ステップS105(第1インデックス更新ステップ)において、制御部10(第1インデックス更新部13)は、コンテンツDB23に基づいて、更新対象WebページのURLに対応するインデックスを生成する。
【0068】
ステップS106(第1インデックス更新ステップ)において、制御部10(第1インデックス更新部13)は、ステップS105において生成されたインデックスが、インデックスDB22の更新対象Webページのインデックスとして既に記憶されているものと一致するか否かを判定する。制御部10(第1インデックス更新部13)は、この判定がYESの場合、処理を図7のステップS108に移し、この判定がNOの場合、処理をステップS107に移す。
【0069】
ステップS107(第1インデックス更新ステップ)において、制御部10(第1インデックス更新部13)は、ステップS105において生成されたインデックスを、インデックスDB22の更新対象Webページのインデックスに補充することにより、更新対象Webページのインデックスを更新する。
【0070】
図7に移り、ステップS108(第2インデックス更新ステップ)において、制御部10(第2インデックス更新部14)は、ステップS104において更新対象Webページについて補充用テキスト情報が抽出されたか否かを判定する。制御部10(第2インデックス更新部14)は、この判定がYESの場合、処理をステップS109に移し、この判定がNOの場合、処理をステップS111に移す。
【0071】
ステップS109(第2インデックス更新ステップ)において、制御部10(第2インデックス更新部14)は、ステップS104において抽出された補充用テキスト情報に基づいて、更新対象WebページのURLに対応するインデックスを生成する。
【0072】
ステップS110(第2インデックス更新ステップ)において、制御部10(第2インデックス更新部14)は、ステップS109において生成されたインデックスを、インデックスDB22の更新対象Webページのインデックスに補充することにより、更新対象Webページのインデックスを更新する。
【0073】
ステップS111において、制御部10(実行制御部15)は、全ての更新対象Webページに対する処理が行われたか否かについて判定する。制御部10(実行制御部15)は、この判定がYESの場合、インデックス更新処理を終了し、この判定がNOの場合、処理を図6のステップS101に移し、インデックス更新処理を再び実行させる。
【0074】
図8及び図9は、本実施形態に係るインデックス更新装置1の制御部10における処理の変形例を示すフローチャートである。ここでは、全ての更新対象Webページに対して同時に処理が行われるものとする。
【0075】
ステップS201からステップS210までの処理は、図6、図7に示されるステップS101からステップS110までの処理と同様の処理を行うので、説明を省略する。
【0076】
ステップS211において、制御部10(実行制御部15)は、更新対象Webページのインデックスが補充されなかったか否かについて判定する。制御部10(実行制御部15)は、この判定がYESの場合、処理を終了し、この判定がNOの場合、処理を図8のステップS201に移し、インデックスの更新に係る一連の処理を再び実行させる。
【0077】
続いて、図12及び図13を参照して、本実施形態のインデックスDB22が更新される状況について説明する。ここでは、補充用テキスト情報抽出部12が、リンク元URLに基づいて、インデックスDB22を参照し、リンク元URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出してリンク先(更新対象Webページ)のインデックスを補充するものとして説明を行う。
【0078】
図12は、本実施形態に係るリンクDB21の別の一例を示す図である。図12では、URL「http://#1」のリンク元URLが「http://#3」であり、URL「http://#2」のリンク元URLが「http://#1」であることが確認できる。なお、図12では、他のURLも記憶されているが、ここでは、説明を簡易にするため、上記のリンク情報のみ扱うこととする。
【0079】
図13は、本実施形態に係るインデックスDB22が更新される状況を示す図である。ここでは、インデックスDB22に記憶されている複数の更新対象Webページのインデックスを同時に更新する場合について説明する。図13では、説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
【0080】
図13(1)は、インデックスDB22に対して、上述の3つのURLに対応するインデックスが更新される前の状態を示す図である。図13(1)に示す状態では、インデックスDB22のURL「http://#1」のインデックスに対して、インデックス「text#1」、URL「http://#2」のインデックスに対して、インデックス「text#2」、URL「http://#3」のインデックスに対して、インデックス「text#3」が記憶されていることが確認できる。
【0081】
続いて、実行制御部15は、一連の処理を実行(1回目の実行)させる。すると、インデックスDB22は、図13(2)に示す状態となる。
【0082】
図13(2)では、インデックスDB22のURL「http://#1」のインデックスに対して、リンク元URLに対応するインデックス「text#3」が補充されていることが確認できる。また、インデックスDB22のURL「http://#2」のインデックスに対して、リンク元URLに対応するインデックス「text#1」が補充されていることが確認できる。
【0083】
続いて、実行制御部15は、一連の処理を実行(2回目の実行)させる。すると、インデックスDB22は、図13(3)に示す状態となる。
【0084】
図13(3)では、インデックスDB22のURL「http://#1」のインデックスが更新されていないことが確認できる。また、インデックスDB22のURL「http://#2」のインデックスに対して、リンク元URLに対応し、2回目の一連の処理の実行で補充されたインデックス「text#3」が補充されていることが確認できる。
【0085】
続いて、実行制御部15は、一連の処理を実行(3回目の実行)させる。この場合、3つのURLのインデックスに対して補充するインデックスがなくなるので、インデックスDB22の更新が行われず、図13(3)に示す状態のままとなる。
【0086】
続いて、図12及び図14を参照して、本実施形態のインデックスDB22が更新される別の状況について説明する。ここでは、補充用テキスト情報抽出部12が、リンク先URLに基づいて、インデックスDB22を参照し、リンク先URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出して、リンク元(更新対象Webページ)のインデックスを補充するものとして説明を行う。
【0087】
図12については、既に上述で説明しているので、説明を省略する。
図14は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図14では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
【0088】
図14(1)は、インデックスDB22に対して、上述の3つのURLに対応するインデックスが更新される前の状態を示す図である。図14(1)に示す状態では、インデックスDB22のURL「http://#1」のインデックスに対して、インデックス「text#1」、URL「http://#2」のインデックスに対して、インデックス「text#2」、URL「http://#3」のインデックスに対して、インデックス「text#3」が記憶されていることが確認できる。
【0089】
続いて、実行制御部15は、一連の処理を実行(1回目の実行)させる。すると、インデックスDB22は、図14(2)に示す状態となる。
【0090】
図14(2)では、インデックスDB22のURL「http://#1」のインデックスに対して、リンク先URLに対応するインデックス「text#2」が補充されていることが確認できる。また、インデックスDB22のURL「http://#3」のインデックスに対して、リンク先URLに対応するインデックス「text#1」が補充されていることが確認できる。
【0091】
続いて、実行制御部15は、一連の処理を実行(2回目の実行)させる。すると、インデックスDB22は、図14(3)に示す状態となる。
【0092】
図14(3)では、インデックスDB22のURL「http://#1」のインデックスが更新されていないことが確認できる。また、インデックスDB22のURL「http://#3」のインデックスに対して、リンク先URLに対応し、2回目の一連の処理の実行で補充されたインデックス「text#1」が補充されていることが確認できる。
【0093】
続いて、実行制御部15は、一連の処理を実行(3回目の実行)させる。この場合、3つのURLのインデックスに対して補充するインデックスがなくなるので、インデックスDB22の更新が行われず、図14(3)に示す状態のままとなる。
【0094】
以上、図13、図14に示されるように、実行制御部15により、一連の処理が1回実行された場合には、更新対象のWebページのインデックスとして、更新対象のWebページのリンク先URLに対応するインデックス又はリンク元URLに対応するインデックスが記憶される。よって、インデックス更新装置1は、一連の処理を1回実行した場合、更新対象のWebページに直接関連するWebページのテキスト情報、すなわち、リンク先URL又はリンク元URLに対応するテキスト情報を記憶することで、インデックス情報を更新することができる。
【0095】
また、インデックス更新装置1が、一連の処理を2回実行した場合には、インデックスDB22に記憶されている更新対象のWebページのインデックスには、既に、更新対象のWebページのリンク先URLに対応するインデックス又はリンク元URLに対応するインデックスが記憶されている。このため、インデックスDB22には、更新対象のWebページに直接関連しないWebページのインデックスも補充される。よって、インデックス更新装置1は、一連の処理を2回以上実行した場合、直接関連しないWebページのインデックスを補充することができ、柔軟にインデックス情報のリッチ化が実現できる。
【0096】
続いて、図12及び図15を参照して、本実施形態のインデックスDB22が更新される別の状況について説明する。上述の説明では、インデックスDB22に記憶されている複数の更新対象Webページのインデックスを同時に更新する場合について説明したが、図15では、インデックスDB22に記憶されている複数の更新対象Webページそれぞれのインデックスを1つづつ順に更新する場合について説明する。
【0097】
また、ここでは、補充用テキスト情報抽出部12が、リンク先URLに基づいて、インデックスDB22を参照し、リンク先URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出して、リンク元(更新対象Webページ)のインデックスを補充するものとして説明を行う。
【0098】
図12については、既に上述で説明しているので、説明を省略する。
図15は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図15では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
【0099】
まず、実行制御部15は、「http://#1」について、一連の処理を実行させる。すると、インデックスDB22は、図15(2)に示す状態となる。図15(2)では、インデックスDB22のURL「http://#1」のインデックスに対して、リンク先URLに対応するインデックス「text#2」が補充されていることが確認できる。
【0100】
続いて、実行制御部15は、「http://#2」について、一連の処理を実行させる。この場合、「http://#2」に対してリンク先URLのテキスト情報は存在しないので、図15(2)に示す状態のままとなる。
【0101】
続いて、実行制御部15は、「http://#3」について、一連の処理を実行させる。すると、インデックスDB22は、図15(3)に示す状態となる。図15(3)では、インデックスDB22のURL「http://#3」のインデックスに対して、リンク先URLに対応するインデックス「text#1」が補充されていることが確認できる。
【0102】
続いて、実行制御部15は、「http://#1」について、一連の処理を再実行させる。この場合、「http://#2」に対して新たに補充されるリンク先URLのテキスト情報は存在しないので、図15(3)に示す状態のままとなる。続いて、実行制御部15は、「http://#2」、「http://#3」について、一連の処理を再実行させる。この場合も、新たに補充されるリンク先URLのテキスト情報は存在しないので、図15(3)に示す状態のままとなる。続いて、実行制御部15は、3つのURLのインデックスに対して補充するインデックスがなくなるので、処理を終了させる。最終的に、インデックスDB22は、図15(3)に示す状態となる。
【0103】
続いて、図12及び図16を参照して、本実施形態のインデックスDB22が更新される別の状況について説明する。ここでは、インデックスDB22が、原始インデックスと、第2インデックス更新部14により補充されるインデックスを記憶する付加インデックスを備え、原始インデックスの内容に基づいて、インデックスが更新される場合について説明を行う。
【0104】
また、ここでは、補充用テキスト情報抽出部12が、リンク先URLに基づいて、インデックスDB22を参照し、リンク先URLに対応するテキスト情報(インデックス)を補充用テキスト情報として抽出して、リンク先(更新対象Webページ)のインデックスを補充するものとして説明を行う。
【0105】
図12については、既に上述で説明しているので、説明を省略する。
図16は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図16では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
【0106】
まず、実行制御部15は、「http://#1」、「http://#2」、「http://#3」について、この順番に一連の処理を実行させる。すると、インデックスDB22は、図16(2)に示す状態となる。図16(2)では、インデックスDB22のURL「http://#1」の付加インデックスに対して、リンク先URLに対応するインデックス「text#2」が補充されていることが確認できる。また、インデックスDB22のURL「http://#2」の原始インデックスに対して、リンク先URLに対応するインデックス「text#2_1」に更新されていることが確認できる。また、インデックスDB22のURL「http://#3」の付加インデックスに対して、リンク先URLに対応するインデックス「text#1」が補充されていることが確認できる。
【0107】
すなわち、図16(2)に示す状態では、「http://#1」の付加インデックスが「text#2」に更新された後に、「http://#2」の原始インデックスが「text#2_1」に更新されたので、「http://#1」の付加インデックスと、「http://#2」の原始インデックスが異なっている状態となっていることが確認できる。
【0108】
続いて、実行制御部15は、図16(2)に示す状態において、「http://#1」、「http://#2」、「http://#3」について、この順番に一連の処理を再実行させる。すると、インデックスDB22は、図16(3)に示す状態となる。図16(3)では、図16(2)の状態から、インデックスDB22のURL「http://#1」の付加インデックスのみ「text#2_1」に更新されていることが確認できる。すなわち、実行制御部15により、一連の処理を2回実行させることで、原始インデックス及び付加インデックスを確実に更新することができる。
【0109】
なお、実行制御部15は、上述のように処理を行うことに加えて、一連の処理を2回実行させた後に、付加インデックスに記憶されているインデックスを原始インデックスに移動させて、再度、原始インデックスに基づいて、インデックスの更新を行うようにしてもよい。このようにすることで、一連の処理を3回実行することにより、更新対象のWebページに直接関連しないWebページのインデックスも補充することができる。よって、インデックス更新装置1は、上述の方法により一連の処理を3回実行した場合、直接関連しないWebページのインデックスを補充することができ、柔軟にインデックス情報のリッチ化が実現できる。
【0110】
また、インデックスDB22の付加インデックスについて、1回目の実行により補充されるインデックスを記憶させる第1付加インデックス、2回目の実行により補充されるインデックスを記憶させる第2付加インデックスといったように、補充される回数に応じた付加インデックスを設けておき、例えば、第1付加インデックスに補充されたインデックスに基づいて、第2付加インデックスに、インデックスを補充させてもよい。つまり、付加インデックスのインデックスを、補充するインデックスの情報とすることとしてもよい。このようにすることで、直接関連しないWebページのインデックスを補充することができ、柔軟にインデックス情報のリッチ化が実現できる。
【0111】
以上のように、本実施形態によれば、補充用テキスト情報抽出部12により、リンク先URLに対応するテキスト情報又はリンク元URLに対応するテキスト情報を補充用テキスト情報として抽出し、第2インデックス更新部14により、リンク先URLに対応するインデックスとしてのテキスト情報及びリンク元URLに対応するインデックスとしてのテキスト情報に基づいて、更新対象WebページのURLに関連付けられているインデックスを生成し、当該生成したインデックスを補充してインデックスDB22を更新する。
【0112】
このようにすることで、インデックス更新装置1は、リンク元URLに対応するインデックスとしてのテキスト情報又はリンク先URLに対応するインデックスとしてのテキスト情報に基づいて、対象Webページのインデックスを生成して、当該生成したインデックスを補充することができる。よって、インデックス更新装置1は、更新対象Webページ自身に含まれるテキスト情報に限らずにインデックスを生成するので、更新対象Webページに含まれるテキスト情報が少ない場合であっても、そのリンク先のWebページ又はリンク元のWebページのインデックスを補充してインデックスを更新することができる。その結果、インデックス更新装置1は、リンク先のWebページ及びリンク元のWebページに含まれるテキスト情報を当該Webページのインデックスに効率的かつ効果的に反映することができる。
【0113】
また、本実施形態によれば、実行制御部15により、一連の処理、すなわち、URL抽出部11、補充用テキスト情報抽出部12、第1インデックス更新部13、第2インデックス更新部14の順に補充するインデックスがなくなるまで繰り返し実行させるので以下の効果が期待できる。
【0114】
すなわち、一連の処理をインデックスの更新の対象とする複数のWebページについて1回実行しただけでは、インデックスの更新の対象とするWebページの順序によってはリンク先及びリンク元のインデックスとしてのテキスト情報の全てが補充しきれない場合も想定されるのに対し、インデックス更新装置1は、上述の一連の処理を補充するインデックスがなくなるまで繰り返し実行するので、その時点で補充可能なテキスト情報の全てを補充することができる。
【0115】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0116】
1 インデックス更新装置
10 制御部
11 URL抽出部
12 補充用テキスト情報抽出部
13 第1インデックス更新部
14 第2インデックス更新部
15 実行制御部
16 クロール部
20 記憶部
21 リンクDB
22 インデックスDB
23 コンテンツDB
【特許請求の範囲】
【請求項1】
検索エンジンのインデックスを更新するインデックス更新装置であって、
WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、
前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、
前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、
前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出手段と、
当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出手段と、
前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新手段と、
前記補充用テキスト情報抽出手段により抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新手段と、を備えるインデックス更新装置。
【請求項2】
前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段の順に前記補充するインデックスがなくなるまで繰り返し実行させる実行制御手段を更に備える請求項1に記載のインデックス更新装置。
【請求項3】
前記Webページの前記コンテンツ情報を受け付け、当該コンテンツ情報をコンテンツ情報記憶手段に記憶させる受付手段と、
前記コンテンツ情報記憶手段に前記コンテンツ情報が記憶されたことに応じて、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる実行制御手段を更に備える請求項1に記載のインデックス更新装置。
【請求項4】
前記補充用テキスト情報抽出手段は、前記インデックス情報記憶手段及び前記コンテンツ情報記憶手段に基づいて、前記リンク元URLに対応するテキスト情報のうち、前記更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出する請求項1から3のいずれかに記載のインデックス更新装置。
【請求項5】
検索エンジンのインデックスを更新するインデックス更新装置が実行する方法であって、
前記インデックス更新装置は、
WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、
前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、
前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、を備え、
前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出ステップと、
当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出ステップと、
前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新ステップと、
前記補充用テキスト情報抽出ステップにおいて抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新ステップと、を備える方法。
【請求項1】
検索エンジンのインデックスを更新するインデックス更新装置であって、
WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、
前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、
前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、
前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出手段と、
当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出手段と、
前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新手段と、
前記補充用テキスト情報抽出手段により抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新手段と、を備えるインデックス更新装置。
【請求項2】
前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段の順に前記補充するインデックスがなくなるまで繰り返し実行させる実行制御手段を更に備える請求項1に記載のインデックス更新装置。
【請求項3】
前記Webページの前記コンテンツ情報を受け付け、当該コンテンツ情報をコンテンツ情報記憶手段に記憶させる受付手段と、
前記コンテンツ情報記憶手段に前記コンテンツ情報が記憶されたことに応じて、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる実行制御手段を更に備える請求項1に記載のインデックス更新装置。
【請求項4】
前記補充用テキスト情報抽出手段は、前記インデックス情報記憶手段及び前記コンテンツ情報記憶手段に基づいて、前記リンク元URLに対応するテキスト情報のうち、前記更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出する請求項1から3のいずれかに記載のインデックス更新装置。
【請求項5】
検索エンジンのインデックスを更新するインデックス更新装置が実行する方法であって、
前記インデックス更新装置は、
WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、
前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、
前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、を備え、
前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出ステップと、
当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出ステップと、
前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新ステップと、
前記補充用テキスト情報抽出ステップにおいて抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新ステップと、を備える方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【公開番号】特開2012−14396(P2012−14396A)
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願番号】特願2010−149867(P2010−149867)
【出願日】平成22年6月30日(2010.6.30)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願日】平成22年6月30日(2010.6.30)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】
[ Back to top ]