説明

Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体

【課題】 Webページの系列を検索する方法を高速化する。
【解決手段】 インターネット上に発信されている大量のWebページから、Webページから抽出した属性に関する条件とハイパーリンクに関する条件を組み合わせて指定し、Webページの系列を検索するための問い合わせの処理方法において、Webページに関するインデックスを利用し、問い合わせに指定された条件から、未処理で、かつ他条件の処理結果に依存せずに処理結果を求めることのできる条件の処理コストと処理結果を予測し、問い合わせ処理の進行状況にあわせて最適な条件を選択し処理する操作を、問い合わせで指定された全ての条件を処理するまで繰り返し、問い合わせの条件を満たすWebページの系列を求める。

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、出願中の特許「ホームページの系列的検索方法、および装置、記録媒体(特願2000−162658)」で発明された検索方法を高速に行うための発明である。
【0002】インターネット上に発信されているWebページは、年々増加しており、特に都市部においては、地理的にも集中する傾向にある。このため、現在インターネット上で公開されているキーワード検索やディレクトリサービスだけでは、必要な情報を短時間で検索することは困難になりつつある。この問題を解決する手法の一つとして、複数の条件を組み合わせて、Webページを系列として検索する手法が考えられる。この系列を検索するための方法は、特願2000−162658にて発明されているが、その検索を高速に実施する方法は発明されていなかった。
【0003】Webページ系列の検索では、Webページの属性に関する条件と、Webページ間のリンクに関する条件を複数組み合わせて、問い合わせを指定することができる。例えば、類似する情報が複数あるときに、Webページ間のハイパーリンク関係に基づいて有名なリンク集からリンクされているWebページを選択したり、Webページから抽出した地理属性に基づき、一定距離以内にある情報という形で条件を指定し、リンク先を検索することができる。
【0004】この問い合わせの処理するためには、大量のWebページとそこから抽出した属性を評価する必要があり、その検索空間が膨大となるため、幅優先探索アルゴリズムなど、従来の単純なアルゴリズムでは、現実的な時間で問い合わせを処理することはできなかった。本出願で発明する高速化手法では、検索対象となる情報に関する各種インデックスを利用し、その問い合わせ中の条件の評価順序を最適化し、高速に問い合わせ処理を可能にする。
【0005】このWebページの系列に関する問い合わせが高速に処理できるようになると、従来のキーワード指定によるWebページの検索を、リンクに関する条件も含め複数の条件の指定による検索へと拡張することができる。この場合、検索サービスの利用者が、直接条件項目を指定することになるが、その問い合わせの入力方法を変えることで、文章や音声など自然言語による情報検索や、グラフィックユーザインタフェース(GUI)を利用したインタラクティブな情報検索にも適用可能である。また、問い合わせの結果がWebページの系列となるので、その系列をリスト形式で出力したり、直接図示したり、カーナビゲーションのように必要に応じて、順序だててWebページを提示することも可能になる。このように、問い合わせの検索結果は、現在のカーナビゲーションや将来の携帯端末や街頭端末を使った歩行者ナビゲーションなどに応用可能であり、その処理を高速化することにより、ユーザから見た使い勝手を向上させることができる。
【0006】
【従来の技術】インターネット上に存在する膨大な情報から、都市に関連したものを抽出するためには検索機能が必須である。ユーザが検索機能を直接利用する場合は、キーワード指定による検索が便利ではあるが、その検索結果に意図しない結果が大量に含まれるなど、その結果に対する信頼性には問題があった。
【0007】こうした問題を解決する手法の一つとして、キーワードなどWebページの属性やハイパーリンク関係など複数の条件を指定して、Webページを系列として検索する手法が考えられる。これにより、例えばキーワードレベルだけで検索されていた意図されていなかった結果を排除することができる。
【0008】こうしたWebページの系列を検索するための方法の一つとしてWeb空間を対象とした検索言語がある。この検索言語には、リンク構造とコンテンツに関する条件の指定により検索を行うW3QL(David Konopnicki and Oded Shmueli.W3QS: A Query System for the World-Wide Web. In Proceedings of the 21stInternational Conference on Very Large Data Bases, pp.54-65, 1995、David Konopllicki and Oded Shmueli. Information Gathering in the World WideWeb: The W3QL Query Language and the W3QS System. ACM Transactions on Database Systems, Vol. 23, No. 4, pp. 369-410, 1998)やWebSQL(Alberto O. Mendelzon, George A. Mihaila, and Tova Milo. Querying the World Wide Web. International Journal on Digital Libraries, Vol. 1, No. 1, pp. 54-67, 1997、Alberto O. Mendelzon and Tova Milo. Formal Models of Web Queries. In Proceedings of the 16th ACM Symposium on Principles of DatabaseSystems, pp. 134-143, 1997)、Webページの構造に関する条件指定や検索結果の再構成が可能なWebOQL(Gustavo O. Arocena and Alberto O. Mendelzon. Weboql: Restructuring Documents, Databases, and Webs. In Proceedings of ICDE, pp. 24-33. 1998)、StruQL(Mary Fernandez, Daniela Florescu, Alon Levy, and Dan Suciu. A Query Language for a Web-Site Management System. SIGMOD Record, Vol. 26, No. 3, pp. 4-11, 1997)がある。Web情報を対象とした検索言語はXMLの標準化と密接に関連する領域でもある。
【0009】一方、電子化した都市情報を地図と関連づけて扱うためのシステムとしては、地理情報システム(GIS)がある。従来GISは単独の計算機で用いられることが多かったが、近年のネットワークとパソコンの普及により、多様な利用形態が可能な数多くの製品が発表されてきている。WebGISなどインターネットへの広がりもその一つと考えられ、将来的には、インターネット上のコンテンツと密接に関わりを持つ可能性も持っている。現在の段階では、情報の位置を地図上に表示するようなサービスが公開されているが、特願2000−162658のようなWebページの系列を検索するようなサービスはまだ行われていないと理解している。
【0010】特願2000−162658の発明は、その検索空間を拡張Web空間(平松薫、石田亨、地域情報サービスのための拡張Web空間、情報処理学会論文誌:データベース、Vol. 41, No. SIG6(TOD7), PP. 81-90, 2000)とし、その情報空間を半構造データ(Serge Abiteboul. Querying Semi-Structured Data. In Database Theory - ICDT '97, 6th, International Conference, pp. 1-18, 1997、田島敬史、半構造データのためのデータモデルと操作言語、情報処理学会論文誌:データベース、Vol. 40, No. SIG 3(TOD 1), pp. 152-170, 1999)として捉えている。半構造データを対象としたデータベースシステム(DBMS)の一つに、スタンフォード大学で開発されたLoreがある。Loreでは、XMLに代表される半構造データに特化した各種インデックスを導入(Roy Goldman and Jennifer Widom. DataGuide: Enabling Query Formulation and Optimization inSemistructured Databases. In Proceedings of the 23rd International Conference on Very Large Data Bases, pp. 436-445, 1997)し、その問い合わせ処理にはコスト予測を導入して最適化を実現している(Jason McHugh and Jennifer Widom. Query Optimization for XML. In Proceedings of the 25th International Conference on Very Large Data Bases, pp. 315-326, 1999)。本発明の手法は、Loreの手法と非常に良く似ているが、最大の差は、対象とした検索空間の具体性にある。本発明では、実際の都市における情報に基づいた拡張Web空間を検索対象とし、その問い合わせを最適化するために、条件の評価順序の決定方法を特化させている。また、検索システムで利用するインデックスの構築をWebページとGISを用いて作成し、最適化手法の有効性なものにしている。
【0011】このインデックスの構築は、Web情報のキャッシュを行うプロキシや、その関連プロトコル、GISとWeb情報を関連づけるためのアドレスマッチングなどと関連するものである。本発明では、インデックスの効率的な構築や更新は考慮にいれていないが、問い合わせ処理の最適化と合わせて、拡張Web空間に基づく検索システムの周辺技術として連携させる必要がある。
【0012】
【発明が解決しようとする課題】本発明は、特願平11−149100(特開2000−339330号公報)および特願2000−162658から発想したものであり、これまでに発明したWebページの系列を検索する方法を高速化するためのものである。これまでに発明してきたWebページの系列の検索では、大量のWebページとそこから抽出した属性を評価する必要がある。その検索空間が膨大となるため、これまでの発明で用いた幅優先探索アルゴリズムなど、単純なアルゴリズムでは、検索自体は可能なものの、現実的な時間で問い合わせを処理することはできなかった。この処理時間の問題により、これまでの方法に基づき作製したシステムは、旅行計画やナビゲーション用のコンテンツの作成など、問い合わせに基づく検索結果をあらかじめ構築してそれを公開するような、間接的な利用に限られていた。
【0013】
【課題を解決するための手段】前節で述べた処理時間による制限をなくすため、本出願ではその高速化手法を発明する。高速化手法では、検索対象となるWebページから抽出したキーワードやハイパーリンクなどの属性情報に関する各種インデックス、問い合わせに応じて抽出した属性間の関連性に基づきWebページ間のリンクを動的に生成するためのインデックスを利用し、問い合わせ処理を進めていく。インデックスは、実際のWebページをWebロボットで収集し、自然言語処理やアドレスマッチング等を行って作成する。
【0014】問い合わせに含まれる複数の条件は、これらインデックスを利用して評価されるが、単純なアルゴリズムでは、従来システムと同様、検索空間が爆発する可能性がある。そこで、問い合わせを進めていく上で、逐次、指定された条件で未評価のものから条件間の依存関係に基づき評価可能な条件を選び、その条件式それぞれの処理コストと検索結果数を予測し、その積が最小となる条件式から、評価を行っていく。条件式の処理コストとは、システムが検索で利用するインデックスにアクセスする上で関数を呼び出す上での初期の遅延と、条件ごとにかかる検索遅延、そして検索結果の内部処理にかかる遅延をさす。これらの遅延は、検索システムの動作する環境ごとに計測し、統計情報として処理に反映させる。また、検索結果数は、インデックスの先読みと、インデックスの統計情報に基づいた予測により求めた、条件を満たすWebページ数をさす。この条件を選択する操作と条件の評価を、未評価の条件が無くなるまで繰り返すことで、要求された問い合わせの条件を満たすWebページの系列を求める。
【0015】処理コストと検索結果数の積が最小になる条件式とは、処理が高速にでき、かつその処理による検索空間の広がりを抑えられる条件式になる。これにより、従来システムの単純なアルゴリズムで問題となった処理時間の問題と検索空間の爆発を回避できる。
【0016】また、この種の予測を利用した最適化手法では、手法自体の精度と処理コストが問題となる。最適化手法で用いる予測の精度は、随時検索の進行状況を反映させた予測を行うことで、正確な予測を行うことを可能にする。また、発明した方法では、データベースシステムの最適化で多く利用されている動的プログラミングのような、処理の順序の組合わせ問題を解決するような複雑な処理は行わない。単純な処理の逐次予測を行い、処理を進めていくので、最適化による問い合わせ処理自体への影響を小さく抑え、問い合わせ処理全体を高速なものにできる。
【0017】
【発明の実施の形態】以下、図面を参照して本発明の実施の形態を詳細に説明する。
[実施形態1]図1に本発明の一実施形態の構成を示す。本発明に基づいたこの検索システムは、検索制御モジュール、Webモジュール、形態素解析器、GIS、地理的ジェネリックリンク生成モジュール、位置情報データベース(POI−DB)、Webページ中の属性に関するインデックス(属性インデックス)、そしてハイパーリンクに関するインデックス(リンクインデックス)で構成される。なお本実施形態では、Webページから抽出した地理属性に基づきユーザの問い合わせ要求に応じてWebページ間に動的に生成するリンクのことを地理的ジェネリックリンクと呼ぶ。
【0018】各モジュールは以下のように動作する。
・検索制御モジュールは、ユーザインタフェースからのクエリの受け付けと問い合わせ処理の実行、そして処理結果の出力を行う。問い合わせ処理を実行するために、検索制御モジュールは、Webモジュールおよび地理的ジェネリックリンク生成モジュールと連携し、クエリで指定された検索経路上のWebページの条件評価とリンクの展開を行う。また検索制御モジュールは、この問い合わせ処理を最適化するために、評価可能な条件式の選択と処理コスト及び検索結果数の予測を行い、その積が最小となる条件から処理を行う。
・Webモジュールは、検索制御モジュールからの指示に従い、Webページの属性に対する条件評価、ハイパーリンクの抽出、そして属性指定によるインデックスの検索を行う。
・地理的ジェネリックリンク生成モジュールは、検索制御モジュールからの指示に従い、Webページから抽出した地理的属性に基づき、Webページ間の地理的な関係を表す地理的ジェネリックリンクを生成する。
【0019】各インデックスは、実際のインターネットから収集したWebページと実際の地理情報に基づいて構築する。図2に、Webページ中の属性に関するインデックス、およびハイパーリンクに関するインデックスの構築例を示す。Webページ中の属性に関するインデックスでは、Webページから抽出したタイトル、キーワード、住所等の属性とURLを関連づけて保存し、クエリに指定された属性条件を満たすWebページのURLを高速に検索できるようにする。この際、Webページのタイトルはページ中のHTMLタグを分析して抽出する。キーワード、住所は自然言語処理を行い抽出する。また、ハイパーリンクに関するインデックスでは、指定されたWebページのURLをキーとして、そのWebページからリンクしているリンク先WebページのURL、もしくはそのWebページへとリンクしているリンク元WebページのURLを高速に検索できるようにする。
【0020】Webページ間の地理的ジェネリックリンクは、リンクの起点となるWebページのURLに対応する地理的座標を検索し、求めた座標と指定された地理的関係にあるオブジェクトを検索し、そのオブジェクトに対応するURLを求めて生成する。このうち、WebページのURLと地理的座標の対応付けには、図3に示すような、WebページのURLとそのページの内容に対応する地理的なオブジェクトの座標を組にして格納したPOI−DBを利用する。このPOI−DBを利用することで、対応付けの高速化を図る。また図中の例では、地理座標の表現方法として緯度経度による座標系のみを利用しているが、本発明の手法はこの座標系に限定されない。インデックスの高速検索および地理座標間の関係演算の高速化のために、POI−DB中の地理座標系を統一する必要があるが、1つのWebページに対応する座標が必要に応じて複数の座標系で表現されていても良い。平面直角座標系やWGS−84系など、複数の座標系間での相互変換を可能にする適切な変換関数を用いることにより、複数の座標系への対応を可能にする。なお、各インデックスに格納されるURLに付加情報を加えることにより、検索時の優先順位の設定や、検索の抑制・禁止を指定することも可能である。
【0021】本検索システムでは、インターネット上に発信されている大量のWebページから、問い合わせで指定された条件に基づいてWebページの系列を検索する。この問い合わせは、以下の要素を組み合わせて指定する。
・検索経路Webページとハイパーリンク、および地理的ジェネリックリンクの組合わせにより、Webページの系列を検索するための経路を指定する。
・検索条件検索経路上に出現するWebページの属性に関する条件と、ハイパーリンクもしくは地理的ジェネリックリンクに関する条件を指定する。
・出力形式検索されたWebページの系列から、検索結果として出力する要素を指定する。
【0022】このうち、検索条件として指定できる条件とその例を以下に示す。
(1)Webページから抽出した属性と定数を比較する条件・Webページp_1のURLを指定 → p_1.url eq 'http://www.aa.com/'・Webページp_1のURLの一部を指定 → P_1.url =/com/・Webページp_1のテキスト部に指定文字列が含まれる → P_1.text =/xxxx/・Webページp_1の住所に指定文字列が含まれる → P_1.address =/addr/(2)Webページ間のハイパーリンクに関する条件・Webページp_1とWebページp_2がハイパーリンクlinkで接続している →link AS HYPERLINK(3)Webページ間の地理的ジェネリックリンクに関する条件・Webページp_1とWebページp_2が地理的ジェネリックリンクlinkで接続している → link AS Distance(P_1,P_2) < 100(検索経路上でP_1とP_2がlinkで接続していて、かつ距離100未満という条件で地理的ジェネリックリンクを生成する場合)
(4)Webページから抽出した属性間で比較を行う条件・指定された属性(attr)がWebページp_1とWebページp_2で一致 → P_1.attr eq P_2.attr
【0023】なお、これら問い合わせに含まれる要素は論文(平松薫、石田亨、地域情報サービスのための拡張Web空間、情報処理学会論文誌:データベース、Vol. 41,No. SIG6(TOD7), PP. 81-90, 2000)中で定義されているデータベース検索言語として一般的なSQLを拡張Web空間の検索に合わせて拡張した検索言語に対応するものであるが、下記の要素を含んでいれば、本実施形態の検索システムはWebページの系列の検索を実行することができる。従って、問い合わせを指定するための表現は、定義された検索言語に限定されるものではない。
【0024】また、この問い合わせを生成するユーザインタフェースとしては、地図を使ったインタフェースや3次元仮想空間を利用したインタフェース、自然言語を用いたインタフェースなどが考えられるが、本実施形態の中では特に言及はしない。ユーザがこれらのユーザインタフェースを利用して入力した問い合わせが、上記の形式へと変換された後の問い合わせ処理についてのみ扱うものとする。
【0025】入力された問い合わせの処理手順は以下のようになる。また、この処理の流れを図4に示す。
[1]問い合わせ処理に利用する各関数の予測処理コストとインデックスの統計値を取得する。
[2]入力された問い合わせを解析し、システム内の中間形式に変換する。この際、検索パス上のWebページの状態を全て未処理に設定する。
[3]条件式のうち、未評価でかつ評価可能な式それぞれについて処理コストと検索結果数を予測し、その積が最小となる条件式を選択して以下のように処理する。
[3.1]対象Webページが未処理、かつ条件式が属性条件によるWebページの選択の場合は、条件式による検索結果を全て登録し、対象となったWebページの状態を処理中にする。
[3.2]対象Webページが処理中、かつ条件式が属性条件によるWebページの選択の場合は、条件式による検索結果と既に登録されている検索結果を比較し、一致しなかった検索結果を登録から削除する。
[3.3]対象Webページが未処理、かつ条件式がリンクの展開の場合は、条件式によって得たリンク情報を全て登録し、対象となったWebページの状態を処理中にする。
[3.4]対象Webページが処理中、かつ条件式がリンクの展開の場合は、条件式によって得たリンク先とリンク先のWebページとして既に登録されている検索結果を比較し、一致しなかった検索結果とそのリンク情報を登録から削除する。
[4]未評価の条件式が無くなった検索パス上のWebページの状態を検索済に変更する。
[5]検索パス上の全てのWebページが処理済となったら登録された検索結果から指定された属性を出力して検索終了、それ以外の場合は[3]へ戻る。
【0026】この処理手順中で利用する処理コストの予測式は、問い合わせに指定された条件を、問い合わせの進行状況に応じて、最適な順序で処理するために利用する。従来のデータベース管理システムの問い合わせ処理では、実際の処理を始める前に指定された条件の処理順序を最適化し、その順序に従って処理を進めるのが一般的である。これに対し、本発明の処理手順では、問い合わせ処理の進行にあわせて処理可能な条件の処理コストを予測し、場面場面で最適な条件を決定する。検索システムは、この予測に基づいた処理対象とする条件の決定と実際の条件処理を繰り返し、問い合わせ処理を進める。これにより、インターネット上のWWW情報空間を地理情報により拡張した拡張Web空間に半構造性に対応する。表1に処理コストの予測式の詳細を示す。
【0027】
【表1】


【0028】まず、問い合わせ条件に関する予測式に含まれる定数について説明する。*_index_access_overheadは、条件を処理するためにインデックスを利用する際に関数の初期化に必要なオーバーヘッドを示す。*_index_access_costは、実際に条件を指定しインデックスを検索するためのコストである。CompCostは検索システム内で、変数間の比較処理を行うためのコストを表す。これらの定数は、検索システム内の処理時間に基づいたコストであり、動作環境および検索システムが利用する各種インデックスの状況によって変化する。従って、検索システムが起動時に自動的に調査取得、もしくは同じ環境で調査取得して保存してある値を利用する。
【0029】次に、予測式に含まれる変数について説明する。|Pn|は、それまでに行った問い合わせ処理の中間結果の中で、条件の対象となっているWebページPnに対応する中間結果として登録されているWebページ数を表す。|estimation_result|は、条件の処理により得られるであろう検索結果数の予測を表す。このうち|estimation_result|は、処理対象となっている属性のインデックスから条件に合致するデータ数のみを取得、もしくは属性の値の分布を表したヒストグラムと条件に合致する値の区間の関係を利用したデータ数の予測(Gregory Piatetsky-Shapiro and Charles Connnell. Accutrate estimation of the numberof tuples satisfying a condition. In Proceedings of 1984 ACM-SIGMOD Conference on the Managemente of Data, pp. 256-276, 1984)により求める。
【0030】表1の問い合わせの条件は、先に述べた検索条件(1)〜(4)に対応する。なお、条件式中のoperatorは、eq(等しい)などの2項間の比較演算子、=〜(含んでいる)などのパターンマッチ演算子を示す。これらの記号は、プログラミング言語Perlで用いられている演算子と同等である。
【0031】問い合わせの条件のうち(1)〜(3)は、条件の対象となっている検索経路上のWebページが、それまでに処理の対象となったか否かによって、利用する予測式が異なる。(1)のWebページの属性と定数の比較の処理コストは、属性に関するインデックスを利用する際の関数の初期化に必要なコスト(予測式1行目)と、指定された値のインデックス検索を行うためのコスト(予測式2行目)と、検索結果の後処理に必要なコスト(予測式3行目)を足しあわせて予測する。このうち後処理に必要なコストは、条件の対象となっている検索経路上のWebページが、それまでに処理の対象となっていない場合は、条件の処理結果を中間結果としてシステム内の記憶領域へ登録するためのコストを加える。この時、条件の処理結果得られるWebページ数はインデックスを利用して予測する。また、Webページが既に処理対象となっていた場合は、登録されている中間結果と新たに得られた結果で一致している結果のみを中間結果に残すため、双方の比較に必要なコストを予測コストに加える。
【0032】(2)のハイパーリンクの展開、および(3)の地理的ジェネリックリンクの展開は、リンクの起点となるWebページの中間結果が得られた時点で処理可能となり、処理コストを予測対象となる。予測式は、ほぼ(1)の予測式と同様であるが、各予測式の2行目でリンクに関するインデックス検索を行うコストを求める際、インデックス検索コストに条件の起点となっているWebページに対応する中間結果数をかけ、コストを予測する。また、ハイパーリンクに関する条件の場合は、順方向のリンク展開と逆方向のリンク展開の双方を考慮にいれる。(4)のWebページ間で属性を比較は、条件の対象となるWebページ双方の中間結果が得られた段階で評価可能となる。この操作の処理コストの予測は、対象となるWebページ数の和に比較処理コストをかけて求める。
【0033】まず、コスト予測を利用した処理の最適化手順を示すために、図5に示した簡単な問い合わせ例の処理手順を説明する。図中の楕円でP1等記入されているのが、問い合わせで検索するWebページを示し、説明ではノードと呼ぶ。また、ノード間の矢印がリンクを示し、矢印の説明として記述されている“hyperlink”や“Distance”がそのリンクに関する条件を表す。
【0034】この例では、URLがhttp://www.aa.com/であるノードP1からハイパーリンクしているWebページで、かつ本文中に「支店」という文字列を含むノードP2を検索し、その系列を出力するというものである。この例ではURLの指定によりP1を確定した後、P1からハイパーリンクしているノードを検索するか、本文中に「支店」という文字列を含むノードを検索するかを、処理の予測コストの大小により決定する。この予測コストの大小は、時間に基づいた処理コストと処理結果の積で決まるので、処理時間が短く、かつ条件処理によって得られる結果が少ない場合に予測コストが小さくなる。すなわち、問い合わせ処理を進める上で、処理に時間が係らない条件で、かつ処理の結果、検索空間が大きくならない場合に予測コストが小となる。
【0035】もし、ハイパーリンク条件の処理の方が予測コストが小さい場合、図の左側の処理となる。この場合は、P1からハイパーリンクで接続しているノードをハイパーリンクに関するインデックスを利用して求め、求めたノードの中からWebページの属性に関する条件である文字列「支店」を含むものを選択する。また、Webページの属性に関する条件の処理の方が予測コストが小さい場合は、図の右側の処理となる、こちらの場合は、Webページの属性に関する条件である文字列「支店」を含むノードを、Webページの本文中のキーワードに関するインデックスを利用して検索し、その後、検索したノードの中からP1とハイパーリンクで接続しているノードを求める。
【0036】いずれの場合も処理結果は同じであるが、問い合わせ処理中の途中結果の大きさは、P1からハイパーリンクで接続しているWebページの数、およびP2の属性条件として指定された「支店」という文字列を含むWebページの数によって大きく左右される。この途中の検索空間を小さく抑えることで、システム内部の比較処理回数等を削減することができ、最終的には高速な問い合わせ処理が可能となる。
【0037】次に、本実施形態を用いたより具体的な問い合わせ処理の最適化例を示すために、図6の例について説明する。この問い合わせでは、指定されたリンク集を起点にハイパーリンクをたどり、Webページの属性に関する条件と、地理的ジェネリックリンクに関する条件を組み合わせて、Webページの系列を検索する。問い合わせは、起点となるリンク集に対応するノードP1から、目的のWebページに対応するノードP4までが、ノードとリンクの繰り返しによる検索パスによって指定する。なお、バス停と喫茶店については、Webページ上の記述から検索できるものとして説明を進める。
【0038】ちなみに、この例の問い合わせを文章で記述すると以下のようになる。「イタリア料理店を紹介するリンク集」で紹介されているお店から、「パスタ」に関する記述のあるWebページを選び、そのお店から、500m以内にあるバス停を検索し、そのバス停からさらに500m以内にある「コーヒー」を出す喫茶店を検索する。
【0039】次に、この問い合わせ例の中の条件の処理順序について説明する。図7が最適化なしの場合の条件の処理順序、図8が最適化ありの場合の条件の処理順序であり、図中の括弧付の数字は、問い合わせ例の中で指定された条件の処理順序を表す。この処理順序を最適化ありの場合となしの場合で比較すると、URLの指定に基づいた検索の起点P1の確定と、ハイパーリンクに関するインデックスを利用したP1からP2へのハイパーリンクの展開の2番目の処理までは同じ順序で行われた。しかし、3番目以降の処理順序には差が見られた。最適化なしの場合は、問い合わせに指定された順序に従って、条件処理が進んだのに対し、最適化ありの場合は、ノードP4、P2、P3のWebページの属性に関する条件が、Webページのテキスト部に出現する語句に関するインデックスを利用して先に処理され、その後、ノード間の地理的ジェネリックリンクに関する条件がPOI−DBと地理的関係演算により処理された。
【0040】この問い合わせ処理中にシステム内部で行われた比較処理回数(図9)を見てみると、問い合わせ処理の3番目と5番目に大きな差が見られ、最適化により属性に関する条件を先に評価し、その後リンクを展開することで、システム内部の比較回数が削減された事がわかる。従って、問い合わせ例の処理では、処理の前半に検索パス上のノードに対応するWebページの選択を行い、その後Webページ間のリンク関係を検証する手順を最適化により選択することで、問い合わせ処理の高速化ができた。
【0041】本実施形態は、上記のような手法で実装する検索システムに関するものであるが、下記に挙げたユーザが利用する端末の形態、検索システムの設置形態、検索システムの利用形態、および利用するネットワークの形態のいずれを組合わせた場合も、実施形態の検索システムは入力された問い合わせを高速に処理することができる。
・ユーザが利用する端末の形態:デスクトップコンピュータ、携帯型コンピュータ、PDA、ノート型コンピュータ、ウェアラブルコンピュータ、携帯電話、固定電話、公衆電話、カーナビゲーションシステム、街頭端末。
【0042】・検索システムの設置形態:インターネットで公開されているコンピュータへの検索システムの設置。インターネットに公開されていない内部利用を目的とするコンピュータへの検索システムの設置。ネットワークに接続されていないが電話網、携帯電話網と接続するモデムを有するコンピュータへの検索システムの設置。ネットワーク及び電話網と独立し、単独で動作するコンピュータへの検索システムの設置。(上記の単独動作以外の場合は、検索システムを構成するモジュールを一台のコンピュータ上で集中的に動作しなければならないという制限はなく、複数のコンピュータに分散させることも可能)
【0043】・検索システムの利用形態:穴埋め式フォームからの入力受け付けと、木構造表示、地図もしくは仮想空間を利用した2次元もしくは3次元的な表示の一つ以上の表示方法を組み合わせた検索結果表示。穴埋め式フォームからの条件入力と、検索可能な項目の木構造表示、地図もしくは仮想空間を利用した2次元もしくは3次元的な検索可能な項目の表示を一つ以上組合わせた問い合わせ入力と、それに対応した検索結果表示。上記の複数の入出力手法に、音声による条件入力及び検索結果出力を加えた複数の入出力方法から、一つ以上を組み合わせた利用形態。
・利用するネットワークの形態:無線接続もしくは有線接続、また常時接続もしくはダイアルアップ接続。
【0044】[実施形態2]実施形態1の地理的ジェネリックリンク生成モジュールと同様に、Webページから抽出した語句の類似性など、Webページの自然言語属性の関連性によって動的にリンクを生成するモジュールを問い合わせ処理に利用する。このモジュールは、Webページから抽出した属性と抽出元であるWebページのURLを格納した自然言語属性DBと、シソーラスもしくは辞書に基づき属性間の類似性を評価するための関数により、Webページ間にリンクを生成する。たとえば、以下のような語句の類似性に基づきWebページ間に動的にリンクを生成する。
・リンク元Webページの指定語句と同じ語句を含む。
・リンク元Webページの指定語句の類義語を含む。
この自然言語属性の関連性によって動的にリンクを生成するモジュール以外の検索システムの構成、検索手順、および利用形態は実施形態1と同様である。
【0045】[実施形態3]実施形態1の地理的ジェネリックリンク生成モジュールの代わりに、Webページから抽出した属性、Webサーバ名、Webページのアドレス、URL、HTMLタグ、ハイパーリンクの関連性により、動的に生成するモジュールを利用する。このモジュールは、抽出した属性と抽出元であるWebページのURLを格納したWebページ属性DBと、属性間の類似性を評価するための関数により、Webページ間にリンクを生成する。
【0046】たとえば、以下のような属性の類似性に基づきWebページ間に動的にリンクを生成する。
・リンク元Webページの保存されているサーバと同じサーバに保存されている(サーバアドレスの完全一致)。
・リンク元Webページの保存されているサーバと同じドメインに属するサーバに保存されている(サーバアドレスの部分一致)。
・リンク元Webページが保存されているWebサーバ上のディレクトリと同じディレクトリに保存されている。
・リンク元Webページが保存されているWebサーバ上のディレクトリに含まれる下位ディレクトリに保存されている。
・リンク元Webページが保存されているWebサーバ上のディレクトリの上位ディレクトリに保存されている。
・リンク元Webページと同種のタグ(たとえば、イメージタグ、表、箇条書き)を含んでいる。
・リンク元Webページ中のハイパーリンク先と同じリンク先を含んでいる。
【0047】この、サーバ名、Webページのアドレスなど、Webページから抽出した属性の関連性によりリンクを動的に生成するモジュール以外の検索システムの構成、検索手順、および利用形態は実施形態1と同様である。
【0048】[実施形態4]実施形態1から実施形態3で示した動的なリンクを生成するモジュールを一つ以上組み合わせて実施できる検索システム。
【0049】以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0050】
【発明の効果】以上述べたように本発明によれば、Webページの系列を検索する問い合わせを高速に処理することを可能にするという効果が得られる。この問い合わせとは、Webページから抽出した属性に関する条件と、Webページ間のハイパーリンクに関する条件と、Webページから抽出した属性の関連性を利用して動的に生成するWebページ間のリンクに関する条件を組み合わせ問い合わせたものである。また処理には、抽出した属性に関するインデックスとリンクを生成するためのインデックスを利用し、問い合わせ中の条件の処理コストと検索結果数の予測の積が最小となる条件から処理を進め、問い合わせの高速処理を可能にする。
【図面の簡単な説明】
【図1】本発明の一実施形態を示す図である。
【図2】検索システムで利用するインデックスの構築例を示す図である。
【図3】POI−DBの構築例を示す図である。
【図4】問い合わせ処理手順を示す図である。
【図5】コスト予測による処理条件の選択例を示す図である。
【図6】問い合わせ例の検索パスを示す図である。
【図7】最適化なしの場合の検索順序を示す図である。
【図8】最適化ありの場合の検索順序を示す図である。
【図9】検索システム内部の累積比較回数を示す図である。

【特許請求の範囲】
【請求項1】 インターネット上に発信されている大量のWebページから、Webページから抽出した属性に関する条件とハイパーリンクに関する条件を組み合わせて指定し、Webページの系列を検索するための問い合わせの処理方法において、Webページに関するインデックスを利用し、問い合わせに指定された条件から、未処理で、かつ他条件の処理結果に依存せずに処理結果を求めることのできる条件の処理コストと処理結果を予測し、問い合わせ処理の進行状況にあわせて最適な条件を選択し処理する操作を、問い合わせで指定された全ての条件を処理するまで繰り返し、問い合わせの条件を満たすWebページの系列を求めるWebページ検索方法。
【請求項2】 請求項1に記載のWebページ検索方法であって、前記Webページに関するインデックスは、Webページの属性値からURLを求めることの出来るインデックスと、WebページのURLからリンク先およびリンク元WebページのURLを求めることのできるハイパーリンクに関するインデックスであり、前記他条件の処理結果に依存せずに処理結果を求めることのできる条件は、Webページの属性に関する条件と、ハイパーリンクに関する条件のうち、他の条件の処理により、リンク元またはリンク先もしくはその両方のWebページ集合が空でない条件以外の条件であり、前記処理コストの予測は、検索システムがWebページに関するインデックスを利用して条件を処理するときに必要な時間の予測に基づくものであり、関数呼び出し時の初期遅延の予測と、条件を処理するための時間の予測、処理結果を検索システム内のそれまでの処理結果と整合させるために必要な時間の予測の和であり、前記処理結果の予測は、検索システムがWebページに関するインデックスを利用して条件を処理を行い得られる結果の予測であり、インデックスの先読みとインデックスの統計情報に基づき求めるものであり、前記問い合わせ処理の進行状況にあわせて最適な条件は、処理コストの予測と処理結果の予測の積が最小となる条件であることを特徴とするWebページ検索方法。
【請求項3】 請求項1または2に記載のWebページ検索方法であって、前記Webページの系列を検索するための問い合わせに、Webページから抽出した属性に基づきWebページ間に動的に生成するリンクに関する条件を加えて指定することができることを特徴とする検索方法。
【請求項4】 請求項3に記載のWebページ検索方法であって、WebページのURLから動的に生成するリンクのリンク先およびリンク元WebページのURLは、次の3ステップを経て求めることを特徴とするWebページ検索方法。
1.問い合わせ中で指定された属性をURLで指定されたWebページから抽出するステップ2.抽出した属性値から条件で指定された関係にある属性値を検索するステップ3.検索した属性値に対応するURLをインデックスを利用して検索するステップ
【請求項5】 請求項3または4に記載のWebページ検索方法であって、前記動的に生成するリンクに関する条件として、Webページ間の地理的関係によって動的に生成するリンクに関する条件を指定することができることを特徴とするWebページ検索方法。
【請求項6】 請求項5に記載のWebページ検索方法であって、Webページから抽出した地理的属性間の関係は、地理情報システム(GIS)上の地理的関係演算、もしくは幾何的な関係演算を用いて処理し、Webページからの地理属性の抽出は、システム中に指定された地理表現とのパターンマッチング、もしくは文書中から地理表現を抽出することの出来る形態素解析を用いることを特徴とするWebページ検索方法。
【請求項7】 請求項3ないし6のうちいずれか1項に記載のWebページ検索方法であって、前記動的に生成するリンクに関する条件として、Webページから抽出した表現を自然言語表現の類似性によって動的に生成するリンクに関する条件を指定でき、Webページから抽出した自然言語表現間の類似性は、シソーラス、もしくは言語辞書を用いて、その関係を評価することを特徴とするWeb検索方法。
【請求項8】 請求項3ないし6のうちいずれか1項に記載のWebページ検索方法であって、前記動的に生成するリンクに関する条件として、Webページから抽出した属性Webサーバ名、Webページのアドレス、URL、HTMLタグ、ハイパーリンクの関連性により動的に生成するリンクに関する条件を指定することができることを特徴とするWebページ検索方法。
【請求項9】 コンピュータを、インターネット上に発信されている大量のWebページから、Webページから抽出した属性に関する条件とハイパーリンクに関する条件を組み合わせて指定した、Webページの系列を検索するための問い合わせを受け付ける手段、Webページに関するインデックスを利用し、問い合わせに指定された条件から、未処理で、かつ他条件の処理結果に依存せずに処理結果を求めることのできる条件の処理コストと処理結果を予測し、問い合わせ処理の進行状況にあわせて最適な条件を選択し処理する操作を、問い合わせで指定された全ての条件を処理するまで繰り返し、問い合わせの条件を満たすWebページの系列を求める手段、および、問い合わせの条件を満たすWebページの系列を出力する手段、として機能させるためのWebページ検索プログラム。
【請求項10】 請求項9に記載のWebページ検索プログラムであって、前記Webページに関するインデックスは、Webページの属性値からURLを求めることの出来るインデックスと、WebページのURLからリンク先およびリンク元WebページのURLを求めることのできるハイパーリンクに関するインデックスであり、前記他条件の処理結果に依存せずに処理結果を求めることのできる条件は、Webページの属性に関する条件と、ハイパーリンクに関する条件のうち、他の条件の処理により、リンク元またはリンク先もしくはその両方のWebページ集合が空でない条件以外の条件であり、前記処理コストの予測は、検索システムがWebページに関するインデックスを利用して条件を処理するときに必要な時間の予測に基づくものであり、関数呼び出し時の初期遅延の予測と、条件を処理するための時間の予測、処理結果を検索システム内のそれまでの処理結果と整合させるために必要な時間の予測の和であり、前記処理結果の予測は、検索システムがWebページに関するインデックスを利用して条件を処理を行い得られる結果の予測であり、インデックスの先読みとインデックスの統計情報に基づき求めるものであり、前記問い合わせ処理の進行状況にあわせて最適な条件は、処理コストの予測と処理結果の予測の積が最小となる条件であることを特徴とするWebページ検索プログラム。
【請求項11】 請求項9または10に記載のWebページ検索プログラムであって、前記Webページの系列を検索するための問い合わせに、Webページから抽出した属性に基づきWebページ間に動的に生成するリンクに関する条件を加えて指定することができることを特徴とする検索プログラム。
【請求項12】 請求項11に記載のWebページ検索プログラムであって、WebページのURLから動的に生成するリンクのリンク先およびリンク元WebページのURLは、次の3ステップを経て求めることを特徴とするWebページ検索プログラム。
1.問い合わせ中で指定された属性をURLで指定されたWebページから抽出するステップ2.抽出した属性値から条件で指定された関係にある属性値を検索するステップ3.検索した属性値に対応するURLをインデックスを利用して検索するステップ
【請求項13】 請求項11または12に記載のWebページ検索プログラムであって、前記動的に生成するリンクに関する条件として、Webページ間の地理的関係によって動的に生成するリンクに関する条件を指定することができることを特徴とするWebページ検索プログラム。
【請求項14】 請求項13に記載のWebページ検索プログラムであって、Webページから抽出した地理的属性間の関係は、地理情報システム(GIS)上の地理的関係演算、もしくは幾何的な関係演算を用いて処理し、Webページからの地理属性の抽出は、システム中に指定された地理表現とのパターンマッチング、もしくは文書中から地理表現を抽出することの出来る形態素解析を用いることを特徴とするWebページ検索プログラム。
【請求項15】 請求項11ないし14のうちいずれか1項に記載のWebページ検索プログラムであって、前記動的に生成するリンクに関する条件として、Webページから抽出した表現を自然言語表現の類似性によって動的に生成するリンクに関する条件を指定でき、Webページから抽出した自然言語表現間の類似性は、シソーラス、もしくは言語辞書を用いて、その関係を評価することを特徴とするWeb検索プログラム。
【請求項16】 請求項11ないし14のうちいずれか1項に記載のWebページ検索プログラムであって、前記動的に生成するリンクに関する条件として、Webページから抽出した属性Webサーバ名、Webページのアドレス、URL、HTMLタグ、ハイパーリンクの関連性により動的に生成するリンクに関する条件を指定することができることを特徴とするWebページ検索プログラム。
【請求項17】 請求項9ないし16のうちいずれか1項に記載のプログラムを備えたWebページ検索装置。
【請求項18】 請求項9ないし16のうちいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate


【図4】
image rotate


【図6】
image rotate


【図7】
image rotate


【図2】
image rotate


【図3】
image rotate


【図8】
image rotate


【図5】
image rotate


【図9】
image rotate