説明

階層を考慮したウェブページのランク付け

【課題】階層を考慮してウェブページをランク付けすることを対象とするシステム、方法、およびデータ構造を提供する。
【解決手段】ワールドワイドウェブの階層構造およびリンク関係を用いて、ウェブ検索のためのページ重要性ランキングを提供する。リンク関係は、階層構造のそれぞれにおけるハイレベルのノードに集約される。リンクグラフ分析を集約されたリンク関係に関して実行して、各ノードの重要性を判定する。各ノードの重要性は、そのノードに関連付けられたページに伝搬することができる。各ページにつき、そのページの重要性と、そのページに関連付けられたノードの重要性とを用いて、ページ重要性ランキングを計算する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、階層を考慮したウェブページのランク付けに関する。
【背景技術】
【0002】
ワールドワイドウェブでは、情報およびリソースは通常、ウェブページとして編成される。ウェブ上の所望の情報およびリソースを突き止めるためには、ユーザは通常、検索エンジンを用いて関連のあるウェブページを検索する。通常、検索エンジンは、ウェブ上のページに関するコンテンツベースの情報が入ったデータベースを検索する。このコンテンツベースの情報は普通、系統立った形でウェブを定期的にブラウズするウェブクローラ(Web crawler)によって収集される。検索エンジンは、ある検索タームを有するクエリを受け取ると、ウェブ情報データベースを検索し、検索タームに対してコンテンツベースの類似性を有するウェブページを探す。次いで検索エンジンは、これらのウェブページのアドレスをユーザに返す。
【0003】
ウェブが発達し続けるにつれて、ユーザがウェブ上のページを正確に突き止めるのがますます困難になる。例えば、クエリの結果として法外に数多くのウェブページが得られ、これらページの多くがそのクエリに関連のないものであることがある。既存の検索エンジンの中には、検索によって返されたウェブページの重要性に基づく順序で検索結果をユーザに提示することによって、この問題を緩和しようとするものがある。これらの既存の検索エンジンによって使用されるデータベースでは、各ウェブページは、データベース中の他のすべてのウェブページ中でそのウェブページを指しているハイパーリンクに従って、ランク付けされている。言い換えれば、あるウェブページを指すハイパーリンクは、そのページに対する一票として働く。各ウェブページは、そのページが受け取った票数に従ってランク付けされる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
ランク付けされたウェブページを返す検索エンジンは、よりよいユーザ体験を生み出すものの、これらの検索エンジンはいくつかの重大な欠点も有している。例えば、ウェブ上のほとんどのウェブページには、そのページを指すハイパーリンクがごくわずかしかないか、またはまったくないので、ハイパーリンクに基づいてウェブページをランク付けすると、偏向した非現実的な重要性の配分を生じる。また、新しいハイパーリンクはウェブページ中に編成しなければならないが、これには多くの時間が必要なので、新しいページには、それらの重要性を反映したランク付けがなされない場合がある。
【0005】
したがって、現実的な形でウェブページの重要性を配分することができ、ウェブ上の新しいページをより正確に計上することができる、検索エンジンが必要とされている。
【課題を解決するための手段】
【0006】
記載のシステム、方法、およびデータ構造は、階層を考慮してウェブページをランク付けすることを対象とする。ワールドワイドウェブの階層構造およびリンク関係を使用して、ウェブ検索のためのページ重要性ランキングを提供する。リンク関係は、階層構造のそれぞれにおけるハイレベルのノードに集約される。集約されたリンク関係に関してリンクグラフ分析を実行して、各ノードの重要性を判定する。各ノードの重要性は、そのノードに関連付けられたページに伝搬することができる。各ページにつき、そのページの重要性と、そのページに関連付けられたノードの重要性とを使用して、ページ重要性ランキングを計算する。
【0007】
本発明についての前述の態様および付随する利点の多くは、添付の図面と共に以下の詳細な説明を参照することによってよりよく理解されるので、より容易に認識されるようになるであろう。
【図面の簡単な説明】
【0008】
【図1】階層を考慮してウェブページをランク付けするための例示的な階層ランク付けシステムを示す図である。
【図2】2つの異なるホストに関連付けられたウェブページを表す例示的なウェブグラフを示す図である。
【図3】図2に示したウェブグラフから導出される例示的なホストグラフを示す図である。
【図4】ホストと、このホストに関連付けられたウェブページとを表す例示的な階層構造を示す図である。
【図5】ウェブページの重要性値を判定するのに使用することができる例示的なプロセスを示す図である。
【図6】ホストの重み値を判定するための例示的なプロセスを示す図である。
【図7】ウェブページに関連付けられた重み値を判定するための例示的なプロセスを示す図である。
【図8】クエリに応答するための例示的なプロセスを示す図である。
【図9】記載のシステムおよび方法を実施するための例示的なコンピュータデバイスを示す図である。
【発明を実施するための形態】
【0009】
図1に、階層を考慮してウェブページをランク付けするための例示的な階層ランク付けシステム100を示す。最も基本的な構成では、システム100は、ウェブクローラ105およびランク付けモジュール110を含むことができる。図1に示すように、システム100は、検索エンジン130にデータを提供するように構成することができ、検索エンジン130は、システム100によって提供されたデータを使用してクエリに応答するように構成することができる。
【0010】
ワールドワイドウェブ(ウェブ)150は、HTML(Hyper−Text Markup Language)などの共通規格でフォーマットされたドキュメントをサポートするインターネットサーバのシステムである。これらのフォーマットされたドキュメントは、ウェブページとも呼ばれ、ハイパーテキスト、画像、オーディオまたはビデオデータ、グラフィックスなど、任意のタイプのコンテンツを含むことができる。ウェブページは通常、他のウェブページへのリンク(すなわちハイパーリンク)を含む。
【0011】
ウェブクローラ105は、ウェブを検索してウェブ150上のページに関するデータを収集するように構成された論理コンポーネントである。ウェブクローラ105は、任意のタイプの技法を使用して、ウェブページに関する任意の情報を見つけ、収集することができる。例えば、ウェブクローラ105は、ウェブページ中のリンクを辿って他のウェブページを発見することができ、これら他のウェブページ中のリンクを辿ってより多くのウェブページを見つけることができる。ウェブクローラ105は、継続的にこの検索方法を実行して、ウェブページデータ115など、ウェブ上のページに関する情報のデータベースを構築することができる。
【0012】
ウェブページデータ115は、ウェブ上のページに関連付けられた任意のタイプのデータを含むことができる。例えば、ウェブページのデータは、キーワード、メタデータ、コンテンツのサマリなどを含むことができる。ウェブページデータ115はまた、ウェブページに関連付けられた構造データ120を含むこともできる。構造データ120は、ウェブページがウェブ上でどのように編成されているかに関する情報を含む。例えば、構造データ120は、各ウェブページのレベルを階層構造で含むことができる。レベルは、URL(Uniform Resource Locator)やファイルのパスなど、ウェブページに関連付けられたロケータから判定することができる。URLで表される典型的な階層構造を以下の表1に示す。
【0013】
【表1】

【0014】
表1は、URL「cs.zyxuniversity.edu/research/index.html」に関連付けられたウェブページの例示的な階層構造を示す。この例では、このURLに関連付けられたウェブページがZYX Universityドメイン中のページであり、このページは調査部門ウェブサイトのインデックスである。ウェブページの階層構造は、任意の形で確立することができる。一実施形態では、ウェブ階層構造のトップレベルはホストから確立され、ホストは、ウェブページの集まりを関連付けているエンティティとして定義することができる。例えばホストは、会社や政府やその他のエンティティによって提供される公共のウェブサイトなど、専用のウェブサイトであってもよい。ホストはまた、サービスプロバイダのドメイン中の個人ウェブサイトなど、コミュニティウェブサイトの一部であってもよい。この実施形態では、ウェブページに関連付けられたURLの構造を使用して、このページのレベルを階層構造で確立することができる。
【0015】
ランク付けモジュール110は、ウェブページをランク付けするように構成された論理コンポーネントである。ランク付けモジュール110は通常、ウェブページデータ115や構造データ120など、ページに関連付けられるコンテンツおよび構造に関するデータに基づいてウェブページをランク付けする。ランク付けモジュール110は、各ウェブページ内のリンクを判定するように構成することができる。リンクは、別のウェブページにリンクする、ウェブページ中の要素である。ランク付けモジュール110は、ウェブページデータ115中のウェブページのリンクを、あるレベルで集約するように構成することができる。一実施形態では、リンクはホストレベルで集約される。ランク付けモジュール110はまた、集約されたリンクに基づいて各ホストの重み値を計算するように構成することもできる。ランク付けモジュール110はさらに、各ウェブページに対応するホストの重み値と、ホストの階層構造内の各ウェブページの特性とに基づいて、各ウェブページの重要性値を計算するように構成することができる。各ウェブページの重要性値は、階層型ランク付けデータ125などのデータストア中に集めることができる。
【0016】
検索エンジン130は、ウェブ上のページを突き止めるように構成された論理コンポーネントである。検索エンジン130は、所望のウェブページ中のあるコンテンツを表す検索パラメータを含むクエリ140を受け取るように構成することができる。例えば、検索パラメータは、キーワード、画像、メディアデータなどを含むことができる。検索エンジン130はまた、ウェブページデータ115を検索して、そのクエリに関連のあるウェブページを判定するように構成することができる。検索エンジン130は、判定されたウェブページのそれぞれに関連性値を割り当てて、そのクエリに対する関連性を反映することができる。検索エンジン130はまた、これらの判定されたウェブページの重要性値を階層型ランク付けデータ125から判定することもできる。次いで検索エンジン130は、関連性値および重要性値に基づいて、判定されたウェブページをランク付けすることができる。次いで、ランク付けされた結果145がクエリ140に応答して提供される。ランク付けされた結果145は、検索によって返されたウェブページのリンクをそれらのランキングに従って順序付けたリストなど、任意のフォーマットとすることができる。
【0017】
図2に、2つの異なるホストに関連付けられたウェブページを表す例示的なウェブグラフ200を示す。ここに記載した階層ランク付けシステムおよび方法は、細分性の異なるレベルでリソースをランク付けすることができる。例えば、細分性のあるレベルでは、ウェブは、相互に多かれ少なかれ独立して成長するホストの集まりと見なすことができる。考察を簡単にするために、図2には、ホスト205(H)、ホスト210(H)、ウェブページP1〜P11だけが示してある。しかし、ウェブ全体をウェブグラフ200などのウェブグラフによって表すこともできることを理解されたい。ウェブグラフ200は、図1に示したウェブクローラ105によって使用されるような任意の学習アルゴリズムによって検出することができる。
【0018】
図2に示すように、ウェブページP1〜P6はホストHに関連付けられ、ウェブページP7〜P11はホストHに関連付けられる。各ウェブページは、リンクによって他のウェブページに関連付けることができる。ウェブページP4などウェブページのいくつかは、そのホスト(すなわちホストH)内の他のウェブページだけにリンクされている。これらのリンクを本明細書ではイントラリンクと呼ぶ。ウェブページのいくつかは、そのホスト内にないウェブページにリンクされている。例えば、ホストHに関連付けられたP5が、ホストHに関連付けられたP10にリンクされている。2つの異なるホストのウェブページ間のリンクを、本明細書ではインターリンクと呼ぶ。
【0019】
図3に、図2に示したウェブグラフ200から導出される例示的なホストグラフ300を示す。ホストグラフ300は、ホスト間のリンク関係を表す。記載のシステムおよび方法によれば、ウェブグラフ中に示されたインターリンクをホストレベルで集約することができる。例えば、ウェブグラフ200はホストHとホストHに区分することができ、したがってインターリンクのすべては2つのホストにそれぞれ集約される。各ホスト内のリンクは考慮しなくてよい。重み値wijおよびwjiは、ホストHおよびホストHに関連付けられたウェブページ中の集約されたインターリンクの数を表す。図3に示すように、重み値wijは、ホストHを指すホストHのウェブページ中の集約リンクを表し、重み値wjiは、ホストHを指すホストHのウェブページ中の集約リンクを表す。したがって、ホストグラフ300などのホストグラフは一般に以下のように表すことができる。
G’=(V’,E’) (1)
【0020】
ここで、G’は重み付き有向グラフであり、V’はホストを表し、E’はホスト間のリンクを包含する。各リンクlij∈E’は、ホストHに対するホストHの重みを記す重み値wijに関連付けることができ、この重みはホスト間のリンクに従って計算される。
【0021】
ウェブグラフ中のリンクをホストレベルで集約することによって、結果として得られるホストグラフのリンク密度はずっと高くなることを理解されたい。ある情報ソースによれば、ホストごとのリンクの密度はあるホストグラフで約136であり、ページごとのリンク密度はあるウェブグラフで約7.18である。通常、リンク密度が高いほど、よりよいランク付け結果が生み出される。
【0022】
ホストグラフを得た後、リンク分析アルゴリズムを適用して、ホストの重要性を計算することができる。ホストグラフを記述するために行列を構築することができる。例えば、ホストグラフがm個のホストを含むとすると、m×mの次元の隣接行列Aを使用して、ホストグラフを表すことができる。エントリA[i,j]のそれぞれは、リンクlijの重みを表すことができる。この隣接行列を使用して、各ホストのランクスコアを計算することができる。1つの形態では、ホストHのランクスコアHIは、ホストHを指すホストのすべてのランクスコアの関数によって評価することができる。
【0023】
【数1】

【0024】
この再帰的定義は、各ホストに、そのホストを指す他の各ホストのリンク値の一部分を与えることがある。例えば、リンク値は、そのホストのリンクの強さによって逆に重み付けすることができる。上で論じた式2は、以下のような行列の形態で書くことができる。
【0025】
【数2】

【0026】
しかし実際には、多くのホストがインターリンクを有さないことがある(例えばホストの重みが0)。上式の固有ベクトルは、大抵は0となるかもしれない。そのため、基本モデルを修正して、ランダムウォークを用いて「実際のモデル」を得る。例えば、ホストをブラウズすると、確率1−εで、ユーザは、現在のホスト上のリンクの1つをランダムに選択し、現在のホストがリンクされている別のホストにジャンプする。また、確率εで、ユーザは、現在のホスト中のどのリンクにも関連付けられていないランダムに選択された別のホストにジャンプすることによって、「リセット」することがある。ランク付けの公式は以下の形態に修正することができる。
【0027】
【数3】

【0028】
または、行列の形態では以下のようになる。
【0029】
【数4】

【0030】
ここで、
【0031】
【数5】

【0032】
はすべて1のベクトルであり、ε(0<ε<1)は、所与のホストから任意のホストへのジャンプがランダムに発生するランダムウォークの確率を表している。一実施形態では、よい結果を生むためにεは0.15に設定することができる。
【0033】
ホストの重要性を判定した後、ホストに関連付けられたウェブページの重要性をホストの評判および階層構造に従って、計算することができる。一実施形態では、ウェブページには、そのウェブページが属するホストの重要性が割り当てられる。ウェブページのURLに関連付けられたパスの深さ、ウェブページがインデックスページなのかコンテンツページなのか、ウェブページに関連付けられたインターリンクの数などその他の要因を考慮することもできる。どの要因を適用するかを決める際、以下の事項を考慮することができる。
1)ある評判のためにホストを高くランク付けすべきである場合、このホスト中のウェブページは、ある程度までホストの評判の恩恵を受けることができる。いくつかの観察は、多くのトップランクのウェブページはトップランクのホストに関連付けられることを示している。
2)ホスト中のウェブページがホスト外のウェブページによってリンクされている場合、このようなインターリンクの数をウェブページの重要性に反映させることができる。
3)ホスト中のウェブページのレベルをウェブページの重要性によって反映することができる。通常、ユーザにホスト中の重要なコンテンツを効率的に見つさせるために、作成者は一般に、このような重要なコンテンツを長いパスのウェブページに置くことはしない。
4)ウェブページがインデックスページである場合、その有用性を反映させるために、ウェブページにより高い重要性を与えることができる。
【0034】
上記の考察に基づいて、いくつかのプロパティを使用してホストの階層構造を重み付き有向木構造として定式化し、木構造上でウェブページの重要性を分析することができる。一般に、ホストは親ノードと見なすことができ、ウェブページは子ノードと見なすことができる。関数を使用して、親ノードからその子ノードへの重みを表すことができる。
【0035】
図4に、ホストと、このホストに関連付けられるウェブページとを表す例示的な階層構造400を示す。この例では、階層構造400は、図2に示したホストHに関連付けられる。ウェブページP7〜P11はホストHに関連付けられる。図4に示すように、ウェブページP7〜P11は、重み値w〜w11、インターリンク値LI〜LI11、イントラリンク値LI〜LI11に関連付けられる。具体的には、インターリンク値LIは、このホストの外にある他のウェブページにあるリンクであって、ウェブページpを指すリンクの数を表す。イントラリンク値LAは、このホストの一部である他のウェブページになるリンクであって、ウェブページpを指すリンクの数を表す。
【0036】
一般に、ホスト中にウェブページpを仮定して、ページpの重みwは以下のように計算することができる。
w(p)=δ×Link(p)×Index(p) (6)
【0037】
ここで、Linkは、ウェブページpに関連付けられるインターリンクおよびイントラリンクの関数である。Indexは、ウェブページpがインデックスページかどうかの関数である。δは減衰係数である。
【0038】
Link関数は、ホストの内側または外側の他のウェブページからウェブページpを指すリンクの数に依存する因数を計算するように設計することができる。Link関数は、インターリンクとイントラリンクとを区別するように構成することができる。例えばLink関数は、インターリンクとイントラリンクに、それらの相対的な重要性に従って異なる重みを割り当てることができる。Link関数は以下のように定義することができる。
【0039】
【数6】

【0040】
ここで、ωは、インターリンクとイントラリンクとの間の相対的な重み配分を割り当てる係数である。例えば、式(8)では、大きいωの値により(すなわち1に近い)、インターリンクがイントラリンクよりも大きな相対的なリンク重みを有する結果になる。
【0041】
関数Indexは、ウェブページがインデックスページかどうかを判定し、以下のように定義することができる。
【0042】
【数7】

【0043】
ここで、φおよびφは、ウェブページがインデックスページかどうかに応じて関数に割り当てることのできる値である。
【0044】
上記の分析に基づいて、ホストの構造特性を考慮した重み付き有向木構造を得ることができる。各ページpの重要性は、以下のように階層重み付き構造に基づいて決定することができる。
【0045】
【数8】

【0046】
ここで、pは、pからその親ウェブページおよびホストHまでのウェブページである。
【0047】
式9は、より高いレベルのウェブページからより低いレベルのウェブページへと再帰的に計算することができ、各ウェブページに重要性スコアを割り当てることができる。
【0048】
全ウェブグラフにおけるウェブページpの全体的な重要性PIは、以下の式で計算することができる。
PI(p)=HI(H)×Imp(p,H) (10)
【0049】
式10によれば、所与のホストが高い評判を有する場合、このホスト中のウェブページもまた高い評価を有することができる。ウェブページの全体的な重要性に対する、ホストの重要性の影響は、以下の式で調整することができる。
PI(p)=HI(H)×[α+β×Imp(p,H)] (11)
ここで、αおよびβは重み付けパラメータである。
【0050】
上で論じたウェブページ重要性分析をコンテンツベースの類似性分析と組み合わせて使用して、クエリに応答してウェブページのリストをランク付けすることができる。このプロセスを再ランク付けと呼ぶことができる。任意の技法を使用して、ウェブページ重要性分析とコンテンツベースの分析とを組み合わせることができる。例えば、スコアベースの再ランク付けおよび順序ベースの再ランク付けを用いて、よい結果を生み出すことができる。
【0051】
スコアベースの再ランク付けは、ウェブページの、コンテンツベースの類似性スコアとウェブページ重要性スコアとの一次結合を使用する。ウェブページpの全体的なスコアは、以下の式で判定することができる。
Score(p)=λSim(p)+(1−λ)PI(p) (λ∈[0,1]) (12)
【0052】
ここで、Simは、ウェブページpとクエリとの間のコンテンツベースの類似性である。λは、ウェブページ重要性とコンテンツベースの類似性との間の相対的な配分を割り当てる係数である。SimおよびPIは値によって表すことができる。スコアするメトリックスが異なるため、式12の一次結合を使用して全体的なスコアを計算する前に、SimおよびPIの値を同じ範囲に正規化することができる。
【0053】
順序ベースの再ランク付けは、ウェブページのランク順序に基づいて決定することができる。2つのリストにおけるウェブページの位置の一次結合であって、一方のリストはコンテンツベースの類似性スコアによってソートされ、他方のリストはウェブページ重要性スコアによってソートされる。順序ベースの再ランク付けは、以下の式によって実施することができる。
Score(w)=λOSim(pi)+(1−λ)OPI(pi) (λ∈[0,1])
(13)
【0054】
ここで、OSimおよびOPIはそれぞれ、類似性スコアリストおよび重要性スコアリストにおけるウェブページpの位置(または順序)である。
【0055】
上記で論じた技法は、本明細書ではウェブページをランク付けするコンテキストで論じていることを理解されたい。しかし、この方法は、階層構造に編成されている任意のタイプのデータをランク付けするのに適用することができる。例えば、ノードを相互接続することによって表すことのできるシステムであって、各ノードが階層構造中のあるレベルに関連付けられたどんなシステムも、この論じた技法を用いてランク付けすることができる。
【0056】
図5に、ウェブページの重要性値を判定するのに使用することのできる例示的なプロセス500を示す。プロセス500は、図1に示したランク付けモジュール110など、ウェブ検索システムのモジュールによって使用することができる。考察のために、プロセス500をウェブページおよびホストのコンテキストで論じる。しかし、プロセス500は、階層構造として編成された任意のシステム中のノードに適用することができる。
【0057】
ブロック505で、ウェブ上のページに関するデータを識別する。データは、ウェブ上のページを検出するウェブクローラによって収集することができる。データは、ランク付けモジュールによる使用のためにデータベースに格納することができる。データは、キーワードやメタデータなど、コンテンツベースのデータを含むことができる。データはまた、ウェブページのURLなど、構造化データを含むこともできる。
【0058】
ブロック510で、ウェブページは、それらに対応するホストに従ってグループ化される。通常、各ウェブページはあるホストに関連付けられ、このホストはウェブページのURLから判定することができる。ブロック515で、ホスト間のリンク関係に基づいて各ホストの重み値を判定する。ホストの重み値を判定するための例示的なプロセスについては、図6と共に論じる。簡単に言うと、インターリンク(例えば、ホストに関連付けられたウェブページを指す、ホスト外のウェブページ中のリンク)が収集される。各ホストの収集されたインターリンクを使用して、ホストの重み値を判定する。
【0059】
ブロック520で、各ホスト内の各ページの重み値を判定する。ウェブページの重み値は、ウェブページのインターリンクおよびイントラリンクに関連付けられた重み値に基づいて判定することができる。ウェブページの重み値はまた、ホストにおけるウェブページのレベル、ウェブページがインデックスページかどうかなど、他の要因に基づくこともできる。ウェブページの重み値を判定するための例示的なプロセスについては、図7と共に論じることになるであろう。
【0060】
ブロック525で、ホストの重み値およびウェブページの重み値に基づいて、各ウェブページの重要性値を判定する。判定された重み値は検索エンジンによって使用されて、クエリに応答して検索によって返されるウェブページをランク付けすることができる。判定された重み値はまた、ページをランク付けするのに使用することもでき、検索エンジンによって重み値の代わりにページの順序が使用されてもよい。
【0061】
図6に、ホストの重み値を判定するための例示的なプロセス600を示す。ブロック605で、各ホストに関連付けられたウェブページのインターリンクを識別する。ブロック610で、インターリンクをホストレベルで集約する。ブロック615で、各ホストにつき、このホストと他のホストのそれぞれとの間の集約されたインターリンクの総数を判定する。集約されたインターリンクは、行列またはデータアレイによって表すことができる。ブロック620で、集約されたインターリンクの数に基づいて、各ホストの重み値を計算することができる。ホストの重み値は、集約されたインターリンクを表す行列に関して操作することによって計算することができる。例えばこのような操作は、行列を表すデータアレイに関して反復的に計算することができる。
【0062】
図7に、ウェブページに関連付けられた重み値を判定するための例示的なプロセス700を示す。ブロック705で、ホストに関連付けられた階層構造内のウェブページを識別する。ブロック710で、ホストにおけるウェブページのレベルに基づいて、レベル値を判定する。ウェブページのレベルは、ウェブページのURLを分析するなど、任意の方法で判定することができる。
【0063】
ブロック715で、ウェブページに関連付けられたインターリンクおよびイントラリンクの数に基づいて、リンク値を判定する。インターリンクおよびイントラリンクがリンク値に関して有する相対的な影響を調整するために因数を使用してもよい。ブロック720で、ページがインデックスページかどうかに基づいてインデックス値を判定する。インデックスページは通常、リンクとこれらのリンクに関連付けられたウェブページに関する情報の編成されたセットを含む。通常、インデックスは、ウェブサイトをナビゲートするために有用であり、通常、サイト中の他のウェブページよりも重要である。ブロック725で、レベル値、リンク値およびインデックス値に基づいて、ウェブページの重み値を判定する。
【0064】
図8に、クエリに応答するための例示的なプロセス800を示す。プロセス800は、クエリに関連のあるウェブページへのリンクのリストを返すように検索エンジンによって実施することができる。ブロック805でクエリを受け取る。通常、クエリは、ユーザが見つけようとしているウェブページに関係するタームを含む。
【0065】
ブロック810で、コンテンツベースの類似性を有するウェブページについてウェブページデータを検索する。ウェブページデータは通常、ウェブクローラによって供給される。ブロック815で、検索によって返された各ウェブページに関連付けられた関連性値を判定する。ブロック820で、返された各ウェブページに関連付けられた重要性値を判定する。重要性値は、ウェブページの階層およびリンク関係に基づいて判定することができる。ウェブページデータ中で参照される各ウェブページの重要性値は、ランク付けモジュールによって判定することができる。
【0066】
ブロック825で、返されたウェブページは、そのそれぞれの関連性値および重要性値に基づいてランク付けされる。ブロック830で、返されたウェブページへのリンクのランク付けされたリストを、クエリ結果として提供する。
【0067】
図9に、記載のシステムおよび方法を実施するための例示的なコンピュータデバイス900を示す。最も基本的な構成では、コンピューティングデバイス900は通常、少なくとも1つの中央処理装置(CPU)905と、メモリ910とを含む。
【0068】
コンピューティングデバイスの正確な構成およびタイプに応じて、メモリ910は揮発性(RAMなど)、不揮発性(ROMやフラッシュメモリなど)、またはこの2つの何らかの組合せとすることができる。さらに、コンピューティングデバイス900は、追加の特徴/機能を有することもできる。例えばコンピューティングデバイス900は、複数のCPUを含んでもよい。記載の方法は、コンピューティングデバイス900中の任意の処理ユニットによって任意の方法で実行することができる。例えば、記載のプロセスは、両方の複数のCPUによって並列に実行することができる。
【0069】
コンピューティングデバイス900は、追加の記憶装置(リムーバブルおよび/または非リムーバブル)を備えることもでき、限定しないがこれらには、磁気または光学のディスクまたはテープが含まれる。図9では、このような追加の記憶装置を記憶装置915によって示す。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を格納するための任意の方法または技術で実現された、揮発性および不揮発性、リムーバブルおよび非リムーバブルの媒体が含まれる。メモリ910および記憶装置915は、コンピュータ記憶媒体の例にすぎない。コンピュータ記憶媒体には、限定しないがRAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)またはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイスが含まれ、あるいは、所望の情報を記憶するのに使用できコンピューティングデバイス900によってアクセスできるその他の任意の媒体が含まれる。このような任意のコンピュータ記憶媒体をコンピューティングデバイス900の一部とすることができる。
【0070】
コンピューティングデバイス900はまた、デバイスが他のデバイスと通信できるようにするための通信デバイス940を含むこともできる。通信デバイス940は、通信媒体の一例である。通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを、搬送波やその他のトランスポート機構などの変調データ信号に具現するものであり、任意の情報送達媒体がこれに含まれる。用語「変調データ信号」は、信号中に情報を符号化するようにその特性の1つまたは複数を設定または変更した信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接配線接続などのワイヤ媒体と、音響、RF、赤外線などの無線媒体およびその他のワイヤレス媒体とが含まれる。本明細書で説明したコンピュータ可読媒体という用語は、コンピュータ記憶媒体と通信媒体の両方を含む。記載の方法は、データやコンピュータ実行可能命令など任意の形態で、任意のコンピュータ可読媒体中に符号化することができる。
【0071】
コンピューティングデバイス900は、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイスなどの入力デバイス935を有することもできる。また、表示装置、スピーカ、プリンタなどの出力デバイス930を含むこともできる。これらのデバイスはすべて当技術分野で周知であり、これらについて詳細に述べる必要はない。
【0072】
本発明の好ましい実施形態について図示し、説明したが、本発明の趣旨および範囲を逸脱することなく様々な変更を加えることができることが理解されるであろう。
【符号の説明】
【0073】
100 階層ランク付けシステム
105 ウェブクローラ
110 ランク付けモジュール
115 ウェブページデータ
120 構造データ
125 階層ランク付けデータ
130 検索エンジン
140 クエリ
145 結果
150 ワールドワイドウェブ
200 ウェブグラフ
205 ホスト
210 ホスト
300 ホストグラフ
400 階層構造
900 コンピューティングデバイス
905 中央処理装置(CPU)
910 メモリ
915 記憶装置
930 出力デバイス
935 入力デバイス
940 通信デバイス

【特許請求の範囲】
【請求項1】
ウェブ上のページのコンテンツを評価する方法であって、
ウェブ上の複数のページを識別することと、
複数のノードを識別することであって、各ノードは前記ページの少なくとも1つが対応する階層構造に関連付けられていることと、
前記複数のページを前記対応するノードにグループ化することと、
各ノードにつき、そのノードと他のノードとの間のリンク関係に少なくとも部分的に基づいて第1の値を判定することと、
各ページにつき、そのページの特性に少なくとも部分的に基づいて固有の第2の値を判定することであって、前記そのページの特性は、前記ページが対応する前記対応するノードの階層構造内の前記ページの階層レベルを表すレベル値を含み、前記固有の第2の値は、前記レベル値に基づき各ページにつき一意に判定されることと、
各ノードにつき、そのノードに対応するページのインターリンクを識別することであって、前記インターリンクは、前記ノードに対応するページを指し、他のノードに対応する他のページに含まれるリンクを表すことと、
前記識別されたインターリンクを集約することと、
集約されたインターリンクの総数に少なくとも部分的に基づいて、かつ、前記ノードに対する識別された前記インターリンクとイントラリンクとの間の相対的な重み配分を表す変数として、第3の値を判定することであって、前記相対的な重み配分は、前記ノードに対する前記識別されたインターリンクの重みと、前記イントラリンクの重みとの間の逆相関を表すようになり、前記変数の所定の値は、前記インターリンクが前記イントラリンクよりも大きい相対的なリンク重みを有することを示すことになることと、
前記第3の値に少なくとも部分的に基づいて前記ノードの前記第1の値を判定することと、
重要性値を判定し、格納し、そのページに関連付けられた前記固有の第2の値と、そのページが対応する前記ノードに関連付けられた前記第1の値と、評判値とに少なくとも部分的に基づいて各ページにつき出力することであって、前記評判値は、前記ページの全体的な重要性に対するホストの重要性の影響の指標であることと
を備えることを特徴とする方法。
【請求項2】
前記ノードは、ホスト、ドメイン、インデックスページの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記複数の第3の値を行列として表すことと、
前記行列に関し操作して、前記ノードの複数の第1の値を計算することと
をさらに備えることを特徴とする請求項1に記載の方法。
【請求項4】
前記行列はデータアレイによって表され、前記複数の第1の値は前記データアレイから反復的に計算されることを特徴とする請求項3に記載の方法。
【請求項5】
前記ページのレベルは、前記ページに関連付けられたURL(Uniform Resource Locator)によって表されることを特徴とする請求項1に記載の方法。
【請求項6】
前記特性は、前記ページに関連付けられたインターリンクおよびイントラリンクの数をさらに含み、前記イントラリンクは、特定のノードに対応するページを指し、前記特定のノードに対応するページに含まれるリンクを表し、前記インターリンクは、前記ページを指し、他のノードに対応する他のページに含まれるリンクを表すことを特徴とする請求項1に記載の方法。
【請求項7】
前記特性は、前記ページがインデックスページであるかどうかを含むことを特徴とする請求項1に記載の方法。
【請求項8】
クエリを受け取ることと、
前記クエリとの類似性を有するページを検索することと、
検索によって返された各ページにつき、そのページと前記クエリとの間の類似性に少なくとも部分的に基づいて関連性値を判定することと
をさらに備えることを特徴とする請求項1に記載の方法。
【請求項9】
返された各ページを、そのページに関連付けられた前記関連性値および前記重要性値に少なくとも部分的に基づいてランク付けすることと、
前記クエリに応答して、前記返されたページに関連付けられたリンクのリストを提供することであって、前記リンクは前記返されたページがランク付けされた順序に少なくとも部分的に基づいて前記リスト上でランク付けされることと
をさらに備えることを特徴とする請求項8に記載の方法。
【請求項10】
ウェブ上のページに関するデータを収容するデータストアであって、各ページの前記データは、前記ページの特性と、前記ページが対応するホストとを示す、データストアと、
前記データストア中の前記データから前記ページのそれぞれを指すリンクを判定するように構成されたランク付けモジュールを備えるコンピュータと
を備えたシステムであって、
前記ランク付けモジュールはまた、各ホストに関連付けられた前記リンクを集約し、前記集約されたリンクに基づいて前記ホストの重み値を計算するように構成され、前記重み値は、集約されたインターリンクの総数に少なくとも部分的に基づき且つ前記ノードに対する識別された前記インターリンクとイントラリンクとの間の相対的な重み配分を表す変数としての関数であり、前記相対的な重み配分は、前記ノードに対する前記識別されたインターリンクの重みと前記イントラリンクの重みとの間の逆相関を表し、前記変数の所定の値は、前記インターリンクが前記イントラリンクよりも大きい相対的なリンク重みを有することを示すことになり、前記ランク付けモジュールは、各ページの固有の重要性値を、そのページに対応する前記ホストの重み値と、そのページの前記特性とに少なくとも部分的に基づいて計算し格納するようにさらに構成され、各ページの前記固有の重要性値は、前記対応するホストと関連付けられた階層構造内の階層レベルを表すそのページの階層レベル値に少なくとも部分的に基づいて計算され、前記固有の重要性値は、各ページにつき一意に判定され、前記固有の重要性値はまた、前記ページが対応する前記ホストの評判の関数であり、前記重要性値を出力することを特徴とするシステム。
【請求項11】
前記ページの特性は、前記ページを指すリンク、前記ページがインデックスページであるかどうかの少なくとも1つをさらに含むことを特徴とする請求項10に記載のシステム。
【請求項12】
前記ウェブ上の所望のページに対するクエリに応答するように構成された検索エンジンであって、前記クエリは前記所望のページ中のコンテンツを表すパラメータを含み、前記検索エンジンはまた、前記クエリに関連のあるページを返し、前記返されたページのそれぞれに関連性値を割り当てるように構成され、前記検索エンジンは、前記ランク付けモジュールからの、前記返されたページのそれぞれの前記重要性値を識別するようにさらに構成された、検索エンジンをさらに備えたことを特徴とする請求項10に記載のシステム。
【請求項13】
前記検索エンジンは、前記返されたページのそれぞれを、そのページに関連付けられた関連性値および重要性値に少なくとも部分的に基づいてランク付けし、前記返されたページのリンクのリストを返し、前記リンクは、前記返されたページに関連付けられたランク付けに従って前記リンク中で順序付けられるようにさらに構成されたことを特徴とする請求項12に記載のシステム。
【請求項14】
前記ウェブを検索し、前記データストアに含まれる前記ページに関するデータを提供するように構成されたウェブクローラをさらに備えたことを特徴とする請求項10に記載のシステム。
【請求項15】
前記ウェブクローラは、前記ページに関するデータを検索可能データベースとして提供するようにさらに構成されたことを特徴とする請求項14に記載のシステム。
【請求項16】
ウェブ上のページに関するデータを収集するための手段と、
前記ページが対応するホストを判定するための手段と、
階層ランダムウォーク分析に少なくとも部分的に基づいて各ホストの重要性を判定するための手段と、
前記ページが対応する前記対応するホストと関連付けられた階層構造内のページの階層レベルを表す階層レベル値を使用する、各ページの重要性を判定するための手段であって、前記各ページの重要性は一意に判定される、各ページの重要性を判定するための手段であって、そのページがインデックスページまたはコンテンツページであるかにに基づいて前記ページの重要性を判定し出力する、各ページの重要性を判定するための手段と、
各ページを、そのページの重要性と、対応するホストの重要性と、そのページの評判と、そのホストの評判とに少なくとも部分的に基づいてランク付けするための手段であって、前記評判の値は前記ページの全体的な重要性に対するホストの重要性の影響の指標である、ランク付けするための手段と、
各ページのランキングを格納する手段と、
各ホストにおける前記ページのリンク関係を集約するための手段と、
そのページが対応する前記対応するホストの重み値を、集約された前記リンク関係に基づいて計算するための手段であって、前記重み値は集約されたインターリンクの総数に少なくとも部分的に基づき且つ前記ノードに対する識別された前記インターリンクとイントラリンクとの間の相対的な重み配分を表す変数としての関数であり、前記相対的な重み配分は前記ノードに対する前記識別されたインターリンクの重みと前記イントラリンクの重みとの間の逆相関を表し、前記変数の所定の値は前記インターリンクが前記イントラリンクよりも大きい相対的なリンク重みを有することを示すことになる、前記対応するホストの重み値を計算するための手段と、
各ホストの前記重要性を、そのホストに関連付けられた前記集約されたリンク関係に少なくとも部分的に基づいて判定するための手段と
を備えたことを特徴とする装置。
【請求項17】
ホストの前記重要性を、前記ホストに対応する各ページに伝搬するための手段をさらに備えたことを特徴とする請求項16に記載の装置。
【請求項18】
前記ホストに関連付けられた前記集約されたリンク関係を、前記ホストに関連付けられたページを指すインターリンクに少なくとも部分的に基づいて判定するための手段をさらに備えたことを特徴とする請求項16に記載の装置。
【請求項19】
各ページの前記重要性を、そのページに関連付けられた特性に少なくとも部分的に基づいて判定するための手段をさらに備えたことを特徴とする請求項16に記載の装置。
【請求項20】
各ページの前記特性を、そのページを指すインターリンクおよびイントラリンクに少なくとも部分的に基づいて判定するための手段をさらに備えたことを特徴とする請求項19に記載の装置。
【請求項21】
クエリに応答して検索を実行するための手段と、
前記クエリに関連のあるページを返すための手段と、
返された各ページを、前記クエリに対する前記ページの関連性に少なくとも部分的に基づいてランク付けする手段と
をさらに備えたことを特徴とする請求項16に記載の装置。
【請求項22】
返された各ページの前記重要性を判定するための手段と、
返された各ページを、前記ページの前記重要性に少なくとも部分的に基づいて再ランク付けするための手段と
をさらに備えたことを特徴とする請求項21に記載の装置。
【請求項23】
前記返されたページに関連付けられたリンクのリストを判定するための手段と、
前記返されたページの再ランク付け順序に従って前記リンクを前記リスト中で配置するための手段と、
前記再ランク付けされたリンクのリストを前記クエリの結果として提供するための手段と
をさらに備えたことを特徴とする請求項22に記載の装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−69171(P2012−69171A)
【公開日】平成24年4月5日(2012.4.5)
【国際特許分類】
【出願番号】特願2012−5340(P2012−5340)
【出願日】平成24年1月13日(2012.1.13)
【分割の表示】特願2005−316607(P2005−316607)の分割
【原出願日】平成17年10月31日(2005.10.31)
【出願人】(500046438)マイクロソフト コーポレーション (3,165)