大規模WEBサイトの評価装置、大規模WEBサイトの評価方法および大規模WEBサイトの評価プログラム
【課題】ページ作成者の不正な自己作成によるリンクを無効、もしくは低く扱う評価値を各WEB文書に付与することができる評価装置を提供する。
【解決手段】サイト集約ルールが蓄積されたサイト集約ルールデータベース400と、前記データベース400に蓄積されたサイト集約ルールに基づいて、WEB文書蓄積装置200に蓄積されたWEB文書のリンク情報をサイト単位に集約し、サイト間のリンク構造を分析し、サイト毎にページランク相当の評価値を求め、それら情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルールを更新するサイト分析装置300と、前記蓄積装置200内の各WEB文書に対して、前記サイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与するWEB文書評価装置500と、それを蓄積する評価済WEB文書蓄積装置600とを備える。
【解決手段】サイト集約ルールが蓄積されたサイト集約ルールデータベース400と、前記データベース400に蓄積されたサイト集約ルールに基づいて、WEB文書蓄積装置200に蓄積されたWEB文書のリンク情報をサイト単位に集約し、サイト間のリンク構造を分析し、サイト毎にページランク相当の評価値を求め、それら情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルールを更新するサイト分析装置300と、前記蓄積装置200内の各WEB文書に対して、前記サイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与するWEB文書評価装置500と、それを蓄積する評価済WEB文書蓄積装置600とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、大量の電子文書を持つWEBサービスに関して、重要なサイトかどうかを事前に評価しておくことにより、これらの電子文書からキーワードなどを用いて必要な電子文書を検索する際、サイトの評価が高い電子文書を優先する場合などに有用な技術に関する。
【0002】
より具体的には、前もって取得した電子文書の取得元を示すURLと、その文書の中に記述されている他の文書との関連情報(リンクと呼ぶ)と、文書群をWEBサービスのまとまりとして扱うためにURLを基にサイトに分類するデータベースを用いて、文書のサイトへの仕分けとサイト単位での評価を行うことで、従来よりも精度の高い文書検索の実現を可能にすることを特徴とする大規模WEBサイトの評価装置、方法、プログラムに関する。
【背景技術】
【0003】
従来は、WEBの文書を全文検索する際、検索結果を優先順位に沿って並べ替えるための判断基準のひとつとして、ページランクがある。これは、より多くのページから関連があるとされるような、リンクによって指し示される数が多いページを優先するための評価基準である。
【0004】
しかし、近年では、あまり関連性がないにもかかわらず、ページ作成者自身が自分で作ったたくさんのページから高い評価値を得たい自分のページにたくさんのリンクを張ることで、この評価を高めるということを行うという行為が増えてきている。このようなリンクをそのまま使った場合、検索結果が好ましくない状態になることが多い。これらはリンクスパムと呼ばれ、非特許文献1に開示されているようなWEBのサーバ単位(ホスト)でのページランクから不正なリンクを構成しているであろうWEBサーバを検出する技術がある。
【非特許文献1】Gyongyi,Z.,Garcia−Molina,H.and Pedersen,J.,Link Spam Detection Based on Mass Estimation,VLDB ’06:Proceedings of the 32nd international conference on Very large data bases,September,2006
【非特許文献2】高田寛喜(奈良先端科学技術大学院大学),山田武士,上田修功(NTTコミュニケーション科学基礎研究所)、「ノードの機能特性に基づくクラスタリング」、ネットワーク生態学2008シンポジウム予稿集、pp.120−124,2008年
【発明の開示】
【発明が解決しようとする課題】
【0005】
ブログなどは、同じホストで、複数のユーザが個々にWEB文書を作成しており、非特許文献1に記載の検出技術のように、ホスト単位で扱うと、全てのユーザをまとめて扱ってしまうことになる。
【0006】
本発明では、上記課題を解決し、WEB文書を取得したサーバ、もしくは、サーバ毎に事前に設定した特定の場所から取得した複数のWEB文書をサイトという単位でまとめ、WEB文書に記載されているリンク情報をサイト単位でまとめて分析することにより、ページ作成者の不正な自己作成によるリンクを無効、もしくは低い評価で扱うことでページランク相当の評価値を各WEB文書に付与し、検索時の優先順位の決定に効果的に利用できるようにする。
【0007】
また、リンク情報を分析する際、非特許文献2に開示されているようにリンク構造の分析を3サイト間で行うことにより、評価値の算出とサイト間の関係の分析を効率的に計算するように構成した大規模WEBサイトの評価装置、大規模WEBサイトの評価方法および大規模WEBサイトの評価プログラムを提供する。
【課題を解決するための手段】
【0008】
本発明では、WEBから取得したWEB文書群に対して、WEB文書に関する情報をサイト集約ルールを元に集約して扱い、サイト分析装置で分析して新たなサイト集約ルールを追加し、WEB文書それぞれに前記サイト集約ルールを元に妥当な評価値を付与した情報を評価済WEB文書蓄積装置に蓄積することで高精度なWEB文書の評価値を高速に付与できるように構成した。
【0009】
すなわち、請求項1に記載の大規模WEBサイトの評価装置は、WEBから取得したWEB文書に関する情報を蓄積するWEB文書蓄積手段と、サイトを集約するためのサイト集約ルールが蓄積されたサイト集約ルール蓄積手段と、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約し、前記集約されたサイト間のリンク構造を分析し、前記集約されたサイト毎にページランク相当の評価値を求め、前記分析されたリンク構造と前記求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト分析手段と、前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与するWEB文書評価手段と、前記WEB文書評価手段により評価値が付与されたWEB文書を蓄積する評価済WEB文書蓄積手段と、を備えたことを特徴としている。
【0010】
また請求項2に記載の大規模WEBサイトの評価装置は、請求項1において、前記サイト分析手段は、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約手段と、前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析手段と、前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価手段と、前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別手段と、を備えたことを特徴としている。
【0011】
また請求項3に記載の大規模WEBサイトの評価装置は、請求項1又は2において、前記サイト集約ルール蓄積手段には、WEB文書の取得元情報のホスト名とディレクトリ名に分け、ホスト名を個別に扱って共通部分をまとめて階層化した構造化サイト集約ルールが蓄積されることを特徴としている。
【0012】
また、請求項4に記載の大規模WEBサイトの評価方法は、WEB文書取得手段が、インターネットからWEB文書を取得し、該WEB文書に関する情報をWEB文書蓄積手段に蓄積するステップと、サイト集約手段が、サイト集約ルール蓄積手段に蓄積された、サイトを集約するためのサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約ステップと、リンク構造分析手段が、前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析ステップと、サイト評価手段が、前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価ステップと、サイト判別手段が、前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別ステップと、WEB文書評価手段が、前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与し、評価済WEB文書蓄積手段に蓄積するステップと、を備えたことを特徴としている。
【0013】
また、請求項5に記載の大規模WEBサイトの評価プログラムは、コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる大規模WEBサイトの評価プログラムである。
【発明の効果】
【0014】
(1)請求項1〜5に記載の発明によれば、WEB文書をサイト単位で集約してページランク評価とリンク構造から新たにサイト集約ルールを作成することで、ページランク評価値を付与するために利用すべきリンクを効果的に選別し、高速に計算することができ、従来よりも精度の高い文書検索の実現が可能となる。
(2)また請求項3に記載の発明によれば、構造化サイト集約ルールを利用することにより、サイトの集約を高速に行うことができる。
【発明を実施するための最良の形態】
【0015】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
【0016】
本実施形態例の大規模WEBサイトの評価装置は、図1に示すように、既存のWEB文書取得装置100がインターネットを介してWEBサーバから取得してきたWEB文書を蓄積しておく、WEB文書蓄積手段としてのWEB文書蓄積装置200内の情報を元に、サイト集約ルール蓄積手段としてのサイト集約ルールデータベース400内のサイト集約(分類)ルールを使ってサイトへの集約(分類)とその分析結果によってサイト集約ルールを更新するサイト分析手段としてのサイト分析装置300と、前記データベース400内のサイト集約ルールを元に、前記蓄積されたWEB文書蓄積装置200内のWEB文書それぞれに評価値を付与するWEB文書評価手段としてのWEB文書評価装置500と、前記WEB文書評価装置500により評価値が付与されたWEB文書を格納する評価済WEB文書蓄積手段としての評価済WEB文書蓄積装置600とで構築されている。
【0017】
前記WEB文書取得装置100、サイト分析装置300およびWEB文書評価装置500の、後述する各機能は、例えばコンピュータにより達成される。
【0018】
サイト分析装置300は図2のように構成されている。図2において301は、任意のサイト集約ルールを元にWEB文書蓄積装置200に蓄積されているWEB文書のリンク情報をサイト単位に集約するサイト集約手段としてのサイト集約装置である。
【0019】
302は、サイトごとに集約された情報を蓄積しておく集約データ蓄積装置である。303は、集約データ蓄積装置302からサイトとリンク情報を組みとして取得し、サイト間のリンク構造を分析するリンク構造分析手段としてのリンク構造分析装置である。
【0020】
304は、リンク先サイトとリンク元サイトに隣接しているサイトのリンク情報を組み合わせた情報が、前記リンク構造分析装置303によって記録されるリンク構造分析補助記録装置である。
【0021】
305は、集約データ蓄積装置302から集約されたサイトおよびリンク情報を取得し、サイトの評価を行うサイト評価手段としてのサイト評価装置である。
【0022】
306は、サイト評価装置305によりサイト毎に分配されたサイトの評価値が記録されるサイト評価補助記録装置である。
【0023】
307は、リンク構造分析装置303とサイト評価装置305から得られた結果を蓄積する分析データ蓄積装置である。
【0024】
308は、分析データ蓄積装置307から情報を取得し、新たにサイトとして集約するルールを作成するサイト判別手段としてのサイト判別装置である。
【0025】
前記サイト集約ルールデータベース400内のサイト集約ルールは、図3に示すように、WEB文書の取得元情報(URL、つまり、http://ホスト名/ディレクトリ名)のホスト名とディレクトリ名に対して、集約ルールに合致する場合、記述した集約サイト名を付与するものである。基本的には、WEB文書はホスト名を見出し(サイト名)として集約し、ホスト名とディレクトリ名が合致するユーザサイト(例では、blog.goo.ne.jp/?のように、?を記述したルール)は、ユーザサイト名を見出し(サイト名)として集約する。 ユーザサイトは、インターネットサービスを提供しているプロバイダのホームページサービスやブログなどのURLの一部が一定の規則性を持つ、サービス利用者が自由に作成できるようなWEB文書群をまとめる単位である。
【0026】
また集約サイト名は、複数のホストをまとめるための仮の名前であり、例えば図3のように、*.ntt.co.jp *.ntt.jpとルールを記述すると、ホスト名が「任意の語.ntt.co.jp」となっているWEB文書や「任意の語.ntt.jp」となっているWEB文書を、ntt.co.jpという集約サイト名を付与することで、同一サイトに属するホストサーバである、という意味を表す。
【0027】
前記サイト集約ルールは、図3の例のように、ひとつの集約サイト名に関して複数あってもよい。前記サイト集約ルールは、既知のブログサービスなどに関しては事前にルールを作成しておく。
【0028】
また前記サイト集約ルールをこのまま利用すると、1ページ毎にルール数に応じた適合検査を行う必要があり、処理時間がかかる。本発明では、サイト集約ルールをホスト名とディレクトリ名に分け、ホスト名を’.’にて個別に扱い共通部分をまとめて階層化した図4のような構造化サイト集約ルールを作って利用することで、適合検査を少ない回数で行うことにより、高速な集約を実現する。
【0029】
WEB文書評価装置500は、WEB文書蓄積装置200からWEB文書を読み出し、サイト集約ルールデータベース400内の構造化サイト集約ルールを元に、WEB文書間のリンク情報から文書ごとの評価値を付与する。このとき、評価に使うリンク情報は、異なるサイト間のリンク情報のみを扱う。これは、同一サイト内でのリンクは、サイトを管理するものが自由に作ることができるため、ページを評価するための客観的な指標になりえないためである。この仕組みにより、従来手法の問題であった関連性のないリンクを排除して、有効なリンクを使った評価値の計算を実現できる。
【0030】
評価済WEB文書蓄積装置600は、WEB文書評価装置500によって付与された評価値を一緒に蓄積し、全文検索などへ利用するために都合の良い形式でWEB文書を格納しておく。
【0031】
次にサイト分析装置300に関して、その詳細を説明する。サイト集約装置301は、図5に示すようなデータを蓄積済みのWEB文書蓄積装置200からWEB文書のURLとそのWEB文書に記載されているリンク情報を組として取得し、サイト集約ルールデータベース400内の構造化サイト集約ルールを元に、WEB文書のURLとリンク先のURLが同一の集約サイト名を持たない場合のみ、それぞれのURLに対応するホスト名、もしくはユーザサイト名を見出し(サイト名)として、リンク情報とともに集約データ蓄積装置302へ記録する。
【0032】
このとき、図6のように、まずWEB文書のサイトに対して、そのリンク先サイトを追加し、またさらに、リンク先サイトに対してリンク元サイトを追加することを繰り返して記録していく。これにより、WEB文書蓄積装置200に記録されているWEB文書すべてを処理すると、サイト毎にリンク先とリンク元のサイト情報がそろうことになる。
【0033】
リンク構造分析装置303では、集約データ蓄積装置302からサイトとリンク情報を組として取得し、リンク情報を元に、リンク先サイトとリンク元サイトに隣接しているサイトのリンク情報を組み合わせた情報をリンク構造分析補助記録装置304に記録していく。集約データ蓄積装置302に記録されているデータを全部処理すれば、サイトとその隣接するサイトとのリンク情報が、図7のようにまとまることになる。次に、リンク構造分析装置303は、リンク構造分析補助記録装置304に記録されているデータを順にサイト毎に3サイト間リンク構造を分析し、そのパターンによってサイトのリンク構造の特徴を表すデータとして、分析データ蓄積装置307へサイト毎に記録していく。
【0034】
サイト評価装置305は、最初に、集約データ蓄積装置302からサイトとリンク情報を組として取得し、ページランクの手法を元として、サイトのもつ評価値をリンク先サイトへ分配して、サイト評価補助記録装置306へ記録していく。
【0035】
次に、サイト評価装置305は、サイト評価補助記録装置306からサイト毎に分配された評価値を集計して新たな評価値として更新し、新たな評価値と前の評価値との差分を計算し、サイト評価補助記録装置306全体で最大の差分を記録しておく。この最大の差分があらかじめ定めた任意の値以上の時は、更新された新たな評価値をリンク先サイトへ分配し、集計することで、評価値を更新していく。
【0036】
このとき、サイトによっては、リンク先サイトはあるが、リンク元サイトがない場合、サイトの評価値は一定の値に決まる。こういったサイトの場合は、固定値になったという印をつけてリンク先サイトへ評価値を分配し、分析データ蓄積装置307へ評価値とリンク情報を記録することで、サイト評価装置305がもし次に計算を行う時があっても、無駄な計算をせずにすむ。また、リンク元サイトがあっても、すべてが固定値となった場合も同様に処理することで、処理量を減らすことができる。最大の差分が、あらかじめ定めた任意の値より下になったときに、サイト評価補助記録装置306のサイト評価値とリンク情報を分析データ蓄積装置307へ記録して終了する。
【0037】
サイト判別装置308は、サイト毎に、評価値とリンク情報とリンク構造の特徴から判別式を用いて、サイト名に共通点はなくとも関連性が高いと推測できる場合は、同一サイトとしてまとめるよう複数のサイト集約ルールをまとめて、あたらしいサイトとする。
【0038】
(実施例1)
以下、本発明の実施例を説明する。
【0039】
既存のWEB文書取得装置100によって、インターネットからWEB文書を取得し、その取得元URLと、WEB文書に関する情報、また、WEB文書内のリンク情報をWEB文書蓄積装置200に記録しておく。WEB文書内のリンク情報は、既存のWEB文書取得装置100であれば、リンクをたどることで効率よくWEB文書を次々に取得するための基本機能であるので、この情報も記録できるものであれば良い。ここでは、図5に示すようなデータが取得できたものとする。
【0040】
サイト集約ルールデータベース400内のサイト集約ルールとして、例を図3に示す。図3における集約サイト名example.jpは、ex1.example.jpやex2.example.jpといったホスト名を持つWEB文書に対して、集約サイト名example.jpを付与する、というルールである。図3の次の段のルールは、ntt.co.jpとntt.jpは、ドメイン名は違うが、集約サイト名はntt.co.jpとして同一サイトとして扱う、ということを示す。また、図3のさらに次の段のルールは、ホスト名部分は同じでも、ディレクトリ名部分によって、利用者毎に作成者が違う場合、例えば、ISP(インターネットサービスプロバイダ)のユーザホームページサービスや、ブログサービスなどを、作者別に扱うためのルールであり、集約サイト名は、ユーザサイト名として、そのまま集約時にサイト名として扱うことを意味する。
【0041】
前記サイト集約ルールは、利用するにあたって、構造化サイト集約ルールとして、図4のような構造化を行う。サイト分析装置300のサイト集約装置301、WEB文書評価装置500では、WEB文書蓄積装置200から取得したURL(http://ホスト名/ディレクトリ名)を、ホスト名とディレクトリ名に分割し、ホスト名は、さらに’.’で分割して、右から逆順にして扱う。例えば、図5のURLwww.ntt.co.jp/top.htmlは、ホスト名www.ntt.co.jpとディレクトリ名/top.htmlに分け、さらに、ホスト名をjp,co,ntt,wwwと、分割して並べ替える。これを先頭から、図4の構造化サイト集約ルールに照らし合わせると、[jp]+[co]+[ntt]+[任意]に適合し、集約サイト名ntt.co.jpが付与される。同様に、図5のリンク情報であるwww.ntt.jp/は、集約サイト名ntt.co.jp、www.ntt−east.jp/は、合致するルールがないため、そのままwww.ntt−east.jpがサイト名となる。
【0042】
サイト集約装置301は、集約サイト名が同一の場合は、集約データ蓄積装置302に記録しない。この場合は、サイト名www.ntt.co.jpに対して、リンク先として、サイト名www.ntt−east.jpを記録し、またさらに、サイト名www.ntt−east.jpに対して、リンク元としてサイト名www.ntt.co.jpを記録する。同様の手順により、図5の記録データ例を処理して集約データ蓄積装置302に記録した結果を図6に例示している。
【0043】
リンク構造分析装置303は、集約データ蓄積装置302からサイト名とリンク情報を取得して、リンク先、リンク元のサイトそれぞれに対して、サイト名と加工したリンク情報をリンク構造分析補助記録装置304に記録していく。図6の例では、サイトexample.jpは、リンク情報として、リンク先としてblog.goo.ne.jp/person1、リンク元として、blog.goo.ne.jp/person2を持っている。リンク情報は順に処理していくので、まず、サイトblog.goo.ne.jp/person1に、リンク元サイトとして、example.jp、また、そのリンク情報として、記録先のサイトとのリンク情報以外のリンク情報を付加する。ここでは、(先:なし、元:blog.goo.ne.jp/person2)を一緒に記録する。次に、サイトblog.goo.ne.jp/person2に、リンク先サイトとして、example.jp、リンク情報として、(先:blog.goo.ne.jp/person1、元:)を一緒に記録する。図6に例示したデータを処理して記録した結果が、図7のリンク構造分析補助記録装置304の例である。
【0044】
次に、リンク構造分析装置303は、サイト毎にこのリンク情報を三つのサイトを一組と考え、その繋がり方を分析する。example.jpの場合は、リンク情報サイトと合わせると3サイト一組の組み合わせが出来る。これに、直接のリンク先、リンク元の間の関係は、付加されたリンク情報から分析でき、これを図示すると、図9のようなリンク構造を持つことが分かる。このリンク構造の中での役割を図10に示す番号を振ることで、サイトがどんな役割を持つか、という特徴を表す。すなわち、リンク構造は13パターン有り、サイトの役割は30種類に分類される。この特徴を、分析データ蓄積装置307にサイトの特徴として記録する。
【0045】
サイト評価装置305は、集約データ蓄積装置302からサイト名とリンク情報を取得して、リンク先へ評価値を記録する。例えば、図6のサイトwww.ntt.co.jpの場合は、サイト評価補助記録装置306へサイトwww.ntt.co.jpと評価値の初期値1.0、リンク先サイトの情報を記録し、さらに、リンク先サイトwww.ntt−east.jpに対して、初期値1.0をリンク先サイトへのリンク数を掛け(ここでは1)、リンク先サイト数全体(ここでは1)で割った値を記録する。集約データ蓄積装置302のデータ全体をサイト評価装置305で処理した結果(サイト評価補助記録装置306内の記録データ)を図8に例示する。
【0046】
次に、サイト評価装置305は、サイト毎に、評価値を以下の式(1)で計算する。初期値、重みは、任意の値を指定できる。本例では、初期値1.0、重み0.85で計算している。
【0047】
評価値=初期値+重み×リンク元評価値の総和…(1)
サイト評価装置305は、算出した値と前回の評価値との差分の絶対値を記録し、あらかじめ定めた閾値よりも低くなるまで、繰り返し計算を行う。次回の計算では、新しく算出した評価値をリンク先サイトへのリンク数を掛け、リンク先サイト数全体で割った値をリンク先サイトへ記録する。基本的な計算方法は前述の通りだが、ここではサイト評価装置305は、初期値1.0の場合の最終的な評価値(サイトランク)と、特定のサイトのみ初期値1.0とし、他のサイトは初期値0.0で計算した評価値(信用度ランク)の二つを計算する。後者の特定のサイトとは、関連性のないリンクを作成するようなことのないサイトへのみリンクを張ると考えられるサイトを指定する。例えば、政府系のサイト(.go.jp)や、学術系のサイト(*.ac.jp)である。ここでは、ntt.co.jpのみを初期値1.0で、信用度ランクを算出する。この二つの評価値を以下の式(2)で評価した値を、最終的なサイト評価値として、分析データ蓄積装置307へ記録する。
【0048】
サイト評価値=1.0−信用度ランク/サイトランク…(2)
サイト判別装置308は、サイト毎にリンク情報とリンク構造特徴とサイト評価値から、あらかじめ定めた判別ルールもしくは、機械学習によるサイト判別器により、関連が強いサイト同士をまとめ、新たにサイト集約ルールを作成し、サイト集約ルールデータベース400に記録する。本例では、分析データ蓄積装置307内の図11に示す記録データから、blog.goo.ne.jp/person1とblog.goo.ne.jp/person2を同一サイトとする新しいサイト集約ルールとして、図12に示すルールが追加される。
【0049】
WEB文書評価装置500は、前記のように追加されたサイト集約ルールも加えて、WEB文書毎に、初期値0.15、重み0.85で、サイト評価装置305と同様の手法で評価値を計算していく。評価値の差分の絶対値がある閾値より低くなった場合、もしくは、ある回数分計算した結果を追加して、評価済WEB文書蓄積装置600へ記録していく。このデータを元に、全文検索サービスなどへ応用を行う。
【0050】
本発明の大規模WEBサイトの評価方法の実施形態例は、例えば前記図1〜図12で説明した各装置の処理を実行するものである。すなわち、WEB文書取得装置100が、インターネットからWEB文書を取得し、該WEB文書に関する情報をWEB文書蓄積装置200に蓄積するステップと、サイト分析装置300のサイト集約装置301が、サイト集約ルールデータベース400に蓄積された、サイトを集約するためのサイト集約ルールに基づいて、前記WEB文書蓄積装置200に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約ステップと、前記サイト毎に集約された情報を集約データ蓄積装置302に蓄積するステップと、リンク構造分析装置303が、前記集約データ蓄積装置302からサイトとリンク情報を組みとして取得し、サイト間のリンク構造をリンク構造分析補助記録装置304を利用して分析するリンク構造分析ステップと、サイト評価装置305が、集約データ蓄積装置302から集約されたサイトおよびリンク情報を取得し、サイト評価補助記録装置306を利用しながらサイト毎にページランク相当の評価値を求めるサイト評価ステップと、リンク構造分析装置303およびサイト評価装置305により得られた結果を分析データ蓄積装置307に蓄積するステップと、サイト判別装置308が、分析データ蓄積装置307から情報を取得し、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルールデータベース400に蓄積されたサイト集約ルールを更新するサイト判別ステップと、WEB文書評価装置500が、前記WEB文書蓄積装置200に蓄積された各WEB文書に対して、前記サイト集約ルールデータベース400に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与し、評価済WEB文書蓄積装置600に蓄積するステップとを実行する。
【0051】
また、本実施形態の大規模WEBサイトの評価装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の大規模WEBサイトの評価方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【図面の簡単な説明】
【0052】
【図1】本発明の大規模WEBサイトの評価装置の実施形態例を示すブロック図。
【図2】図1の装置の要部構成を示すブロック図。
【図3】本発明の実施形態例におけるサイト集約ルールの一例を示す説明図。
【図4】本発明の実施形態例における構造化サイト集約ルールの一例を示す説明図。
【図5】本発明の実施形態例におけるWEB文書蓄積装置内の記録データの一例を示す説明図。
【図6】本発明の実施形態例における集約データ蓄積装置内の記録データの一例を示す説明図。
【図7】本発明の実施形態例におけるリンク構造分析補助記録装置内の記録データの一例を示す説明図。
【図8】本発明の実施形態例におけるサイト評価補助記録装置内の記録データの一例を示す説明図。
【図9】本発明の実施形態例におけるリンク構造分析装置で分析されるリンク構造の一例を示す説明図。
【図10】本発明の実施形態例におけるリンク構造の特徴番号を表す説明図。
【図11】本発明の実施形態例における分析データ蓄積装置内の記録データの一例を示す説明図。
【図12】本発明の実施形態例におけるサイト集約ルールデータベースに追加されたサイト集約ルールの一例を示す説明図。
【符号の説明】
【0053】
100…WEB文書取得装置、200…WEB文書蓄積装置、300…サイト分析装置、301…サイト集約装置、302…集約データ蓄積装置、303…リンク構造分析装置、304…リンク構造分析補助記録装置、305…サイト評価装置、306…サイト評価補助記録装置、307…分析データ蓄積装置、308…サイト判別装置、400…サイト集約ルールデータベース、500…WEB文書評価装置、600…評価済WEB文書蓄積装置。
【技術分野】
【0001】
本発明は、大量の電子文書を持つWEBサービスに関して、重要なサイトかどうかを事前に評価しておくことにより、これらの電子文書からキーワードなどを用いて必要な電子文書を検索する際、サイトの評価が高い電子文書を優先する場合などに有用な技術に関する。
【0002】
より具体的には、前もって取得した電子文書の取得元を示すURLと、その文書の中に記述されている他の文書との関連情報(リンクと呼ぶ)と、文書群をWEBサービスのまとまりとして扱うためにURLを基にサイトに分類するデータベースを用いて、文書のサイトへの仕分けとサイト単位での評価を行うことで、従来よりも精度の高い文書検索の実現を可能にすることを特徴とする大規模WEBサイトの評価装置、方法、プログラムに関する。
【背景技術】
【0003】
従来は、WEBの文書を全文検索する際、検索結果を優先順位に沿って並べ替えるための判断基準のひとつとして、ページランクがある。これは、より多くのページから関連があるとされるような、リンクによって指し示される数が多いページを優先するための評価基準である。
【0004】
しかし、近年では、あまり関連性がないにもかかわらず、ページ作成者自身が自分で作ったたくさんのページから高い評価値を得たい自分のページにたくさんのリンクを張ることで、この評価を高めるということを行うという行為が増えてきている。このようなリンクをそのまま使った場合、検索結果が好ましくない状態になることが多い。これらはリンクスパムと呼ばれ、非特許文献1に開示されているようなWEBのサーバ単位(ホスト)でのページランクから不正なリンクを構成しているであろうWEBサーバを検出する技術がある。
【非特許文献1】Gyongyi,Z.,Garcia−Molina,H.and Pedersen,J.,Link Spam Detection Based on Mass Estimation,VLDB ’06:Proceedings of the 32nd international conference on Very large data bases,September,2006
【非特許文献2】高田寛喜(奈良先端科学技術大学院大学),山田武士,上田修功(NTTコミュニケーション科学基礎研究所)、「ノードの機能特性に基づくクラスタリング」、ネットワーク生態学2008シンポジウム予稿集、pp.120−124,2008年
【発明の開示】
【発明が解決しようとする課題】
【0005】
ブログなどは、同じホストで、複数のユーザが個々にWEB文書を作成しており、非特許文献1に記載の検出技術のように、ホスト単位で扱うと、全てのユーザをまとめて扱ってしまうことになる。
【0006】
本発明では、上記課題を解決し、WEB文書を取得したサーバ、もしくは、サーバ毎に事前に設定した特定の場所から取得した複数のWEB文書をサイトという単位でまとめ、WEB文書に記載されているリンク情報をサイト単位でまとめて分析することにより、ページ作成者の不正な自己作成によるリンクを無効、もしくは低い評価で扱うことでページランク相当の評価値を各WEB文書に付与し、検索時の優先順位の決定に効果的に利用できるようにする。
【0007】
また、リンク情報を分析する際、非特許文献2に開示されているようにリンク構造の分析を3サイト間で行うことにより、評価値の算出とサイト間の関係の分析を効率的に計算するように構成した大規模WEBサイトの評価装置、大規模WEBサイトの評価方法および大規模WEBサイトの評価プログラムを提供する。
【課題を解決するための手段】
【0008】
本発明では、WEBから取得したWEB文書群に対して、WEB文書に関する情報をサイト集約ルールを元に集約して扱い、サイト分析装置で分析して新たなサイト集約ルールを追加し、WEB文書それぞれに前記サイト集約ルールを元に妥当な評価値を付与した情報を評価済WEB文書蓄積装置に蓄積することで高精度なWEB文書の評価値を高速に付与できるように構成した。
【0009】
すなわち、請求項1に記載の大規模WEBサイトの評価装置は、WEBから取得したWEB文書に関する情報を蓄積するWEB文書蓄積手段と、サイトを集約するためのサイト集約ルールが蓄積されたサイト集約ルール蓄積手段と、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約し、前記集約されたサイト間のリンク構造を分析し、前記集約されたサイト毎にページランク相当の評価値を求め、前記分析されたリンク構造と前記求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト分析手段と、前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与するWEB文書評価手段と、前記WEB文書評価手段により評価値が付与されたWEB文書を蓄積する評価済WEB文書蓄積手段と、を備えたことを特徴としている。
【0010】
また請求項2に記載の大規模WEBサイトの評価装置は、請求項1において、前記サイト分析手段は、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約手段と、前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析手段と、前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価手段と、前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別手段と、を備えたことを特徴としている。
【0011】
また請求項3に記載の大規模WEBサイトの評価装置は、請求項1又は2において、前記サイト集約ルール蓄積手段には、WEB文書の取得元情報のホスト名とディレクトリ名に分け、ホスト名を個別に扱って共通部分をまとめて階層化した構造化サイト集約ルールが蓄積されることを特徴としている。
【0012】
また、請求項4に記載の大規模WEBサイトの評価方法は、WEB文書取得手段が、インターネットからWEB文書を取得し、該WEB文書に関する情報をWEB文書蓄積手段に蓄積するステップと、サイト集約手段が、サイト集約ルール蓄積手段に蓄積された、サイトを集約するためのサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約ステップと、リンク構造分析手段が、前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析ステップと、サイト評価手段が、前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価ステップと、サイト判別手段が、前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別ステップと、WEB文書評価手段が、前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与し、評価済WEB文書蓄積手段に蓄積するステップと、を備えたことを特徴としている。
【0013】
また、請求項5に記載の大規模WEBサイトの評価プログラムは、コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる大規模WEBサイトの評価プログラムである。
【発明の効果】
【0014】
(1)請求項1〜5に記載の発明によれば、WEB文書をサイト単位で集約してページランク評価とリンク構造から新たにサイト集約ルールを作成することで、ページランク評価値を付与するために利用すべきリンクを効果的に選別し、高速に計算することができ、従来よりも精度の高い文書検索の実現が可能となる。
(2)また請求項3に記載の発明によれば、構造化サイト集約ルールを利用することにより、サイトの集約を高速に行うことができる。
【発明を実施するための最良の形態】
【0015】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
【0016】
本実施形態例の大規模WEBサイトの評価装置は、図1に示すように、既存のWEB文書取得装置100がインターネットを介してWEBサーバから取得してきたWEB文書を蓄積しておく、WEB文書蓄積手段としてのWEB文書蓄積装置200内の情報を元に、サイト集約ルール蓄積手段としてのサイト集約ルールデータベース400内のサイト集約(分類)ルールを使ってサイトへの集約(分類)とその分析結果によってサイト集約ルールを更新するサイト分析手段としてのサイト分析装置300と、前記データベース400内のサイト集約ルールを元に、前記蓄積されたWEB文書蓄積装置200内のWEB文書それぞれに評価値を付与するWEB文書評価手段としてのWEB文書評価装置500と、前記WEB文書評価装置500により評価値が付与されたWEB文書を格納する評価済WEB文書蓄積手段としての評価済WEB文書蓄積装置600とで構築されている。
【0017】
前記WEB文書取得装置100、サイト分析装置300およびWEB文書評価装置500の、後述する各機能は、例えばコンピュータにより達成される。
【0018】
サイト分析装置300は図2のように構成されている。図2において301は、任意のサイト集約ルールを元にWEB文書蓄積装置200に蓄積されているWEB文書のリンク情報をサイト単位に集約するサイト集約手段としてのサイト集約装置である。
【0019】
302は、サイトごとに集約された情報を蓄積しておく集約データ蓄積装置である。303は、集約データ蓄積装置302からサイトとリンク情報を組みとして取得し、サイト間のリンク構造を分析するリンク構造分析手段としてのリンク構造分析装置である。
【0020】
304は、リンク先サイトとリンク元サイトに隣接しているサイトのリンク情報を組み合わせた情報が、前記リンク構造分析装置303によって記録されるリンク構造分析補助記録装置である。
【0021】
305は、集約データ蓄積装置302から集約されたサイトおよびリンク情報を取得し、サイトの評価を行うサイト評価手段としてのサイト評価装置である。
【0022】
306は、サイト評価装置305によりサイト毎に分配されたサイトの評価値が記録されるサイト評価補助記録装置である。
【0023】
307は、リンク構造分析装置303とサイト評価装置305から得られた結果を蓄積する分析データ蓄積装置である。
【0024】
308は、分析データ蓄積装置307から情報を取得し、新たにサイトとして集約するルールを作成するサイト判別手段としてのサイト判別装置である。
【0025】
前記サイト集約ルールデータベース400内のサイト集約ルールは、図3に示すように、WEB文書の取得元情報(URL、つまり、http://ホスト名/ディレクトリ名)のホスト名とディレクトリ名に対して、集約ルールに合致する場合、記述した集約サイト名を付与するものである。基本的には、WEB文書はホスト名を見出し(サイト名)として集約し、ホスト名とディレクトリ名が合致するユーザサイト(例では、blog.goo.ne.jp/?のように、?を記述したルール)は、ユーザサイト名を見出し(サイト名)として集約する。 ユーザサイトは、インターネットサービスを提供しているプロバイダのホームページサービスやブログなどのURLの一部が一定の規則性を持つ、サービス利用者が自由に作成できるようなWEB文書群をまとめる単位である。
【0026】
また集約サイト名は、複数のホストをまとめるための仮の名前であり、例えば図3のように、*.ntt.co.jp *.ntt.jpとルールを記述すると、ホスト名が「任意の語.ntt.co.jp」となっているWEB文書や「任意の語.ntt.jp」となっているWEB文書を、ntt.co.jpという集約サイト名を付与することで、同一サイトに属するホストサーバである、という意味を表す。
【0027】
前記サイト集約ルールは、図3の例のように、ひとつの集約サイト名に関して複数あってもよい。前記サイト集約ルールは、既知のブログサービスなどに関しては事前にルールを作成しておく。
【0028】
また前記サイト集約ルールをこのまま利用すると、1ページ毎にルール数に応じた適合検査を行う必要があり、処理時間がかかる。本発明では、サイト集約ルールをホスト名とディレクトリ名に分け、ホスト名を’.’にて個別に扱い共通部分をまとめて階層化した図4のような構造化サイト集約ルールを作って利用することで、適合検査を少ない回数で行うことにより、高速な集約を実現する。
【0029】
WEB文書評価装置500は、WEB文書蓄積装置200からWEB文書を読み出し、サイト集約ルールデータベース400内の構造化サイト集約ルールを元に、WEB文書間のリンク情報から文書ごとの評価値を付与する。このとき、評価に使うリンク情報は、異なるサイト間のリンク情報のみを扱う。これは、同一サイト内でのリンクは、サイトを管理するものが自由に作ることができるため、ページを評価するための客観的な指標になりえないためである。この仕組みにより、従来手法の問題であった関連性のないリンクを排除して、有効なリンクを使った評価値の計算を実現できる。
【0030】
評価済WEB文書蓄積装置600は、WEB文書評価装置500によって付与された評価値を一緒に蓄積し、全文検索などへ利用するために都合の良い形式でWEB文書を格納しておく。
【0031】
次にサイト分析装置300に関して、その詳細を説明する。サイト集約装置301は、図5に示すようなデータを蓄積済みのWEB文書蓄積装置200からWEB文書のURLとそのWEB文書に記載されているリンク情報を組として取得し、サイト集約ルールデータベース400内の構造化サイト集約ルールを元に、WEB文書のURLとリンク先のURLが同一の集約サイト名を持たない場合のみ、それぞれのURLに対応するホスト名、もしくはユーザサイト名を見出し(サイト名)として、リンク情報とともに集約データ蓄積装置302へ記録する。
【0032】
このとき、図6のように、まずWEB文書のサイトに対して、そのリンク先サイトを追加し、またさらに、リンク先サイトに対してリンク元サイトを追加することを繰り返して記録していく。これにより、WEB文書蓄積装置200に記録されているWEB文書すべてを処理すると、サイト毎にリンク先とリンク元のサイト情報がそろうことになる。
【0033】
リンク構造分析装置303では、集約データ蓄積装置302からサイトとリンク情報を組として取得し、リンク情報を元に、リンク先サイトとリンク元サイトに隣接しているサイトのリンク情報を組み合わせた情報をリンク構造分析補助記録装置304に記録していく。集約データ蓄積装置302に記録されているデータを全部処理すれば、サイトとその隣接するサイトとのリンク情報が、図7のようにまとまることになる。次に、リンク構造分析装置303は、リンク構造分析補助記録装置304に記録されているデータを順にサイト毎に3サイト間リンク構造を分析し、そのパターンによってサイトのリンク構造の特徴を表すデータとして、分析データ蓄積装置307へサイト毎に記録していく。
【0034】
サイト評価装置305は、最初に、集約データ蓄積装置302からサイトとリンク情報を組として取得し、ページランクの手法を元として、サイトのもつ評価値をリンク先サイトへ分配して、サイト評価補助記録装置306へ記録していく。
【0035】
次に、サイト評価装置305は、サイト評価補助記録装置306からサイト毎に分配された評価値を集計して新たな評価値として更新し、新たな評価値と前の評価値との差分を計算し、サイト評価補助記録装置306全体で最大の差分を記録しておく。この最大の差分があらかじめ定めた任意の値以上の時は、更新された新たな評価値をリンク先サイトへ分配し、集計することで、評価値を更新していく。
【0036】
このとき、サイトによっては、リンク先サイトはあるが、リンク元サイトがない場合、サイトの評価値は一定の値に決まる。こういったサイトの場合は、固定値になったという印をつけてリンク先サイトへ評価値を分配し、分析データ蓄積装置307へ評価値とリンク情報を記録することで、サイト評価装置305がもし次に計算を行う時があっても、無駄な計算をせずにすむ。また、リンク元サイトがあっても、すべてが固定値となった場合も同様に処理することで、処理量を減らすことができる。最大の差分が、あらかじめ定めた任意の値より下になったときに、サイト評価補助記録装置306のサイト評価値とリンク情報を分析データ蓄積装置307へ記録して終了する。
【0037】
サイト判別装置308は、サイト毎に、評価値とリンク情報とリンク構造の特徴から判別式を用いて、サイト名に共通点はなくとも関連性が高いと推測できる場合は、同一サイトとしてまとめるよう複数のサイト集約ルールをまとめて、あたらしいサイトとする。
【0038】
(実施例1)
以下、本発明の実施例を説明する。
【0039】
既存のWEB文書取得装置100によって、インターネットからWEB文書を取得し、その取得元URLと、WEB文書に関する情報、また、WEB文書内のリンク情報をWEB文書蓄積装置200に記録しておく。WEB文書内のリンク情報は、既存のWEB文書取得装置100であれば、リンクをたどることで効率よくWEB文書を次々に取得するための基本機能であるので、この情報も記録できるものであれば良い。ここでは、図5に示すようなデータが取得できたものとする。
【0040】
サイト集約ルールデータベース400内のサイト集約ルールとして、例を図3に示す。図3における集約サイト名example.jpは、ex1.example.jpやex2.example.jpといったホスト名を持つWEB文書に対して、集約サイト名example.jpを付与する、というルールである。図3の次の段のルールは、ntt.co.jpとntt.jpは、ドメイン名は違うが、集約サイト名はntt.co.jpとして同一サイトとして扱う、ということを示す。また、図3のさらに次の段のルールは、ホスト名部分は同じでも、ディレクトリ名部分によって、利用者毎に作成者が違う場合、例えば、ISP(インターネットサービスプロバイダ)のユーザホームページサービスや、ブログサービスなどを、作者別に扱うためのルールであり、集約サイト名は、ユーザサイト名として、そのまま集約時にサイト名として扱うことを意味する。
【0041】
前記サイト集約ルールは、利用するにあたって、構造化サイト集約ルールとして、図4のような構造化を行う。サイト分析装置300のサイト集約装置301、WEB文書評価装置500では、WEB文書蓄積装置200から取得したURL(http://ホスト名/ディレクトリ名)を、ホスト名とディレクトリ名に分割し、ホスト名は、さらに’.’で分割して、右から逆順にして扱う。例えば、図5のURLwww.ntt.co.jp/top.htmlは、ホスト名www.ntt.co.jpとディレクトリ名/top.htmlに分け、さらに、ホスト名をjp,co,ntt,wwwと、分割して並べ替える。これを先頭から、図4の構造化サイト集約ルールに照らし合わせると、[jp]+[co]+[ntt]+[任意]に適合し、集約サイト名ntt.co.jpが付与される。同様に、図5のリンク情報であるwww.ntt.jp/は、集約サイト名ntt.co.jp、www.ntt−east.jp/は、合致するルールがないため、そのままwww.ntt−east.jpがサイト名となる。
【0042】
サイト集約装置301は、集約サイト名が同一の場合は、集約データ蓄積装置302に記録しない。この場合は、サイト名www.ntt.co.jpに対して、リンク先として、サイト名www.ntt−east.jpを記録し、またさらに、サイト名www.ntt−east.jpに対して、リンク元としてサイト名www.ntt.co.jpを記録する。同様の手順により、図5の記録データ例を処理して集約データ蓄積装置302に記録した結果を図6に例示している。
【0043】
リンク構造分析装置303は、集約データ蓄積装置302からサイト名とリンク情報を取得して、リンク先、リンク元のサイトそれぞれに対して、サイト名と加工したリンク情報をリンク構造分析補助記録装置304に記録していく。図6の例では、サイトexample.jpは、リンク情報として、リンク先としてblog.goo.ne.jp/person1、リンク元として、blog.goo.ne.jp/person2を持っている。リンク情報は順に処理していくので、まず、サイトblog.goo.ne.jp/person1に、リンク元サイトとして、example.jp、また、そのリンク情報として、記録先のサイトとのリンク情報以外のリンク情報を付加する。ここでは、(先:なし、元:blog.goo.ne.jp/person2)を一緒に記録する。次に、サイトblog.goo.ne.jp/person2に、リンク先サイトとして、example.jp、リンク情報として、(先:blog.goo.ne.jp/person1、元:)を一緒に記録する。図6に例示したデータを処理して記録した結果が、図7のリンク構造分析補助記録装置304の例である。
【0044】
次に、リンク構造分析装置303は、サイト毎にこのリンク情報を三つのサイトを一組と考え、その繋がり方を分析する。example.jpの場合は、リンク情報サイトと合わせると3サイト一組の組み合わせが出来る。これに、直接のリンク先、リンク元の間の関係は、付加されたリンク情報から分析でき、これを図示すると、図9のようなリンク構造を持つことが分かる。このリンク構造の中での役割を図10に示す番号を振ることで、サイトがどんな役割を持つか、という特徴を表す。すなわち、リンク構造は13パターン有り、サイトの役割は30種類に分類される。この特徴を、分析データ蓄積装置307にサイトの特徴として記録する。
【0045】
サイト評価装置305は、集約データ蓄積装置302からサイト名とリンク情報を取得して、リンク先へ評価値を記録する。例えば、図6のサイトwww.ntt.co.jpの場合は、サイト評価補助記録装置306へサイトwww.ntt.co.jpと評価値の初期値1.0、リンク先サイトの情報を記録し、さらに、リンク先サイトwww.ntt−east.jpに対して、初期値1.0をリンク先サイトへのリンク数を掛け(ここでは1)、リンク先サイト数全体(ここでは1)で割った値を記録する。集約データ蓄積装置302のデータ全体をサイト評価装置305で処理した結果(サイト評価補助記録装置306内の記録データ)を図8に例示する。
【0046】
次に、サイト評価装置305は、サイト毎に、評価値を以下の式(1)で計算する。初期値、重みは、任意の値を指定できる。本例では、初期値1.0、重み0.85で計算している。
【0047】
評価値=初期値+重み×リンク元評価値の総和…(1)
サイト評価装置305は、算出した値と前回の評価値との差分の絶対値を記録し、あらかじめ定めた閾値よりも低くなるまで、繰り返し計算を行う。次回の計算では、新しく算出した評価値をリンク先サイトへのリンク数を掛け、リンク先サイト数全体で割った値をリンク先サイトへ記録する。基本的な計算方法は前述の通りだが、ここではサイト評価装置305は、初期値1.0の場合の最終的な評価値(サイトランク)と、特定のサイトのみ初期値1.0とし、他のサイトは初期値0.0で計算した評価値(信用度ランク)の二つを計算する。後者の特定のサイトとは、関連性のないリンクを作成するようなことのないサイトへのみリンクを張ると考えられるサイトを指定する。例えば、政府系のサイト(.go.jp)や、学術系のサイト(*.ac.jp)である。ここでは、ntt.co.jpのみを初期値1.0で、信用度ランクを算出する。この二つの評価値を以下の式(2)で評価した値を、最終的なサイト評価値として、分析データ蓄積装置307へ記録する。
【0048】
サイト評価値=1.0−信用度ランク/サイトランク…(2)
サイト判別装置308は、サイト毎にリンク情報とリンク構造特徴とサイト評価値から、あらかじめ定めた判別ルールもしくは、機械学習によるサイト判別器により、関連が強いサイト同士をまとめ、新たにサイト集約ルールを作成し、サイト集約ルールデータベース400に記録する。本例では、分析データ蓄積装置307内の図11に示す記録データから、blog.goo.ne.jp/person1とblog.goo.ne.jp/person2を同一サイトとする新しいサイト集約ルールとして、図12に示すルールが追加される。
【0049】
WEB文書評価装置500は、前記のように追加されたサイト集約ルールも加えて、WEB文書毎に、初期値0.15、重み0.85で、サイト評価装置305と同様の手法で評価値を計算していく。評価値の差分の絶対値がある閾値より低くなった場合、もしくは、ある回数分計算した結果を追加して、評価済WEB文書蓄積装置600へ記録していく。このデータを元に、全文検索サービスなどへ応用を行う。
【0050】
本発明の大規模WEBサイトの評価方法の実施形態例は、例えば前記図1〜図12で説明した各装置の処理を実行するものである。すなわち、WEB文書取得装置100が、インターネットからWEB文書を取得し、該WEB文書に関する情報をWEB文書蓄積装置200に蓄積するステップと、サイト分析装置300のサイト集約装置301が、サイト集約ルールデータベース400に蓄積された、サイトを集約するためのサイト集約ルールに基づいて、前記WEB文書蓄積装置200に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約ステップと、前記サイト毎に集約された情報を集約データ蓄積装置302に蓄積するステップと、リンク構造分析装置303が、前記集約データ蓄積装置302からサイトとリンク情報を組みとして取得し、サイト間のリンク構造をリンク構造分析補助記録装置304を利用して分析するリンク構造分析ステップと、サイト評価装置305が、集約データ蓄積装置302から集約されたサイトおよびリンク情報を取得し、サイト評価補助記録装置306を利用しながらサイト毎にページランク相当の評価値を求めるサイト評価ステップと、リンク構造分析装置303およびサイト評価装置305により得られた結果を分析データ蓄積装置307に蓄積するステップと、サイト判別装置308が、分析データ蓄積装置307から情報を取得し、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルールデータベース400に蓄積されたサイト集約ルールを更新するサイト判別ステップと、WEB文書評価装置500が、前記WEB文書蓄積装置200に蓄積された各WEB文書に対して、前記サイト集約ルールデータベース400に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与し、評価済WEB文書蓄積装置600に蓄積するステップとを実行する。
【0051】
また、本実施形態の大規模WEBサイトの評価装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の大規模WEBサイトの評価方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【図面の簡単な説明】
【0052】
【図1】本発明の大規模WEBサイトの評価装置の実施形態例を示すブロック図。
【図2】図1の装置の要部構成を示すブロック図。
【図3】本発明の実施形態例におけるサイト集約ルールの一例を示す説明図。
【図4】本発明の実施形態例における構造化サイト集約ルールの一例を示す説明図。
【図5】本発明の実施形態例におけるWEB文書蓄積装置内の記録データの一例を示す説明図。
【図6】本発明の実施形態例における集約データ蓄積装置内の記録データの一例を示す説明図。
【図7】本発明の実施形態例におけるリンク構造分析補助記録装置内の記録データの一例を示す説明図。
【図8】本発明の実施形態例におけるサイト評価補助記録装置内の記録データの一例を示す説明図。
【図9】本発明の実施形態例におけるリンク構造分析装置で分析されるリンク構造の一例を示す説明図。
【図10】本発明の実施形態例におけるリンク構造の特徴番号を表す説明図。
【図11】本発明の実施形態例における分析データ蓄積装置内の記録データの一例を示す説明図。
【図12】本発明の実施形態例におけるサイト集約ルールデータベースに追加されたサイト集約ルールの一例を示す説明図。
【符号の説明】
【0053】
100…WEB文書取得装置、200…WEB文書蓄積装置、300…サイト分析装置、301…サイト集約装置、302…集約データ蓄積装置、303…リンク構造分析装置、304…リンク構造分析補助記録装置、305…サイト評価装置、306…サイト評価補助記録装置、307…分析データ蓄積装置、308…サイト判別装置、400…サイト集約ルールデータベース、500…WEB文書評価装置、600…評価済WEB文書蓄積装置。
【特許請求の範囲】
【請求項1】
WEBから取得したWEB文書に関する情報を蓄積するWEB文書蓄積手段と、
サイトを集約するためのサイト集約ルールが蓄積されたサイト集約ルール蓄積手段と、
前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約し、前記集約されたサイト間のリンク構造を分析し、前記集約されたサイト毎にページランク相当の評価値を求め、前記分析されたリンク構造と前記求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト分析手段と、
前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与するWEB文書評価手段と、
前記WEB文書評価手段により評価値が付与されたWEB文書を蓄積する評価済WEB文書蓄積手段と、
を備えたことを特徴とする大規模WEBサイトの評価装置。
【請求項2】
前記サイト分析手段は、
前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約手段と、
前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析手段と、
前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価手段と、
前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別手段と、
を備えたことを特徴とする請求項1に記載の大規模WEBサイトの評価装置。
【請求項3】
前記サイト集約ルール蓄積手段には、WEB文書の取得元情報のホスト名とディレクトリ名に分け、ホスト名を個別に扱って共通部分をまとめて階層化した構造化サイト集約ルールが蓄積されることを特徴とする請求項1又は2に記載の大規模WEBサイトの評価装置。
【請求項4】
WEB文書取得手段が、インターネットからWEB文書を取得し、該WEB文書に関する情報をWEB文書蓄積手段に蓄積するステップと、
サイト集約手段が、サイト集約ルール蓄積手段に蓄積された、サイトを集約するためのサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約ステップと、
リンク構造分析手段が、前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析ステップと、
サイト評価手段が、前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価ステップと、
サイト判別手段が、前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別ステップと、
WEB文書評価手段が、前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与し、評価済WEB文書蓄積手段に蓄積するステップと、
を備えたことを特徴とする大規模WEBサイトの評価方法。
【請求項5】
コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる大規模WEBサイトの評価プログラム。
【請求項1】
WEBから取得したWEB文書に関する情報を蓄積するWEB文書蓄積手段と、
サイトを集約するためのサイト集約ルールが蓄積されたサイト集約ルール蓄積手段と、
前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約し、前記集約されたサイト間のリンク構造を分析し、前記集約されたサイト毎にページランク相当の評価値を求め、前記分析されたリンク構造と前記求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト分析手段と、
前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与するWEB文書評価手段と、
前記WEB文書評価手段により評価値が付与されたWEB文書を蓄積する評価済WEB文書蓄積手段と、
を備えたことを特徴とする大規模WEBサイトの評価装置。
【請求項2】
前記サイト分析手段は、
前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約手段と、
前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析手段と、
前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価手段と、
前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別手段と、
を備えたことを特徴とする請求項1に記載の大規模WEBサイトの評価装置。
【請求項3】
前記サイト集約ルール蓄積手段には、WEB文書の取得元情報のホスト名とディレクトリ名に分け、ホスト名を個別に扱って共通部分をまとめて階層化した構造化サイト集約ルールが蓄積されることを特徴とする請求項1又は2に記載の大規模WEBサイトの評価装置。
【請求項4】
WEB文書取得手段が、インターネットからWEB文書を取得し、該WEB文書に関する情報をWEB文書蓄積手段に蓄積するステップと、
サイト集約手段が、サイト集約ルール蓄積手段に蓄積された、サイトを集約するためのサイト集約ルールに基づいて、前記WEB文書蓄積手段に蓄積されたWEB文書のリンク情報をサイト単位に集約するサイト集約ステップと、
リンク構造分析手段が、前記サイト集約手段により集約されたサイト間のリンク構造を分析するリンク構造分析ステップと、
サイト評価手段が、前記サイト集約手段により集約されたサイトおよびリンク情報を取得し、サイト毎にページランク相当の評価値を求めるサイト評価ステップと、
サイト判別手段が、前記リンク構造分析手段により分析されたリンク構造と前記サイト評価手段により求められたサイト毎の評価値および前記リンク情報に基づいて、関連が強いサイト同士をまとめて新たにサイト集約ルールを作成し、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールを更新するサイト判別ステップと、
WEB文書評価手段が、前記WEB文書蓄積手段に蓄積された各WEB文書に対して、前記サイト集約ルール蓄積手段に蓄積されたサイト集約ルールに基づいて、サイト間のリンク情報を使って文書毎の評価値を付与し、評価済WEB文書蓄積手段に蓄積するステップと、
を備えたことを特徴とする大規模WEBサイトの評価方法。
【請求項5】
コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる大規模WEBサイトの評価プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2010−117893(P2010−117893A)
【公開日】平成22年5月27日(2010.5.27)
【国際特許分類】
【出願番号】特願2008−290786(P2008−290786)
【出願日】平成20年11月13日(2008.11.13)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成22年5月27日(2010.5.27)
【国際特許分類】
【出願日】平成20年11月13日(2008.11.13)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]