関連ウェブページ発見装置、関連ウェブページ発見方法および関連ウェブページ発見プログラム

【課題】、特性の類似した関連ウェブページ群を容易に発見することができる関連ウェブページ発見装置を提供する。
【解決手段】インターネット５０からウェブページを収集してウェブページ情報ＤＢ１０２に登録するウェブページ収集手段１０１と、前記ＤＢ１０２からハイパーリンク情報を抽出してハイパーリンク情報ＤＢ１０４に登録する事で、ネットワークを隣接行列形式で表現するネットワーク抽出手段１０３と、前記ネットワークを基に、ノード毎に該ノードとその周辺ノードとのエッジの接続状態に基づいた特徴量を算出し、当該特徴量をウェブページ特徴量ＤＢ１０６に登録するウェブページ特徴量算出手段１０５と、各ページの特徴量を基に、処理対象のページと関連するウェブページを算出し、関連ウェブページ群を出力として提示する関連ウェブページ算出手段１０７と、を有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、あるウェブページと関連するウェブページを発見する方法及び装置に係り、特に、特性が類似しているウェブページを関連ページとして発見する関連ウェブページ発見装置、方法、プログラムに関する。
【０００２】
ここで、特性が類似しているとは、例えば、ウェブページの注目度やそのウェブページが議論の構造における発端なのか、何らかの情報を受けての補足なのかといった役割のような、いわば当該ウェブページの属性的な要素が類似していることを指す。また、上記の特性の例のほかにも、例えば、そのウェブページがスパムと呼ばれる、検索エンジンにおける出力順位を不正に高めようという意図の下に作られたページであるかどうかに基づいた性質や、ショッピングサイト等への誘導を主目的として作られているページであるというような性質があげられる。
【背景技術】
【０００３】
現在ではインターネット上のウェブページやウェブサイトの数は膨大なものとなり、ユーザーが所望の情報を取得するための負担は非常に大きなものとなった。
【０００４】
そこで、ユーザーの情報取得を支援する様々な方法が提案されてきた。中でも、あるウェブページやウェブサイトに関連する情報が欲しいといった場合のニーズに答える方法に関しては、ウェブページ中のハイパーリンクによって形成されるネットワークの解析を基にした手法が提案されてきた。
【０００５】
例えば、あるウェブページに対してハイパーリンクを張っているウェブページ群を抽出し、そのウェブページ群の多くがハイパーリンクを張っている当該ページと異なるウェブページを、当該ウェブページの関連ページとして提示する方法（特許文献１参照）がある（背景技術１）。
【０００６】
また、ウェブページ間のハイパーリンクによる接続情報を隣接行列で表した上で、同一のページにリンクを張っている、もしくは同一のページからリンクを張られているという情報に基づいて、ウェブページのクラスタリングを行い、同一のクラスターに存在するページ群を関連ページ群として提示するという、従来からよく用いられてきた手法（背景技術２）がある。
【０００７】
ここで、上記の手法をさらに高度化し、あるページの特徴量として、隣接行列から、当該ページが近傍のページと構成するサブネットワーク構造中での位置及びどのページとそのサブネットワーク構造を構成するかの情報を求め（非特許文献１参照）、より高精度なクラスタリングを行い、関連するウェブページを提示するという方法も考えられる（背景技術３）。
【０００８】
ここで、背景技術３については、サブネットワーク構造を考慮する際にどのページと当該構造を構成するかを考慮しているため、結果的に背景技術２と同様に、クラスタリングを行う際の特徴量はページ間の接続情報を考慮したものとなっている。
【特許文献１】特開２００２−３０４３９３号公報
【非特許文献１】高田寛喜、山田武士、上田修功、「ノードの機能特性に基づくクラスタリング」、ネットワーク生態学２００８シンポジウム予稿集、ｐｐ．１２０−１２４、２００８．
【発明の開示】
【発明が解決しようとする課題】
【０００９】
上記背景技術１をはじめとする、あるページにハイパーリンクを張っているページ群を利用する手法では、当該ページ群は関連するウェブページをまとめたリンク集の機能を持っているという仮定に基づいている。したがって、ユーザーが所望した特性に基づく関連ページが得られるかどうかは、当該の特性を考慮したリンク集が背後に存在するかどうかに依存しており、必ずしも所望の関連ページが得られるとは限らないといった課題があった。
【００１０】
上記背景技術２および背景技術３においては、ページ間の接続情報を考慮することで、接続情報が類似しているページは内容的に関連性が近いという仮定に基づいている。
【００１１】
一方で、内容ではなく、例えば、同じような手法によって作成されたスパムページを発見したいといったような、特性が類似しているページを発見する場合には、直接接続関係がなくとも特性が類似していれば、関連ページとしてまとめられるべきである。このように、内容的な関連性に重きが置かれる結果、接続先を考慮した特徴量を用いた場合には、提示可能なページが接続関係のあるページ群のみに限定されるという課題があった。
【００１２】
本発明は上記課題を解決するものであり、その目的は、特性の類似した関連ウェブページ群を容易に発見することができる関連ウェブページ発見装置、関連ウェブページ発見方法および関連ウェブページ発見プログラムを提供することにある。
【課題を解決するための手段】
【００１３】
本発明では、ウェブページの特性は、当該ページと特定数の近傍ページとによって構成されるサブネットワーク中での当該ページの配置に基づいて算出された特徴量によって、よく表現されるという仮定に基づくことで、特性の類似した関連ウェブページの発見を実現した。
【００１４】
請求項１に記載の関連ウェブページ発見装置は、特定のウェブページと関連するページを発見する装置において、インターネットからウェブページを自動的に収集し、ウェブページ情報データベースに登録するウェブページ収集手段と、前記ウェブページ情報データベースを参照し、登録されている各ページから、リンク元とリンク先に関するハイパーリンク情報を抽出し、該情報をハイパーリンク情報データベースに登録する事で、ウェブページをノード、ハイパーリンクをエッジとしたネットワークを隣接行列形式で表現するネットワーク抽出手段と、前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、ノード毎に該ノードとその周辺ノードとのエッジの接続状態に基づいた特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録するウェブページ特徴量算出手段と、前記ウェブページ特徴量データベースを参照し、各ページの特徴量を基に、処理対象のページと関連するウェブページを算出し、関連ウェブページ群を出力として提示する関連ウェブページ算出手段と、を有することを特徴としている。
【００１５】
また請求項２に記載の関連ウェブページ発見装置は、請求項１において、前記ウェブページ特徴量算出手段は、前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してその周辺ノードと形成するサブネットワーク中での構造を考慮した特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録することを特徴としている。
【００１６】
また請求項３に記載の関連ウェブページ発見装置は、請求項１又は２において、前記ウェブページ特徴量算出手段は、前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置に基づいてウェブページの特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録することを特徴としている。
【００１７】
また請求項４に記載の関連ウェブページ発見装置は、請求項１ないし３のいずれか１項において、前記ウェブページ特徴量算出手段は、前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置を考慮し、かつ、当該ノードの配置が一致する同形状のサブネットワーク構造が存在する場合には、そのサブネットワーク構造を形成するノードの違いを区別しないで算出した、該ウェブページの特徴量をウェブページ特徴量データベースに登録する、ことを特徴としている。
【００１８】
また請求項５に記載の関連ウェブページ発見装置は、請求項１ないし４のいずれか１項において、前記関連ウェブページ算出手段は、前記ウェブページ特徴量データベースを参照し、処理対象のページの特徴量と各ページの特徴量を基に、ユークリッド距離を算出し、距離が小さいページ群を関連ウェブページ群として出力する、ことを特徴としている。
【００１９】
また、請求項６に記載の関連ウェブページ発見方法は、特定のウェブページと関連するページを発見する方法において、ウェブページ収集手段が、インターネットからウェブページを自動的に収集し、ウェブページ情報データベースに登録するウェブページ収集ステップと、ネットワーク抽出手段が、前記ウェブページ情報データベースを参照し、登録されている各ページから、リンク元とリンク先に関するハイパーリンク情報を抽出し、該情報をハイパーリンク情報データベースに登録する事で、ウェブページをノード、ハイパーリンクをエッジとしたネットワークを隣接行列形式で表現するネットワーク抽出ステップと、ウェブページ特徴量算出手段が、前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、ノード毎に該ノードとその周辺ノードとのエッジの接続状態に基づいた特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録するウェブページ特徴量算出ステップと、関連ウェブページ算出手段が、前記ウェブページ特徴量データベースを参照し、各ページの特徴量を基に、処理対象のページと関連するウェブページを算出し、関連ウェブページ群を出力として提示する関連ウェブページ算出ステップと、を有することを特徴としている。
【００２０】
また請求項７に記載の関連ウェブページ発見方法は、請求項６において、前記ウェブページ特徴量算出ステップは、前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してその周辺ノードと形成するサブネットワーク中での構造を考慮した特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録することを特徴としている。
【００２１】
また請求項８に記載の関連ウェブページ発見方法は、請求項６又は７において、前記ウェブページ特徴量算出ステップは、前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置に基づいてウェブページの特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録することを特徴としている。
【００２２】
また請求項９に記載の関連ウェブページ発見方法は、請求項６ないし８のいずれか１項において、前記ウェブページ特徴量算出ステップは、前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置を考慮し、かつ、当該ノードの配置が一致する同形状のサブネットワーク構造が存在する場合には、そのサブネットワーク構造を形成するノードの違いを区別しないで算出した、該ウェブページの特徴量をウェブページ特徴量データベースに登録する、ことを特徴としている。
【００２３】
また、請求項１０に記載の関連ウェブページ発見プログラムは、コンピュータを請求項１ないし５のいずれか１項に記載の各手段として機能させる関連ウェブページ発見プログラムである。
【発明の効果】
【００２４】
（１）請求項１〜１０に記載の発明によれば、ユーザーが特性の類似した関連ウェブページ群を容易に発見する事が可能となる。
（２）請求項２〜４および請求項７〜９に記載の発明によれば、サブネットワーク中での構造（局所構造）を考慮した特徴量を算出しているので、ウェブページの特性を反映した特徴量を得ることができる。このため例えばスパムであれば、そのノードのランキングを不正に向上させるための構造が浮かび上がるなど、そのノードのネットワーク中での機能や特性、ひいては表に現われてこない意図を読み取ることができる。
【発明を実施するための最良の形態】
【００２５】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
【００２６】
図１は本発明の実施形態の一例である関連ウェブページ発見装置の構成を示す図である。本実施形態の関連ウェブページ発見装置１００は、所定のプログラムに基づいて動作する一般的なコンピュータ装置からなり、インターネット５０からウェブページを収集し、その結果をウェブページ情報ＤＢ（データベース）１０２に登録するウェブページ収集手段１０１と、ウェブページ情報ＤＢ１０２からページ毎にハイパーリンクを抽出し、リンク元およびリンク先の情報などをハイパーリンク情報ＤＢ(データベース）１０４に登録するネットワーク抽出手段１０３と、ハイパーリンク情報ＤＢ１０４を利用して、各ウェブページが周辺ページと形成するサブネットワーク中での配置に基づいた局所構造を考慮した特徴量を算出し、ウェブページ特徴量ＤＢ（データベース）１０６に登録するウェブページ特徴量算出手段１０５と、指定されたＵＲＬに対応するウェブページと関連するウェブページ群を算出して、当該関連ウェブページ群のＵＲＬを出力する関連ウェブページ算出手段１０７とから構成されている。
【００２７】
本実施形態の関連ウェブページ発見装置の処理の流れについては、大きく分けて２つの異なる流れによって構成される。ひとつは、図２によって示される、ウェブページ間のハイパーリンクに基づくネットワークを構築するために、ウェブページを自動的に収集しハイパーリンク情報を収集するための処理の流れであり、もうひとつは図３によって示される、入力されたウェブページの関連ウェブページを算出し、関連ウェブページ群を出力として提示するための処理の流れである。
【００２８】
まず、図２のネットワーク構築のための処理の流れについては、ウェブページ収集手段１０１が、ステップＳ１において、ウェブページ情報ＤＢ１０２中のステータスを参照し、まだ未収集のウェブページを特定及び収集し、当該ウェブページのＨＴＭＬをウェブページ情報ＤＢ１０２に登録する。また、当該ウェブページのＨＴＭＬ中にウェブページ情報ＤＢ１０２に登録されていないウェブページへのハイパーリンクが含まれている場合にはその情報もウェブページ情報ＤＢ１０２に登録する。次に、ネットワーク抽出手段１０３が、ステップＳ２において、ウェブページ情報ＤＢ１０２に直前に登録されたウェブページに関して、ハイパーリンクを抽出し、その結果としてリンク先及びリンク元の情報をハイパーリンク情報ＤＢ１０４に登録する。以降、ウェブページ情報ＤＢ１０２の中にステータスが未収集のページがなくなるまで、もしくは、明示的に収集完了と指定されるまでウェブページの収集を繰り返す（ステップＳ３，Ｓ１，Ｓ２，Ｓ３）。
【００２９】
次に、図３の関連ウェブページ群を算出するための処理の流れについては、ウェブページ特徴量算出手段１０５が、ステップＳ１１において、ハイパーリンク情報ＤＢ１０４によって表されるネットワークの規模の変化および前回ウェブページの特徴量を算出してから経過した時間に基づいて、ウェブページの特徴量を算出するかどうかを判断する。
【００３０】
ウェブページの特徴量を算出する場合には、ステップＳ１２において、ハイパーリンク情報ＤＢ１０４を利用し、ページ毎に局所構造を考慮したウェブページ特徴量を算出し、ウェブページ特徴量ＤＢ１０６に結果を登録する。
【００３１】
以降、関連ウェブページ算出手段１０７が、ステップＳ１３，Ｓ１４において、処理対象のウェブページがなくなるまで、当該ページ（指定されたＵＲＬに対応するウェブページ）をユーザー等からの入力として受け取り、前記ウェブページ特徴量ＤＢ１０６を参照しながら、当該ウェブページと関連するウェブページ群をユークリッド距離に基づいて算出し続ける。
【００３２】
以下、前記図２、図３によって示された処理の手順を基に、各手段の詳細な説明を行う。
【００３３】
ウェブページ収集手段１０１は、一般的な検索エンジンにおけるクローラに相当し、インターネットから自動的にウェブページを収集し、収集結果及び収集の状況に関する情報はウェブページ情報ＤＢ１０２に登録される。
【００３４】
ここで、ウェブページ情報ＤＢ１０２は図４に示すように、ウェブページＩＤ，ＵＲＬ，Ｓｔａｔｕｓ，ＨＴＭＬ等をウェブページごとに関連付けを行った形でデータとして保持している。ここで、ウェブページＩＤはウェブページごとにユニークに与えられる識別子である。また、Ｓｔａｔｕｓは、現在の収集状況を表す。ａｌｒｅａｄｙは既に収集済である事を表す。ｙｅｔは、まだ収集を試みていない事を表す。最後に、ｅｒｒｏｒは収集を試みた際にエラーによって収集できなかった事を示す。また、例えば、ＨＴＭＬの収集に成功した時間をＴｉｍｅとするような形で、様々な付加情報を加えた上で関連付けを行い、データを保持することもできる。
【００３５】
ここで、ウェブページの中には日々更新されるようなページが存在する事を鑑みると、Ｔｉｍｅの情報を利用する事で、一度収集済みのページであっても一定期間ごとに再度ＨＴＭＬを取得することで、情報の更新への対応が可能である。
【００３６】
また、収集結果のＨＴＭＬ中に、ウェブページ情報ＤＢ１０２に登録されていないＵＲＬへのリンクが存在する場合には、ウェブページ情報ＤＢ１０２にそのＵＲＬに対応する新たなＩＤを付与し、Ｓｔａｔｕｓをｙｅｔとした上でＵＲＬを登録する。
【００３７】
次に、ネットワーク抽出手段１０３は、前記ウェブページ収集手段１０１によって、収集およびウェブページ情報ＤＢ１０２に登録されたウェブページのＨＴＭＬを解析して、ハイパーリンクを抽出し、リンク元とリンク先の情報をハイパーリンク情報ＤＢ１０４に登録する事で、ウェブページをノード、ハイパーリンクをエッジとしたネットワークを例えば図５に示す隣接行列形式で表現可能にする。
【００３８】
ここで、ハイパーリンク情報ＤＢ１０４は図５に示すように、ハイパーリンクＩＤ，ＦｒｏｍＵＲＬ，ＦｒｏｍＳｉｔｅ，ＴｏＵＲＬ，ＴｏＳｉｔｅ等をハイパーリンクごとに関連付けを行った形でデータを保持している。ハイパーリンクＩＤは、ハイパーリンク毎にユニークに与えられる識別子である。ＦｒｏｍＵＲＬはリンク元ＵＲＬであり、ＦｒｏｍＳｉｔｅはリンク元ＵＲＬから得られたリンク元サイトでのＵＲＬである。ＴｏＵＲＬ，ＴｏＳｉｔｅについてはそれぞれリンク先のＵＲＬ、リンク先サイトのＵＲＬに対応する。
【００３９】
本ＤＢ１０４に、ウェブページ単位のＵＲＬのみではなく、サイト単位のＵＲＬも記録しておく事によって、次のウェブページ特徴量算出手段１０５において、サイト単位でリンクをまとめ、ウェブページのネットワークではなく、ウェブサイトのネットワークを構築した上で特徴量を算出する事が可能となり、結果として本発明を関連ウェブサイト発見装置としても利用する事ができるようになる。
【００４０】
本ＤＢ１０４においても、ウェブページ情報ＤＢ１０２と同様にＴｉｍｅ等の付加的な情報を加えて関連付けを行う事で、前記ウェブページ情報ＤＢ１０２と同様に、例えば、Ｔｉｍｅであればウェブページの更新への対応が可能となる。
【００４１】
続いて、ウェブページ特徴量算出手段１０５では、前記ハイパーリンク情報ＤＢ１０４を参照し、前記隣接行列形式で表現されたネットワーク（例えば図５）を基に、ノード（ウェブページ)毎に該ノードとその周辺ノードとのエッジ（ハイパーリンク）の接続状態に基づいた特徴量を算出し、当該特徴量をウェブページ特徴量ＤＢ１０６に登録する（請求項１、６の発明の実施形態）。
【００４２】
また、請求項２，７の発明の実施形態において、ウェブページ特徴量算出手段１０５は、前記ハイパーリンク情報ＤＢ１０４を参照し、前記隣接行列形式で表現されたネットワーク（例えば図５）を基に、各ノード（ウェブページ)に対してその周辺ノードと形成するサブネットワーク中での構造を考慮した特徴量を算出し、当該特徴量をウェブページ特徴量ＤＢ１０６に登録する。
【００４３】
また、請求項３，８の発明の実施形態において、ウェブページ特徴量算出手段１０５は、前記ハイパーリンク情報ＤＢ１０４を参照し、前記隣接行列形式で表現されたネットワーク（例えば図５）を基に、各ノード（ウェブページ)に対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置に基づいてウェブページの特徴量を算出し、当該特徴量をウェブページ特徴量ＤＢ１０６に登録する。
【００４４】
すなわち、ウェブページの特性は当該ウェブページと周辺ページとで形成するサブネットワーク中での当該ウェブページの配置によってよく現されるという仮説に基づき、ハイパーリンク情報ＤＢ１０４を参照し、各ウェブページとその接続情報を基に、局所構造を考慮した特徴量を算出した上で、当該特徴量をウェブページ特徴量ＤＢ１０６に登録する。
【００４５】
より具体的には、ウェブページやブログサイトなどインターネット内に構築されているネットワークは、例えばランキングを不正操作しようとするスパム、アフィリエイト収入目当ての広告サイトへの誘導、周囲にたくさんのフォロワーを形成する注目度の高いブロガー（アルファブロガー）など、複数の人の様々な意図によってその巨大な構造を形成していると考えられる。したがって、ネットワーク全体に着目すると個々の意図は薄れてしまうが、注目ノードの周辺で形成されている局所構造に着目すると、例えば、スパムであれば、そのノードのランキングを不正に向上させるための構造が浮かび上がるなど、そのノードのネットワーク中での機能や特性、ひいては表に現れてこない意図を読み取る事ができるのではないかと考えられる。ここで、ウェブページによって構成されるネットワークおいては、ノードはウェブページ、エッジはハイパーリンクの事を指す。
【００４６】
局所構造を考慮した特徴量を算出する処理の詳細な流れについては図６に示され、まずウェブページ特徴量算出手段１０５が、ハイパーリンク情報ＤＢ１０４によって表されるウェブページのネットワーク構造の中からあらかじめ指定されたノード数ｋ，例えばｋ＝３〜６程度、のサブネットワークをすべて列挙する（ステップＳ２１）。ここで、ｋ＝３の場合には、とりうるサブネットワークの構造は図７に示すように計１３パターンあり、各パターン中でのノードの位置について対称性を考慮すると、ノードの機能は計３０種類に分類される。したがって、ｋ＝３の場合、ウェブページｉの特徴量、つまり特徴ベクトルはウェブページｉがその周辺のウェブページと形成する３ノードサブネットワーク構造中で果たしている各機能の頻度を要素として持った３０次元のベクトルとなり、以下の式（１）で表される。
【００４７】
Ｍ_i＝（ｍ₁，ｍ₂，ｍ₃，．．．，ｍ₃₀）…（１）
ここで、ｍ₁，ｍ₂の添え字１，２は、それぞれ図７中における機能１，２に対応している。各ウェブページの特徴ベクトルの算出（式（１）の算出）が終わったら、その結果をウェブページ特徴量ＤＢ１０６に登録する（ステップＳ２２）。
【００４８】
本発明における、局所構造を考慮した特徴量においては、ウェブページの特性は必ずしも人が容易に把握できるものばかりではないが、中には特定の機能が表すウェブページの定性的な特性を想像できるものもある。
【００４９】
例えば、機能１および３はそれぞれ出次数・入次数を良く表すと考えられる。もちろん、他の２ノードとの間およびそれらのノード間にエッジが存在する場合には異なったパターンを形成するが、その出次数・入次数をｎとすると、複雑なサブネットワーク構造は形成されにくいことを考慮すると、特徴ベクトル中でのｍ₁，ｍ₂の頻度は、_nＣ₂程度（ＣはＣｏｍｂｉｎａｔｉｏの頭文字）になると考えられ、出次数・入次数ｎが大きいほど、その頻度も大きくなる。また、特に入次数の大きさはそのウェブページが注目されている度合いを表すと考えられ、重要な特性となる。
【００５０】
同様に、パターンから得られる情報の例としては、図７におけるパターン（７）は１６の情報を参照して発信された情報１７に対し、１６と１７を参照した上で情報１８を発信するといったように、議論を深める場合であるとか、１６と１７との間で起こった論争に対して、第３者が突っ込みを入れるといった際に現れてくるパターンではないかと想像され、各機能によって意味が異なる事が分かる。以上のように、局所構造を考慮する事によって、ウェブページの特性を反映した特徴量になりうると考えられる。
【００５１】
ウェブページ特徴量ＤＢ１０６は、図８に示されるように、ウェブページＩＤとＵＲＬ、上記特徴ベクトルにおける各次元をウェブページごとに関連付けを行った形でデータを保持している。
【００５２】
また、請求項４、９の発明の実施形態例において、ウェブページ特徴量算出手段１０５は、前記ハイパーリンク情報ＤＢ１０４を参照し、前記隣接行列形式で表現されたネットワーク（例えば図５）を基に、各ノード（ウェブページ)に対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置を考慮し、かつ、当該ノードの配置が一致する同形状のサブネットワーク構造が存在する場合には、そのサブネットワーク構造を形成するノードの違いを区別しないで算出した、該ウェブページの特徴量を算出し、当該特徴量をウェブページ特徴量ＤＢ１０６に登録する。
【００５３】
ここで、本実施形態例におけるウェブページ特徴量算出の例を示す。図９のように８つのウェブページから構成されるネットワークについて、ｕｒｌａおよびｕｒｌｅの特徴量を求める。ｕｒｌａが周辺ノードと構成する３ノードサブネットワーク構造は、（ａ，ｂ，ｃ），（ａ，ｃ，ｄ），（ａ，ｂ，ｄ）の計３つである。それぞれの構造における、ａの配置に基づいて、対応する要素をカウントアップすることによって、ａの特徴量は３０次元のベクトルにおいて、３次元目に２、２２次元目に１の値を持つベクトルとなる。また、ｅの特徴ベクトルも同様にして求められ、ａの特徴ベクトルと同一のものとなる。
【００５４】
ここで、もし背景技術３のようにｕｒｌａがどのノードとサブネットワーク構造を構築するかまで考慮したうえで、特徴量を算出した場合には、ｕｒｌａとｕｒｌｅの間には直接の接続関係がないために、同一のベクトルとはならない。したがって、次で説明する関連ウェブページ算出手段１０７において、ユークリッド距離が大きくなるため、ｕｒｌａとｕｒｌｅが互いに関連ページとして提示されることはなくなる。一方で、本発明における特徴量を用いると、リンク構造が同様であることは何らかの特性が一致しているとして、ｕｒｌａとｕｒｌｅは互いに関連ページとして提示される。
【００５５】
関連ウェブページ算出手段１０７は、ユーザー等からの入力を受け取った上で、ウェブページ特徴量ＤＢ１０６を参照し、入力ページの特徴量とのユークリッド距離が小さくなる特徴量を持ったウェブページ群のＵＲＬをあらかじめ指定された数だけ、例えば１０ＵＲＬ程度、出力として提示する。
【００５６】
ここで、種々の距離指標の中でユークリッド距離を用いる理由は、本発明における局所構造を考慮した特徴ベクトルの要素の一部は、直接的に入次数および出次数を反映しているので、次数をサイトの特性を決定付ける際の重要な情報のひとつと考えると、例えば、方向性のみを考慮したコサイン距離等によって、次数の情報を無視するのは不適切だと考えられるためである。
【００５７】
最後に、本発明に基づいてブログネットワークから、関連するブログを発見した結果についてデータを示す。ただし、ブログにおいては、本実施例における各ウェブページにあたる各記事中のリンクが極めて少ないので、ハイパーリンク情報ＤＢにおけるＦｒｏｍＳｉｔｅ，ＴｏＳｉｔｅを利用し、ブログサイト単位のネットワークを構築し、関連するブログサイトを発見する事とした。
【００５８】
ブログネットワークを構築する際の基となったブログ記事は、２００８年１月の日本語ブログ記事の５９５，３５０記事である。また、このブログネットワークにおける、ブログサイト数（ノード数）は２４８，２２５であり、エッジ数（ブログサイト間のリンク）は３９９，３９８、抽出された３ノードサブネットワーク数は４８，６６８，６８０であった。
【００５９】
ここでは、ブログサイト閲覧システムにおいてユーザーの利便性を阻害していた、スパムブログを取り除くため、よく現れてくるスパムの一つを関連ウェブページ算出手段１０７の入力とした。その結果、約６０のブログについてユークリッド距離が著しく小さい値となり、関連サイトとして抽出され、また、これらのサイトは全て外見が同一のスパムブログであった。図１０に、これらのブログの特徴量を、ｓｐｌｏｇ１を関連ウェブページ算出手段１０７の入力に用いたもの、ｓｐｌｏｇ２〜５までを、抽出された６０のブログからランダムに選んだものとして示す。
【００６０】
また、このスパムブログの特徴量と比較するため、関連ウェブページ算出手段１０７の入力に著名なブロガー（アルファブロガーと呼ばれる場合もある）のブログサイトを用いた場合の例を、図１１に示す。上記と同様に、アルファ１は関連ウェブページ算出手段１０７の入力に用いたもの、アルファ２〜５までは、抽出された関連ブログからランダムに選んだものである。
【００６１】
これらの特徴量を比較すると、スパムブログにおいては全ての特徴ベクトル中において全ての機能の頻度に値を持っていることが分かり、アルファブロガーのように機能２に大きな頻度を持つことから、入次数が非常に大きいことが分かるサイトの周辺でも出現しないような構造が多く出現している事から、これらのスパムブログは何らかの意図によって同一の手法で作成されたサイト群であると想像される。
【００６２】
また、本実施形態の関連ウェブページ発見装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の関連ウェブページ発見方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＨＤＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【図面の簡単な説明】
【００６３】
【図１】本発明の実施形態例における関連ウェブページ発見装置のブロック図。
【図２】本発明の実施形態例におけるネットワーク処理の流れを示すフローチャート。
【図３】本発明の実施形態例における関連ウェブページ算出処理の流れを示すフローチャート。
【図４】本発明の実施形態例におけるウェブページ情報ＤＢの構造を示す説明図。
【図５】本発明の実施形態例におけるハイパーリンク情報ＤＢの構造を示す説明図。
【図６】本発明の実施形態例におけるウェブページ特徴量算出処理の流れを示すフローチャート。
【図７】本発明の実施形態例における局所構造を考慮した３ノードサブグラフネットワーク構造を示す説明図。
【図８】本発明の実施形態例におけるウェブページ特徴量ＤＢの構造を示す説明図。
【図９】本発明の実施形態例におけるウェブページ特徴量算出例を示す説明図。
【図１０】本発明の実施形態例におけるスパムブログのウェブサイト特徴量の例を示す説明図。
【図１１】本発明の実施形態例におけるアルファブロガーのウェブサイト特徴量の例を示す説明図。
【符号の説明】
【００６４】
１００…関連ウェブページ発見装置、１０１…ウェブページ収集手段、１０２…ウェブページ情報ＤＢ、１０３…ネットワーク抽出手段、１０４…ハイパーリンク情報ＤＢ、１０５…ウェブページ特徴量算出手段、１０６…ウェブページ特徴量ＤＢ、１０７…関連ウェブページ算出手段。

【特許請求の範囲】
【請求項１】
特定のウェブページと関連するページを発見する装置において、
インターネットからウェブページを自動的に収集し、ウェブページ情報データベースに登録するウェブページ収集手段と、
前記ウェブページ情報データベースを参照し、登録されている各ページから、リンク元とリンク先に関するハイパーリンク情報を抽出し、該情報をハイパーリンク情報データベースに登録する事で、ウェブページをノード、ハイパーリンクをエッジとしたネットワークを隣接行列形式で表現するネットワーク抽出手段と、
前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、ノード毎に該ノードとその周辺ノードとのエッジの接続状態に基づいた特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録するウェブページ特徴量算出手段と、
前記ウェブページ特徴量データベースを参照し、各ページの特徴量を基に、処理対象のページと関連するウェブページを算出し、関連ウェブページ群を出力として提示する関連ウェブページ算出手段と、
を有することを特徴とする関連ウェブページ発見装置。
【請求項２】
請求項１に記載の関連ウェブページ発見装置において、前記ウェブページ特徴量算出手段は、
前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してその周辺ノードと形成するサブネットワーク中での構造を考慮した特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録することを特徴とする関連ウェブページ発見装置。
【請求項３】
請求項１又は２に記載の関連ウェブページ発見装置において、前記ウェブページ特徴量算出手段は、
前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置に基づいてウェブページの特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録することを特徴とする関連ウェブページ発見装置。
【請求項４】
請求項１ないし３のいずれか１項に記載の関連ウェブページ発見装置において、前記ウェブページ特徴量算出手段は、
前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置を考慮し、かつ、当該ノードの配置が一致する同形状のサブネットワーク構造が存在する場合には、そのサブネットワーク構造を形成するノードの違いを区別しないで算出した、該ウェブページの特徴量をウェブページ特徴量データベースに登録する、ことを特徴とする関連ウェブページ発見装置。
【請求項５】
請求項１ないし４のいずれか１項に記載の関連ウェブページ発見装置において、前記関連ウェブページ算出手段は、
前記ウェブページ特徴量データベースを参照し、処理対象のページの特徴量と各ページの特徴量を基に、ユークリッド距離を算出し、距離が小さいページ群を関連ウェブページ群として出力する、ことを特徴とする関連ウェブページ発見装置。
【請求項６】
特定のウェブページと関連するページを発見する方法において、
ウェブページ収集手段が、インターネットからウェブページを自動的に収集し、ウェブページ情報データベースに登録するウェブページ収集ステップと、
ネットワーク抽出手段が、前記ウェブページ情報データベースを参照し、登録されている各ページから、リンク元とリンク先に関するハイパーリンク情報を抽出し、該情報をハイパーリンク情報データベースに登録する事で、ウェブページをノード、ハイパーリンクをエッジとしたネットワークを隣接行列形式で表現するネットワーク抽出ステップと、
ウェブページ特徴量算出手段が、前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、ノード毎に該ノードとその周辺ノードとのエッジの接続状態に基づいた特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録するウェブページ特徴量算出ステップと、
関連ウェブページ算出手段が、前記ウェブページ特徴量データベースを参照し、各ページの特徴量を基に、処理対象のページと関連するウェブページを算出し、関連ウェブページ群を出力として提示する関連ウェブページ算出ステップと、
を有することを特徴とする関連ウェブページ発見方法。
【請求項７】
請求項６に記載の関連ウェブページ発見方法において、前記ウェブページ特徴量算出ステップは、
前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してその周辺ノードと形成するサブネットワーク中での構造を考慮した特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録することを特徴とする関連ウェブページ発見方法。
【請求項８】
請求項６又は７に記載の関連ウェブページ発見方法において、前記ウェブページ特徴量算出ステップは、
前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置に基づいてウェブページの特徴量を算出し、当該特徴量をウェブページ特徴量データベースに登録することを特徴とする関連ウェブページ発見方法。
【請求項９】
請求項６ないし８のいずれか１項に記載の関連ウェブページ発見方法において、前記ウェブページ特徴量算出ステップは、
前記ハイパーリンク情報データベースを参照し、前記隣接行列形式で表現されたネットワークを基に、各ノードに対してあらかじめ定められた数の周辺ノードと形成するサブネットワーク構造中での当該ノードの配置を考慮し、かつ、当該ノードの配置が一致する同形状のサブネットワーク構造が存在する場合には、そのサブネットワーク構造を形成するノードの違いを区別しないで算出した、該ウェブページの特徴量をウェブページ特徴量データベースに登録する、ことを特徴とする関連ウェブページ発見方法。
【請求項１０】
コンピュータを請求項１ないし５のいずれか１項に記載の各手段として機能させる関連ウェブページ発見プログラム。

【図１】