説明

収集装置、収集方法及び収集プログラム

【課題】複数の個人ウェブサイトのURLを、指定された管理者の数を含むように、効率的に収集できる収集装置、収集方法及び収集プログラムを提供すること。
【解決手段】収集装置1は、指定された個人ウェブサイトからの最大ユーザホップ数の指定を受け付けるアプリケーション部11と、リンク元及びリンク先のクラスの組合せに基づいて予め設定されている管理者が同一である条件を満たす個人ウェブサイトのURLを収集する収集部12と、収集部12により収集されたURLのグループ内のいずれかからリンクされ、当該グループに含まれない、かつ、未収集の個人ウェブサイトを別の管理者の個人ウェブサイトとして指定し、当該個人ウェブサイトと管理者が同一である条件を満たす個人ウェブサイトのURLを収集部12に収集させる処理を、ユーザホップ数が最大数に達するまで繰り返す管理者計数部13と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、個人ウェブサイトのURLを収集する収集装置、収集方法及び収集プログラムに関する。
【背景技術】
【0002】
従来、インターネット上で公開されているウェブサイトの中には、オフラインの個人が設定した1又は複数のオンラインの個人により管理される個人ウェブサイトが存在する。
ここで、オフラインの個人とは、ネットワーク(インターネット)を利用する現実のユーザそれぞれをいい、ネットワーク上でオンラインの個人を管理している。オンラインの個人とは、ネットワークを通じて所定のサービス群の提供を受ける仮想のユーザをいい、オフラインの個人とオンラインの個人とは、1対1又は1対多の関係にある。
近年、特に中学生や高校生の間では、各人が複数のオンラインの個人を操り、それぞれのオンラインの個人で複数の個人ウェブサイトを作成し、自身のサイト間のみならず、他者とのサイト間で互いにリンクを設け、情報やメッセージの公開及び交換を行うことが多い。
【0003】
ところで、このように相互にリンクが設けられているウェブサイトのリンク構造を解析する技術も提案されている。例えば、特許文献1では、リンク構造を解析してコミュニティの境界を判定することが示されている。
【0004】
特許文献1の手法は、ウェブサイトのリンクを抽出し、リンク先のウェブサイトを再帰的に、リンクがなくなるまで収集するものであるため、リンクで紐付けられている全てのウェブサイトが同一のコミュニティとみなされる。
【0005】
しかしながら、上述のオンラインの個人は、互いにリンクされた複数の個人ウェブサイトを管理しているが、これらの個人ウェブサイトには、同一のオンラインの個人を特定する情報(ID)が含まれていない。また、個人ウェブサイトは、上述のように、他のオンラインの個人が管理する個人ウェブサイトともリンクで紐付けられている。したがって、リンクの有無からだけでは、同一のオンラインの個人が管理する個人ウェブサイトを特定することはできなかった。
【0006】
そこで、本発明者らは、複数の個人ウェブサイトを、管理者であるオンラインの個人ごとに分類するためのID割当装置、方法及びプログラムを提案した(特願2010−108242号明細書)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2006−331070号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところが、上記提案のID割当装置によっても、事前に、複数の個人ウェブサイト間におけるリンクの入出力関係を示したリンク情報を取得しておく必要があった。このリンク情報は、ある指定された個人ウェブサイトからハイパーリンクを順に辿っていくことにより収集されるが、個人ウェブサイトそれぞれの管理者が特定されていない段階では、必要とされる管理者数が含まれるように、過多に収集する必要があった。
【0009】
本発明は、複数の個人ウェブサイトのURLを、指定された管理者の数を含むように、効率的に収集できる収集装置、収集方法及び収集プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明では、以下のような解決手段を提供する。
【0011】
(1)個人ウェブサイトの指定を受け付け、当該個人ウェブサイトからハイパーリンクを辿って複数の個人ウェブサイトのURLを収集する収集装置であって、前記指定された個人ウェブサイトからハイパーリンクを辿っていく間に、個人ウェブサイトの管理者が変わる最大数の指定を受け付ける受付部と、前記ハイパーリンクのリンク元及びリンク先で、個人ウェブサイトが分類されるクラスの組合せに基づいて予め設定されている、当該リンク元及びリンク先の管理者が同一である条件を満たす個人ウェブサイトのURLを、指定された個人ウェブサイトからハイパーリンクを辿って収集する収集部と、前記収集部により収集されたURLのグループ内のいずれかからリンクされ、当該グループに含まれない、かつ、未収集の個人ウェブサイトを別の管理者の個人ウェブサイトとして指定し、当該個人ウェブサイトと管理者が同一である前記条件を満たす個人ウェブサイトのURLを前記収集部に収集させる処理を、管理者が変わった数が前記最大数に達するまで繰り返す管理者計数部と、を備える収集装置。
【0012】
このような構成によれば、収集装置は、個人ウェブサイトを収集する際に、クラスの組合せに基づいて管理者が同一であることを判定できる。したがって、収集装置は、収集の対象外である管理者が管理する個人ウェブサイトを収集するためのインターネットへのアクセスを低減し、複数の個人ウェブサイトのURLを、指定された管理者の数を含むように、効率的に収集できる。
【0013】
(2)前記クラスは、前記個人ウェブサイトの利用形態を表す所定数の種別であって、当該個人ウェブサイトのURLに基づいて分類される(1)に記載の収集装置。
【0014】
このような構成によれば、収集装置は、個人ウェブサイトのURLに基づいて、この個人ウェブサイトの利用形態を表すクラスを分類するので、管理者が同一である条件と容易に照合することができる。
【0015】
(3)前記収集部により収集された個人ウェブサイトのURLを、当該個人ウェブサイトのクラス及びリンク元のURLと共に記憶する記憶部を備える(1)又は(2)に記載の収集装置。
【0016】
このような構成によれば、収集装置は、収集された個人ウェブサイトのURL、クラス及びリンク元のURLを関連付けて記憶する。したがって、この記憶されたデータに基づいて、改めて、収集された個人ウェブサイトに対する管理者IDの割り当て等、詳細な分析が可能となる。
【0017】
(4)コンピュータが個人ウェブサイトの指定を受け付け、当該個人ウェブサイトからハイパーリンクを辿って複数の個人ウェブサイトのURLを収集する収集方法であって、前記指定された個人ウェブサイトからハイパーリンクを辿っていく間に、個人ウェブサイトの管理者が変わる最大数の指定を受け付ける受付ステップと、前記ハイパーリンクのリンク元及びリンク先で、個人ウェブサイトが分類されるクラスの組合せに基づいて予め設定されている、当該リンク元及びリンク先の管理者が同一である条件を満たす個人ウェブサイトのURLを、指定された個人ウェブサイトからハイパーリンクを辿って収集する収集ステップと、前記収集ステップで収集されたURLのグループ内のいずれかからリンクされ、当該グループに含まれない、かつ、未収集の個人ウェブサイトを別の管理者の個人ウェブサイトとして指定し、当該個人ウェブサイトと管理者が同一である前記条件を満たす個人ウェブサイトのURLを前記収集ステップにおいて収集させる処理を、管理者が変わった数が前記最大数に達するまで繰り返す管理者計数ステップと、を含む収集方法。
【0018】
このような構成によれば、収集方法をコンピュータが実行することにより、(1)と同様の効果が期待できる。
【0019】
(5)個人ウェブサイトの指定を受け付け、当該個人ウェブサイトからハイパーリンクを辿って複数の個人ウェブサイトのURLをコンピュータに収集させるための収集プログラムであって、前記指定された個人ウェブサイトからハイパーリンクを辿っていく間に、個人ウェブサイトの管理者が変わる最大数の指定を受け付ける受付ステップと、前記ハイパーリンクのリンク元及びリンク先で、個人ウェブサイトが分類されるクラスの組合せに基づいて予め設定されている、当該リンク元及びリンク先の管理者が同一である条件を満たす個人ウェブサイトのURLを、指定された個人ウェブサイトからハイパーリンクを辿って収集する収集ステップと、前記収集ステップで収集されたURLのグループ内のいずれかからリンクされ、当該グループに含まれない、かつ、未収集の個人ウェブサイトを別の管理者の個人ウェブサイトとして指定し、当該個人ウェブサイトと管理者が同一である前記条件を満たす個人ウェブサイトのURLを前記収集ステップにおいて収集させる処理を、管理者が変わった数が前記最大数に達するまで繰り返す管理者計数ステップと、を実行させるための収集プログラム。
【0020】
このような構成によれば、収集プログラムをコンピュータに実行させることにより、(1)と同様の効果が期待できる。
【発明の効果】
【0021】
本発明によれば、複数の個人ウェブサイトのURLを、指定された管理者の数を含むように、効率的に収集できる。
【図面の簡単な説明】
【0022】
【図1】本発明の実施形態に係る個人ウェブサイトと、その管理者との関係を示す図である。
【図2】本発明の実施形態に係る収集装置によりオンラインIDが割り当てられた結果を示す概要図である。
【図3】本発明の実施形態に係る収集装置の機能構成を示すブロック図である。
【図4】本発明の実施形態に係る収集履歴管理テーブルを示す図である。
【図5】本発明の実施形態に係るハイパーリンクの構造を示す図である。
【図6】本発明の実施形態に係るサイト間リレーションテーブルを示す図である。
【図7】本発明の実施形態に係る処理を示すフローチャートである。
【図8】本発明の実施形態に係る動作例の説明に供する第1の図である。
【図9】本発明の実施形態に係る動作例の説明に供する第2の図である。
【図10】本発明の実施形態に係る動作例の説明に供する第3の図である。
【図11】本発明の実施形態に係る動作例の説明に供する第4の図である。
【図12】本発明の実施形態に係る動作例の説明に供する第5の図である。
【図13】本発明の実施形態に係る動作例の説明に供する第6の図である。
【図14】本発明の実施形態に係る動作例の説明に供する第7の図である。
【図15】本発明の実施形態に係る動作例の説明に供する第8の図である。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態の一例について説明する。
本実施形態に係る収集装置1は、オンラインの個人が管理する個人ウェブサイトの指定を受け付け、この個人ウェブサイトからハイパーリンクを辿って複数の個人ウェブサイトのURLを収集する装置である。また、収集装置1は、収集した個人ウェブサイトに対して、オンラインの個人を識別するオンラインIDを割り当てる。なお、収集装置1は、サーバ装置やPC(Personal Computer)等、様々な情報処理装置(コンピュータ)であってよい。
【0024】
図1は、本実施形態に係る個人ウェブサイトと、その管理者との関係を示す図である。
現実の人物であるオフラインの個人は、ネットワーク(インターネット)上で、1又は複数のオンラインの個人を管理している。また、オンラインの個人は、1又は複数の個人ウェブサイトを管理している。
【0025】
各オンラインの個人は、例えば、同じ学校の生徒であったり、同じ趣味を持つグループの一員であったり、オンラインの他者と一定の人間関係を持っている。そのため、複数のオンラインの個人がそれぞれ管理している個人ウェブサイトの間は、ハイパーリンクで参照されていることも多い。
【0026】
ここで、個人ウェブサイトとは、オンラインの個人が、自身に関する情報を公開したり、オンラインの他者とメッセージを交換したりするためのウェブサイトをいう。例えば、以下のタイプの個人ウェブサイトがそれぞれ複数のサービスプロバイダにより提供されている。
【0027】
プロフ(プロフィール)・・・個人のプロフィールを公開できるサイト
ゲスブ(ゲストブック)・・・訪問者が履歴としてコメントを投稿できるサイト
リアル(リアルタイム)・・・個人の現況を短い文章で投稿できるサイト
ブログ・・・日々更新される日記を公開できるサイト
Myリンク・・・他者の個人ウェブサイトへのリンクを掲載できるサイト
ホムペ(ホームページ)・・・個人用のサイト
【0028】
オンラインの個人は、上記の複数のタイプの個人ウェブサイトを、サービスプロバイダごとに異なるアカウントで作成しているため、同一のIDによる紐付け(名寄せ)ができていないことが多い。例えば、「オンラインID(OnID)=1」であるオンラインの個人は、「プロフ1」及び「ゲスブ1」を管理している。これらの個人ウェブサイトは、「OnID=1」の情報を有しておらず、異なるアカウントID(1及び2)で管理されている。
【0029】
収集装置1は、後述の処理により、ある個人ウェブサイトからハイパーリンクで順次遷移可能な個人ウェブサイトのうち、指定された数(ユーザホップ数)だけ管理者が変化する分の個人ウェブサイトを収集する。その後、収集装置1は、管理者であるオンラインの個人が同一である個人ウェブサイトに対して、同一のオンラインID(OnID)を割り当て、複数の個人ウェブサイトをオンラインの個人ごとに分類する。
【0030】
図2は、本実施形態に係る収集装置1によりオンラインIDが割り当てられた結果を示す概要図である。
【0031】
以下、本実施形態においてIDの割り当ての対象とする個人ウェブサイトは、サイトの利用形態を表す次の3種類の種別(クラスA、クラスB及びクラスC)に分類されるものとする。なお、これらのクラス及び上記のタイプは、個人ウェブサイトのURLから判別できるものとする。
【0032】
クラスA(プロフ、ホムペ)・・・オンラインの個人が他者と識別するために作成する個人ウェブサイト
クラスB(ゲスブ、Myリンク)・・・オンラインの個人がクラスAのサイトに付随して作成する個人ウェブサイト
クラスC(リアル、ブログ)・・・オンラインの個人が他者と識別するために単体で、又はクラスAのサイトに付随して作成する個人ウェブサイト
【0033】
なお、同一の個人ウェブサイトがクラスAを含んで複数のタイプ(例えば、プロフとMyリンク等)を持つ場合もある。この場合、URLから判別されるクラスは、クラスAとなる。
【0034】
図3は、本実施形態に係る収集装置1の機能構成を示すブロック図である。
収集装置1は、制御部10と、記憶部20と、通信部30と、入力部40と、出力部50とを備える。
【0035】
制御部10は、収集装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、上記のハードウェアと協働し、本実施形態における各種機能を実現している。制御部10は、CPU(Central Processing Unit)であってよい。なお、制御部10が備える各部の機能は後述する。
【0036】
記憶部20は、ハードウェア群を収集装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ハードディスク(HDD)であってよい。具体的には、記憶部20には、本実施形態の各種機能を実現させるため制御部10に実行させるプログラム(収集プログラム)が記憶される。
【0037】
さらに、記憶部20は、サイト保存DB21と、サイト管理DB22とを備える。サイト保存DB21は、プログラムにて取得される個人ウェブサイトのHTMLファイル群を記憶する。また、サイト管理DB22は、プログラムにて作成又は編集される後述の収集履歴管理テーブル及びサイト間リレーションテーブルを記憶する。
【0038】
通信部30は、収集装置1が他の装置と情報を送受信する場合のネットワーク・アダプタであり、ネットワーク(インターネット)を介して個人ウェブサイトを管理しているサーバ100にアクセスし、個人ウェブサイトのHTMLファイル群を取得して制御部10へ提供する。
【0039】
入力部40は、収集装置1に対する利用者からの指示入力を受け付けるインタフェース装置である。入力部40は、例えば、キーボード、マウス及びタッチパネル等により構成される。
【0040】
出力部50は、利用者にデータの入力を受け付ける画面を表示したり、収集装置1による処理結果の画面を表示したりするディスプレイ装置を含む。さらに、出力部50は、ブラウン管表示装置(CRT)や液晶表示装置(LCD)等のディスプレイ装置の他、プリンタ等の各種出力装置を含んでよい。
【0041】
次に、制御部10の機能を詳述する。
制御部10は、アプリケーション部11(受付部)と、収集部12と、管理者計数部13と、ID割当部14とを備える。各部は、収集プログラムを実行することにより実現される機能ブロックである。
【0042】
アプリケーション部11は、入力部40を介して利用者からの指示入力を受け付け、管理者計数部13及びID割当部14に対して指令を出し、個人ウェブサイトの情報を収集して記憶部20に収集データを格納する。また、アプリケーション部11は、収集データに基づく情報を利用者へ提供する機能ブロックである。アプリケーション部11は、例えば、収集データに基づいて、個人ウェブサイトの管理者間のハイパーリンクを可視化する等の処理を行い、処理結果を出力部50へ出力して利用者に提供する。
【0043】
アプリケーション部11は、具体的には、ある個人ウェブサイトのURLの指定と共に、この指定された個人ウェブサイトからのユーザホップ数の最大数、すなわちサイト間のハイパーリンクを辿っていく間に、個人ウェブサイトの管理者が変わる最大数の指定を受け付ける。
【0044】
収集部12は、ハイパーリンクのリンク元及びリンク先の管理者が同一である条件を満たす個人ウェブサイトのURLを、指定された個人ウェブサイトからハイパーリンクを辿って収集する。
【0045】
管理者が同一である条件は、経験則に基づく以下の仮説から求められる。
(1)管理者は、クラスA又はクラスCの個人ウェブサイトを1つ以上管理する。
(2)管理者は、クラスAの個人ウェブサイトから他者の個人ウェブサイトへハイパーリンクを張らない。
(3)管理者は、自身の個人ウェブサイトから他者のクラスBの個人ウェブサイトへハイパーリンクを張らない。
【0046】
ここで、本実施形態において使用する記号を説明する。
・個人ウェブサイト:U
・個人ウェブサイトのURL:URL(U)
・個人ウェブサイトのクラス:C(U)
・個人ウェブサイトの管理者ID(OnID):ID(U)
・個人ウェブサイトUからVへのハイパーリンク(U→V)の数:N(U→V)
・ユーザホップ数:h
・最大ユーザホップ数:H
【0047】
管理者が同一である十分条件は、N(U→V)>0で以下のいずれかを満たすことである。すなわち、この条件は、ハイパーリンクのリンク元及びリンク先での前述のクラスの組合せに基づいて予め設定されている。
・C(U)=A かつ C(V)=A
・C(U)=A かつ C(V)=B
・C(U)=A かつ C(V)=C
・C(U)=B かつ C(V)=B
・C(U)=C かつ C(V)=B
【0048】
管理者計数部13は、収集部12により収集されたURLのグループ内のいずれかからリンクされており、このグループに含まれない、かつ、未収集の個人ウェブサイトを別の管理者の個人ウェブサイトとして指定する。そして、管理者計数部13は、この指定した個人ウェブサイトと管理者が同一である前述の条件を満たす個人ウェブサイトのURLを収集部12に収集させる。さらに、管理者計数部13は、同一管理者の個人ウェブサイトのURLを収集させる処理を、指定された最大ユーザホップ数(H)に達するまで繰り返す。
【0049】
収集部12により収集された個人ウェブサイトのURLは、これら個人ウェブサイトのクラス及びリンク元のURLと共にサイト管理DB22に記憶される。また、URLに対応する個人ウェブサイトのHTMLファイル群は、サイト保存DB21に記憶される。
【0050】
図4は、本実施形態に係るサイト管理DB22に格納される収集履歴管理テーブルを示す図である。
【0051】
個人ウェブサイトテーブルは、収集ID、ルートURL、リンク元URL、個人ウェブサイトURL、個人ウェブサイトのクラス、保存先、サイトホップ数、管理者ID(OnID)及び取得日時を記憶する。
【0052】
ここで、収集IDは、上記の収集処理ごとに付与される識別番号である。ルートURLは、収集処理を行うために指定された個人ウェブサイトのURLである。保存先は、サイト保存DB21内における対象の個人ウェブサイトの記憶場所を示すURLである。OnIDは、後述のID割当部14によって割り当てられるオンラインの個人を識別するIDである。
【0053】
また、サイトホップ数は、指定された個人ウェブサイトをルートノードとし、リンクされた隣接する個人ウェブサイト間のハイパーリンクを1ホップとしたときの、ルートノードからのホップ数である。
【0054】
図5は、本実施形態に係るルートノードの個人ウェブサイトからのハイパーリンクの構造を示す図である。
【0055】
ルートノードから複数のハイパーリンクにより別の個人ウェブサイトが隣接し(サイトホップ数=1)、これらの隣接する個人ウェブサイトのそれぞれから、さらにハイパーリンクにより別の個人ウェブサイトが隣接する(サイトホップ数=2)。このように、サイトホップ数をカウントしつつ、個人ウェブサイトは収集されるが、収集時に管理者が特定又は推定されない場合、必要以上にサイトホップ数を多く設定する必要がある。そこで、収集部12は、前述の条件に基づいて、同一管理者の個人ウェブサイトを判定し、収集する個人ウェブサイトの数を効率化させる。
【0056】
図6は、本実施形態に係るサイト管理DB22に格納されるサイト間リレーションテーブルを示す図である。
サイト間リレーションテーブルは、リンク元の個人ウェブサイトの情報(URL、クラス、タイプ)、リンク先の個人ウェブサイトの情報(URL、クラス、タイプ)、収集ID及び取得日時を記憶する。
【0057】
ID割当部14は、サイト管理DB22に記憶されている収集履歴管理テーブルから、管理者ID(OnID)が割り当てられていない個人ウェブサイトのレコードを抽出し、サイト間リレーションテーブルの情報を利用して、個人ウェブサイトにOnIDを割り当てる。なお、IDの割り当ては、例えば、前述の提案(特願2010−108242号明細書)により実施可能である。
【0058】
次に、個人ウェブサイトの収集方法の手順を詳述する。
図7は、本実施形態に係る制御部10における処理を示すフローチャートである。
【0059】
ステップS1において、アプリケーション部11は、ルートノードとしての個人ウェブサイト(U)のURL(URL(U))と、収集する最大ユーザホップ数(H)の指定を受け付け、管理者計数部13へ通知する。
【0060】
ステップS2において、管理者計数部13は、ユーザホップ数(h)を0に設定し、収集部12に対して、ステップS1で指定されたルートノードを起点としたURLの収集処理を指示する。
【0061】
ステップS3において、収集部12は、ステップS1で指定されたURL(U)から、インターネットを介して、UのHTMLファイル群を収集し、サイト保存DB21に保存する。
【0062】
ステップS4において、収集部12は、UのHTMLファイル群に含まれるハイパーリンクの情報から、リンク先の個人ウェブサイト(Vn,n=1,2,・・・,N)のURL(URL(Vn),n=1,2,・・・,N)を抽出する。
【0063】
ステップS5において、収集部12は、ステップS4で抽出したURL(Vn)から、Vnのクラス(C(Vn),n=1,2,・・・,N)を判定する。
【0064】
ステップS6において、収集部12は、Vnのうち、前述の条件を満たして管理者が等しい(ID(U)=ID(Vn))と判定されたリンク先の個人ウェブサイトを(V′n,n=1,2,・・・,N′)とする。
【0065】
ステップS7において、収集部12は、V′nのうち、収集履歴管理テーブル(図4)にURL(V′n)が存在しないリンク先の個人ウェブサイトを(V″n,n=1,2,・・・,N″)とする。
【0066】
ステップS8において、収集部12は、URL(V″n)から、インターネットを介して、V″nのHTMLファイル群を収集し、サイト保存DB21に保存する。さらに、収集部12は、収集履歴管理テーブルにV″nのレコードを追加する。
【0067】
ステップS9において、収集部12は、V″nが存在しない、つまりN″=0であるか否かを判定する。この判定がYESの場合、処理はステップS10に移る。一方、判定がNOの場合、収集部12は、V″nのそれぞれについて(V″n)を(U)に置き換え、処理をステップS4に移す。
【0068】
ステップS10において、管理者計数部13は、同一管理者の個人ウェブサイトを収集し終えたので、ユーザホップ数(h)を1増加させる。
【0069】
ステップS11において、管理者計数部13は、ステップS10で増加されたユーザホップ数(h)が指定された最大数(H)を超えたか否かを判定する。この判定がYESの場合、処理は終了する。一方、判定がNOの場合、管理者計数部13は、ステップS6で管理者が等しいと判定されなかったリンク先の個人ウェブサイト(Wm,m=1,2,・・・,M)のそれぞれについて(Wm)を(U)に置き換え、処理をステップS4に移す。
【0070】
図8〜図15は、本実施形態に係る収集装置1の動作例を示す図である。
この例では、図8のように、クラスAの個人ウェブサイト(U)をルートノードとし、1ユーザホップ先までの個人ウェブサイトを収集する。なお、図8では、U以外の個人ウェブサイトのクラス及びサイト間のハイパーリンクが示されているが、初期状態において、U以外の個人ウェブサイトの情報は不明とする。
【0071】
図9(図7のステップS2)において、ユーザホップ数(h)=0が設定される。ここで、網掛けの個人ウェブサイトは、未収集であり、収集履歴管理テーブルにレコードがない。
【0072】
図10(図7のステップS4)において、Uからハイパーリンクが張られている個人ウェブサイトV1、V2及びV3のURLが抽出される。
【0073】
図11(図7のステップS6)において、V1、V2及びV3は、いずれもUと管理者が等しいと判定され、それぞれ、V′1、V′2及びV′3と設定される。
【0074】
図12(図7のステップS7)において、V′1は既に収集済みの個人ウェブサイトだが、V′2及びV′3は未収集なので、V′2及びV′3は、それぞれV″1及びV″2と設定される。
【0075】
図13(図7のステップS8)において、V″1及びV″2のHTMLファイル群が収集され、収集履歴管理テーブルにレコードが追加される。
【0076】
図14(図7のステップS9)において、V″1及びV″2からハイパーリンクが張られている個人ウェブサイトは、いずれも管理者が等しい条件を満たさないため、破線より上部の4つの個人ウェブサイトがUと同一の管理者であると判定される。
【0077】
その後、ユーザホップ数(h)が1となり、V″1又はV″2からハイパーリンクが張られている個人ウェブサイトを起点として、図15のように、Uから1ユーザホップ先の個人ウェブサイトが収集される。
【0078】
以上のように、本実施形態によれば、収集装置1は、個人ウェブサイトを収集する際に、クラスの組合せに基づいて管理者が同一であることを判定できる。したがって、収集装置1は、収集の対象外である管理者が管理する個人ウェブサイトを収集するためのインターネットへのアクセスを低減し、複数の個人ウェブサイトのURLを、指定された管理者の数を含むように、効率的に収集できる。
【0079】
また、収集装置1は、個人ウェブサイトのURLに基づいて、この個人ウェブサイトの利用形態を表すクラスを分類するので、管理者が同一である条件と容易に照合することができる。
【0080】
さらに、収集装置1は、収集された個人ウェブサイトのURL、クラス及びリンク元のURLを関連付けて記憶する。したがって、収集装置1は、この記憶されたデータに基づいて、改めて、個人ウェブサイトに対する高精度な管理者IDの割り当てが可能となる。このとき、データ収集が効率化されたので、処理負荷の低減及び処理時間の短縮が期待できる。
【0081】
特に、収集装置1は、例えば、あるオンラインの個人(管理者)に対して隣接する管理者の情報を取得するネットいじめ防止ツールとして利用される場合に、管理者間のハイパーリンクの情報を短時間で効率的に取得できる。
【0082】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0083】
1 収集装置
10 制御部
11 アプリケーション部(受付部)
12 収集部
13 管理者計数部
14 ID割当部
20 記憶部
21 サイト保存DB
22 サイト管理DB
30 通信部
40 入力部
50 出力部

【特許請求の範囲】
【請求項1】
個人ウェブサイトの指定を受け付け、当該個人ウェブサイトからハイパーリンクを辿って複数の個人ウェブサイトのURLを収集する収集装置であって、
前記指定された個人ウェブサイトからハイパーリンクを辿っていく間に、個人ウェブサイトの管理者が変わる最大数の指定を受け付ける受付部と、
前記ハイパーリンクのリンク元及びリンク先で、個人ウェブサイトが分類されるクラスの組合せに基づいて予め設定されている、当該リンク元及びリンク先の管理者が同一である条件を満たす個人ウェブサイトのURLを、指定された個人ウェブサイトからハイパーリンクを辿って収集する収集部と、
前記収集部により収集されたURLのグループ内のいずれかからリンクされ、当該グループに含まれない、かつ、未収集の個人ウェブサイトを別の管理者の個人ウェブサイトとして指定し、当該個人ウェブサイトと管理者が同一である前記条件を満たす個人ウェブサイトのURLを前記収集部に収集させる処理を、管理者が変わった数が前記最大数に達するまで繰り返す管理者計数部と、を備える収集装置。
【請求項2】
前記クラスは、前記個人ウェブサイトの利用形態を表す所定数の種別であって、当該個人ウェブサイトのURLに基づいて分類される請求項1に記載の収集装置。
【請求項3】
前記収集部により収集された個人ウェブサイトのURLを、当該個人ウェブサイトのクラス及びリンク元のURLと共に記憶する記憶部を備える請求項1又は請求項2に記載の収集装置。
【請求項4】
コンピュータが個人ウェブサイトの指定を受け付け、当該個人ウェブサイトからハイパーリンクを辿って複数の個人ウェブサイトのURLを収集する収集方法であって、
前記指定された個人ウェブサイトからハイパーリンクを辿っていく間に、個人ウェブサイトの管理者が変わる最大数の指定を受け付ける受付ステップと、
前記ハイパーリンクのリンク元及びリンク先で、個人ウェブサイトが分類されるクラスの組合せに基づいて予め設定されている、当該リンク元及びリンク先の管理者が同一である条件を満たす個人ウェブサイトのURLを、指定された個人ウェブサイトからハイパーリンクを辿って収集する収集ステップと、
前記収集ステップで収集されたURLのグループ内のいずれかからリンクされ、当該グループに含まれない、かつ、未収集の個人ウェブサイトを別の管理者の個人ウェブサイトとして指定し、当該個人ウェブサイトと管理者が同一である前記条件を満たす個人ウェブサイトのURLを前記収集ステップにおいて収集させる処理を、管理者が変わった数が前記最大数に達するまで繰り返す管理者計数ステップと、を含む収集方法。
【請求項5】
個人ウェブサイトの指定を受け付け、当該個人ウェブサイトからハイパーリンクを辿って複数の個人ウェブサイトのURLをコンピュータに収集させるための収集プログラムであって、
前記指定された個人ウェブサイトからハイパーリンクを辿っていく間に、個人ウェブサイトの管理者が変わる最大数の指定を受け付ける受付ステップと、
前記ハイパーリンクのリンク元及びリンク先で、個人ウェブサイトが分類されるクラスの組合せに基づいて予め設定されている、当該リンク元及びリンク先の管理者が同一である条件を満たす個人ウェブサイトのURLを、指定された個人ウェブサイトからハイパーリンクを辿って収集する収集ステップと、
前記収集ステップで収集されたURLのグループ内のいずれかからリンクされ、当該グループに含まれない、かつ、未収集の個人ウェブサイトを別の管理者の個人ウェブサイトとして指定し、当該個人ウェブサイトと管理者が同一である前記条件を満たす個人ウェブサイトのURLを前記収集ステップにおいて収集させる処理を、管理者が変わった数が前記最大数に達するまで繰り返す管理者計数ステップと、を実行させるための収集プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2012−203880(P2012−203880A)
【公開日】平成24年10月22日(2012.10.22)
【国際特許分類】
【出願番号】特願2011−71109(P2011−71109)
【出願日】平成23年3月28日(2011.3.28)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】