説明

リンク情報抽出装置、リンク情報抽出方法およびプログラム

【課題】多くの電子情報の中から特定の電子情報を探し出す作業者の負担を少なくできるリンク情報抽出装置、リンク情報抽出方法およびプログラムを提供する。
【解決手段】リンク情報抽出装置は、特定種類に分類された第1リンク情報を記憶する記憶手段と、複数の電子情報を入手する入手手段と、入手された各電子情報を、記憶手段内の第1リンク情報が記載されている第1電子情報と、第1リンク情報が記載されていない第2電子情報と、に分類する分類手段と、第1電子情報に第1リンク情報以外の第2リンク情報が記載されている場合、第2リンク情報に基づいて第3リンク情報を生成する生成手段と、第3リンク情報が特定種類に分類される可能性の程度を表す可能性情報を、その第3リンク情報と少なくとも第1電子情報または第2電子情報とに基づいて生成し、その可能性情報とその第3リンク情報とを互いに関連づけて出力する出力手段と、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、リンク情報抽出装置、リンク情報抽出方法およびプログラムに関する。
【背景技術】
【0002】
ブログまたはHP(ホームページ)などのURLが付加された多くの電子情報の中から、特定の電子情報を探し出していく調査作業が行われている。
【0003】
特許文献1には、電子情報の一例として、スパムブログ(spam blog)が記載されている。以下では、スパムブログを、スプログ(splog)と称する。
【0004】
特定の電子情報が、例えば、スプログである場合、調査作業は、スプログに詳しいエキスパート(以下、単に「エキスパート」と称する)によって行われている。
【0005】
例えば、エキスパートは、実際に、ブログ本文およびブログにリンクされているHPを閲覧して、そのブログが、悪質なアフィリエイトサイト、つまり、スプログであると判定し、そのブログを特定するためのブラックリストを作成していた。
【0006】
なお、エキスパートは、同一ドメインからの大量ブログ投稿、コメント・トラックバック投稿、dos(Denial of Services)/ddos(Distributed Denial of Service)攻撃ユーザなどを参考にしながら、調査対象のブログがスプログか否かを判定する。
【0007】
一方、特定の電子情報が、特定の趣味に関する内容が記載された電子情報である場合、調査作業は、その特定の趣味に詳しいユーザによって行われている。
【特許文献1】特開2008−33599号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
調査作業は、人によって行われる。このため、調査作業を行う人の負担が大きいという課題があった。
【0009】
本発明の目的は、上述した課題を解決することが可能なリンク情報抽出装置、リンク情報抽出方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0010】
本発明のリンク情報抽出装置は、特定種類に分類された第1リンク情報を記憶する記憶手段と、複数の電子情報を入手する入手手段と、前記入手手段にて入手された電子情報のそれぞれを、前記記憶手段内の第1リンク情報が記載されている第1電子情報と、当該第1リンク情報が記載されていない第2電子情報と、に分類する分類手段と、前記第1電子情報に、前記第1リンク情報以外の第2リンク情報が記載されている場合に、当該第2リンク情報に基づいて、第3リンク情報を生成する生成手段と、前記第3リンク情報が前記特定種類に分類される可能性の程度を表す可能性情報を、当該第3リンク情報と、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて生成し、当該可能性情報と当該第3リンク情報とを、互いに関連づけて出力する出力手段と、を含む。
【0011】
本発明のリンク情報抽出方法は、リンク情報抽出装置が行うリンク情報抽出方法であって、特定種類に分類された第1リンク情報を記憶手段に記憶する記憶ステップと、複数の電子情報を入手する入手ステップと、前記入手された電子情報のそれぞれを、前記記憶手段内の第1リンク情報が記載されている第1電子情報と、当該第1リンク情報が記載されていない第2電子情報と、に分類する分類ステップと、前記第1電子情報に、前記第1リンク情報以外の第2リンク情報が記載されている場合に、当該第2リンク情報に基づいて、第3リンク情報を生成する生成ステップと、前記第3リンク情報が前記特定種類に分類される可能性の程度を表す可能性情報を、当該第3リンク情報と、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて生成し、当該可能性情報と当該第3リンク情報とを、互いに関連づけて出力する出力ステップと、を含む。
【0012】
本発明のプログラムは、コンピュータに、特定種類に分類された第1リンク情報を記憶手段に記憶する記憶手順と、複数の電子情報を入手する入手手順と、前記入手された電子情報のそれぞれを、前記記憶手段内の第1リンク情報が記載されている第1電子情報と、当該第1リンク情報が記載されていない第2電子情報と、に分類する分類手順と、前記第1電子情報に、前記第1リンク情報以外の第2リンク情報が記載されている場合に、当該第2リンク情報に基づいて、第3リンク情報を生成する生成手順と、前記第3リンク情報が前記特定種類に分類される可能性の程度を表す可能性情報を、当該第3リンク情報と、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて生成し、当該可能性情報と当該第3リンク情報とを、互いに関連づけて出力する出力手順と、を実行させる。
【発明の効果】
【0013】
本発明によれば、多くの電子情報の中から特定の電子情報を探し出していく調査作業を行う作業者の負担を少なくすることが可能になる。
【発明を実施するための最良の形態】
【0014】
以下、本発明の実施形態を図面を参照して説明する。
【0015】
図1は、本発明の一実施形態のURL(Uniform Resource Locator)抽出装置を示したブロック図である。URL抽出装置は、一般的にリンク情報抽出装置と呼ぶことができる。URLは、一般的にリンク情報と呼ぶことができる。
【0016】
図1において、URL抽出装置1は、利用者PC(Personal Computer)2とブログサーバ3とネットワーク4のそれぞれと接続される。
【0017】
利用者PC2は、URL抽出装置1の利用者によって使用される。利用者PC2は、例えば、利用者の操作に応じて、URL抽出装置1に動作開始信号を提供する。
【0018】
ブログサーバ3は、一般的に記憶装置と呼ぶことができる。ブログサーバ3は、複数のブログを記憶するブログ記憶部31を含む。ブログは、一般的に電子情報と呼ぶことができる。
【0019】
URL抽出装置1は、ブラックリストDB(database)11と、ブログ取得部12と、分類部13と、生成部14と、出力部15と、を含む。分類部13は、記憶部13aと、抽出部13bと、比較部13cと、を含む。出力部15は、ホワイトリストDB15aと、出力制御部15bと、を含む。
【0020】
ブラックリストDB11は、一般的に記憶手段と呼ぶことができる。
【0021】
ブラックリストDB11は、スプログに記載されたURLが属する種類に分類されたURL(以下「ブラックリストURL」と称する)を記憶する。スプログに記載されたURLが属する種類は、一般的に特定種類と呼ぶことができる。
【0022】
ブラックリストURLは、一般的に第1URLまたは第1リンク情報と呼ぶことができる。なお、ブラックリストURLは、1つでもよいし複数でもよい。以下では、複数のブラックリストURLがブラックリストDB11内に存在するものとして説明する。
【0023】
ブログ取得部12は、一般的に入手手段と呼ぶことができる。
【0024】
ブログ取得部12は、利用者PC2とブログサーバ3とネットワーク4のそれぞれと通信可能である。ブログ取得部12は、複数のブログを入手する。
【0025】
本実施形態では、ブログ取得部12は、利用者PC2から動作開始信号を受け付けると、ブログサーバ3内のブログ記憶部31から、複数のブログを取得することによって、複数のブログを入手する。
【0026】
なお、ブログ取得部12は、利用者PC2から複数のブログを受け付けることによって、複数のブログを入手してもよい。
【0027】
ブログ取得部12は、複数のブログを入手すると、その複数のブログを、分類部13に提供する。
【0028】
分類部13は、一般的に分類手段と呼ぶことができる。
【0029】
分類部13は、ブログ取得部12から複数のブログを受け付けると、ブログのそれぞれを、ブラックリストDB11内のブラックリストURLが記載されているブログ(以下「第1ブログ」と称する)と、ブラックリストDB11内のブラックリストURLが記載されていないブログ(以下「第2ブログ」と称する)と、に分類する。
【0030】
第1ブログは、一般的に第1電子情報と呼ぶことができる。第2ブログは、一般的に第2電子情報と呼ぶことができる。
【0031】
記憶部13aは、分類部13の分類結果を記憶する。
【0032】
抽出部13bは、ブログ取得部12から提供されたブログごとに、ブログに記載されたURLを抽出する。
【0033】
ブログに記載されたURLは、少なくとも、ブログのリンクタグに記載されている、リンク先のURLである。なお、ブログに記載されたURLは、ブログのリンクタグに記載されている、リンク先のURLと、ブログの本文に記載されているURLと、の両方でもよい。
【0034】
抽出部13bは、ブログごとに、ブログから抽出されたURLと、ブログの識別情報(例えば、ブログのURLまたはIPアドレスまたはブログそのもの)と、を関連づける。抽出部13bは、その関連づけられたURLとブログの識別情報とを、比較部13cに提供する。
【0035】
比較部13cは、抽出部13bからURLとブログの識別情報とを受け付けると、受け付けられたURLと、ブラックリストDB11内のブラックリストURLと、を比較する。
【0036】
受け付けられたURLに、ブラックリストURLのいずれかが含まれる(該当する)と、比較部13cは、ブラックリストURLを含むURLに関連づけられているブログの識別情報に、スプログを意味するフラグを付ける。比較部13cは、そのフラグ付けされたブログの識別情報を、記憶部13aに記憶する。
【0037】
一方、受け付けられたURLに、ブラックリストURLのいずれもが含まれない(該当しない)と、比較部13cは、ブラックリストURLを含まないURLに関連づけられているブログの識別情報に、正常を意味するフラグを付ける。比較部13cは、そのフラグ付けされたブログの識別情報を、記憶部13aに記憶する。
【0038】
図2は、記憶部13aに記憶されたブログの識別情報の一例を示した説明図である。図2では、記載を簡単にするために、ブログの識別情報としてブログ名を使用している。
【0039】
スプログを意味するフラグが付けられたブログ(例えば、図2に示したブログA〜C)は、第1ブログとなる。正常を意味するフラグが付けられたブログ(例えば、図2に示したブログD〜G)は、第2ブログとなる。
【0040】
図1に戻って、生成部14は、一般的に生成手段と呼ぶことができる。
【0041】
生成部14は、第1ブログに、ブラックリストURL以外のURL(以下「非該当URL」と称する)が記載されている場合に、非該当URLに基づいて、第3URLを生成する。なお、非該当URLは、一般的に第2URLまたは第2リンク情報と呼ぶことができる。また、第3URLは、一般的に第3リンク情報と呼ぶことができる。
【0042】
例えば、生成部14は、非該当URL内にスラッシュが存在する場合、非該当URLと同一のURLを分解URLとして生成し、さらに、非該当URLから、非該当URL内のスラッシュ以下の部分を削除して、分解URLを生成する。各分解URLは、第3URLに対応する。
【0043】
なお、非該当URL内に複数のスラッシュが存在する場合、生成部14は、非該当URLと同一のURLを分解URLとして生成し、さらに、スラッシュごとに、非該当URLからそのスラッシュ以下の部分を削除して、複数の分解URLを生成する。生成部14は、分解URLを出力部15に提供する。
【0044】
出力部15は、一般的に出力手段と呼ぶことができる。
【0045】
出力部15は、分解URLが、スプログに記載されたURLに分類される可能性の程度を表す可能性情報(以下「スコア」と称する)を、その分解URLと、少なくとも第1ブログまたは第2ブログと、に基づいて生成する。
【0046】
例えば、出力部15は、分解URLごとに、その分解URLと、少なくとも第1ブログまたは第2ブログと、に基づいて、スコアを生成する。
【0047】
出力部15は、そのスコアとその分解URLとを、互いに関連づけて、利用者PC2にリスト形式で出力する。以下、このリスト形式の出力を、出力リストと称する。
【0048】
なお、出力部15は、複数の分解URLの中に、関連するスコアが示す可能性の程度が他の分解URLよりも高く、かつ、該他の分解URLに属する、特定URLが存在する場合、該他の分解URLを、出力リストから削除する。この場合、出力部15は、他の分解URLが削除された出力リストを、利用者PC2に出力する。
【0049】
また、出力部15は、分解URLと関連づけられたスコアが示す可能性の程度が、予め設定された値を超える場合、その分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶する。
【0050】
なお、利用者PC2が、出力部15からの出力リストを表示している間、利用者が、その出力リストを見ながら利用者PC2を操作して、リスト内の任意の分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶してもよい。この場合、出力部15は、分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶しなくてもよい。
【0051】
また、分解URLが、新たなブラックリストURLとして、ブラックリストDB11に追加記憶されると、分類部13(具体的には、比較部13c)は、既に第2ブログと分類されたブログのうち、新たなブラックリストURLが記載されているブログを、第1ブログに再分類し、第1ブログを示すリスト(例えば、第1ブログのURLを示したURLリスト)を、利用者PC2に出力する。
【0052】
このリストには、最初から第1ブログに分類されたブログ、および、第2ブログに分類された後に第1ブログに再分類されたブログ(例えば、そのブログのURL)が示される。
【0053】
ホワイトリストDB15aは、一般的に格納手段と呼ぶことができる。
【0054】
ホワイトリストDB15aは、スプログに記載されたURLに分類されないURL(以下「ホワイトリストURL」と称する)を格納する。ホワイトリストURLは、一般的に第4URLまたは第4リンク情報と呼ぶことができる。
【0055】
出力制御部15bは、一般的に出力制御手段と呼ぶことができる。
【0056】
出力制御部15bは、出力部15が行う上記処理を実行する。また、出力制御部15bは、分解URLが、ホワイトリストDB15aに格納されていると、その分解URLを出力リストから削除する。
【0057】
出力制御部15bは、上述したような分解URLの削除処理が行われた出力リストを、利用者PC2に出力する。
【0058】
なお、図1に示したURL抽出装置1は、CD−ROM、ハードディスクまたはメモリに記録されたプログラムに従って動作するコンピュータによって実現されてもよい。CD−ROM、ハードディスクまたはメモリは、一般的に、コンピュータにて読み取り可能な記録媒体と呼ぶことができる。
【0059】
この場合、コンピュータは、そのプログラムを記録媒体から読み取り実行することによって、ブラックリストDB11、ブログ取得部12、分類部13、生成部14、および、出力部15として機能し、URL抽出装置1が実現される。
【0060】
次に、動作を説明する。
【0061】
図3は、URL抽出装置1の動作を説明するためのフローチャートである。以下、図3を参照してURL抽出装置1の動作を説明する。
【0062】
ステップ301では、ブログ取得部12は、利用者PC2から動作開始信号を受け付けると、ブログサーバ3内のブログ記憶部31から複数のブログを入手し、その複数のブログを分類部13(具体的には、抽出部13b)に提供する。
【0063】
続いて、ステップ302では、抽出部13bは、ブログ取得部12から複数のブログを受け付けると、ブログごとに、ブログに記載されたURLを抽出する。
【0064】
本実施形態では、抽出部13bは、対象ブログの本文とリンクの中から、リンクタグ(HTML(HyperText Markup Language)形式の場合 <a href="リンク先のURL">リンク名</a>)を検索し、リンク先のURLを抽出する。さらに、抽出部13bは、対象ブログの本文に記載されているURLを抽出する。
【0065】
抽出部13bは、ブログごとに、ブログから抽出されたURLとブログの識別情報とを関連づけ、その関連づけられたURLとブログの識別情報とを、比較部13cに提供する。
【0066】
続いて、ステップ303では、比較部13cは、抽出部13bからURLとブログの識別情報とを受け付けると、受け付けられたURLと、ブラックリストDB11内のブラックリストURLと、を比較する。
【0067】
受け付けられたURLに、ブラックリストURLのいずれかが含まれる(該当する)と、比較部13cは、ブラックリストURLを含むURLに関連づけられているブログの識別情報に、スプログを意味するフラグを付ける。比較部13cは、そのフラグ付けされたブログの識別情報を、記憶部13aに記憶する。
【0068】
一方、受け付けられたURLに、ブラックリストURLのいずれもが含まれない(該当しない)と、比較部13cは、ブラックリストURLを含まないURLに関連づけられているブログの識別情報に、正常を意味するフラグを付ける。比較部13cは、そのフラグ付けされたブログの識別情報を、記憶部13aに記憶する。
【0069】
続いて、ステップ304では、生成部14は、スプログとフラグ付けされたブログ(第1ブログ)に記載された全てのURLの中から、ブラックリストDB11に記憶されたブラックリストURLに該当しなかった非該当URLを抽出する。
【0070】
続いて、ステップ305では、生成部14は、非該当URLに基づいて、分解URLを生成する。
【0071】
例えば、非該当URL内に複数のスラッシュが存在する場合、生成部14は、非該当URLと同一のURLを分解URLとして生成し、さらに、スラッシュごとに、非該当URLからそのスラッシュ以下の部分を削除して、複数の分解URLを生成する。
【0072】
換言すると、生成部14は、非該当URLを、ドメインを含むディレクトリが「/(スラッシュ)」のいずれかで区切られる全てのパターンに分解して、分解URLを生成する。
【0073】
例えば、非該当URLが「http://ドメイン/ディレクトリ1/ディレクトリ2/ディレクトリ3」である場合、生成部14は、「ドメイン」、「ドメイン/ディレクトリ1」、「ドメイン/ディレクトリ1ディレクトリ2」、「ドメイン/ディレクトリ1/ディレクトリ2/ディレクトリ3」というように、ドメインを含む全通りパターンを、分解URLとして生成する。
【0074】
ただし、生成部14は、「ディレクトリ1」、「ディレクトリ2/ディレクトリ3」等のように、ドメインを含まない全通りのパターンを、分解URLとして生成しても構わない。
【0075】
また、ドメインが、サブドメインを含む場合、生成部14は、ドメインを、サブドメインとメインドメインの間で区切り、その区切り結果を、分解URLに加えても構わない。
【0076】
例えば、非該当URLが「http://サブドメイン.メインドメイン/・・・」である場合、生成部14は、「サブドメイン.メインドメイン」、「メインドメイン」などを、分解URLとして生成してもよい。
【0077】
生成部14は、分解URLを出力部15に提供する。
【0078】
続いて、ステップ306では、出力部15(具体的には、出力制御部15b)は、分解URLごとに、スコアを、その分解URLと、少なくとも第1ブログまたは第2ブログと、に基づいて生成する。
【0079】
出力制御部15bは、そのスコアとその分解URLとを、互いに関連づけて、スコアに基づき順位付けして、リスト形式で出力する。このリスト形式の出力は、出力リストとして利用される。
【0080】
ここで、出力制御部15bによるスコアの算出例を説明する。
【0081】
スコア例1:〔「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数/「分解URLを含み」and「全対象ブログ(のリンク先URL)」を満たすブログの数〕にて演算される値(以下「第1値」と称する)を、スコアとして使用する。
【0082】
なお、「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数は、対象となる分解URL(以下「対象分解URL」と称する)を含むブログのうち、スプログと認定されているブログの数を意味する。
【0083】
また、「分解URLを含み」and「全対象ブログ(のリンク先URL)」を満たすブログの数は、対象分解URLを含むブログの数を意味する。
【0084】
よって、第1値は、対象分解URLを含むブログのうち、スプログと認定されているブログの割合を示す。
【0085】
このため、第1値が1に近いほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
【0086】
出力制御部15bは、第1ブログのうち対象分解URLが記載されているブログの数と、第2ブログのうち対象分解URLが記載されているブログの数と、の和を算出することによって、対象分解URLを含むブログの数を求める。
【0087】
出力制御部15bは、第1ブログのうち対象分解URLが記載されているブログの数をカウントすることによって、対象分解URLを含むブログのうちスプログと認定されているブログの数を求める。
【0088】
したがって、出力制御部15bは、対象分解URLと、第1ブログと、第2ブログと、に基づいて、第1値を求めることになる。
【0089】
この場合、さらに、スコアとして、「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数(以下「第2値」と称する)が追加されてもよい。
【0090】
第2値は、対象分解URLを含むブログのうちスプログと認定されているブログの数を示す。なお、出力制御部15bは、対象分解URLと、第1ブログと、に基づいて、第2値を求めることになる。
【0091】
このため、例えば、分解URL同士で第1値が等しい場合、第2値が大きいほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
【0092】
スコア例2:〔「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数/スプログと認定されたブログ(のリンク先URL)の数〕にて演算される値(以下「第3値」と称する)を、スコアとして使用する。
【0093】
なお、「分解URLを含み」and「スプログと認定されたブログ(のリンク先URL)」を満たすブログの数は、スプログと認定されたブログのうち、対象分解URLを含むブログの数を意味する。
【0094】
よって、第3値は、スプログと認定されたブログのうち、対象分解URLを含むブログの割合を示す。
【0095】
このため、第3値が1に近いほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
【0096】
なお、出力制御部15bは、第1ブログの数をカウントすることによって、スプログと認定されたブログの数を求める。
【0097】
また、出力制御部15bは、第1ブログのうち対象分解URLが記載されているブログの数をカウントすることによって、対象分解URLを含むブログのうちスプログと認定されているブログの数を求める。
【0098】
したがって、出力制御部15bは、対象分解URLと、第1ブログと、に基づいて、第3値を求めることになる。
【0099】
この場合、さらに、スコアとして、〔「分解URLを含み」and「正常なブログと認定されたブログ(のリンク先URL)」を満たすブログの数/正常なブログと認定されたブログ(のリンク先URL)の数〕にて演算される値(以下「第4値」と称する)が追加されてもよい。
【0100】
なお、「分解URLを含み」and「正常なブログと認定されたブログ(のリンク先URL)」を満たすブログの数は、正常と認定されたブログのうち、対象分解URLを含むブログの数を意味する。
【0101】
よって、第4値は、正常と認定されているブログのうち、対象分解URLを含むブログの割合を示す。
【0102】
このため、第4値が小さいほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
【0103】
よって、例えば、分解URL同士で第3値が等しい場合、第4値が小さいほど、対象分解URLがスプログに記載されたURLの属する種類に分類される、可能性の程度が、高くなる。
【0104】
出力制御部15bは、第2ブログの数をカウントすることによって、正常と認定されたブログの数を求める。
【0105】
出力制御部15bは、第2ブログのうち対象分解URLが記載されているブログの数をカウントすることによって、対象分解URLを含むブログのうち正常と認定されているブログの数を求める。
【0106】
したがって、出力制御部15bは、対象分解URLと、第2ブログと、に基づいて、第4値を求めることになる。
【0107】
なお、出力制御部15bによるスコアの算出は、スコア例1、2に限らず適宜変更可能である。
【0108】
例えば、スコア例2では、第3値をスコアとして用いて、第4値を補助的なスコアとして用いたが、第4値をスコアとして用いてもよい。この場合、第3値が補助的なスコアとして用いられることが望ましい。
【0109】
続いて、ステップ307では、出力制御部15bは、出力リスト上の分解URLを、ホワイトリストDB15aに記憶されたホワイトリストURLと比較し、両者が完全一致していると、出力リストから、その分解URLを削除する。
【0110】
例えば、ホワイトリストURLとして「www.***.jp」が記憶されていると、出力制御部15bは、分解URL「www.***.jp」を削除するが、分解URL「www.***.jp/spam」を削除しない。
【0111】
続いて、ステップ308では、上位スコアの分解URLが、下位スコアの分解URL全てを含む、もしくは、下位スコアの分解URLに属する場合、出力制御部15bは、その下位スコアの分解URLを、出力リストから削除する。出力制御部15bは、その出力リストを、利用者PC2に出力する。
【0112】
続いて、ステップ309では、出力制御部15bは、出力リスト上の分解URLのうち、既定のスコア以上の分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶する。
【0113】
なお、利用者PC2が、出力部15からの出力リストを表示している間、利用者が、その出力リストを見ながら利用者PC2を操作して、リスト内の任意の分解URLを、新たなブラックリストURLとして、ブラックリストDB11に追加記憶してもよい。
【0114】
この場合、ブラックリストDB11に追加記憶するブラックリストURL候補が、利用者に提供されるため、利用者は、その候補の中から、新たなブラックリストURLを適宜選択すればよい。よって、利用者がブラックリストURLを探し出す作業を軽減することが可能になる。
【0115】
続いて、ステップ310では、比較部13cは、正常なブログとフラグ付け(認定)された第1ブログと、更新されたブラックリストDB11内のブラックリストURLと、を比較し、ブラックリストURLが記載されている第1ブログのフラグを、記憶部13a上でスプログに変更(認定)記憶する。
【0116】
続いて、ステップ311では、比較部13cは、スプログのフラグがついたブログのリスト(例えば、スプログのフラグがついたブログのURLのリスト)を抽出し、そのリストを、利用者PC2に出力したり、そのリスト上のブログを削除、もしくは、そのブログへのリンクを削除したりする。
【0117】
このため、スプログのフラグがついたブログ、または、そのブログのURLリストを抽出することができ、精度よくスプログを除外することが可能になる。
【0118】
なお、URLのリストが利用者PC2に出力された場合、利用者PC2の利用者が、そのリストを見ながら、リストに示されたブログを削除、もしくは、そのブログへのリンクを削除したりしてもよい。
【0119】
この場合、スプログ候補が、利用者に提供されるため、利用者は、その候補の中から、スプログを適宜選択して、そのスプログを削除、もしくは、そのスプログへのリンクを削除すればよい。よって、利用者がスプログを探し出す作業を軽減することが可能になる。
【0120】
次に、具体的な例を用いて、URL抽出装置1の動作を説明する。
【0121】
図4は、ブログ取得部12が抽出部13bに提供したブログの一例(ブログA)を示した説明図である。
【0122】
図5は、ブラックリストDB11内のブラックリストURLを示した説明図である。
【0123】
この場合、ステップ302では、抽出部13bは、ブログAから、「http://domain1/dir1/dir2/dir3/」と「http://domein2/dir4/dir5/dir6/」を抽出する。
【0124】
続いて、ステップ303では、比較部13cは、「http://domain1/dir1/dir2/dir3/」にブラックリストURL「domain1/dir1」が含まれる(「domain1/dir1/dir2/dir3/」がブラックリストURL「domain1/dir1」の配下である)ため、「http://domain1/dir1/dir2/dir3/」がブラックリストURL「domain1/dir1」に該当すると判断し、ブログAをスプログとフラグ付けして記憶部13aに記憶する。
【0125】
続いて、ステップ304では、生成部14は、ブログAのリンク先URLから、ブラックリストURLに該当しない「http://domein2/dir4/dir5/dir6/」を、非該当URLとして抽出する。
【0126】
続いて、ステップ305では、生成部14は、非該当URLである「http://domein2/dir4/dir5/dir6/」から、分解URLとして、「domain2」、「domain2/dir4」、「domain2/dir4/dir5」および「domain2/dir4/dir5/dir6」を生成する。以下、記載を簡単にするために「domain2/dir4/dir5」、「domain2/dir4/dir5/dir6」についての説明は省略する。
【0127】
ステップ306については、以下の状況での動作を説明する。なお、ステップ306は、出力制御部15bによって行われる。
【0128】
スプログとフラグ付けられたブログを、「ブログA」、「ブログB」、「ブログC」とし、正常なブログとフラグ付けされたブログを、「ブログD」、「ブログE」、「ブログF」、「ブログG」とする。
【0129】
「domain2」を含むブログを、「ブログA」、「ブログB」、「ブログD」、「ブログE」とし、「domain2」を含まないブログを、「ブログC」、「ブログF」、「ブログG」とする。
【0130】
「domain2/dir4」を含むブログを、「ブログA」、「ブログB」とし、「domain2/dir4」を含まないブログを、「ブログC」、「ブログD」、「ブログE」、「ブログF」、「ブログG」とする。
【0131】
(スコア例1の計算例)
・分解URL「domain2」について
分解URL「domain2」を含み、かつ、スプログとフラグ付けられたブログの数:2(ブロブAおよびB)
対象ブログ全体の中で分解URL「domain2」を含むブログの数:4(ブログA、B、DおよびE)
よって、分解URL「domain2」のスコア=2/4=0.5
なお、2/4=0.5は、分解URL「domain2」を含むブログのうち、スプログと認定されているブログの割合を示す。
【0132】
・分解URL「domain2/dir4」について
分解URL「domain2/dir4」を含み、かつ、スプログとフラグ付けられたブログの数:2(ブロブAおよびB)
対象ブログ全体の中で分解URL「domain2/dir4」を含むブログの数:2(ブロブAおよびB)
よって、分解URL「domain2/dir4」のスコア=2/2=1.0
なお、2/2=1.0は、分解URL「domain2/dir4」を含むブログのうち、スプログと認定されているブログの割合を示す。
【0133】
・スコアによる順位付け
スコアが、分解URL「domain2」より分解URL「domain2/dir4」が高いので、分解URL「domain2/dir4」が分解URL「domain2」よりも上位となる。
【0134】
(スコア例2の計算例)
・分解URL「domain2」について
分解URL「domain2」を含み、かつ、スプログとフラグ付けられたブログの数:2(ブロブAおよびB)
スプログとフラグ付けられたブログの数:3(ブログA、BおよびC)
よって、分解URL「domain2」のスコア=2/3=0.67
なお、2/3=0.67は、スプログと認定されたブログのうち、分解URL「domain2」を含むブログの割合を示す。
【0135】
分解URL「domain2」を含み、かつ、正常なブログとフラグが付けられたブログの数:2(ブロブDおよびE)
正常なブログとフラグが付けられたブログの数:4(ブログD、E、FおよびG)
分解URL「domain2」のもう一つのスコア=2/4=0.5
なお、2/4=0.5は、正常と認定されたブログのうち、分解URL「domain2」を含むブログの割合を示す。
【0136】
・分解URL「domain2/dir4」について
分解URL「domain2/dir4」を含み、かつ、スプログとフラグ付けられたブログの数:2(ブログAおよびB)
スプログとフラグ付けられたブログの数:3(ブログA、BおよびC)
よって、分解URL「domain2/dir4」のスコア=2/3=0.67
なお、2/3=0.67は、スプログと認定されたブログのうち、分解URL「domain2/dir4」を含むブログの割合を示す。
【0137】
分解URL「domain2/dir4」を含み、かつ、正常なブログとフラグが付けられたブログの数:0
正常なブログとフラグが付けられたブログの数:4(ブログD、E、FおよびG)
分解URL「domain2/dir4」のもう一つのスコア=0/4=0.0
なお、0.0は、正常と認定されたブログのうち、分解URL「domain2/dir4」を含むブログの割合を示す。
【0138】
・スコアによる順位付け
スコアが分解URL「domain2」と分解URL「domain2/dir4」とで同じだが、もう一つのスコアが分解URL「domain2/dir4」の方が低いので、分解URL「domain2」より分解URL「domain2/dir4」が上位となる。
【0139】
出力制御部15bは、そのスコアとその分解URLとを、互いに関連づけて、スコアに基づき順位付けして、出力リストを生成する。
【0140】
図6は、スコア例1を用いて生成された出力リストを示した説明図である。
【0141】
図7は、ホワイトリストDB15a内のホワイトリストURLを示した説明図である。
【0142】
続いて、ステップ307では、図6に示した出力リスト上の分解URL「domain4/dir9」が、図7に示したホワイトリストDB15a内のホワイトリストURL「domain4/dir9」に完全一致するので、出力制御部15bは、出力リストから、分解URL「domain4/dir9」を削除する。
【0143】
図8は、図6に示した出力リストから分解URL「domain4/dir9」が削除された出力リストを示した説明図である。
【0144】
続いて、ステップ308では、出力リストの1位の分解URL「domain2/dir4」の一部を含む分解URL「domain2」が6位に存在するので、出力制御部15bは、出力リストから、6位の分解URL「domain2」を削除する。
【0145】
図9は、図8に示した出力リストから分解URL「domain4/dir9」が削除された出力リストを示した説明図である。
【0146】
続いて、ステップ309では、出力制御部15bは、出力リスト内の分解URLのうち、既定のスコア(例えば、0.8とする)以上の分解URL「domain2/dir4」等を、ブラックリストDB11に追加する。
【0147】
図10は、図5に示したブラックリストDB11に、新たなブラックリストURLとして、分解URL「domain2/dir4」が追加された状態を示した説明図である。
【0148】
続いて、ステップ310では、分類部13は、既に第2ブログと分類されたブログ(ブログD、E、FおよびG)のうち、新たなブラックリストURLが記載されているブログを、第1ブログに再分類する。
【0149】
続いて、ステップ311では、分類部13は、第1ブログを示すリスト(例えば、第1ブログのURLを示したURLリスト)を、利用者PC2に出力する。
【0150】
上記実施形態では、電子情報としてブログを用いたが、電子情報は、ブログに限らず、HP、電子メールでもよい。
【0151】
また、上記実施形態において、ステップ306とステップ307の順序を逆にしてもよい。この場合、ホワイトリストURLのスコアを算出する処理を省略できる。よって、処理の簡略化を図ることが可能になる。
【0152】
また、上記実施形態において、スプログを、ある特定のブログ(例えば、ある同一の興味を持つ人のブログ、あるカテゴリのブログなど)とし、ブラックリストURLを、その特定のブログのURLとし、正常なブログを、その他のブログとし、ホワイトリストURLを、その他のブログのURLとすることで、対象のブログをある特定のブログとその他のブログに分けることができ、その特定のブログ(のURL)を抽出することが可能になる。
【0153】
この場合、例えば、同一興味を持つ人のブログのブックマークリストを作成できる。
【0154】
次に、本実施形態の効果を説明する。
【0155】
本実施形態では、分類部13は、電子情報のそれぞれを、特定種類に分類された第1URL(第1リンク情報)が記載されている第1電子情報と、第1URLが記載されていない第2電子情報と、に分類する。
【0156】
生成部14は、第1電子情報に、第1URL以外の第2URL(第2リンク情報)が記載されている場合に、第2URLに基づいて、第3URL(第3リンク情報)を生成する。
【0157】
出力部15は、第3URLのスコアを、その第3URLと、少なくとも第1電子情報または第2電子情報と、に基づいて生成し、スコアとその第3URLとを、互いに関連づけて出力する。
【0158】
スコアは、第3URLが、特定種類に分類される可能性の程度を表す。
【0159】
このため、電子情報を第1電子情報に分類するために使用される第1URLの候補として、第3URLを挙げることができると共に、第3URLを第1URLとして使用できる可能性を示すことができる。
【0160】
よって、電子情報を第1電子情報に分類する作業を行う作業者を支援することが可能になる。したがって、作業者の負担を少なくすることが可能になる。
【0161】
本実施形態では、特定種類として、スプログに記載されたURLが属する種類が用いられている。
【0162】
この場合、電子情報をスプログに分類するために使用されるブラックリストURLの候補として、第3URLを挙げることができると共に、第3URLをブラックリストURLとして使用できる可能性を示すことができる。
【0163】
このため、電子情報を、日々増殖していくスプログに分類する作業を行う作業者を支援することが可能になる。したがって、作業者の負担を少なくすることが可能になる。
【0164】
本実施形態では、第2URL内にスラッシュが存在する場合、生成部14は、第2URLと同一のURLを、第3URLとして生成し、さらに、第2URLから、その第2URL内のスラッシュ以下の部分を削除して、第3URLを生成する。
【0165】
この場合、第2URLと同一のURLの他に、第2URLに関連するURLを、第3URLとして生成することができる。
【0166】
このため、第1URLについての多くの候補を挙げることができる。また、特定種類に分類されるURLの共通部分を、第1URLの候補として挙げることが可能になる。
【0167】
本実施形態では、第2URL内に複数のスラッシュが存在する場合、生成部14は、第2URLと同一のURLを、第3URLとして生成し、さらに、スラッシュごとに、第2URLからそのスラッシュ以下の部分を削除して、複数の第3URLを生成する。
【0168】
この場合、第1URLについてのより多くの候補を挙げることができる。また、特定種類に分類されるURLの共通部分を、第1URLの候補として挙げることが可能になる。
【0169】
本実施形態では、出力部15は、複数の第3URLの中に、スコアが示す可能性の程度が他の第3URLよりも高く、かつ、該他の第3URLに属する、特定URLが存在する場合、該他の第3URLを削除する。
【0170】
この場合、重複している可能性がある第3URLを削除することが可能になる。
【0171】
本実施形態では、出力部15は、第3URLがホワイトリストDB15aに格納されていると、その第3URLを削除する。
【0172】
この場合、既に特定種類に分類されないと判定されているURLを、第1URLの候補からはずすことが可能になる。
【0173】
本実施形態では、出力部15は、第3URLと関連づけられたスコアが示す可能性の程度が、予め設定された値を超える場合、その第3URLを、新たな第1URLとして、ブラックリストDB11に追加記憶する。
【0174】
この場合、特定種類に分類される可能性が高い第3URLを、新たな第1URLとして、自動的に、ブラックリストDB11に追加記憶することが可能になる。
【0175】
本実施形態では、分類部13は、第3URLが、新たな第1URLとしてブラックリストDB11に追加記憶されると、第2電子情報のうち、新たな第1URLが記載されている第5電子情報を、第1電子情報に再分類し、第1電子情報を示すリストを出力する。
【0176】
この場合、ブラックリストDB11の更新に伴って、分類をやり直すことができる。
【0177】
本実施形態では、ブログ取得部12は、ブログサーバ3から複数の電子情報を取得する。
【0178】
この場合、複数の電子情報の収集が容易になる。
【0179】
以上説明した実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。
【0180】
例えば、各リンク情報は、ブログやホームページなどのURLに限らず、トラックバックURL、または、コメント元URLなどでもよい。
【図面の簡単な説明】
【0181】
【図1】本発明の一実施形態のURL抽出装置を示したブロック図である。
【図2】記憶部13aに記憶されたブログの識別情報の一例を示した説明図である。
【図3】URL抽出装置1の動作を説明するためのフローチャートである。
【図4】ブログの一例(ブログA)を示した説明図である。
【図5】ブラックリストDB11内のブラックリストURLを示した説明図である。
【図6】スコア1を用いて生成された出力リストを示した説明図である。
【図7】ホワイトリストDB15a内のホワイトリストURLを示した説明図である。
【図8】図6に示した出力リストから分解URL「domain4/dir9」が削除された出力リストを示した説明図である。
【図9】図8に示した出力リストから分解URL「domain4/dir9」が削除された出力リストを示した説明図である。
【図10】図5に示したブラックリストDB11に、新たなブラックリストURLとして、分解URL「domain2/dir4」が追加された状態を示した説明図である。
【符号の説明】
【0182】
1 URL抽出装置
11 ブラックリストDB
12 ブログ取得部
13 分類部
13a 記憶部
13b 抽出部
13c 比較部
14 生成部
15 出力部
15a ホワイトリストDB
15b 出力制御部
2 利用者PC
3 ブログサーバ
31 ブログ記憶部
4 ネットワーク

【特許請求の範囲】
【請求項1】
特定種類に分類された第1リンク情報を記憶する記憶手段と、
複数の電子情報を入手する入手手段と、
前記入手手段にて入手された電子情報のそれぞれを、前記記憶手段内の第1リンク情報が記載されている第1電子情報と、当該第1リンク情報が記載されていない第2電子情報と、に分類する分類手段と、
前記第1電子情報に、前記第1リンク情報以外の第2リンク情報が記載されている場合に、当該第2リンク情報に基づいて、第3リンク情報を生成する生成手段と、
前記第3リンク情報が前記特定種類に分類される可能性の程度を表す可能性情報を、当該第3リンク情報と、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて生成し、当該可能性情報と当該第3リンク情報とを、互いに関連づけて出力する出力手段と、を含むリンク情報抽出装置。
【請求項2】
請求項1に記載のリンク情報抽出装置において、
前記特定種類は、スパムブログに記載されたURLが属する種類である、リンク情報抽出装置。
【請求項3】
請求項1または2に記載のリンク情報抽出装置において、
前記第1リンク情報は、第1URLであり、
前記第2リンク情報は、前記第1URL以外の第2URLであり、
前記第3リンク情報は、第3URLであり、
前記生成手段は、前記第2URL内にスラッシュが存在する場合、前記第2URLと同一のURLを、前記第3URLとして生成し、さらに、前記第2URLから前記スラッシュ以下の部分を削除して、前記第3URLを生成し、
前記出力手段は、前記第3URLのそれぞれについて、当該第3URLと、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて前記可能性情報を生成し、当該可能性情報と当該第3URLとを、互いに関連づけて出力する、リンク情報抽出装置。
【請求項4】
請求項3に記載のリンク情報抽出装置において、
前記生成手段は、前記第2URL内に複数のスラッシュが存在する場合、前記第2URLと同一のURLを、前記第3URLとして生成し、さらに、当該スラッシュごとに、前記第2URLから当該スラッシュ以下の部分を削除して、複数の前記第3URLを生成する、リンク情報抽出装置。
【請求項5】
請求項3または4に記載のリンク情報抽出装置において、
前記出力手段は、前記複数の第3URLの中に、前記可能性情報が示す可能性の程度が他の第3URLよりも高く、かつ、当該他の第3URLに属する、特定URLが存在する場合、当該他の第3URLを削除する、リンク情報抽出装置。
【請求項6】
請求項1から5のいずれか1項に記載のリンク情報抽出装置において、
前記出力手段は、前記特定種類に分類されない第4リンク情報を格納する格納手段を含み、前記第3リンク情報が前記第4リンク情報であると、当該第3リンク情報を削除する、リンク情報抽出装置。
【請求項7】
請求項1から6のいずれか1項に記載のリンク情報抽出装置において、
前記出力手段は、前記第3リンク情報と関連づけられた可能性情報が示す可能性の程度が、予め設定された値を超える場合、当該第3リンク情報を、新たな前記第1リンク情報として、前記記憶手段に追加記憶する、リンク情報抽出装置。
【請求項8】
請求項7に記載のリンク情報抽出装置において、
前記分類手段は、前記第3リンク情報が、前記新たな第1リンク情報として前記記憶手段に追加記憶されると、前記第2電子情報のうち、前記新たな第1リンク情報が記載されている第5電子情報を、前記第1電子情報に再分類し、前記第1電子情報を示すリストを出力する、リンク情報抽出装置。
【請求項9】
請求項1から8のいずれか1項に記載のリンク情報抽出装置において、
前記入手手段は、複数の電子情報を格納する記憶する記憶装置と通信可能であり、当該記憶装置から当該複数の電子情報を取得することによって、前記複数の電子情報を入手する、リンク情報抽出装置。
【請求項10】
リンク情報抽出装置が行うリンク情報抽出方法であって、
特定種類に分類された第1リンク情報を記憶手段に記憶する記憶ステップと、
複数の電子情報を入手する入手ステップと、
前記入手された電子情報のそれぞれを、前記記憶手段内の第1リンク情報が記載されている第1電子情報と、当該第1リンク情報が記載されていない第2電子情報と、に分類する分類ステップと、
前記第1電子情報に、前記第1リンク情報以外の第2リンク情報が記載されている場合に、当該第2リンク情報に基づいて、第3リンク情報を生成する生成ステップと、
前記第3リンク情報が前記特定種類に分類される可能性の程度を表す可能性情報を、当該第3リンク情報と、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて生成し、当該可能性情報と当該第3リンク情報とを、互いに関連づけて出力する出力ステップと、を含むリンク情報抽出方法。
【請求項11】
請求項10に記載のリンク情報抽出方法において、
前記特定種類は、スパムブログに記載されたURLが属する種類である、リンク情報抽出方法。
【請求項12】
コンピュータに、
特定種類に分類された第1リンク情報を記憶手段に記憶する記憶手順と、
複数の電子情報を入手する入手手順と、
前記入手された電子情報のそれぞれを、前記記憶手段内の第1リンク情報が記載されている第1電子情報と、当該第1リンク情報が記載されていない第2電子情報と、に分類する分類手順と、
前記第1電子情報に、前記第1リンク情報以外の第2リンク情報が記載されている場合に、当該第2リンク情報に基づいて、第3リンク情報を生成する生成手順と、
前記第3リンク情報が前記特定種類に分類される可能性の程度を表す可能性情報を、当該第3リンク情報と、少なくとも前記第1電子情報または前記第2電子情報と、に基づいて生成し、当該可能性情報と当該第3リンク情報とを、互いに関連づけて出力する出力手順と、を実行させるためのプログラム。
【請求項13】
請求項12に記載のプログラムにおいて、
前記特定種類は、スパムブログに記載されたURLが属する種類である、プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−49473(P2010−49473A)
【公開日】平成22年3月4日(2010.3.4)
【国際特許分類】
【出願番号】特願2008−212923(P2008−212923)
【出願日】平成20年8月21日(2008.8.21)
【出願人】(306029774)NECビッグローブ株式会社 (115)
【Fターム(参考)】