説明

重要度判定装置、重要度判定方法、およびプログラム

【課題】事前のデータ収集を必要とせず、対象の記事に対する重要度を判定できる装置を提供すること。
【解決手段】Webページに表示されている記事データの重要度を判定する判定サーバ10は、Webページに含まれるリンクデータおよび記事データを抽出するURL抽出部12と、抽出されたリンクデータが指し示すリンク先のファイルを取得する引用ファイル取得部13と、取得されたファイル内に、記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する引用解析部14と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webページに表示されている記事データの重要度を判定する重要度判定装置、重要度判定方法、およびプログラムに関する。
【背景技術】
【0002】
従来、インターネット上には、不特定多数に対する情報発信の場としてのWebページが多数存在している。このようなWebページには、企業の広告ページの他、個人ユーザの日記等を記述することができるブログと呼ばれるサービスにより作成されたページも多く見られる。
【0003】
このブログサービスでは、Webページ(ブログ)をユーザが作成、編集できる仕様であるため、近年では、情報発信とは異なる目的により作成されたスパムブログ(スプログ)が多数見られるようになっている。具体的には、アクセス数を増やす目的で、他のWebページの文章をそのまま引用したもの等が挙げられる。これらのスプログは、独自の記事を持たず重要度が低いため、検索サービスの精度を低下させる要因となったり、大量に生成されることによりブログサービスを提供するサーバのリソースを圧迫したりする問題がある。
【0004】
そこで、このようなスパムブログを検出する方法が提案されている。例えば、非特許文献1には、特定のキーワードが書かれているブログ記事を予め抽出し、そのスパム率を調査しておくことが示されている。また、非特許文献2には、集めた文書の中で、コピーコンテンツの割合が閾値以上の文書をスプログと判定することが示されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】「キーワードの特性を利用したスパムブログの収集と分析」、第22回人工知能学会全国大会、2008年
【非特許文献2】「日本語splogの現状と対策」、電子情報通信学会東京支部学生会研究発表会、2007年
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献1の方法では、予めキーワードを選出する必要があり、このキーワードを含まないスプログを検知することができない。また、非特許文献2の方法では、予め大量のブログを用意しておく必要がある。1日に100万件以上の投稿がある現状では、これらに対して十分な量をサンプリングすることは現実的ではない。そこで、事前にデータ収集することなく、簡便にスプログ等の重要度の低い記事を検知できる方法が望まれている。
【0007】
本発明は、事前のデータ収集を必要とせず、対象の記事に対する重要度を判定できる重要度判定装置、重要度判定方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明では、以下のような解決手段を提供する。
【0009】
(1) Webページに表示されている記事データの重要度を判定する重要度判定装置であって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出手段と、
前記抽出手段により抽出されたリンクデータが指し示すリンク先のファイルを取得する取得手段と、
前記取得手段により取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定手段と、を備える重要度判定装置。
【0010】
このような構成によれば、当該重要度判定装置は、Webページ(ブログ)内に記述されているリンクデータ、具体的には、URL(Uniform Resource Locator)を抽出し、このURLのリンク先のファイルを取得する。そして、取得したファイル内に、Webページの記事が含まれる場合、Webページがリンク先のファイルを引用していると判断できるので、当該重要度判定装置は、この記事の重要度を低く判定する。
【0011】
したがって、当該重要度判定装置は、Webページに表示される記事の重要度を判定することにより、この重要度が低い記事を表示させているWebページをスプログであると判定することができる。このとき、当該重要度判定装置は、判定対象のWebページとURLのリンク先データのみを参照することで重要度判定を行うので、事前のデータ収集を必要とせず、簡便に重要度を判定することができる。
【0012】
(2) 前記抽出手段は、前記リンクデータ近傍の記事データを、所定の文字列で区切り分割して抽出することを特徴とする(1)に記載の重要度判定装置。
【0013】
このような構成によれば、当該重要度判定装置は、リンクデータ(URL)の近傍の記事データを用いて判定するので、引用された可能性の高い記事を効率的に抽出できる。また、タグ、改行、句読点や「...」等、所定の文字列を区切りとして分割するので、分割された小さな単位で引用の有無を判定できる。その結果、記事全体としての引用の度合いを容易に判定することができる。
【0014】
(3) 前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる量に基づいて、前記記事データの重要度を判定することを特徴とする(2)に記載の重要度判定装置。
【0015】
このような構成によれば、当該重要度判定装置は、リンク先のファイル内に、Webページ(ブログ)の記事データが含まれる量に基づいて重要度を判定する。すなわち、引用量の多い記事データほど、重要度を低く判定できるので、重要度に基づいてスプログを精度良く検知できる可能性がある。
【0016】
(4) 前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる割合に基づいて、前記Webページの重要度を判定することを特徴とする(2)に記載の重要度判定装置。
【0017】
このような構成によれば、当該重要度判定装置は、リンク先のファイル内に、Webページ(ブログ)の記事データが含まれる割合に基づいて重要度を判定する。すなわち、引用割合の多い記事データほど、重要度を低く判定できるので、重要度に基づいてスプログを精度良く検知できる可能性がある。
【0018】
(5) 前記判定手段は、前記Webページ内において前記リンクデータが記述されている位置と前記記事データが記述されている位置との距離に基づいて、当該記事データの重要度を判定することを特徴とする(1)から(4)のいずれかに記載の重要度判定装置。
【0019】
このような構成によれば、当該重要度判定装置は、リンクデータ(URL)と記事データとの距離に基づいて重要度を判定する。ここで、リンクデータに近い記事であるほどリンクデータとの関連性は高く、引用された可能性が高いと考えられる。当該重要度判定装置は、このような引用された可能性が高い記事の重要度を低く判定することができる。
【0020】
(6) 前記判定手段は、前記Webページの所定領域に含まれる複数の前記リンクデータそれぞれに関する判定結果に基づいて、当該所定領域における記事データの重要度を判定することを特徴とする(1)から(5)のいずれかに記載の重要度判定装置。
【0021】
このような構成によれば、当該重要度判定装置は、複数のリンクデータに対する判定結果に基づいて、Webページ(ブログ)の所定領域、例えば所定の期間に投稿されたブログ記事やブログ全体の重要度を判定することができる。したがって、局所的に引用されているだけで、その他の部分も含めて重要度が低く判定されることを抑制でき、スプログ検知の精度を向上することができる。
【0022】
(7) Webページの更新情報を受信する受信手段をさらに備え、
前記受信手段は、前記更新情報に基づいて前記重要度を判定する記事データを受信することを特徴とする(1)から(6)のいずれかに記載の重要度判定装置。
【0023】
このような構成によれば、当該重要度判定装置は、Webページが更新されたことを示す情報を受信するので、新しく生成された、または更新されたWebページ(ブログ)の記事データを受信することができる。したがって、未判定のWebページを対象として効率的にスプログか否かを判定することができる。
【0024】
(8) 前記判定手段は、前記受信手段により受信された更新情報に基づいて、所定の時間帯に更新されたWebページに関して、前記記事データの重要度を判定することを特徴とする(7)に記載の重要度判定装置。
【0025】
このような構成によれば、当該重要度判定装置は、所定の時間帯に更新されたWebページ(ブログ)に関してスプログ判定を行う。したがって、例えば深夜の時間帯に更新されたWebページや、一定周期で更新されているWebページ等、自動的に更新された可能性の高いWebページを選択することができる。その結果、当該重要度判定装置は、効率的にスプログを検知できる可能性がある。
【0026】
(9) コンピュータがWebページに表示されている記事データの重要度を判定する重要度判定方法であって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を含む重要度判定方法。
【0027】
このような構成によれば、当該方法を実行することにより、(1)と同様の効果が期待できる。
【0028】
(10) Webページに表示されている記事データの重要度をコンピュータに判定させるプログラムであって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を実行させるプログラム。
【0029】
このような構成によれば、当該プログラムをコンピュータに実行させることにより、(1)と同様の効果が期待できる。
【発明の効果】
【0030】
本発明によれば、事前のデータ収集を必要とせず、対象の記事に対する重要度を判定できる。
【図面の簡単な説明】
【0031】
【図1】本発明の実施形態に係る判定サーバと関連要素とを含んだシステムの全体構成を示す図である。
【図2】本発明の実施形態に係る判定サーバのハードウェア構成を示す図である。
【図3】本発明の実施形態に係る判定サーバの機能構成を示す図である。
【図4】本発明の実施形態に係るスプログ判定テーブルを示す図である。
【図5】本発明の実施形態に係る判定サーバによりスプログと判定されるWebページの例を示す図である。
【図6】本発明の実施形態に係る判定サーバの制御部における処理を示すフローチャートである。
【発明を実施するための形態】
【0032】
以下、本発明の実施形態の一例について図を参照しながら説明する。なお、重要度を判定する対象は、ブログの記事データであるとする。本実施形態では、重要度に応じて、このブログがスプログであるか否かを判定する。
【0033】
[システム全体構成]
図1は、本実施形態に係る判定サーバ10(重要度判定装置)と関連要素とを含んだシステムの全体構成を示す図である。判定サーバ10と、Webサーバ20および21と、ユーザ端末30とは、インターネット等の所定のネットワークを介して接続されている。
【0034】
ユーザ端末30は、所定の検索サービスの検索結果から選択される等の指示入力に応じて、Webサーバ20より、Webページ(ブログ)を受信して表示する。このWebページには、別のWebサーバ21に記憶されているファイルに対するURLが記述されており、このファイルを引用(コピー)しているものとする。なお、リンク先は、同一のWebサーバ20内であってもよい。
【0035】
判定サーバ10は、ユーザ端末30に表示されたブログ記事の重要度を判定し、このブログがスパムブログであるか否かを判定する。このとき、判定サーバ10は、Webサーバ21より、引用ファイルを受信し、ブログ記事との一致度に基づいて重要度を判定する(処理の詳細は後述する)。
【0036】
[ハードウェア構成]
図2は、本実施形態に係る判定サーバ10のハードウェア構成を示す図である。判定サーバ10は、制御部110と、記憶部120と、入力部130と、表示部140と、通信部150と、を備え、各ハードウェアは、バス160を介して接続されている。
【0037】
制御部110は、判定サーバ10の全体を制御する部分であり、記憶部120に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウェアと協働し、本発明に係る各種機能を実現している。制御部110は、CPU(Central Processing Unit)であってよい。
【0038】
記憶部120は、ハードウェア群を判定サーバ10として機能させるための各種プログラムや、本発明の機能を制御部110に実行させるプログラム、データベース等を記憶する。記憶部120は、ハードディスク、光ディスクドライブ、あるいは半導体メモリ等、様々な記憶装置のいずれかにより構成されてよい。
【0039】
入力部130は、判定サーバ10に対するユーザ(判定サーバ10の管理者)からの指示入力を受け付けるインタフェース装置である。入力部130は、例えばキーボードやマウス等により構成される。
【0040】
表示部140は、ユーザ(判定サーバ10の管理者)にデータの入力を受け付ける画面を表示したり、判定サーバ10による処理結果の画面を表示したりするものである。表示部140は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置であってよい。
【0041】
通信部150は、判定サーバ10が、ネットワーク40(図1)を介してWebサーバ20、21や他の情報端末等と情報を送受信する場合のネットワーク・アダプタである。
【0042】
なお、本発明でいうコンピュータとは、制御装置や記憶装置等を備えた情報処理装置である。判定サーバ10は、制御部110や記憶部120等を備えた情報処理装置であり、この情報処理装置は、本発明のコンピュータの概念に含まれる。
【0043】
[機能構成]
図3は、本実施形態に係る判定サーバ10の機能構成を示す図である。判定サーバ10の制御部110は、ブログ受信部11(受信手段)と、URL抽出部12(抽出手段)と、引用ファイル取得部13(取得手段)と、引用解析部14(判定手段)と、スプログ判定部15と、を備える。また、記憶部120は、ブログDB16を備える。
【0044】
ブログ受信部11は、Webサーバ20からスプログ判定の対象であるブログのページデータ(HTMLファイル)を受信する。ここで、ブログ受信部11は、新規に作成または更新されたブログを受信することとする。すなわち、ブログ受信部11は、RSS等により配信されるブログの更新情報を受信したことに応じて、対象のブログを受信する。
【0045】
URL抽出部12は、ブログ受信部11により受信されたブログのページデータから、リンクデータとしてのURLを抽出する。具体的には、URL抽出部12は、「http」から始まる文字列の、「”」や「>」や改行までの部分を抽出する。これにより、URL抽出部12は、実際のリンク項目としてタグを付与されていないURLも抽出することができる。なお、「.html」や「.htm」等のファイル拡張子をもつもの以外を除外することとしてもよい。
【0046】
さらに、URL抽出部12は、抽出したURLの近傍にある記事データを抽出する。具体的には、URLの前後の所定量の記事データについて、タグ部分や、改行、句読点や「...」等、所定の文字列を区切りとして、分割して抽出する。URL抽出部12は、抽出したURLおよび記事データをブログDB16に記憶する。
【0047】
図4は、本実施形態に係るブログDB16に格納されるスプログ判定テーブルを示す図である。スプログ判定テーブルには、対象ブログの更新日時と共に、抽出されたURLおよびURL近傍の記事データが記憶される。さらに、各記事データとURLとの距離データ、および後述の重要度の低さを示す引用判定値が記憶される。
【0048】
引用ファイル取得部13は、スプログ判定テーブルに記憶されたURL、すなわちスプログ判定対象のブログに記述されているURLが指し示すリンク先の引用ファイルを、Webサーバ21から取得する。
【0049】
引用解析部14は、引用ファイル取得部13により取得した引用ファイルと、スプログ判定テーブルに記憶されている記事データとを比較し、引用ファイル内に記事データと一致する部分が存在する場合には、引用(コピー)されたと判断する。さらに、URLと記事データとの距離を考慮し、距離が近いほど引用判定値を大きく設定し、スプログ判定テーブルに記憶する。ここで、引用判定値が大きいほど記事データの重要度は低く、Webページがスプログである可能性が高いことを示している。
【0050】
スプログ判定部15は、引用解析部14により判定された記事データの重要度、すなわちスプログ判定テーブルの引用判定値を統計処理することにより、スプログ判定を行う。具体的には、例えば引用判定値の合計や平均、あるいは所定以上の引用判定値となっている記事データの量や割合等により引用度合いを算出し、この度合いが所定の閾値以上である場合にスプログであると判定する。
【0051】
図5は、本実施形態に係る判定サーバ10によりスプログと判定されるWebページの例を示す図である。
【0052】
ブログページ50には、URLを含むリンクデータ51と共に記事データ52が配置されている。リンクデータ51は、別のWebページ60へのハイパーリンクであり、URLが指し示すリンク先のWebページ60には、リンクデータ51と同一のタイトル文字列61と、記事データ52と同一の文章である記事データ62が配置されている。
【0053】
判定サーバ10は、リンクデータ51の近傍の文字列がWebページ60に含まれることにより、この領域の記事データについて、重要度が低いと判定する。他の領域についても、同様にリンクデータ近傍の記事データが別のWebページに存在することが判明すると、ブログページ50全体の重要度は低くなる。その結果、判定サーバ10は、ブログページ50はスプログであると判定する。
【0054】
なお、重要度を判定する記事データは、テキストには限られない。例えば、動画像53や、静止画、音声データ等であってもよく、判定サーバ10は、リンク先に同一のデータが存在することにより、これらが引用(コピー)されたものとして重要度を低く設定する。
【0055】
[処理フロー]
図6は、本実施形態に係る判定サーバ10の制御部110における処理を示すフローチャートである。
【0056】
ステップS1では、制御部110は、RSS等により取得したWebページの更新情報に基づいて、スプログ判定を行うブログのページデータを取得する。
【0057】
ステップS2では、制御部110は、ステップS1で取得したページデータから、URLの記述を抽出する。
【0058】
ステップS3では、制御部110は、ステップS2で抽出したURLの付近の記事データを抽出する。抽出されたURLおよび記事データは、記憶部120のスプログ判定テーブル(図4)に記憶される。
【0059】
ステップS4では、制御部110は、ステップS2で抽出したURLが指し示す引用ファイルを取得する。
【0060】
ステップS5では、制御部110は、ステップS4で取得した引用ファイル内に、ステップS3で抽出した記事データと一致する部分が含まれるか否かを解析する。解析結果として、記事データの引用判定値を設定し、記憶部120のスプログ判定テーブル(図4)に記憶する。さらに、制御部110は、判定領域に含まれる複数のURLに関する引用判定値に基づいて、統計処理により全体の引用度合いを算出する。
【0061】
ステップS6では、制御部110は、ステップS5で算出した引用度合いが所定の閾値以上であるか否かを判定する。この判定がYESの場合はステップS7に移り、判定がNOの場合はステップS8に移る。
【0062】
ステップS7では、制御部110は、記事の引用度合いが高く、ページの重要度が低いと判断し、ステップS1で取得したブログはスプログであると判定する。
【0063】
ステップS8では、制御部110は、記事の引用度合いが低く、ページの重要度が高いと判断し、ステップS1で取得したブログはスプログではないと判定する。
【0064】
このように、本実施形態によれば、記事の中に記述されたURLに基づいて、リンク先との一致度合いを解析することにより、ブログの重要度を判定する。その結果、重要度の低いスプログを検知することができる。このとき、事前にデータ収集する必要がないため、簡便にスプログか否かを判定することができる。
【0065】
なお、本実施形態では、他の記事を引用しているスプログを検知できる。すなわち、スプログと判定されるブログは、アクセス数を稼ぐためにコンテンツがコピーされたブログの他、例えばアフィリエイト収入を目的として商品説明文等をコピーしているのみのブログ等を精度良く検知することができる。
【0066】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【0067】
上述の実施形態では、新規に作成または更新されたブログを対象として重要度の判定を行ったが、本発明はこれには限られない。例えば、管理者からの指示入力を受け付けて、指示されたWebページや、ページ内の指示された領域について、重要度を判定してもよい。
【0068】
また、重要度に関する様々な指標を組み合わせ、総合的に重要度を判定してもよい。例えば、所定の時間帯(例えば、深夜)に更新されたWebページや、一定周期で(決まった時間に)更新されているWebページ等は、人手によらず自動的に生成、更新されている可能性が高い。このようなWebページを優先して重要度判定の対象としてもよいし、重要度を低く重み付けして判定してもよい。
【0069】
上述の実施形態では、判定サーバ10を説明したが、本発明の重要度判定装置の構成はこれには限られない。判定サーバ10の各機能は、複数のサーバに分散されてもよい。また、判定サーバ10は、Webサーバ20等の他のサーバと統合されていてもよい。
【符号の説明】
【0070】
10 判定サーバ(重要度判定装置)
11 ブログ受信部(受信手段)
12 URL抽出部(抽出手段)
13 引用ファイル取得部(取得手段)
14 引用解析部(判定手段)
15 スプログ判定部
16 ブログDB

【特許請求の範囲】
【請求項1】
Webページに表示されている記事データの重要度を判定する重要度判定装置であって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出手段と、
前記抽出手段により抽出されたリンクデータが指し示すリンク先のファイルを取得する取得手段と、
前記取得手段により取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定手段と、を備える重要度判定装置。
【請求項2】
前記抽出手段は、前記リンクデータ近傍の記事データを、所定の文字列で区切り分割して抽出することを特徴とする請求項1に記載の重要度判定装置。
【請求項3】
前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる量に基づいて、前記記事データの重要度を判定することを特徴とする請求項2に記載の重要度判定装置。
【請求項4】
前記判定手段は、前記取得手段により取得されたファイル内に、前記記事データが含まれる割合に基づいて、前記Webページの重要度を判定することを特徴とする請求項2に記載の重要度判定装置。
【請求項5】
前記判定手段は、前記Webページ内において前記リンクデータが記述されている位置と前記記事データが記述されている位置との距離に基づいて、当該記事データの重要度を判定することを特徴とする請求項1から請求項4のいずれかに記載の重要度判定装置。
【請求項6】
前記判定手段は、前記Webページの所定領域に含まれる複数の前記リンクデータそれぞれに関する判定結果に基づいて、当該所定領域における記事データの重要度を判定することを特徴とする請求項1から請求項5のいずれかに記載の重要度判定装置。
【請求項7】
Webページの更新情報を受信する受信手段をさらに備え、
前記受信手段は、前記更新情報に基づいて前記重要度を判定する記事データを受信することを特徴とする請求項1から請求項6のいずれかに記載の重要度判定装置。
【請求項8】
前記判定手段は、前記受信手段により受信された更新情報に基づいて、所定の時間帯に更新されたWebページに関して、前記記事データの重要度を判定することを特徴とする請求項7に記載の重要度判定装置。
【請求項9】
コンピュータがWebページに表示されている記事データの重要度を判定する重要度判定方法であって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を含む重要度判定方法。
【請求項10】
Webページに表示されている記事データの重要度をコンピュータに判定させるプログラムであって、
前記Webページに含まれるリンクデータおよび記事データを抽出する抽出ステップと、
前記抽出ステップにより抽出されたリンクデータが指し示すリンク先のファイルを取得する取得ステップと、
前記取得ステップにより取得されたファイル内に、前記記事データの少なくとも一部分が含まれる場合、当該記事データの重要度を低く判定する判定ステップと、を実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate