スパムIPアドレスを判別する装置及び方法並びにスパムクエリを判別する装置及び方法
【課題】スパムIPアドレス等を効果的・効率的に判別する装置・方法を提供する。
【解決手段】スパムIPアドレス判別装置1は、特定のIPアドレスを有する端末2から送信されたクエリを抽出する第1のクエリ抽出部11と、そのクエリを送信した端末のIPアドレスを抽出する第1のIPアドレス抽出部12と、そのIPアドレスの端末から送信されたクエリを抽出する第2のクエリ抽出部13と、そのクエリを送信した端末のIPアドレスを抽出する第2のIPアドレス抽出部14と、IPアドレス及びクエリの抽出を交互に繰り返す繰り返し部15と、繰り返し部15によってm hopまで繰り返されたときのIPアドレスの種類数の、n hopまで繰り返されたときのIPアドレスの種類数に対する比が所定の値以上の場合、当初受け付けた特定のIPアドレスをスパムIPアドレスと判別するスパムIPアドレス判別部16とを備える。スパムクエリも同様である。
【解決手段】スパムIPアドレス判別装置1は、特定のIPアドレスを有する端末2から送信されたクエリを抽出する第1のクエリ抽出部11と、そのクエリを送信した端末のIPアドレスを抽出する第1のIPアドレス抽出部12と、そのIPアドレスの端末から送信されたクエリを抽出する第2のクエリ抽出部13と、そのクエリを送信した端末のIPアドレスを抽出する第2のIPアドレス抽出部14と、IPアドレス及びクエリの抽出を交互に繰り返す繰り返し部15と、繰り返し部15によってm hopまで繰り返されたときのIPアドレスの種類数の、n hopまで繰り返されたときのIPアドレスの種類数に対する比が所定の値以上の場合、当初受け付けた特定のIPアドレスをスパムIPアドレスと判別するスパムIPアドレス判別部16とを備える。スパムクエリも同様である。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スパムIPアドレスを判別する装置及び方法並びにスパムクエリを判別する装置及び方法に関する。
【背景技術】
【0002】
近年、ネットワークを介したWWW(World Wide Web)等のドキュメントシステムにおいては、非常に多くの数のウェブページが公開されている。ユーザは、検索サイトにおいて適宜のクエリを入力し、検索結果として表示される複数の候補から検索条件に適合するウェブページのURL(Uniform Resource Locator)を選択し、その選択したURLへのリンクを辿ることで、所望のウェブページを閲覧できる。
【0003】
ところで、企業にとって、自社のウェブページが検索結果ページの上位(特に1ページ目)に挙げられるかどうかは、自社のウェブページへのアクセス数の多寡に大きく影響するため、極めて重要である。そこで、各企業は、自社のウェブページが検索結果ページの上位に挙げられるよう、種々の工夫をしている。それらの工夫の例として、ターゲットにするクエリを適切に選択すること、当該クエリに対応する適切なキーワードをタイトルやウェブページの先頭付近に持ってくること、ウェブページ内で当該クエリに対応するキーワードを適切に使用すること及びより多くの当該クエリに関連するサイトにリンクすること等の手法が広く一般的に知られている。
【0004】
しかしながら、検索結果ページ内において特定のウェブページが上位にランクされることを目的として、スパムクエリを自動的に繰り返し検索サイトに送信すること等を行う不正業者も存在している。不正業者は、特定の商品名やサービス名と特定の企業名を組み合わせたもの等を、スパムクエリとして、検索サイトに自動的に送信する。これは、一般ユーザが入力した当該特定の商品名やサービス名を含むクエリに対して、特定の企業のウェブページを、検索結果ページのより上位に表示させようとするものである。
【0005】
一方、検索サイトを運営する運営者にとっては、上述のような不正が行われると、通常のユーザが入力したクエリに対して本来のウェブページの内容に即した適切な検索結果ページを返すことができなくなる。そのため、検索サイトの運営者は、クエリに対する各ウェブページの検索結果ページでの表示順位を決定する際に、不正業者を適切に検出し、不正業者から発信されたスパムクエリの影響を排除する必要がある。
【0006】
不正業者を検出するにあたり、スパムクエリを適切に判別することも考えられるが、自動的に送信されたスパムクエリであっても、見た目は通常のクエリと区別がつかないことも多い。また、スパムクエリではない通常のクエリを混入させるという巧妙な手口もあり、スパムクエリの判別をますます困難なものとしている。
【0007】
特許文献1には、ブログからリンクしているウェブサイトを評価するリンク先評価手段と、ウェブサイトの評価結果を用いてブログの評価を行うブログ評価手段と、ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段とを備えるスパムブログ検知装置が開示されているが、当該スパムブログ検知装置は、上述のようなスパムクエリの判別に関する課題を解決するものではない。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2010−066980号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
こうした背景から、効果的かつ効率的にスパムクエリを判別する技術が求められていた。本発明はかかる点に鑑みてなされたものであり、スパムクエリを効果的かつ効率的に判別する装置及び方法を提供することを目的とする。さらに、本発明は、スパムクエリを送信する装置のスパムIPアドレスを効果的かつ効率的に判別する装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明では、以下のような解決手段を提供する。
【0011】
(1) クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、特定のIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、前記第1のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、前記第1のIPアドレス抽出手段又は第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第2のクエリ抽出手段と、前記第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する前記第2のIPアドレス抽出手段と、前記第2のクエリ抽出手段によるクエリの抽出と前記第2のIPアドレス抽出手段によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し手段と、前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のIPアドレスがスパムIPアドレスであると判別するスパムIPアドレス判別手段とを備えるスパムIPアドレス判別装置。
【0012】
(1)に記載の発明によれば、検索ログ記憶手段には、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶され、第1のクエリ抽出手段は、特定のIPアドレスの端末から送信されたクエリを、検索ログ記憶手段を参照して抽出し、第1のIPアドレス抽出手段は、第1のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、検索ログ記憶手段を参照して抽出し、第2のクエリ抽出手段は、第1のIPアドレス抽出手段又は第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログ記憶手段を参照して抽出し、第2のIPアドレス抽出手段は、第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、検索ログ記憶手段を参照して抽出する。そして、繰り返し手段は、第2のクエリ抽出手段によるクエリの抽出と第2のIPアドレス抽出手段によるIPアドレスの抽出とを交互に繰り返し実行し、スパムIPアドレス判別手段は、繰り返し手段によって第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求める。そして、その比の値が所定の値以上の場合、スパムIPアドレス判別手段は、上記特定のIPアドレスがスパムIPアドレスであると判別する。
【0013】
通常のIPアドレスの場合であれば、第1の回数だけ繰り返した後にスパムIPアドレス判別装置が抽出するIPアドレスの種類数と比べて、第2の回数だけ繰り返した後にスパムIPアドレス判別装置が抽出するIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のIPアドレスの場合に比べ、スパムIPアドレス判別装置が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムIPアドレス判別装置は、第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、そのIPアドレスがスパムIPアドレスであると判別する。
【0014】
これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレスを効率的かつ効果的に判別できる。
【0015】
(2) スパムIPアドレス判別装置が実行する方法であって、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のIPアドレスの端末から送信されたクエリを抽出する第1のクエリ抽出工程と、前記第1のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第1のIPアドレス抽出工程と、前記第1のIPアドレス抽出工程又は第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、前記第2のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する前記第2のIPアドレス抽出工程と、前記第2のクエリ抽出工程によるクエリの抽出と前記第2のIPアドレス抽出工程によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し工程と、前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のIPアドレスがスパムIPアドレスであると判断するスパムIPアドレス判別工程とを含むスパムIPアドレス判別方法。
【0016】
(2)に記載の発明によれば、当該方法の使用をすることにより、(1)と同様の効果が期待できる。
【0017】
(3) クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、特定のクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、前記第1のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、前記第1のクエリ抽出手段又は第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第2のIPアドレス抽出手段と、前記第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する前記第2のクエリ抽出手段と、前記第2のIPアドレス抽出手段によるIPアドレスの抽出と前記第2のクエリ抽出手段によるクエリの抽出とを交互に繰り返し実行する繰り返し手段と、前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のクエリがスパムクエリであると判別するスパムクエリ判別手段とを備えるスパムクエリ判別装置。
【0018】
ところで、通常のクエリの場合であれば、第1の回数だけ繰り返した後に抽出されたIPアドレスの種類数と比べて、第2の回数だけ繰り返した後に抽出されたIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスから送信されるスパムクエリの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のクエリの場合に比べ、スパムクエリ判別装置が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置が抽出するIPアドレスの当該種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置は、第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、上記特定のクエリをスパムクエリであると判別する。
【0019】
これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者の装置から送信されるスパムクエリを効率的かつ効果的に判別できる。
【0020】
(4) スパムクエリ判別装置が実行する方法であって、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のクエリを送信した端末のIPアドレスを抽出する第1のIPアドレス抽出工程と、前記第1のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第1のクエリ抽出工程と、前記第1のクエリ抽出工程又は第2のクエリ抽出工程によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第2のIPアドレス抽出工程と、前記第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、前記第2のIPアドレス抽出工程によるIPアドレスの抽出と前記第2のクエリ抽出工程によるクエリの抽出とを交互に繰り返し実行する繰り返し工程と、前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のクエリがスパムクエリであると判断するスパムクエリ判別工程とを含むスパムクエリ判別方法。
【0021】
(4)に記載の方法によれば、当該方法の使用をすることにより、(3)と同様の効果が期待できる。
【発明の効果】
【0022】
本発明によれば、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレス及びスパムクエリを効率的かつ効果的に判別する装置及び方法を提供することができる。
【図面の簡単な説明】
【0023】
【図1】第1実施形態に係るスパムIPアドレス判別装置1を説明するための全体構成を示す図である。
【図2】第1実施形態に係るスパムIPアドレス判別装置1を用いたときの、IPアドレスの指定操作を行ってからスパムIPアドレスを選択するまでの概略を示す図である。
【図3】第1実施形態に係るスパムIPアドレス判別装置1のフローチャートである。
【図4】第1実施形態に係るスパムIPアドレス判別装置1の使用例を示す図である。
【図5】図4に続く図である。
【図6】図5に続く図である。
【図7】第2実施形態に係るスパムクエリ判別装置101を説明するための全体構成を示す図である。
【図8】第2実施形態に係るスパムクエリ判別装置101を用いたときの、クエリの指定操作を行ってからスパムクエリを選択するまでの概略を示す図である。
【図9】第2実施形態に係るスパムクエリ判別装置101のフローチャートである。
【図10】第2実施形態に係るスパムクエリ判別装置101の使用例を示す図である。
【図11】図10に続く図である。
【図12】図11に続く図である。
【図13】図12に続く図である。
【発明を実施するための形態】
【0024】
[第1実施形態]
以下、本発明の第1実施形態について図を参照しながら説明する。
【0025】
[全体構成]
図1は、第1実施形態に係るスパムIPアドレス判別装置1を説明するための全体構成を示す図である。スパムIPアドレス判別装置1は、制御部10と、記憶部20とを備える。制御部10は、スパムIPアドレス判別装置1に係る各機能を統括的に制御する部分であり、第1のクエリ抽出部11、第1のIPアドレス抽出部12、第2のクエリ抽出部13、第2のIPアドレス抽出部14、繰り返し部15及びスパムIPアドレス判別部16を備える。一方、記憶部20は、スパムIPアドレス判別装置1として機能させるための各種プログラム(図示省略)やデータベースを記憶する部分であり、検索ログデータベース21を備える。
【0026】
まず、検索ログデータベース21について説明する。通常、端末2を使用している端末使用ユーザは、検索エンジン(図示しない)を使用して検索したい事項に係るクエリを端末2から入力する。端末2は、これを受け付けて、検索エンジンに送信し、検索処理が実行される。検索ログデータベース21は、このような検索処理に伴って受け付けられ、送信された過去のクエリを記憶している。すなわち、検索ログデータベース21は、検索ログ記憶手段として機能し、検索ログデータベース21には、クエリと、当該クエリを送信した端末2のIPアドレスと、端末2からクエリを受信した日時とを関連付けた検索ログが記憶される。
【0027】
第1のクエリ抽出部11は、特定のIPアドレスIP0の端末2から送信されたクエリを、検索ログデータベース21を参照して抽出する。ここでの第1のクエリ抽出部11の処理を1hopとし、この1hop目の処理で第1のクエリ抽出部11が抽出したクエリは、図2のQ11、Q12、・・・Q1iに対応する。なお、第1のクエリ抽出部11は、第1のクエリ抽出手段として機能する。
【0028】
第1のIPアドレス抽出部12は、第1のクエリ抽出部11によって抽出されたクエリのそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する。ここでの第1のIPアドレス抽出部12の処理を2hopとし、この2hop目の処理で第1のIPアドレス抽出部12が抽出したIPアドレスは、図2のIP21、IP22、・・・IP2jに対応する。なお、第1のIPアドレス抽出部12は、第1のIPアドレス抽出手段として機能する。また、図2の2hop目には、クエリQ11、Q12、・・・Q1iを送信した端末2のIPアドレスのうち、クエリQ12を送信した端末2のIPアドレスIP21、IP22、・・・IP2jだけが記載されているが、第1のIPアドレス抽出部12は、他のクエリを送信した端末2のIPアドレスも抽出している。
【0029】
第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出する。ここでの第2のクエリ抽出部13の処理を3hop(図示せず)とする。なお、第2のクエリ抽出部13は、第2のクエリ抽出手段として機能する。
【0030】
第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース21を参照して抽出する。ここでの第2のIPアドレス抽出部14の処理を4hop(図示せず)とする。なお、第2のIPアドレス抽出部14は、第2のIPアドレス抽出手段として機能する。
【0031】
繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行する。つまり、繰り返し部15は、5hopとしての第2のクエリ抽出部13によるクエリの抽出、6hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出、・・・をn hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出を行うまで繰り返す。但し、5hop目のクエリ抽出は、4hop目で抽出されたIPアドレスを用い、6hop目のIPアドレス抽出は、5hop目で抽出されたクエリを用いる。なお、繰り返し部15は、繰り返し手段として機能する。また、図2には、一部のIPアドレスを有する端末2から送信されたクエリ及び一部のクエリを送信した端末2のIPアドレスだけが記載されているが、繰り返し部15は、他のIPアドレスを有する端末2から送信されたクエリ及び他のクエリを送信した端末2のIPアドレスも抽出している。
【0032】
スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求める。すなわち、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数を分子とし、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数を分母とした比の値を求める。そして、スパムIPアドレス判別部16は、その求めた比の値が所定の閾値以上の場合、上記特定のIPアドレスIP0がスパムIPアドレスであると判別する。なお、スパムIPアドレス判別部16は、スパムIPアドレス判別手段として機能する。また、「所定の閾値」は、ユーザが予め定めた値である。
【0033】
ところで、クエリの抽出及びIPアドレスの抽出が繰り返されると、第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14が抽出するIPアドレスの「数」が多くなることから、第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14がIPアドレスを抽出しても、スパムIPアドレス判別部16がIPアドレスの「種類数」を算出するには、多大な計算処理時間を要する。そこで、特に、計算処理時間を減らすため、IPアドレスの「種類数」を算出するにあたっては、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。第2の回数についても同様に、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。
【0034】
[本実施形態のハードウェア及びソフトウェアの構成]
本実施形態のハードウェア及びソフトウェアの構成について説明する。スパムIPアドレス判別装置1のハードウェアには、制御装置(制御部)としてのCPUの他、記憶装置(記憶部)、通信装置(通信部)、表示装置(表示部)及び入力装置(入力部)が含まれる。記憶装置(記憶部)としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)又は光ディスク(CD、DVD等)ドライブ等が挙げられる。通信装置(通信部)としては、例えば、各種有線又は無線インターフェース装置等が挙げられる。表示装置(表示部)としては、例えば、液晶ディスプレイ又はプラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置(入力部)としては、例えば、キーボード、ポインティング・デバイス(マウス等)又はリモコン装置等が挙げられる。
【0035】
スパムIPアドレス判別装置1のソフトウェアには、上記ハードウェアを制御するプログラムやデータが含まれる。プログラムやデータは、記憶装置(記憶部)により記憶され、制御装置(制御部)により適宜実行、参照される。また、コンピュータ・プログラムやデータは、電磁的方法により配布することも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布することも可能である。
【0036】
[フローチャート]
図3は、第1実施形態に係るスパムIPアドレス判別装置1のフローチャートである。
【0037】
ステップS1では、第1のクエリ抽出部11は、第1のクエリ抽出処理を行う。この処理では、第1のクエリ抽出部11は、特定のIPアドレスの端末2から送信されたクエリを、検索ログデータベース21を参照して抽出する処理を行う。なお、特定のIPアドレスIP0の指定は、検索ログデータベース21に記憶されたIPアドレスの中から、スパムIPアドレスであるかどうかを判別したい任意のIPアドレスを指定する。好適には、検索ログデータベース21に記憶されたIPアドレスの中から、誤差要因となるIPアドレスを除去するような所定の処理を行い、その中から指定することもできる。
【0038】
ステップS2では、第1のIPアドレス抽出部12は、第1のIPアドレス抽出処理を行う。この処理では、第1のIPアドレス抽出部12は、第1のクエリ抽出部11によって抽出されたクエリのそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する処理を行う。
【0039】
ステップS3では、第2のクエリ抽出部13は、第2のクエリ抽出処理を行う。この処理では、第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末2から送信されたクエリを、検索ログデータベース21を参照して抽出する処理を行う。
【0040】
ステップS4では、第2のIPアドレス抽出部14は、第2のIPアドレス抽出処理を行う。この処理では、第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する処理を行う。
【0041】
ステップS5では、繰り返し部15は、繰り返し処理を行う。この処理では、繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行する。つまり、繰り返し部15は、5hopとしての第2のクエリ抽出部13によるクエリの抽出、6hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出、・・・をn hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出を行うまで繰り返す。但し、IPアドレスの抽出は、直前に抽出されたクエリを用い、クエリの抽出は、直前に抽出されたIPアドレスを用いる。例えば、5hop目のクエリの抽出は、4hop目で抽出されたIPアドレスを用い、6hop目のIPアドレスの抽出は、5hop目で抽出されたクエリを用いる。
【0042】
ステップS6では、スパムIPアドレス判別部16は、スパムIPアドレス判別処理を行う。この処理では、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求め、その求めた比の値が所定の閾値以上の場合に、上記特定のIPアドレスIP0がスパムIPアドレスであると判別する処理を行う。この処理を終えると、制御部10は、一連の処理を終了する。
【0043】
[第1実施形態に係るスパムIPアドレス判別装置1の実施例]
図4〜図7は、第1実施形態に記載のIPアドレス判別装置1に係る発明を実施したときの例を示す図である。
【0044】
まず、図4について説明する。まず、第1のクエリ抽出部11は、特定のIPアドレスIP0の端末から送信されたクエリを、検索ログデータベース21を参照して抽出する。なお、ここでの第1のクエリ抽出部11の処理を1hopとする。
【0045】
図4は、第1のクエリ抽出部11が特定のIPアドレス「123.45.678.901」から2010年6月1日に送信されたクエリを抽出したときの例を示す。1行目は、特定のIPアドレス及びこの特定のIPアドレスからクエリを送信した日付を示し、「IP address=123.45.678.901, Date=20100601」と記載されている。2行目以降は、2010年6月1日にIPアドレス「123.45.678.901」を有する端末から送信されたクエリ及びそのクエリの送信回数を示し、当該端末からは、例えば、クエリ「外為 abc証券」が4回、クエリ「合宿免許 ghi自動車学校」が3回、クエリ「ネットショップ 物流」が5回等が送信されている。
【0046】
続いて、図5について説明する。第1のIPアドレス抽出部12は、第1のクエリ抽出部11によって抽出されたクエリのそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する。なお、ここでの第1のIPアドレス抽出部12の処理を2hopとする。
【0047】
図5は、第1のクエリ抽出部11によって抽出されたクエリ、すなわち、図4で示したクエリ「外為 abc証券」、「合宿免許 ghi自動車学校」、「ネットショップ 物流」・・・のそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、第1のIPアドレス抽出部12が検索ログデータベース21を参照して抽出したときの例を示す。1つめのブロックは、2010年6月1日にクエリ「外為 abc証券」を送信した端末のIPアドレスを示し、例えば、「123.45.678.901」、「234.56.789.012」、「345.678.901.234」等がある。IPアドレスの右にある文字は、そのIPアドレスを有する端末から送信されたクエリを示し、このクエリの右にある文字は、そのクエリを送信した回数を示す。
【0048】
2つめのブロックは、2010年6月1日にクエリ「合宿免許 ghi自動車学校」を送信した端末のIPアドレスを示し、例えば、「123.45.678.901」、「201.35.679.023」、「345.678.901.234」等がある。3つめのブロックは、同日にクエリ「ネットショップ 物流」を送信した端末のIPアドレスを示し、例えば、「123.45.678.901」、「345.678.901.234」、「45.67.89.012」等がある。
【0049】
続いて、図6について説明する。第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出し、第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース21参照して抽出する。そして、繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行する。つまり、第2のクエリ抽出部13は、3hopとしてのクエリの抽出を行い、第2のIPアドレス抽出部14は、4hopとしてのIPアドレスの抽出を行い、その後、繰り返し部15は、5hopとしての第2のクエリ抽出部13によるクエリの抽出、6hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出、・・・をn hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出を行うまで繰り返す。但し、クエリの抽出は、直前に抽出されたIPアドレスを用い、IPアドレスの抽出は、直前に抽出されたクエリを用いる。例えば、3hop目のクエリの抽出は、2hop目で抽出されたIPアドレスを用い、4hop目のIPアドレスの抽出は、3hop目で抽出されたクエリを用いる。また、5hop目のクエリの抽出は、4hop目で抽出されたIPアドレスを用いる。
【0050】
図6は、繰り返し部15が、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを、m hopとしてのIPアドレスの抽出を行うまで繰り返したときの、m hop目でのIPアドレスの抽出の結果を示す。見方は図5と同じであり、上から、2010年6月1日にクエリ「五月人形 def人形店」、クエリ「メガネ stuメガネ店」、クエリ「ダイヤモンド買取 ショップ」を送信した端末のIPアドレスを示す。
【0051】
なお、下線は、説明の便宜のために付したものであり、IPアドレス判別装置1からの出力情報として付されるものではない。下線の意味については、後に説明する。
【0052】
ところで、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求める。そして、スパムIPアドレス判別部16は、その求めた比の値が所定の閾値以上の場合に、上記特定のIPアドレスIP0がスパムIPアドレスであると判別する。
【0053】
実施形態1において、m、nは、m<nを満たす正の偶数である。図6を参照しながら説明する。図6を参照すると、繰り返し部15によって第1の回数(m hopまで)だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスは、「123.45.678.901」、「156.43.621.724」・・・等である。ここで、便宜上下線を引いているが、これは、第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスのうち、重複するものである。「種類数」を計算するにあたり、重複するものはまとめて「1」として計算するので、図6に示されている範囲では、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数は、「13」である。実際には、図6に明示されていないものもあるので、図6の右下にあるように、ここでは、IPアドレスの種類数が「50」であるものとして説明する。
【0054】
また、図示は省略するが、繰り返し部15によって第2の回数(n hopまで)だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数は、「80」であるものとして説明する。
【0055】
繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数が「50」であり、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数が「80」であれば、前者の後者に対する比は50/80(=0.625)となる。所定の閾値が0.625未満であれば、当該比の値は所定の閾値以上となるので、スパムIPアドレス判別部16は、特定のIPアドレス「123.45.678.901」がスパムIPアドレスであると判別する。
【0056】
第1実施形態に記載の発明によれば、検索ログデータベース21には、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶され、第1のクエリ抽出部11は、特定のIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出し、第1のIPアドレス抽出部12は、その抽出したクエリを送信した端末のIPアドレスを、検索ログデータベース21を参照して抽出する。そして、第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出し、第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース21を参照して抽出し、繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行し、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求める。そして、その比の値が所定の値以上の場合、スパムIPアドレス判別部16は、上記特定のIPアドレスがスパムIPアドレスであると判別する。
【0057】
通常のIPアドレスの場合であれば、第1の回数だけ繰り返した後にスパムIPアドレス判別装置1が抽出するIPアドレスの種類数と比べて、第2の回数だけ繰り返した後にスパムIPアドレス判別装置1が抽出するIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のIPアドレスの場合に比べ、スパムIPアドレス判別装置1が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムIPアドレス判別装置1は、第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、そのIPアドレスがスパムIPアドレスであると判別する。
【0058】
これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレスを効率的かつ効果的に判別できる。
【0059】
[第2実施形態]
以下、本発明の第2実施形態について図を参照しながら説明する。
【0060】
[全体構成]
図7は、第2実施形態に係るスパムクエリ判別装置101を説明するための全体構成を示す図である。スパムクエリ判別装置101は、制御部110と、記憶部120とを備える。制御部110は、スパムクエリ判別装置101に係る各機能を統括的に制御する部分であり、第1のIPアドレス抽出部111、第1のクエリ抽出部112、第2のIPアドレス抽出部113、第2のクエリ抽出部114、繰り返し部115及びスパムクエリ判別部116を備える。一方、記憶部120は、スパムクエリ判別装置101として機能させるための各種プログラム(図示省略)やデータベースを記憶する部分であり、検索ログデータベース121を備える。
【0061】
検索ログデータベース121は、第1実施形態の検索ログデータベース21と同じ構成を有するものであり、検索ログ記憶手段として機能する。検索ログデータベース121には、クエリと、当該クエリを送信した端末102のIPアドレスと、端末102からクエリを受信した日時とを関連付けた検索ログが記憶される。
【0062】
第1のIPアドレス抽出部111は、特定のクエリQ0を送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する。ここでの第1のIPアドレス抽出部111の処理を1hopとし、この1hop目の処理で第1のIPアドレス抽出部111が抽出したIPアドレスは、図2のIP11、IP12、・・・IP1iに対応する。なお、第1のIPアドレス抽出部111は、第1のIPアドレス抽出手段として機能する。
【0063】
第1のクエリ抽出部112は、第1のIPアドレス抽出部111によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。ここでの第1のクエリ抽出部112の処理を2hopとし、この2hop目の処理で第1のクエリ抽出部112が抽出したクエリは、図2のQ21、Q22、・・・Q2jに対応する。なお、第1のクエリ抽出部112は、第1のクエリ抽出手段として機能する。また、図8、2hop目には、IPアドレスIP11、IP12、・・・IP1iを有する端末102から送信されたクエリのうち、IP12を有する端末102から送信されたクエリQ21、Q22、・・・Q2jだけが記載されているが、第1のクエリ抽出部112は、他のIPアドレスを有する端末102から送信されたクエリも抽出している。
【0064】
第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース121を参照して抽出する。ここでの第2のIPアドレス抽出部113の処理を3hopとする。なお、第2のIPアドレス抽出部113は、第2のIPアドレス抽出手段として機能する。また、3hop目のIPアドレスの抽出は、2hop目で抽出されたIPアドレスを用いる。
【0065】
第2のクエリ抽出部114は、第2のIPアドレス抽出部113によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。ここでの第2のクエリ抽出部114の処理を4hopとする。なお、第2のクエリ抽出部114は、第2のクエリ抽出手段として機能する。また、4hop目のIPアドレスの抽出は、3hop目で抽出されたIPアドレスを用いる。
【0066】
繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行する。つまり、繰り返し部115は、5hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出、6hopとしての第2のクエリ抽出部114によるクエリの抽出、・・・をn hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出を行うまで繰り返す。なお、繰り返し部115は、繰り返し手段として機能する。また、図8には、一部のクエリを送信した端末102のIPアドレス及び一部のIPアドレスを有する端末102から送信されたクエリだけが記載されているが、繰り返し部115は、他のクエリを送信した端末102のIPアドレス及び他のIPアドレスを有する端末102から送信されたクエリも抽出している。但し、クエリの抽出は、直前に抽出されたIPアドレスを用い、IPアドレスの抽出は、直前に抽出されたクエリを用いる。例えば、5hop目のIPアドレスの抽出は、4hop目で抽出されたクエリを用い、6hop目のクエリの抽出は、5hop目で抽出されたIPアドレスを用いる。
【0067】
スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求める。すなわち、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数を分子とし、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数を分母とした比の値を求める。そして、スパムクエリ判別部116は、その求めた比の値が所定の閾値以上の場合、上記特定のクエリQ0がスパムクエリであると判別する。なお、スパムクエリ判別部116は、スパムクエリ判別手段として機能する。また、「所定の閾値」は、ユーザが予め定めた値である。
【0068】
ところで、クエリの抽出及びIPアドレスの抽出が繰り返されると、第2のIPアドレス抽出部113が抽出するIPアドレスの「数」が多くなることから、第2のIPアドレス抽出部113がIPアドレスを抽出しても、スパムクエリ判別部116がIPアドレスの「種類数」を算出するには、多大な計算処理時間を要する。そこで、特に、計算処理時間を減らすため、IPアドレスの「種類数」を算出するにあたっては、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。第2の回数についても同様に、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。
【0069】
なお、第2実施形態のハードウェア及びソフトウェアの構成は、第1実施形態のそれと同じであり、スパムクエリ判別装置101のハードウェアには、制御装置(制御部)としてのCPUの他、記憶装置(記憶部)、通信装置(通信部)、表示装置(表示部)及び入力装置(入力部)が含まれる。また、スパムクエリ判別装置101のソフトウェアには、上記ハードウェアを制御するプログラムやデータが含まれる。
【0070】
[フローチャート]
図9は、第2実施形態に係るスパムクエリ判別装置101のフローチャートである。
【0071】
ステップS101では、第1のIPアドレス抽出部111は、第1のIPアドレス抽出処理を行う。この処理では、第1のIPアドレス抽出部111は、特定のクエリQ0を送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する処理を行う。なお、特定のクエリQ0の指定は、検索ログデータベース121に記憶されたクエリの中から、スパムクエリであるかどうかを判別したい任意のクエリを指定することにより行う。好適には、検索ログデータベース121に記憶されたクエリの中から、誤差要因となるクエリを除去するような所定の処理を行い、その中から指定することもできる。
【0072】
ステップS102では、第1のクエリ抽出部112は、第1のクエリ抽出処理を行う。この処理では、第1のクエリ抽出部112は、第1のIPアドレス抽出部111によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する処理を行う。
【0073】
ステップS103では、第2のIPアドレス抽出部113は、第2のIPアドレス抽出処理を行う。この処理では、第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する処理を行う。
【0074】
ステップS104では、第2のクエリ抽出部114は、第2のクエリ抽出処理を行う。この処理では、第2のクエリ抽出部114は、第2のIPアドレス抽出部113によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する処理を行う。
【0075】
ステップS105では、繰り返し部115は、繰り返し処理を行う。この処理では、繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行する。つまり、繰り返し部115は、5hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出、6hopとしての第2のクエリ抽出部114によるクエリの抽出、・・・をn hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出を行うまで繰り返す。但し、クエリの抽出は、直前に抽出されたIPアドレスを用い、IPアドレスの抽出は、直前に抽出されたクエリを用いる。例えば、5hop目のIPアドレスの抽出は、4hop目で抽出されたクエリを用い、6hop目のクエリの抽出は、5hop目で抽出されたIPアドレスを用いる。
【0076】
ステップS106では、スパムクエリ判別部116は、スパムクエリ判別処理を行う。この処理では、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求め、その求めた比の値が所定の閾値以上の場合に、上記特定のクエリQ0がスパムクエリであると判別する処理を行う。この処理を終えると、制御部10は、一連の処理を終了する。
【0077】
[第2実施形態に係るスパムIPアドレス判別装置1の実施例]
図10〜図12は、第2実施形態に記載のスパムクエリ判別装置101に係る発明を実施したときの例を示す図である。
【0078】
まず、図10について説明する。まず、第1のIPアドレス抽出部111は、特定のクエリQ0を送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する。なお、ここでの第1のIPアドレス抽出部111の処理を1hopとする。
【0079】
図10は、第1のIPアドレス抽出部111が、2010年6月1日に特定のクエリ「外為 abc証券」を送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出したときの例を示す。1行目は、特定のクエリ及び日付を示し、「Query=外為 abc証券, Date=20100601」と記載されている。2行目以降は、2010年6月1日にクエリ「外為 abc証券」を送信した端末102のIPアドレス、そのIPアドレスを有する端末102から送信したクエリ及びそのクエリの送信回数を示し、例えば、IPアドレス「123.45.678.901」を有する端末からは、「外為 abc証券」が4回送信されている。
【0080】
続いて、図11について説明する。第1のクエリ抽出部112は、第1のIPアドレス抽出部111によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。なお、ここでの第1のクエリ抽出部112の処理を2hopとする。
【0081】
図11は、第1のIPアドレス抽出部111によって抽出されたIPアドレス、すなわち、図10で示した「123.45.678.901」、「234.56.789.012」・・・のそれぞれについて、第1のクエリ抽出部112が検索ログデータベース121を参照して抽出したときの例を示す。1つめのブロックは、2010年6月1日にIPアドレス「123.45.678.901」を有する端末から送信されたクエリを示し、例えば、「外為 abc証券」、「合宿免許 ghi自動車学校」、「ネットショップ 物流」等がある。クエリの右にある文字は、そのクエリを送信した回数を示す。
【0082】
2つめのブロックは、同日にIPアドレス「234.56.789.012」を有する端末から送信されたクエリを示し、例えば、「外為 abc証券」、「中古車 jkl販売」、「海外旅行 mnoツアーズ」等がある。3つめのブロックは、同日にIPアドレス「345.678.901.234」を有する端末から送信されたクエリを示し、例えば、「五月人形 def人形店」、「メガネ stuメガネ店」、「ダイヤモンド買取 ショップvwx」等がある。
【0083】
続いて、図12及び図13について説明する。第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出し、第2のクエリ抽出部114は、第2のIPアドレス抽出部113によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。そして、繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行する。つまり、第2のIPアドレス抽出部113は、3hopとしてのIPアドレスの抽出を実行し、第2のクエリ抽出部114は、4hopとしてのクエリの抽出を実行し、その後、繰り返し部115は、5hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出、6hopとしての第2のクエリ抽出部114によるクエリの抽出、・・・をn hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出を行うまで繰り返す。
【0084】
図12は、繰り返し部115が、第2のIPアドレス抽出部113によるIPアドレスの抽出と、第2のクエリ抽出部114によるクエリの抽出とを、m hopとしてのIPアドレスの抽出を行うまで繰り返したときの、m hop目でのIPアドレスの抽出の結果を示す。見方は図5と同じであり、上から、2010年6月1日にクエリ「外為 abc証券」、クエリ「合宿免許 ghi自動車学校」、クエリ「ネットショップ 物流」を送信した端末のIPアドレスを示す。また、図13は、繰り返し部115が、第2のIPアドレス抽出部113によるIPアドレスの抽出と、第2のクエリ抽出部114によるクエリの抽出とを、n hopとしてのIPアドレスの抽出を行うまで繰り返したときの、n hop目でのIPアドレスの抽出の結果を示す。見方は図5及び図12と同じであり、上から、2010年6月1日にクエリ「五月人形 def人形店」、クエリ「メガネ stuメガネ店」、クエリ「ダイヤモンド買取 ショップvwx」を送信した端末のIPアドレスを示す。なお、下線は、後の説明の便宜のために付したものであり、スパムクエリ判別装置101からの出力情報として付されるものではない。
【0085】
ところで、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求める。そして、スパムクエリ判別部116は、その求めた比の値が所定の閾値以上の場合に、上記特定のクエリQ0がスパムクエリであると判別する。
【0086】
実施形態2において、m、nの値は、m<nを満たす正の奇数である。図12を参照すると、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスは、「123.45.678.901」、「234.56.789.012」・・・等である。ここで、便宜的に下線を引いているが、これは、第2のIPアドレス抽出部113によって抽出されたIPアドレスのうち、重複するものである。「種類数」を計算するにあたり、重複するものはまとめて「1」として計算するので、図12に明示された範囲では、繰り返し部115によって第1の回数(m hopまで)だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数は、「13」である。実際には、図12に明示されていないものもあるので、図12の右下にあるように、ここでは、IPアドレスの種類数が「50」であるものとして説明する。
【0087】
また、図13を参照すると、繰り返し部115によって第2の回数(n hopまで)だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスは、「123.45.678.901」、「156.43.621.724」・・・等である。図13に示されている範囲では、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数は、「13」である。実際には、図13に明示されていないものもあるので、図13の右下にあるように、ここでは、IPアドレスの種類数が「80」であるものとして説明する。
【0088】
繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数が「50」であり、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数が「80」であれば、前者の後者に対する比は50/80(=0.625)となる。所定の閾値が0.625未満であれば、当該比の値は所定の閾値以上となるので、スパムクエリ判別部116は、上記特定のクエリ「外為 abc証券」がスパムクエリであると判別する。
【0089】
第2実施形態に記載の発明によれば、検索ログデータベース121には、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶され、第1のIPアドレス抽出部111は、特定のクエリQ0を送信した端末のIPアドレスを、検索ログデータベース121を参照して抽出し、第1のクエリ抽出部112は、そのIPアドレスの端末から送信されたクエリを、検索ログデータベース121を参照して抽出する。そして、第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出し、第2のクエリ抽出部114は、第2のIPアドレス抽出部によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース121を参照して抽出し、繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行し、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求める。そして、その比の値が所定の値以上の場合、スパムクエリ判別部116は、上記特定のクエリQ0がスパムクエリであると判別する。
【0090】
通常のクエリの場合であれば、第1の回数だけ繰り返した後に抽出されたIPアドレスの種類数と比べて、第2の回数だけ繰り返した後に抽出されたIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスから送信されるスパムクエリの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のクエリの場合に比べ、スパムクエリ判別装置101が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置101が抽出するIPアドレスの当該種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置101は、第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、そのIPアドレスを有する端末から送信したクエリがスパムクエリであると判別する。
【0091】
これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレスを有する装置から送信されるスパムクエリを効率的かつ効果的に判別できる。
【0092】
なお、第1及び第2実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、第1及び第2実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0093】
1 スパムIPアドレス判別装置
10 制御部
11 第1のクエリ抽出部
12 第1のIPアドレス抽出部
13 第2のクエリ抽出部
14 第2のIPアドレス抽出部
15 繰り返し部
16 スパムIPアドレス判別部
20 記憶部
21 検索ログデータベース
【技術分野】
【0001】
本発明は、スパムIPアドレスを判別する装置及び方法並びにスパムクエリを判別する装置及び方法に関する。
【背景技術】
【0002】
近年、ネットワークを介したWWW(World Wide Web)等のドキュメントシステムにおいては、非常に多くの数のウェブページが公開されている。ユーザは、検索サイトにおいて適宜のクエリを入力し、検索結果として表示される複数の候補から検索条件に適合するウェブページのURL(Uniform Resource Locator)を選択し、その選択したURLへのリンクを辿ることで、所望のウェブページを閲覧できる。
【0003】
ところで、企業にとって、自社のウェブページが検索結果ページの上位(特に1ページ目)に挙げられるかどうかは、自社のウェブページへのアクセス数の多寡に大きく影響するため、極めて重要である。そこで、各企業は、自社のウェブページが検索結果ページの上位に挙げられるよう、種々の工夫をしている。それらの工夫の例として、ターゲットにするクエリを適切に選択すること、当該クエリに対応する適切なキーワードをタイトルやウェブページの先頭付近に持ってくること、ウェブページ内で当該クエリに対応するキーワードを適切に使用すること及びより多くの当該クエリに関連するサイトにリンクすること等の手法が広く一般的に知られている。
【0004】
しかしながら、検索結果ページ内において特定のウェブページが上位にランクされることを目的として、スパムクエリを自動的に繰り返し検索サイトに送信すること等を行う不正業者も存在している。不正業者は、特定の商品名やサービス名と特定の企業名を組み合わせたもの等を、スパムクエリとして、検索サイトに自動的に送信する。これは、一般ユーザが入力した当該特定の商品名やサービス名を含むクエリに対して、特定の企業のウェブページを、検索結果ページのより上位に表示させようとするものである。
【0005】
一方、検索サイトを運営する運営者にとっては、上述のような不正が行われると、通常のユーザが入力したクエリに対して本来のウェブページの内容に即した適切な検索結果ページを返すことができなくなる。そのため、検索サイトの運営者は、クエリに対する各ウェブページの検索結果ページでの表示順位を決定する際に、不正業者を適切に検出し、不正業者から発信されたスパムクエリの影響を排除する必要がある。
【0006】
不正業者を検出するにあたり、スパムクエリを適切に判別することも考えられるが、自動的に送信されたスパムクエリであっても、見た目は通常のクエリと区別がつかないことも多い。また、スパムクエリではない通常のクエリを混入させるという巧妙な手口もあり、スパムクエリの判別をますます困難なものとしている。
【0007】
特許文献1には、ブログからリンクしているウェブサイトを評価するリンク先評価手段と、ウェブサイトの評価結果を用いてブログの評価を行うブログ評価手段と、ブログの評価に基づいて当該ブログがスパムブログか否かを判定する判定手段とを備えるスパムブログ検知装置が開示されているが、当該スパムブログ検知装置は、上述のようなスパムクエリの判別に関する課題を解決するものではない。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2010−066980号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
こうした背景から、効果的かつ効率的にスパムクエリを判別する技術が求められていた。本発明はかかる点に鑑みてなされたものであり、スパムクエリを効果的かつ効率的に判別する装置及び方法を提供することを目的とする。さらに、本発明は、スパムクエリを送信する装置のスパムIPアドレスを効果的かつ効率的に判別する装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明では、以下のような解決手段を提供する。
【0011】
(1) クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、特定のIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、前記第1のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、前記第1のIPアドレス抽出手段又は第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第2のクエリ抽出手段と、前記第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する前記第2のIPアドレス抽出手段と、前記第2のクエリ抽出手段によるクエリの抽出と前記第2のIPアドレス抽出手段によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し手段と、前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のIPアドレスがスパムIPアドレスであると判別するスパムIPアドレス判別手段とを備えるスパムIPアドレス判別装置。
【0012】
(1)に記載の発明によれば、検索ログ記憶手段には、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶され、第1のクエリ抽出手段は、特定のIPアドレスの端末から送信されたクエリを、検索ログ記憶手段を参照して抽出し、第1のIPアドレス抽出手段は、第1のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、検索ログ記憶手段を参照して抽出し、第2のクエリ抽出手段は、第1のIPアドレス抽出手段又は第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログ記憶手段を参照して抽出し、第2のIPアドレス抽出手段は、第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、検索ログ記憶手段を参照して抽出する。そして、繰り返し手段は、第2のクエリ抽出手段によるクエリの抽出と第2のIPアドレス抽出手段によるIPアドレスの抽出とを交互に繰り返し実行し、スパムIPアドレス判別手段は、繰り返し手段によって第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求める。そして、その比の値が所定の値以上の場合、スパムIPアドレス判別手段は、上記特定のIPアドレスがスパムIPアドレスであると判別する。
【0013】
通常のIPアドレスの場合であれば、第1の回数だけ繰り返した後にスパムIPアドレス判別装置が抽出するIPアドレスの種類数と比べて、第2の回数だけ繰り返した後にスパムIPアドレス判別装置が抽出するIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のIPアドレスの場合に比べ、スパムIPアドレス判別装置が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムIPアドレス判別装置は、第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、そのIPアドレスがスパムIPアドレスであると判別する。
【0014】
これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレスを効率的かつ効果的に判別できる。
【0015】
(2) スパムIPアドレス判別装置が実行する方法であって、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のIPアドレスの端末から送信されたクエリを抽出する第1のクエリ抽出工程と、前記第1のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第1のIPアドレス抽出工程と、前記第1のIPアドレス抽出工程又は第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、前記第2のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する前記第2のIPアドレス抽出工程と、前記第2のクエリ抽出工程によるクエリの抽出と前記第2のIPアドレス抽出工程によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し工程と、前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のIPアドレスがスパムIPアドレスであると判断するスパムIPアドレス判別工程とを含むスパムIPアドレス判別方法。
【0016】
(2)に記載の発明によれば、当該方法の使用をすることにより、(1)と同様の効果が期待できる。
【0017】
(3) クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、特定のクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、前記第1のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、前記第1のクエリ抽出手段又は第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第2のIPアドレス抽出手段と、前記第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する前記第2のクエリ抽出手段と、前記第2のIPアドレス抽出手段によるIPアドレスの抽出と前記第2のクエリ抽出手段によるクエリの抽出とを交互に繰り返し実行する繰り返し手段と、前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のクエリがスパムクエリであると判別するスパムクエリ判別手段とを備えるスパムクエリ判別装置。
【0018】
ところで、通常のクエリの場合であれば、第1の回数だけ繰り返した後に抽出されたIPアドレスの種類数と比べて、第2の回数だけ繰り返した後に抽出されたIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスから送信されるスパムクエリの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のクエリの場合に比べ、スパムクエリ判別装置が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置が抽出するIPアドレスの当該種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置は、第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、上記特定のクエリをスパムクエリであると判別する。
【0019】
これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者の装置から送信されるスパムクエリを効率的かつ効果的に判別できる。
【0020】
(4) スパムクエリ判別装置が実行する方法であって、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のクエリを送信した端末のIPアドレスを抽出する第1のIPアドレス抽出工程と、前記第1のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第1のクエリ抽出工程と、前記第1のクエリ抽出工程又は第2のクエリ抽出工程によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第2のIPアドレス抽出工程と、前記第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、前記第2のIPアドレス抽出工程によるIPアドレスの抽出と前記第2のクエリ抽出工程によるクエリの抽出とを交互に繰り返し実行する繰り返し工程と、前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のクエリがスパムクエリであると判断するスパムクエリ判別工程とを含むスパムクエリ判別方法。
【0021】
(4)に記載の方法によれば、当該方法の使用をすることにより、(3)と同様の効果が期待できる。
【発明の効果】
【0022】
本発明によれば、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレス及びスパムクエリを効率的かつ効果的に判別する装置及び方法を提供することができる。
【図面の簡単な説明】
【0023】
【図1】第1実施形態に係るスパムIPアドレス判別装置1を説明するための全体構成を示す図である。
【図2】第1実施形態に係るスパムIPアドレス判別装置1を用いたときの、IPアドレスの指定操作を行ってからスパムIPアドレスを選択するまでの概略を示す図である。
【図3】第1実施形態に係るスパムIPアドレス判別装置1のフローチャートである。
【図4】第1実施形態に係るスパムIPアドレス判別装置1の使用例を示す図である。
【図5】図4に続く図である。
【図6】図5に続く図である。
【図7】第2実施形態に係るスパムクエリ判別装置101を説明するための全体構成を示す図である。
【図8】第2実施形態に係るスパムクエリ判別装置101を用いたときの、クエリの指定操作を行ってからスパムクエリを選択するまでの概略を示す図である。
【図9】第2実施形態に係るスパムクエリ判別装置101のフローチャートである。
【図10】第2実施形態に係るスパムクエリ判別装置101の使用例を示す図である。
【図11】図10に続く図である。
【図12】図11に続く図である。
【図13】図12に続く図である。
【発明を実施するための形態】
【0024】
[第1実施形態]
以下、本発明の第1実施形態について図を参照しながら説明する。
【0025】
[全体構成]
図1は、第1実施形態に係るスパムIPアドレス判別装置1を説明するための全体構成を示す図である。スパムIPアドレス判別装置1は、制御部10と、記憶部20とを備える。制御部10は、スパムIPアドレス判別装置1に係る各機能を統括的に制御する部分であり、第1のクエリ抽出部11、第1のIPアドレス抽出部12、第2のクエリ抽出部13、第2のIPアドレス抽出部14、繰り返し部15及びスパムIPアドレス判別部16を備える。一方、記憶部20は、スパムIPアドレス判別装置1として機能させるための各種プログラム(図示省略)やデータベースを記憶する部分であり、検索ログデータベース21を備える。
【0026】
まず、検索ログデータベース21について説明する。通常、端末2を使用している端末使用ユーザは、検索エンジン(図示しない)を使用して検索したい事項に係るクエリを端末2から入力する。端末2は、これを受け付けて、検索エンジンに送信し、検索処理が実行される。検索ログデータベース21は、このような検索処理に伴って受け付けられ、送信された過去のクエリを記憶している。すなわち、検索ログデータベース21は、検索ログ記憶手段として機能し、検索ログデータベース21には、クエリと、当該クエリを送信した端末2のIPアドレスと、端末2からクエリを受信した日時とを関連付けた検索ログが記憶される。
【0027】
第1のクエリ抽出部11は、特定のIPアドレスIP0の端末2から送信されたクエリを、検索ログデータベース21を参照して抽出する。ここでの第1のクエリ抽出部11の処理を1hopとし、この1hop目の処理で第1のクエリ抽出部11が抽出したクエリは、図2のQ11、Q12、・・・Q1iに対応する。なお、第1のクエリ抽出部11は、第1のクエリ抽出手段として機能する。
【0028】
第1のIPアドレス抽出部12は、第1のクエリ抽出部11によって抽出されたクエリのそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する。ここでの第1のIPアドレス抽出部12の処理を2hopとし、この2hop目の処理で第1のIPアドレス抽出部12が抽出したIPアドレスは、図2のIP21、IP22、・・・IP2jに対応する。なお、第1のIPアドレス抽出部12は、第1のIPアドレス抽出手段として機能する。また、図2の2hop目には、クエリQ11、Q12、・・・Q1iを送信した端末2のIPアドレスのうち、クエリQ12を送信した端末2のIPアドレスIP21、IP22、・・・IP2jだけが記載されているが、第1のIPアドレス抽出部12は、他のクエリを送信した端末2のIPアドレスも抽出している。
【0029】
第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出する。ここでの第2のクエリ抽出部13の処理を3hop(図示せず)とする。なお、第2のクエリ抽出部13は、第2のクエリ抽出手段として機能する。
【0030】
第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース21を参照して抽出する。ここでの第2のIPアドレス抽出部14の処理を4hop(図示せず)とする。なお、第2のIPアドレス抽出部14は、第2のIPアドレス抽出手段として機能する。
【0031】
繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行する。つまり、繰り返し部15は、5hopとしての第2のクエリ抽出部13によるクエリの抽出、6hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出、・・・をn hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出を行うまで繰り返す。但し、5hop目のクエリ抽出は、4hop目で抽出されたIPアドレスを用い、6hop目のIPアドレス抽出は、5hop目で抽出されたクエリを用いる。なお、繰り返し部15は、繰り返し手段として機能する。また、図2には、一部のIPアドレスを有する端末2から送信されたクエリ及び一部のクエリを送信した端末2のIPアドレスだけが記載されているが、繰り返し部15は、他のIPアドレスを有する端末2から送信されたクエリ及び他のクエリを送信した端末2のIPアドレスも抽出している。
【0032】
スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求める。すなわち、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数を分子とし、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数を分母とした比の値を求める。そして、スパムIPアドレス判別部16は、その求めた比の値が所定の閾値以上の場合、上記特定のIPアドレスIP0がスパムIPアドレスであると判別する。なお、スパムIPアドレス判別部16は、スパムIPアドレス判別手段として機能する。また、「所定の閾値」は、ユーザが予め定めた値である。
【0033】
ところで、クエリの抽出及びIPアドレスの抽出が繰り返されると、第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14が抽出するIPアドレスの「数」が多くなることから、第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14がIPアドレスを抽出しても、スパムIPアドレス判別部16がIPアドレスの「種類数」を算出するには、多大な計算処理時間を要する。そこで、特に、計算処理時間を減らすため、IPアドレスの「種類数」を算出するにあたっては、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。第2の回数についても同様に、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。
【0034】
[本実施形態のハードウェア及びソフトウェアの構成]
本実施形態のハードウェア及びソフトウェアの構成について説明する。スパムIPアドレス判別装置1のハードウェアには、制御装置(制御部)としてのCPUの他、記憶装置(記憶部)、通信装置(通信部)、表示装置(表示部)及び入力装置(入力部)が含まれる。記憶装置(記憶部)としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)又は光ディスク(CD、DVD等)ドライブ等が挙げられる。通信装置(通信部)としては、例えば、各種有線又は無線インターフェース装置等が挙げられる。表示装置(表示部)としては、例えば、液晶ディスプレイ又はプラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置(入力部)としては、例えば、キーボード、ポインティング・デバイス(マウス等)又はリモコン装置等が挙げられる。
【0035】
スパムIPアドレス判別装置1のソフトウェアには、上記ハードウェアを制御するプログラムやデータが含まれる。プログラムやデータは、記憶装置(記憶部)により記憶され、制御装置(制御部)により適宜実行、参照される。また、コンピュータ・プログラムやデータは、電磁的方法により配布することも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布することも可能である。
【0036】
[フローチャート]
図3は、第1実施形態に係るスパムIPアドレス判別装置1のフローチャートである。
【0037】
ステップS1では、第1のクエリ抽出部11は、第1のクエリ抽出処理を行う。この処理では、第1のクエリ抽出部11は、特定のIPアドレスの端末2から送信されたクエリを、検索ログデータベース21を参照して抽出する処理を行う。なお、特定のIPアドレスIP0の指定は、検索ログデータベース21に記憶されたIPアドレスの中から、スパムIPアドレスであるかどうかを判別したい任意のIPアドレスを指定する。好適には、検索ログデータベース21に記憶されたIPアドレスの中から、誤差要因となるIPアドレスを除去するような所定の処理を行い、その中から指定することもできる。
【0038】
ステップS2では、第1のIPアドレス抽出部12は、第1のIPアドレス抽出処理を行う。この処理では、第1のIPアドレス抽出部12は、第1のクエリ抽出部11によって抽出されたクエリのそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する処理を行う。
【0039】
ステップS3では、第2のクエリ抽出部13は、第2のクエリ抽出処理を行う。この処理では、第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末2から送信されたクエリを、検索ログデータベース21を参照して抽出する処理を行う。
【0040】
ステップS4では、第2のIPアドレス抽出部14は、第2のIPアドレス抽出処理を行う。この処理では、第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する処理を行う。
【0041】
ステップS5では、繰り返し部15は、繰り返し処理を行う。この処理では、繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行する。つまり、繰り返し部15は、5hopとしての第2のクエリ抽出部13によるクエリの抽出、6hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出、・・・をn hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出を行うまで繰り返す。但し、IPアドレスの抽出は、直前に抽出されたクエリを用い、クエリの抽出は、直前に抽出されたIPアドレスを用いる。例えば、5hop目のクエリの抽出は、4hop目で抽出されたIPアドレスを用い、6hop目のIPアドレスの抽出は、5hop目で抽出されたクエリを用いる。
【0042】
ステップS6では、スパムIPアドレス判別部16は、スパムIPアドレス判別処理を行う。この処理では、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求め、その求めた比の値が所定の閾値以上の場合に、上記特定のIPアドレスIP0がスパムIPアドレスであると判別する処理を行う。この処理を終えると、制御部10は、一連の処理を終了する。
【0043】
[第1実施形態に係るスパムIPアドレス判別装置1の実施例]
図4〜図7は、第1実施形態に記載のIPアドレス判別装置1に係る発明を実施したときの例を示す図である。
【0044】
まず、図4について説明する。まず、第1のクエリ抽出部11は、特定のIPアドレスIP0の端末から送信されたクエリを、検索ログデータベース21を参照して抽出する。なお、ここでの第1のクエリ抽出部11の処理を1hopとする。
【0045】
図4は、第1のクエリ抽出部11が特定のIPアドレス「123.45.678.901」から2010年6月1日に送信されたクエリを抽出したときの例を示す。1行目は、特定のIPアドレス及びこの特定のIPアドレスからクエリを送信した日付を示し、「IP address=123.45.678.901, Date=20100601」と記載されている。2行目以降は、2010年6月1日にIPアドレス「123.45.678.901」を有する端末から送信されたクエリ及びそのクエリの送信回数を示し、当該端末からは、例えば、クエリ「外為 abc証券」が4回、クエリ「合宿免許 ghi自動車学校」が3回、クエリ「ネットショップ 物流」が5回等が送信されている。
【0046】
続いて、図5について説明する。第1のIPアドレス抽出部12は、第1のクエリ抽出部11によって抽出されたクエリのそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、検索ログデータベース21を参照して抽出する。なお、ここでの第1のIPアドレス抽出部12の処理を2hopとする。
【0047】
図5は、第1のクエリ抽出部11によって抽出されたクエリ、すなわち、図4で示したクエリ「外為 abc証券」、「合宿免許 ghi自動車学校」、「ネットショップ 物流」・・・のそれぞれについて、これらのクエリを送信した端末2のIPアドレスを、第1のIPアドレス抽出部12が検索ログデータベース21を参照して抽出したときの例を示す。1つめのブロックは、2010年6月1日にクエリ「外為 abc証券」を送信した端末のIPアドレスを示し、例えば、「123.45.678.901」、「234.56.789.012」、「345.678.901.234」等がある。IPアドレスの右にある文字は、そのIPアドレスを有する端末から送信されたクエリを示し、このクエリの右にある文字は、そのクエリを送信した回数を示す。
【0048】
2つめのブロックは、2010年6月1日にクエリ「合宿免許 ghi自動車学校」を送信した端末のIPアドレスを示し、例えば、「123.45.678.901」、「201.35.679.023」、「345.678.901.234」等がある。3つめのブロックは、同日にクエリ「ネットショップ 物流」を送信した端末のIPアドレスを示し、例えば、「123.45.678.901」、「345.678.901.234」、「45.67.89.012」等がある。
【0049】
続いて、図6について説明する。第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出し、第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース21参照して抽出する。そして、繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行する。つまり、第2のクエリ抽出部13は、3hopとしてのクエリの抽出を行い、第2のIPアドレス抽出部14は、4hopとしてのIPアドレスの抽出を行い、その後、繰り返し部15は、5hopとしての第2のクエリ抽出部13によるクエリの抽出、6hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出、・・・をn hopとしての第2のIPアドレス抽出部14によるIPアドレスの抽出を行うまで繰り返す。但し、クエリの抽出は、直前に抽出されたIPアドレスを用い、IPアドレスの抽出は、直前に抽出されたクエリを用いる。例えば、3hop目のクエリの抽出は、2hop目で抽出されたIPアドレスを用い、4hop目のIPアドレスの抽出は、3hop目で抽出されたクエリを用いる。また、5hop目のクエリの抽出は、4hop目で抽出されたIPアドレスを用いる。
【0050】
図6は、繰り返し部15が、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを、m hopとしてのIPアドレスの抽出を行うまで繰り返したときの、m hop目でのIPアドレスの抽出の結果を示す。見方は図5と同じであり、上から、2010年6月1日にクエリ「五月人形 def人形店」、クエリ「メガネ stuメガネ店」、クエリ「ダイヤモンド買取 ショップ」を送信した端末のIPアドレスを示す。
【0051】
なお、下線は、説明の便宜のために付したものであり、IPアドレス判別装置1からの出力情報として付されるものではない。下線の意味については、後に説明する。
【0052】
ところで、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求める。そして、スパムIPアドレス判別部16は、その求めた比の値が所定の閾値以上の場合に、上記特定のIPアドレスIP0がスパムIPアドレスであると判別する。
【0053】
実施形態1において、m、nは、m<nを満たす正の偶数である。図6を参照しながら説明する。図6を参照すると、繰り返し部15によって第1の回数(m hopまで)だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスは、「123.45.678.901」、「156.43.621.724」・・・等である。ここで、便宜上下線を引いているが、これは、第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスのうち、重複するものである。「種類数」を計算するにあたり、重複するものはまとめて「1」として計算するので、図6に示されている範囲では、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数は、「13」である。実際には、図6に明示されていないものもあるので、図6の右下にあるように、ここでは、IPアドレスの種類数が「50」であるものとして説明する。
【0054】
また、図示は省略するが、繰り返し部15によって第2の回数(n hopまで)だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数は、「80」であるものとして説明する。
【0055】
繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数が「50」であり、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数が「80」であれば、前者の後者に対する比は50/80(=0.625)となる。所定の閾値が0.625未満であれば、当該比の値は所定の閾値以上となるので、スパムIPアドレス判別部16は、特定のIPアドレス「123.45.678.901」がスパムIPアドレスであると判別する。
【0056】
第1実施形態に記載の発明によれば、検索ログデータベース21には、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶され、第1のクエリ抽出部11は、特定のIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出し、第1のIPアドレス抽出部12は、その抽出したクエリを送信した端末のIPアドレスを、検索ログデータベース21を参照して抽出する。そして、第2のクエリ抽出部13は、第1のIPアドレス抽出部12によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース21を参照して抽出し、第2のIPアドレス抽出部14は、第2のクエリ抽出部13によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース21を参照して抽出し、繰り返し部15は、第2のクエリ抽出部13によるクエリの抽出と第2のIPアドレス抽出部14によるIPアドレスの抽出とを交互に繰り返し実行し、スパムIPアドレス判別部16は、繰り返し部15によって第1の回数だけ繰り返されたときの第1のIPアドレス抽出部12又は第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数の、繰り返し部15によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部14によって抽出されたIPアドレスの種類数に対する比を求める。そして、その比の値が所定の値以上の場合、スパムIPアドレス判別部16は、上記特定のIPアドレスがスパムIPアドレスであると判別する。
【0057】
通常のIPアドレスの場合であれば、第1の回数だけ繰り返した後にスパムIPアドレス判別装置1が抽出するIPアドレスの種類数と比べて、第2の回数だけ繰り返した後にスパムIPアドレス判別装置1が抽出するIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のIPアドレスの場合に比べ、スパムIPアドレス判別装置1が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムIPアドレス判別装置1は、第1の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときのIPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、そのIPアドレスがスパムIPアドレスであると判別する。
【0058】
これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレスを効率的かつ効果的に判別できる。
【0059】
[第2実施形態]
以下、本発明の第2実施形態について図を参照しながら説明する。
【0060】
[全体構成]
図7は、第2実施形態に係るスパムクエリ判別装置101を説明するための全体構成を示す図である。スパムクエリ判別装置101は、制御部110と、記憶部120とを備える。制御部110は、スパムクエリ判別装置101に係る各機能を統括的に制御する部分であり、第1のIPアドレス抽出部111、第1のクエリ抽出部112、第2のIPアドレス抽出部113、第2のクエリ抽出部114、繰り返し部115及びスパムクエリ判別部116を備える。一方、記憶部120は、スパムクエリ判別装置101として機能させるための各種プログラム(図示省略)やデータベースを記憶する部分であり、検索ログデータベース121を備える。
【0061】
検索ログデータベース121は、第1実施形態の検索ログデータベース21と同じ構成を有するものであり、検索ログ記憶手段として機能する。検索ログデータベース121には、クエリと、当該クエリを送信した端末102のIPアドレスと、端末102からクエリを受信した日時とを関連付けた検索ログが記憶される。
【0062】
第1のIPアドレス抽出部111は、特定のクエリQ0を送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する。ここでの第1のIPアドレス抽出部111の処理を1hopとし、この1hop目の処理で第1のIPアドレス抽出部111が抽出したIPアドレスは、図2のIP11、IP12、・・・IP1iに対応する。なお、第1のIPアドレス抽出部111は、第1のIPアドレス抽出手段として機能する。
【0063】
第1のクエリ抽出部112は、第1のIPアドレス抽出部111によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。ここでの第1のクエリ抽出部112の処理を2hopとし、この2hop目の処理で第1のクエリ抽出部112が抽出したクエリは、図2のQ21、Q22、・・・Q2jに対応する。なお、第1のクエリ抽出部112は、第1のクエリ抽出手段として機能する。また、図8、2hop目には、IPアドレスIP11、IP12、・・・IP1iを有する端末102から送信されたクエリのうち、IP12を有する端末102から送信されたクエリQ21、Q22、・・・Q2jだけが記載されているが、第1のクエリ抽出部112は、他のIPアドレスを有する端末102から送信されたクエリも抽出している。
【0064】
第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末のIPアドレスを、検索ログデータベース121を参照して抽出する。ここでの第2のIPアドレス抽出部113の処理を3hopとする。なお、第2のIPアドレス抽出部113は、第2のIPアドレス抽出手段として機能する。また、3hop目のIPアドレスの抽出は、2hop目で抽出されたIPアドレスを用いる。
【0065】
第2のクエリ抽出部114は、第2のIPアドレス抽出部113によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。ここでの第2のクエリ抽出部114の処理を4hopとする。なお、第2のクエリ抽出部114は、第2のクエリ抽出手段として機能する。また、4hop目のIPアドレスの抽出は、3hop目で抽出されたIPアドレスを用いる。
【0066】
繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行する。つまり、繰り返し部115は、5hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出、6hopとしての第2のクエリ抽出部114によるクエリの抽出、・・・をn hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出を行うまで繰り返す。なお、繰り返し部115は、繰り返し手段として機能する。また、図8には、一部のクエリを送信した端末102のIPアドレス及び一部のIPアドレスを有する端末102から送信されたクエリだけが記載されているが、繰り返し部115は、他のクエリを送信した端末102のIPアドレス及び他のIPアドレスを有する端末102から送信されたクエリも抽出している。但し、クエリの抽出は、直前に抽出されたIPアドレスを用い、IPアドレスの抽出は、直前に抽出されたクエリを用いる。例えば、5hop目のIPアドレスの抽出は、4hop目で抽出されたクエリを用い、6hop目のクエリの抽出は、5hop目で抽出されたIPアドレスを用いる。
【0067】
スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求める。すなわち、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数を分子とし、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数を分母とした比の値を求める。そして、スパムクエリ判別部116は、その求めた比の値が所定の閾値以上の場合、上記特定のクエリQ0がスパムクエリであると判別する。なお、スパムクエリ判別部116は、スパムクエリ判別手段として機能する。また、「所定の閾値」は、ユーザが予め定めた値である。
【0068】
ところで、クエリの抽出及びIPアドレスの抽出が繰り返されると、第2のIPアドレス抽出部113が抽出するIPアドレスの「数」が多くなることから、第2のIPアドレス抽出部113がIPアドレスを抽出しても、スパムクエリ判別部116がIPアドレスの「種類数」を算出するには、多大な計算処理時間を要する。そこで、特に、計算処理時間を減らすため、IPアドレスの「種類数」を算出するにあたっては、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。第2の回数についても同様に、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの中から所定個数のIPアドレスを無作為に抽出し、抽出したIPアドレスの重複度合いからIPアドレスの「種類数」を推定できる。
【0069】
なお、第2実施形態のハードウェア及びソフトウェアの構成は、第1実施形態のそれと同じであり、スパムクエリ判別装置101のハードウェアには、制御装置(制御部)としてのCPUの他、記憶装置(記憶部)、通信装置(通信部)、表示装置(表示部)及び入力装置(入力部)が含まれる。また、スパムクエリ判別装置101のソフトウェアには、上記ハードウェアを制御するプログラムやデータが含まれる。
【0070】
[フローチャート]
図9は、第2実施形態に係るスパムクエリ判別装置101のフローチャートである。
【0071】
ステップS101では、第1のIPアドレス抽出部111は、第1のIPアドレス抽出処理を行う。この処理では、第1のIPアドレス抽出部111は、特定のクエリQ0を送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する処理を行う。なお、特定のクエリQ0の指定は、検索ログデータベース121に記憶されたクエリの中から、スパムクエリであるかどうかを判別したい任意のクエリを指定することにより行う。好適には、検索ログデータベース121に記憶されたクエリの中から、誤差要因となるクエリを除去するような所定の処理を行い、その中から指定することもできる。
【0072】
ステップS102では、第1のクエリ抽出部112は、第1のクエリ抽出処理を行う。この処理では、第1のクエリ抽出部112は、第1のIPアドレス抽出部111によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する処理を行う。
【0073】
ステップS103では、第2のIPアドレス抽出部113は、第2のIPアドレス抽出処理を行う。この処理では、第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する処理を行う。
【0074】
ステップS104では、第2のクエリ抽出部114は、第2のクエリ抽出処理を行う。この処理では、第2のクエリ抽出部114は、第2のIPアドレス抽出部113によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する処理を行う。
【0075】
ステップS105では、繰り返し部115は、繰り返し処理を行う。この処理では、繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行する。つまり、繰り返し部115は、5hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出、6hopとしての第2のクエリ抽出部114によるクエリの抽出、・・・をn hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出を行うまで繰り返す。但し、クエリの抽出は、直前に抽出されたIPアドレスを用い、IPアドレスの抽出は、直前に抽出されたクエリを用いる。例えば、5hop目のIPアドレスの抽出は、4hop目で抽出されたクエリを用い、6hop目のクエリの抽出は、5hop目で抽出されたIPアドレスを用いる。
【0076】
ステップS106では、スパムクエリ判別部116は、スパムクエリ判別処理を行う。この処理では、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求め、その求めた比の値が所定の閾値以上の場合に、上記特定のクエリQ0がスパムクエリであると判別する処理を行う。この処理を終えると、制御部10は、一連の処理を終了する。
【0077】
[第2実施形態に係るスパムIPアドレス判別装置1の実施例]
図10〜図12は、第2実施形態に記載のスパムクエリ判別装置101に係る発明を実施したときの例を示す図である。
【0078】
まず、図10について説明する。まず、第1のIPアドレス抽出部111は、特定のクエリQ0を送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出する。なお、ここでの第1のIPアドレス抽出部111の処理を1hopとする。
【0079】
図10は、第1のIPアドレス抽出部111が、2010年6月1日に特定のクエリ「外為 abc証券」を送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出したときの例を示す。1行目は、特定のクエリ及び日付を示し、「Query=外為 abc証券, Date=20100601」と記載されている。2行目以降は、2010年6月1日にクエリ「外為 abc証券」を送信した端末102のIPアドレス、そのIPアドレスを有する端末102から送信したクエリ及びそのクエリの送信回数を示し、例えば、IPアドレス「123.45.678.901」を有する端末からは、「外為 abc証券」が4回送信されている。
【0080】
続いて、図11について説明する。第1のクエリ抽出部112は、第1のIPアドレス抽出部111によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。なお、ここでの第1のクエリ抽出部112の処理を2hopとする。
【0081】
図11は、第1のIPアドレス抽出部111によって抽出されたIPアドレス、すなわち、図10で示した「123.45.678.901」、「234.56.789.012」・・・のそれぞれについて、第1のクエリ抽出部112が検索ログデータベース121を参照して抽出したときの例を示す。1つめのブロックは、2010年6月1日にIPアドレス「123.45.678.901」を有する端末から送信されたクエリを示し、例えば、「外為 abc証券」、「合宿免許 ghi自動車学校」、「ネットショップ 物流」等がある。クエリの右にある文字は、そのクエリを送信した回数を示す。
【0082】
2つめのブロックは、同日にIPアドレス「234.56.789.012」を有する端末から送信されたクエリを示し、例えば、「外為 abc証券」、「中古車 jkl販売」、「海外旅行 mnoツアーズ」等がある。3つめのブロックは、同日にIPアドレス「345.678.901.234」を有する端末から送信されたクエリを示し、例えば、「五月人形 def人形店」、「メガネ stuメガネ店」、「ダイヤモンド買取 ショップvwx」等がある。
【0083】
続いて、図12及び図13について説明する。第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出し、第2のクエリ抽出部114は、第2のIPアドレス抽出部113によって抽出されたIPアドレスの端末102から送信されたクエリを、検索ログデータベース121を参照して抽出する。そして、繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行する。つまり、第2のIPアドレス抽出部113は、3hopとしてのIPアドレスの抽出を実行し、第2のクエリ抽出部114は、4hopとしてのクエリの抽出を実行し、その後、繰り返し部115は、5hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出、6hopとしての第2のクエリ抽出部114によるクエリの抽出、・・・をn hopとしての第2のIPアドレス抽出部113によるIPアドレスの抽出を行うまで繰り返す。
【0084】
図12は、繰り返し部115が、第2のIPアドレス抽出部113によるIPアドレスの抽出と、第2のクエリ抽出部114によるクエリの抽出とを、m hopとしてのIPアドレスの抽出を行うまで繰り返したときの、m hop目でのIPアドレスの抽出の結果を示す。見方は図5と同じであり、上から、2010年6月1日にクエリ「外為 abc証券」、クエリ「合宿免許 ghi自動車学校」、クエリ「ネットショップ 物流」を送信した端末のIPアドレスを示す。また、図13は、繰り返し部115が、第2のIPアドレス抽出部113によるIPアドレスの抽出と、第2のクエリ抽出部114によるクエリの抽出とを、n hopとしてのIPアドレスの抽出を行うまで繰り返したときの、n hop目でのIPアドレスの抽出の結果を示す。見方は図5及び図12と同じであり、上から、2010年6月1日にクエリ「五月人形 def人形店」、クエリ「メガネ stuメガネ店」、クエリ「ダイヤモンド買取 ショップvwx」を送信した端末のIPアドレスを示す。なお、下線は、後の説明の便宜のために付したものであり、スパムクエリ判別装置101からの出力情報として付されるものではない。
【0085】
ところで、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求める。そして、スパムクエリ判別部116は、その求めた比の値が所定の閾値以上の場合に、上記特定のクエリQ0がスパムクエリであると判別する。
【0086】
実施形態2において、m、nの値は、m<nを満たす正の奇数である。図12を参照すると、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスは、「123.45.678.901」、「234.56.789.012」・・・等である。ここで、便宜的に下線を引いているが、これは、第2のIPアドレス抽出部113によって抽出されたIPアドレスのうち、重複するものである。「種類数」を計算するにあたり、重複するものはまとめて「1」として計算するので、図12に明示された範囲では、繰り返し部115によって第1の回数(m hopまで)だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数は、「13」である。実際には、図12に明示されていないものもあるので、図12の右下にあるように、ここでは、IPアドレスの種類数が「50」であるものとして説明する。
【0087】
また、図13を参照すると、繰り返し部115によって第2の回数(n hopまで)だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスは、「123.45.678.901」、「156.43.621.724」・・・等である。図13に示されている範囲では、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数は、「13」である。実際には、図13に明示されていないものもあるので、図13の右下にあるように、ここでは、IPアドレスの種類数が「80」であるものとして説明する。
【0088】
繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数が「50」であり、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数が「80」であれば、前者の後者に対する比は50/80(=0.625)となる。所定の閾値が0.625未満であれば、当該比の値は所定の閾値以上となるので、スパムクエリ判別部116は、上記特定のクエリ「外為 abc証券」がスパムクエリであると判別する。
【0089】
第2実施形態に記載の発明によれば、検索ログデータベース121には、クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶され、第1のIPアドレス抽出部111は、特定のクエリQ0を送信した端末のIPアドレスを、検索ログデータベース121を参照して抽出し、第1のクエリ抽出部112は、そのIPアドレスの端末から送信されたクエリを、検索ログデータベース121を参照して抽出する。そして、第2のIPアドレス抽出部113は、第1のクエリ抽出部112によって抽出されたクエリを送信した端末102のIPアドレスを、検索ログデータベース121を参照して抽出し、第2のクエリ抽出部114は、第2のIPアドレス抽出部によって抽出されたIPアドレスの端末から送信されたクエリを、検索ログデータベース121を参照して抽出し、繰り返し部115は、第2のIPアドレス抽出部113によるIPアドレスの抽出と第2のクエリ抽出部114によるクエリの抽出とを交互に繰り返し実行し、スパムクエリ判別部116は、繰り返し部115によって第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、繰り返し部115によって第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比を求める。そして、その比の値が所定の値以上の場合、スパムクエリ判別部116は、上記特定のクエリQ0がスパムクエリであると判別する。
【0090】
通常のクエリの場合であれば、第1の回数だけ繰り返した後に抽出されたIPアドレスの種類数と比べて、第2の回数だけ繰り返した後に抽出されたIPアドレスの種類数は、十分増加する。これに対し、不正業者のスパムIPアドレスから送信されるスパムクエリの場合、当該不正業者が使用し得るIPアドレスの数が限られていることから、通常のクエリの場合に比べ、スパムクエリ判別装置101が抽出するIPアドレスの種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置101が抽出するIPアドレスの当該種類数の増加の割合は、低くなる。このことに着目し、スパムクエリ判別装置101は、第1の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数の、第2の回数だけ繰り返されたときの第2のIPアドレス抽出部113によって抽出されたIPアドレスの種類数に対する比が所定の値以上の場合に、そのIPアドレスを有する端末から送信したクエリがスパムクエリであると判別する。
【0091】
これにより、スパムクエリにスパムではない通常のクエリを混入させてカモフラージュするという巧妙な手口も含め、不正業者のスパムIPアドレスを有する装置から送信されるスパムクエリを効率的かつ効果的に判別できる。
【0092】
なお、第1及び第2実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、第1及び第2実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0093】
1 スパムIPアドレス判別装置
10 制御部
11 第1のクエリ抽出部
12 第1のIPアドレス抽出部
13 第2のクエリ抽出部
14 第2のIPアドレス抽出部
15 繰り返し部
16 スパムIPアドレス判別部
20 記憶部
21 検索ログデータベース
【特許請求の範囲】
【請求項1】
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、
特定のIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、
前記第1のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、
前記第1のIPアドレス抽出手段又は第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第2のクエリ抽出手段と、
前記第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する前記第2のIPアドレス抽出手段と、
前記第2のクエリ抽出手段によるクエリの抽出と前記第2のIPアドレス抽出手段によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し手段と、
前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のIPアドレスがスパムIPアドレスであると判別するスパムIPアドレス判別手段とを備えるスパムIPアドレス判別装置。
【請求項2】
スパムIPアドレス判別装置が実行する方法であって、
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のIPアドレスの端末から送信されたクエリを抽出する第1のクエリ抽出工程と、
前記第1のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第1のIPアドレス抽出工程と、
前記第1のIPアドレス抽出工程又は第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、
前記第2のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する前記第2のIPアドレス抽出工程と、
前記第2のクエリ抽出工程によるクエリの抽出と前記第2のIPアドレス抽出工程によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し工程と、
前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のIPアドレスがスパムIPアドレスであると判断するスパムIPアドレス判別工程とを含むスパムIPアドレス判別方法。
【請求項3】
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、
特定のクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、
前記第1のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、
前記第1のクエリ抽出手段又は第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第2のIPアドレス抽出手段と、
前記第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する前記第2のクエリ抽出手段と、
前記第2のIPアドレス抽出手段によるIPアドレスの抽出と前記第2のクエリ抽出手段によるクエリの抽出とを交互に繰り返し実行する繰り返し手段と、
前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のクエリがスパムクエリであると判別するスパムクエリ判別手段とを備えるスパムクエリ判別装置。
【請求項4】
スパムクエリ判別装置が実行する方法であって、
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のクエリを送信した端末のIPアドレスを抽出する第1のIPアドレス抽出工程と、
前記第1のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第1のクエリ抽出工程と、
前記第1のクエリ抽出工程又は第2のクエリ抽出工程によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第2のIPアドレス抽出工程と、
前記第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、
前記第2のIPアドレス抽出工程によるIPアドレスの抽出と前記第2のクエリ抽出工程によるクエリの抽出とを交互に繰り返し実行する繰り返し工程と、
前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のクエリがスパムクエリであると判断するスパムクエリ判別工程とを含むスパムクエリ判別方法。
【請求項1】
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、
特定のIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、
前記第1のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、
前記第1のIPアドレス抽出手段又は第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第2のクエリ抽出手段と、
前記第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する前記第2のIPアドレス抽出手段と、
前記第2のクエリ抽出手段によるクエリの抽出と前記第2のIPアドレス抽出手段によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し手段と、
前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のIPアドレスがスパムIPアドレスであると判別するスパムIPアドレス判別手段とを備えるスパムIPアドレス判別装置。
【請求項2】
スパムIPアドレス判別装置が実行する方法であって、
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のIPアドレスの端末から送信されたクエリを抽出する第1のクエリ抽出工程と、
前記第1のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第1のIPアドレス抽出工程と、
前記第1のIPアドレス抽出工程又は第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、
前記第2のクエリ抽出工程で抽出したクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する前記第2のIPアドレス抽出工程と、
前記第2のクエリ抽出工程によるクエリの抽出と前記第2のIPアドレス抽出工程によるIPアドレスの抽出とを交互に繰り返し実行する繰り返し工程と、
前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のIPアドレスがスパムIPアドレスであると判断するスパムIPアドレス判別工程とを含むスパムIPアドレス判別方法。
【請求項3】
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶される検索ログ記憶手段と、
特定のクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第1のIPアドレス抽出手段と、
前記第1のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する第1のクエリ抽出手段と、
前記第1のクエリ抽出手段又は第2のクエリ抽出手段によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログ記憶手段を参照して抽出する第2のIPアドレス抽出手段と、
前記第2のIPアドレス抽出手段によって抽出されたIPアドレスの端末から送信されたクエリを、前記検索ログ記憶手段を参照して抽出する前記第2のクエリ抽出手段と、
前記第2のIPアドレス抽出手段によるIPアドレスの抽出と前記第2のクエリ抽出手段によるクエリの抽出とを交互に繰り返し実行する繰り返し手段と、
前記繰り返し手段によって第1の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数の、前記繰り返し手段によって前記第1の回数よりも多い第2の回数だけ繰り返されたときの前記IPアドレス抽出手段によって抽出されたIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合には、前記特定のクエリがスパムクエリであると判別するスパムクエリ判別手段とを備えるスパムクエリ判別装置。
【請求項4】
スパムクエリ判別装置が実行する方法であって、
クエリと当該クエリを送信した端末のIPアドレスとを関連付けた検索ログが記憶された検索ログデータベースを参照して、特定のクエリを送信した端末のIPアドレスを抽出する第1のIPアドレス抽出工程と、
前記第1のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第1のクエリ抽出工程と、
前記第1のクエリ抽出工程又は第2のクエリ抽出工程によって抽出されたクエリを送信した端末のIPアドレスを、前記検索ログデータベースを参照して抽出する第2のIPアドレス抽出工程と、
前記第2のIPアドレス抽出工程で抽出したIPアドレスの端末から送信されたクエリを、前記検索ログデータベースを参照して抽出する第2のクエリ抽出工程と、
前記第2のIPアドレス抽出工程によるIPアドレスの抽出と前記第2のクエリ抽出工程によるクエリの抽出とを交互に繰り返し実行する繰り返し工程と、
前記IPアドレス抽出工程を第1の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数の、前記IPアドレス抽出工程を前記第1の回数よりも多い第2の回数だけ繰り返したときに前記IPアドレス抽出工程で抽出したIPアドレスの種類数に対する比を求め、その比の値が所定の値以上の場合に、前記特定のクエリがスパムクエリであると判断するスパムクエリ判別工程とを含むスパムクエリ判別方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−14355(P2012−14355A)
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願番号】特願2010−149400(P2010−149400)
【出願日】平成22年6月30日(2010.6.30)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願日】平成22年6月30日(2010.6.30)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】
[ Back to top ]