説明

URL検索方法及び検索装置

【課題】 URLを表す文字列データを検索キーとして、簡単な処理でデータベースの検索を高速化し、検索装置を構成するハードウェア回路等の構成を簡易にする。
【解決手段】 URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離する分離部100と、第1の文字列又は第2の文字列のいずれか一方の文字列の順序を入れ替える文字列順変換部200と、文字列の順序を入れ替えた第1の文字列又は第2の文字列と、文字列の順序を入れ替えなかった第1の文字列又は第2の文字列について、単一の最長一致検索を行う最長一致検索部300とを備えるURL検索装置であって、URLをキーにデータベース400を検索する。検索キーを、後方一致又は前方一致に統一することで、検索機能を1種類にし、検索機能を備えた回路の規模を小さく構成することが容易になる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、URL検索方法及び検索装置に関し、特に、URLを表す文字列を扱うデータベースの検索方法及び検索装置に関する。
【背景技術】
【0002】
従来、広告の一手法として、電子メールにてURL(Uniform Resource Locator)を通知して目的のWebサイトへアクセスを促す方法が存在する。しかし、このような広告手法の中には、アダルトサイトやフィッシングサイト等の有害な情報Webサイトに誘導するものも多い。そこで、アクセスするURLが有害か安全かを判断するため、有害URL情報をデータベース化して検索するシステムが存在する。
【0003】
例えば、従来の検索装置は、図3に示すように、URL文字列を入力する入力部001と、検索を行う検索部300と、データベース400と、検索結果を出力する出力部301とで構成され、URLを表す文字列データを検索キーとするデータベース400で検索する場合には、ホストからデータネームまでを検索キーにする完全一致方法や、ホストからデータネームまでをハッシュ関数を使用してインデックスとして検索する方法がある。
【0004】
その他の方法としては、ホストからパス及びデータネームまでを検索するため、前方一致検索を用いる場合もある(例えば、特許文献1、2参照)。また、高度な使用方法で複雑な検索条件を指定する正規表現検索を実現する方法も考えられる。さらに、URL文字列を先頭部分と、後続部分とに分割し、まず最初に先頭部分を検索した後、一致している場合には、後続部分を検索する方法も存在する(例えば、特許文献3参照)。これらの方法では、各々の検索方法に対応した検索部300と、データベース400とが使用される。
【0005】
尚、URLは、スキーム、ホスト、ドメイン、ポート、パス、データネームから構成される。ホストとドメインでインターネット上のサーバを特定しているが、この部分は、”.”で区切られた部分毎に、右から左方向に詳細になっている。一方、パス・データネームは”/”で区切られた部分毎に、左から右方向に向かって詳細になっている。
【0006】
【特許文献1】特開2002−123553号公報
【特許文献2】特開2003−141143号公報
【特許文献3】特開2004−192279号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、上記従来のURL検索方法等においては、URLを表す文字列データを検索キーとするデータベースで完全一致方法を採用すると、データベースの容量が膨大になってしまう。これは、データネームパス毎にデータを作成する必要があり、パスが追加されるか、データネームが追加される毎に、データベースにデータを追加する必要があるためである。また、この場合、データベースの量が膨大になるだけでなく、有害URLへの迅速な対応ができないという問題があった。
【0008】
一方、情報の一部、例えば、パス、データネームを省略し、ホスト+ドメインのみで、完全一致データベースを作成する方法では、ISP等のホストで有害サイトが存在する場合には、他の一般的なサービスを行っているサイトとの情報まで有害URLと判断してしまうという問題があった。
【0009】
上記問題に対処する一手法として、検索部でホスト名からの前方一致検索を行うことが考えられる。この方法では、データベースに、例えば、“www.abc.def.co.jp/ghijk/lmnop/”が登録されている場合には、これより長いURL文字列“www.abc.def.co.jp/ghijk/lmnop/q/index.html”、“www.abc.def.co.jp/ghijk/lmnop/abc/index.html”等が一致し、有害URLと判断することができるため、データベースのデータ量削減と柔軟な対応が期待できる。
【0010】
しかしながら、ホスト部は比較的簡単に変更できるため、悪意のサーバ管理者は、ホスト名を変更することにより、これらデータからの検索を逃れることが可能である。この問題は、検索部の機能を変更し、ホスト名を使用せず、ドメイン名からの前方一致にすれば解決されるようにも見える。しかしながら、サブドメインの定義を行うことで、前述のホスト名の変更の場合と同様に検索を逃れることが可能である。
【0011】
上記検索部において、複雑な検索条件を指定できる正規表現検索や、部分一致検索等を行うことで上記問題を解決することができるが、複雑な処理が必要となることと、検索処理に長時間を要するという問題があった。
【0012】
そこで、本発明は、上記従来の検索方法等における問題点に鑑みてなされたものであって、URLを表す文字列データを検索キーとして、簡単な処理でデータベースの検索を高速化することにより、ハードウェア回路等の構成を簡易にすることなどが可能なURL検索方法及び検索装置を提供することを目的とする。
【課題を解決するための手段】
【0013】
上記目的を達成するため、本発明は、URL検索方法であって、URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離し、前記第1の文字列又は前記第2の文字列のいずれか一方の文字列の順序を入れ替え、該文字列の順序を入れ替えた前記第1の文字列又は前記第2の文字列と、文字列の順序を入れ替えなかった前記第1の文字列又は前記第2の文字列とを組み合わせた文字列について、単一の最長一致検索を行うことを特徴とする。
【0014】
そして、本発明によれば、URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離し、前記第1の文字列又は前記第2の文字列のいずれか一方の文字列の順序を入れ替え、同一方向に揃えることで、検索キーを、後方一致あるいは前方一致に統一することができる。これによって、検索機能を1種類にすることができ、検索機能をハードウェアで構成する場合に、回路規模を小さく構成することが容易になる。
【0015】
また、本発明は、URL検索方法であって、URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離し、前記第1の文字列の順序を入れ替え、該文字列の順序を入れ替えた前記第1の文字列と、前記第2の文字列とを組み合わせた文字列について、前方一致検索を行うことを特徴とする。これによって、URL文字列を前方一致のみで検索することができ、検索機能をハードウェアで構成する場合に、回路規模を小さく構成することが容易になる。
【0016】
さらに、本発明は、URL検索方法であって、URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離し、前記第2の文字列の順序を入れ替え、該文字列の順序を入れ替えた前記第2の文字列と、前記第1の文字列とを組み合わせた文字列について、後方一致検索を行うことを特徴とする。これによって、URL文字列を後方一致のみで検索することができ、検索機能をハードウェアで構成する場合に、回路規模を小さく構成することが容易になる。
【0017】
また、本発明は、URL検索装置であって、URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離する分離部と、前記第1の文字列又は前記第2の文字列のいずれか一方の文字列の順序を入れ替える文字列順変換部と、該文字列の順序を入れ替えた前記第1の文字列又は前記第2の文字列と、文字列の順序を入れ替えなかった前記第1の文字列又は前記第2の文字列について、単一の最長一致検索を行う最長一致検索部とを備えることを特徴とする。これによって、上述のように、検索機能をハードウェアで構成する場合に、回路規模を小さく構成することが容易になる。
【0018】
さらに、本発明は、URL検索装置であって、URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離する分離部と、前記第1の文字列の順序を入れ替える文字列順変換部と、該文字列順変換部によって文字列の順序を入れ替えた第1の文字列と前記第2の文字列とを組み合わせた文字列について、前方一致検索を行う前方一致検索部とを備えることを特徴とする。これによって、上述のように、検索機能をハードウェアで構成する場合に、回路規模を小さく構成することが容易になる。
【0019】
また、本発明は、URL検索装置であって、URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離する分離部と、前記第2の文字列の順序を入れ替える文字列順変換部と、該文字列順変換部によって文字列の順序を入れ替えた第2の文字列と、前記第1の文字列とを組み合わせた文字列について、後方一致検索を行う後方一致検索部とを備えることを特徴とする。これによって、上述のように、検索機能をハードウェアで構成する場合に、回路規模を小さく構成することが容易になる。
【発明の効果】
【0020】
以上のように、本発明によれば、URLを表す文字列データを検索キーとして、簡単な処理でデータベースの検索を高速化し、検索装置を構成するハードウェア回路等の構成を簡易にすることなどが可能となる。
【発明を実施するための最良の形態】
【0021】
図1は、本発明にかかるURL検索装置の一実施の形態を示し、この装置は、URL文字列を入力する入力部001と、URL文字列をホスト+ドメイン文字列と、パス+データネーム文字列とに分離する分離部100と、文字列の順序を入れ替える文字列順変換部200と、最長一致検索部300と、検索結果を出力する出力部301とで構成され、この装置によって、URLをキーにURL文字列データベース(以後、「データベース」と略称する)400を検索する。
【0022】
入力部001は、メモリに接続してデータを読み込む形態でもよく、通信装置のようにストリーム型のデータを入力してもよい。
【0023】
分離部100は、文字比較機能、すなわち、スキーム文字列や特定文字”.”、”/”、”:”を検出する機能を備え、URL文字列を解釈してドメイン部とパス部とを分離する機能を有する。
【0024】
文字列順変換部200は、FILOやバッファメモリ等を使用し、入力した文字列の並び順を変換する機能を備える。
【0025】
最長一致検索部300は、最長一致検索を使用し、接続されているデータベース400からキーワードが存在するか否かを検索する機能を有する。
【0026】
出力部301は、最長一致検索部300の検索結果を出力する機能を備える。
【0027】
次に、上記構成を有するURL検索装置の動作について説明する。尚、以下の説明においては、最長一致検索部300において前方一致検索を行う場合を想定する。
【0028】
この場合、文字列順変換部200には、分離部100から出力されたホスト+ドメイン文字列を入力し、データベース400は、前方一致に適した形でデータを格納する。
【0029】
例えば、「http://www.abc.def.co.jp/ghijk/lmnop/qrstuv/wxyz/index.html」というURL文字列を検索する場合には、入力部001からURL文字列を入力すると、分離部100では、スキーム文字列“http://”を検出し、それ以降の”:”あるいは、”:”がない場合には”/”までをホスト+ドメイン文字列と判断し、ホスト+ドメイン文字列「www.abc.def.co.jp」を接続信号102にて文字列順変換部200へ送出する。そして、スキーム文字列から最初に出現する”/”以降をパス+データネーム部と判断し、パス+データネーム文字列「ghijk/lmnop/qrstuv/wxyz/index.html」を接続信号101にて最長一致検索部300へ送出する。
【0030】
文字列順変換部200に送られたホスト+ドメイン文字列は、文字順の入れ替えが行われ、「www.abc.def.co.jp」の場合、前後の並び順を入れ替え「jp.oc.fed.cba.www」として接続信号201を介して最長一致検索部300に送られる。最長一致検索部300は、接続信号101と201とを監視し、接続信号101でパス+データネームがある場合に、接続信号201を待ち合わせて最長一致検索を行う。
【0031】
図2は、データベース400の構造図である。以下、検索の高速化のためにインデックスデータを用意して説明するが、この部分は、本発明の本質的な部分ではないので、他の手段を用いてもよい。
【0032】
データベース400には、URLデータを格納するためにレコードが存在し、1レコードにパス+データネーム文字列とホスト+ドメイン逆順文字列で構成されたURL文字列データが格納されている。
【0033】
最長一致検索部300では、接続信号201にて送られてきたホスト+ドメイン逆順文字列をキーにしてレコード内データと前方一致検索を行い、一致するデータが見つかった場合には、接続信号101にて送られてきたパス+データネーム文字列の前方一致の比較を行うことで、入力されたURL文字列がデータベース400内のデータに該当すると判断する。
【0034】
このように、本発明ではホスト・ドメイン部分あるいはパス・データネーム部分のどちらかの文字列の順序を並び替え、同一方向に揃えることで、検索キーを後方一致あるいは前方一致に統一し、検索機能ブロックを1種類にすることができ、これをハードウェア等で構成する場合に回路等の規模を小さくすることが可能になる。
【0035】
前記実施の形態では、最長一致検索部300で前方一致検索を行う場合について説明したが、最長一致検索部300で後方一致検索を行う場合には、文字列順変換部200には分離部100から出力されたパス+データネーム文字列を入力する。
【0036】
上記URL検索装置は、Webアクセスを実施するときに、有害コンテンツと接続許可コンテンツをフィルタするWebフィルタシステムへ適用したり、電子メール中に有害コンテンツを示すURLを含むか否かを判別する電子メールフィルタシステムへ適用することができる。
【図面の簡単な説明】
【0037】
【図1】本発明にかかるURL検索装置の一実施の形態を示す構成図である。
【図2】本発明にかかるURL検索装置の一実施の形態を構成するデータベースのデータ構造図である。
【図3】従来の検索機能の概念図である。
【符号の説明】
【0038】
001 入力部
100 分離部
101 分離文字列1
102 分離文字列2
200 文字列順変換部
201 逆順変換後文字列
300 最長一致検索部
301 出力部
400 データベース

【特許請求の範囲】
【請求項1】
URL(Uniform Resource Locator)文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離し、
前記第1の文字列又は前記第2の文字列のいずれか一方の文字列の順序を入れ替え、
該文字列の順序を入れ替えた前記第1の文字列又は前記第2の文字列と、文字列の順序を入れ替えなかった前記第1の文字列又は前記第2の文字列とを組み合わせた文字列について、単一の最長一致検索を行うことを特徴とするURL検索方法。
【請求項2】
URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離し、
前記第1の文字列の順序を入れ替え、
該文字列の順序を入れ替えた前記第1の文字列と、前記第2の文字列とを組み合わせた文字列について、前方一致検索を行うことを特徴とするURL検索方法。
【請求項3】
URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離し、
前記第2の文字列の順序を入れ替え、
該文字列の順序を入れ替えた前記第2の文字列と、前記第1の文字列とを組み合わせた文字列について、後方一致検索を行うことを特徴とするURL検索方法。
【請求項4】
URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離する分離部と、
前記第1の文字列又は前記第2の文字列のいずれか一方の文字列の順序を入れ替える文字列順変換部と、
該文字列の順序を入れ替えた前記第1の文字列又は前記第2の文字列と、文字列の順序を入れ替えなかった前記第1の文字列又は前記第2の文字列について、単一の最長一致検索を行う最長一致検索部とを備えることを特徴とするURL検索装置。
【請求項5】
URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離する分離部と、
前記第1の文字列の順序を入れ替える文字列順変換部と、
該文字列順変換部によって文字列の順序を入れ替えた第1の文字列と前記第2の文字列とを組み合わせた文字列について、前方一致検索を行う前方一致検索部とを備えることを特徴とするURL検索装置。
【請求項6】
URL文字列を、ホスト及びドメインからなる第1の文字列と、パス及びデータネームからなる第2の文字列とに分離する分離部と、
前記第2の文字列の順序を入れ替える文字列順変換部と、
該文字列順変換部によって文字列の順序を入れ替えた第2の文字列と、前記第1の文字列とを組み合わせた文字列について、後方一致検索を行う後方一致検索部とを備えることを特徴とするURL検索装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2006−221294(P2006−221294A)
【公開日】平成18年8月24日(2006.8.24)
【国際特許分類】
【出願番号】特願2005−32460(P2005−32460)
【出願日】平成17年2月9日(2005.2.9)
【出願人】(303013763)NECエンジニアリング株式会社 (651)
【Fターム(参考)】