説明

Webページ検索方法及びWebページ検索システム

【課題】 検索サイトで提供される検索機能と同様な利用環境を提供し、検索方法の違いを意識しないで、より広範囲のWebページを検索できるWebページ検索方法及びWebページ検索システムを提供すること。
【解決手段】 検索範囲設定手段111に設定された範囲のグローバルIPアドレスを順次指定し、この指定アドレスにインターネット10上で接続して、指定されたグローバルIPアドレスのインターネットでの有無を検索し、アドレス検索手段121によりインターネット10での存在が検出されたIPアドレスからURLを逆引きし、該当するURLがある場合はこのURLによるWebページを取り込み、URL逆引き手段122の逆引き結果により取り込まれたWebページの中にキーワード設定手段112に設定されたキーワードが含まれているかを検索し、キーワード検索手段123の検索結果によりキーワードが含まれているWebページをダウンロードするWebページ検索システム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、公になることを嫌って意図的に検索サイトで検索されるべき対象から逃れようとしているサイトや、悪意をもって運営しているがために検索サイトで検索されるべき対象から逃れ逃れているサイトなど、サイト開設者によるなんらかの意志に従って、検索サイトが有する検索エンジンでヒットされるように公開されていないサイトを見つけ出す、コンピュータによるインターネットのWebページ検索方法及びWebページ検索システムに関する。
【背景技術】
【0002】
近年、インターネット技術が発達し、各種の情報をインターネットから収集することが可能になってきており、それに関連し、各種の特許提案がなされている。例えば、インターネットで伝達される情報のうち、特定の条件に合致する情報を検索し、その検索結果を確実に確認できるようなシステム(例えば、特許文献1参照)や、任意の建物に対する基本情報を取得し、この基本情報に基いてインターネット上を検索し、検索結果から取得したホームページに関するアドレスのリスト(URLが多い)でリンク集を作成して、インターネット上に存在する様々な情報を有効利用できるようにした装置(例えば、特許文献2参照)に関する提案がある。
【0003】
ところで、このようにインターネットのWebページを検索する場合、指定したキーワードに合致する情報を探し出す「キーワード検索」と、分類されたカテゴリーの中から欲しい項目をたどっていく「ディレクトリ検索」とがある。これらは、いずれも検索サイトにて提供されているものを利用するのが一般的であった。すなわち、これらいずれかの検索方法、あるいは、それらの組合せにおいても、あらかじめ検索サイトに登録されているWebページが検索の対象となる。このため、この検索サイトに登録(いわゆるロボット型の検索サイトにおいては記録)されていないWebページを検索することは不可能であり、検索サイトが管理していない未知のWebページを検索することは、適当に入力したグローバルIPアドレスが偶然当たりという幸運に恵まれるか、専門的知識と工数を必要とする熟練者の作業に頼るほかなかった。
【0004】
インターネットにおいては、公になることを嫌って意図的に検索サイトから逃れようとしているサイトや、悪意をもって運営しているがために検索サイトから逃れているサイトなど、なんらかの意志に従って、検索サイトが有する検索エンジンでヒットされるように公開されていないサイトがある。このようなサイトを見つけ出し、把握しておくことは、司法機関や徴税機関など公的機関の活動の効率化と円滑化を図ために必要となる。また、一般利用者にとっても、より専門的な知識を得ることができるなど、幅広い分野での利用が可能となる。
【0005】
従来の検索は、DNS(Domain Name System:TCP/IPネットワーク環境において、ホスト名から、対応するIPアドレス(TCP/IPネットワーク上で特定のコンピュータを識別するための番号)を取得できるようにするサービスを提供するシステム)による名前を割り当てられ解決されたWebページに対するキーワードを用いた検索が一般的であった。この他、グローバルIPアドレスからURL(Uniform Resource Locator)を得る方法もあるが、ネットワーク機器に対応付けられたグローバルIPアドレスや未使用のグローバルIPアドレスなど、Webページに対応したグローバルIPアドレス以外の情報も検索するため、一般的な検索サイトで検索するような簡便な手法ではなくなる。
【0006】
また、ポートスキャンなどのセキュリティに関する検索を行なったり、同一のグローバルIPアドレスに対するIPアドレスによる直接の接続を繰り返すことも必要となるため、不正アクセスの面などで法律面など困難な状況もある。このため、インターネットに関するある程度の知識と経験を有する技術者に限られた検索方法だったといえる。
【特許文献1】特開2002−24269号公報
【特許文献2】特開2004−46484号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
このように従来方法では、公開されていないWebページを探し出すためには、専門的な知識が必要であり、容易に検索することが困難である。また、同一のグローバルIPアドレスに対してIPアドレスによる直接に接続を繰り返したりするので、ハッキングやクラッキングといった不正行為と間違えられることもある。したがって、誰もがインターネット上の様々な情報を、標準的な操作方法で容易に入手できるシステムが要望されていた。
【0008】
本発明の目的は、検索サイトで提供される検索機能と同様な利用環境を提供し、検索方法の違いを意識しないで、より広範囲のWebページを検索できるWebページ検索方法及びWebページ検索システムを提供することにある。
【課題を解決するための手段】
【0009】
本発明のWebページ検索方法は、検索範囲として設定された所定範囲のグローバルIPアドレスを順次指定し、この指定アドレスにインターネット上で接続して、指定されたグローバルIPアドレスのインターネットでの有無を検索し、この検索によりインターネットでの存在が検出されるとそのグローバルIPアドレスから対応付づけられたURLを逆引きし、該当するURLがある場合はこのURLによるWebページを取り込み、このURL逆引きの結果により取り込まれたWebページの中に、検索対象とすべきキーワードが含まれているかを検索し、このキーワード検索の結果によりキーワードが含まれているWebページをダウンロードすることを特徴とする。
【0010】
本発明のWebページ検索システムは、グローバルIPアドレスによる検索範囲が設定される検索範囲設定手段と、検索対象とすべきキーワードが設定されるキーワード設定手段と、前記検索範囲設定手段に設定された範囲のグローバルIPアドレスを順次指定し、この指定されたグローバルIPアドレスにインターネット上で接続して、指定されたグローバルIPアドレスのインターネットでの有無を検索するアドレス検索手段と、このアドレス検索手段によりインターネットでの存在が検出されたグローバルIPアドレスから対応づけられたURLを逆引きし、該当するURLがある場合はこのURLによるWebページを取り込ませるURL逆引き手段と、このURL逆引き手段の逆引き結果により取り込まれたWebページの中に前記キーワード設定手段に設定されたキーワードが含まれているかを検索するキーワード検索手段と、このキーワード検索手段でのキーワードに関する検索結果によりキーワードが含まれているWebページをダウンロードするWebページダウンロード手段とを備えたことを特徴とする。
【0011】
本発明システムでは、アドレス検索手段は、検索結果ファイルを有し、検索時に指定されたグローバルIPアドレスに接続後、予め設定された時間が経過しても応答がない場合、当該グローバルIPアドレスは存在しないものとして前記検索結果ファイルを更新し、以後、このグローバルIPアドレスの検索は行なわないように構成するとよい。
【0012】
また、本発明システムでは、キーワード検索手段には、検索対象となるWebページに対応するWebサイトのトップページからの深度が指定されており、指定された深度のWebページまでキーワード検索行うように構成するとよい。
【0013】
また、本発明システムでは、キーワード検索手段には、検索対象となるWebページでの検索を打ち切る時間が指定されており、この指定された時間が経過することにより検索を打ち切り、次のWebページの検索に移るように構成するとよい。
【0014】
さらに、本発明システムでは、キーワード検索手段には、検索対象Webページで合致するキーワードの上限数が指定されており、指定された件数分のキーワードを抽出するとそのページの検索を終了するように構成するとよい。
【発明の効果】
【0015】
本発明によれば、グローバルIPアドレスを指定し、インターネット上に指定されたグローバルIPアドレスの存在を検索し、存在するグローバルIPアドレスについては、URLを逆引き検索して、得られたURLのWebページに検索対象のキーワードが含まれているかを検索することにより、インターネット上で公開されていないWebページを容易に見つけ出すことができる。この場合、対象となるWebページに対しては1回程度の接続であるため、ハッキングやクラッキングといった不正行為と間違えられることはなく、検索したい単語あるいは文字列を指定するだけでよく、インターネットに必ずしも精通していない一般人であっても幅広い知識と教養を身に付けることができる。
【発明を実施するための最良の形態】
【0016】
以下、本発明によるWebページ検索方法及びシステムの一実施の形態について図面を用いて説明する。
【0017】
図1はこの実施の形態によるシステムの全体構成を示している。図1において、本システムは大略すると、インターネット10に対する検索条件設定手段11、検索手段12、検索結果表示手段13、検索結果ファイル14を備えている。
【0018】
検索条件設定手段11は、検索対象となるWebページを検索するための各種条件を設定するもので、検索範囲設定手段111、キーワード設定手段112、検索条件入力手段113を有する。これらの詳細は後述する。
【0019】
検索手段12は、設定された検索条件をもとに、インターネット10上のWebページを検索する機能であり、Webページごとに条件に合致するか判定し、合致した場合は、そのページをあらかじめ定められた領域に検索結果として保存(ダウンロード)する。この検索手段12の機能としてはアドレス検索手段121、URL逆引き手段122、キーワード検索手段123、ダウンロード手段124を有する。これらの詳細についても後述する。
【0020】
検索結果表示手段13は、検索結果を表示する機能であり、保存したWebページとともに、合致した条件を表示することも可能であり、それらを印刷することも可能である。検索結果ファイル14は、検索手段12による各種検索結果をファイリングする。
【0021】
まず、検索条件設定手段11における検索範囲設定手段111について説明する。本発明では、インターネット10におけるWebページの存在を検索するためにグローバルIPアドレスを用いている。グローバルIPアドレスは、周知のように、インターネットにコンピュータを接続するために、NIC(Network Information Center)から正式に取得したIPアドレスで、きわめて多数であることから、目的とするWebページが存在する可能性のある範囲(例えば、国別の範囲指定など)を検索範囲として設定する。勿論、無作為に検索範囲を設定してもかまわない。検索範囲設定手段111は、このグローバルIPアドレスによる検索範囲を設定するもので、検索範囲の開始と終了を示すグローバルIPアドレスを入力する処理を示す。ここでは、アドレスの重複、表記などをチェックし、誤りがあった場合は、再入力を利用者に促す。
【0022】
キーワード設定手段112は、インターネット10上の目標とするWebページを特定するための検索キーワードを入力する処理を示し、キーボードなどの入力装置によってWebページを検索する単語や文章を指定する。キーワードには自然言語などのほかに、スキャナなどの入力装置やファイルにより取り込んだ図面も指定可能であり、入力された図面からテキストを抽出して検索キーワードとする。指定するキーワードは複数指定可能であり、指定した順番が検索する順番となる。すなわち、キーボードやスキャナ、さらには音声応答装置などの入力機器からの指示にしたがって、対象となるWebページの範囲、検索したい言葉や文書あるいは図表を、単独または複数指定することで検索条件を設定することができる。
【0023】
検索条件入力手段113は、検索キーワードが複数ある場合の組合せ条件等を設定する処理を示す。以下の設定項目があり、設定しない場合は、あらかじめ設定する既定値を採用する。
【0024】
(1)キーワード間の結合(ANDまたはOR)。
(2)検索するWebページのトップページからの深さ(深度)。すなわち、指定されたページ数に達した場合、それより階層が深いページの検索は行わないことを意味する。例えば、図3に示した階層化されたWebサイトページの例をもとに説明すると、深度が1の場合は、トップページのみが検索対象となるが、深度5と指定した場合は、トップページからPage2-3-1-2までの14ページが対象となる。
【0025】
(3)当該ページの検索を打ち切るための設定時間。すなわち、検索開始から指定時間経過しても検索が終了しない場合は、検索を打ち切って、次のWebページの検索に移る。
【0026】
(4)当該ページで合致するキーワードの上限数。すなわち、指定された件数分のキーワードを抽出した場合、そのページの検索を終了とする。
【0027】
次に、検索手段12の各機能を説明する。
【0028】
アドレス検索手段121は、検索範囲設定手段111に設定された範囲のグローバルIPアドレスを順次検索対象として指定する。そして、この指定されたグローバルIPアドレスに、インターネット10上で接続して、指定されたグローバルIPアドレスの、インターネット10での有無を検索する。
【0029】
URL逆引き手段122は、アドレス検索手段121により、インターネット10での存在が検出されたグローバルIPアドレスからURLを逆引きする。その結果、該当するURLがある場合はこのURLによるWebページを取り込ませる。
【0030】
キーワード検索手段123は、URL逆引き手段122の逆引き結果により取り込まれたWebページの中に、前記キーワード設定手段112で設定されたキーワードが含まれているかを検索する。
【0031】
Webページダウンロード手段124は、キーワード検索手段123の検索結果によりキーワードが含まれている場合は、そのWebページをダウンロードする。
【0032】
以下、図2以降を用いて動作を説明する。
【0033】
インターネット10上のWebページを検索するに当っては、先ず、図1で示した検索条件設定手段11により各種の条件を設定する。図2はこの検索条件設定動作を説明している。先ず、検索方法として、従来からの方法である検索サイトを利用するか、本発明による逆引き方式を利用するかを選択する(ステップ21)。従来方法を選択した場合は、図4で示すステップ41に進む。
【0034】
本発明の逆引き方式を利用する場合は、先ず、検索範囲設定手段111に検索範囲を入力し(ステップ22)、設定する。すなわち、検索範囲の開始と終了を示すグローバルIPアドレスを入力する。なお、アドレスの重複、表記などをチェックし、誤りがあった場合は、再入力を利用者に促す。次に、キーワード設定手段112に、キーボードなどの入力装置によってWebページを検索する単語や文章を入力し(ステップ23)、指定する。指定されるキーワードは、自然言語などのほかに、スキャナなどの入力装置やファイルにより取り込んだ図面も指定可能である。また、キーワードは複数指定可能であり、指定した順番が検索する順番となる。
【0035】
さらに、検索条件入力手段113により、その他の検索条件を入力する。すなわち、前述のように、キーワード間の結合(ANDまたはOR)、Webサイトにおける検索するWebページのトップページからの深さ(深度) 、当該Webページの検索を打ち切るための設定時間、当該ページで合致するキーワードの上限数、などを設定する。
【0036】
次に、これら検索条件の基に行なわれる検索動作を図4により説明する。
【0037】
前述した図2の検索方式の選択(ステップ21)において、従来方法を選択して検索サイトを使用する場合は、ステップ41にて、ステップ501の処理に進む。すなわち、Google(商標)、FreshEye(商標)あるいはExcite(商標)などの従来から存在する検索サイトに接続し、この検索サイトで提供される検索結果のWebページをダウンロードする(ステップ511)。
【0038】
本発明の逆引き方式を採用した場合は、検索範囲設定手段111に設定された検索範囲にしたがって、アドレス検索手段121により、インターネット10におけるグローバルIPアドレスの存在を検索する。すなわち、グローバルIPアドレスにより設定した検索範囲の昇順にインターネット10上のWebページに接続する(ステップ42)。この検索において、前回の検索結果ファイル14と比較し、前回までの検索で存在が確認されなかったグローバルIPアドレスに対する検索は行わないものとする。すなわち、検索時に指定されたグローバルIPアドレスに接続した後、予め設定された時間が経過しても応答がない場合、当該グローバルIPアドレスは存在しないものとして前記検索結果ファイル14を更新し、以後、このグローバルIPアドレスの検索は行なわない。
【0039】
当該アドレスが存在しない場合(ステップ43:しない)、指定範囲内かを判断し(ステップ49)、範囲内であればステップ42に戻って次の指定されたグローバルIPアドレスに接続する。
【0040】
これに対し、グローバルIPアドレスが存在した場合(ステップ43:する)は、URL逆引き手段122により、存在したグローバルIPアドレスからURLを逆引きする。その結果、該当するURLがある場合は、付帯情報としてこれを取り込む(ステップ44)。逆引きの結果、URLが見つからなかった場合は(ルータなどはURLを持たない)、URLの代わりにグローバルIPアドレスを付帯情報として取り込む。
【0041】
次に、取り込んだURLによるWebページの中に、キーワード設定手段112で指定されたキーワードが含まれているかをキーワード検索手段123により検索する(ステップ45)。この処理により指定キーワードが含まれていない(ステップ46:一致しない)場合は、図3で示した検索の深度を判定し(ステップ47)、指定深度に達していなければ、次の深度のページについて指定キーワードとの比較を繰り返す(ステップ44,45,46,47)。すなわち、ステップ47は、探索するWebページ検索の深さを判定し、検索条件入力手段113により指定された深度まで検索したかを判定する。指定値に達していない場合は、検索中のWebページにリンクが張られているすべてのリンクWebページにアクセスするまで、ステップ44以降を繰り返す。
【0042】
なお、ステップ44の処理において、ステップ47から戻ってきた場合(キーワードが一致せずにステップ47の判断で次の深さに進んだ場合)で、リンク切れが発見された場合は、直ちにステップ47に進み次の深度に進む。その結果、リンク先が存在した場合は、ステップ43から進んだときと同様に、URLまたはグローバルIPアドレスを付帯情報として取り込み、ステップ45に進む。
【0043】
ステップ45では、前述のようにキーワード検索を行い、その結果、指定キーワードと一致した場合は、合致したキーワードおよびそれを発見したWebページ内の部位を示す情報を付帯情報として取り込む。
【0044】
このように、ステップ45の処理結果により、該当するキーワードが発見できたときは、検索キーワードが含まれていたWebページをダウンロードし、あらかじめ定められた場所に、付帯情報とともに格納する(ステップ48)。
【0045】
さらに、指定範囲のグローバルIPアドレスについて検索が終了したかを判定し(ステップ49)、終了していない場合は、ステップ42以降の一連の処理を繰り返す。
【0046】
図5は、検索結果を表示する処理の流れを示す。ステップ48で格納されたWebページは、表示手段13に表示される(ステップ51)。このとき、付帯情報の表示有無を選択する(ステップ52)。付帯情報の表示が選択されたときは付帯情報を表示する(ステップ53)。付帯情報を表示する場合(ステップ53)場合、表示しない場合(ステップ52:しない)のいずれであっても、表示内容(Webページと付帯情報)のそれぞれの印刷有無を指定する(ステップ54)。印刷が指定された場合(ステップ54:する)は、印刷処理を実行し(ステップ55)、印刷が指定されなかった場合(ステップ54:しない)は、そのまま終了する。
【0047】
このように、上述のWebページ検索方法及びシステムによれば、検索サイトによる一般的な検索方法と同様な方法により検索条件を設定するので、特別な教育を必要としないでもインターネットに関する特殊な技術を容易に使用することが可能になる。また、検索サイトにより検索される公開されたWebサイト以外のサイトも検索可能となり、利用者にとって幅広い対象から情報を得ることが可能となる。さらに、検索条件の設定内容によっては、非合法な商行為などの違法行為を早期に発見できるので、関係機関による的確な対応が可能となる。
【図面の簡単な説明】
【0048】
【図1】本発明によるWebページ検索システムの一実施の形態を示すシステムブロック図である。
【図2】同上一実施の形態における検索条件設定機能を示すフローチャートである。
【図3】同上一実施の形態における検索深度を説明するリンク図である。
【図4】同上一実施の形態における検索機能を示すフローチャートである。
【図5】同上一実施の形態における検索結果表示機能を示すフローチャートである。
【符号の説明】
【0049】
10 インターネット
111 検索範囲設定手段
112 キーワード設定手段
121 アドレス検索手段
122 URL逆引き手段
123 キーワード検索手段
124 Webページダウンロード手段

【特許請求の範囲】
【請求項1】
検索範囲として設定された所定範囲のグローバルIPアドレスを順次指定し、この指定されたグローバルIPアドレスにインターネット上で接続して、指定されたグローバルIPアドレスのインターネットでの有無を検索し、
この検索によりインターネットでのグローバルIPアドレスの存在が検出されるとそのグローバルIPアドレスから対応付けられたURLを逆引きし、該当するURLがある場合はこのURLによるWebページを取り込み、
このURL逆引きの結果により取り込まれたWebページの中に、検索対象とすべきキーワードが含まれているかを検索し、
このキーワードに関する検索の結果によりキーワードが含まれているWebページをダウンロードする
ことを特徴とするWebページ検索方法。
【請求項2】
グローバルIPアドレスによる検索範囲が設定される検索範囲設定手段と、
検索対象とすべきキーワードが設定されるキーワード設定手段と、
前記検索範囲設定手段に設定された範囲のグローバルIPアドレスを順次指定し、この指定されたグローバルIPアドレスにインターネット上で接続して、指定されたグローバルIPアドレスのインターネットでの有無を検索するアドレス検索手段と、
このアドレス検索手段によりインターネットでの存在が検出されたグローバルIPアドレスから対応づけられたURLを逆引きし、該当するURLがある場合はこのURLによるWebページを取り込ませるURL逆引き手段と、
このURL逆引き手段の逆引き結果により取り込まれたWebページの中に前記キーワード設定手段に設定されたキーワードが含まれているかを検索するキーワード検索手段と、
このキーワード検索手段でのキーワードに関する検索結果によりキーワードが含まれているWebページをダウンロードするWebページダウンロード手段と、
を備えたことを特徴とするWebページ検索システム。
【請求項3】
アドレス検索手段は、検索結果ファイルを有し、検索時に指定されたグローバルIPアドレスに接続後、予め設定された時間が経過しても応答がない場合、当該グローバルIPアドレスは存在しないものとして前記検索結果ファイルを更新し、以後、このグローバルIPアドレスの検索は行なわないことを特徴とする請求項2に記載のWebページ検索システム。
【請求項4】
キーワード検索手段には、検索対象となるWebページに対応するWebサイトのトップページからの深度が指定されており、指定された深度のWebページまでキーワード検索を行うことを特徴とする請求項2に記載のWebページ検索システム。
【請求項5】
キーワード検索手段には、検索対象となるWebページでの検索を打ち切る時間が指定されており、この指定された時間が経過することにより検索を打ち切り、次のWebページの検索に移ることを特徴とする請求項2に記載のWebページ検索システム。
【請求項6】
キーワード検索手段には、検索対象となるWebページで合致するキーワードの上限数が指定されており、指定された件数分のキーワードを抽出するとそのWebページの検索を終了する請求項2に記載のWebページ検索システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate