広域ネットワーク検索エンジンに提出された不適切な検索照会の検出

検索リストを評価するために使用される検索照会を選別して、残った検索照会が検索エンジンで情報を純粋に検索する人間のユーザの挙動をより正確に表わすようにする。認識されないユーザエージェントから到来する検索照会、または同一ネットワークアドレスからまとめてあまりにも近接して、またはあまりにも規則的に到来する検索照会は除去される。ある時間枠内の所与の検索用語に対する検索照会の量が予想量を超える場合、その用語の検索照会は廃棄される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、検索照会の分析の分野に関し、さらに詳しくは、広域ネットワーク検索エンジンに提出された不適切な検索照会を自動的に除去し、よって検索エンジンの性能および分析を改善するためのメカニズムに関する。
【背景技術】
【０００２】
インターネットは、世界中のコンピュータを相互接続する真に世界的な範囲を有する広域ネットワークである。ワールドワイドウェブとして一般的に知られるインターネットの部分は、相互関連データの集合であり、その大きさは実に驚異的である。ワールドワイドウェブ（時々「ウェブ」と呼ばれる）のコンテンツは、とりわけ、既知のＨＴＭＬ（ハイパーテキストマークアップ言語）フォーマットの文書を含み、それは既知のプロトコル、ＨＴＴＰ（ハイパーテキスト転送プロトコル）に従ってインターネットを通して転送される。
【０００３】
ウェブのコンテンツの広さおよび深さは、そこで特定の情報を見つけることを希望する者にとって驚異的かつ圧倒的である。したがって、ウェブの極めて重要な構成要素は検索エンジンである。本書で使用する場合、検索エンジンとは、集合的に検索照会を表わす一つまたはそれ以上のユーザ指定検索用語に関連するコンテンツを探し出すための会話型システムである。既知のコモンゲートウェイインタフェース（ＣＧＩ）を通して、ウェブは会話型であるコンテンツ、つまりウェブに接続されたコンピュータの人間のユーザによって指定されたデータに応答するコンテンツを含むことができる。検索エンジンは、ユーザから一つまたはそれ以上の検索用語の検索照会を受信し、検索照会に関連すると決定された文書に対する一つまたはそれ以上の参照のリストをユーザに提示する。
【０００４】
検索エンジンは、ユーザがウェブ上で所望の情報を探し出すことのできる効率を劇的に改善する。その結果、検索エンジンは、インターネットの最も一般的に使用される資源の一つである。効果的な検索エンジンは、ウェブ内に現在表わされる何十億もの文書内で、非常に特定的な情報をユーザが探し出すのを支援することができる。検索エンジンの重要な機能および存在理由は、数個の検索用語のユーザの照会を前提として、何十億もの利用可能な文書の中から幾つかのの最も関連性の高い結果を識別することであり、かつできるだけわずかな時間でそうすることである。
【０００５】
一般的に、検索エンジンは、検索用語をウェブ上の情報資源と関連付けるレコードのデータベースを維持する。検索エンジンは、ウェブのコンテンツに関する情報を主に幾つかの一般的な方法で取得する。最も一般的なのは一般的にウェブのクローリングとして知られており、二番目は、そのような情報の提供者または第三者（つまり、情報の提供者でもなく、検索エンジンの提供者でもない）がそのような情報を提供することによる。検索エンジンがウェブのコンテンツに関する情報を取得するための別の一般的な方法は、人間のエディタが彼らの校閲に基づいて情報の索引を作成することである。
【０００６】
クローリングを理解するためには、最初にＨＴＭＬ文書が、一般的にリンクと呼ばれる他の情報への参照を含むことを理解しなければならない。文書の一部分を「クリック」して参照された文書の表示を引き起こした者は、そのようなリンクを起動したことになる。ウェブのクローリングとは一般的、一つの文書によって参照された文書が検索されて分析され、かつこれらの文書によって参照された文書が検索されて分析され、かつ検索および分析が再帰的に繰り返される自動化プロセスをさす。したがって、ウェブ全体を自動的に動き回り、ウェブのコンテンツ全体をカタログ化しようとする試みが為される。
【０００７】
ウェブの文書は絶えず追加および／または変更されるので、かつまたウェブの全くの広大さのため、ウェブ全体のカタログ化に成功したウェブクローラーはいなかった。したがって、自分のコンテンツを検索エンジンデータベースに含めさせることを希望するウェブコンテンツの提供者は、自分のコンテンツを検索エンジンの提供者に直接提出する。インターネットを介して利用可能なコンテンツおよび／またはサービスの他の提供者は、彼らのコンテンツを定期的にクロールさせ、現在の情報が検索結果に含まれるように更新させるべく、検索エンジンの運用者と契約する。カリフォルニア州パサデナのＯｖｅｒｔｕｒｅ，Ｉｎｃ．（ｈｔｔｐ：／／ｗｗｗ．ｏｖｅｒｔｕｒｅ．ｃｏｍ）によって提供され、かつ参照によって本書に組み込まれる米国特許第６，２６９，３６１号に記載された検索エンジンのような一部の検索エンジンは、インターネットのコンテンツおよび／またはサービスの提供者が、彼らのコンテンツおよび／またはサービスに関連付けられる簡潔な表題および説明を作成して提出することを可能にする。そのような表題、説明、および関連情報のアドレスは、集合的に検索リストと呼ばれる。検索リストは一般的に、受信され処理された検索照会に対応するここの結果として返される。インターネットが成長し、インターネットを通して行なわれる商業活動も成長するにつれて、一部の検索エンジンは、情報結果とは別個に提示される、インターネットによる商取引を促進する付加利益を持つ商業的検索結果を提供することを専門とするようになってきた。
【０００８】
検索エンジンの活動に関する情報は、様々な目的のために収集される。そのような目的は、公的および私的目的の両方を含む。私的目的の一例として、検索エンジン提供者は、サーバの資源要件および提供される検索サービスの様々な側面に対する一般の反応のような事柄を評価するために、検索活動に関する情報を収集することができる。公的目的の一例として、検索エンジン提供者は、様々な時間に、かつ様々な検索用語に対して実行される合計検索件数に関する情報を発表する意向があるかもしれない。検索エンジン性能の内部監査および評価のためであろうと、あるいは検索エンジンの人気の外部宣伝のためであろうと、あるいは全く別の目的であろうと、そのような収集される情報の精度は最重要事項である。
【０００９】
しかし、そのような情報は一般的に、検索エンジンによって保持される特定の情報を探し出そうと純粋に試みる人間のユーザの検索活動を表わすように意図される。検索照会は往々にして、純粋に情報を探し出そうとする試み以外の理由から提出される。例えば、情報の提供者は、そのような情報が検索エンジンによってどのように提示されるかを調べるために、その情報を定期的に検索するかもしれない。時々、一当事者または複数の当事者が、多数の検索照会を提出し、提出と結果の受信との間の遅延の時間を計測することによって、一つまたはそれ以上の検索エンジンの応答の即時性を計測することに関心を持つかもしれない。加えて、一部の当事者は、現状より好評な外観を呈すべく作成された検索照会を定期的に提出するようにプログラムを構成することによって、検索リストをそのような外観にしようとするかもしれない。これらの事例の全て、および関心情報を探し出す以外の目的で検索照会が提出されるその他の事例は、そのような情報が人間の検索者の活動を表わすように意図される限り、検索エンジンの活動の情報に影響を及ぼす。
【００１０】
必要なものは、人間の検索の活動に関して収集される情報の精度が劇的に改善されるように、純粋な情報検索の結果でない検索活動を、人間のユーザが識別することができるようにするメカニズムである。
【発明の開示】
【課題を解決するための手段】
【００１１】
本発明では、記録された検索活動から収集される情報が非正統的な検索活動を反映しないように、非正統的な検索のレコードは検出されて除去される。非正統的な検索とは、自動的に、つまり人間のユーザによらず提出される検索、または検索エンジンによって供される情報を探し出そうとする純粋な試み以外の目的で人間のユーザによって提出される検索のいずれかである。非正統的な検索の例は、検索エンジンによる応答の即時性を決定するために提出される検索、結果セットにおける特定の検索リストの特定の場所を決定するための提出される検索、および主として検索エンジンに関連して収集される検索活動データに影響を及ぼすために提出される検索を含む。
【００１２】
検索レコードは、個別にかつ他の検索に関連して個々の検索の分析によって、かつ検索の総量の分析によって、選別される。
【００１３】
個々の検索の分析で、ユーザエージェントつまり個々の検索照会を提出するための使用されるプログラムは、正当と認識される予め定められたユーザエージェントと比較される。検索照会が、検索照会を自動的に提出するように構成された自動化スクリプトまたはプログラムによって提出されると、検索照会は検索エンジンから情報を探し出そうとするユーザによる純粋な試みとはみなされず、したがって、検索エンジンの活動報告に影響しないように、廃棄される。
【００１４】
同一ネットワークアドレス（例えばインターネットプロトコルアドレスつまりＩＰアドレス）から提出される他の検索照会に対する検索照会のタイミングを分析して、情報を探し出そうと純粋に試みる人間のユーザの挙動とは思われない挙動を検出する。特に、他の検索照会の後あまりにも直ぐに、例えば２秒未満以内に後続する検索照会は、人間のユーザによって提出されるには、速すぎる提出とみなされる。加えて、規則的すぎる時間間隔で提出される検索照会は、検索エンジンを通して情報を探し出そうとする人間のユーザによる純粋な試みの結果のようではないとみなされる。検索照会間の時間間隔の規則性を決定するために、時間間隔が収集され、これらの時間間隔の標準偏差が予め定められた最小閾値、例えば２秒と比較される。例えば、多数の検索照会が相互に大まかに６０秒離して提出され、６０秒平均からの標準偏差が１秒未満である場合、これらの検索照会は自動化プロセスによって提出されたものであって、人間のユーザによってではないと推測される。したがって、そのような検索照会は検索照会のデータストリームから除去されるので、データストリームは正当な検索活動をより正確に表わす。
【００１５】
検索照会量の分析では、異常な検索活動を検出し、かつそれによって、情報を探し出そうとする人間のユーザの純粋な試みとは思われない検索活動を識別するために、統計分析が実行される。そのような統計分析の一例は、インターネットの多数のチャネルを通して、例えば検索照会を所与の検索エンジンに転送する多数の系列サーバから、到来する検索を含む。検索活動は特には予測できないが、複数のチャネル間に分散される検索活動の相対比率は、かなり安定し、予測可能であり続ける傾向がある。
【００１６】
そのような異常性を検出するために、所与の用語に対する検索照会は、１５分間のその用語の検索照会の量を表わす１５分集計検索レコードに蓄積される。同様の集計は２４時間の期間に対しても実行される。各集計検索レコードは、同一時間枠内のその用語の検索照会の予想量と比較される。予想量は、インターネットのそれぞれの経路間の相対量に基づく。集計検索量が予想量より著しく大きい場合、集計検索量が予想量を超える量が記録され、その量の検索照会は、個別に非正統的と決定された検索照会を差し引いた上で、検索リスト性能評価に使用される検索照会のデータストリームから除去される。
【００１７】
各用語の検索照会の予想量は、現在の匹敵する時間枠内の検索リスト性能評価に送ることが許可された、選別済み検索照会の量に従って決定される。
【発明を実施するための最良の形態】
【００１８】
本発明では、コンピュータネットワークで情報を探し出そうとするユーザによる正当な試みではない検索要求を検出して、検索データから除去する。したがって、アカウントまたは検索エンジン活動の評価のための検索データの使用が、そのような非正統的な検索によって不適切に影響されることはない。非正統的な検索は、検索エンジン１０２（図１）の応答時間を試験するために使用される検索、検索結果の組内の特定の検索リストの配置を試験するために使用される検索、および検索活動分析に影響を及ぼすことを意図した検索を含む。そのような検索は、ウェブ内で情報を突き止めようとするユーザの正真正銘の試みを表わすように意図されたいかなる情報にも、影響を及ぼすべきではない。
【００１９】
図１は、この例示的実施形態ではインターネットである広域ネットワーク１０４に結合され、それにサービスを供する検索エンジン１０２を示す。多数のホストコンピュータシステム１０６Ａ〜Ｄがインターネット１０４に結合され、例えば人間のユーザのためにコンテンツを検索しかつ表示する多数のクライアントコンピュータシステム１０８Ａ〜Ｃに、そのようなコンテンツを提供する。言うまでもなく、図１は解説のために大幅に簡素化されている。例えば、四つのホストコンピュータシステムおよび三つのクライアントコンピュータシステムしか図示されていないが、（ｉ）インターネットに結合されるホストコンピュータシステムおよびクライアントコンピュータシステムは総合すると何百万ものコンピュータシステムに及ぶこと、および（ｉｉ）ホストコンピュータシステムはクライアントコンピュータと応用に情報を検索することができ、かつクライアントコンピュータシステムはホストコンピュータシステムと同様にホストとして情報を提供することができることを理解されたい。
【００２０】
検索エンジン１０２は、ホストコンピュータシステム１０６Ａ〜Ｄによって提供された情報をカタログ化し、かつホストコンピュータ１０６Ａ〜Ｄのいずれかによって提供される情報に対するクライアントコンピュータシステム１０８Ａ〜Ｃの検索要求に対し、サービスを供するコンピュータシステムである。そのような要求に応答して、検索エンジン１０２は、検索要求で指定された一つまたはそれ以上の検索用語と合致するカタログ化された情報の報告を生成する。ホストコンピュータシステム１０６Ａ〜Ｄによって提供される情報は、一般的にウェブサイトと呼ばれる形の情報を含む。そのような情報は、ワールドワイドウェブとして広く知られるインターネットの一部分で、周知で広く使用されているハイパーテキスト転送プロトコル（ＨＴＴＰ）を通して検索される。ユーザに提示される単一のマルチメディア文書は一般的にウェブページと呼ばれ、単一の人間、グループ、または組織の管理下にある相互関連ウェブページは一般的にウェブサイトと呼ばれる。本書では関連ウェブページおよびウェブサイトの検索について記載するが、本書に記載する技術の一部は、コンピュータネットワークに格納された他の形の情報の検索にも同等に適用可能であることを理解されたい。
【００２１】
検索エンジン１０２を図２により詳細に示す。検索エンジン１０２は、クライアントコンピュータシステム１０８Ａ〜Ｃのいずれかからの検索要求を受信し、検索データベース２０８を使用してそれにサービスを供する検索サーバ２０６を含む。加えて、検索エンジン１０２は、一つまたはそれ以上の他の検索エンジンの代わりに検索照会を受信し、それにサービスを供することができる。そのような他の検索エンジンは時々ソースと呼ばれる。
【００２２】
検索エンジン１０２はまた、ホストコンピュータ１０８Ａ〜Ｄのいずれかから検索リストのサブミッションを受信するためのサブミッションサーバ２０２をも含む。各サブミッションは、ホストコンピュータ１０８Ａ〜Ｄのいずれかによって提供された情報を検索データベース２０８内でカタログ化し、したがって検索サーバ２０６を通して検索結果として利用できるようにすることを要求する。
【００２３】
望まれていない検索結果をクライアントコンピュータシステム１０８Ａ〜Ｃに提供することを回避するために、検索エンジン１０２は、提出された検索リストを検索データベース２０８に含める前にそのような検索リストを評価する、編集エバリュエータ２０４を含む。
【００２４】
この例示的実施形態では、検索エンジン１０２、ならびにサブミッションサーバ２０２、編集エバリュエータ２０４、および検索サーバ２０６の各々は、一つまたはそれ以上のコンピュータにおけるコンピュータプロセスの全てまたは一部分を実行する。簡単に言うと、サブミッションサーバ２０２は、検索データベース２０８内に情報をリストする要求を受け取り、編集エバリュエータ２０４は提出された検索リストを検索データベース２０８に含める前にそれらを選別する。そのような検索リストを選別するプロセスは、ＤｏｍｉｎｉｃＣｈｅｕｎｇらによって２００２年９月１３日に出願された「ＡｕｔｏｍａｔｅｄＰｒｏｃｅｓｓｉｎｇｏｆＡｐｐｒｏｐｒｉａｔｅｎｅｓｓＤｅｔｅｒｍｉｎａｔｉｏｎｏｆＣｏｎｔｅｎｔｆｏｒＳｅａｒｃｈＬｉｓｔｉｎｇｓｉｎＷｉｄｅＡｒｅａＮｅｔｗｏｒｋＳｅａｒｃｈｅｓ」と称する米国特許出願第１０／２４４，０５１号により完全に記載されており、その記述をありとあらゆる目的のために参照によって本書に組み込む。
【００２５】
検索エンジン１０２はまた、情報を探し出そうとする純粋な試みにおける人間のユーザによる検索活動を表わすデータを含む、検索活動データベース２１０をも含む。加えて、検索エンジン１０２は、検索エンジン１０２によって処理された検索活動を分析するための検索活動分析モジュール２１２を含む。検索活動分析モジュール２１２もまた、一つまたはそれ以上のコンピュータで一つまたはそれ以上のコンピュータプロセスの全てまたは一部を実行する。
【００２６】
本書で使用する場合の検索は、（ｉ）集合的に検索照会と呼ばれる一つまたはそれ以上の検索用語、および（ｉｉ）検索照会に応答して検索結果として返される一つまたはそれ以上の検索リストの組を含む検索要求を含む。言うまでもなく、検索照会に関連する検索リストが見つからず、照会に応答して返される検索結果の組が検索リストを含まないこともあり得る。一般的に、検索要求は、上述の通り、検索活動データベース２１０（図２）に提示される。検索活動分析モジュール２１２は、非正統的な検索要求を表わすデータを除去する検索要求フィルタ３０２を含む。
【００２７】
検索要求フィルタ３０２を図４により詳細に示す。検索要求フィルタ３０２は、検索サーバ２０６（図２）を通して受け取った検索要求を表わす生検索データフィード４０２を含む。生検索データフィード４０２は図６および７により詳細に示され、多数の検索レコード６０２を含み、その各々が、クライアントコンピュータシステム１０８Ａ〜Ｃ（図１）のいずれかのようなクライアントコンピュータシステムによって提出された検索要求を表わす。
【００２８】
各検索レコード６０２（図６および７）は、多数のフィールド７０２〜７１０を含む。検索照会フィールド７０２は、一つまたはそれ以上の検索用語の集合としての検索要求の検索照会を表わす。例えば、「ｅｘｐｅｒｉｍｅｎｔａｌａｉｒｃｒａｆｔｅｎｇｉｎｅ（実験的航空機エンジン）」の検索照会は、三つの個別の検索用語、すなわち「ｅｘｐｅｒｉｍｅｎｔａｌ」、「ａｉｒｃｒａｆｔ」、および「ｅｎｇｉｎｅ」に関連する情報を要求する。
【００２９】
ソースフィールド７０４は検索要求のソースを指定する。この例示的実施形態では、検索エンジン１０２は他の検索エンジンの代わりに検索を実行し、そのような他の検索エンジンはソースと呼ばれ、ソースフィールド７０４は、検索レコード６０２によって表わされる検索がそのために実行される特定のソースを識別する。代替実施形態では、検索エンジン１０２は、クライアントコンピュータシステムから直接検索要求を受信するだけであり、ソースフィールド７０４は省かれる。
【００３０】
市場フィールド７０６は、検索要求が提出される市場を表わす。本書で使用する場合の市場とは、各検索リスト個別に利用可能になる地理的領域を指す。この例示的実施形態では、検索エンジン１０２は検索リストの所有者に、検索照会の結果としてリストを利用可能にする一つまたはそれ以上の市場を指定させる。したがって、特定の市場の検索活動が希望される限り、そのような市場情報を検索レコードに関連付ける必要がある。同様に、検索要求に関係するいずれかの他の情報を検索レコード６０２に含めることができる。
【００３１】
ＣＧＩ（コモンゲートウェイインタフェース）環境フィールド７０８は、検索要求が提出される環境の多数の特性を表わす。この例示的実施形態で検索要求に特に関係するものは、ＣＧＩ環境変数ＨＴＴＰ＿ＵＳＥＲ＿ＡＧＥＮＴおよびＲＥＭＯＴＥ＿ＡＤＤＲである。これらの変数および検索要求フィルタ３０２によるそれらの使用については下でより完全に説明する。
【００３２】
タイムスタンプフィールド７１０は、検索照会が提出された日付および時刻を表わす。
【００３３】
生検索データフィード４０２（図４）は、生検索フィルタ４０４、一つまたはそれ以上の異常分析モジュール４０６Ａ〜Ｂ、および検索データ分析モジュール４０８によって受け取られる。生検索フィルタ４０４は、生検索データフィード４０２の個々の検索レコードを分析して、非正統的な検索を検出し、非正統的な検索を表わす検索レコードにそういうものとしてのマークを付ける。一つまたはそれ以上の異常分析モジュール４０６Ａ〜Ｂの各々は、生検索データフィード４０２の検索データを予想検索データと比較して、検索データの異常性を検出する。検索データ分析モジュール４０８は、異常分析モジュール４０６Ａ〜Ｂからの異常分析、生検索フィルタ４０４からの情報、および生検索データフィード４０２を使用して、非正統的な検索を生検索データフィード４０２から除去して、選別済み検索データフィード４１０を生成する。
【００３４】
生検索フィルタ４０４による処理を論理流れ図８００（図８）に示す。ステップ８０２および８０４は相互に独立しており、一般的にどんな順序でも、同時にさえ、実行することができる。ステップ８０２で、生検索フィルタ４０４はユーザエージェントフィルタを適用して、生検索データフィード４０２における非正統的な検索を検出する。ステップ８０４で、生検索フィルタ４０４はネットワークアドレスフィルタを適用して、生検索データフィード４０２における非正統的な検索を検出する。
【００３５】
ステップ８０２を論理流れ図８０２（図９）により詳細に示す。検査ステップ９０２で、生検索フィルタ４０４は、検索のユーザエージェントが正統的なユーザエージェントと認識されるかどうかを決定する。ユーザエージェントは、各検索のＣＧＩ環境フィールド７０８に格納されたＣＧＩ環境変数ＨＴＴＰ＿ＵＳＥＲ＿ＡＧＥＮＴによって表わされ、ユーザがそこを通して検索照会を提出したウェブブラウザまたは他のコンピュータプログラムを識別する。ＨＴＴＰ＿ＵＳＥＲ＿ＡＧＥＮＴＣＧＩ環境変数を表わすデータの一例として、Ｌｉｎｕｘオペレーティングシステムで実行するＭｏｚｉｌｌａウェブブラウザのバージョン１．０．１を識別する「Ｍｏｚｉｌｌａ／５．０（Ｘ１１；Ｕ；Ｌｉｎｕｘｉ６８６；ｅｎ−ＵＳ；ｒｖ：１．０．１）Ｇｅｃｋｏ／２００２０９１８」がある。生検索フィルタ４０４は、広域ネットワーク１０４を通して情報を探し出そうとする正直な試みで検索照会を提出するユーザによって使用されることが知られている、多数のコンピュータプログラムのユーザエージェント識別を表わすデータを格納する。一般的に、そのようなコンピュータプログラムはウェブブラウザであり、それらは既知であり、本書では説明しない。識別されたコンピュータプログラムを本書では時々認識ユーザエージェントと呼ぶ。認識ユーザエージェントの集合はできるだけ完全であり、できるだけ多くの正統的なユーザエージェントを含むことが好ましい。
【００３６】
生検索フィルタ４０４は、検査ステップ９０２で生検索データフィード４０２の各検索のユーザエージェント識別を認識ユーザエージェントと比較する。特定の検索のユーザエージェント識別が認識ユーザエージェントのどれとも合致しない場合、その検索はステップ９０４で非正統的とマークされる。逆に、検索のユーザエージェント識別が認識ユーザエージェントのいずれかと合致した場合、ステップ９０４を飛ばすことによって、検索は非正統的とマークされない。
【００３７】
検索要求が非認識ユーザエージェントによって提出され得る多数のシナリオがある。例えば、スクリプトまたはプログラムは、検索エンジン１０２の応答時間を測定するため、かつ／または一組の検索結果における一つまたはそれ以上の検索リストの配置を決定するために、検索エンジン１０２に多数の検索要求を周期的に提出するように構成することができる。スクリプトまたはプログラムは、特定の検索照会を有する検索要求を繰返し提出し、その後検索活動分析モジュール２１２（図３）によって決定される見掛けの検索活動に影響を及ぼそうとして検索リストのユーザ選択をエミュレートするように構成することもできる。そのようなスクリプトおよびプログラムは一般的に、それら自体を認識ユーザエージェントとして識別しない。
【００３８】
したがって、そのような検索要求は、情報を探し出そうと正直に試みるユーザによる正統的な検索要求であるか否かに関係なく、生検索フィルタ４０４によって非正統的とマークされる。検索は、検索レコード６０２（図７）に有効フィールド（図示せず）を含め、かつ／または非正統的な検索照会のリストに検索レコード６０２の一意の識別子を含めるなど、様々な方法のいずれかで、非正統的とマークすることができる。
【００３９】
ステップ８０４を論理流れ図８０４（図１０）としてより詳細に示す。ステップ１００２で、生検索フィルタ４０４（図４）は、新近性の窓内に検索レコードを収集する。例えば、新近性の窓は、それぞれ最新近の１時間、１２時間、または２４時間内に提出された検索照会がステップ１００２〜１０１４のループで処理されるように、１時間または１２時間または２４時間の新近性の窓とすることができる。
【００４０】
ステップ１００４で、生検索フィルタ４０４は、ユーザＩＰ／ソース対に従って新近性の窓の全ての検索記録をグループ化する。言い換えると、同一ユーザＩＰおよび同一ソースに対応する全ての検索レコードは、ひとまとめにグループ化される。ユーザＩＰとは、検索レコードによって表わされる検索照会がそれを通して提出される、ＩＰ（インターネットプロトコル）ネットワークアドレスである。検索レコード６０２（図７）で、ユーザＩＰはＣＧＩ環境フィールド７０８に表わされる。特に、ユーザＩＰは既知のＣＧＩ環境変数ＲＥＭＯＴＥ＿ＡＤＤＲによって提示され、それを通して検索要求が提示されるＩＰアドレスを提示する。一部のユーザは彼らの照会を単一ＩＰアドレスを通して経路指定することができるが、大部分のＩＰアドレスは個々のユーザを識別する。したがって、単一ＩＰアドレスに関連付けられる活動を評価することは、個々のユーザの活動を評価するのに役立つ。
【００４１】
この例示的実施形態では、検索エンジン１０２は検索照会に直接サービスを供し、したがって唯一のソースであり、したがって全てのソースは全く同一物である。代替実施形態では、検索エンジン１０２は、他の検索エンジンによって転送された検索要求をも受信し、応答して、結果的に得られた検索リストをそのような他の検索エンジンに送信する。他のそのような各検索エンジンはソースである。複数ユーザの検索要求が単一ＩＰアドレスを通して経路指定される限り、異なるソースを通して提出される要求を分離することは、複数ユーザの検索照会を隔離するのに役立つ。
【００４２】
ステップ１００６で、生検索フィルタ４０４（図４）は、ステップ１００４（図１０）で収集された検索レコードを分析する。ステップ１００６を論理流れ図１００６としてより詳細に示す（図１１）。ステップ１１０２で、生検索フィルタ４０４（図４）は、ステップ１００４（図１０）で形成された収集の検索間の時間間隔を測定する。時間間隔は、入力時間順で隣接する検索レコードのタイムスタンプフィールド７１０（図７）の間の時間差として測定される。
【００４３】
検査ステップ１１０４（図１１）で、生検索フィルタ４０４は各感覚を予め定められた最小閾値と比較する。予め定められた最小閾値は、一ユーザによる連続検索照会の間の間隔を合理的に表わすには一般的に短すぎるように選択される。この例示的実施形態では、人間のユーザは連続検索照会を提出する間に少なくとも約２秒かかると推定する。したがって、検査ステップ１１０２に関連する予め定められた最小閾間隔は、この例示的実施形態では２秒である。
【００４４】
検索レコードが他の検索レコードの後に近接し過ぎる状態で続く場合、つまり、予め定められた最小閾値未満の検索間間隔の直後に続く場合、処理はステップ１１０６（図１１）に移り、そこでそのようなレコードは生検索フィルタ４０４によって非正統的とマークされる。別の検索レコードに近接し過ぎる状態では続かない検索レコードの場合、ステップ１１０６は飛ばされる。
【００４５】
ステップ１１０８で、生検索フィルタ４０４は、集合の検索間の間隔の統計的標準偏差を決定する。検査ステップ１１１０で、生検索フィルタ４０４は該標準偏差を予め定められた最小閾値と比較する。一般的に、ステップ１１０８〜１１１０で、生検索フィルタ４０４は検索照会の間隔の規則性を測定して、人間のユーザによって提出される検索より一般的にずっと規則正しい自動生成検索照会を検出する。例えば、同一ソースを通しかつ同一ネットワークアドレスからの多数の検索が１秒未満の標準偏差で平均して６０秒の間隔を持つ場合、人間のユーザがこれらの検索照会を発生した可能性はむしろ低い。この例示的実施形態では、検査ステップ１１１０に関連付けられる予め定められた最小閾値は２秒である。
【００４６】
測定された標準偏差が予め定められた最小閾値より低ければ、処理はステップ１１１２に移り、そこで生検索フィルタ４０４は、集合の全ての検索レコードを非正統的とマークする。逆に、測定された標準偏差が少なくとも予め定められた最小閾値である場合、生検索フィルタ４０４はステップ１１１２を飛ばす。
【００４７】
ステップ１１１０〜１１１２の後、論理流れ図１００６による処理、およびしたがってステップ１００６（図１０）は完了する。したがって、ステップ１００６で、検索レコードが相互に時間的に近接し過ぎる状態で続く場合、または人間のユーザによって提出された正真正銘の検索照会を合理的に表わすには間隔が規則的過ぎる場合、生検索フィルタ４０４は検索レコードを非正統的とマークする。
【００４８】
ステップ１００８で、生検索フィルタ４０４はユーザＩＰに従って、ソースとは関係なく、新近性の窓の検索レコードをグループ化する。ステップ１０１０で、生検索フィルタ４０４は、ステップ１００６に関連して上述した方法で、グループ化された検索レコードを分析する。ステップ１００８〜１０１０は、生検索フィルタ４０４が複数のソースにまたがる非正統的な検索を検出することを可能にする。単一ソースだけが使用される場合、つまり検索エンジン１０２が他の検索エンジンによって転送された検索照会にサービスを供しない場合、ステップ１００８〜１０１０は、ステップ１００４〜１００６の観点から冗長であり、したがって省かれる。
【００４９】
ステップ１０１２で、生検索フィルタ４０４は、ソースに従って、ユーザＩＰとは関係なく、新近性の窓の検索レコードをグループ化する。ステップ１０１４で、生検索フィルタ４０４は、ステップ１００６および１０１０に関連して上述した方法で、グループ化された検索レコードを分析する。ステップ１０１２〜１０１４は生検索フィルタ４０４が複数のユーザＩＰにまたがる非正統的な検索を検出することを可能にする。
【００５０】
ステップ１０１４の後、論理流れ図８０４による処理、およびしたがってステップ８０４（図８）は完了する。したがって、生検索フィルタ４０４（図４）は、検索リストの性能評価に不適切に影響するおそれのある非正統的な検索を示すパターンが無いか、生検索データフィード４０２を分析する。異常分析モジュール４０６Ａ〜Ｂは検索照会挙動の異常性を検出して、ユーザ検出活動の異常な疑わしい変化を検出する。
【００５１】
異常分析モジュール４０６Ａを図５により詳細に示す。この例示的実施形態では、一つの異常分析モジュールだけが使用される。つまり、異常分析モジュール４０６Ｂは図示する通り存在しないかまたは含まれず、空動作であり、何も行なわない。しかし、検索データ分析モジュール４０８は複数の異常分析モジュールからの異常分析結果を処理することができるので、代替実施形態は、異常分析モジュール４０６Ａ以外の異常分析モジュールを含む。
【００５２】
異常分析モジュール４０６Ａは、生検索データフィード４０２（図４）からの検索データを１５分集計検索レコードに集計する、生検索アグリゲータ５０２を含む。例えば、集計検索レコード１２０４（図１３）はカウントフィールド１３０２、用語フィールド１３０４、ソースフィールド１３０６、および市場フィールド１３０８を含む。集計検索レコード１２０４は、同一検索用語、ソース、および市場を有する個々の検索照会の数を表わす。カウントフィールド１３０２は、集計検索レコード１２０４によって表わされる検索レコードの数を指定する。用語フィールド１３０４は、集計検索レコード１２０４によって表わされる検索レコードの検索用語を指定する。ソースフィールド１３０６は、集計検索レコード１２０４によって表わされる検索レコードの数を指定する。市場フィールド１３０８は、集計検索レコード１２０４によって表わされる検索レコードの市場を指定する。
【００５３】
生検索アグリゲータ５０２は検索レコードを集計して、検索用語、ソース、および市場の全ての組合せの集計検索レコードを形成し、そのような集計検索レコードは集合的に集計検索データ１２０２（図１２）を形成する。１５分集計検索データは、生検索第二段階アグリゲータ５０４（図５）および検索データ分析モジュール４０８（図４）の両方に利用可能になる。生検索第二段階アグリゲータ５０４（図５）は９６個の最新近の１５分集計検索データ、例えば集計検索データ１２０２（図１２）を集めて、図１２〜１３に関連して上述したのと全く類似の方法で編成された２４時間集計検索データを形成する。２４時間集計検索データもまた、検索データ分析４０８に利用可能になる。
【００５４】
検索挙動における予想外の変化を検出するための比較を目的として、異常分析モジュール４０６Ａは、クリーン検索集計窓５０８を形成するクリーン検索アグリゲータ５０６をも含む。クリーン検索アグリゲータ５０６はクリーン検索データフィード４１０（図４）を受け取り、そこから非正統的な検索が除去され、生検索アグリゲータ５０２（図５）に関連して上述したのと同様の方法でクリーン検索データフィード４１０の検索レコードが集計され、クリーン検索集計窓５０８が形成される。この例示的実施形態では、一日の時間帯によって変動するかもしれない検索トラフィックパターンを回避するために、クリーン検索集計窓５０８が最新近の２４時間にわたって集計される。
【００５５】
検索データ解析モジュール４０８（図４）は、（ｉ）生検索データフィード４０２、（ｉｉ）生検索フィルタ４０４からの個々の非正統的な検索照会の識別、および（ｉｉｉ）異常分析モジュール４０６Ａからの１５分および２４時間集計検索データならびに２４時間集計クリーン検索データを受け取る。追加の異常分析モジュールが含まれる実施形態では、検索データ分析モジュール４０８はこれらの追加の異常分析モジュールからもデータを受け取る。検索データ分析モジュール４０８はこの情報を全て使用して、生検索データフィード４０２から非正統的な検索照会を除去し、選別済み検索データフィード４１０を生成する。選別済み検索データフィード４１０は上述した方法で異常分析モジュール４０６Ａによって使用され、人間のユーザによる実際の検索活動を、生検索データフィード４０２よりずっと正確に表わす。
【００５６】
検索分析モジュール４０８（図４）による処理を、論理流れ図１４００（図１４）に示す。ループステップ１４０２および次のステップ１４１４は、検索用語、ソース、および市場の各組合せ、例えば各集計検索レコード１２０４（図１２〜１３）がステップ１４０４〜１４１２（図１４）に従って処理されるループを画定する。ステップ１４０２〜１４１４のループ内で、特定の集計検索レコードの特定の検索用語、ソース、および市場は時々それぞれ対象用語、対象ソース、対象市場と呼ばれる。検索データ分析モジュール４０８は、全ての集計検索レコードに対しステップ１４０４〜１４１２を実行するが、ステップ１４０４〜１４１２をここでは集計検索レコード１２０４（図１３）を処理する文脈で説明する。
【００５７】
ステップ１４０４で、検索データ分析モジュール４０８は、生検索アグリゲータ５０２（図５）および生検索第二段階アグリゲータ５０４から受け取った集計生検索データをクリーン検索集計窓５０８と比較する。検査ステップ１４０６で、検索データ分析モジュール４０８は、１５分または２４時間集計生検索データが統計的にクリーン検索集計窓５０８と異なるかどうかを決定する。
【００５８】
検索データ分析モジュール４０８は、第一に集計生検索データの予想最大値を計算することによって、集計生検索データが統計的に異なるかどうかを決定する。この例示的実施形態では、予想最大値は、次式に従って算出される。
【００５９】
【数１】

式（１）で、予想最大量ＥＶは、ＥＶ_ｓ，ＥＶ_ｓ／ｔ、およびＥｖ_ｔ／ｓの加重平均である。ＥＶ_ｓは、対象ソースに帰属可能な検索量の比率に基づく計算予想量である。ＥＶ_ｓ／ｔは、対象用語に対する対象ソースに帰属可能な検索量の比率に基づく計算予想量である。ＥＶ_ｔ／ｓは、対象ソースに対する対象用語に帰属可能な検索量比率に基づく計算予想量である。加重ｗ_ｓ、ｗ_ｓ／ｔ、およびｗ_ｔ／ｓはそれぞれＥＶ_ｓ、ＥＶ_ｓ／ｔ、およびＥｖ_ｔ／ｓに対応する。この例示的実施形態では、各予想量が相互に対して均等に加重されるように、加重ｗ_ｓ、ｗ_ｓ／ｔ、およびｗ_ｔ／ｓは全て１（１．０）に設定される。
【００６０】
予想量ＥＶ_ｓは、次式に従って検索データ分析モジュール４０８によって計算される。
【００６１】
【数２】

式（２）で、ＣＶ_ｔｍは、比較される集計生検索データと同一時間枠のクリーン検索集計窓５０８内の全てのソースからの対象用語および対象市場の検索の量を表わす。特に、生検索アグリゲータ５０２からの１５分窓の集計生検索データの比較では、１５分窓のクリーン検索集計窓５０８がＣＶ_ｔｍによって表わされる。同様に、生検索第二段階アグリゲータ５０４からの２４時間窓の集計生検索データの比較では、２４時間窓のクリーン検索集計窓５０８がＣＶ_ｔｍによって表わされる。
【００６２】
ＣＶ_ｓｍは、最新近の２４時間のクリーン検索集計窓内の対象ソースおよび対象市場の検索の量を表わす。ＣＶ_ｍは、最新近の２４時間のクリーン検索集計窓５０８内の全ての検索用語および全てのソースを含む対象市場の検索の量を表わす。したがって比率ＣＶ_ｓｍ／ＣＶ_ｍは、最新近の２４時間に対象ソースから到来する対象市場における全ての検索の比率を表わす。個々の検索用語の検索量は１時間毎に予測不能に変動するかもしれないが、特定のソースから到来する検索の比率は比較的安定に維持される傾向がある。したがって、検索用語の検索量にそのような比率を乗算すると、対象ソースからの対象用語の正統的な検索の真の量の合理的に信頼できる予想がもたらされる。
【００６３】
この合理的に信頼できる予想にチューニング係数ｋ_ｓを乗算することにより、対象ソースから受け取る検索量の部分の日毎の変化を、検索量の非正統的な増加と知覚することなく許容することができる。この例示的実施形態では、ｋ_ｓは１．１であり、対象ソースの検索量の比率は日によって１０パーセント成長することが許容される。
【００６４】
予想量ＥＶ_ｓ／ｔは、次式に従って検索データ分析モジュール４０８によって計算される。
【００６５】
【数３】

式（３）で、Ｏｂｓｅｒｖｅｄ_ｔｍは、全てのソースからの対象用語および対象市場の全ての集計生検索レコードを表わす。この例示的実施形態では、同一持続時間（この実施形態では１５分間または２４時間のいずれか）の集計生検索レコードだけを集計してＯｂｓｅｒｖｅｄ_ｔｍが形成される。
【００６６】
ＣＶ_ｔｍは、２４時間窓全体のクリーン検索データを網羅する以外は、式（２）に関連して上述した通りである。ＣＶ_ｔｓｍは、最新近の２４時間のクリーン検索集計窓５０８内の対象用語、対象ソース、および対象市場の検索の量を表わす。したがって、比率ＣＶ_ｔｓｍ／ＣＶ_ｔｍは、全てのソースに対し対象ソースから到来する対象用語および対象市場の対策の比率を表わす。そのような比率は、対象用語の人気の変動にも拘わらず、安定に維持される傾向がある。したがって、全てのソースからの対象用語に対する観察検索量にそのような比率を乗算することにより、対象ソースからの対象用語に対する正統的な検索の真の量の合理的に信頼できる予想が得られる。
【００６７】
この合理的に信頼できる予想にチューニング係数ｋ_ｓ／ｔを乗算することにより、対象ソースから受け取る検索量の部分の日毎の変化を、検索の非正統的なあふれと知覚することなく許容することができる。この例示的実施形態では、ｋ_ｓ／ｔは１．１であり、対象用語に対する対象ソースの検索量の比率は日によって１０パーセント成長することが許容される。
【００６８】
予想量ＥＶ_ｔ／ｓは、次式に従って検索データ分析モジュール４０８によって計算される。
【００６９】
【数４】

式（３）で、Ｏｂｓｅｒｖｅｄ_ｓｍは、対象市場の全てのソースからの対象用語の全ての集計生検索レコードを表わす。この例示的実施形態では、同一持続時間（この実施形態では１５分間または２４時間のいずれか）の集計生検索レコードだけを集計してＯｂｓｅｒｖｅｄ_ｓｍが形成される。
【００７０】
ＣＶ_ｓｍは、対象ソースおよび対象市場に関連するクリーン検索集計窓の部分を表わし、したがって、対象市場の全てのソースからの全ての用語の正統的な検索の量を表わす。ＣＶ_ｔｓｍは、式（３）に関連して上述した通りである。したがって、比率ＣＶ_ｔｓｍ／ＣＶ_ｓｍは、最新近の２４時間の対象ソースからの対象市場における全ての検索用語に対する対象用語の検索の比率を表わす。対照ソースからの全ての検索用語に対する観察検索量にそのような比率を乗算することにより、対象市場における対象ソースからの対象用語に対する正統的な検索の真の量の予想が推定される。
【００７１】
この合理的な予想にチューニング係数ｋ_ｔ／ｓを乗算することにより、対象ソースから受け取る検索量の部分の日毎の変化を、検索の非正統的なあふれと知覚することなく許容することができる。この例示的実施形態では、ｋ_ｔ／ｓは１．１であり、対象ソースの全ての検索用語に対する対象用語の検索量の比率は日によって１０パーセント成長することが許容される。
【００７２】
上記の式（１）の加重平均は特定の単一計算予想に対する依存性を回避し、上述した加重およびチューニング係数は、検索量の経験が累積されるにつれて正統的な検索の最大予想トラフィックをより正確に表わすように調整することができる。
【００７３】
集計検索レコード１２０４が統計的に予想検索活動と異ならない場合、つまり式（１）に従って決定された最大予想検索量以下である場合、処理は次のステップ１４１４（図１４）に移り、次の集計検索レコードが、ステップ１４０２〜１４１４のループに従って、検索データ分析モジュール４０８によって処理される。逆に、集計検索レコード１２０４（図１３）が統計的に予想検索活動とは異なる場合、つまり式（１）に従って決定された最大予想検索量を超える場合、処理はステップ１４０８に移る。
【００７４】
ステップ１４０８で、検索データ分析モジュール４０８は、非正統的な検索照会に帰属可能な集計検索レコード１２０４の部分を推定する。この例示的実施形態では、推定部分は、カウント１３０２が式（１）に従って決定された最大予想検索量を超える数値差分である。
【００７５】
ステップ１４１０で、検索データ分析モジュール４０８は、ステップ１４０８からの推定部分を、生検索フィルタ４０４によって非正統的とマークされた個々の検索の個数だけ低減する。ステップ１４１２で、検索データ分析モジュール４０８は、生検索データフィード４０２の多数の検索レコードを無作為に選択して非正統的とマークする。その個数は、ステップ１４０８で推定され、ステップ１４１０で調整された非正統的な検索の数に等しい。調整された推定部分が非正数の場合、ステップ１４１２は飛ばされる。さらに、検索データ分析モジュール４０８は、生検索フィルタ４０４によってまだ非正統的とマークされていない検索レコードだけを無作為に選択する。
【００７６】
以下の例は解説である。クリーン検索集計ウィンドウ５０８および上記の式（１）は、所与の市場で所与のソースから所与の用語に対し２０００件の検索が予想されることを想定していると考慮する。その用語、ソース、および市場の組合せに対し３０００件以上の検索が集計され、かつ検査ステップ１４０６で差が統計的に有意であると決定されたと考慮する。したがって１０００件の検索は非正統的であると推定される。生検索フィルタ４０４が６００件の個別検索を非正統的として識別したと想定する。したがって、４００件の検索は非正統的であると推定されるが、識別されていない。ステップ１４１２で、検索データ分析モジュール４０８は、生検索フィルタ４０４によってまだ非正統的と識別されていない２４００件の検索から４００件の検索を無作為に選択し、これら４００件の無作為に選択された検索を非正統的とマークする。
【００７７】
ステップ１４１２で、処理は次のステップ１４１４（図１４）に移り、次の集計検索レコードが、ステップ１４０２〜１４１４のループに従って検索データ分析モジュール４０８によって処理される。用語、ソース、および市場の全ての組合せがステップ１４０２〜１４１４のループに従って処理されると、処理はステップ１４１６に移り、非正統的とマークされた全ての検索レコードが生検索データフィード４０２から除去され、選別済み検索データフィード４１０が生成される。
【００７８】
したがって、個別に識別された非正統的な検索は、検索活動の異常が検出されたときに多数の無作為に選択された他の検索と同様に、生検索データフィード４０２から除去される。したがって、選別済み検索データフィード４１０は、正真正銘の検索照会を提出するユーザの実際の活動をより正確に反映する。
【００７９】
上述の通り、選別済み検索データフィード４１０は、検索活動の予想レベルを決定するために異常分析モジュール４０６Ａによって使用され、かつ検査活動分析モジュールの適用で説明した方法で個々の検索リストの性能を評価するために検索リストカラー（ｌｉｓｔｃｕｌｌｅｒ）３０４によって使用される。その結果、個々の検索リストの性能評価は非正統的な検索によって不当に影響されない。
【００８０】
上記の説明は単なる例示であって、限定ではない。本発明は請求の範囲およびそれらの全範囲の均等物によってのみ定義される。
【図面の簡単な説明】
【００８１】
【図１】図１は、相互に広域ネットワークに接続されたホストコンピュータ、クライアントコンピュータ、および本発明に係る検索エンジンを示すブロック図である。
【図２】図２は、検索エンジンをより詳細に示すブロック図である。
【図３】図３は、図２の検索エンジンの検索活動分析モジュールを示すブロック図である。
【図４】図４は、図３の検索活動分析モジュールの検索要求フィルタをより詳細に示すブロック図である。
【図５】図５は、図４の検索要求フィルタの異常分析モジュールをより詳細に示すブロック図である。
【図６】図６は、図４の検索要求フィルタによって分析される生検索データのブロック図である。
【図７】図７は、図６の生検索データの検索レコードのより詳細なブロック図である。
【図８】図８は、本発明に係る図４の検索要求フィルタによる生検索データの処理を示す論理流れ図である。
【図９】図９は、図８の論理流れ図の一部分のより詳細な論理流れ図である。
【図１０】図１０は、図８の論理流れ図の一部分のより詳細な論理流れ図である。
【図１１】図１１は、図１０の論理流れ図の一部分のより詳細な論理流れ図である。
【図１２】図１２は、図４の検索要求フィルタによって分析された集計検索データのブロック図である。
【図１３】図１３は、図１２の生検索データの集計検索レコードのより詳細なブロック図である。
【図１４】図１４は、本発明に係る図４の検索要求フィルタによる、選別済み生検索データおよび集計検索データの処理を示す論理流れ図である。

【特許請求の範囲】
【請求項１】
非正当な検索照会を検出するための方法であって、該方法が、
一つまたはそれ以上の受信した検索照会のうちの各対象照会に対し、
対象検索照会を提出したユーザエージェントを識別することと、
該ユーザエージェントを一つまたはそれ以上の予め定められた正当なユーザエージェントと比較することと、
該ユーザエージェントが該予め定められた正当なユーザエージェントのいずれにも合致しない条件下で、該対象検索照会を非正当とマークすることと、
を含む方法。
【請求項２】
前記識別することが、
前記対象検索照会の提出と共にユーザによって提出されるフォームデータに関連付けられる環境変数を表わすデータを検索すること、
を含む、請求項１に記載の方法。
【請求項３】
検索照会のデータベースから非正当とマークされた検索照会を除去し、それによって前記データベースを人間のユーザの検索挙動をより正確に表わすものとすること、
をさらに含む、請求項１に記載の方法。
【請求項４】
それぞれのネットワークアドレスから各々受信された非正当な検索照会を検出するための方法であって、
検索照会のうちの一つまたはそれ以上の選択された検出照会およびそれぞれ該検索照会の前に提出された検出照会が該同一ネットワークアドレスから受信された場合に、該検索照会が各々、該それぞれ前に提出された検出照会の提出時間で予め定められた時間未満内に提出されたかどうかを決定すること、および
該選択された検索照会を非正当とマークすること、
を含む方法。
【請求項５】
前記決定することが、
前記対象検索照会の提出と共にユーザによって提出されたフォームデータに関連付けられる環境変数を表わすデータを検索することによって、前記検索照会がどのネットワークアドレスから受信されたかを決定すること、
を含む、請求項４に記載の方法。
【請求項６】
前記選択された検索照会を検索照会のデータベースから除去し、それによって前記データベースを人間のユーザの検索挙動をより正確に表わすものとすること、
をさらに含む、請求項４に記載の方法。
【請求項７】
それぞれのネットワークアドレスから各々受信された非正当な検索照会を検出するための方法であって、
検索照会のうちの一つまたはそれ以上の選択された検出照会およびそれぞれ該検索照会の前に提出された検出照会が該同一ネットワークアドレスから受信された場合に、該選択された検索照会が各々、予め定められた量未満で変動する時間間隔で提出されたかどうかを決定すること、および
該選択された検索照会を非正当とマークすること、
を含む方法。
【請求項８】
前記決定することが、
前記対象検索照会の提出と共にユーザによって提出されたフォームデータに関連付けられる環境変数を表わすデータを検索することによって、前記検索照会がどのネットワークアドレスから受信されたかを決定すること、
を含む、請求項７に記載の方法。
【請求項９】
前記選択された検索照会を検索照会のデータベースから除去し、それによって前記データベースを人間のユーザの検索挙動をより正確に表わすものとすること、
をさらに含む、請求項７に記載の方法。
【請求項１０】
前記決定することが、
前記選択された検索照会の受信間の時間間隔の標準偏差を決定すること、
を含む、請求項７に記載の方法。
【請求項１１】
検索照会のデータベースが人間の検索挙動を表わす精度を改善するための方法であって、該方法が、
検索照会の数量を検索照会の予想数量と比較することと、
該検索照会の数量が該検索照会の予想数量を少なくとも予め定められた限界量だけ超えることを決定することと、
前記検索が該予想数量を超える量に従って、該数量の検索照会の回数を選択することと、
該選択された回数の検索照会を該数量から除去すること、
を含む方法。
【請求項１２】
前記数量および前記予想数量が、特定の検索用語を含む検索照会に対応する、請求項１１に記載の方法。
【請求項１３】
前記数量および前記予想数量が、特定の地理的領域に特定の検索照会に対応する、請求項１１に記載の方法。
【請求項１４】
前記数量が時間窓にわたって標本抽出される、請求項１１に記載の方法。
【請求項１５】
前記時間窓が１５分である、請求項１４に記載の方法。
【請求項１６】
前記時間窓が２４時間である、請求項１４に記載の方法。
【請求項１７】
検索照会の前記予想数量を決定すること、
をさらに含む、請求項１１に記載の方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【公表番号】特表２００６−５２５６０３（Ｐ２００６−５２５６０３Ａ）
【公表日】平成１８年１１月９日（２００６．１１．９）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２００６−５１３４３４（Ｐ２００６−５１３４３４）
【出願日】平成１６年４月３０日（２００４．４．３０）
【国際出願番号】ＰＣＴ／ＵＳ２００４／０１３２２８
【国際公開番号】ＷＯ２００４／１０００４６
【国際公開日】平成１６年１１月１８日（２００４．１１．１８）
【公序良俗違反の表示】
（特許庁注：以下のものは登録商標）
Ｌｉｎｕｘ
【出願人】（５００２４００３６）オーバーチュア　サービシズ　インコーポレイテッド (15)
【Ｆターム（参考）】

検索装置 (67,127)
- システム／伝送 (5,454)
  - システム形態 (3,415)

[ Back to top ]

広域ネットワーク検索エンジンに提出された不適切な検索照会の検出

メニュー

スポンサーリンク

次の公報 »

« 前の公報

広域ネットワーク検索エンジンに提出された不適切な検索照会の検出

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク