説明

複数のサーバにより順次行われる処理の状態を確認するシステム、方法及び検索エンジン

【課題】複数のサーバにより順次行われる処理の状態を確認し、当該順次行われる処理を中断することなく問題を引き起こしているサーバを特定することが可能なシステムを提供すること。
【解決手段】検索エンジン(1)のデータ解析部(11)は、複数の解析サーバ(20)と集約サーバ(30)とから構成され、解析サーバ(20)の各々が、URLにより識別されるクロールデータに対して順次処理を行うことで検索用インデックスを作成するための前処理を行い、当該処理のトランザクションログを記憶する。解析サーバ(20)は、集約サーバ(30)からURLを指定する状態確認要求を受け付けると、当該URLに対応するトランザクションログを抽出し、集約サーバ(30)に送信する。集約サーバ(30)は、受信したトランザクションログから、各解析サーバ(20)の処理の内容を特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のサーバにより順次行われる処理の状態を確認するシステム、方法及び検索エンジンに関する。特に、複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステム、方法及び検索エンジンに関する。
【背景技術】
【0002】
従来、インターネットの検索サイトでは、ユーザによるキーワード入力等の検索要求に応じて、検索結果をリストとしてユーザに提供するサービスが行われている。このような検索サイトの運営側は、通常、クローラ或いはロボットと呼ばれるプログラムを備える検索エンジンを用いて、インターネット上のWebページにある文書や画像等のデータを収集している。
【0003】
ここで、検索エンジンに関して、世界中で次々に更新されるWebページに対応するための技術が提供されている。例えば、特許文献1に記載の技術によれば、アクセスすべき特定サイトに関する情報、当該特定サイトの情報収集を開始する日時を示す情報等を記憶しておき、現在時刻が情報収集開始時刻と一致すると判定した場合に情報収集を開始することで、Webクローラがインターネット上のWebページを効率良く収集する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004−318746号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、検索エンジンでは、このようなWebクローラにより収集されたデータに対して、メタデータを付加したり、予め定められたブラックリストに掲載されているか否かをチェックする等の様々な処理を行うデータ解析部が設けられ、データ解析部により処理されたデータに索引(インデックス)等をつけてデータベースに記憶する。そして、ユーザによる検索要求に応じた検索結果リストを、当該データベースを参照して作成し、ユーザの端末に送信している。
【0006】
ここで、ユーザの端末に送信される検索結果リストでは、検索キーワードに対する優先度(スコア)に基づいて、ヒットしたWebページが所定の順序(ランキング)で表示される。このような検索キーワードに対する順序は、Webページへのアクセス頻度に多大な影響を与えるため、Webページを管理する管理人にとって非常に重要なものとなっている。そのため、検索サイトの運営側は、検索結果内の順序に対して多大な関心を払っており、異常な順序の変動があった場合には、その原因を早急に特定し対応する必要がある。
【0007】
検索結果リスト内における順序の変動は多数の原因により起こるものであるが、インデックス作成前に行われるデータ解析部の処理にもその一因があることが知られている。ここで、データ解析部は、複数のサーバにより構成され、Webクローラが収集したデータに対して当該複数のサーバが順次処理を実行するよう構成されている。そのため、検索結果リスト内における順序に異常な変動があった場合、データ解析部のどの段階で異常な変動が発生したか確認することが困難であるという問題があった。
また、近年では、検索エンジンに基づくサービスは、停止することなく常時連続して提供されることが求められている。そのため、異常の確認に際しては、データ解析部の処理、すなわち、複数のサーバにより順次行われる処理を中断することなく、問題となるサーバを特定することが望まれる。
【0008】
本発明はこのような問題に鑑みてなされたものであり、複数のサーバにより順次行われる処理の状態を確認し、当該順次行われる処理を中断することなく問題を引き起こしているサーバを特定することのできるシステム、方法及び検索エンジンに関する。
【課題を解決するための手段】
【0009】
本発明では、以下のような解決手段を提供する。
【0010】
(1) 所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステムであって、前記複数のサーバの各々に設けられ、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて記憶する複数のトランザクションログ記憶手段と、前記所定のキーを指定する状態確認要求を受け付けたことに応じて、当該キーに対応付けられたトランザクションログを前記複数のトランザクションログ記憶手段の各々から抽出するログ抽出手段と、抽出した前記複数のトランザクションログを集約するログ集約手段と、を備えるシステム。
【0011】
(1)のシステムによれば、所定のキーにより識別されるデータに対して複数のサーバが処理を実行すると、その処理内容であるトランザクションログがトランザクションログ記憶手段に記憶される。そして、所定のキーを指定する状態確認要求を受け付けると、当該キーに対応付けられたトランザクションログが抽出され、集約される。これにより、所定のキーにより識別されるデータに対して当該複数のサーバの各々が実行した処理の内容を当該抽出されたトランザクションログを介して把握可能となり、当該複数のサーバにより順次行われる処理の状態を当該集約されたトランザクションログを介して確認することができる。
また、状態確認要求を受け付けた場合にトランザクションログを抽出するため、複数のサーバで順次行われる(メイン)処理に影響を与えることがない。
したがって、複数のサーバにより順次行われる処理を中断することなく当該複数のサーバの処理の内容を把握することが可能となり、問題を引き起こしているサーバを特定することができる。
【0012】
(2) 前記状態確認要求は、前記所定のキーの指定に加え、前記複数のサーバを識別するサーバ識別情報の指定を含み、前記ログ抽出手段は、前記状態確認要求に含まれるキーに対応付けられたトランザクションログを、前記サーバ識別情報により識別されるサーバに設けられたトランザクションログ記憶手段から抽出する(1)に記載のシステム。
【0013】
(2)のシステムによれば、複数のサーバのうち状態確認要求に含まれるサーバ識別情報により識別される特定のサーバからトランザクションログを抽出する。これにより、複数のサーバにより順次行われる処理において異常が発生した場合に、その原因となる処理を行ったと推測されるサーバのみの処理内容を確認することができ、システム全体として新たな処理を行うサーバの数を限定して処理の負荷を抑制しつつ、原因を早急に特定することができる。
【0014】
(3) 所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステムであって、前記複数のサーバの各々に設けられ、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて記憶する複数のトランザクションログ記憶手段と、前記複数のトランザクションログ記憶手段の各々に記憶されたトランザクションログを所定の周期で抽出するログ抽出手段と、抽出した前記複数のトランザクションログを、前記所定のキー及び前記複数のサーバを識別するサーバ識別情報に対応付けて集約するログ集約手段と、を備えるシステム。
【0015】
(3)のシステムによれば、所定の周期で抽出されるトランザクションログを確認することで、複数のサーバにより順次行われる処理の状態を確認することができる。
【0016】
(4) 所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定する方法であって、コンピュータが、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて、前記複数のサーバの各々に設けられたトランザクションログ記憶手段に記憶するステップと、前記所定のキーを指定する状態確認要求を受け付けたことに応じて、当該キーに対応付けられたトランザクションログを前記複数のトランザクションログ記憶手段の各々から抽出するステップと、抽出した前記複数のトランザクションログを集約するステップと、を含む方法。
【0017】
(5) Webページの巡回を行いクロールデータの収集を行うWebクローラと、前記Webクローラが収集した前記クロールデータから検索用インデックスに用いられるデータを作成するデータ解析部と、前記データ解析部により作成されたデータに基づいて、検索用インデックスを作成するインデクサと、前記インデクサにより作成された検索用インデックスを用いてユーザからの検索要求に応答する検索サーバと、を備える検索エンジンであって、前記データ解析部は、前記クロールデータを順次処理して前記検索用インデックスに用いられるデータを作成する複数のサーバと、前記複数のサーバの処理結果を集約する集約サーバと、を備え、前記複数のサーバの各々は、処理を実行するたびに、当該処理に伴うトランザクションログを前記クロールデータに対応するWebページのURLに対応付けて記憶するトランザクションログ記憶手段と、前記URLを指定する状態確認要求を受け付けたことに応じて、当該URLに対応付けられたトランザクションログを前記トランザクションログ記憶手段から抽出し、前記集約サーバに送るログ抽出手段と、を備え、前記集約サーバは、受け付けた複数の前記トランザクションログを集約するログ集約手段を備える検索エンジン。
【0018】
(4)の方法又は(5)の検索エンジンによれば、(1)のシステムと同様の効果を奏する。特に、(5)の検索エンジンによれば、複数のサーバから構成されるデータ解析部のどの段階で検索結果リスト内における順序の異常な変動が発生したか確認することができる。
【発明の効果】
【0019】
本発明によれば、複数のサーバにより順次行われる処理の状態を確認し、当該順次行われる処理を中断することなく問題を引き起こしているサーバを特定することができる。
【図面の簡単な説明】
【0020】
【図1】本発明の検索エンジンの全体構成を示す図である。
【図2】本発明のデータ解析部の構成を示す図である。
【図3】本発明のデータ解析部による処理の内容であるトランザクションログ示す図である。
【図4】本発明のデータ解析部により行われるメイン処理を示すフローチャートである。
【図5】本発明のデータ解析部により行われるログ集約処理を示すフローチャートである。
【図6】変形実施形態のデータ解析部により行われるログ集約処理を示すフローチャートである。
【発明を実施するための形態】
【0021】
(実施形態)
以下、本発明の複数のサーバにより順次処理を行うシステムについて、当該システムの好適な一例であるデータ解析部11を含む検索エンジン1について説明する。なお、本発明は複数のサーバにより順次処理を行うシステムであれば適用可能であり、検索エンジン1のデータ解析部11に限られるものではない。
【0022】
[検索エンジンの構成]
図1は、本発明の検索エンジン1の全体構成を示す図である。
検索エンジン1は、Webクローラ10と、データ解析部11と、インデクサ12と、検索サーバ13と、から構成される。
【0023】
Webクローラ10は、インターネット上のWebページを定期的に巡回するプログラムであり、HTML(HyperText Markup Language)内のリンクをたどり様々なWebページのデータを自動的に収集する。Webクローラ10が収集したWebページのデータ(以下、「クロールデータ」という)は、当該WebページのURL(Uniform Resource Locator)に対応付けられて図示しないクロールデータベース(以下、「データベース」を「DB」とする)に格納される。本実施の形態では、「所定のキー」としてURLを用い、「所定のキーにより識別されるデータ」としてクロールデータを用いている。
【0024】
データ解析部11は、複数の解析サーバ20A・・・20Nにより構成され、URLにより識別されるクロールデータに対して、複数の解析サーバ20A・・・20Nが順次処理を実行することで、検索用インデックスを生成するための一連の前処理を行う。
前処理として、データ解析部11は、例えば、クロールデータに対して、HTMLタグの除去、メタデータの付加、スコア判定等の処理を順次行う。「HTMLタグの除去」は、例えば、タイトルタグ内に規定される当該Webページのタイトルを抽出すること等をいい、また、「メタデータの付加」は、例えば、パスの長さ、当該Webページのキーワード、HTMLサイズ等を抽出すること等をいい、また、「スコア判定」は、例えば、アダルトスコアやNGスコア等の各種スコアを算出するとともに、算出したスコアが閾値を超えているか否かを判定すること等をいう。なお、スコア判定により閾値を超えていると判定された場合には、対応するスコアに応じた処理が行われ、例えば、NGスコアが閾値を超えている場合には、検索結果として表示しないという処理が行われる。
なお、データ解析部11(解析サーバ20)により処理が行われるたびにクロールDBが更新される。
【0025】
インデクサ12は、データ解析部11により更新されたクロールDB内のデータ等を解析し、検索用インデックス121を作成する。インデクサ12は、例えば、被リンク情報に基づいて順位付けされた検索用インデックス121を作成することができ、また、Webページのキーワードとタイトルとの関係から順位付けされた検索用インデックス121を作成することができる。
【0026】
検索サーバ13は、ユーザ端末2から受信した検索キーワードに対して、検索用インデックス121を参照して検索結果リストを作成し、当該検索結果リストをユーザ端末2に返信する。
【0027】
このように、検索エンジン1では、Webクローラ10、データ解析部11及びインデクサ12により作成された検索処理のための検索用インデックス121を用いて、ユーザ端末2からの検索要求に応えるように構成されている。
【0028】
[データ解析部の構成]
続いて、本発明の好適な実施形態であるデータ解析部11の具体的な構成について説明する。図2は、データ解析部11の構成を示すブロック図である。
【0029】
データ解析部11は、URLにより識別されるクロールデータに対して順次処理を行う複数の解析サーバ20A、20B・・・20Nと、解析サーバ20A、20B・・・20Nにおける処理の状態を確認する集約サーバ30と、を含んで構成される。本実施の形態では、クロールデータに対して、解析サーバ20Aから解析サーバ20B・・・解析サーバ20Nの順に処理を行っている。
【0030】
解析サーバ20Aは、メイン処理手段21Aと、トランザクションログ記憶手段22Aと、ログ抽出手段23Aと、を含んで構成される。
なお、解析サーバ20B・・・20Nの構成は、解析サーバ20Aの構成と同じである。すなわち、解析サーバ20B・・・20Nは、メイン処理手段21B・・・21Nと、トランザクションログ記憶手段22B・・・22Nと、ログ抽出手段23B・・・23Nと、を含んで構成される。以下、それぞれを区別しない場合には、単に「解析サーバ20」、「メイン処理手段21」、「トランザクションログ記憶手段22」、「ログ抽出手段23」とする。
【0031】
メイン処理手段21は、クロールデータに対して様々な処理を実行し、クロールDBを更新する。例えば、メイン処理手段21は、HTMLタグの除去、メタデータの付加、スコア判定等の処理を行い、処理に伴う値をクロールDBに入力する。メイン処理手段21により行われた処理の内容(トランザクションログ)は、次の順序の解析サーバ20に送信される。
【0032】
トランザクションログ記憶手段22は、前の順序の解析サーバ20から受信したトランザクションログを記憶する。これにより、解析サーバ20のメイン処理手段21がクロールデータに対して処理を実行するたびに、その処理の内容がURLに対応付けられてトランザクションログ記憶手段22に記憶されていく。
トランザクションログ記憶手段22に記憶されたトランザクションログは、メイン処理手段21により読み出され、その後、メイン処理手段21により処理が実行される。このようなトランザクションログ記憶手段22に記憶されたトランザクションログの読み出しと、その後のメイン処理手段21による処理とが、データ解析部11の主な処理(検索用インデックスを生成するための一連の前処理)である。
【0033】
なお、本実施の形態では、トランザクションログ記憶手段22に、前の順序の解析サーバ20の行った処理の内容を記憶することとしているが、処理を実行した後に自ら備えるトランザクションログ記憶手段22に自らが行った処理の内容を記憶することとしてもよい。すなわち、本実施の形態では、解析サーバ20Aのメイン処理手段21Aが行った処理の内容は、次の順序である解析サーバ20Bのトランザクションログ記憶手段22Bに記憶されることとしているが、解析サーバ20Aのメイン処理手段21Aが行った処理の内容を解析サーバ20Aのトランザクションログ記憶手段22Aに記憶することとしてもよい。
【0034】
ログ抽出手段23は、集約サーバ30からのURLを指定する状態確認要求を受け付けると、トランザクションログ記憶手段22から、このURLにより識別されるクロールデータに対応付けられたトランザクションログを抽出し、集約サーバ30に送信する。
【0035】
集約サーバ30は、ログ要求手段31と、ログ集約手段32と、から構成される。
【0036】
ログ要求手段31は、状態確認要求を解析サーバ20に対して送信し、当該状態確認要求に対応するトランザクションログを解析サーバ20から受信する。ここで、状態確認要求には、URLに加え、解析サーバ20A・・・20Nの種別を示すサーバ識別情報(例えば、IPアドレス等)を含むこととしてもよい。状態確認要求にサーバ識別情報が含まれることで、複数の解析サーバ20A・・・20Nのうち、任意の解析サーバ20からのみ、トランザクションログを取得することができる。
【0037】
ログ集約手段32は、取得したトランザクションログを集約することで、URLにより識別されるクロールデータに対する処理の状態を管理者が確認可能にする。
【0038】
ここで、図3は、URL「http://www.abcdefg.co.jp/index.html」により識別されるクロールデータに対するトランザクションログを示し、図3(1)は、解析サーバ20Aのトランザクションログを示し(解析サーバ20Bのトランザクションログ記憶手段22Bに記憶されている)、図3(2)は、解析サーバ20Bのトランザクションログを示す(解析サーバ20Cのトランザクションログ記憶手段22Cに記憶されている)。
トランザクションログは、クロールDBの更新内容を示しており、所定の項目に対して入力する値を規定している。例えば、図3(1)を参照して、処理200Aは、クロールDBの「URL」項目に対して、「http://www.abcdefg.co.jp/index.html」という値を入力することを意味する。
【0039】
ログ集約手段32は、取得したトランザクションログから、各解析サーバ20により行われた処理の内容を抽出する。例えば、解析サーバ20Aのトランザクションログと、解析サーバ20Bのトランザクションログとから、解析サーバ20Aにより行われた処理200を抽出し、解析サーバ20Bにより行われた処理201を抽出する。
【0040】
ログ集約手段32により抽出された各解析サーバ20の処理から、管理者は、URLにより識別されるクロールデータに対する処理の状態を確認することができる。例えば、「http://www.abcdefg.co.jp/index.html」のWebページが検索エンジン1において検索結果として表示されないという異常が発生した場合には、管理者は、解析サーバ20Bの処理201Aにより、検索結果として表示しないことを示すNGスコアの計算結果が所定値以上と判定されたことが原因ではないかと把握することができる。
【0041】
このように本実施の形態に係るデータ解析部11では、ログ抽出手段23がメイン処理手段21とは別に独立して、トランザクションログ記憶手段22からトランザクションログを抽出するため、データ解析部11の主な処理(検索用インデックスを生成するための一連の前処理)に影響を与えることなく、複数の解析サーバ20の各々が実行した処理の状態を確認することができる。すなわち、管理者は、解析サーバ20により順次行われる処理を中断することなく、その処理の内容を把握でき、また、問題を引き起こしている解析サーバ20を特定することができる。
【0042】
なお、解析サーバ20及び集約サーバ30のハードウェアは、一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、解析サーバ20及び集約サーバ30を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現する。
【0043】
[データ解析部の処理]
次に、データ解析部11の処理について説明する。図4は、各解析サーバ20により行われるメイン処理のフローチャートであり、図5は、各解析サーバ20により行われる処理の状態を確認するログ集約処理のフローチャートである。
【0044】
図4を参照して、メイン処理について説明する。
S1:解析サーバ20の制御部は、前の順序の解析サーバ20のメイン処理手段21が実行した処理の内容を示すトランザクションログを受信する。
【0045】
S2:続いて、解析サーバ20の制御部は、受信したトランザクションログを、記憶部(トランザクションログ記憶手段22)に記憶する。
【0046】
S3:続いて、解析サーバ20の制御部(メイン処理手段21)は、記憶部(トランザクションログ記憶手段22)に記憶されたトランザクションログを読み出し、当該トランザクションログに対応付けられたURLにより識別されるクロールデータに対して、検索用インデックスを生成するための一連の前処理を行う。
【0047】
S4:続いて、解析サーバ20の制御部は、メイン処理手段21による処理の内容(トランザクションログ)を、次の順序の解析サーバ20に送信し、各解析サーバ20により行われるメイン処理を終了する。
【0048】
次に、図5を参照して、ログ集約処理について説明する。ログ集約処理は、図4のメイン処理と並列して行われる処理である。
【0049】
S11:集約サーバ30の制御部(ログ要求手段31)は、解析サーバ20に対して状態確認要求を送信する。ここで、状態確認要求には、処理の状態を確認したいクロールデータを識別するURLを少なくとも含むものとする。なお、複数の解析サーバ20のうち何れで異常が発生したかを推測可能な場合(例えば、特定の解析サーバのバージョンを変更した直後等)には、当該解析サーバ20を識別するIPアドレス等のサーバ識別情報も状態確認要求に含めることが好ましい。
【0050】
S12:続いて、解析サーバ20の制御部(ログ抽出手段23)は、状態確認要求を受信すると、記憶部(トランザクションログ記憶手段22)から、状態確認要求に含まれるURLに対応付けられたトランザクションログを抽出する。
このとき、状態確認要求にサーバ識別情報が含まれる場合には、当該サーバ識別情報により識別される解析サーバ20のログ抽出手段23のみが、トランザクションログを抽出する。なお、状態確認要求にサーバ識別情報が含まれる場合には、そもそも当該サーバ識別情報により識別される解析サーバ20にのみ状態確認要求が送信され、他の解析サーバ20には状態確認要求が送信されないこととしてもよい。
【0051】
S13:続いて、解析サーバ20の制御部(ログ抽出手段23)は、抽出したトランザクションログを集約サーバ30に送信する。
【0052】
S14:続いて、集約サーバ30の制御部(ログ集約手段32)は、受信したトランザクションログを集約し、各解析サーバ20により行われた処理の内容を抽出する。その後、ログ集約処理を終了する。
【0053】
このように、本実施の形態に係るデータ解析部11では、URLにより識別されるクロールデータに対して複数の解析サーバ20の各々が実行した処理の内容を、トランザクションログを介して特定できる。その結果、複数の解析サーバ20により順次行われる処理の状態を、管理者が確認することができる。特に、ログ集約処理は、メイン処理と並列して行われるため、メイン処理の流れを止めることなく複数の解析サーバ20により順次行われる処理の状態を確認できる。
【0054】
このとき、ログ抽出手段23は、ログ要求手段31から状態確認要求を受け付けた場合にのみトランザクションログを抽出するとともに、メイン処理手段21とは別に独立してトランザクションログを抽出するため、データ解析部11の主な処理に影響を与えることなく複数の解析サーバ20の各々が実行した処理の状態を確認することができる。
【0055】
また、状態確認要求に解析サーバ20の各々を識別するサーバ識別情報も含めることで、異常が発生した場合にその原因となる処理を行ったと推測される解析サーバ20の処理内容のみを確認することができ、システム全体として新たな処理を行う解析サーバ20の数を限定して処理の負荷を抑制しつつ、原因を早急に特定することができる。
【0056】
(変形形態)
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【0057】
なお、上記実施形態では、ログ抽出手段23は、状態確認要求を受け付けた場合にトランザクションログを抽出することとしているが、これに限られるものではなく、図6に示すように、設定された任意の抽出タイミングで抽出することとしてもよい。図6を参照して、変形形態のログ集約処理Aについて説明する。
【0058】
S21:解析サーバ20の制御部(ログ抽出手段23)は、抽出タイミングであるか否かを判定する。抽出タイミングは、任意に設定可能であり、例えば、5分等の定期的な間隔であってよい。S21において抽出タイミングである場合には、S22の処理に移り、抽出タイミングでない場合には、抽出タイミングになるまでS21の処理を繰り返す。
【0059】
S22:続いて、解析サーバ20の制御部(ログ抽出手段23)は、記憶部(トランザクションログ記憶手段22)から、トランザクションログを抽出する。
【0060】
S23:続いて、解析サーバ20の制御部(ログ抽出手段23)は、抽出したトランザクションログを、集約サーバ30に送信する。
【0061】
S24:続いて、集約サーバ30の制御部(ログ集約手段32)は、受信したトランザクションログを、当該トランザクションログに対応付けられたURL、及び受信した解析サーバ20の種別を識別するサーバ識別情報に対応付けて集約する。
【0062】
これにより、複数の解析サーバ20により順次行われる処理において指定したURLをキーとして集約サーバ30に集約されたトランザクションログを予め設定した任意のタイミングで確認することで、指定したURLに対する処理の状態を監視することができる。
【0063】
なお、図6では、ログ抽出手段23がトランザクションログを抽出するタイミングを任意のタイミングにすることとしているが、ログ抽出手段23が集約サーバ30にトランザクションログを送信するタイミングを任意のタイミングとしてもよい。具体的には、トランザクションログ記憶手段22にトランザクションログが記憶されるたびに、ログ抽出手段23が当該トランザクションログを抽出し、その後、所定の周期(例えば、5分間隔)で集約サーバ30にトランザクションログを送信することとしてもよい。
【符号の説明】
【0064】
1 検索エンジン
10 Webクローラ
11 データ解析部
12 インデクサ
13 検索サーバ
20 解析サーバ
21 メイン処理手段
22 トランザクションログ記憶手段
23 ログ抽出手段
30 集約サーバ
31 ログ要求手段
32 ログ集約手段

【特許請求の範囲】
【請求項1】
所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステムであって、
前記複数のサーバの各々に設けられ、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて記憶する複数のトランザクションログ記憶手段と、
前記所定のキーを指定する状態確認要求を受け付けたことに応じて、当該キーに対応付けられたトランザクションログを前記複数のトランザクションログ記憶手段の各々から抽出するログ抽出手段と、
抽出した前記複数のトランザクションログを集約するログ集約手段と、
を備えるシステム。
【請求項2】
前記状態確認要求は、前記所定のキーの指定に加え、前記複数のサーバを識別するサーバ識別情報の指定を含み、
前記ログ抽出手段は、前記状態確認要求に含まれるキーに対応付けられたトランザクションログを、前記サーバ識別情報により識別されるサーバに設けられたトランザクションログ記憶手段から抽出する
請求項1に記載のシステム。
【請求項3】
所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステムであって、
前記複数のサーバの各々に設けられ、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて記憶する複数のトランザクションログ記憶手段と、
前記複数のトランザクションログ記憶手段の各々に記憶されたトランザクションログを所定の周期で抽出するログ抽出手段と、
抽出した前記複数のトランザクションログを、前記所定のキー及び前記複数のサーバを識別するサーバ識別情報に対応付けて集約するログ集約手段と、
を備えるシステム。
【請求項4】
所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定する方法であって、
コンピュータが、
前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて、前記複数のサーバの各々に設けられたトランザクションログ記憶手段に記憶するステップと、
前記所定のキーを指定する状態確認要求を受け付けたことに応じて、当該キーに対応付けられたトランザクションログを前記複数のトランザクションログ記憶手段の各々から抽出するステップと、
抽出した前記複数のトランザクションログを集約するステップと、
を含む方法。
【請求項5】
Webページの巡回を行いクロールデータの収集を行うWebクローラと、前記Webクローラが収集した前記クロールデータから検索用インデックスに用いられるデータを作成するデータ解析部と、前記データ解析部により作成されたデータに基づいて、検索用インデックスを作成するインデクサと、前記インデクサにより作成された検索用インデックスを用いてユーザからの検索要求に応答する検索サーバと、を備える検索エンジンであって、
前記データ解析部は、前記クロールデータを順次処理して前記検索用インデックスに用いられるデータを作成する複数のサーバと、前記複数のサーバの処理結果を集約する集約サーバと、を備え、
前記複数のサーバの各々は、
処理を実行するたびに、当該処理に伴うトランザクションログを前記クロールデータに対応するWebページのURLに対応付けて記憶するトランザクションログ記憶手段と、
前記URLを指定する状態確認要求を受け付けたことに応じて、当該URLに対応付けられたトランザクションログを前記トランザクションログ記憶手段から抽出し、前記集約サーバに送るログ抽出手段と、
を備え、
前記集約サーバは、受け付けた複数の前記トランザクションログを集約するログ集約手段を備える
検索エンジン。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2011−215857(P2011−215857A)
【公開日】平成23年10月27日(2011.10.27)
【国際特許分類】
【出願番号】特願2010−83026(P2010−83026)
【出願日】平成22年3月31日(2010.3.31)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】